云霞资讯网

浙江大学团队研究: AI操控电脑时,怎样让它学会"看不清就放大"?

这项由浙江大学与蚂蚁集团联合开展的研究,发表于2026年4月,论文编号为arXiv:2604.14113,题为"UI-Z

这项由浙江大学与蚂蚁集团联合开展的研究,发表于2026年4月,论文编号为arXiv:2604.14113,题为"UI-Zoomer: Uncertainty-Driven Adaptive Zoom-In for GUI Grounding"。感兴趣的读者可通过该编号在arXiv平台检索完整论文。

每天,我们都在电脑屏幕上点击各种各样的小图标——那个小得像芝麻粒一样的"关闭"按钮、密密麻麻挤在一起的工具栏选项、藏在角落里的设置齿轮。对人类来说,眼睛没看清楚的时候,我们会本能地凑近屏幕或者把屏幕放大再看。但对于那些被训练来自动操作电脑界面的AI来说,这个"没看清就放大"的本能,却长期是一个没有被认真解决的问题。

浙江大学和蚂蚁集团的研究团队注意到了这个盲区。他们开发了一套名为UI-Zoomer的框架,专门解决AI在执行"图形界面定位"任务(简单说就是"看图找按钮")时遇到的难题。这套框架的核心思路异常朴素:只有在AI自己也没把握的时候,才去放大图像仔细再看;而且放大多少,也要根据AI的不确定程度来动态决定,而非一刀切。这个研究不需要重新训练AI模型,可以直接套用在已有的模型上,在多个测试基准中带来了最高13.4%的准确率提升。

一、AI操控电脑,为何"小图标"是一道难关

要理解这项研究,先得弄清楚一件事:什么叫做"图形界面定位",以及它为什么难。

现代AI助手越来越多地被要求直接操作电脑,比如帮用户打开某个设置、点击某个按钮、在复杂的软件界面里找到一个特定的功能选项。这类任务的本质,就是AI拿到一张电脑截图和一句描述(比如"点击拼写检查按钮"),然后输出一个坐标,告诉执行程序该点哪里。

听起来不复杂,但现实中的屏幕往往令人抓狂。4K分辨率的专业设计软件界面上,一个图标可能只占整张截图面积的千分之一;CAD制图软件、科学数据分析工具的工具栏里,几十个相似的小图标挤在一起,差一个像素就点错了。AI模型在处理这类截图时,面临的困境类似于你站在十米外看一张密密麻麻的菜单,要说清楚第三行第七个字是什么——眼神再好,也有极限。

现有的解决思路里,有一类叫做"测试时放大"的方法,思路就是把截图裁一块出来放大后重新让AI看,提高有效分辨率。这个方向确实有效,但已有的方法有两个共同的硬伤。

第一个硬伤是"不管三七二十一,统统放大"。有的方法对每一张截图都做一遍放大再推理,不管AI对这张图本来有没有把握。研究团队做了一个直观的实验:在ScreenSpot-v2这个测试集上,加了无差别放大操作之后,准确率从81.84%反而跌到了77.20%,推理时间却从35分47秒暴涨到6小时43分钟。原因很直白——那些AI本来就能看清楚的简单情况,被强制放大之后反而失去了整体布局信息,越看越糊涂。

第二个硬伤是"放大多少,凭感觉拍脑袋"。无论哪种方法,裁切窗口的大小都是事先固定的比例,比如统一裁截图面积的30%或50%,完全不管当前这张图里AI的预测是聚在一起还是散得到处都是。裁太大,分辨率没提升多少;裁太小,又可能把关键上下文信息切掉。

UI-Zoomer的目标,就是同时解决这两个硬伤。

二、核心思路:用AI自己的"犹豫程度"来决定要不要放大、放大多少

UI-Zoomer的整体逻辑,可以用一个日常场景来理解。假设你是个经验丰富的医生在读X光片,大多数片子一眼就能给出诊断,但遇到某张片子你反复看了几次,每次看感觉焦点都不在同一个地方,而且你自己也不太确定——这时候你才会说"把这个区域放大打印一下"。更重要的是,你会根据自己"犹豫"的范围来决定放大哪一块:如果几次观察都觉得问题在同一个小区域附近,就放大那一小块;如果每次感觉问题区域都不一样,分散在好几处,就把那几处都囊括进来放大。

UI-Zoomer对AI做的,正是这同一件事。整个流程分三个阶段。

第一阶段叫做"多次随机采样"。研究团队让AI对同一张截图和同一个指令,在稍微放松的状态下(用技术语言说叫"温度0.9的随机采样")独立回答8次,每次都给出一个预测的边界框(即AI认为目标按钮在哪里的矩形区域)。这8个答案不是完全相同的,因为加了随机性之后,AI每次思考时会有轻微的波动。你可以把这8次回答理解成让8个医生独立看同一张X光片,分别写下自己的判断。

第二阶段叫做"可靠性门控"。拿到8个预测之后,需要判断AI到底有没有把握。研究团队用了两种互补的信号来衡量这件事。一种叫"空间一致性",就是看这8个预测框互相之间的重叠程度——如果8个框都堆在一起,说明AI每次都指向同一个地方,非常一致,显然是有把握的;如果8个框散落在截图的不同角落,说明AI自己也拿不定主意。另一种叫"平均置信度",就是看AI在生成每个坐标数字时,对自己输出的每个字符有多确定——这个可以从模型内部的概率分数直接读取。把这两个信号加在一起,得到一个综合的"可靠性分数"。

如果可靠性分数超过了一个预设阈值,说明AI是有把握的,直接用"投票"方法选出最佳答案就好:从8个预测里选出和其他预测框重叠最多的那个,作为最终答案。这个过程完全不需要再额外推理一次,既省时间又不损失精度。

如果可靠性分数没过阈值,说明AI在这个问题上真的不确定,这才进入第三阶段。

第三阶段叫做"不确定性驱动的自适应裁切"。这是UI-Zoomer最精妙的部分——裁切窗口的大小,完全由AI预测的"分散程度"来决定。

研究团队在这里用了一个统计学上的工具,叫做"全方差分解"。通俗地说,他们把AI预测的总体不确定性分成了两部分:一部分来自"8次预测的中心点散布有多广",另一部分来自"每个预测框本身有多大"。前者反映的是AI对目标位置本身的困惑——不同预测指向不同的位置;后者反映的是AI认为目标元素本身可能有多大——即使每次都指向同一个地方,如果预测框本身很大,也说明目标元素可能相当宽泛。把这两部分加起来,就得到了总体的不确定性范围,裁切半径就等于这个范围乘以一个缩放系数。

具体操作时还有一些工程细节。为了防止少数几个极度离谱的预测把整体方差拉得过大,系统会先过滤掉距离中位数最远的25%的预测,只用最靠近中心的75%来估算裁切范围。裁切框统一变成正方形,因为长条形的裁切区域容易让AI误解空间布局。如果算出来的裁切框超出了图像边界,就把整个框平移进来,保持大小不变,而不是把框缩小或截断——因为保持大小才能保证分辨率的提升效果。

裁切出来的区域被放大到模型的标准输入尺寸后,AI再做一次确定性推理(温度设为0),得到精细化的定位结果。最后,这个在裁切区域内的坐标还要经过一步换算,映射回原始截图的全局坐标,才是最终的点击位置。

三、实验结果:在不同难度的考场上检验成绩

为了验证UI-Zoomer的有效性,研究团队在三个不同的测试基准上进行了评估,每个基准代表不同的难度和应用场景。

ScreenSpot-Pro是最难的一个,专门针对4K分辨率的专业桌面软件,涵盖开发工具、创意设计软件、CAD制图、科学计算、Office办公和操作系统六类应用,共23款软件,目标元素普遍非常小且密集。UI-Vision覆盖83个真实世界的桌面应用,包含基础元素定位、功能性操作和空间布局三类任务。ScreenSpot-v2则是一个多平台基准,包含移动端、桌面端和网页端,整体难度相对较低,面向标准分辨率界面。

研究团队在四个基础模型上分别测试了UI-Zoomer的效果:通用视觉语言模型Qwen2.5-VL-7B,以及专门针对GUI任务优化过的GUI-G2-7B、UI-Venus-7B和UI-Venus-72B。后三个模型都通过强化学习进行了专项训练,本身就具备较强的图形界面理解能力。

在ScreenSpot-Pro上,四个模型加上UI-Zoomer之后,准确率提升幅度相当显著。Qwen2.5-VL-7B从27.6%跃升到41.0%,提升了13.4个百分点。GUI-G2-7B从48.7%提升到61.4%,提升了12.7个百分点。UI-Venus-7B从50.0%提升到61.8%,提升了11.8个百分点。最大体量的UI-Venus-72B从59.2%提升到67.8%,提升了8.6个百分点。

在UI-Vision上,UI-Venus-7B的平均准确率从24.4%提升到33.7%,提升幅度达到9.3个百分点,Qwen2.5-VL-7B的提升则高达10.3个百分点。在相对容易的ScreenSpot-v2上,提升幅度较小但依然稳定,UI-Venus-7B提升了0.9个百分点,Qwen2.5-VL-7B提升了4.2个百分点。

这个规律本身就很有意思:越难的测试场景,UI-Zoomer带来的提升越大。这完全符合预期——高分辨率的专业软件界面上,小图标的定位问题最突出,放大操作带来的收益也最明显。反过来在相对简单的移动端界面上,AI本来就能看清楚大多数元素,放大操作的必要性就低得多。

值得关注的还有一个细节:在图标类目标上,UI-Zoomer带来的提升(平均+12.5个百分点)始终高于文字类目标(平均+11.1个百分点)。这也符合直觉——纯文字的按钮包含语义信息,AI即使在低分辨率下也能通过文字内容推断;而图标完全依赖视觉细节,分辨率不足时就真的看不出是什么了,放大之后收益自然更大。

与同类方法的横向比较同样值得审视。之前的DiMo-GUI方法对每个样本无差别地进行放大推理,在ScreenSpot-Pro上只达到了49.7%;RegionFocus触发机制依赖执行错误反馈,只达到32.1%。UI-Zoomer的UI-Venus-7B版本达到61.8%,明显优于这两者。与暴力多次采样取最优的pass@8方法(58.2%)相比,UI-Zoomer以相近的推理预算达到了更高的准确率,说明关键不只是多采样,而是怎么用好采样结果。

四、每个设计细节背后的道理:拆解消融实验

研究团队做了大量的消融实验,验证每一个设计选择的必要性。这些实验的结论,进一步解释了为什么UI-Zoomer要这样设计而不是那样设计。

关于可靠性门控的两个信号,单独使用空间一致性时准确率是60.81%,单独使用平均置信度时是61.10%,两者结合后是61.80%。数字差异不大,但统计意义上两者的互补性从分布形态上就能看出来:空间一致性的分布很分散,能区分"预测框到底聚不聚"的情况;平均置信度的分布比较集中,能区分"模型对坐标数字有没有把握"的情况。两个信号各有侧重,组合后比任何一个单独用都更可靠。

关于方差分解,只用来自"框内尺寸"的内部方差时准确率60.97%,只用来自"预测框中心点散布"的跨样本方差时是61.42%,两者合用是61.80%。这个结果验证了把不确定性分成两个来源的合理性:目标本身有多大(内部方差)和AI在哪里有分歧(跨样本方差)是两件不同的事,缺少任何一个都会导致裁切区域的估算出现偏差。

关于裁切策略,固定80%比例裁切准确率只有55.22%,固定50%是59.58%,固定30%是61.35%,而自适应方法是61.80%。固定比例方法的尴尬在于:比例太大,放大效果有限;比例太小,上下文信息丢失。更糟的是,同一个固定比例对不同难度的图片表现差异极大,而自适应方法能根据当前情况动态调整,从根本上规避了这个两难困境。

关于边界处理,当裁切窗口延伸到图像边界外时,三种处理方式的效果分别是:缩小窗口58.47%,硬截断60.25%,平移窗口61.80%。平移方法之所以最好,是因为它保持了裁切窗口的实际大小不变,意味着放大后的分辨率始终是预期水平;缩小和截断都会减少看到的内容,可能恰好把目标元素边缘切掉。

关于保留候选比例,保留全部预测(100%)时准确率60.03%,保留最近的50%时是60.37%,保留最近的75%时是61.80%。这说明少量极端离谱的预测确实会把整体方差估算拉偏,但过度过滤又会损失有效信息,75%是一个经过验证的平衡点。

关于是否强制方形裁切,非方形时60.56%,强制方形后61.80%,提升了1.24个百分点。强制方形减少了长条形裁切框对模型空间理解的干扰,这在界面元素宽高比变化很大的情况下尤其重要。

关于采样温度,从0.1到0.9准确率持续上升,从54.46%上升到61.80%,在1.0时略有回落。这表明多样性对于估算裁切区域至关重要——温度太低时,8个预测几乎完全相同,等于没有采样,方差估算毫无意义;温度太高则引入纯随机噪声。0.9是最佳点。

关于候选数量,从2到8个准确率持续上升,在8个时达到61.80%,之后在12和16个时略有下降。超过8个之后,额外的预测开始引入冗余甚至噪声,反而稍微拖累了方差估算的质量。

五、它什么时候管用,什么时候还是会栽跟头

研究团队展示的案例分析,给出了对UI-Zoomer边界的直观理解。

在成功案例中,典型情形是:AI的8次初始预测虽然散落在一定范围内,没有一个精确命中,但整体分布合理地包围了目标区域。UI-Zoomer据此圈定了一个合适的裁切范围,放大之后AI一眼就锁定了目标。这说明即使初始预测不够精准,只要"集体犯错"的方向是正确的,放大这个方向就能成功。

在失败案例中,有两类典型情形。一类是界面上存在多个外观几乎相同的图标,而目标是其中一个,AI每次预测可能都指向不同的相似图标,裁切范围虽然覆盖了某个区域,但放大后依然无法区分。另一类是目标极小且视觉特征非常微弱,即使放大之后,模型也没有足够的线索做出正确判断。这两类失败揭示了UI-Zoomer的根本局限:它能改善分辨率,但无法凭空增加视觉区分度,当目标本身与周围环境在视觉上高度相似时,放大也无济于事。

关于门控阈值的调节,实验结果呈现出一条清晰的规律:阈值太低,几乎没有样本被送去放大,等于退化成基线方法;阈值太高,几乎所有样本都被放大,等于无差别放大,准确率反而下降,推理时间也接近翻倍。最优的阈值范围在中间,让大约20%到55%的样本接受放大处理。此外,桌面和网页界面从放大操作中获益更多,移动端界面元素相对较大且布局更规整,放大的必要性更低。

说到底,UI-Zoomer做的事情听起来非常简单,却填补了一个长期存在的空白:让AI知道自己什么时候在猜,并在猜测的时候采取有针对性的措施,而不是要么完全不管,要么对所有情况统统加码处理。

这对普通人的意义,在不远的将来会越来越具体。当AI助手被要求帮你操作电脑、填写表格、在复杂软件里找到某个隐藏功能时,它们面临的正是这类"小图标、密排版"的难题。UI-Zoomer这套框架不需要重新训练模型,可以作为一个"外挂"直接套在已有的AI模型上,带来实质性的准确率提升,同时通过门控机制避免了不必要的计算开销。

当然,当界面上存在大量视觉相似的小图标时,单纯提高分辨率并不足够,AI还需要更深层的语义理解能力——这是这项研究坦然承认的局限,也是未来工作需要继续推进的方向。有兴趣进一步了解技术细节的读者,可以在arXiv平台上以编号2604.14113检索原始论文。

Q&A

Q1:UI-Zoomer是否需要重新训练AI模型才能使用?

A:不需要。UI-Zoomer是一个无需训练的框架,可以直接套用在已有的AI模型上使用,不改变模型本身的参数。它的工作方式是在推理阶段对AI的输出进行分析,决定是否需要裁切放大,属于"测试时"的增强手段。

Q2:UI-Zoomer的门控机制是如何判断AI"没把握"的?

A:门控机制结合了两个信号。第一个是"空间一致性",即让AI对同一张截图采样8次,看8次预测框的重叠程度是否高——重叠少说明AI每次都指向不同位置,表明不确定。第二个是"平均置信度",直接读取AI生成坐标时对每个数字的内部概率分数。两个信号加总后与阈值比较,低于阈值才触发放大流程。

Q3:为什么无差别地对所有图片都放大反而会让准确率下降?

A:因为对于AI本来就能看清楚的简单界面,强制裁切放大会去掉原本对AI有帮助的整体布局信息。AI在看完整截图时能利用上下文来推断按钮位置,裁切之后上下文丢失,反而增加了判断难度。实验数据显示,无差别放大让ScreenSpot-v2上的准确率从81.84%下降到77.20%,推理时间却增加了近11倍。