浙江大学团队研究: AI操控电脑时，怎样让它学会"看不清就放大"？

这项由浙江大学与蚂蚁集团联合开展的研究，发表于2026年4月，论文编号为arXiv:2604.14113，题为"UI-Zoomer: Uncertainty-Driven Adaptive Zoom-In for GUI Grounding"。感兴趣的读者可通过该编号在arXiv平台检索完整论文。

每天，我们都在电脑屏幕上点击各种各样的小图标——那个小得像芝麻粒一样的"关闭"按钮、密密麻麻挤在一起的工具栏选项、藏在角落里的设置齿轮。对人类来说，眼睛没看清楚的时候，我们会本能地凑近屏幕或者把屏幕放大再看。但对于那些被训练来自动操作电脑界面的AI来说，这个"没看清就放大"的本能，却长期是一个没有被认真解决的问题。

浙江大学和蚂蚁集团的研究团队注意到了这个盲区。他们开发了一套名为UI-Zoomer的框架，专门解决AI在执行"图形界面定位"任务（简单说就是"看图找按钮"）时遇到的难题。这套框架的核心思路异常朴素：只有在AI自己也没把握的时候，才去放大图像仔细再看；而且放大多少，也要根据AI的不确定程度来动态决定，而非一刀切。这个研究不需要重新训练AI模型，可以直接套用在已有的模型上，在多个测试基准中带来了最高13.4%的准确率提升。

一、AI操控电脑，为何"小图标"是一道难关

要理解这项研究，先得弄清楚一件事：什么叫做"图形界面定位"，以及它为什么难。

现代AI助手越来越多地被要求直接操作电脑，比如帮用户打开某个设置、点击某个按钮、在复杂的软件界面里找到一个特定的功能选项。这类任务的本质，就是AI拿到一张电脑截图和一句描述（比如"点击拼写检查按钮"），然后输出一个坐标，告诉执行程序该点哪里。

听起来不复杂，但现实中的屏幕往往令人抓狂。4K分辨率的专业设计软件界面上，一个图标可能只占整张截图面积的千分之一；CAD制图软件、科学数据分析工具的工具栏里，几十个相似的小图标挤在一起，差一个像素就点错了。AI模型在处理这类截图时，面临的困境类似于你站在十米外看一张密密麻麻的菜单，要说清楚第三行第七个字是什么——眼神再好，也有极限。

现有的解决思路里，有一类叫做"测试时放大"的方法，思路就是把截图裁一块出来放大后重新让AI看，提高有效分辨率。这个方向确实有效，但已有的方法有两个共同的硬伤。

第一个硬伤是"不管三七二十一，统统放大"。有的方法对每一张截图都做一遍放大再推理，不管AI对这张图本来有没有把握。研究团队做了一个直观的实验：在ScreenSpot-v2这个测试集上，加了无差别放大操作之后，准确率从81.84%反而跌到了77.20%，推理时间却从35分47秒暴涨到6小时43分钟。原因很直白——那些AI本来就能看清楚的简单情况，被强制放大之后反而失去了整体布局信息，越看越糊涂。

第二个硬伤是"放大多少，凭感觉拍脑袋"。无论哪种方法，裁切窗口的大小都是事先固定的比例，比如统一裁截图面积的30%或50%，完全不管当前这张图里AI的预测是聚在一起还是散得到处都是。裁太大，分辨率没提升多少；裁太小，又可能把关键上下文信息切掉。

UI-Zoomer的目标，就是同时解决这两个硬伤。

二、核心思路：用AI自己的"犹豫程度"来决定要不要放大、放大多少

UI-Zoomer的整体逻辑，可以用一个日常场景来理解。假设你是个经验丰富的医生在读X光片，大多数片子一眼就能给出诊断，但遇到某张片子你反复看了几次，每次看感觉焦点都不在同一个地方，而且你自己也不太确定——这时候你才会说"把这个区域放大打印一下"。更重要的是，你会根据自己"犹豫"的范围来决定放大哪一块：如果几次观察都觉得问题在同一个小区域附近，就放大那一小块；如果每次感觉问题区域都不一样，分散在好几处，就把那几处都囊括进来放大。

UI-Zoomer对AI做的，正是这同一件事。整个流程分三个阶段。

第一阶段叫做"多次随机采样"。研究团队让AI对同一张截图和同一个指令，在稍微放松的状态下（用技术语言说叫"温度0.9的随机采样"）独立回答8次，每次都给出一个预测的边界框（即AI认为目标按钮在哪里的矩形区域）。这8个答案不是完全相同的，因为加了随机性之后，AI每次思考时会有轻微的波动。你可以把这8次回答理解成让8个医生独立看同一张X光片，分别写下自己的判断。

第二阶段叫做"可靠性门控"。拿到8个预测之后，需要判断AI到底有没有把握。研究团队用了两种互补的信号来衡量这件事。一种叫"空间一致性"，就是看这8个预测框互相之间的重叠程度——如果8个框都堆在一起，说明AI每次都指向同一个地方，非常一致，显然是有把握的；如果8个框散落在截图的不同角落，说明AI自己也拿不定主意。另一种叫"平均置信度"，就是看AI在生成每个坐标数字时，对自己输出的每个字符有多确定——这个可以从模型内部的概率分数直接读取。把这两个信号加在一起，得到一个综合的"可靠性分数"。

如果可靠性分数超过了一个预设阈值，说明AI是有把握的，直接用"投票"方法选出最佳答案就好：从8个预测里选出和其他预测框重叠最多的那个，作为最终答案。这个过程完全不需要再额外推理一次，既省时间又不损失精度。

如果可靠性分数没过阈值，说明AI在这个问题上真的不确定，这才进入第三阶段。

第三阶段叫做"不确定性驱动的自适应裁切"。这是UI-Zoomer最精妙的部分——裁切窗口的大小，完全由AI预测的"分散程度"来决定。

研究团队在这里用了一个统计学上的工具，叫做"全方差分解"。通俗地说，他们把AI预测的总体不确定性分成了两部分：一部分来自"8次预测的中心点散布有多广"，另一部分来自"每个预测框本身有多大"。前者反映的是AI对目标位置本身的困惑——不同预测指向不同的位置；后者反映的是AI认为目标元素本身可能有多大——即使每次都指向同一个地方，如果预测框本身很大，也说明目标元素可能相当宽泛。把这两部分加起来，就得到了总体的不确定性范围，裁切半径就等于这个范围乘以一个缩放系数。

具体操作时还有一些工程细节。为了防止少数几个极度离谱的预测把整体方差拉得过大，系统会先过滤掉距离中位数最远的25%的预测，只用最靠近中心的75%来估算裁切范围。裁切框统一变成正方形，因为长条形的裁切区域容易让AI误解空间布局。如果算出来的裁切框超出了图像边界，就把整个框平移进来，保持大小不变，而不是把框缩小或截断——因为保持大小才能保证分辨率的提升效果。

裁切出来的区域被放大到模型的标准输入尺寸后，AI再做一次确定性推理（温度设为0），得到精细化的定位结果。最后，这个在裁切区域内的坐标还要经过一步换算，映射回原始截图的全局坐标，才是最终的点击位置。

三、实验结果：在不同难度的考场上检验成绩

为了验证UI-Zoomer的有效性，研究团队在三个不同的测试基准上进行了评估，每个基准代表不同的难度和应用场景。

ScreenSpot-Pro是最难的一个，专门针对4K分辨率的专业桌面软件，涵盖开发工具、创意设计软件、CAD制图、科学计算、Office办公和操作系统六类应用，共23款软件，目标元素普遍非常小且密集。UI-Vision覆盖83个真实世界的桌面应用，包含基础元素定位、功能性操作和空间布局三类任务。ScreenSpot-v2则是一个多平台基准，包含移动端、桌面端和网页端，整体难度相对较低，面向标准分辨率界面。

研究团队在四个基础模型上分别测试了UI-Zoomer的效果：通用视觉语言模型Qwen2.5-VL-7B，以及专门针对GUI任务优化过的GUI-G2-7B、UI-Venus-7B和UI-Venus-72B。后三个模型都通过强化学习进行了专项训练，本身就具备较强的图形界面理解能力。

在ScreenSpot-Pro上，四个模型加上UI-Zoomer之后，准确率提升幅度相当显著。Qwen2.5-VL-7B从27.6%跃升到41.0%，提升了13.4个百分点。GUI-G2-7B从48.7%提升到61.4%，提升了12.7个百分点。UI-Venus-7B从50.0%提升到61.8%，提升了11.8个百分点。最大体量的UI-Venus-72B从59.2%提升到67.8%，提升了8.6个百分点。

在UI-Vision上，UI-Venus-7B的平均准确率从24.4%提升到33.7%，提升幅度达到9.3个百分点，Qwen2.5-VL-7B的提升则高达10.3个百分点。在相对容易的ScreenSpot-v2上，提升幅度较小但依然稳定，UI-Venus-7B提升了0.9个百分点，Qwen2.5-VL-7B提升了4.2个百分点。

这个规律本身就很有意思：越难的测试场景，UI-Zoomer带来的提升越大。这完全符合预期——高分辨率的专业软件界面上，小图标的定位问题最突出，放大操作带来的收益也最明显。反过来在相对简单的移动端界面上，AI本来就能看清楚大多数元素，放大操作的必要性就低得多。

值得关注的还有一个细节：在图标类目标上，UI-Zoomer带来的提升（平均+12.5个百分点）始终高于文字类目标（平均+11.1个百分点）。这也符合直觉——纯文字的按钮包含语义信息，AI即使在低分辨率下也能通过文字内容推断；而图标完全依赖视觉细节，分辨率不足时就真的看不出是什么了，放大之后收益自然更大。

与同类方法的横向比较同样值得审视。之前的DiMo-GUI方法对每个样本无差别地进行放大推理，在ScreenSpot-Pro上只达到了49.7%；RegionFocus触发机制依赖执行错误反馈，只达到32.1%。UI-Zoomer的UI-Venus-7B版本达到61.8%，明显优于这两者。与暴力多次采样取最优的pass@8方法（58.2%）相比，UI-Zoomer以相近的推理预算达到了更高的准确率，说明关键不只是多采样，而是怎么用好采样结果。

四、每个设计细节背后的道理：拆解消融实验

研究团队做了大量的消融实验，验证每一个设计选择的必要性。这些实验的结论，进一步解释了为什么UI-Zoomer要这样设计而不是那样设计。

关于可靠性门控的两个信号，单独使用空间一致性时准确率是60.81%，单独使用平均置信度时是61.10%，两者结合后是61.80%。数字差异不大，但统计意义上两者的互补性从分布形态上就能看出来：空间一致性的分布很分散，能区分"预测框到底聚不聚"的情况；平均置信度的分布比较集中，能区分"模型对坐标数字有没有把握"的情况。两个信号各有侧重，组合后比任何一个单独用都更可靠。

关于方差分解，只用来自"框内尺寸"的内部方差时准确率60.97%，只用来自"预测框中心点散布"的跨样本方差时是61.42%，两者合用是61.80%。这个结果验证了把不确定性分成两个来源的合理性：目标本身有多大（内部方差）和AI在哪里有分歧（跨样本方差）是两件不同的事，缺少任何一个都会导致裁切区域的估算出现偏差。

关于裁切策略，固定80%比例裁切准确率只有55.22%，固定50%是59.58%，固定30%是61.35%，而自适应方法是61.80%。固定比例方法的尴尬在于：比例太大，放大效果有限；比例太小，上下文信息丢失。更糟的是，同一个固定比例对不同难度的图片表现差异极大，而自适应方法能根据当前情况动态调整，从根本上规避了这个两难困境。

关于边界处理，当裁切窗口延伸到图像边界外时，三种处理方式的效果分别是：缩小窗口58.47%，硬截断60.25%，平移窗口61.80%。平移方法之所以最好，是因为它保持了裁切窗口的实际大小不变，意味着放大后的分辨率始终是预期水平；缩小和截断都会减少看到的内容，可能恰好把目标元素边缘切掉。

关于保留候选比例，保留全部预测（100%）时准确率60.03%，保留最近的50%时是60.37%，保留最近的75%时是61.80%。这说明少量极端离谱的预测确实会把整体方差估算拉偏，但过度过滤又会损失有效信息，75%是一个经过验证的平衡点。

关于是否强制方形裁切，非方形时60.56%，强制方形后61.80%，提升了1.24个百分点。强制方形减少了长条形裁切框对模型空间理解的干扰，这在界面元素宽高比变化很大的情况下尤其重要。

关于采样温度，从0.1到0.9准确率持续上升，从54.46%上升到61.80%，在1.0时略有回落。这表明多样性对于估算裁切区域至关重要——温度太低时，8个预测几乎完全相同，等于没有采样，方差估算毫无意义；温度太高则引入纯随机噪声。0.9是最佳点。

关于候选数量，从2到8个准确率持续上升，在8个时达到61.80%，之后在12和16个时略有下降。超过8个之后，额外的预测开始引入冗余甚至噪声，反而稍微拖累了方差估算的质量。

五、它什么时候管用，什么时候还是会栽跟头

研究团队展示的案例分析，给出了对UI-Zoomer边界的直观理解。

在成功案例中，典型情形是：AI的8次初始预测虽然散落在一定范围内，没有一个精确命中，但整体分布合理地包围了目标区域。UI-Zoomer据此圈定了一个合适的裁切范围，放大之后AI一眼就锁定了目标。这说明即使初始预测不够精准，只要"集体犯错"的方向是正确的，放大这个方向就能成功。

在失败案例中，有两类典型情形。一类是界面上存在多个外观几乎相同的图标，而目标是其中一个，AI每次预测可能都指向不同的相似图标，裁切范围虽然覆盖了某个区域，但放大后依然无法区分。另一类是目标极小且视觉特征非常微弱，即使放大之后，模型也没有足够的线索做出正确判断。这两类失败揭示了UI-Zoomer的根本局限：它能改善分辨率，但无法凭空增加视觉区分度，当目标本身与周围环境在视觉上高度相似时，放大也无济于事。

关于门控阈值的调节，实验结果呈现出一条清晰的规律：阈值太低，几乎没有样本被送去放大，等于退化成基线方法；阈值太高，几乎所有样本都被放大，等于无差别放大，准确率反而下降，推理时间也接近翻倍。最优的阈值范围在中间，让大约20%到55%的样本接受放大处理。此外，桌面和网页界面从放大操作中获益更多，移动端界面元素相对较大且布局更规整，放大的必要性更低。

说到底，UI-Zoomer做的事情听起来非常简单，却填补了一个长期存在的空白：让AI知道自己什么时候在猜，并在猜测的时候采取有针对性的措施，而不是要么完全不管，要么对所有情况统统加码处理。

这对普通人的意义，在不远的将来会越来越具体。当AI助手被要求帮你操作电脑、填写表格、在复杂软件里找到某个隐藏功能时，它们面临的正是这类"小图标、密排版"的难题。UI-Zoomer这套框架不需要重新训练模型，可以作为一个"外挂"直接套在已有的AI模型上，带来实质性的准确率提升，同时通过门控机制避免了不必要的计算开销。

当然，当界面上存在大量视觉相似的小图标时，单纯提高分辨率并不足够，AI还需要更深层的语义理解能力——这是这项研究坦然承认的局限，也是未来工作需要继续推进的方向。有兴趣进一步了解技术细节的读者，可以在arXiv平台上以编号2604.14113检索原始论文。

Q&A

Q1：UI-Zoomer是否需要重新训练AI模型才能使用？

A：不需要。UI-Zoomer是一个无需训练的框架，可以直接套用在已有的AI模型上使用，不改变模型本身的参数。它的工作方式是在推理阶段对AI的输出进行分析，决定是否需要裁切放大，属于"测试时"的增强手段。

Q2：UI-Zoomer的门控机制是如何判断AI"没把握"的？

A：门控机制结合了两个信号。第一个是"空间一致性"，即让AI对同一张截图采样8次，看8次预测框的重叠程度是否高——重叠少说明AI每次都指向不同位置，表明不确定。第二个是"平均置信度"，直接读取AI生成坐标时对每个数字的内部概率分数。两个信号加总后与阈值比较，低于阈值才触发放大流程。

Q3：为什么无差别地对所有图片都放大反而会让准确率下降？

A：因为对于AI本来就能看清楚的简单界面，强制裁切放大会去掉原本对AI有帮助的整体布局信息。AI在看完整截图时能利用上下文来推断按钮位置，裁切之后上下文丢失，反而增加了判断难度。实验数据显示，无差别放大让ScreenSpot-v2上的准确率从81.84%下降到77.20%，推理时间却增加了近11倍。

云霞资讯网

浙江大学团队研究: AI操控电脑时，怎样让它学会"看不清就放大"？

热门分类