
这项由浙江大学、苹果公司及腾讯公司联合开展的研究发表于2026年(预印本编号arXiv:2604.13822v1,2026年4月15日公开),提出了一套名为UI-Copilot的智能手机操作辅助系统,以及配套的训练方法Tool-Integrated Policy Optimization(TIPO)。有兴趣深入了解的读者可以通过arXiv编号2604.13822查询完整论文。
手机已经成了我们日常生活的延伸。打开购物应用、查快递、比价格、填表格、记账单——这些事我们每天都在做,已经熟悉到不需要思考。但换个角度:如果这些事都要一个人工智能助手来替你完成,而且任务可能跨越十几个应用、需要记住几十步前看到的数字,AI还能应付得来吗?
这正是研究团队想解决的问题。他们的出发点,是当前最先进的AI手机助手在面对"长任务"时暴露出的三个根本性缺陷,而这三个缺陷,几乎会让任何一个普通人也感同身受。
一、AI助手为什么会"记性差"、"算错数"、"迷失方向"?
以一个具体例子来理解这三个问题:假设你让AI助手完成这样一个任务——"在必应App里查NVIDIA和苹果的股价,然后告诉我50股NVIDIA加上75股苹果一共值多少钱。"这个任务表面上简单,实际上要求AI分别打开应用查询两支股票的价格,记住这两个数字,再进行乘法和加法运算,最后给出答案。
研究团队测试了多个当前最先进的7B规模(70亿参数)AI助手,发现失败率极高。第一种失败叫**记忆衰退**:任务走到第15步时,AI早就把第9步看到的苹果股价"忘了",反而凭空捏造了一个错误数字继续往下算。第二种失败叫**进度混乱**:AI在浩繁的操作历史里迷路了,明明已经查完了所有股价,却不知道自己到了哪一步,要么重复操作,要么莫名其妙地提前宣告完成,要么任务还没做完就停下来。第三种失败叫**数学幻觉**:AI在心算乘法和加法时出错,算出来的结果和正确答案差了几千块。
这三种失败有一个共同根源,研究团队把它概括得很简洁:**AI被要求做的事情已经超出了它本身的能力范围**。当历史记录越堆越长,AI的"工作台"就越来越乱,判断力随之下降。就像一个厨师,如果让他同时记住三十道菜的配方、各自的进度、每个锅里的火候,他迟早也会搞错。
统计数据很能说明问题:在专门针对"记忆密集型"任务设计的评测基准MemGUI-Bench上,现有7B规模的AI助手的平均性能,相比短任务下降了整整**90.9%**。换句话说,短任务能做对的事,放到长任务里几乎全部失败。
二、解决方案:给AI助手配一个"随身小秘书"
研究团队的应对思路,可以用一个工作场景来类比。假设你是一位经理,需要完成一个复杂项目。过去的做法是让你把所有资料、所有笔记、所有计算都装在脑子里,同时还要指挥执行。这当然容易出错。新的做法是:**经理只管做决策和执行,而查资料、做计算这两件事,随时可以交给一位随叫随到的助理来完成。**
UI-Copilot正是这个思路的技术实现。系统由两个角色组成:一个是负责实际操控手机的**主控AI**(基于Qwen2.5VL-7B模型),另一个是轻量级的**副驾驶模型**(Qwen3-4B),随时待命。主控AI负责理解任务、规划步骤、点击屏幕,而副驾驶模型承担两项具体职责:一是**Retriever(检索者)**,当主控AI需要回想之前看到的信息时,它可以主动调用检索者去翻阅之前记录下来的"笔记",精准取回所需内容;二是**Calculator(计算者)**,当任务涉及数字运算时,它调用计算者生成并执行Python代码,直接返回精确结果,绕过AI自身不可靠的心算能力。
关键在于,副驾驶模型不是每一步都被调用,而是**按需启用**。主控AI在每一步都要自己判断:这一步我需要检索历史信息吗?需要做数学运算吗?还是我直接操作就好?这种"自主决定何时求助"的能力,正是整个系统设计的核心。
与此同时,研究团队还引入了一个叫**记忆解耦**的设计。传统的AI助手把所有思考过程和操作历史都堆在"对话记录"里,久而久之这份记录就变得极其臃肿,AI读起来费力,理解质量也随之下降。记忆解耦的做法是把"记录"分成两层:**对话历史只保留简洁的进度摘要**,比如"我已经查完了苹果的股价",而详细的观察内容(比如具体是多少钱、看到了什么界面)则单独存在一个本地文件里。当AI需要某条具体信息时,再调用检索者去文件里精准取回,而不是让AI自己在一份几千字的历史记录里艰难搜寻。
这个设计的比喻是:一个人在做项目时,不需要把所有资料都摊在桌子上,只需要在桌上放一张进度便签,资料本身整整齐齐归档在文件柜里,需要时随时取用。桌面清爽,思路自然清晰。
三、训练方法:怎么让AI学会"知道自己什么时候需要帮助"
光有这套框架还不够,关键问题是:**怎么训练主控AI,让它既能准确判断何时调用工具,又能在多步骤任务中稳定执行?**
研究团队设计了一套叫做Tool-Integrated Policy Optimization(TIPO,工具集成策略优化)的训练方法。这个方法的核心思想是**把两件事分开训练**:学习"什么时候调用哪个工具"是一件事,学习"怎么完成多步骤任务"是另一件事,两者分别优化,互不干扰。
训练数据从AndroidControl数据集出发,其中包含人工标注的手机操作轨迹。研究团队用GPT-4o对这些轨迹进行了"加工":为每一步生成了应当调用的工具、思考内容以及进度摘要,形成专家示范数据集。此外,他们还用GPT-4o为同一批任务生成了记忆密集型查询和计算型查询,专门用来训练工具调用能力。
训练分三个阶段进行。第一阶段是**冷启动**,通过监督式微调让AI先学会基本的输出格式和行为规范,建立一个稳定的起点。第二阶段是**工具调用强化学习**:对于每一个工具调用预测,系统给出一个即时奖励——格式正确时得一部分分,工具选择正确时再得另一部分分,两部分加权合并。这一步采用单步预测的方式进行,历史记录由专家数据提供(所谓"离线策略"),因为工具调用的训练不需要完整地走完整个任务流程。第三阶段是**多步骤行动强化学习**:这一步让AI在自己生成的历史记录上进行训练,也就是"在线策略",每一步的历史都是AI自己走出来的,而不是专家写好的。这样做的理由在于,实际使用时AI也是在自己的历史上操作,训练和使用环境一致,训练效果才能真正反映到部署表现上。
奖励计算也有巧思。行动步骤的奖励分三层:格式正确奖励、动作类型正确奖励、坐标或文字内容正确奖励,三层依次加权叠加,鼓励AI既做对"做什么",也做对"怎么做"。此外系统还引入了折扣未来奖励,让AI不仅关注当前这一步走得好不好,也关注整个任务后续的走向。为了确保训练信号足够丰富,系统还设置了一个最低优势方差阈值,如果一批样本的分数差异太小(说明AI对这批任务已经掌握得差不多了,没什么可学的),就继续采样更有挑战性的样本,直到满足阈值为止。
理论分析也为这套方法提供了支撑。研究团队用数学推导证明:如果在训练时用专家提供的历史记录,而不是AI自己走出来的历史,那么训练的梯度方向和实际部署时的优化目标之间存在系统性的偏差,用学术语言说就是"训练与推理不对齐"。而用自己生成的历史训练,这种偏差就会大幅消减。这个道理用日常经验来理解也直接明了:如果你练习驾驶时,每次都坐在别人开的车里只看不动手,那真正上路时一定会手生;只有自己开过足够多,才算真正掌握。
四、实验结果:数字说明了什么
在MemGUI-Bench这个专门评测记忆密集型和计算密集型长任务的基准上,UI-Copilot-7B取得了**pass@1准确率16.4%、pass@3准确率20.3%**的成绩,在所有7B规模的模型中排名第一,明显超过了此前最强的GUI-Owl-7B和UI-TARS-1.5-7B(两者最好成绩为10.2%)。
MemGUI-Bench之所以难,数字足以说明:这个基准的任务里有70.3%是记忆密集型,19.5%是计算密集型,平均每个任务需要36步才能完成,远高于AndroidWorld的8.4步均值。换个说法,它要求AI助手记住三十多步前看到的信息,还要在中途做计算,这对传统方法来说几乎是一道无法逾越的障碍。
与此同时,在更常规的动态任务基准AndroidWorld上,UI-Copilot-7B达到了**39.1%的准确率**,比基础Qwen2.5VL-7B模型提升了整整**17.1个百分点**,与闭源的GPT-4o(34.5%)相比也有明显优势。在MiniWob++上,UI-Copilot-7B达到61.2%,同样保持了强劲水准。
单步任务(不需要历史记忆的静态任务)上,UI-Copilot-7B同样表现稳健:在AndroidControl-High上,动作准确率达到82.9%,坐标定位准确率72.2%,步骤成功率71.8%;在GUI Odyssey上,坐标定位63.8%,步骤成功率57.2%。与基础模型相比,动作成功率提升了约19个百分点。这说明TIPO的训练不仅提升了长任务能力,也没有损害基础操作能力。
从训练动态来看,准确率在大约40步训练后趋于收敛,说明训练过程足够高效。工具调用频率在训练过程中稳步降低,说明AI逐渐学会了更加精准地判断"需不需要求助",而不是无差别地频繁调用。平均每个任务的执行步数也随训练推进而减少,这是进度混乱问题得到缓解的直接体现。
五、消融实验:拆开看,每一块都有用
为了验证各个设计选择是否真的有必要,研究团队做了大量的消融实验——也就是把系统里的某个部件拔掉或换掉,看看效果是否下降。
首先比较了三种历史管理方式:只保留动作和思考内容的传统方式(AT)、保留完整多轮上下文的方式(MC),以及只保留简洁进度摘要的新方式(MS)。结果表明,MS方式在准确率和执行步数上都优于前两者,验证了记忆解耦的有效性。
在工具组合上,只用Retriever或只用Calculator,效果都不如两者同时使用。同时使用时,在MemGUI-Bench上准确率达到36.4%、平均步数19.3步,在AndroidWorld上准确率66.7%、平均步数13.8步,综合表现最优。与每一步都强制调用副驾驶模型的"多智能体流程"相比,UI-Copilot的按需调用策略取得了相近甚至更好的准确率,同时步数更少,效率更高。
在副驾驶模型的选择上,Qwen3-4B的表现优于更小的Qwen3-0.6B和Qwen3-1.7B,也优于视觉语言模型Qwen2.5VL-7B。研究团队认为,Qwen3-4B的强项在于上下文理解和摘要能力,这正是检索任务的核心需求。
在训练范式上,监督微调(SFT冷启动)是必要的,去掉后性能下降明显。工具调用强化学习和行动强化学习缺一不可:前者提升工具使用准确率,后者稳定多步执行能力。在线策略(自生成历史)相比离线策略(专家历史)有显著优势,印证了理论分析的结论。
在训练数据比例上,行动数据与工具数据的比例定在600:2000时综合效果最好,进一步增大任何一方都不再带来明显提升,说明两类数据的比例有其最优区间。
六、哪些地方还没做好
研究团队在论文末尾也坦诚指出了当前系统的局限。目前副驾驶模型只包含Retriever和Calculator两种工具,而真实世界的手机操作任务往往还需要网络搜索、图像裁剪、文件管理等更多类型的辅助能力。如何将框架扩展到更丰富的工具集,是下一步研究的方向。
从失败案例来看,系统仍然存在三类典型问题:视觉感知和空间推理上的偏差(比如面对有障碍的迷宫,AI看不出障碍而反复执行错误操作)、任务进度判断的混淆(误以为某个子任务无法完成而提前终止整个任务)、以及计划与执行之间的不一致(AI在思考中说要继续,实际操作却选择了停止)。这三类问题揭示了当前AI助手在视觉理解、状态感知和执行一致性上仍有较大的提升空间。
---
归根结底,这项研究做的事情,是给AI手机助手配备了一套更合理的"分工"机制。过去是一个人扛所有,记忆、计算、操作全靠自己,压力大了就容易出错。现在是经理只管执行,遇到需要翻资料时叫一声检索者,遇到需要算数时叫一声计算者,整个流程清晰、专注、高效。
这对普通用户意味着,未来的手机AI助手在处理"查多个信息再综合计算"这类现实任务时,将变得更可靠。不只是帮你打开应用、点击按钮,而是真正理解你的意图、记住过程中收集到的信息、计算出准确结果,然后告诉你答案。
当然,这个领域依然在快速演进。工具种类的扩展、视觉感知能力的提升、执行一致性的改善,都是摆在研究者面前的真实挑战。感兴趣的读者可以通过arXiv编号2604.13822阅读完整论文,深入了解技术细节。
---
Q&A
Q1:UI-Copilot和普通AI手机助手的区别是什么?
A:普通AI助手把所有记忆、计算、操作都压在同一个模型上,任务步骤一多就容易出错。UI-Copilot把职责分开,主控AI只负责操作,需要查历史信息时调用Retriever,需要计算时调用Calculator,各司其职,不互相干扰。对话历史也只保留简洁进度摘要,详细内容另外存档,避免上下文过长导致的混乱。
Q2:TIPO训练方法和普通强化学习训练有什么不同?
A:普通强化学习通常用专家提供的历史数据训练,但实际部署时AI面对的是自己走出来的历史,两者不匹配会导致性能下降。TIPO把工具调用和行动执行分开训练,工具调用用离线数据,行动执行用AI自己生成的在线历史,确保训练和部署环境一致。研究团队还用数学推导证明了这种对齐的必要性。
Q3:MemGUI-Bench评测基准测的是什么类型的任务?
A:MemGUI-Bench专门针对记忆密集型和计算密集型的长流程手机操作任务,其中约70%的任务要求AI记住多个步骤前获取的信息,约20%需要做数学计算,平均每个任务需要36步才能完成。相比AndroidWorld的8.4步均值,难度大幅提升,是目前评测AI手机助手长任务能力最具挑战性的基准之一。