阿里巴巴与香港中文大学联手打造的职场全能测评体系

这项由阿里巴巴Qwen团队与香港中文大学联合开展的研究，以预印本形式发布于2026年4月，论文编号为arXiv:2604.10866，感兴趣的读者可通过该编号查阅完整原文。

假设你是一家大型医院的院长，正在考虑引入一个AI系统帮助急诊室护士做分诊判断。你最想知道什么？当然是这个AI到底靠不靠谱——它能否在嘈杂、混乱、数据不完整的真实环境里稳定工作，而不只是在教科书式的完美场景下表现优异。遗憾的是，在这项研究诞生之前，没有任何一个测评体系能告诉你答案。

这正是OCCUBENCH（职业能力基准测评）要解决的核心问题。研究团队发现，现有的AI智能体测评，基本都只覆盖了网页浏览、代码编写、桌面操作这几个有现成测试环境的领域，而医疗、金融、法律、制造、能源、物流这些真正需要AI大展身手的行业，却几乎是测评的空白地带。原因并不复杂：这些行业的系统都关在企业防火墙后面，没有公开接口，更无法随意接入外部测试。

研究团队给出的解法，可以用一个比喻来理解：假设你想测验一个厨师能不能做日本料理，但你既没有日本食材，也没有专业厨房，怎么办？你可以请一位深度了解日本料理的美食评论家扮演"模拟厨房"，他根据自己的知识判断厨师的每一步操作是否合理，给出相应的"食材反馈"和"烹饪结果"。这位美食评论家，就是研究团队所说的"语言世界模型"（Language World Model，简称LWM）——用大型语言模型（LLM）本身来扮演各种专业环境，充当AI智能体的交互对象和考官。

正是凭借这个核心思路，研究团队构建了一个覆盖100个真实职业场景、横跨10大行业类别、涉及65个专业细分领域、共计382道测试题的评测基准OCCUBENCH。这是目前已知范围最广、职业覆盖最全的AI智能体专业能力评测体系。

一、为什么需要一个"职场版"AI考场

要理解这项研究的意义，不妨先盘点一下现有的AI智能体测评都在测什么。WebArena测的是在真实网站上完成任务，比如在电商平台下单或在论坛发帖。OSWorld测的是操控电脑桌面，比如用办公软件整理文件。SWE-bench测的是在代码仓库里修复程序Bug。TAU-bench稍微进了一步，测的是在零售和航空公司的API上处理客服问题。

这些测评都很有价值，但它们有一个共同的硬伤：只能测能拿到环境的领域。核电站安全监控系统？没有公开环境。海关进出口申报系统？没有可用接口。医院急诊分诊流程？没有外部入口。温室大棚灌溉控制系统？没有测试平台。这不是几个特例，而是绝大多数高价值专业场景的普遍处境。

更重要的是，即便是已有测评的领域，现有体系也有两个严重不足。第一，扩展成本极高——要给WebArena增加一个新行业，就得从头部署和配置整套网络应用，工程量巨大。第二，所有现有测评都只考"顺风顺水"的情况，没有任何一个系统性地测试AI在"环境出故障"时的应对能力。然而在现实职场里，API超时、数据残缺、系统返回错误，这些都是家常便饭，而不是极端情况。

正因如此，研究团队提出了"语言世界模型"这个概念。其核心逻辑是：只要一个大语言模型对某个专业领域有足够深入的理解，它就能模拟出该领域的工具调用环境——就像那位深谙日本料理的美食评论家能模拟出一个可信的日式厨房一样。这样一来，构建测试环境就从一个繁重的工程问题，变成了一个相对轻量的配置问题，测评的覆盖范围也从"有公开环境的领域"扩展到了"任何LLM能理解的领域"。

二、"模拟厨房"是怎么搭建的

要让大语言模型扮演好"模拟考场"这个角色，研究团队为每一个测试场景设计了一套精密的配置方案，包含四个核心组件。

第一个组件是系统提示词，它定义了这个模拟环境的运行规则、仿真逻辑、错误处理方式和输出格式。比如在酒店收益管理场景里，系统提示词会明确告诉模拟器：ADR（平均每日房价）、入住率和总收益之间是什么计算关系，超出库存范围的预订请求应该如何响应。这就相当于给模拟厨房贴上了"操作手册"。

第二个组件是工具定义，它规定了被测AI智能体可以使用哪些工具、每个工具接受什么参数、会返回什么格式的数据。每个测试场景包含2到10个工具，中位数是5个。这就相当于告诉进入模拟厨房的厨师：这里有哪些锅碗瓢盆可以使用。

第三个组件是初始状态，是一个结构化的JSON对象，描述环境的起始条件。急诊室场景里，初始状态可能包括候诊队列里有哪些病人、各诊室的占用情况；核电站场景里，初始状态可能包含各个传感器的当前读数和报警状态。这就是模拟厨房开始营业时"冰箱里有什么食材"的清单。

第四个组件是状态描述，为每个状态字段提供语义标注，告诉模拟器在模拟过程中要维护哪些因果关系，比如"每完成一次房间预订，剩余库存数量就应相应减少"。这保证了模拟过程的内部一致性，防止模拟器给出自相矛盾的反馈。

在实际评测时，被测AI智能体和模拟器按照以下流程交互：智能体发出一个工具调用请求，模拟器根据自己的配置和当前的对话历史生成一个JSON格式的响应，智能体收到响应后决定下一步行动，如此循环，直到任务完成或失败。最终，一个独立的评分模块会根据预设的评分标准判断整个轨迹是否通过。整个过程就像一场角色扮演游戏：模拟器扮演职场环境，智能体扮演职员，评分模块扮演督导。

三、一套工业级的"题库生成流水线"

光有模拟器框架还不够，研究团队还面临一个更大的挑战：如何批量生成382道高质量的职业测试题，让每道题都满足可解性（有正确答案）、可验证性（判断对错有明确标准）、区分度（能拉开不同能力的差距）和多样性（题目结构各不相同）这四个条件？

为此，研究团队设计了一套多智能体协作的自动化生成流水线，以Gemini-3-Flash-Preview作为世界模型驱动器。整个流程可以类比为一家教材出版社的编辑流程：先由专业顾问撰写参考文献，再由出题组生成题目，然后由答题组试做，最后由审核组把关，不达标的题目退回修改，实在修不好的就淘汰。

具体来说，每个职业场景首先被拆分成16个不重叠的子主题，并为每个子主题生成一份专业参考文档，覆盖该子领域的术语体系、工作流程、状态变量、边界情况和约束条件。这些文档是后续所有内容生成的"知识底座"，确保不同题目在结构上有实质性差异，而不只是表面换了几个数字。

接着，流水线自动生成环境配置、任务说明、工具定义、解题方案和评分标准。每道题会在有解题方案和没有解题方案两种条件下各运行多次，前者用来验证题目可解，后者用来评估题目难度。通过多数投票机制，评分模块判断轨迹是否通过；如果题目本身有问题（比如工具定义矛盾或任务无法完成），修复模块会诊断并尝试纠正。

最终，研究团队过滤掉了三类题目：所有难度等级下智能体都能轻松解答的（说明题目太简单，没有区分价值）、完全无法解答的（说明题目设计有缺陷）、工具定义不合法的（说明配置存在技术问题）。经过这番筛选，最终保留下382道题，平均每道题涉及5.5个可用工具，需要进行16.2次工具调用。

四、OCCUBENCH覆盖哪些"职业赛道"

研究团队将100个职业场景分配到10个行业类别中，每个类别的题目数量大致与该行业在现实中对AI智能体的需求规模相当。

商业与企业类是规模最大的类别，包含19个场景，涵盖简历筛选、费用审计、反洗钱合规审查等典型企业流程。技术与IT类紧随其后，共16个场景，包括Linux系统运维、CI/CD流程故障恢复、网络入侵响应等。工业与工程类有12个场景，涉及生产排程和矿井通风管理等。交通与物流类有11个场景，涵盖最后一公里配送和列车调度。商业零售类有9个场景，包括动态定价和酒店收益管理。教育与文化类有8个场景，涵盖自适应课程设计和事实核查。医疗健康类有7个场景，包括急诊分诊和药物相互作用筛查。公共服务与政务类有7个场景，涉及许可证处理和野火疏散协调。农业与环境类有7个场景，包括灌溉控制和作物病害诊断。科学与研究类有4个场景，涵盖望远镜调度和考古发掘规划。

这些场景的设计遵循了几个原则。首先，每个场景都对应一个真实存在的人类职业角色，比如急诊分诊护士、运维工程师、海关官员、生产调度员，确保测评结果对现实有直接参考意义。其次，没有任何单一子领域占据超过3个场景，防止某个细分领域的偏向性影响整体结果。更关键的是，绝大多数场景——核电站安全、药物筛查、紧急协调——在任何现有基准测评里都找不到对应题目，这恰恰验证了这套体系存在的独特价值。

五、"故意出错"的考场：环境鲁棒性测试

OCCUBENCH的另一个显著特色是系统性的故障注入测试，专门评估AI智能体在"环境不正常"时的表现。研究团队设计了三种故障模式，通过在模拟器的系统提示词里追加故障规则来实现，数据本身不做任何改动。

E0是干净环境，没有任何故障，作为基准参照。E1是显式故障环境，模拟器会随机返回明显的错误响应，包括HTTP 500内部服务器错误、请求超时、连接被拒绝、服务不可用等。这些故障有明确的错误信号，智能体看到后应该知道这次调用失败了，正确做法是重试。就像你打电话给客服，对方说"系统正在维护，请稍后再试"，这是显式的失败信号。

E2是隐式故障环境，要危险得多。模拟器返回的数据看起来格式完全正常、没有任何错误提示，但内容是残缺的：数据被截断了（只返回前几条记录）、字段缺失了、列表不完整了、或者返回的是过期的缓存数据。响应表面上"正常"，但信息是不完整的。就像你让助理整理15份合同，他交给你的文件夹里只有2份，但外观上和完整文件夹没什么区别。

E3是混合故障环境，大约一半显式故障、一半隐式故障交替出现。所有故障都是暂时性的——重试之后就会恢复正常——而且在整个对话过程中分散出现，不集中在开头。故障的数量（默认为2次故障事件）和持续时间（默认每次连续影响2次工具调用）都是可以独立调节的参数。

六、15个顶尖模型的大比武

研究团队用OCCUBENCH评测了15个前沿模型，来自8个不同的模型家族，包括OpenAI的GPT-5.2、Anthropic的多个Claude版本（Opus和Sonnet的4、4.5、4.6三代）、Google的Gemini 3.1 Pro和Flash-Lite、DeepSeek V3.2、Moonshot的Kimi K2.5、MiniMax M2.7、Zhipu的GLM-5，以及阿里巴巴自家的Qwen 3.5 Plus和Flash。所有模型都开启了思维链/推理模式，对于支持可调推理深度的模型，统一设置为"high"档。

整体来看，GPT-5.2以79.6%的平均完成率排名第一，Gemini 3.1 Pro以72.3%排名第二，Claude Opus 4.6以71.5%排名第三，Qwen 3.5 Plus和DeepSeek V3.2分别以69.9%和69.6%排名第四和第五。

最令人意外的发现，或许是没有任何一个模型能在所有行业里都保持领先。GPT-5.2在农业（84%）、商业（86%）、工业（85%）和科学（94%）四个类别里拿了最高分，但在商业零售领域只有67%，远低于Qwen 3.5 Plus的81%。Gemini 3.1 Pro在教育领域最强（84%），却在医疗领域仅有62%。Claude Opus 4.6在交通（77%）和商业（78%）表现突出，却在商业零售（53%）垫底。Qwen 3.5 Plus领跑医疗和商业零售（均为81%），却在教育领域只有56%。

这幅"每个模型都有自己独特的能力版图"的图景，对于企业选型有直接的实践意义。如果你是一家医疗机构，Qwen 3.5 Plus或Kimi K2.5（医疗81%）可能比GPT-5.2（76%）更适合你；如果你是一家物流公司，Claude Opus 4.6（77%）或许值得优先考虑。单靠一个综合排名根本无法传达这种信息，这正是跨行业评测的核心价值。

开源模型的表现也在这次测评里得到了充分验证。Qwen 3.5 Plus和DeepSeek V3.2分别以第4和第5名的成绩，超越了大部分Claude变体，直接挑战了"闭源模型在专业任务上必然优于开源模型"的传统认知。

七、故障来了，各模型表现天差地别

在鲁棒性测评部分，研究团队对9个代表性模型（每个家族选一个）分别测试了E0到E3四种环境条件下的表现。

平均来看，干净环境（E0）下所有模型的平均完成率是67.5%。引入显式故障（E1）后，平均降至62.6%，下降了4.9个百分点。引入隐式故障（E2）后，平均只剩53.4%，相比干净环境下降了14.1个百分点。混合故障（E3）的平均分是54.4%，略高于E2但远低于E1。

这个排序本身就很有启发性。直觉上，混合了两种故障的E3应该比单一类型的E2更难，但现实恰恰相反。原因在于，显式故障（超时、500错误）会触发智能体的"警觉反应"——这些信号太明显了，智能体看到就知道要重试。而隐式故障（数据截断、字段缺失）不会触发任何报警，数据看起来正常，智能体很可能直接接受并在不完整的信息基础上做出错误决策。E3里混入了一部分显式故障，反而提醒了智能体"这个环境有问题，要小心"，从而提升了对隐式故障部分的警惕性。

具体到各模型的鲁棒性表现，Gemini 3.1 Pro和MiniMax M2.7以0.87的鲁棒性分数并列第一。GPT-5.2的鲁棒性为0.84，排名第三。Kimi K2.5则以0.63的鲁棒性垫底——它在干净环境下完成率有64.1%，但在E2下只剩40.6%，降幅高达23.5个百分点。Claude Opus 4.6在E2下从71.5%跌至53.9%，下降17.6个百分点。Qwen 3.5 Plus从69.9%跌至51.6%，下降18.3个百分点。

研究团队还系统地测试了故障强度对表现的影响：随着故障次数从1增加到4，以及每次故障持续时间从1轮增加到4轮，所有模型的表现都呈现单调下降的趋势。Claude Opus 4.6在故障次数从1增至4时，完成率从71.5%降至60.2%；Qwen 3.5 Plus在同样条件下从61.3%降至49.7%。这意味着在实际部署中，故障频率越高、持续时间越长，AI智能体的表现下滑就越严重，而这恰恰是真实生产环境中经常出现的情况。

八、越大越新越爱"动脑"，表现就越好

研究团队利用OCCUBENCH的多版本模型覆盖，系统地验证了三个关于AI能力的普遍性规律。

在模型规模方面，在有大小版本对比的五个模型家族里，大模型一致性地优于小模型：Gemini 3.1 Pro比Flash-Lite高11.0个百分点，Qwen 3.5 Plus比Flash高10.2个百分点，Claude Opus 4.6比Sonnet 4.6高7.1个百分点，Claude Opus 4比Sonnet 4高7.9个百分点。唯一的例外是Claude 4.5代，Opus和Sonnet两者几乎持平（65.2%对64.9%），说明这一代的架构改进对两种规格的模型都同样有效。

在代际进步方面，以Claude家族为例，Opus系列从第四代的61.3%稳步提升到4.5代的65.2%，再到4.6代的71.5%，三代累计提升了10.2个百分点，验证了持续迭代的价值。Sonnet系列则呈现不同的曲线：从第四代（53.4%）到4.5代（64.9%）有一个大幅跃升，但从4.5代到4.6代出现了微小的下滑（64.4%），研究团队推测这可能反映了4.6代的自适应思维架构在推理深度与执行效率之间存在权衡取舍。

在推理深度方面，研究团队对支持可调推理深度的GPT-5.2和Claude Opus 4.6进行了专项测试，结果非常清晰。GPT-5.2从不使用推理（none档，完成率54.7%）到最大推理深度（xhigh档，完成率82.2%），提升了整整27.5个百分点，而且是完全单调递增的曲线，没有任何反转。Claude Opus 4.6从low档（70.2%）到max档（73.8%）也有3.6个百分点的提升。这意味着，对于复杂专业任务，在推理上多花计算资源是一种可靠的提升手段。

九、会做题的AI，不一定会出题

OCCUBENCH的最后一个重要发现，触及了这种评测方法的一个根本性问题：如果AI智能体本身就是被评测的对象，那么用另一个AI来充当考场，会不会产生偏差？

研究团队选取了8个代表性智能体模型，分别用三个不同的模拟器（Gemini-3-Flash-Preview、Qwen 3.5 Plus、GPT-5.2）来运行相同的测评，然后比较三个模拟器给出的排名是否一致。评估标准是"成对排名一致率"——在28对可能的模型组合里，有多少对在不同模拟器下的相对排名是一致的。

结果令人吃惊：GPT-5.2作为智能体排名第一（79.6%），但作为模拟器却产生了最差的结果——在GPT-5.2模拟器下，所有被测智能体的平均完成率只有29.3%，远低于Gemini Flash模拟器下的67.9%和Qwen 3.5 Plus模拟器下的63.4%。

研究团队通过三个具体案例揭示了GPT-5.2模拟器失效的根本原因。在急诊分诊场景里，GPT-5.2模拟器凭空捏造了两个原本不存在的空病房，导致被测智能体把病人转入了"幻觉病房"而非正确病房。在工单升级流程场景里，GPT-5.2模拟器在返回可用人员列表时漏掉了满足条件的Raj——一个二级数据库专家，只保留了一个三级管理员，于是被测智能体只能选择不满足要求的候选人。在订单退货场景里，GPT-5.2模拟器自作主张地依据当前日期计算出30天退货期已过，拒绝了原本应该批准的退货请求——而任务说明里根本没有这条约束。

这三种失效模式——凭空捏造状态、遗漏关键实体、自行发明业务规则——都指向同一个问题：一个强大的语言模型在扮演"环境模拟器"时，会不由自主地用自己的"世界知识"覆盖任务配置，而不是严格遵守给定的环境合约。

相比之下，Qwen 3.5 Plus模拟器没有出现这些问题，与Gemini Flash模拟器在28对模型组合里有24对排名一致，一致率达到85.7%，而且排名前三的模型（GPT-5.2、Gemini Pro、Opus 4.6）完全吻合。这说明，只要模拟器足够可靠，基于语言世界模型的评测确实能产生稳定可信的排名。研究团队建议：在使用这种评测方式时，要么事先验证模拟器质量，要么在更换模拟器后重新验证任务的可解性。

十、为什么有些行业对AI来说更难

把15个模型在各行业的表现加以平均，可以绘出一幅"行业难度地图"。最容易的两个行业是商业与企业（平均70.1%）和公共服务与政务（平均69.4%），最难的两个是交通与物流（平均56.2%）和教育与文化（平均57.6%）。

这个结果有直观的解释。商业和公政类的任务往往遵循文档完善、流程清晰的既定程序，决策路径相对明确，即使是不同能力的模型也能沿着正确的流程走。交通物流类的任务则涉及复杂的多约束优化——既要规划路线，又要平衡负载，还要满足时间窗口和资源限制，同时监控多个状态变量。教育类任务需要细腻的教学判断，比如根据学生的实时反馈调整教学节奏和内容深度，这要求模型具备一种更接近"人际感知"的能力，不是简单的流程执行能力所能涵盖的。

这幅难度地图对实际部署有重要参考价值：在最难的行业里，即便是最好的模型也只有56%到57%的平均完成率，这意味着全面自动化还有相当长的路要走，人机协作才是更现实的选项。

说到底，OCCUBENCH做的事情可以用一句话来概括：它第一次系统性地回答了"AI能不能在真实职场里独当一面"这个问题，而不是只告诉你它在理想条件下表现如何。研究团队给出的答案，既令人振奋，也令人保持清醒：当前最强的模型已经能在很多专业场景里完成80%左右的任务，但在交通物流、教育这些更复杂的领域仍有明显短板；面对隐性数据故障，几乎所有模型都会有显著的能力下滑；没有任何一个模型在所有行业里都是最强的，组织在选型时需要根据自己的具体业务来判断。

更值得关注的是"模拟器本身也可能出错"这个发现——它提醒我们，评测体系的可靠性不只取决于被测对象，还取决于测试工具本身的质量。这是一个关于AI评测方法论的深层洞察，对整个领域的未来研究方向都有参考价值。

对这项研究感兴趣的读者，可以通过论文编号arXiv:2604.10866获取完整原文，也可以通过论文提到的项目主页获取数据集和代码。这是一项还在持续演进中的工作，但它已经为AI智能体的职业能力评测树立了一个新的参照框架。

Q&A

Q1：OCCUBENCH评测体系具体包含哪些行业和场景？

A：OCCUBENCH覆盖10个行业类别，包括商业与企业、技术与IT、工业与工程、交通与物流、商业零售、教育与文化、医疗健康、公共服务与政务、农业与环境、科学与研究，共100个职业场景、65个专业细分领域、382道测试题。每个场景对应一个真实人类职业角色，例如急诊分诊护士、运维工程师、海关官员等。

Q2：语言世界模型评测方式的可靠性如何保证？

A：研究团队通过对比三个不同模拟器（Gemini Flash、Qwen 3.5 Plus、GPT-5.2）的评测结果来验证可靠性。当使用能力足够强且能严格遵守环境配置的模拟器时，28对模型组合中有85.7%的相对排名是一致的，前三名完全吻合。但强调，使用前需验证模拟器质量，因为过强的模型可能会用自身知识覆盖任务规定，产生"幻觉环境"。

Q3：AI智能体在故障环境下表现为何会大幅下降？

A：隐式故障（E2）对AI智能体的影响最大，原因在于数据看起来格式正常但内容残缺，例如15条记录只返回2条，却没有任何错误提示。大多数模型缺乏主动验证数据完整性的能力，会直接基于不完整数据做决策，导致完成率平均从67.5%下滑至53.4%。显式故障反而影响较小，因为错误信号明确，智能体知道需要重试。

云霞资讯网

阿里巴巴与香港中文大学联手打造的职场全能测评体系

热门分类

阿里巴巴与香港中文大学联手打造的职场全能测评体系

猜你喜欢

热门分类