云霞资讯网

复旦突破:AI实现过期记忆场景下未知新事物识别能力

这项由复旦大学计算机科学与人工智能学院大数据研究院主导的研究,以预印本形式于2026年4月15日发布在arXiv平台,编

这项由复旦大学计算机科学与人工智能学院大数据研究院主导的研究,以预印本形式于2026年4月15日发布在arXiv平台,编号为arXiv:2604.14147。感兴趣的读者可通过该编号检索完整论文。

你有没有试过问一个朋友"最新款的手机长什么样",然后发现他完全没听说过那款手机,因为他已经好几年没怎么关注科技新闻了?现实生活中,这类情况司空见惯,我们会提醒他"去查一下最新资讯"。然而,当同样的问题发生在AI身上,情况就变得复杂了。复旦大学的研究团队发现了这个棘手的问题,并且找到了一种颇具创意的解决方案,让AI能够认出它从未"见过"的新事物,甚至还能把这些新事物从图片里精准地"圈"出来。

一、AI的记忆有保质期——问题是怎么来的

每一个AI模型在正式投入使用之前,都需要经历一段漫长的学习过程。工程师们把海量的图片、文字、新闻、百科知识全部"喂"给它,它学着认人、认物、理解语言。这个学习过程结束后,AI的知识库就被"封存"了,就像一本印刷完成的百科全书——印刷之后发生的事,书里永远找不到。

这种封存的时间点,学术上叫做"知识截止日期"。比如论文中提到,LLaMA 3这款著名的AI大模型,知识截止于2023年底;GPT-4截止于2023年4月;DeepSeek-V3则截止于2024年6月。这意味着,如果你拿着一张2025年发布的苹果iPhone 17 Pro Max的照片问这些AI"图里哪个是iPhone 17 Pro Max",它们会一脸茫然——因为那款手机在它们的"记忆"里根本不存在。

研究团队把这类AI无从认起的新事物分成了两种情况。第一种叫做"全新实体",指的是在AI训练结束之后才诞生的东西,比如2025年新推出的产品、新上映的电影角色、新发布的手机型号。AI完全没有接触过这些,就像让一个在深山闭关修炼了五年的人认出最新款的电子产品,根本不可能。第二种叫做"涌现实体",这些事物AI其实"认识",但它们随着时间推移发生了变化,需要最新信息才能准确判断。比如AI可以分别认出拜登和特朗普,但"现任美国总统是谁"这个问题,随着政治局势变化,AI给出的答案可能已经过时了。

正是基于这两类问题,复旦大学的研究团队提出了一个全新的研究课题——新兴实体分割任务,英文简称NEST。这个任务的核心不只是让AI"认出"新事物,还要让它在图片里把对应的目标精确地"圈"出来,生成一个精细的分割遮罩。这比单纯的问答要难得多,因为AI不仅要知道"那是什么",还要知道"它在图里的哪个位置、边界在哪里"。

二、给AI配一个"实时查资料的助手"——ROSE框架诞生

面对AI记忆有保质期这个难题,研究团队的思路很直接:既然AI自己的知识库是封闭的,那就给它配一个能随时上网查资料的助手。这个思路在自然语言处理领域有一个专门的名字,叫做"检索增强生成",英文缩写RAG。简单来说,就是在AI回答问题之前,先让它去互联网上搜一搜最新的相关信息,然后把搜到的内容作为参考,再给出更准确的答案。

研究团队在这个基础上,开发了一套专门为图像分割设计的框架,命名为ROSE,也就是"面向检索的分割增强"系统。ROSE不是一个全新的、从头训练的AI,而是一套可以像插件一样接入任何现有图像分割模型的工具包。无论是已经很成熟的LISA、SESAME还是READ这些分割模型,都可以把ROSE"插"进去,立刻获得处理新兴实体的能力。这种设计思路被研究团队称为"即插即用"。

ROSE整套框架由四个核心模块组成,它们分工明确、相互配合,共同解决AI面对陌生新事物时束手无策的问题。接下来,我们一个一个地拆开来看。

三、四个关键组件——ROSE是怎么工作的

第一个模块叫做"互联网检索增强生成模块",简称IRAG。当用户提出一个问题,比如"图里谁主办了2025年的Mayhem Ball巡演",IRAG会先把这个问题交给一个语言模型,生成优化过的搜索关键词,然后用这些关键词去互联网上抓取相关网页内容。抓回来的内容往往非常多、非常杂,IRAG会把它们切分成小块,用一种叫做"向量化"的技术把每块内容转换成数学形式存起来,形成一个临时的小型知识库。接下来,系统会用一种"分而治之"的处理方法,从这些碎片信息里提炼出一个候选答案摘要,列出所有可能的答案。

然而,光有文字答案还不够。一个问题的答案有时不止一个,比如同一首歌的表演者可能有好几位。这时候,IRAG会调用谷歌云视觉服务来分析用户上传的那张图片,识别图中出现的实体,然后把这些实体和候选答案对比,找出最匹配的那一个作为最终答案。如果图片里找不到匹配项,系统就会选取置信度最高的候选答案。确定了答案之后,系统会再拿着这个答案去互联网上搜索相关图片,为后续步骤做准备。

这里有一个细节值得关注:研究团队特意没有用AI大模型来识别图中的实体,而是用了谷歌云视觉这样的专用工具。原因在于,AI大模型本身就不认识那些"新实体",用它来识别新事物是绕圈子,专用视觉识别服务反而更可靠。

第二个模块叫做"文本提示增强器",简称TPE。拿到IRAG找到的答案之后,光把答案直接告诉原来的分割模型是不够的。TPE会做更多的工作:它把原来用户的问题、IRAG找到的答案,以及从网上另外检索到的关于这个目标的背景知识,三者整合起来,生成一段经过精心设计的、更丰富的文字描述,再喂给分割模型。比如原来的问题只是"谁主办了巡演",经过TPE处理后,分割模型收到的信息变成了"Lady Gaga,女性,黑色长发,以其夸张前卫的舞台风格著称,2025年发布了新专辑MAYHEM并开启巡演……"。这种信息量更丰富、指向性更精准的描述,让分割模型能更准确地在图中锁定目标。

第三个模块叫做"视觉提示增强器",简称VPE,专门用来对付那些完全陌生的全新实体。当AI对某个新产品或新人物毫无概念时,即使文字描述再详细,AI仍然可能找错目标,因为它脑海里根本没有那个东西的"长相"。VPE的办法是从IRAG检索到的互联网图片里提取视觉特征。这些图片经过聚类处理,过滤掉不相关的噪声,然后用一个叫做CLIP的视觉模型提取出目标实体的"视觉指纹",也叫做原型特征。

有了这个"视觉指纹",VPE会先检查分割模型给出的结果是否正确——如果模型圈出来的区域和"视觉指纹"差异很大,说明分割出错了。这时VPE会接手:用目标检测器把用户图片里所有可能的实体都标记出来,逐一提取它们的视觉特征,然后和"视觉指纹"比对,找出最相似的那一个,再调用SAM(一种专门生成精细分割遮罩的工具)生成最终的分割结果。通俗地说,VPE的工作就像是拿着一张目标的照片去人群中认脸,先确认原来的AI有没有认对,没认对的话自己亲自上阵找。

第四个模块叫做"WebSense",是整套系统的守门人。不是每一个问题都需要上网查资料的——如果有人问"图里哪个是苹果",显然不需要联网搜索,AI自己完全能判断。如果每个问题都触发联网检索,系统会变得极其低效,响应时间也会大幅延长。WebSense的职责就是在用户提问之后,先判断这个问题是否真的需要检索最新信息。它采用两级判断机制:第一级是简单快速的规则过滤,比如问题里有没有出现年份、"最新"、"现任"这类时间敏感词;如果规则判断不了,第二级则调用一个语言模型进行更深入的语义分析,判断是否需要联网。只有真正需要最新信息的查询,才会触发后续的检索流程,大幅提升系统效率。

四、自动化数据工厂——NEST基准数据集是怎么建起来的

研究团队在提出ROSE框架的同时,还面临一个棘手的评估问题:没有专门针对新兴实体分割的标准测试数据集,就无法衡量ROSE到底有多好。建立这样一个数据集本身就是个难题,因为"新兴实体"天然地会随时间变化——今天的新实体,一年后可能已经被AI模型学进去了,数据集就失效了。而且手动收集、标注这些数据费时费力,根本无法持续更新。

为了解决这个问题,研究团队设计了一套完全自动化的数据生产流水线。整个流水线从谷歌趋势——一个实时追踪全球热搜关键词的公共平台——出发,抓取当下最热门的搜索词。这些热搜词往往集中在体育、娱乐和政治领域,为了让数据集涵盖更广的范围,团队还手动补充了科技、经济等领域的关键词。

原始的热搜词里有很多抽象概念,比如"谷歌股价",这类词根本没有可以在图里被分割的具体物体,需要过滤掉。团队用语言模型对这些词进行筛选,最终保留的都是具体可辨的人物或产品。

有了过滤后的关键词列表,流水线会去搜索引擎上抓取相关图片。但这里有个问题:直接搜索"Lady Gaga"往往只能得到她一个人的独照,没有干扰项,分割任务太简单了,不能真实反映现实场景的复杂性。为此,团队设计了一个"查询增强"策略:把原始搜索词扩展成更复杂的组合,比如"Lady Gaga和Taylor Swift以及Billie Eilish同框",这样搜到的图片往往包含多个人物,大幅提升了任务难度和现实感。

图片搜集完成后,流水线还需要为每张图片生成问答对和精确的分割遮罩。问答对的生成依赖与关键词配套的新闻报道:系统会从搜索引擎里抓取相关新闻,过滤掉重复报道(以三天为窗口,同一事件只保留一篇),然后让语言模型基于新闻内容生成自然语言问题,同时确保问题不直接提及答案,要求真正的理解才能答对。

分割遮罩的生成则是整个流水线最精巧的部分。系统首先从那些只包含单一目标的图片里提取目标的视觉特征,作为"长相模板";然后对包含多个人物的复杂图片运行目标检测器,识别出所有可能的实体;最后把每个实体的视觉特征和"长相模板"进行相似度比对,选出最像的那个,再用SAM工具生成精细的分割遮罩。整个过程无需人工干预,可以持续自动运行。

最终,研究团队利用这套流水线,采集了2025年3月23日至4月11日期间的网络数据,构建了包含1548个样本的NEST数据集。这些样本涵盖经济、科技、政治、娱乐、体育和社会等多个领域,平均每张图片包含2.7个有效实体,平均每张图片对应1.6个不同问法的问题,保证了足够的任务难度和查询多样性。

五、实验结果——ROSE到底强在哪里

研究团队在NEST数据集上对多个现有方法进行了横向比较,结果颇为直观地说明了问题所在,以及ROSE的改进幅度。

现有的图像分割模型,包括CRIS、GRES、Grounded-SAM、SEEM,以及基于大语言模型的LISA-7B、SESAME-7B和READ-7B,在面对NEST任务时表现普遍有限。其中LISA-7B作为最具代表性的基线方法,整体gIoU(一种衡量分割精度的指标,可以理解为"分割框和真实边界的重合程度")为48.7,但这个数字对全新实体只有38.4,因为AI根本不认识那些从未见过的东西。相比之下,SESAME-7B在这个任务上表现更差,gIoU只有13.1,READ-7B也只有22.5。

为了设立更强的对比基线,研究团队还构建了"两阶段商业检索基线":先用具备联网能力的GPT-4o mini Search或Gemini 2.0 Flash Search来回答"图里的目标是谁/是什么",然后把答案交给LISA等模型进行分割。这是业界能想到的比较直接的解决方案,但结果显示,即便是最强的组合——Gemini 2.0 Flash Search搭配LISA-7B——整体gIoU也只有53.8。

而ROSE搭配LISA-7B之后,整体gIoU直接跳到73.0,比Gemini 2.0 Flash Search的两阶段方法高出整整19.2个百分点。对全新实体的gIoU从38.4提升到67.0,对涌现实体的gIoU从56.5提升到77.5,两类任务都有大幅改善。ROSE搭配READ-7B的效果略高于搭配LISA-7B,整体gIoU达到72.2;搭配SESAME-7B也达到了70.6。

研究团队还进行了混合数据集实验,把NEST和另外三个传统分割数据集(ReasonSeg、RefCOCO、RefCOCO+、RefCOCOg)合并在一起测试,验证ROSE在处理新兴实体的同时,会不会把原来的传统任务能力破坏掉。结果显示,ROSE在NEST部分的性能大幅提升,在传统分割任务上的表现也与原始模型基本持平,说明ROSE不是"拆东墙补西墙",而是真正扩展了模型的能力边界。

为了弄清楚ROSE的四个模块各自贡献了多少,研究团队还做了拆解实验。在LISA-7B基础上只加IRAG模块,整体gIoU从48.7提升到55.7,提升7个百分点,说明联网检索本身确实有效,但效果有限。在IRAG基础上再加TPE模块,整体gIoU进一步提升到59.6,主要改善来自涌现实体(gIoU+6.2),因为丰富的文字背景知识帮助AI更好地理解目标。在IRAG基础上加VPE模块(不加TPE),整体gIoU大幅跳升到68.7,对全新实体的提升最为显著(cIoU+24.5),因为"视觉指纹"对比机制专门解决了AI看不认新东西的问题。而四个模块全部启用之后,整体gIoU达到74.7,说明四个模块之间存在互补效应,缺一不可。

六、真实案例——从实验数字到具体场景

研究论文中呈现了若干直观的对比案例,让这些数字变得更有说服力。

在全新实体的例子中,有一张图展示了任天堂Switch 2游戏机。用户的问题是"请分割图中的Nintendo Switch 2"。LISA对这款2025年发布的游戏机毫无印象,给出了错误的分割结果;READ同样表现不佳。ROSE则凭借从互联网上找到的Switch 2参考图片,成功识别并精准圈出了目标。另一个例子是小米SU7汽车,LISA对这款车型一无所知,输出为空,而ROSE正确地在图中找到并分割了这辆车。

在涌现实体的例子中,有一个关于《鱿鱼游戏2》(2024年上映)的问题,询问谁选择重返游戏。LISA对剧中人物身份的理解已经过时,圈出了错误的人物;ROSE通过检索最新的相关信息,正确识别并分割了目标角色。另一个案例更贴近体育新闻:问题是"2025年5月9日,哪位MLB球员为道奇队打出关键三分全垒打",LISA因为知识截止而圈错了人,ROSE检索了当天的体育新闻后,准确找到了那位球员并完成分割。

这些案例共同说明了一个规律:对于全新实体,视觉参考图片(VPE模块)是关键;对于涌现实体,文字背景知识(TPE模块)和准确的实体识别(IRAG模块)缺一不可。ROSE把这两类能力整合在一套框架里,才能同时应对两种不同类型的挑战。

说到底,这项研究揭示了一个我们平时可能没有意识到的问题:我们使用的AI工具,其实活在一个"时间冻结"的世界里。它们认识2023年之前的所有明星、产品和事件,却对此后发生的一切一无所知。这就像是一个非常博学但已经隐居多年的老学者,问他历史上的任何知识都能对答如流,但一旦问起最近的新闻,他只能摇摇头说"不知道"。

复旦大学的研究团队提出的ROSE框架,本质上是给这位老学者配了一台可以随时上网的电脑,让他在回答问题之前先快速查一下最新资讯。这个思路看似简单,但工程实现上却涉及信息检索、视觉识别、文本理解和精确分割等多个环节的协同配合,每一个环节出了问题都会影响最终结果。这也是为什么单纯地把商业搜索引擎(如Gemini 2.0 Flash Search)和分割模型简单拼接,效果远不如ROSE——前者只解决了"知道答案是什么"的问题,后者还额外解决了"怎么让AI看懂并圈出来"的问题。

这项研究对普通用户的实际意义在于,未来基于大模型的图像处理工具或许能够持续更新对现实世界的认知,而不必每隔一两年就重新训练一次整个模型。对于医疗影像分析、安防监控、新闻图片理解等需要处理"最新信息"的应用场景,这种能力尤为关键。当然,任何依赖网络检索的系统都面临信息质量和网络延迟的挑战,如何在速度和准确性之间找到更好的平衡,仍然是未来值得继续探索的方向。

有兴趣深入了解技术细节的读者,可以通过arXiv编号2604.14147查阅完整论文,论文中还包含更多实验案例和补充材料。

Q&A

Q1:ROSE框架和普通的带搜索功能的AI有什么区别?

A:普通的带搜索功能AI(如Gemini Flash Search或GPT-4o mini Search)只能告诉你"答案是什么",但无法进一步把目标在图片里圈出来。ROSE在获取答案的基础上,还额外从网上下载参考图片,提取目标的视觉特征,帮助分割模型真正"认出"并精准勾勒出目标的边界。两者的差距在实验中体现为:商业搜索方案最高gIoU约53.8,ROSE则达到73.0,差距约19个百分点。

Q2:NEST数据集是如何保证持续更新不过时的?

A:NEST数据集采用全自动化的流水线构建,核心数据源是谷歌趋势实时热搜词。系统会自动抓取最新新闻、搜索相关图片、生成问答对,并自动标注分割遮罩,全程无需人工干预。这意味着只要系统持续运行,数据集就能不断纳入最新出现的新事物,避免随时间失效的问题。

Q3:WebSense模块是如何判断一个问题要不要联网查资料的?

A:WebSense采用两级判断机制。第一级是快速的规则过滤:如果问题里包含年份、"最新"、"现任"等时间敏感词,系统就直接判定需要检索。如果问题比较模糊,第二级会调用一个语言模型进行更深入的语义分析,判断问题是否涉及知识截止日期之后的内容。这样设计的目的是避免每个问题都触发联网检索,节省计算和网络资源,让系统运行更高效。