斯坦福7B小模型超越GPT4oAI在线强化学习边做边学斯坦福等新框架，用在线强化

量子位看科技 2025-10-24 15:41:34

斯坦福7B小模型超越GPT4oAI在线强化学习边做边学

斯坦福等新框架，用在线强化学习让智能体系统“以小搏大”，领先GPT-4o——

AgentFlow，是一种能够在线优化智能体系统的新范式，可以持续提升智能体系统对于复杂问题的推理能力。

它由规划器、执行器、验证器、生成器四个专业智能体组成的团队通过共享内存进行协作，利用新方法Flow-GRPO，在系统内部直接对其规划器智能体进行实时优化。

Qwen-2.5-7B-Instruct为基座模型的AgentFlow在10个基准测试中表现突出：

搜索任务提升14.9%、智能体任务提升14.0%、数学任务提升14.5%、科学任务提升4.1%。

多项任务表现甚至超越比其大50倍的模型，超越GPT-4o、Llama3.1-405B。

0 阅读：0

计算器吃掉42GB内存、AI还删了生产数据库？巨头狂砸3640亿，也救不回软件质

【6评论】【6点赞】

ai 软件计算器 Windows 人工智能

国产机器人七成利润被这颗小钢珠抢走，再不盯紧就晚了。减速器、电机、传感器、滚珠丝

【63点赞】

机器人传感器人工智能

人形机器人“逆天”前夜！五大核心新宠曝光，全是国产替代关键环刚看了宇树H2的仿

【19点赞】

机器人人形机器人人工智能

高盛：AI大模型的尽头是电力。那Ai电力这块，我们应该看什么。今天就研究这个课题

【13点赞】

ai 科陆电子人工智能

iPhone18来了，苹果不吹参数，却悄悄改了手机的“脾气”，你用一年后才懂它

【4评论】【12点赞】

苹果 iPhone

十五五期间十大核心方向（上）“十五五”规划聚焦的芯片半导体、人形机器人、脑机接

【15点赞】

人形机器人芯片半导体脑机接口 it芯片人工智能

现在知道为什么AI一定要加限制了吧…

【1评论】【3点赞】

ai 人工智能

量子位看科技

感谢大家的关注

程序员的进化方向云计算活教科书语出惊人如果说一个人可以是云计算发展的“活教科书

斯坦福7B小模型超越GPT4oAI在线强化学习边做边学斯坦福等新框架，用在线强化

拍家务视频也能月入过万干家务一小时挣1000元注意看，眼前这个男人暂且叫他小帅。

雷鸟把万元电视屏搬上了AI眼镜王自如评测雷鸟眼镜王自如撑场，雷鸟上桌。刚刚，雷鸟

OpenAI收购macOS供应商OpenAI变果粉了OpenAI收购了一家Mac

田渊栋被裁后offer排到法国Llama4.5训练完就卸磨杀驴硅谷真是干啥都迅猛

📣 年度AI风向标征集中 ——现在，「2025人工智能年度榜单」正在面向AI企

1024程序员节1024是他们的节日今天是1024程序员节。1024，是计算机世

2025年度AI十大趋势投票量子位智库量子位智库《2025年度AI十大趋势》系列

热门分类

科技TOP

这是做什么工作的？电脑上也看不懂

我预感红米k90可能会卖爆！这外观设计颜值一点不输小米17系列，再加上旗舰级别

老美开心了，终于让英伟达倒闭了！刚刚英伟达总裁黄仁勋对外宣布：中方市场份额降

华为Mate80会在2025年11月发布，大家最关心的是它用的芯片，麒麟9030

陈奕迅将现身K90发布会今晚陈奕迅会携新版《K歌之王》空降K90系列发布会现场，

中国移动你是良心发现了吗？中国移动你是良心发现了吗？18年的老用户了，每个月就

这下你用iPhone的控制中心不会迷茫了。

估计不止刘强东和雷军就连马云也发懵了于东来最近这是怎么了，他竟然又说50万元3小

10月份即将发布的新手机，看看有没有你喜欢的？

华为Mate70Pro在某多多上面百亿补贴的价格才四千多？敢不敢买？看上m

科技最新文章

中国移动你是良心发现了吗？中国移动你是良心发现了吗？18年的老用户了，每个月就

华为Mate70Air:机身厚度6.x毫米、7英寸大屏幕、1/1.3英寸主摄

好家伙！荣耀400这么快就干到1500多的“白菜价”，看来这是为荣耀500让路的

荣耀彻底杀疯了！荣耀X70正式进军百元价位，看来为了双十一拿个好成绩彻底拼了。

华为多款机型可升级HarmonyOS6.在华为Mate80发布之前，Harmon

估计不止刘强东和雷军就连马云也发懵了于东来最近这是怎么了，他竟然又说50万元3小

红米发布会。K90的12GB+256GB版本是2599元。16GB+256GB

鸿蒙6.0的升级计划公布了，遗憾的是没有mate40系列…昨天下午，鸿蒙6.0

升级了鸿蒙OS6，都来聊聊使用体验？1、动效确实更加丝滑了，非常流畅，对比鸿

这下你用iPhone的控制中心不会迷茫了。

斯坦福7B小模型超越GPT4oAI在线强化学习边做边学斯坦福等新框架，用在线强化

计算器吃掉42GB内存、AI还删了生产数据库？巨头狂砸3640亿，也救不回软件质

国产机器人七成利润被这颗小钢珠抢走，再不盯紧就晚了。减速器、电机、传感器、滚珠丝

人形机器人“逆天”前夜！五大核心新宠曝光，全是国产替代关键环刚看了宇树H2的仿

高盛：AI大模型的尽头是电力。那Ai电力这块，我们应该看什么。今天就研究这个课题

iPhone18来了，苹果不吹参数，却悄悄改了手机的“脾气”，你用一年后才懂它

十五五期间十大核心方向（上）“十五五”规划聚焦的芯片半导体、人形机器人、脑机接

现在知道为什么AI一定要加限制了吧…​​​

现在知道为什么AI一定要加限制了吧…