云霞资讯网

AI 简报 (2026-02-06 晚报)@华泰计算机 (注:以下信息汇总自 T

AI 简报 (2026-02-06 晚报)@华泰计算机 (注:以下信息汇总自 Twitter 最新核心账号) ✏️1. 模型发布与性能突破 • OpenAI: 发布 GPT-5.3-Codex,针对 NVIDIA GB200-NVL72 架构优化。Sam Altman 指出该模型在 SWE-Bench Pro 等基准测试达 SOTA,且具备“性格选择”(务实/友好)和实时任务操控力。 • Anthropic: 发布 Claude Opus 4.6,在规划能力与长时智能体任务上显著提升。实验中智能体团队耗时 2 周自主构建了可运行 Linux 内核的 C 编译器。其 ARC v2 分数提升至 69%。 • NVIDIA (Jim Fan): 推出 DreamZero (14B World Action Model)。强调物理 AI (Physical AI) 应建立在“世界模型”而非“语言骨干”之上,实现机器人的零样本/少样本迁移。 ✏️2. 工业与科研应用 • OpenAI + Ginkgo: GPT-5 接入自动化实验室实现闭环实验,将蛋白质生产成本降低 40%,发现了人类此前未曾覆盖的优化组合。 • DeepMind: Gemini 在 Kaggle Game Arena(狼人杀、扑克、国际象棋)中测试社交博弈能力;发布虚拟世界构建原型 Project Genie。 ✏️3. 行业洞察与反思 • Andrej Karpathy: 提出“Vibe Coding”已演进为 “智能体工程 (Agentic Engineering)”,即人类 99% 的时间在编排和审查智能体。成功实现 GPT-2 级模型的 fp8 低成本训练(约 20 美元)。 • Ilya Sutskever: 澄清观点——当前技术路径的 Scaling 并不会停滞,但达成最终目标仍缺失某些关键组件。 • François Chollet: 认为非验证领域的 AI 性能提升呈对数增长。由于绝大多数工作并非端到端可验证(包括数学和编程),AI 替代人类岗位的鸿沟将长期存在。 • Greg Brockman: 强调 Codex 类工具的引入是深层文化变革,需建立针对“智能体轨迹”的观测基础设施,并确保人类对合并代码负责。