出品|虎嗅科技组
作者|赵致格
编辑|苗正卿
头图|视觉中国
2026年1月27日,OpenAI首席执行官山姆·奥特曼举行了一场面向AI从业者的直播对谈。在这场长达一小时的座谈中,奥特曼和其他OpenAI的员工一共回答了来自线上和线下的22个问题。
在此前一天,奥尔曼在X账号上对这次活动进行了预告。他表示,希望“在构建新一代工具的过程中获取反馈”,还称这场研讨会是“一次尝试,也是对新形式的初步探索”,并鼓励网友在评论区留下自己想问的问题。

过去一段时间里,OpenAI频频遭遇坏消息。去年12月Gemini3的发布让ChatGPT不再有显著领先的技术优势,OpenAI内部发出“红色警报”,Anthropic的Claude近期也火爆硅谷。而外界高度关注的另一件事是OpenAI的烧钱速度。人们通过微软财报发现OpenAI每季度扩损达到令人震惊120亿美元,但这些天量资金并没有为大模型的性能带来摩尔定律式的指数级进步。
这一次,OpenAI放弃了每个环节都经过精心设计,为产品的亮相层层铺垫的发布会,而是选择了主题宽泛,问答形式的研讨会,很大程度上向外界展现了一种诚实、开放的低姿态。
在这场活动中,奥特曼仅在一次回答中提到了ChatGPT。当一位提问者说很多人认为GPT-5在写作上表现不佳,甚至还不如Chat4.5时,奥特曼相当坦诚地表示,公司在这件事上“搞砸了”。
不过奥特曼也解释到,在研发5.2版本,公司把大量精力放在“智能、推理、编程、工程这类事情”,让这个版本的ChatGPT出现“偏科”问题。不过奥特曼承诺会在回归真正高质量的通用型模型赛道,让下个大模型在所有维度上达到优秀水准。奥特曼还承诺,到2027年底,公司将能提供GPT-5.2水平的高级智力,成本至少降低100倍。
座谈会上奥特曼提到另一个和OpenAI产品是Codex。就在几天前的1月24日,奥特曼在X平台发文,宣布在未来一个月时间里,OpenAI将推出多个Codex相关产品,首款产品将于下周推出。

Codex是一套智能编程辅助生态系统,可以理解为集模型、工具和工作流于一体的AI软件工程师。在推文里,奥特曼重点提到介绍了AI编程安全问题,认为对世界最有利的做法是快速修复安全漏洞。而与此同时,OpenAI的官网也发布了一篇技术博文,介绍其跨平台本地软件智能体CodexCLI的核心逻辑“智能体循环”。
截止本周三,我们还没看到OpenAI的Codex相关产品。不过在这次座谈中,奥特曼进一步分享了自己对Codex的使用感悟,无疑也是在为接下来的产品发布做预热。
奥特曼称,当他第一次使用Codex时,他非常确信自己绝对不会给它“完全的、无人监督的电脑访问权限”。然而这份自信只坚持了2小时,奥尔曼在2小时后开始感叹,这个Agent做的一切事“似乎真的很合理”,于是他再也没有把权限关掉过。
不过奥特曼也提醒了这份强大和便利背后的风险,称Codex的故障率尽管很低,但一旦发生故障,后果可能就是“灾难性的”。
在上述问题之外,奥特曼似乎很大程度上跳出了OpenAICEO的身份,以行业大佬的视角分享AI的行业趋势,以及带给社会及个体的影响。
对于AI引发的失业问题和大厂裁员问题,奥特曼谨慎地表示“我们会更慢地招聘,但继续招聘”。随后又补充称不希望像其他公司一样“疯狂招聘”但又不得不进行“某种不舒服的裁员对话”,未来OpenAI不会是一家“零员工公司”。
对于AI对软件工程师的影响,奥特曼认为未来工程师的敲代码、调试代码上的时间将明显减少,更多精力将用于“让系统替他们把事办成”。由于未来会出现越来越多为个人或极小部分群体定制的软件,软件工程岗位的需求将远超当下。
有创业者问及在AI降低软件开发门槛的年代里感到市场推广很难。出身YC的奥特曼认为创业的底层规则在任何时代都是一致的,都需要建立差异化价值、打通产品分发渠道,因为人的注意力始终是稀缺资源。
对AI安全问题,奥特曼认为2026年AI的潜在风险集中在生物学领域。而人们面对AI安全的种种隐患应该由“封堵”转为“韧性建设”,就像一座城市面对火灾风险要进行多层级的防护设施建设。
面对AI时代应该学什么技能的问题,奥特曼认为现在已经没有像“学编程”这样简单的答案。“高能动性、韧性、适应快速变化的世界”这些软技能都是非常重要,而且是可学习的。
可以看出,奥特曼颇为认真地回答了所有问题。然而这次坦诚对话并没有激起太多水花。在YouTube上,这次活动的播放量仅为8.3万。评论区里,大多数评论并有讨论奥特曼的观点,而是在抱怨一个小时的视频太长,奥特曼的话题涉及面过广,没有重点。
评论区收获了最多点赞数的评论是一条讽刺:“Gemini,麻烦总结下这段视频内容。目前有没有什么新消息?”;也有网友用其他产品进行讽刺,“你好,claude,这个视频会浪费我的时间吗?”

实际上,YouTube目前并没上线任何AI总结助手,但听奥特曼答疑听得昏昏入睡的人们显然等不及了。
评论区还有人抱怨称自己已经给过奥特曼很多机会了:“我真的受够了,看了无数个他的视频,到最后都发现毫无新意。这个视频也一样,翻来覆去都是些老生常谈的内容,完全没有任何新颖的见解。”
在Reddit和X上,关于这次活动的讨论同样寥寥无几。Reddit上唯一一个回复数超过200的帖子是奥特曼承认GPT5为了编程能力而牺牲写作能力的视频片段。然而对于奥特曼的解释,极客们并不信服。
一位叫Advanced-Cat9927网友的认为:“他并非为追逐编程能力而舍弃创意写作,他是为追逐企业价值,舍弃了对话的延续性”。另一位网友Kryomon则进行了一番辛辣的拉踩:“比不过Gemini的图像能力,拼不过Claude的编程水平,写的内容还躲不过AI检测工具的识别。(ChatGPT)彻底完了。”

对于OpenAI,想要摆脱当下的困境,除了继续融资外,最直接的方法无疑推出在榜单上遥遥领先的下一代大模型和其他惊艳产品。在这个人们注意力稀缺的时代,长达一小时的“坦诚交流”显然无助于吸引关注,挽回形象。
访谈原文
SamAltman:
非常感谢大家的到来。当我们开始构想为开发者打造的下一代工具,以及思考如何利用即将上线的那些极其强大的模型时,我们想听听大家的声音,想知道你们想要什么,在想些什么,并回答大家的问题。我希望今天的交流能让我们更清晰地知道该为你们构建什么,以及如何让这些强大的模型真正发挥作用。
观众:
关于软件工程领域的“杰文斯悖论”(Jevonsparadox),你持什么观点?如果AI让代码编写速度大幅提升且成本显著降低,这会减少对软件工程师的需求吗?还是说,更便宜的定制软件会增加更多需求,从而让工程师在未来几十年里依然有饭碗?
SamAltman:
我认为“工程师”这个职业的定义将会发生巨大的变化。
未来可能会有更多的人让计算机去执行他们的意图,或者去实现其他人的需求,并找到方法为他人创造有用的体验。这些人将创造出远超现在的价值,并从中获得更多的回报。
但是,这份工作的状态,以及你花在敲代码、调试代码或其他琐碎事情上的时间,将会发生极大的改变。这在工程史上已经发生过很多次了。截至目前,每一次变革都让更多的人能够参与并变得高效,世界也因此获得了更多的软件。世界对软件的需求似乎一点也没有放缓的迹象。
我对未来的猜测是:我们现在很多人使用的软件,原本是为一个人或极少数人编写的,而我们正在不断地定制属于自己的软件。所以我认为,将来会有更多的人能够指挥计算机去做他们想做的事情,而且方式会与今天截然不同。
如果你把这种行为也算作“软件工程”,那么我认为我们将看到这种需求大幅增加,而且我认为世界上更大比例的GDP将通过这种方式创造和消费。
现场有什么问题吗?如果没有的话,我这里还有一长串清单。请讲。
观众:
首先感谢你给我们这个机会来到这里向你提问。我是ChatGPT的重度用户。我经常在Reddit上看到大家在搞开发,不管是使用Codex、Lovable还是Cursor。但现在看来,新的瓶颈变成了市场推广。我可以把东西做出来,但我如何找到那些需要的我的产品,能从中有所收获的人呢?我觉得这成了一个瓶颈。很好奇你怎么看这个问题。
SamAltman:
在做OpenAI之前,我曾经管理过YCombinator。以前经常听到创业者们表示,我原以为最难的部分是开发产品,结果发现最难的是让别人在乎或者去使用它,把产品与人连接起来。
所以我认为市场推广从来都是极其困难的。只是现在开发变得太容易了,所以你对这种落差的感受更加强烈了。对此我没有简单的答案。我认为建立一家企业从来都不是易事,要找到创造差异化价值的方法,要让市场推广机制运转起来,以前所有的规则在这里依然适用。
AI可以让软件开发变得极其容易,但这并不意味着其他环节也会变得容易。
不过,就像AI改变了软件工程一样,你现在也开始看到人们利用AI来自动化销售、自动化市场营销,并且取得了一些成功。但我认为这始终会是个难题,因为即便在一个物质极大丰富的世界里,人类的注意力依然是一种非常有限的资源。
所以你总是要和其他人竞争,试图建立自己的市场推广能力,弄清楚如何分发产品。而每一个潜在客户都很忙,还有其他各种事情。
我可以描绘一种未来的版本:即使“激进的富足”(radicalabundance)成真,人类的注意力仍然是仅存的稀缺商品。所以我预计这依然会很难,你需要想出有创意的点子,并打造出伟大的产品。
观众:
你好Sam,我是George。我是一名独立开发者。我正在基于CodexSDK构建一种编排多个智能体(Agent)的方法。我想问你对你们的AgentBuilder(智能体构建器)工具的未来愿景。
目前它还只是工作流和提示词(Prompt)的串联。我想知道,作为一个基于CodexSDK的构建者,我是安全的吗?也就是说,你认为未来会有很多不同类型的多智能体编排UI存在的空间吗?还是说OpenAI会把这一块也做了?
SamAltman:
不,我认为我们还不知道“正确”的交互界面应该是什么样的。我们不知道人们将如何使用它。我们看到有人构建了令人难以置信的多智能体系统;我们也看到有人构建了非常棒的单一交互线程。我们不可能独自搞定所有事情。而且,并不是每个人想要的东西都一样。
有些人可能会像老电影里演的那样,面对30个电脑屏幕,盯着这里疯狂的数据,操作那里,把东西挪来挪去。而我认为也会有人想要一种非常平静的语音对话模式,他们每小时只对电脑说一句话,电脑在后台处理很多事情,他们不需要时刻盯着。他们试图认真思考自己说的话,不想要那种被成堆智能体持续“监督工作”的感觉。
就像很多其他事情一样,人们必须尝试不同的方法,看看自己喜欢什么。世界可能会收敛到几种主流模式,但我们无法把所有模式都探索完。
我认为,构建工具来帮助人们利用这些极其强大的模型提高生产力,是一个非常好的主意。这在目前是完全缺失的。这些模型的能力上限,与大多数人目前能从中挖掘出的价值之间存在着巨大的鸿沟,而且这个鸿沟还在扩大。未来肯定会有人构建出工具来真正帮助大家做到这一点,目前还没有人完全做对。
我们也会尝试做我们自己的版本,但这看起来是一个有着巨大空间的领域,而且人们会有不同的偏好。如果你们有什么希望我们构建的功能,请告诉我们,我们可以尝试。
观众:
Sam,我是ValerieChapman,我正在OpenAI平台上构建Ruth。目前女性因为薪资差距大约损失了100万美元的收入,我想听听你的看法。你认为AI如何能被用来解决这些已经存在了几十年的经济差距?
SamAltman:
虽然有很多复杂的情况,但我认为其中一个主要的好消息是,AI将带来巨大的通缩效应。
我在这个问题上反复思考过,因为你可以想象一些奇怪的情况发生,比如世界上所有的钱都投入到自我复制的数据中心之类的东西里去了。但总体来看,鉴于目前在计算机前能完成的工作所取得的进展,变革将很快将在机器人技术和其他领域发生,我们的经济将面临巨大的通缩压力。
我说“主要是好消息”,是因为这其中也会有一些复杂的事情需要去应对。除了那些受社会或政府政策限制而无法降价的领域(比如在旧金山建造更多住房之类的),我预计其他东西会变得极其便宜,而且这种趋势会非常强劲且迅速。
无论社会结构是否天然赋予了某些人所有的优势,这种对个体能力的赋能,看起来将会不断上升,越来越高。直到现在我还是觉得这点很难让人完全理解。你知道,我想说到今年年底,只需要花费100到1000美元的推理成本,再加上一个好点子,你就能开发出一款在过去需要整个团队花上一年才能完成的软件。这种经济变革的规模之大,至少对我来说,是很难在脑海中完全构建出来的。
这对人们来说应该是一件非常赋能的事情。它意味着极大的丰富性和可获取性,意味着创造新事物、新公司、发现新科学等等的成本将大幅降低。我认为这应当成为社会的一种平衡力量,让那些过去没有得到公平对待的人获得一个真正的好机会。只要我们不在相关政策上犯大错,虽然这确实有可能发生。
我确实担心,你可以想象在某些世界里,AI会导致权力和财富的高度集中。因此,防止这种情况发生,感觉必须成为政策的主要目标之一。
观众:
我是BenHilac。我是一家名为Raindrop的公司的CTO。我很好奇,当你展望未来时,是如何看待模型的“专用化”与“通用化”的?
举个例子,GPT-4.5是我觉得第一个真正擅长写作的模型。我记得当时看到它的输出在想:“这写得真不错。”但最近在X上有很多关于GPT-5在ChatGPT中写作表现的讨论,说它有点笨重、难以阅读。
显然,GPT-5是一个更好的模型,工具使用能力很强,中间推理能力也很棒,诸如此类。但是模型的能力变得有点“参差不齐”,或者说变得更偏科了。比如它的编程能力的非常突出,但在写作上却没那么突出。所以我很好奇OpenAI是如何看待这一点的?
SamAltman:
我觉得我们确实把这点搞砸了。我们会在未来的GPT-5.x版本中改进,希望它的写作能力比4.5好得多。
我们当时确实决定,我认为理由也很充分,把5.2版本的大部分精力放在智能、推理、编程、工程这类事情上。我们的资源(带宽)是有限的,有时候专注于一件事就会忽略另一件事。但我相信,未来是属于非常优秀的通用模型的。
即使你想做一个非常擅长编程的模型,如果它能写得一手好文章也是很棒的。比如,如果你想让它为你生成一个完整的应用程序,你会希望里面的文案是好的。当它与你互动时,你会希望它具有某种深思熟虑、敏锐的个性,并且表达清晰。这里的写作能力是指思路清晰,而不是指辞藻华丽。
所以我希望我们能推动未来的模型在所有这些维度上都变得非常好,我想我们会做到的。我认为“智能”是一种令人惊讶的通用能力,我们可以在单个模型中把所有这些事情都做得很好。目前看来,这确实是一个推动所谓“编程智能”的重要时刻。但我们会努力在其他方面也迅速赶上并做到卓越。
观众:
我是Unifi公司的CTO。接着你刚才的话题,我们做的是市场自动化(GTMAutomation)。我们思考很多并投入大量时间的一个领域是那种“永远在线的AI”,一种无处不在的AI。
你说过一句话让我很有共鸣,就是“智能将便宜到无需计量”。对于我们要为客户运行数百万、数千万甚至数亿个智能体来说,限制因素就是成本。你是怎么看待小模型,以及未来几个月或几年开发者面临的剧烈成本下降?
SamAltman:
我认为到2027年年底,我们应该能够提供某种GPT-5.2x到更高水平的智能。你想猜个数字吗?不然我就给个预测。有人想猜吗?我会说成本至少会降低100倍。
但还有一个维度我们过去没怎么考虑,而现在随着模型输出变得如此复杂,越来越多的人在催促我们提高交付速度,而不是降低成本。但其实我们成本曲线下降这方面做得很好。你可以看看我们从最初的o1预览版到现在取得的进展。
但我们还没怎么思考过如何以1/100的时间交付同样的输出(也许价格会高很多)。我认为对于你提到的很多应用场景,人们真的会想要这种速度。
我们必须弄清楚如何在优先考虑这两者之间取得平衡。不幸的是,这是两个非常不同的问题。但假设我们全力推动降低成本,并且假设这也是你们以及市场想要的,那么我们可以在降低成本这条路上走得很远。
观众:
目前的界面并不是为智能体(Agents)设计的,但我们看到“为我构建的App”正在兴起。为什么自定义界面的创新会进一步加速微型应用的趋势?
SamAltman:
是的,这是我在最近使用Codex时注意到的一个现象。我不再把软件看作是一个静态的东西。
如果我有一个小问题,我期望电脑能立刻写一段代码帮我解决它。我认为这个趋势会走得更远。我怀疑我们使用计算机和操作系统的方式将会彻底改变。
我不认为这会变成每次你需要编辑文档时,系统会当场为你写一个新版本的文字处理软件,因为我们已经很习惯现有的界面了,按钮还在上次那个位置这很重要。
但对于我们做的很多其他事情,我认为我们会发现,我们期望软件是专门为我们编写的。也许我想每次都用同一个文字处理软件,但我确实有一些重复的使用怪癖,我希望软件能日益定制化。
你知道,这可能是一个静态的或缓慢进化的软件,但它是为我而写的,我使用它的方式和你使用它的方式是不同的。这种我们的工具不断进化并专门为我们改变的想法,看起来是必然会发生的。
当然,在OpenAI内部,人们现在已经非常习惯在工作流中使用Codex了。每个人都有自己独特的定制小习惯,使用方式也截然不同。这似乎是必然的趋势,我认为这是构建产品的一个非常好的方向。去弄清楚未来的形态以及人们将如何操作,这看起来很棒。
观众:
当创业公司的功能很快就会被模型更新所取代时,建设者该如何思考产品的“耐用性”?你承诺绝对不会去吞噬的技术栈是哪一层?
SamAltman:
我们之前稍微聊过一点这个话题。人们很容易误以为商业的“物理定律”已经完全改变了,其实还没有。它们可能会随着时间推移而改变,但目前真正的变化是你工作得更快了,创造新软件的速度快得多。
但是,建立一家成功创业公司的所有其他规都没有变:你需要找到获取用户的方法,解决市场进入(GTM)问题,提供有粘性的产品,建立某种护城河、网络效应或竞争优势,无论你怎么称呼它。
好消息是,这些规则对我们来说也没变。有很多创业公司做的事情,可能在一个完美世界里我们早就该做了,但太晚了,别人已经建立了真正持久的优势,这种情况还会继续发生。
当人们问我这类问题时,我总是给出一个通用的思考框架:如果GPT-6是一次惊人的、巨大的更新,你的公司会感到高兴还是难过?
我鼓励大家去构建那些你极其渴望模型变得更好的产品。这样的构建方向有很多。相反,如果你的产品只是在模型边缘打个小补丁,虽然如果你在模型升级前建立了足够的优势也可能行得通,但这是一条更艰难、压力更大的路。
观众:
关于能够自主运行长工作流而无需人类持续干预的智能体(Agents),现实的时间线是怎样的?毕竟现在即使是简单的链上任务往往也会在5到10步后崩溃。OpenAI有人想发表一下意见吗?
OpenAI员工:
我认为这真的取决于任务类型。在OpenAI内部,我们看到人们以非常特殊的方式提示Codex。也许他们在使用SDK,就像一个定制的线束不断提示它继续,但他们基本上可以让它永远运行。所以我认为这不是“何时”的问题,而是视野拓宽的问题。
如果你有一个非常具体的任务且你很了解它,现在就可以尝试。如果你开始想:“好吧,我想提示模型去建立一个创业公司”,这是一个更开放的问题,验证循环要难得多。所以我建议你弄清楚如何将其分解为不同的问题,让智能体能够自我验证,或者让你能在最后验证其最终输出。随着时间推移,我们可以让智能体做越来越多的任务。
观众:
Sam,我想回到关于“人类注意力和市场进入的问题上。我总是认为,人类注意力是消费侧的限制因素。而在生产侧,对于所有的建设者来说,限速因素是“想法的质量”。我花很多时间帮助AI公司做GTM,很多时候产品其实根本不值得用户的关注。所以我想问,你们能构建什么工具来提高人们想出的点子的质量呢?
SamAltman:
现在流行把AI的输出称为“垃圾(slop)”,但世界上也有很多人类制造的垃圾。想出好的新点子是非常难的,我越来越相信,我们的思考受限于我们的工具。
我认为我们应该尝试构建帮助人们想出好点子的工具。我相信有很多这样的机会。随着创造的成本持续暴跌,我们将拥有如此紧密的反馈循环来尝试点子,从而更快地找到好点子。而且随着AI能够发现新科学,以及编写非常复杂的代码库,我有信心将会出现一个全新的可能性空间。
但是,很多人都有这样的经历:坐在AI面前,却不确定下一步该要求什么。如果我们能构建工具来帮助你想出好点子。我相信我们能做到。我相信我们可以通过分析你过去所有的工作和代码,试图找出什么对你有用或有趣,并持续为你提供建议。
如果我们能提供一个真正伟大的“头脑风暴伙伴”。我生命中有三四个人,每次和他们相处,我离开时都会带着很多想法。他们非常擅长提问或给你提供构建的基础。比如PaulGraham(YC创始人)在这方面就强得离谱。
如果我们能构建一个“PaulGraham机器人”,你可以和它进行同样的互动来帮助产生新想法,哪怕其中大多数是坏主意,哪怕100个点子里有95个你都说“绝对不行”。但我认为像这样的东西,将对世界上涌现的好东西的数量做出重大贡献。而且模型感觉应该具备这种能力。
对于GPT-5.2(我们在内部使用的一个特殊版本),我们第一次从科学家那里听到,这些模型在科学上的进展不再是微不足道的了。既然一个模型能提出新的科学见解,我无法相信它不能提出关于产品构建的新见解。只要有不同的引导机制和稍微不同的训练方式。
观众:
大家好。我是Theo,开发者YouTuber也是YC创始人。我也真的很想要那个PaulGraham机器人。我想问一个稍微不同的问题,更多关于技术方面的。我真的很喜欢我们使用的构建模块技术不断进化,我经历过Web领域的一些疯狂革命,比如转向TypeScript和Tailwind等等。
随着模型和我们用来构建的工具变得更好,我担心的一个问题是:我们可能会被困在现有的工作方式中,就像美国的电网是以某种方式建立的,导致事情变得更糟且我们无法真正改变它。你看到这种可能性了吗?我们是否正在用现有的技术打地基,导致未来更难更换?因为现在即使试图让当前模型使用两年前更新的技术,感觉也像拔牙一样难。你认为我们能引导模型去使用新东西吗,还是说我们只能在现有的技术基础上修修补补?
SamAltman:
我认为我们在让模型使用新事物方面真的会做得很好。本质上,如果我们正确使用这些模型,它们就像通用推理引擎。目前的架构确实内置了大量世界知识。但我认为我们正朝着正确的方向发展。
我希望在未来几年内,模型能比人类更快地更新知识和学习新技能。一个我们将引以为豪的里程碑是:当模型面对全新的东西,如新环境、新工具、新技术等等,你只需要解释一次(或者让模型探索一次),它就能超级可靠地使用并做对。这感觉并不遥远。
观众:
抱歉,我有一个问题我觉得你可能已经触及到了。作为一名科学家,而且是年纪稍长的那种。当你做一个科学项目时,它往往会产生多个进一步研究的想法。所以想法是指数级增长的,而一个科学家执行这些想法的时间却是线性减少的。这些工具加速它的方式令人难以置信。
但我们都很贪婪,想要更多。你之前提到了这一点,但你认为除了帮助我们在更短的时间内追求有趣的想法之外,是否会有一个转变,让模型接管整个研究事业?如果是这样,你认为这是来自现有的算法,还是需要新的想法或世界模型之类的东西?
SamAltman:
我认为距离模型在大多数领域进行真正完全闭环的自主研究还有非常长的路要走。
我们可以看看像数学这样的领域,然后说:“好吧,那个不需要湿实验室或物理输入。”也许你可以通过非常努力的思考并不断更新模型来取得巨大进展。但即使在那里,目前利用模型取得最大进展的数学家们,依然非常深度地参与其中。他们会查看中间进度,然后说:“不,这感觉不对,我的直觉告诉我这条路径上有不同的东西。”但我遇到过几位数学家,他们现在说他们的一整天都在与最新的模型合作,进展神速,但他们做的事情与模型非常不同。
老实说,这感觉很像国际象棋历史上深蓝击败卡斯帕罗夫后的那段时期。当时有一段时间,AI比人类强,但“人类+AI”比单纯的AI更强。但在那之后很快,AI再次变得更强,人类的干预反而只会把事情搞砸。
我有一种预感,对于许多类型的研究而言,随着时间的推移,情况会变得极其复杂,以至于AI在理解多步骤任务方面的表现,将超越大多数人,甚至所有人。
不过,在创造力、直觉和判断力方面,目前这一代的模型似乎还差得很远。我想不出任何原则性的理由来解释为什么我们无法达到那个境界,所以我假设我们最终会做到。
但在今天,我不认为仅仅对GPT-5或GPT-6说“去解决数学问题”,就能胜过几个非常优秀的人利用AI辅助来做数学研究。这些人可以判断“这是一个好的方向”,或者即使我们可以验证并说“你做了一个很棒的证明,把它放回训练集”,这其中还有其他的事情在发生。
不过你提到了一点关于工作流程的问题,也就是你解决了一个问题,却引出了许多新问题。这正是与那些积极使用AI的科学家交流时非常酷的地方。我的意思是,他们在这个过程中消耗了大量的GPU算力,但我认为出现了一种新技能,那就是能够列出20个新问题,然后对它们进行“广度优先搜索”。我不会在任何一个问题上钻得太深,而是把AI当作“无限的研究生”来使用——有人是这么形容的。其实我最近把这个说法升级成了“无限的博士后”。
关于物理科学的自动化,我们经常反复讨论是否应该为每个领域建立自动化的湿实验室。我们对此持开放态度,但也可能全世界会自己设计出很棒的实验,利用现有的设备,并乐于回馈数据。看着科学界拥抱我们的新模型,以及他们如此乐于提供帮助,这种模式似乎是行得通的。这显然会构建一个更轻松、更美好、更分布式、汇聚更多聪明人和不同设备的世界。
观众:
Sam,我是Emmy。我是斯坦福的学生,经营着一家生物安全初创公司。接续您关于科学实验以及云实验室未来发展的讨论,我的团队花了很多时间思考如何防止AI辅助的生物重组带来的危害,同时也思考如何利用AI来提升安全基础设施。所以我想问的是,在这个未来的路线图中,安全处于什么位置?您如何看待这些问题?
SamAltman:
你是泛指安全还是特指生物安全?
观众:
两者都是,最好是生物安全。
SamAltman:
在2026年,AI可能会在很多方面出问题。当然,我们非常担心的一个领域就是生物学。
现在的模型在生物学方面表现相当出色。目前我们,不仅仅是OpenAI,而是全世界其他公司的策略是试图限制谁能访问这些模型,并设置一堆分类器以防止帮助人们制造新型病原体。但我认为这种做法撑不了太久。
我认为世界在AI安全,特别是AI生物安全方面需要做出的转变,是从“封堵”转向“韧性(resilience)。我的联合创始人Wojtek用了一个我很喜欢的关于消防安全的类比。火为社会带来许多美好的事物,但也开始烧毁城市。我们曾试图采取各种措施限制火的使用。我这个周末才刚知道,“宵禁”(curfew)一词其实源于以前为了防止烧毁城市而不允许生火的时候。后来我们在应对火灾的韧性方面做得更好了,我们制定了消防法规,发明了阻燃材料等等。现在的社会在这方面已经做得很好了。
我认为我们需要以同样的方式思考AI。AI确实会给生物恐怖主义和网络安全带来真正的问题,但AI同时也是解决这些问题的方案。它也是许多其他问题的解决方案。
我认为我们需要全社会的努力来提供这种韧性的基础设施,而不是指望实验室总能封堵住它们该封堵的东西。毕竟世界上会有很多优秀的模型出现。
我们一直在与许多生物研究人员和公司交流,探讨如何应对新型病原体。很多人对这个问题感兴趣,也有很多人反馈说AI在这方面确实看起来很有帮助,但这不会是一个纯粹的技术解决方案。你需要全世界以不同于以往的方式来思考这些事情。
所以我对目前的状况非常紧张,但除了这种基于韧性的方法外,我看不到其他路径。而且看起来AI确实能帮助我们快速做到这一点。如果今年AI真的出了什么大问题——那种显而易见的大问题——我认为生物领域是一个合理的推测方向。
如果你展望明年和后年,你可以想象还有很多其他事情也可能会出大乱子。
观众:
我叫Magna。我的问题有点关于人类协作。当我们谈论AI模型进步时,我认为它们变得非常擅长让你独自快速学习主题或学科。这也是我们在ChatGPT与教育实验室中探索过的,我非常重视也很欣赏这一点。但我经常反思的一点是其他人类和人类协作的角色。如果你能触手可及地得到答案,那你为什么还要花时间,甚至克服摩擦去问另一个人呢?
SamAltman:
这也是我一直在深入思考的问题,和你之前提到的观点有关。既然所有的AI编程工具都能以更快的速度完成人类团队的工作,那么当我们思考合作、协作和集体智慧的产出时,我知道“人类+AI”是一个非常强大的途径。
观众:
但是“多个人类+AI”呢?这说得通吗?
SamAltman:
完全说得通。这里面有很多层含义。
我比你们大多数人都年长,Google刚出来的时候我还在上初中。当时的老师试图让孩子们发誓不使用它,因为他们觉得如果你动动手指就能查到任何东西,那为什么还要来上历史课?为什么要背诵任何东西?
这在我看来完全是疯了。我当时的想法是:实际上,我会变得更聪明,能学到更多东西,能做更多的事。这是我成年后将与之共存的工具。如果我不学习使用它,却强迫我学习一些假设它不存在的东西,那是很荒谬的。这感觉就像是,明明已经有了计算器,却还强迫我学习使用算盘,仅仅因为那是一个“需要学习的重要技能”。
我对AI工具也有同样的感觉。我理解在目前的教学方式下,AI工具是个问题。但这表明我们需要改变教人的方式。而不是说我们不希望你能用ChatGPT帮你写东西,因为世界将会变成那样。你仍然需要学会思考,而学习写作或练习写作对于学习如何思考非常重要。但很可能,我们教你思考的方式以及评估你思考能力的方式已经变了,我们不应该假装没变。
所以我完全觉得这没问题。那些前10%的自学者已经做得非常棒了。我们会找出新的课程教学方法,带动其他学生跟上。
然后是你提到的另一点:如何让这成为一件协作的事情,而不仅仅是你独自对着电脑学习、表现和做惊人的事情?
我们还没有看到这方面的确凿证据,这也是我们试图衡量的东西。我怀疑在一个AI无处不在的世界里,人与人的连接将变得更有价值,而不是更少。人们会更看重聚在一起与他人共事。
我们已经开始看到人们探索让这变得更容易的界面。当我们考虑制造自己的硬件、自己的设备时,我们思考了很多,甚至可能是首先思考的就是一个“多人协作+AI”的体验会是什么样子。
我的感觉是,虽然还没人完全攻克这一点,但我们将惊讶地发现,AI以一种其他技术从未有过的方式赋能了这一点。你可以有五个人围坐在桌旁,中间有一个小机器人之类的东西。作为一个团队,你们的生产力会高得多,而且你们会习惯这种常态。比如每一次团队头脑风暴,每一次试图解决问题,都会有AI参与其中,帮助团队做得更好。
观众:
太棒了。顺便提醒一下,任何需求只要告诉你们,你们可能就会做出来是吧?
SamAltman:
哎呀,说漏嘴了。
观众:
谢谢。我想问的是,随着Agent开始更多地运行和操作生产系统,特别是在大规模应用时,你认为哪里是被最严重低估的故障模式?比如安全性、成本、可靠性?与之相关的,目前哪里的艰巨工作是被投资不足的?
SamAltman:
到处都是问题。你提到了一点,这让我个人非常惊讶,我想让我们这里的很多人都感到惊讶。
当我第一次开始使用Codex时,我就在想:“我不知道这东西会怎么发展,但我绝对不会给这东西完全的、无人监督的电脑访问权限。”我对此非常自信。
但我只坚持了大约2个小时。然后我就想:“你知道吗,这看起来很合理,这个Agent做的事情似乎真的很合理。我讨厌每次都要批准这些命令。我就把权限打开一会儿,看看会发生什么。”
然后我就再也没有把全权限关掉过。我想其他人也有类似的经历。所以我的担忧是:这些工具是如此强大和便利,虽然故障率很低,但一旦发生故障可能就是灾难性的。我们会滑向一种“活在当下”的心态,觉得“希望能没事”。
随着模型能力越来越强,越来越难以理解它们所做的一切,如果模型出现不对齐(misalignment),如果在数周或数月的使用中出现某种复杂的问题,或者你在制作的东西中引入了某种安全漏洞……你可以对AI失控的科幻程度持有不同观点,但我认为将会发生的是:采用这些工具的压力,或者说使用它们的喜悦和力量是如此巨大,以至于人们会被裹挟着前行,而没有充分思考运行这些东西的复杂性,以及如何确保他们设置的沙盒是安全的。
我普遍的担忧是,能力将急剧上升。我们会习惯于模型在某个水平上的运作方式,并决定信任它们。如果在没有建立非常好的、我称之为“宏观安全基础设施”的情况下,我们将像梦游一样陷入某种危机。我认为建立这种安全基础设施将是一个伟大的创业方向。
观众:
我想回到关于教育的话题。我叫Claire,是伯克利大学认知科学和设计专业的大二学生。我在高中时看到同学们用ChatGPT写论文和作业。现在我在大学里,我们在讨论关于AI政策、课程作业、计算机科学和人文学科的问题。
我想问,如果在幼儿园和初中时期,在真正塑造人们如何解决问题、如何写作和思考的时期,AI进入课堂会是什么样子?作为一个现在的父亲,你认为AI在这些成长期将如何塑造教育?
SamAltman:
总体来说,我支持让计算机远离幼儿园。我认为幼儿园的孩子应该在外面跑来跑去,接触真实的物品,尝试学习如何与彼此互动。所以,不仅我不建议在大多数幼儿园使用AI,大多数时候我也不会放计算机进去。
我认为在发展心理学上,我们仍然不了解技术的所有影响。关于社交媒体对青少年的影响已经有很多文章,看起来相当糟糕。但我有一种感觉,不幸的是,大量技术对幼儿的影响甚至更糟,而且目前讨论得相对较少。我认为在我们要更好地理解这一点之前,幼儿园可能不需要使用大量的AI。
观众:
我叫Alan,我在生物制药行业。生成式AI对临床试验文档的编写非常有帮助,加速了很多事情,非常棒。我们也试图用它进行药物设计,特别是化合物设计。我们遇到的一个问题是3D推理。我想知道这是否会有一个拐点,或者你是否看到了这方面的未来?
SamAltman:
我们会解决这个问题的。我不知道这是不是2026年能解决的事。但这是一个超级普遍的需求,我认为我们知道怎么做。我们只是有很多其他紧急领域需要推进,但我们会做到的。
观众:
Sam,我是Dan。我刚从伦敦的一所大学退学,加入了W26YCombinator批次。我有两个问题。第一,我的父母仍然在某种程度上向我施压,让我完成大学学业。你认为大学目前的状况有时会是一种限制吗?第二,你做天使投资吗?
SamAltman:
我也是大学退学的,我父母花了10年时间才停止问我什么时候回去。所以我觉得父母就是会这样,他们爱你,他们试图给你他们认为最好的建议。你就继续向他们解释:如果你想回去,你随时可以回去,但现在的世界不同了,而且会持续变得不同。
每个人都得做自己的决定,但我认为你需要做你自己的决定,而不是照社会告诉你的去做。
我个人认为,如果你是一个AI建设者,现在这个时候待在大学里可能不是对你时间的最佳利用。如果你是一个有野心、高能动性和驱动力的人,这是一个非同寻常的时期。而且你知道,你以后总是可以回去的。
我想你可以告诉你父母,这并不意味着大学对很多人来说不是正确的事,也不意味着它将来某天对你来说不是正确的事,但现在你要做这件事,我想他们最终会理解的。
关于第二点,我尊重这种拼搏精神,但我不再做天使投资了。我很怀念它。但我忙于OpenAI,而且这会变得很奇怪。如果我最终投资的公司是OpenAI的大客户,我决定还是不投比较简单。
观众:
Sam,我是来自WorkOS的Michael。我们做很多关于认证、身份和登录的事情。所以我有个功能请求:用我的ChatGPT账号登录。我想很多人会喜欢这个。
SamAltman:
我们会做这个的。人们一直问我要这个功能。你需要什么?你是希望人们能带上他们的Token预算,还是希望他们带上ChatGPT的记忆?
观众:
这就是我的问题。Token预算肯定需要。但我认为还有其他东西,比如我的公司有权访问哪些MCP服务器?或者ChatGPT有关于我有什么记忆?我在做什么项目?我很好奇你是怎么想的,因为ChatGPT从工作角度和非常个人的角度都知道我很多事情。开发者该如何利用这一点?
SamAltman:是的。所以我们确实想弄清楚怎么做。但这非常可怕,因为ChatGPT确实知道你太多事情了。
如果你告诉一个和你非常亲密的人一堆秘密,你可以相对自信地认为他们知道确切的社交分寸:什么时候跟谁分享什么,某件事比另一件事更重要。我们的模型还没完全达到那个程度,虽然它们正变得相当不错。
如果我把我的ChatGPT账号连接到一堆网站上,然后说“利用你从我所有聊天记录和连接内容中知道的信息,自行判断何时分享什么”,我会感到不舒服。
但当我们能做到这一点时,这显然是一个很酷的功能。在此期间,我认为仅仅做一些关于Token预算的事情,比如如果我付费使用了Pro模型,那我可以在其他服务上使用它。这看起来是一件很酷的事情。所以我想我们至少会做这个,我们会试图找到正确的信息共享方式,但我们真的不想把这件事搞砸。
观众:
Sam,我叫Oleg。我想我们都同意,软件开发作为一门手艺最近发生了巨大的变化。但与此同时,LinkedIn上仍然有OpenAI招聘软件开发工程师的职位。我很好奇,在过去的几个月或几年里,面试发生了怎样的变化?
SamAltman:
我们会继续招聘软件开发人员。但我们第一次——我知道每家其他公司和初创公司也在思考这个问题——计划大幅放慢我们的人员增长速度,因为我们认为我们可以用更少的人做更多的事。
我认为目前我们面临的很多阻碍,或者其他公司面临的阻碍,仅仅是因为大多数公司建立的内部政策并没有考虑到“大多数同事是AI”的情况。这需要一段时间来适应。
但我认为我们不应该做的是,我也希望其他公司不要这样做,就是疯狂招聘,然后突然意识到AI可以做很多事情,你不需要那么多人了,然后不得不进行某种非常不舒服的裁员对话。
所以我认为对我们来说正确的方法是放慢招聘速度,但保持招聘。我不相信未来OpenAI会有零个员工。在为了很长一段时间内,我们将拥有逐渐增加的人数,做着多得多的事情。这也是我预期整体经济形态会呈现的样子。
至于面试是什么样子的,它还没有发生应有的变化,但我今天还在和一个会议上的人讨论我们希望它如何变化。我们基本上希望让你坐下来,做一件在去年这个时候一个人两周都不可能完成的事情,然后看你在10分钟或20分钟内完成它。
这就是高优先级的点:你想通过面试看到人们能够高效地以这种新方式工作。我认为软件工程面试长期以来一直很糟糕,也许不太相关,但现在它们变得更不相关了。
还有更普遍的一点,这几个问题都暗示了,未来的公司是没有太多人、拥有大量AI同事?还是未来的赢家是完全的AI公司,比如只有一机柜的GPU,没有人类?我真的希望是前者。
有很多理由表明它可能接近后者。但是,如果公司不积极采用AI,如果公司不弄清楚如何招聘能有效使用这些工具的人,它们最终会被完全没有人类、不需要遵守阻止大公司使用AI的愚蠢政策的全AI公司淘汰。这感觉对社会来说将是一件非常不稳定的事情。
我们一直在试图弄清楚如何谈论这个问题,因为这听起来像是我们在自卖自夸,但我认为公司非常迅速地大规模采用AI是非常重要的。
观众:
Sam,我是Cole。我是一名创作者和电影摄影师。我认为尤其是在过去的一年里,AI完全改变了我们讲故事的方式,也因此改变了我们看待自己的方式。在创意领域有很多有趣的尝试,比如Sora,它是一个非常有趣的将“自我”作为画布的用法,让你能够使用AI将自己置入所有这些奇幻的场景中。真的很好奇,随着这些模型继续进步,你认为人类创意与AI辅助创作之间的关系将走向何方?
SamAltman:
我们现在可以研究并学到最多的领域是图像生成。它存在的时间最长。创意社区使用它,讨厌它,也最喜欢它。
这其中有很多有趣的观察,其中之一是,如果被告知图片是由人制作的而不是AI,图像的消费者会报告显著更高的欣赏度和满意度。
我认为这将是未来几十年的一个深刻趋势:我们非常在乎其他人,而对机器毫不在意。在所有对AI的蔑称中,“Clanker(破铜烂铁)”是我最喜欢的一个。我觉得它非常唤起人们的情绪反应。
你可以看到这些令人难以置信的、美丽的图像,然而一旦你被告知那是AI做的,许多人的主观欣赏度就会直线下降。
去年我在网上看到一个东西,他们去找那些声称非常讨厌AI生成艺术(静态图片)的人。这些人还会说:“我肯定能分辨出哪些是AI生成的,因为它们很糟糕。”
然后给他们看10张图,让他们给最喜欢的排序。一半完全由人类完成,一半完全由AI完成。结果相当一致,他们会把AI生成的排在前面。然后一旦被告知真相,他们就会说:“其实我不喜欢它,这不是我想要的。”
这就是某种测试:你到底喜欢什么?当我读完一本我喜欢的书,我想做的第一件事就是去查作者,了解他们的生活,以及是什么引导他们写出这本书,因为我感到与这个我不认识的人建立了联系,我想了解他们。
我想如果我读了一本伟大的小说,最后得知它是由AI写的,我会感到某种悲伤和失落。
我认为这将是一个深刻而持久的趋势。然而,如果艺术作品哪怕只有一点点人类的指导(至于多少算少,我们要随着时间推移去观察),人们似乎就没有那种强烈的负面情绪。这种情况已经存在很久了,如果数字艺术家使用Photoshop,人们仍然喜欢他们的艺术。
所以我基于现在从创作者和消费者那里看到的行为,我的预期是:人、他们的人生故事、他们的编辑或策划过程,将变得非常重要。广义上讲,至少从我们在图像中学到的来看,我们不会想要完全由AI生成的艺术。
观众:
Sam,我叫KeithCurry,刚从旧金山州立大学毕业。我的问题围绕个性化和记忆。第一部分是你认为这将如何随时间演变?第二是你对更细粒度的看法,比如记忆分组?例如这是我的工作身份,这是我的个人身份。这样当你进行不同的提示时,你可以更有选择性地决定包含什么。
SamAltman:
是的。我们将大力推进记忆和个性化。很明显,人们想要它,它提供了更好的工具使用体验。
我自己也经历了一个转变,但在这个点上,我已经准备好让ChatGPT查看我的整个电脑和整个互联网并且知道一切。因为它带来的价值太高了,我不像以前那样对此感到不舒服。我真的希望所有AI公司都非常认真地对待安全和隐私,我也希望整个社会都这样做,因为效用太大了。
AI将会了解我的一生。我不会阻碍这一点。我还觉得自己没准备好戴那种记录一切的眼镜,出于很多原因那仍然让人不舒服,但我确实准备好说:“你可以访问我的电脑。弄清楚发生了什么,对我有用,理解一切,拥有我数字生活的完美映射。”
我很懒。我认为大多数用户也很懒。所以我不想坐在那里必须分组:这是工作记忆,这是个人记忆。我想要并且我相信可能实现的是:AI对我生活中复杂的规则、互动和层级有如此深刻的理解,以至于它知道何时使用什么,在哪里暴露什么。我们最好弄清楚这一点,因为我认为这也是大多数用户想要的。
观众:
Sam,我叫Luan。我是来自越南的一名国际学校学生。我的问题是,你认为在AI时代,人们应该学习的最重要的技能是什么?
SamAltman:
人们应该学习的都属于软技能,没有一个是像“学编程”那样,尽管这在过去一段时间一直是正确的建议。
这些软技能包括:具有高能动性、擅长产生想法、非常有韧性、能够适应快速变化的世界。我认为这些将比任何特定的技能都重要,而且我认为这些都是可学习的。
这是我作为创业投资者遇到的惊喜之一就是你可以带一群人,在一个为期三个月的训练营式环境中,让他们变得极其强大,并在我刚才提到的所有维度上做到这几点。这非常令人惊讶的。这对我来说是一个很大的认知更新。所以我认为这些可能是最重要的技能,而且它们是非常容易习得的。
SamAltman:
非常感谢大家来交流。我们真的希望得到关于你们想让我们构建什么的反馈。
假设我们将拥有一个比当前模型强100倍的模型,拥有100倍的上下文长度,100倍的速度,成本降低100倍,完美的工具调用能力,极端的连贯性……我们会到达那里的。
告诉我们你们想让我们构建什么。我们会在这附近待一会儿。谢谢大家的到来。