KakaClaw负责人聊如何评价李想对车载Agent的理解?作者是群友,以下为正文:
了解我的朋友都知道,我是理想的粉丝。
kakaclaw在车展期间得到很多同行认可,我很感激,团队的工作终于被看到了。不过我作为个人,心里一直期待李想能来体验一次,听一听他如何评价kakaclaw,以及他心中想要的车载voice Agent还有哪些差距,遗憾未能实现。
昨天,李想在老罗的访谈中提到了理想即将随L9 Livis上线的Agent。他说他认为车载Agent要解决的交互需求有五类:
1. 泛化的任务:Agent2. 泛化的信息获取需求,跟豆包比较相似:Chatbot3. 精确的功能控制。李想说的知识图谱,实际就是指规则系统4. 必要信息的记录5. 个性化
具体时间大概在采访视频的1:06:00之后。
下面我来分别谈谈。
一、泛化的任务
一种泛化是指跨轮次的任务。比如“导航去中新大厦”,系统识别成了中鑫大厦,用户可能会说:不是这个鑫,是新闻的新。这在传统的语音交互中是非常难处理的,而LLM天然可处理多轮上下文。二是一些任务需要推理和多步执行,且后续步骤要依赖于之前的执行结果。传统语音交互处理的都是单个指令,或是简单并列的多个指令;早年模型能力不够,只能靠噱头凑数,曾经有很多产品靠一口气识别几十个连续指令来标榜先进性,其实非常可笑。而LLM Agent,或者说function call loop,天然适合做这类任务。
李想提这一点,本质就是指Agent带来的交互能力升级。
Agent真正被大众广泛接触,是近一年多(尤其是去年底)随着LLM长任务持续执行能力提升,再加上Claude Code、Codex、OpenClaw、Hermes这类编码/工作Agent框架日趋完善,AI生产力才得到了真正的提升。
但其实行业内很早就都在探索车载Agent。比如我们在24年北京车展,就已经用GPT4作为LLM核心,基于ReAct范式,针对出行场景落地了车载Agent(也就是现在各家车企准备上线、对标Tesla Grok形态的Agent)。
举个例子:用户说「我要去史铁生写过的那个公园转转,然后找一家附近近的北京特色小吃店吃饭」。
24年我们开发这套系统应该是业内最早的车载Agent,只是我们没有公开展示。而且当时LLM本身能力偏弱、调用成本太高,我们做了大量提示词优化(那时候还不叫上下文工程),最终虽然能跑通链路,但响应速度很慢、调用成本高昂。
当时积累的大量场景认知,也是今年做kakaclaw时开发效率特别高的关键原因之一。
有些人觉得:车载Agent无非就是在车上移植一套OpenClaw,框架都是现成的,有什么难的?实际上远没有这么简单。车载Agent要处理出行场景专属的工具设计、UI联动、时延约束、语音对话链路适配等特有问题;另一方面,LLM预训练数据里充斥着大量代码、办公场景知识,也一直在为code/work Agent持续优化,但从来没有为车载出行场景做过专项优化,这部分需要投入大量场景prompt适配与调优。
另外,车载场景下真正的长链路、长周期任务并不多,目前落地最多的就是出行规划、周边订餐这类场景。所以现在各家落地的车载Agent产品,基本也都围绕这两个核心场景在做。
二、泛化的信息查询李想说就像豆包这类Chatbot,很好理解。依托LLM自身的推理与通识知识回答用户问题,这是ChatGPT最早的原生能力;再叠加联网搜索工具,就能获取实时资讯、专业外部信息。
虽然李想把这两类能力拆开来讲,但我认为理想新系统里,对用户而言这两种能力不会做入口区分,是无感融合的。
三、精确的功能控制靠Agent固然能完成复杂多轮任务,处理简单单指令自然也没问题。
但用通用Agent框架做精细功能控制,存在两个硬问题:一是模型输出的不确定性,二是推理成本与时延偏高。
所以李想提到的知识图谱,本质还是沿用规则式NLU系统,用来确定性、低成本、低时延地处理车机精准控制指令。
把精准控制从通用Agent里拆离出来独立处理,至少要解决意图分发和多轮上下文同步两大问题。
未来等到Token成本、推理速度再上一个台阶,进入Token的4G时代,这种「规则+Agent」的缝合架构就不再必要了,完全可以由原生Agent统一承载所有交互。
四、记录李想没有具体说明这项功能在车上的最终产品形态。
李想特意强调不是普通记忆,这类记录可以理解为主动记忆:用户明确指令「帮我记一下xxx」。
确实很多人有随时记录的需求:记待办、灵感、日常琐事。老罗也说他在浴室放蓝牙麦克风随时记录想法。其实“语音记录”本身已经是一个独立产品赛道,除了录音卡片、录音笔这类产品,AI项链、AI戒指、AI耳机、AI眼镜这类穿戴设备,也都会把语音记录、智能整理作为核心功能之一。
五、个性化李想提到类似OpenClaw里的Soul个性化设定。
个性化其实分两层:一层是用户自定义:可以定制Agent人格、对话风格、说话语气等;另一层是用户理解与画像记忆:沉淀用户偏好、习惯、用车场景,从而提供千人千面的个性化服务。
六、还缺了些什么整体看下来,李想作为企业CEO,能清晰拆解车载Agent的五个核心能力维度,认知水平确实很高,甚至很多车企座舱负责人都未必能讲得这么透彻。
但他目前的论述,更多还是围绕功能模块展开,缺少我认为非常关键的一点:情绪价值。
(李想深度用过OpenClaw/Hermes,但大概率没用过colaOS,也没用过kakaclaw)
当下每个人都被行业内卷、职场压力、AI工具裹挟着疲于奔命,情绪价值的需求被无限放大。
语音Agent对比文本交互,天然承载更丰富的情绪信息。老板们或许期待车机变成移动办公会议室,但对普通打工人而言,深夜加班返程的路上,车机能轻声问候、承接一天积压的情绪与疲惫,或许才是车载语音Agent最动人的价值慰藉。
我就分享这么多,欢迎对车载智能感兴趣的同学加入kakaclaw团队!
理想汽车理想汽车