网友吐槽不断,文心X1深度思考大模型的数学能力真有那么差?
百度深度思考模型文心X1发布后,引来不少网友尝鲜,但试用过后,有不少人吐槽这款大模型不是“一般得糟”。槽点包括回复速度太慢,时常假死等,但最主要的焦点,却集中在数学能力太差上。
网友“幻想の糖果":“难度一般的高三题,六道错了四道,你还能再弱智点吗?”
网友"CPU烧干了“:”太惨了,本来想偷个懒,前晚的数学作业就让文心X1代做了,今天作业发下来了,满眼的红叉,对勾少得像沙中的金子,文心X1太坑人了,这样的大模型也好意思发布?”
网友“浅梦吟歌”:“文心X1的数学能力简直差到没边了!本来以为它是高科技产物,数学题对它来说是小菜一碟,结果呢?简单的四则运算都能给我算错,这不是搞笑吗?感觉就像是一个连小学数学都没学好的家伙,还号称什么深度思考大模型,真是让人失望透顶。也不知道开发它的团队是咋想的,这样的数学水平也好意思拿出来用。“
网友“星屑”:“这算什么深度思考大模型,数学能力简直就是个笑话!我试着让它帮我解决几道数学题,难度并不大,正常思维稍微分析一下就能得出答案的那种。可它倒好,思来想去把自己绕进去了,最后给出的答案完全不对。这就好比一个司机不认识路标,还非要开车上路,不出事故才怪呢!这样的数学能力,真的让人难以相信它能在复杂的任务中发挥什么有效作用“
网友:“小子的肖”:“我真的是让文心X1的数学能力整无语了。给了它一道稍微有点难度的函数题,满心期待它能给出一个准确又详细的解题过程,结果呢?它给出的答案不仅错误百出,而且解释起来也是含糊不清,仿佛在故意糊弄人一样。作为一个大模型,连基本的数学概念都没搞清楚,还谈什么为用户提供高质量的服务?这不是浪费资源吗?真不知道那些支持它的人是不是脑子进水了。”
……
诸如此类,不一而足。
那么,文心X1的数学能力真有那么差吗?为此,笔者特意在网上找到一份《浙江省天域全国名校协作体2024-2025学年高三数学下学期3月月考》试卷,让其解答了其中的三个解答题,结果如下:
文心X1给出的答案如下:
该题有两个小问,其中(1)只要证明出“当a≤0时,f(x)在R上单调递减:当a>0时,f(x)在(-o,Ina)递增,在(Ina,+00)递减。”,命题便存在;(2)的正确答案为:(-∞,-2]U[2,+∞),文心X1解答正确。
文心X1给出的答案:
该题(1)的正确答案为50/60;(2)主要证明出X2=n(ad-bc)2/(a
+b)(a+c)(b+d)(c+d)即可就行。第二小题文心X1答错了,第一小题正确。(2)做对。
文心X1解答如下:
该题的正确答案是:(1)y2=8x;(2)只需证明出P点坐标为(2.4)或(2,-4)即说明P点存在。令人遗憾的是,文心X1居然两小题全答错了。
至此,文心X1的数学能力测试完毕,在上面的三大题、六小题中,它答错了三题,错误率达到50%。
那么,是不是上面给出的题目太难,超出了当前推理大模型能够解答的水平呢?当然不是,同样是这三道题,某国产深度大模型的正确率达到了100%,说明文心X1上述表现只是它自己的问题,数学能力的确太差,而当前推理大模型的共性问题。
附:某国产深度推理大模型给出的答案:
第15题
第16题
第17题
发表评论:
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。