消停了一阵子之后欧洲杯正规下单平台,国内又有大模子公司打榜 OpenAI 了。
这不, Kimi 最近推了个数学模子 k0-math ,堪称数学才智不错失色 OpenAI 的 o1-mini 和 o1-preview ,中高考、考研还有初学竞赛题齐能跟 o1 过过招。
该说不说, AI 模子启动 " 炒作 " 起数学才智,这事儿还挺罕有,毕竟 AI 的数学才智拉胯也不是一天两天了,连 strawberry 里有几个 r 齐一直数不清。。。
就连 OpenAI 的 o1 发布时,也莫得直说我方的数学何等何等利害,仅仅点了一下推理才智闭幕。
是以底本以长文本出圈儿的 Kimi ,这反转眼卷起了数学,世超如实很羡慕,羡慕这个 k0-math 到底啥水平啊?
而世超在哥们儿的匡助下,也提前体验了一阵子,今天就借着 Kimi 数学版( 基于 k0-math 模子 )全量通达了,带着环球瞧瞧这个数学模子有些许斤两。
现时, Kimi 数学版只能在网页版上用,进口倒是跟之前的平常版和探索版没啥区别,但有一丝,Kimi 数学版只复古一轮对话。
像世超一上来,就直戳 Kimi 痛处翻了波旧账,问它 " 13.11% 和 13.8% ,哪个更大? " 。(之前 Kimi 在这上头翻过车,说 13.11 的整数部分和少许部分齐大于 13.8 。。 )
此次倒是学聪慧了,而且很浅易的比数值大小, Kimi 数学版齐用上了 " 为了进一步证据 "" 为了确保万无一失 "" 经过多种设施的考证 " 这些话术, kuku 输出了二三十行。
只不外当世超想再次追问的时候,出来的就不是 k0-math 模子了。
天然,这仅仅个小插曲,既然官方齐照旧把 k0-math 的实力挑明,那咱也不客气了。
径直上本年高考新课标 1 卷的数学题:已知 cos ( a+ β ) =m , tanatan β =2 ,则 cos ( a- β ) = ?
虽说解题进程有些波折,但总算是没把终末 -3m 的谜底弄错。
这个问题我同期也问了智谱清言和 ChatGPT ,谜底倒是充公支,但区别于一个要领一个要领列出来, Kimi 数学版给我一种,它简直在师法东谈主类念念考的进程。
模子在推导的进程中,怀疑过我方的念念路可能是失实的,况且对此进行了考证。
但底下这谈概率题, Kimi 数学版就没那么好运了。
圭臬谜底是 1/2 ,唯有 ChatGPT 答对了。
世超看了眼 Kimi 数学版的推导进程, 24 种可能发生的情况它齐列举出来了,而且每一种情况谁输谁赢也盘得明昭着白,以致终末还查验了一遍。
但最大的问题出在,它把甲的总得分≥ 2 的次数,漏数了一个。。。实属可惜。
咱再找一齐 AMC 数学竞赛的题目,给 Kimi 数学版试试。
一个贴近由 6 个( 不是不同的 )正整数构成:1 、 7 、 5 、 2 、 5 和 X 。6 个数字的平均值( 算术平均值 )等于贴近中的一个值。X 的统统可能值之和是些许?
此次世超还把豆包也加进来了,合并齐题,四个模子唯有智谱清言的算错了。(正确谜底是 36)
还有个小插曲,本下世超想再给 Kimi 试一齐竞赛题,截至它径直反过来质疑我。。试了好几次齐是这样个回复,不知谈是系统的 bug ,照旧它根本就不会儿这题,干脆装死。
有一说一,好几谈数学题试下来, Kimi 数学版如实给了我不少惊喜,尽头是解题进程中展现出来的念念考、推理的才智,又刷新了一波咱对 AI 模子数学才智的贯通。
只能惜几何题一如既往的菜,仅仅一齐初中级别的几何选拔题,给 Kimi 数学版的 CPU 齐快干烧了,截至照旧错的谜底。
至于为啥 Kimi 的 k0-math 模子能有这样大的马虎,前段时分世超干涉了一场月之暗面的媒体会,月之暗面的首创东谈主杨植麟就告诉世超, k0-math 的到手很未必率要归功于一个叫作念 COT ( Chain of Thought )念念维链的技巧。
太专科的术语咱也不在这拽了,大伙儿不错把这个 COT 意会为, AI 模子师法东谈主类的大脑进行逻辑推理,把复杂的任务拆解之后,再一步状貌科罚。把这个技巧诈欺到模子里,模子就能够通过 " 念念考 " 来完成任务并提高正确率。
而为啥先把这东西用在了一个数学模子上,杨植麟径直援用了伽利略的名言 " 天下是由数学这门谈话书写而成的 " 。
总之,等于但愿先从数常识题发轫,再将数学的念念维泛化,从而去意和会盘世界。
天然,并不是说模子一朝用上了念念维链就能取得正确的谜底,但这个式样,现时如实不错提高模子对复杂任务的推理才智。
再举个例子,咱让 Kimi 数学版统计 " chaping debug the world " 里,有几个字母 " e " 。
先划分把 " chaping "" debug "" the "" world " 单独拎出来,再挨个字母一个个查,设施天然笨,但至少不会出错。
就这样说吧,这谈浅易的数数题,世超试了一下,唯有 Claude 和 Kimi 数学版数对了。
包括在 " 我有一块 1 米长的面包,每天吃一半,需要几天才能把这块面包吃完 ? " 的问题中,在大部分 AI 给出遥远吃不完的谜底时, Kimi 数学版认为 " 是有物理极限的 " ,认为分到了一纳米就不可分了。。。
这种对任务拆解的才智,夸张到什么进度,即使你问它 1+1 等于些许, Kimi 数学版齐能给你唠半天,截图根本截不完。
另外,在念念维链的作用下,对改良 AI 模子犯蠢、不会肃穆心的老颠倒也有一定成果。
像前段时分苹果就发了篇论文,未必意思是说模子根本就不会推理,收缩加几个无关痛痒的搅扰要求,模子的准确率就会着落。
但世超此次划分拿 Kimi 数学版和豆包试了试,题目是:超市里,每袋大米售价 50 元,每瓶酱油售价 10 元。要是鲜虾包购买了 4 袋大米和 4 瓶酱油,况且送给邻居 1 袋大米和 2 瓶酱油,那么鲜虾包购买大米比酱油多花了些许钱?
这谈题,还专门加了 " 送给邻居 1 袋大米和 2 瓶酱油 " 的陷坑。
豆包些许就有点不懂情面世故了,还把自个儿留存的大米和酱油单独拎出来算。
反不雅 Kimi 数学版,深知送出去的礼物泼出去的水。
归正测试下来, k0-math 的解题准确率不可说百分百,但调用了念念维链之后的逻辑推理进程,很猛进度上提高了 Kimi 这个作念题家的数学水平。
而且世超也发现,除了 k0-math 外,国内的幻方 DeepSeek 前两天也搞了个推理模子 DeepSeek-R1-Lite ,相同亦然纸上水平失色 o1 。
又是 o1 系列,又是 k0-math 、 DeepSeek-R1-Lite ,可能有差友也羡慕,之前不是还在长文本吗,这若何转眼就卷起了推理才智了?
其实,传统的拼算力、拼数据在大模子限制,照旧遭受了一定的瓶颈,而靠着强化学习,提魁岸模子的推理才智,照旧成了大伙们卷的新标的。
这强化学习说白了,等于在涵养时让 AI 我方试错,终末摸索出正确谜底。
像 Claude Sonnet 3.5 等于基于强化学习,完了了代码才智的普及。包括 Kimi 首创东谈主杨植麟在前阵子的媒体共享会上,也多量次 cue 到了强化学习,还说他们接下来会越来越柔和基于强化学习的设施去不竭迭代。
终末,借用杨植麟的 " 登月论 " ,要是说,先前的长文本是通往 AGI 的第一步,那么当今让 AI 学会念念考,则是认真开启了第二阶段。
撰文:西西