欧洲杯正规下单平台中高考、考研还有初学竞赛题齐能跟 o1 过过招-欧洲杯正规(买球)下单平台·中国官方全站

发布日期:2024-12-08 05:36    点击次数:171

欧洲杯正规下单平台中高考、考研还有初学竞赛题齐能跟 o1 过过招-欧洲杯正规(买球)下单平台·中国官方全站

消停了一阵子之后欧洲杯正规下单平台,国内又有大模子公司打榜 OpenAI 了。

这不,  Kimi   最近推了个数学模子   k0-math  ,堪称数学才智不错失色   OpenAI   的   o1-mini   和   o1-preview  ,中高考、考研还有初学竞赛题齐能跟 o1 过过招。

该说不说,  AI   模子启动   "   炒作   "   起数学才智,这事儿还挺罕有,毕竟   AI   的数学才智拉胯也不是一天两天了,连 strawberry 里有几个 r 齐一直数不清。。。

就连 OpenAI 的 o1 发布时,也莫得直说我方的数学何等何等利害,仅仅点了一下推理才智闭幕。

是以底本以长文本出圈儿的 Kimi ,这反转眼卷起了数学,世超如实很羡慕,羡慕这个 k0-math 到底啥水平啊?

而世超在哥们儿的匡助下,也提前体验了一阵子,今天就借着 Kimi 数学版(  基于 k0-math 模子  )全量通达了,带着环球瞧瞧这个数学模子有些许斤两。

现时,  Kimi   数学版只能在网页版上用,进口倒是跟之前的平常版和探索版没啥区别,但有一丝,Kimi   数学版只复古一轮对话。

像世超一上来,就直戳 Kimi 痛处翻了波旧账,问它   " 13.11%   和 13.8%  ,哪个更大?  "  。(之前 Kimi 在这上头翻过车,说 13.11 的整数部分和少许部分齐大于 13.8 。。 )

此次倒是学聪慧了,而且很浅易的比数值大小,  Kimi   数学版齐用上了  "   为了进一步证据   ""   为了确保万无一失   ""   经过多种设施的考证   "  这些话术, kuku 输出了二三十行。

只不外当世超想再次追问的时候,出来的就不是 k0-math 模子了。

天然,这仅仅个小插曲,既然官方齐照旧把 k0-math 的实力挑明,那咱也不客气了。

径直上本年高考新课标 1 卷的数学题:已知 cos ( a+  β )   =m , tanatan β  =2 ,则 cos ( a-  β )   =  ?

虽说解题进程有些波折,但总算是没把终末   -3m 的谜底弄错。

这个问题我同期也问了智谱清言和   ChatGPT  ,谜底倒是充公支,但区别于一个要领一个要领列出来,  Kimi   数学版给我一种,它简直在师法东谈主类念念考的进程。

模子在推导的进程中,怀疑过我方的念念路可能是失实的,况且对此进行了考证。

但底下这谈概率题, Kimi 数学版就没那么好运了。

圭臬谜底是 1/2 ,唯有 ChatGPT 答对了。

世超看了眼 Kimi 数学版的推导进程, 24 种可能发生的情况它齐列举出来了,而且每一种情况谁输谁赢也盘得明昭着白,以致终末还查验了一遍。

但最大的问题出在,它把甲的总得分≥ 2 的次数,漏数了一个。。。实属可惜。

咱再找一齐 AMC 数学竞赛的题目,给 Kimi 数学版试试。

一个贴近由 6 个(  不是不同的  )正整数构成:1 、 7 、 5 、 2 、 5 和 X 。6 个数字的平均值(  算术平均值  )等于贴近中的一个值。X 的统统可能值之和是些许?

此次世超还把豆包也加进来了,合并齐题,四个模子唯有智谱清言的算错了。(正确谜底是 36)

还有个小插曲,本下世超想再给 Kimi 试一齐竞赛题,截至它径直反过来质疑我。。试了好几次齐是这样个回复,不知谈是系统的 bug ,照旧它根本就不会儿这题,干脆装死。

有一说一,好几谈数学题试下来, Kimi 数学版如实给了我不少惊喜,尽头是解题进程中展现出来的念念考、推理的才智,又刷新了一波咱对 AI 模子数学才智的贯通。

只能惜几何题一如既往的菜,仅仅一齐初中级别的几何选拔题,给 Kimi 数学版的 CPU 齐快干烧了,截至照旧错的谜底。

至于为啥 Kimi 的 k0-math 模子能有这样大的马虎,前段时分世超干涉了一场月之暗面的媒体会,月之暗面的首创东谈主杨植麟就告诉世超, k0-math 的到手很未必率要归功于一个叫作念 COT ( Chain of Thought )念念维链的技巧。

太专科的术语咱也不在这拽了,大伙儿不错把这个 COT 意会为, AI 模子师法东谈主类的大脑进行逻辑推理,把复杂的任务拆解之后,再一步状貌科罚。把这个技巧诈欺到模子里,模子就能够通过   "   念念考   "   来完成任务并提高正确率。

而为啥先把这东西用在了一个数学模子上,杨植麟径直援用了伽利略的名言  "   天下是由数学这门谈话书写而成的   "  。

总之,等于但愿先从数常识题发轫,再将数学的念念维泛化,从而去意和会盘世界。

天然,并不是说模子一朝用上了念念维链就能取得正确的谜底,但这个式样,现时如实不错提高模子对复杂任务的推理才智。

再举个例子,咱让 Kimi 数学版统计   " chaping debug the world "   里,有几个字母   " e "  。

先划分把   " chaping "" debug "" the "" world "   单独拎出来,再挨个字母一个个查,设施天然笨,但至少不会出错。

就这样说吧,这谈浅易的数数题,世超试了一下,唯有 Claude 和 Kimi 数学版数对了。

包括在   "   我有一块 1 米长的面包,每天吃一半,需要几天才能把这块面包吃完 ? "   的问题中,在大部分 AI 给出遥远吃不完的谜底时, Kimi 数学版认为   "   是有物理极限的   "  ,认为分到了一纳米就不可分了。。。

这种对任务拆解的才智,夸张到什么进度,即使你问它 1+1 等于些许, Kimi 数学版齐能给你唠半天,截图根本截不完。

另外,在念念维链的作用下,对改良 AI 模子犯蠢、不会肃穆心的老颠倒也有一定成果。

像前段时分苹果就发了篇论文,未必意思是说模子根本就不会推理,收缩加几个无关痛痒的搅扰要求,模子的准确率就会着落。

但世超此次划分拿 Kimi 数学版和豆包试了试,题目是:超市里,每袋大米售价 50   元,每瓶酱油售价 10   元。要是鲜虾包购买了 4 袋大米和 4 瓶酱油,况且送给邻居 1 袋大米和 2 瓶酱油,那么鲜虾包购买大米比酱油多花了些许钱?

这谈题,还专门加了   "  送给邻居 1 袋大米和 2 瓶酱油  "   的陷坑。

豆包些许就有点不懂情面世故了,还把自个儿留存的大米和酱油单独拎出来算。

反不雅 Kimi 数学版,深知送出去的礼物泼出去的水。

归正测试下来, k0-math 的解题准确率不可说百分百,但调用了念念维链之后的逻辑推理进程,很猛进度上提高了 Kimi 这个作念题家的数学水平。

而且世超也发现,除了 k0-math 外,国内的幻方 DeepSeek 前两天也搞了个推理模子 DeepSeek-R1-Lite ,相同亦然纸上水平失色 o1 。

又是 o1 系列,又是 k0-math 、 DeepSeek-R1-Lite ,可能有差友也羡慕,之前不是还在长文本吗,这若何转眼就卷起了推理才智了?

其实,传统的拼算力、拼数据在大模子限制,照旧遭受了一定的瓶颈,而靠着强化学习,提魁岸模子的推理才智,照旧成了大伙们卷的新标的。

这强化学习说白了,等于在涵养时让 AI 我方试错,终末摸索出正确谜底。

像 Claude Sonnet 3.5 等于基于强化学习,完了了代码才智的普及。包括 Kimi 首创东谈主杨植麟在前阵子的媒体共享会上,也多量次 cue 到了强化学习,还说他们接下来会越来越柔和基于强化学习的设施去不竭迭代。

终末,借用杨植麟的   "   登月论   "  ,要是说,先前的长文本是通往 AGI 的第一步,那么当今让 AI 学会念念考,则是认真开启了第二阶段。

撰文:西西