欧洲杯正规下单平台中高考、考研还有初学竞赛题齐能跟 o1 过过招-欧洲杯正规(买球)下单平台·中国官方全站

发布日期：2024-12-08 05:36 点击次数：171

消停了一阵子之后欧洲杯正规下单平台，国内又有大模子公司打榜 OpenAI 了。

这不， Kimi 最近推了个数学模子 k0-math ，堪称数学才智不错失色 OpenAI 的 o1-mini 和 o1-preview ，中高考、考研还有初学竞赛题齐能跟 o1 过过招。

该说不说， AI 模子启动 " 炒作 " 起数学才智，这事儿还挺罕有，毕竟 AI 的数学才智拉胯也不是一天两天了，连 strawberry 里有几个 r 齐一直数不清。。。

就连 OpenAI 的 o1 发布时，也莫得直说我方的数学何等何等利害，仅仅点了一下推理才智闭幕。

是以底本以长文本出圈儿的 Kimi ，这反转眼卷起了数学，世超如实很羡慕，羡慕这个 k0-math 到底啥水平啊？

而世超在哥们儿的匡助下，也提前体验了一阵子，今天就借着 Kimi 数学版（基于 k0-math 模子）全量通达了，带着环球瞧瞧这个数学模子有些许斤两。

现时， Kimi 数学版只能在网页版上用，进口倒是跟之前的平常版和探索版没啥区别，但有一丝，Kimi 数学版只复古一轮对话。

像世超一上来，就直戳 Kimi 痛处翻了波旧账，问它 " 13.11% 和 13.8% ，哪个更大？ " 。（之前 Kimi 在这上头翻过车，说 13.11 的整数部分和少许部分齐大于 13.8 。。）

此次倒是学聪慧了，而且很浅易的比数值大小， Kimi 数学版齐用上了 " 为了进一步证据 "" 为了确保万无一失 "" 经过多种设施的考证 " 这些话术， kuku 输出了二三十行。

只不外当世超想再次追问的时候，出来的就不是 k0-math 模子了。

天然，这仅仅个小插曲，既然官方齐照旧把 k0-math 的实力挑明，那咱也不客气了。

径直上本年高考新课标 1 卷的数学题：已知 cos ( a+ β ) =m ， tanatan β =2 ，则 cos ( a- β ) = ？

虽说解题进程有些波折，但总算是没把终末 -3m 的谜底弄错。

这个问题我同期也问了智谱清言和 ChatGPT ，谜底倒是充公支，但区别于一个要领一个要领列出来， Kimi 数学版给我一种，它简直在师法东谈主类念念考的进程。

模子在推导的进程中，怀疑过我方的念念路可能是失实的，况且对此进行了考证。

但底下这谈概率题， Kimi 数学版就没那么好运了。

圭臬谜底是 1/2 ，唯有 ChatGPT 答对了。

世超看了眼 Kimi 数学版的推导进程， 24 种可能发生的情况它齐列举出来了，而且每一种情况谁输谁赢也盘得明昭着白，以致终末还查验了一遍。

但最大的问题出在，它把甲的总得分≥ 2 的次数，漏数了一个。。。实属可惜。

咱再找一齐 AMC 数学竞赛的题目，给 Kimi 数学版试试。

一个贴近由 6 个（不是不同的）正整数构成：1 、 7 、 5 、 2 、 5 和 X 。6 个数字的平均值（算术平均值）等于贴近中的一个值。X 的统统可能值之和是些许？

此次世超还把豆包也加进来了，合并齐题，四个模子唯有智谱清言的算错了。（正确谜底是 36）

还有个小插曲，本下世超想再给 Kimi 试一齐竞赛题，截至它径直反过来质疑我。。试了好几次齐是这样个回复，不知谈是系统的 bug ，照旧它根本就不会儿这题，干脆装死。

有一说一，好几谈数学题试下来， Kimi 数学版如实给了我不少惊喜，尽头是解题进程中展现出来的念念考、推理的才智，又刷新了一波咱对 AI 模子数学才智的贯通。

只能惜几何题一如既往的菜，仅仅一齐初中级别的几何选拔题，给 Kimi 数学版的 CPU 齐快干烧了，截至照旧错的谜底。

至于为啥 Kimi 的 k0-math 模子能有这样大的马虎，前段时分世超干涉了一场月之暗面的媒体会，月之暗面的首创东谈主杨植麟就告诉世超， k0-math 的到手很未必率要归功于一个叫作念 COT （ Chain of Thought ）念念维链的技巧。

太专科的术语咱也不在这拽了，大伙儿不错把这个 COT 意会为， AI 模子师法东谈主类的大脑进行逻辑推理，把复杂的任务拆解之后，再一步状貌科罚。把这个技巧诈欺到模子里，模子就能够通过 " 念念考 " 来完成任务并提高正确率。

而为啥先把这东西用在了一个数学模子上，杨植麟径直援用了伽利略的名言 " 天下是由数学这门谈话书写而成的 " 。

总之，等于但愿先从数常识题发轫，再将数学的念念维泛化，从而去意和会盘世界。

天然，并不是说模子一朝用上了念念维链就能取得正确的谜底，但这个式样，现时如实不错提高模子对复杂任务的推理才智。

再举个例子，咱让 Kimi 数学版统计 " chaping debug the world " 里，有几个字母 " e " 。

先划分把 " chaping "" debug "" the "" world " 单独拎出来，再挨个字母一个个查，设施天然笨，但至少不会出错。

就这样说吧，这谈浅易的数数题，世超试了一下，唯有 Claude 和 Kimi 数学版数对了。

包括在 " 我有一块 1 米长的面包，每天吃一半，需要几天才能把这块面包吃完 ? " 的问题中，在大部分 AI 给出遥远吃不完的谜底时， Kimi 数学版认为 " 是有物理极限的 " ，认为分到了一纳米就不可分了。。。

这种对任务拆解的才智，夸张到什么进度，即使你问它 1+1 等于些许， Kimi 数学版齐能给你唠半天，截图根本截不完。

另外，在念念维链的作用下，对改良 AI 模子犯蠢、不会肃穆心的老颠倒也有一定成果。

像前段时分苹果就发了篇论文，未必意思是说模子根本就不会推理，收缩加几个无关痛痒的搅扰要求，模子的准确率就会着落。

但世超此次划分拿 Kimi 数学版和豆包试了试，题目是：超市里，每袋大米售价 50 元，每瓶酱油售价 10 元。要是鲜虾包购买了 4 袋大米和 4 瓶酱油，况且送给邻居 1 袋大米和 2 瓶酱油，那么鲜虾包购买大米比酱油多花了些许钱？

这谈题，还专门加了 " 送给邻居 1 袋大米和 2 瓶酱油 " 的陷坑。

豆包些许就有点不懂情面世故了，还把自个儿留存的大米和酱油单独拎出来算。

反不雅 Kimi 数学版，深知送出去的礼物泼出去的水。

归正测试下来， k0-math 的解题准确率不可说百分百，但调用了念念维链之后的逻辑推理进程，很猛进度上提高了 Kimi 这个作念题家的数学水平。

而且世超也发现，除了 k0-math 外，国内的幻方 DeepSeek 前两天也搞了个推理模子 DeepSeek-R1-Lite ，相同亦然纸上水平失色 o1 。

又是 o1 系列，又是 k0-math 、 DeepSeek-R1-Lite ，可能有差友也羡慕，之前不是还在长文本吗，这若何转眼就卷起了推理才智了？

其实，传统的拼算力、拼数据在大模子限制，照旧遭受了一定的瓶颈，而靠着强化学习，提魁岸模子的推理才智，照旧成了大伙们卷的新标的。

这强化学习说白了，等于在涵养时让 AI 我方试错，终末摸索出正确谜底。

像 Claude Sonnet 3.5 等于基于强化学习，完了了代码才智的普及。包括 Kimi 首创东谈主杨植麟在前阵子的媒体共享会上，也多量次 cue 到了强化学习，还说他们接下来会越来越柔和基于强化学习的设施去不竭迭代。

终末，借用杨植麟的 " 登月论 " ，要是说，先前的长文本是通往 AGI 的第一步，那么当今让 AI 学会念念考，则是认真开启了第二阶段。

撰文：西西

上一篇：欧洲杯2024官网公司本次刊行总量为5000.00万股-欧洲杯正规(买球)下单平台·中国官方全站
下一篇：欧洲杯app会选择老本更高的铝合金-欧洲杯正规(买球)下单平台·中国官方全站