DeepSeek是最近很火,不论是其发布的廉价大模型,还是天才少女。
周末有空,体验了一下这个新发布的大模型。其目前界面还比较简单,只有深度思考和联网搜索这两个选项。
作为对照,我同时邀请了豆包,Kimi,微软Copilot以及通义(openAI我暂时无法访问,所以没法放上来对比了,如果有朋友能用ChatGPT的话,可以帮我试试问下)。
先看下深度思考能力,我一共出了四道题。题目的文字较多,保留便于大家验证,可直接跳过,到解答结果部分。
第一题:扑克谜题
有人从一手纸牌中选定一张牌,他把这张牌的花色告诉X先生,而把点数告诉了Y先生,两位先生都知道这手纸牌是:
黑桃 J、8、4、2;
红心 A、Q、4;
方块 A、5;
草花 K、Q、5、4。
X先生和Y先生都很精通逻辑,很善于推理。他们之间有对话如下:
Y先生:我不知道这张牌。
X先生:我知道你不知道这张牌。
Y先生:现在我知道这张牌了。
X先生:现在我也知道了。
请问选定的牌是什么牌?
(答案是:方块5)
第二题:海盗分金
有五个理性的海盗,A, B, C, D和E,找到了100个金币,需要想办法分配金币。海盗们有严格的等级制度:A比B职位高,B比C高,C比D高,D比E高。
海盗的分配原则是:等级最高的海盗提出一种分配方案。所有的海盗投票决定是否接受分配,包括提议人。并且在票数相同的情况下,提议人有决定权。如果提议通过,那么海盗们按照提议分配金币。如果没有通过,那么提议人将被扔出船外,然后由下一个最高职位的海盗提出新的分配方案。
海盗们基于三个因素来做决定。首先,要能存活下来。其次,自己得到的利益最大化。最后,在所有其他条件相同的情况下,优先选择把别人扔出船外。
请问,如果你是海盗A,你应该提出怎样的金币分配方案。
(答案是:A分98,C分1,E分1,其他人0)
第三题:追及相遇
甲乙丙三个人同时从A出发去B,甲乙到达B之后掉头回A,并且掉头之后的速度减少到各自原来速度的一半。甲最先掉头,掉头后与乙在C迎面相遇,此时丙已经前进了2010米。甲又前行一段时间之后,与丙在AB的中点D迎面相遇。乙掉头之后,与丙也在C点迎面相遇。请问AB之间相距多少米。
(答案是:5360米)
第四题:提案问题
一次大会,邀请了n(n>3)名科学家,这些科学家中的一些人互相是朋友(朋友关系是相互的,每个人和自己都不能算朋友)。已知无论怎样将这些科学家分成两个非空的群体,总存在两个来自同一群体的科学家是朋友,也存在两个来自不同群体的科学家是朋友。
在会议的第一天提出了一项提案,每个科学家对该天的意见均用一个非负整数表示,从第二天起,每个科学家对该提案的意见改为前一天其所有朋友对该提案意见的平均值的整数部分。
请问,经过足够长的时间后,是否能让所有科学家的意见都一致。
(答案: 是)
来看一下四个AI对他们的解答
第一题:
DeepSeek:方块5 (正确+3)
豆包: 方块5 (正确+3)
Kimi: 红心4(错误+0)
Copilot: 黑桃J(错误+0)
通义: 方块5 (正确+3)
第二题:
DeepSeek: A分97,C分1,E分2,其他0 (非最优解+1)
豆包: A分98,C分1,E分1,其他0 (正确+3)
Kimi: A分98,C分1,E分1,其他0 (正确+3)
Copilot: A分97,C分1,E分2,其他0 (非最优解+1)
通义: A分98,C分1,E分1,其他0 (正确+3)
第三题:
DeepSeek: 没解出来答案,结论是方程过于复杂(错误+0)
豆包: 5360米(正确+3)
Kimi: 4020米(错误+0)
Copilot: 4020米(错误+0)
通义: 1340米(错误+0)
第四题:
DeepSeek: 是(只有简单文字解释,没给任何数学证明+1)
豆包: 是(用图的方法给出了清晰证明 +3)
Kimi: 是(用矩阵方法,不如豆包的清晰 +2)
Copilot: 是(列了算式,但是没有推理+1)
通义: 是(只有简单文字解释,没给任何数学证明+1)
汇总一下信息如下(这分数很主观,没任何依据,权当一乐就行)
至此,对DeepSeek的(数学)问题处理能力可以有个基本的判断了。
然后试一下网络搜索功能。
1、就12月openAI发生的停服事件进行搜索并给出原因说明
DeepSeek、Kimi、豆包的答案基本一致: openAI在12月有两次停服,11号的是因为一个新服务上线,26号的则可能是因为供应商微软云服务的问题。
通义、Copilot的答案则只提到了11号的那次,完全没有提26号的。微软漏掉还可以理解,不知通义为啥也漏了。
2、查询一下Cantian引擎的主要技术原理、新功能和主要案例。
DeepSeek:基本把多主、MySQL、MariaDB对接,金融电信的案例都查到了,信息还比较完整
豆包: 基本上也覆盖了上述内容,客户案例具体到是哪个省公司;
Kimi的输出中,没有写MariaDB,但加上了PostgreSQL(其实还没对接),客户案例偏模糊
Copilot:多读多写架构说的没问题,但是案例幻觉有点严重,把工商银行,科大讯飞都列作案例了,实际并不存在。
通义:本来前面说得都挺好,可是后面补一句说Cantian是和Pacific结合在一起就画蛇添足产生幻觉了。
最后做阅读理解
我直接把DeepSeek的论文链接喂给他们,让他们总结论文要点。
Kimi、豆包、通义很快就联网阅读并给出了答案。DeepSeek则告诉我这篇论文写的是Cantian的实现原理。只好把文档下载下来单独上传喂给他读,于是他也给出了一份正确总结。
DeepSeek到底带来了啥
其实从上面的测试,我估计说DeepSeek能力如何碾压吊打一众小强可能还为时尚早。不过DeepSeek带来的最大改变也不是这个,他最主要的是极大地降低了成本和对卡的需求。
他宣布了低成本大模型训练的可行性,从而某种意义上给万卡、十万卡的狂热泼了点冷水。证明解决问题并非只有暴力美学这一条路。我认为DeepSeek现在在解答问题上的一些小瑕疵,很快会在版本迭代中优化掉。而奥特曼一直以来的大力(钱包)出奇迹的做法,是否还能继续取得投资人信任也产生了动摇。
上面是行业变革方面的。从DeepSeek自身而言,当红炸子鸡过后,也绕不开商业模式变现的问题。