读者,你好。
欢迎回到《科技参考》,我是卓克。
DeepSeek在大年三十火了起来,而且一直火到了今天,有很多原因。比如说,它是第一个让民众普遍体验到了基于推理功能的大语言模型用起来是什么感觉,而这类产品在之前只能每月20或者200美元在GPT-o1、GPT-o1 pro上体验。还有就是,美国对它展开了国家安全调查,我们知道的很多人,比如OpenAI的CEO、特朗普的人工智能和加密货币顾问等,都说DeepSeek带推理功能的R1模型是从GPT模型蒸馏得到的。
这期《科技参考》,我们就说说这个话题。下期,我们说说DeepSeek都用了哪些关键技术;第三期,我们围绕几个DeepSeek的传闻来解释解释。
好,咱们现在开始。
DeepSeek R1 不是蒸馏出来的
简而言之,DeepSeek不是从GPT的模型里蒸馏出来的。
这不是我的一家之言。我们熟悉的Perplexity的CEO,还有AI作图的Stable Diffusion的创始人都明确地说过,DeepSeek R1不是抄袭,也不是蒸馏。微软的CEO也用“有一些真创新,AI成本下降是大趋势”这种婉转的表达肯定了R1的核心价值。
甚至可以说,“R1不是蒸馏出来的”。这个结论是整个开源社区(GitHub)的共识。
因为DeepSeek从16个月前,就持续不断地提交大语言模型的不同版本,而且全部都是MIT协议,也就是开源社区中对使用者要求最低的一个协议——你只要声明一下版权,就可以随意使用,学术可以,商用也没问题,拿走以后植入自己的想法,不再开源了也可以。
于是一年多来,DeepSeek任何细微的技术创新和与之相配的代码都能一一对应。而且,各版本中由DeepSeek提出的好想法也有其他团队在使用,并且都能复现出那种改进带来的提升。
对V2版来说,验证主要集中在DeepSeek特有的专家混合模型(MoE)这一个技术点上。
对V3版来说,人工智能公司Hugging Face已经全流程复刻了一个模型,其他针对个别技术点的复现就更多了。
对R1 Zero和R1来说,也有几十家规模不同的复现,主要集中在纯强化学习训练这个方法上。而且,Hugging Face又第一个完整重现了R1模型。此后,我们熟悉的Perplexity,还有英伟达都完整复刻了一套R1模型,放在自己的商业产品中为用户提供服务。这期内容上线时,可能微软自己搭建的R1也已经上线了。