DeepSeek是从GPT蒸馏得到的吗?不
00:00
14:10

读者,你好。

欢迎回到《科技参考》,我是卓克。

DeepSeek在大年三十火了起来,而且一直火到了今天,有很多原因。比如说,它是第一个让民众普遍体验到了基于推理功能的大语言模型用起来是什么感觉,而这类产品在之前只能每月20或者200美元在GPT-o1、GPT-o1 pro上体验。还有就是,美国对它展开了国家安全调查,我们知道的很多人,比如OpenAI的CEO、特朗普的人工智能和加密货币顾问等,都说DeepSeek带推理功能的R1模型是从GPT模型蒸馏得到的。

这期《科技参考》,我们就说说这个话题。下期,我们说说DeepSeek都用了哪些关键技术;第三期,我们围绕几个DeepSeek的传闻来解释解释。

好,咱们现在开始。

DeepSeek R1 不是蒸馏出来的

简而言之,DeepSeek不是从GPT的模型里蒸馏出来的。

这不是我的一家之言。我们熟悉的Perplexity的CEO,还有AI作图的Stable Diffusion的创始人都明确地说过,DeepSeek R1不是抄袭,也不是蒸馏。微软的CEO也用“有一些真创新,AI成本下降是大趋势”这种婉转的表达肯定了R1的核心价值。

甚至可以说,“R1不是蒸馏出来的”。这个结论是整个开源社区(GitHub)的共识。

因为DeepSeek从16个月前,就持续不断地提交大语言模型的不同版本,而且全部都是MIT协议,也就是开源社区中对使用者要求最低的一个协议——你只要声明一下版权,就可以随意使用,学术可以,商用也没问题,拿走以后植入自己的想法,不再开源了也可以。

于是一年多来,DeepSeek任何细微的技术创新和与之相配的代码都能一一对应。而且,各版本中由DeepSeek提出的好想法也有其他团队在使用,并且都能复现出那种改进带来的提升。

对V2版来说,验证主要集中在DeepSeek特有的专家混合模型(MoE)这一个技术点上。

对V3版来说,人工智能公司Hugging Face已经全流程复刻了一个模型,其他针对个别技术点的复现就更多了。

对R1 Zero和R1来说,也有几十家规模不同的复现,主要集中在纯强化学习训练这个方法上。而且,Hugging Face又第一个完整重现了R1模型。此后,我们熟悉的Perplexity,还有英伟达都完整复刻了一套R1模型,放在自己的商业产品中为用户提供服务。这期内容上线时,可能微软自己搭建的R1也已经上线了。

本篇内容剩余80%,继续学习
用户留言
一叶而知秋
2月5日·内蒙古

【科技参考4-004】 感谢卓老师,这次把DeepSeek的技术细节全部说清楚了,AI大模型的突破前三技术:预训练阶段是开源的,现在全球都是拼算力,而推理阶段事实是OpenAI的秘密项目,而DeepSeek的微调阶段也是开源的,那么意味着如果 OpenAI用上DeepSeek微调的核心技术,咱们暂时性利用算法上的优势和OpenAI相对缩小的技术差距是不是又会被OpenAI借鉴后,及时补齐短板,OpenAI性能又要大幅地领先DeepSeek? AI技术有马太效应,是赢者通吃,总是别人在暗处,咱们在明处,如果永远这样打下去,请问卓老师,不知道咱们AI弯道超车的机会还在哪?

【科技参考4-004】 感谢卓老师,这次把DeepSeek的技术细节全部说清楚了,AI大模型的突破前三技术:预训练阶段是开源的,现在全球都是拼算力,而推理阶段事实是OpenAI的秘密项目,而DeepSeek的微调阶段也是开源的,那么意味着如果 OpenAI用上DeepSeek微调的核心技术,咱们暂时性利用算法上的优势和OpenAI相对缩小的技术差距是不是又会被OpenAI借鉴后,及时补齐短板,OpenAI性能又要大幅地领先DeepSeek? AI技术有马太效应,是赢者通吃,总是别人在暗处,咱们在明处,如果永远这样打下去,请问卓老师,不知道咱们AI弯道超车的机会还在哪?

# 我爱问卓克
转发
3
分享

作者回复:

1弯道超车必会冲出赛道,2这是开源模型的胜利,即便被其他公司拿去用也是,3开源社区从70年代出现就一直在“明处”

Ellit
2月5日·河南

我用DeepSeek的感受和用豆包差不多,二者给出的回答,我觉得差别不大。 我问的是田忌赛马算不算博弈论,二者回答都算。我给出之前万维钢的看法:“田忌赛马不算博弈论,博弈论里的每个人都是聪明而理性的,对信息的掌握都是很充分的,在博弈论里你能想到的对方也能想到。在现代社会的比赛里,根本不可能让一方先确定出场名单再让另一方确定出场名单,根本不可能有田忌赛马的机会。” 二者又都说我说的很有道理,否定了他们之前给的答案。

我用DeepSeek的感受和用豆包差不多,二者给出的回答,我觉得差别不大。 我问的是田忌赛马算不算博弈论,二者回答都算。我给出之前万维钢的看法:“田忌赛马不算博弈论,博弈论里的每个人都是聪明而理性的,对信息的掌握都是很充分的,在博弈论里你能想到的对方也能想到。在现代社会的比赛里,根本不可能让一方先确定出场名单再让另一方确定出场名单,根本不可能有田忌赛马的机会。” 二者又都说我说的很有道理,否定了他们之前给的答案。

2
6
分享

作者回复:

国产模型里第一梯队 deepseek,kimi1.5,Qwen2.5,豆包落后一代

波澜不惊
2月6日·江西

卓老板好,说到英伟达的GPU,刚看到一篇文章说:英伟达的GPU受到挑战,新的技术LPU将逐渐展露头角。 LPU芯片(线性处理单元)由Groq公司研发,其核心优势在于通过创新的架构设计和技术突破,解决了传统芯片(如GPU、TPU)在AI和高性能计算任务中的瓶颈问题。 LPU具有下面的优点: 1. 架构创新:采用线性数据流架构,减少数据搬运,提升计算效率;确定性执行模式确保指令执行顺序和结果可预测,避免随机性误差。 2. 性能卓越:单芯片算力超1000 TOPS,吞吐量高;延迟降至微秒级,响应速度快,适合实时AI推理。 3. 能效出色:功耗比GPU低30%-50%,相同算力下能耗更低,适合数据中心节能。 4. 软件友好:智能编译器可自动优化AI模型,无缝兼容TensorFlow、PyTorch等主流框架,开发者迁移成本低。 5. 场景广泛:在AI推理(如NLP、CV)、边缘计算(如自动驾驶、工业机器人)等场景表现突出,效率高,减少云端依赖。 6. 产业协同:推动高速SRAM存储芯片和先进封装技术(如Chiplet)发展,利好相关产业链企业。 卓老板能不能展开讲讲?谢谢!

卓老板好,说到英伟达的GPU,刚看到一篇文章说:英伟达的GPU受到挑战,新的技术LPU将逐渐展露头角。 LPU芯片(线性处理单元)由Groq公司研发,其核心优势在于通过创新的架构设计和技术突破,解决了传统芯片(如GPU、TPU)在AI和高性能计算任务中的瓶颈问题。 LPU具有下面的优点: 1. 架构创新:采用线性数据流架构,减少数据搬运,提升计算效率;确定性执行模式确保指令执行顺序和结果可预测,避免随机性误差。 2. 性能卓越:单芯片算力超1000 TOPS,吞吐量高;延迟降至微秒级,响应速度快,适合实时AI推理。 3. 能效出色:功耗比GPU低30%-50%,相同算力下能耗更低,适合数据中心节能。 4. 软件友好:智能编译器可自动优化AI模型,无缝兼容TensorFlow、PyTorch等主流框架,开发者迁移成本低。 5. 场景广泛:在AI推理(如NLP、CV)、边缘计算(如自动驾驶、工业机器人)等场景表现突出,效率高,减少云端依赖。 6. 产业协同:推动高速SRAM存储芯片和先进封装技术(如Chiplet)发展,利好相关产业链企业。 卓老板能不能展开讲讲?谢谢!

1
3
分享

作者回复:

Groq的芯片在去年科技参考专门说过一期了,就是一种ASIC芯片,这是在确定transformer构架肯定是今后主流计算模式后,用这种电路完成更高效的计算,但只要构架变成别的了,这种芯片就废了,而NV的GPU还可以通过CUDA继续胜任

去得到App,在底部「学习」中继续使用