Sublime
An inspiration engine for ideas
Deepseek的训练成本数据应该是可信的。
当时V3论文出来的时候,很多人看了他的论文就明白为啥它的训练成本那么低。
1. 采用了MLA,
2. 采用了改进的MoE架构。MoE的训练是非常难得,而且非常不稳定。很容易需要重来。而deepseek声称他们使得训练比较稳定。不需要来来回回训练。
3.采用FP8 以及动态精度。这个难度不小的,但是能降低成本。
4. 采用多层多token的预测。又能大幅提升。
所以,没有人在V3的时候质疑deepseek的训练成本。
当然现在最优的模型还是openAI的模型,只不过最近出的版本对很多公司带来巨大的利益冲突,有的公司的DC都暂停修建了。
一个是大力飞砖,一个是螺丝壳里做道场。
大力也是有上限的,螺丝壳是有上限的。
很难说哪个笑到最后。
另外... See more
Brent Medling
@brentm
Korey Ray
@kokihb
Michael Arthur
@rthr
double-take,
Reginald A. Ray • Secret of the Vajra World
Ramkumar Venkataraman
@ramthemaniac
Founder | Father | Thinker | Motivator | Joker
Eric Gleason
@catalyst_labs