Sublime
An inspiration engine for ideas
Spenser Williams
@studioswim
Abe Porschet
@tibor17
Steffen
@stibu
Deepseek的训练成本数据应该是可信的。
当时V3论文出来的时候,很多人看了他的论文就明白为啥它的训练成本那么低。
1. 采用了MLA,
2. 采用了改进的MoE架构。MoE的训练是非常难得,而且非常不稳定。很容易需要重来。而deepseek声称他们使得训练比较稳定。不需要来来回回训练。
3.采用FP8 以及动态精度。这个难度不小的,但是能降低成本。
4. 采用多层多token的预测。又能大幅提升。
所以,没有人在V3的时候质疑deepseek的训练成本。
当然现在最优的模型还是openAI的模型,只不过最近出的版本对很多公司带来巨大的利益冲突,有的公司的DC都暂停修建了。
一个是大力飞砖,一个是螺丝壳里做道场。
大力也是有上限的,螺丝壳是有上限的。
很难说哪个笑到最后。
另外... See more
Finn Lobsien
@hanshansen
不是,这个开源 https://t.co/dep5r33CV0... See more
Philipp Rimmler
@philrimmler
Quincey Koziol
@koziol
Lennart
@lernhart