Sublime

https://t.co/VWIB7G9jbH

Thumbnail of www-x-com-howie-serious-status-1885673273129926698

3-mini 和 deepseek-R1 都“死记硬背”了这一题。点出题目不是你刷过的原题后，一个模型悟了，另一个模型裂了。🥴 没想到，这个测试是一个极好的例子，展示了模型的过拟合现象，语言和推理能力都泛化现象。 https://t.co/WzuIjr8URe

howie.serious

x.com

H

He Klein

@kleinhe

M

Morpheusis

@morpheusis

Thumbnail of www-x-com-howie-serious-status-1881363773874975056

deepseek 大战 o1，深度思考能力测试实例：“语言腐败导致思维败坏”的LLM 证据？看到海内外狂赞deepseek r1，想起o1 在语言上的超群表现，忍不住把最近一个 o1 prompt发给了deepseek。答案让我不敢相信自己的眼睛。我完全无法理解发生了什么。deepseek 内部的心理活动是什么？你们自己看吧！这得学了多少xx，语言才能腐败、思维才能混乱到这个程度🤣

howie.serious

x.com

E

Edward Reeve

@ejdr

J

Jonny

@jme

t

totholz5d

@totholz5d

E

Eran Helft

@erhelft