Sublime
An inspiration engine for ideas




3-mini 和 deepseek-R1 都“死记硬背”了这一题。
点出题目不是你刷过的原题后,一个模型悟了,另一个模型裂了。🥴
没想到,这个测试是一个极好的例子,展示了模型的过拟合现象,语言和推理能力都泛化现象。 https://t.co/WzuIjr8URe
He Klein
@kleinhe
Morpheusis
@morpheusis


deepseek 大战 o1,深度思考能力测试实例:“语言腐败导致思维败坏”的LLM 证据?
看到海内外狂赞deepseek r1,想起o1 在语言上的超群表现,忍不住把最近一个 o1 prompt发给了deepseek。
答案让我不敢相信自己的眼睛。我完全无法理解发生了什么。deepseek 内部的心理活动是什么?
你们自己看吧!这得学了多少xx,语言才能腐败、思维才能混乱到这个程度🤣
Edward Reeve
@ejdr
Jonny
@jme
totholz5d
@totholz5d
Eran Helft
@erhelft