HEY Email
app.hey.com



3-mini 和 deepseek-R1 都“死记硬背”了这一题。
点出题目不是你刷过的原题后,一个模型悟了,另一个模型裂了。🥴
没想到,这个测试是一个极好的例子,展示了模型的过拟合现象,语言和推理能力都泛化现象。 https://t.co/WzuIjr8URe

DeepSeek-R1 八大案例一手实测+深度解析:真的吊打满血版 o1?日常使用好用吗?与其他模型对比如何?技术报告解读 + 实例分析
这几天只做了一件事,就是研究 deepseek。实话说,benchmark 吊打满血 o1,还便宜 50 倍,速度快 5 倍。不敢相信,不明白原理,真的颠覆了 openai 的技术壁垒?对人类学习的启示是什么?高一连 985 都上不了的学生,到高三真的可以上清北?
录了这一支视频,与你分享我这两天的研究和思考。
时间线:
00:01:07 R1大战o1:全面对比
00:04:09 本视频目标:激发你的3个再思考
00:05:18 推理的分类学
00:09:30 目前对R1的态度和观点分3类
00:13:03 案例1:孩子数学考了38分
00:16:0... See more