Sublime
An inspiration engine for ideas
framework
Mo Shafieeha and • 6 cards
future
Nola Simon • 39 cards




o3-mini, o1, gpt-4o……日常使用时,什么场景,选择哪个 openai 模型?原则很简单,记住两步即可。
先看是否STEM 任务;再看是否需要“深度思考”。
1、STEM任务 vs 非 STEM 任务:if STEM 任务,then 选择 o3-mini(尽可能选 high);因为 o3-mini 是最新的 STEM 之王;
2、在非STEM任务中,看这个问题是否需要“思考”:if 是需要思考的复杂、深刻问题,then 选择 o1(尽可能搭配狂暴模式 prompt);因为 o1 是 MMLU 冠军,超越人类专家,是擅长深度思考的文科之王,在这些问题上的输出质量碾压人类,是不可多得的极佳学习材料;
3、if 是不需要深度思考的普通问题,then 选择 gpt-4o;因为... See more
"The nucleic acids invented human beings in order to be able to reproduce themselves even on the Moon."
–Sol Spiegelman




看了下DeepSeek论文,做了点笔记和思考
DeepSeek降低训练成本会不会让算力需求下降?看历史就知道了,GPT4级别token价格在一年半之内降低了100~1000倍,也没有类似的担忧(如图)
AI算力通缩是必然现象,长线旋律就是十年加速六个数量级:软件/算法加速三个数量级,硬件加速三个数量级
------------------------------
先从DeepSeek R1论文本身说起
Deepseek本身并没有像chatgpt o1那样做test time scaling获得更强推理能力,属于post-training后训练范畴,看起来和chatgpt o1不是一个路子(o1是推理的时候专门扩大“思考步骤”或“搜索过程"再挑出最优,推理时耗费比o4高几个数量级),只... See more

DeepSeek-R1 八大案例一手实测+深度解析:真的吊打满血版 o1?日常使用好用吗?与其他模型对比如何?技术报告解读 + 实例分析
这几天只做了一件事,就是研究 deepseek。实话说,benchmark 吊打满血 o1,还便宜 50 倍,速度快 5 倍。不敢相信,不明白原理,真的颠覆了 openai 的技术壁垒?对人类学习的启示是什么?高一连 985 都上不了的学生,到高三真的可以上清北?
录了这一支视频 ,与你分享我这两天的研究和思考。
时间线:
00:01:07 R1大战o1:全面对比
00:04:09 本视频目标:激发你的3个再思考
00:05:18 推理的分类学
00:09:30 目前对R1的态度和观点分3类
00:13:03 案例1:孩子数学考了38分
00:16:0... See more