
让 o1 变身 o1 pro的“狂暴模式 prompt”,是真的有效,还只是人类用户的又一个幻觉?真的有免费馅饼?真的能薅到 openai 的羊毛?
听起来不可思议。毕竟,“思考时间延长 511%,回答质量大幅提升,约等于立省 180,美金,每月”,好像不太可能真的有这样的好事🤣
但证据是充分的,验证是严密的,效果是显著的,原理是清晰可理解的。我连续做了十几次测试,o1 的额度快要用完了,但是屡试不爽;把 o1 的输出结果读上 5678遍,但是上狂暴模式 prompt 和无 prompt 的结果真的差异显著。
o1 作为推理模型,其关键是test-time compute的增加,
体现在用户输入问题后 o1 思考时间的长短、CoT 的精细程度。虽然 openai 官方都用数学、编程... See more
We are hiring a fan of Invest Like the Best to be its producer.
We’ve grown to reach millions of people with ZERO marketing effort. It’s crazy how little we’ve done to spread our work. No longer.
We want you to take every interview and get wildly creative with how you cut and extend it for our audience across every platform. Every great conversat... See more
If nobody in your life holds you accountable, nobody relies on you for anything important
刚才Space讨论到美国什么时候“能迎头赶上”的问题,我做两个个人判断吧
1)DeepSeek V3这个模型应该没有公司有兴趣去复现,因为他是在算力限制下的结果,fp8量化一定会损失精度;而DeepSeek V3 本身其实和其他同规模的大语言模型差不多。
如果没有算力限制,也不缺钱,大厂没必要重走一遍自己走过的路:比如Llama
2)但是R1这个基于RL的训练思路会有人复现。只需要找任何一个Base Model,加上一些无监督的数学/代码数据,就可以借助GRPO实现推理能力的提升。
我相信在1-2周内,Meta、Google、Amazon甚至Nvidia等公司内部就会有结果。
如果2周之内,美国公司都拿不出一个像样的和R1同级别的结果,那说明美国完了
我即日起直接回国
谢谢大家... See more