很多人说 o1 不就是个 CoT+强化学习吗?经过我的实际体感测试,这个还真不止是 CoT 能搞定的东西。
强化学习有个前提,就是模型原来试了一万次,有一次成功了。
- 模型原来做不到的事情,尝试一万次没有一次成功,那强化也没用
- 模型通过 CoT 尝试了一万次没有一次成功,那强化也没用
- 模型通过一些 Prompt 提示或引入其他因素进行思考,在一万次里有几次成功了,强化学习才开始有用
- 但是模型自增强 Prompt 这件事本身就和 Agent 中的规划是一个思路了
最后推荐三个可以关注的信息:
1. 关于 CoT,360 做了一个简单可视化的版本,全程思考都暴露出来,可以自己感受下 CoT 的思维方式和局限,看看哪些问题 4o 无法解决,可以通过 Cot 解决https://t.co/WP89YZ27Eh... See more