
很多人说 o1 不就是个 CoT+强化学习吗?经过我的实际体感测试,这个还真不止是 CoT 能搞定的东西。
强化学习有个前提,就是模型原来试了一万次,有一次成功了。
- 模型原来做不到的事情,尝试一万次没有一次成功,那强化也没用
- 模型通过 CoT 尝试了一万次没有一次成功,那强化也没用
- 模型通过一些 Prompt 提示或引入其他因素进行思考,在一万次里有几次成功了,强化学习才开始有用
- 但是模型自增强 Prompt 这件事本身就和 Agent 中的规划是一个思路了
最后推荐三个可以关注的信息:
1. 关于 CoT,360 做了一个简单可视化的版本,全程思考都暴露出来,可以自己感受下 CoT 的思维方式和局限,看看哪些问题 4o 无法解决,可以通过 Cot 解决https://t.co/WP89YZ27Eh... See more


拾象发布了 2025 AI best ideas ,我觉得在2025年很可能实现至少 50% 。以下这几个非常认同:
1、微软转投 Anthropic,模型和云的格局彻底改变。最终所有模型会在所有云上,所有云也会支持和投资所有模型。
2、Google并没有掉队,我还是觉得Google是AI时代最强的公司。Google 手上有几张王牌:TPU 代表着无限算力资源,Andorid/Chrome 代表着最强的分发渠道,Deepmind 代表全球最高 AI 人才密度。
3、Agent 是新软件,是 2025 年投资核心中的核心。Agent 整体会渐进式演进,Coding Agent 最先落地。
👇👇
Anthropic has started building out team collaboration tools. One big question for the next couple of years might be whether the general LLMs become useful for specific, vertical tasks faster than the vertical tools get LLM features.