Sublime
An inspiration engine for ideas

看看这篇论文:《7B Model and 8K Examples: Emerging Reasoning with Reinforcement Learning is Both Effective and Efficient》7B 小模型:如何用 8000 个示例,“炼”出会自我反思的 AI?
我有个朋友,每次听到「AI」都惊呼:“完蛋了!以后我们是不是都要给机器人打工啊?” 还有个做大语言模型的朋友,一提到「大模型」就一脸绝望:“没个几万块的服务器,没个海量数据,还搞什么人工智能?”
今天我要说的故事,正是要打破这些“AI门槛高到太平洋”的刻板印象:告诉你,小到只有 7B(7... See more
昨天从 web 上测试了好几次也没搞定 Deep Research 的提示词,这个泄漏的看起来靠谱的,但是需要注意的是,这个是 Deep Research 前置模型的提示词,而不是背后用来检索生成报告的 o3 模型的系统提示词。但这个提示词仍然极有价值。
Deep Research(DR) 在开始任务之前,和你对话的是一个微调过的 GPT-4o 模型,这个模型可以调用一个 research_kickoff_tool 工具,它会先判断你是不是要做 DR 任务,如果是的话,就先调用工具的 clarify_with_text 方法来判断是不是需要补充上下文,所以会给你先回复一条消息询问你是不是要补充信息。
___... See more
宝玉x.comAlphatu
@zhangyaqi
@Web3 @Linux @Technology & Internet History
Believe in the power of deep thinking
Guest Speaker of Microsoft Reactor
Liang Zhang
@liang