做验证 · 工具

🧩研究任务规划器

把一个模糊的研究想法拆成原子子问题 + 验收清单 + 可直接执行的 Runbook。小模型也能稳跑。

DeepSeek

working hypothesis

只要把问题拆得足够细小，小 LLM 也能解决任意复杂任务。

依据三篇工作： Least-to-Most Prompting (Zhou et al., 2022)、 Decomposed Prompting (Khot et al., ICLR 2023) 与 Divide-and-Conquer for LLMs (2024)。这个工具把它们打包成一套 prompt → prompt 转换器。

原始复杂任务

最终执行者

目标 chunk 数上限越多越细、越稳，但越啰嗦

领域提示 · 可选

⌘/Ctrl+Entersubmit

Idle

粘贴任务，让拆解器把它切成小模型也能啃的块。

pipeline · 五个阶段

① Preprocess

挖出真实目标、模糊点、隐含假设、成功长什么样。

② Chunk It Up

原子化 C1..Cn，依赖图明确，每个都小到一次调用就能啃。

③ Scaffold

每个 chunk 配角色、输入、输出格式、验收标准。

④ Verify

逐 chunk checklist、跨 chunk 一致性、合并与重试策略。

⑤ Runbook

一段独立 Markdown，直接复制给 Agent / 小模型 / 团队。

examples · 一键填入

一开始就试三个, chunked.

agent · 带工具

模糊大任务 → 可执行 Runbook

naive →大模型直接写：给一堆伪代码与 "TODO：发邮件逻辑自己填"，漏掉 CSRF、会话存储、速率限制，UI 也普通。

chunked →拆成 8 个原子 chunk：选型 → schema → 密码哈希 → 邮件验证码 → session → GitHub OAuth → UI → 验收测试。每个都有输入输出格式，Claude Haiku 也能一次跑过。

human-team · 协作

协作型任务 → 每步都有责任人与交付物

naive →LLM 裸答：给一份"通用框架"，没有具体竞品名，没有时间线，也没人认领，交付物模糊。

chunked →6 个 chunk：圈定竞品清单 → 维度表 → 各自抓取产品 + 定价 + 增长 → 汇总 SWOT → 画图 → 汇报 deck。每 chunk 标明谁做、几天、交付文件名。

small-llm · 单次可解

长文本 → 小模型串跑不崩

naive →小模型裸写 3000 字：中段开始重复、代码编 API、结论空洞；大模型也常塞"老生常谈"。

chunked →12 个原子 chunk：提纲 → 读者画像 → 每段一个 chunk（≤ 300 字） → 代码示例单独 chunk → 图注 → 校对。小模型每次只处理一段，不会崩。