10-Automatic Reasoning and Tool-use (ART)
| 版本 | 内容 | 时间 |
|---|---|---|
| V1 | 新建 | 2026年03月26日17:31:08 |
ART 是什么?
ART 是思维链(CoT)+ 工具调用的智能化升级版本,核心是让大语言模型学会自动拆解任务、自动判断何时用工具、自动融合工具结果继续推理,不用人类手动写复杂的执行脚本,也不用为每个新任务单独设计示例,是让大模型 “会自己用工具解决复杂问题” 的核心框架。
简单说:普通的 CoT + 工具调用是人类教模型 “第一步想、第二步用计算器、第三步再想”,而 ART 是模型自己学 “什么时候该用工具、该用什么工具”,还能零样本搞定从没见过的新任务。
ART 要解决的核心痛点
痛点 1:人工成本极高
传统方法需要人类为每个任务手动写演示示例(比如解数学题要手动写 “分步推理 + 用计算器” 的例子),还得精心编脚本规定 “什么时候模型推理、什么时候调用工具”,任务变了就要重新写,效率极低;
痛点 2:泛化能力差
针对 A 任务写的脚本 / 示例,模型没法用到 B 任务上,遇到没见过的新任务就不会了,只能靠人类不断新增配置。
ART 的核心关键词
- 冻结的 LLM:模型的核心参数固定不变,不用为了工具调用 / 新任务重新训练,只靠任务库 / 工具库的示例让模型学习,降低使用成本;
- 交错融合:模型的推理思考和工具调用不是分开的,而是穿插进行的 —— 想一步→需要算数据就调计算器→拿到结果再继续想,无缝衔接;
- 零样本泛化:不用为新任务单独写示例,模型能从任务库的通用示例中学习,直接搞定从没见过的任务;
- 可扩展性:新增工具(比如从计算器加到翻译工具)、修正推理错误,只需要更新任务库 / 工具库,不用改模型本身。
ART 的工作流程
ART 的流程就 3 步,全程自动化,不用人类插手,哪怕是新任务也能直接处理:
步骤 1:遇新任务,从任务库 “找参考”
模型拿到一个从没见过的新任务(比如 “计算某城市 2025 年人均 GDP 并翻译成英文”),会先从提前建好的任务库里,找类似的 “多步推理 + 工具调用” 示例(比如 “计算人均收入 + 调翻译工具” 的示例),作为自己的推理参考;
步骤 2:推理中,该用工具就 “暂停 + 调用”
模型开始分步推理,当推到需要工具的环节(比如要计算 GDP,自己算不准 / 算不了),会自动暂停推理,调用对应的外部工具(比如计算器、数据库),拿到工具的输出结果(比如 GDP 的计算值);
步骤 3:融结果,继续推理直到出答案
把工具返回的结果整合到自己的推理过程中,恢复暂停的推理,继续往下推导,直到得出最终答案(比如把计算好的 GDP 翻译成英文)。
下面看一下论文中的解释 https://arxiv.org/abs/2303.09014

步骤 A 从任务库中选取相关任务的拆解方案;
步骤 B 在大语言模型生成推理内容的同时,从工具库中选取并调用适配的工具;
步骤 C 人类可按需对拆解流程进行编辑(例如修正、编辑相关代码),以提升模型任务执行效果。
这张图用 A、B、C 三个环节,把 ART 的核心优势具象化了:靠任务库实现新任务拆解的自动化复用,靠工具库实现推理与工具调用的自动化融合,靠人工轻量编辑实现效果的低成本优化,全程不用人类为新任务做大量的手动开发工作,特别贴合工程化落地的需求。
ART 和传统「CoT + 工具调用」区别
| 对比维度 | 传统 CoT + 工具调用 | ART(自动推理与工具调用) |
|---|---|---|
| 示例 / 脚本设计 | 人类为每个任务手动写,成本高 | 模型从通用任务库自动找,零样本适配新任务 |
| 工具调用时机 | 人类脚本固定规定,死板不灵活 | 模型自己判断,该用就用,无缝衔接 |
| 泛化能力 | 差,只能处理见过的任务 | 强,能搞定未见过的新任务 |
| 扩展性 | 差,改 / 加工具要重写脚本 | 强,更新任务库 / 工具库即可,不用动模型 |
| 人工参与度 | 高,全程需要人类配置 | 低,仅需初始化任务库 / 工具库,后续自动运行 |
ART 的核心优势 & 实际效果
核心优势
- 省人工:不用为每个任务写示例 / 脚本,一次建库,多次复用;
- 泛化强:零样本搞定新任务,适配各类复杂的 “推理 + 工具” 场景;
- 易扩展:新增工具、修正错误只需更数据库,技术门槛低;
- 效果稳:推理和工具调用无缝融合,结果比传统方法更准确。
实际效果

- 按领域分组:Search(搜索类)、Arithmetic(算术类)、Misc(杂项)、MMLU(综合学科)
- 每组最后一行是Δ with ART:代表「ART 相比基准方法的提升幅度」(正数 = 更好,负数 = 更差)
ART 的典型适用场景
ART 适合所有需要 “多步推理 + 外部工具调用”的复杂任务,也是现在打造智能体(AI Agent) 的核心技术之一,典型场景包括:
- 复杂数学 / 数据分析:推理解题思路→调用计算器 / Excel→结合结果继续分析;
- 跨语言信息处理:检索中文资料→推理核心观点→调用翻译工具→生成英文报告;
- 实时信息查询:推理需要的信息→调用搜索引擎 / 实时数据库→结合最新数据完成回答;
- 多工具组合任务:比如 “计算快递运费→调用地图查距离→调用计算器算费用→生成运费说明”。
总结
ART 是让大模型 “自主化解决复杂问题” 的框架,把 “推理思考” 和 “工具调用” 做到了自动化、无缝化、泛化化,不用人类手动教,模型自己就会 “拆任务、用工具、融结果、出答案”,是大语言模型从 “纯推理” 到 “能落地解决实际问题” 的关键技术之一。