17-Multimodal CoT Prompting
March 27, 2026About 1 minPrompting TechniquesMultimodal CoT Prompting
| 版本 | 内容 | 时间 |
|---|---|---|
| V1 | 新建 | 2026年03月27日15:16:10 |
大型语言模型(LLM)借助思维链(CoT)提示生成中间推理过程作为依据,来推导答案,在复杂推理任务上已展现出优异效果。但现有的思维链相关研究,大多只聚焦文本单一模态。无法处理需要视觉信息的复杂推理任务;而直接将图像转为文本描述(如图像 caption)会导致信息丢失,且小模型(<10 亿参数)易生成 “幻觉推理链”,误导答案推导。
多模态思维链(Multimodal-CoT):将 文本(语言)+ 图像(视觉) 两种模态,融入一个两阶段框架;该框架把「推理依据生成」和「最终答案推导」拆分为独立环节。通过这种设计,答案推导阶段可以依托融合多模态信息、质量更高的推理依据来完成。多模态思维链能减轻模型幻觉、加快收敛速度。

该框架包含两个训练阶段:(i)推理生成和(ii)答案推理。这两个阶段采用相同的模型架构,但输入和输出不同。