17-Multimodal CoT Prompting

超威蓝猫 Dylan KwokMarch 27, 2026About 1 minPrompting TechniquesMultimodal CoT Prompting

版本	内容	时间
V1	新建	2026年03月27日15:16:10

论文：https://arxiv.org/abs/2302.00923

大型语言模型（LLM）借助思维链（CoT）提示生成中间推理过程作为依据，来推导答案，在复杂推理任务上已展现出优异效果。但现有的思维链相关研究，大多只聚焦文本单一模态。无法处理需要视觉信息的复杂推理任务；而直接将图像转为文本描述（如图像 caption）会导致信息丢失，且小模型（<10 亿参数）易生成 “幻觉推理链”，误导答案推导。

多模态思维链（Multimodal-CoT）：将 文本（语言）+ 图像（视觉） 两种模态，融入一个两阶段框架；该框架把「推理依据生成」和「最终答案推导」拆分为独立环节。通过这种设计，答案推导阶段可以依托融合多模态信息、质量更高的推理依据来完成。多模态思维链能减轻模型幻觉、加快收敛速度。

该框架包含两个训练阶段：（i）推理生成和（ii）答案推理。这两个阶段采用相同的模型架构，但输入和输出不同。

其他论文：https://arxiv.org/abs/2302.14045

Contributors

guosongbin