浅析大模型思维链方法

hxy included in 科研

2024-11-03 262 words 2 minutes

大模型Prompt——思维链

初探思维链

思维链方法由google大脑研究院（现跳槽至OpenAI）的Jason Wei大佬在

首篇论文《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》中提出。

思维链的形式

给定Prompt，包含三元组 <input, chain of thought, output>

举例：

思维链的妙处

COT使得模型将多步骤问题解构成直接的步骤，意味着附加计算能够被分配到需要更多推理步骤的问题。
COT对模型的表现提供了可解释的窗口，表明它如何到达具体的答案，并且提供debug推理错误的机会。
COT推理能够被用于数学文字问题、常识推理和表征计算，并有潜力应用（原则上）到人们能通过语言解决的任何问题。

思维链的效果

在数学推理、常识推理、象征推理三大领域运用数据集予以验证。

错误的思维链分析

计算错误
象征映射错误
少步骤错误

思维链存在的局限性

尽管思维链模仿了人类推理过程的步骤，这并没有回答神经网络是否真的在推理，留作开放性讨论。
尽管在少样本环境下，手动将思维链条增加到示例中的成本很低，但这种标注成本在微调时可能是不可承受的。
思维路径并没有保证是正确的，这可能导致生成正确或错误的答案；提高语言模型生成事实性内容的准确性是未来研究的一个方向。
最后，思维链条推理的涌现只有在大型模型中才会出现，这使得其在实际应用中成本较高；进一步的研究可以探索如何在小型模型中引导出推理能力。

拓展与改进

1. 自动思维链 AutoCoT

在思维链引出之后，李沐老师团队发表了《AUTOMATIC CHAIN OF THOUGHT PROMPTING IN LARGE LANGUAGE MODELS》。

思维链的两种范例：

在提问之前给出简单的prompt 如“让我们一步一步地思考” —— Zero-Shot-CoT
使用一些人工的案例，提供问题解构和推理链从而得到答案。—— Manual-CoT

其中第一种方法能够减轻人工的工作量，但生成的思维链常常包含错误。

但第二种方法很费人力，因为对于不同类型的任务（数学推理、常识推理等）都需要人工标注思维链。

因此论文提出一种新的自动COT提示词范式——AutoCoT。旨在自动化构建例子包含问题和推理链。具体地，Auto-CoT利用LLM的“让我们一步步思考“的提示词为每一个样例逐个生成推理链。

挑战

给定数据集中的一个测试问题，检索语义近似的问题并加入Zero-Shot-CoT来生成推理链将会失败。

我们的分析显示关键在于样例问题的多样性。因此，我们的AutoCoT方法通过两步：

将给定数据集分成几个簇
从每个簇中选取一个有代表性的问题，使用简单的通过启发式方法，使用零样本CoT生成推理链。

两种方法：

Retrieval-Q-CoT

使用sentence-BERT将问题编码，使用余弦相似度检索前k个。
Random-Q-CoT

随机选取k个样本。

实验证明，Random-Q-CoT反而效果好。原因在于思维链由Zero-Shot-CoT生成，错误经常在同一个簇中发生。

OverReview

方法概述：

问题聚类

先嵌入向量，然后用k-means聚类。
示例取样

为每个簇生成一个示例$d^{(i)}$, 并遍历问题列表，直到符合挑选法则。

通过$[Q: q_j^{(i)}. A:[P]]$的提示词生成思维链。最终对第i个簇给出$[Q: q_j^{(i)}. A: r_j^{(i)} \dot a_j^{(i)}]$

挑选法则：如果$d^{(i)}$拥有问题$q_j^{(i)}$，不到60个token并且对应的推理$r_j^{(i)}$不到5步。

2. 自协调思维链

在AutoCoT的基础上，来自新加坡的研究者对其进一步改进，提出了自调节思维链提示词方法《Self-Harmonized Chain of Thought》。

将多样化的解决路径合并成统一且有效的解决模式。

论文贡献

提出ECHO方法，通过统一化多样性提升示例质量
设计了可迭代的统一化提示词框架，通过减少示例的变化使得在多种任务重普遍有效。
扩展实验表明我们的方法通过减少多样性，在算术、常识、象征推理中均得到有竞争力的结果。

Overview

模型步骤

问题聚类
示例采样
示例统一

前两步基本和AutoCoT一致，第三步为论文贡献。

示例统一

连续迭代T次，对于在D中的每个示例$d^{(i)}$，使用余下的示例生成提示词P，并使用少样本学习生成新的推理过程$r_{new}^{(i)}$，实现示例更新。最后取D中前m个元素。

每个重新生成的推理过程逐渐与样例中的推理过程对其。通过连续的迭代，此过程达到融合，在所有推理过程之间有统一的模式。

局限性

大模型推理开销大，因为反复迭代。
有可能过拟合。
假设数据集具有相似性。但实际上有可能并不想关或具有错综复杂的关系。

总结

从提出CoT到AutoCoT以及Self-Harmonized CoT，思维链不断演进。

一开始只是Manual思维链，后来依靠聚类思想和Zero-Shot思维链，完成了自动构建思维链的方法。即对数据集中的问题聚类，为每一类有代表的问题生成示例。

Self-Harmonized CoT方法进一步使用其他聚类中的示例来优化Zero-Shot生成的推理过程。

AutoCoT和Self-Harmonized CoT在多样性方面各自提出了不同的见解。前者认为多样性有利于减少Zero-Shot中的生成错误，但后者更注重一致性。

术语&生词积累

paradigm n. 范式
exemplar n. 范例
leverage v. 利用 n. 影响力；杠杆
eliminate v. 减少
mitigate v. 减轻
elicit v.引起，引出
in-context learning(ICL) 语境学习
rationale n. 根本原因
empirical adj. 经验主义的
underscore v. 加下划线；强调
via v. 通过
coherent adj. 连贯的；有条理的
few-shot 少样本的
类似有zero-shot、one-shot
linguistic adj. 语言的
aforementioned adj. 前面提及的
disparity n. 差距；差异
hypothesis n. 假设；假说
inferior adj. 较差的 反义词prior
ubiquitous adj. 无处不在的
perturbation n. 扰乱
impede v. 妨碍
pervasive adj. 普遍的

annotate v. 注解 annotator n.注解者
emulate v. 仿真；模仿
surmount v. 克服
emergence n. 涌现
orthogonal adj. 正交的
concatenate v. 连接（缩写为concat）
OOD(out-of-domain) 出域
synthetic adj. 合成的
syntax n. 语法 semantics n. 语义
task-agnostic n. 可在多个任务上运行
hinge on 取决于
nontrivial adj. 非平凡的；不容易的 trivial adj. 微不足道的
decent adj.适当的
heuristics n. 启发式
induce v. 诱导
fluctuation n. 波动
sidelining v. 使靠边
elevate v. 提升
compromise v. 妥协
undermining v. 逐渐削弱
distort v.扭曲；曲解
quagmire n. 泥潭
tweak v.& n. 拧

Contents