Prompt工程的当代进展[译]— 2

type

status

date

slug

summary

提示技术

我们之前通过一系列相关的概述介绍了各种提示技术：

实际提示工程

高级提示工程

思维链提示

提示集合

现在我们将再次概述这些提示技术，为文章后面介绍的更复杂的方法打好基础。然而，在学习这些技术的过程中，我们应始终牢记简单在提示工程中的重要性。提示技术的复杂性并不意味着它一定比简单策略更好！

基本提示策略

零样本提示（Zero-shot prompting，如上所示）是我们可以采用的最基本提示策略之一，这一策略由 GPT-2 [2] 普及。通过零样本提示来解决任务，我们只需要：i) 在提示中描述任务，ii) 提示模型解决问题。以上问题的例子中，任务是将单词从英语翻译成法语，我们通过“cheese =>”这一字符串提示模型进行翻译，使得模型输出单词 cheese 的法语翻译。下面提供了几个零样本提示的示例。

零样本学习（Zero-shot learning，使用 GPT-3.5-Turbo 生成的输出）

虽然零样本学习在某些情况下表现良好，但它受限于任务描述的模糊性。性能依赖于创建一个清晰且全面的描述，并依靠模型仅基于此描述生成正确输出。通常情况下，我们可以通过在提示中插入更具体的信息来提高性能。

少样本提示（Few-shot prompting）通过在提示中插入多个正确问题解决方案的示例来实现这一目标。这一策略由 GPT-3 [3] 普及，展示了大语言模型（LLM）在规模上的少样本学习能力；见上文。直观地说，少样本学习通过提供多个期望输出的示例，消除了零样本学习的模糊性。因此，模型可以直接从这些示例中理解正确的行为，而不需要从任务描述中推断；见下文。

大语言模型可以从提示中提供的这些示例中学习，这种策略通常被称为“上下文学习”（in-context learning）；见下文。然而，这种学习方式不同于神经网络的常规训练——模型的参数完全没有被修改。相反，我们在提示中提供相关信息，模型可以利用这些信息作为上下文生成更好的输出。

在实际使用少样本学习时，我们需要调整两个关键设置：

示例数量。

选择示例的策略。

要确定使用的正确示例数量，我们可以使用评估集进行基本的超参数调整。许多论文探讨了示例选择策略（例如，随机选择、多样性、语义相似性、主动学习或更复杂的指标）。然而，随机选择示例在实践中通常是一种有效的策略。除此之外，还有许多关于少样本学习的实用规则和发现需要牢记[4,5]：

即使标签不正确，示例的标签分布也会影响模型的答案，因为模型偏向于常见标签。

答案偏向于最近观察到的示例。

示例的格式很重要。

随机选择示例有助于消除模型生成答案中的偏见（如位置或多数标签偏见）。

尽管其简单性，少样本学习是最有效的提示策略之一，并在实际应用中被广泛使用。

指令提示（Instruction prompting）是一种更直接的表达大语言模型期望输出的方法。通过少样本学习，我们通过具体示例向模型解释意图，但这些示例会消耗大量 Token。简单地用语言向模型解释我们的意图会更加高效。为了使其良好运作，使用的大语言模型必须能够一致地遵循指令。这类模型被称为“可操控的”，因为它们能理解提供的详细指令并相应地调整输出。

关于大语言模型的研究主要集中在提高指令遵循能力。预训练的大语言模型在默认情况下不擅长遵循指令。然而，正如 InstructGPT [6] 所示，我们可以通过监督微调（SFT）和人类反馈强化学习（RLHF）的结合，使模型在遵循指令方面变得更好。上图显示，这种策略不仅可以提高指令遵循，还可以改善大语言模型的其他关键属性（如事实性和约束遵循）。

鉴于大语言模型对齐的最新进展，指令提示——甚至可以与少样本提示相结合 [7]——是一种非常有效的且在实际应用中广泛使用的方法。实际上，几种流行的提示策略（如角色提示、指定受众或工具使用）只是指令提示的更具体版本！在编写指令时，我们应清晰且准确，以确保获得最佳结果。

参考文献

[2] Radford, Alec, et al. "Language Models are Unsupervised Multitask Learners."

[3] Brown, Tom, et al. "Language models are few-shot learners." Advances in neural information processing systems 33 (2020): 1877-1901.

[4] Work, What Makes In-Context Learning. "Rethinking the Role of Demonstrations: What Makes In-Context Learning Work?."

[5] Zhao, Zihao, et al. "Calibrate before use: Improving few-shot performance of language models." International conference on machine learning. PMLR, 2021.

[6] Ouyang, Long, et al. "Training language models to follow instructions with human feedback." Advances in neural information processing systems 35 (2022): 27730-27744.

[7] Ye, Seonghyeon, et al. "Investigating the effectiveness of task-agnostic prefix prompt for instruction following." Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 38. No. 17. 2024.

[8] Thoppilan, Romal, et al. "Lamda: Language models for dialog applications." arXiv preprint arXiv:2201.08239 (2022).