GPT 最佳实践

本指南分享了从 GPT 获得更好结果的策略。有时可以组合使用此处描述的方法以获得更好的效果。

此处演示的一些示例目前仅适用于我们最强大的模型gpt-4. 如果您还没有权限，请gpt-4考虑加入候补名单。一般来说，如果您发现 GPT 模型在某项任务中失败，并且有功能更强大的模型可用，那么通常值得使用功能更强大的模型再次尝试。

获得更好结果的六项策略

1、写下清晰的指示

GPT并不能读懂您的心思。如果输出太长，请要求简短的回复。如果输出太简单，请要求专业水平的写作。如果您不喜欢格式，请展示您希望看到的格式。GPT越少猜测您的意图，您得到的结果就越可能符合您的要求。

策略：

（1）在您的查询中包含细节，以获得更相关的答案。

为了获得高度相关的回复，请确保请求中包含任何重要的细节或背景信息。否则，您将让模型去猜测您的意思。

（2）清模型扮演一个人设

系统消息可用于指定模型在回复中使用的人设。

（3）使用分隔符清楚地指示输入的不同部分

三引号、XML 标签、节标题等分隔符可以帮助划分要区别对待的文本节。对于这样的直接任务，使用分隔符可能不会在输出质量上产生太大的影响。然而，任务越复杂，澄清任务细节就越重要。不要让 GPT 费力理解您究竟在要求什么。

（4）指定完成任务所需的步骤

有些任务最好指定为一系列步骤。明确地写出这些步骤可以使模型更容易遵循它们。

（5）提供实例

提供适用于所有示例的一般说明通常比通过示例演示任务的所有排列更有效，但在某些情况下提供示例可能更容易。例如，如果您打算让模型复制响应用户查询的特定风格，而这种风格很难明确描述。这称为“几次”提示。

（6）请指定所需的输出长度。

您可以要求模型生成特定长度的输出。目标输出长度可以按照词数、句子数、段落数、项目符号等进行指定。但请注意，指示模型生成特定数量的词可能不会非常精确。模型更可靠地生成具有特定段落数或项目符号数的输出。

2、提供参考文字

GPTs可以自信地创造虚假答案，尤其是在被问及深奥话题、引用和网址时。就像一张笔记可以帮助学生在考试中表现更好一样，向GPTs提供参考文本可以在回答时减少虚构内容。

策略：

（1）指示模型使用参考文本回答

如果我们可以为模型提供与当前查询相关的可信信息，那么我们可以指示模型使用提供的信息来组成其答案。

鉴于 GPT 的上下文窗口有限，为了应用此策略，我们需要某种方法来动态查找与所提出的问题相关的信息。嵌入可用于实现高效的知识检索。有关如何实现这一点的更多详细信息，请参阅策略“使用基于嵌入的搜索来实现高效的知识检索”。

（2）指示模型通过引用参考文本来回答

如果输入已补充相关知识，则可以直接要求模型通过引用所提供文档中的段落来为其答案添加引用。请注意，输出中的引用可以通过所提供文档中的字符串匹配以编程方式进行验证。

3、将复杂的任务拆分为更简单的子任务

正如软件工程中将复杂系统分解为一组模块化组件是良好实践一样，提交给 GPT 的任务也是如此。复杂的任务往往比简单的任务具有更高的错误率。此外，复杂的任务通常可以被重新定义为更简单任务的工作流程，其中早期任务的输出用于构造后续任务的输入。

策略

（1）使用意图分类来识别与用户查询最相关的指令

对于需要大量独立指令集来处理不同情况的任务，首先对查询类型进行分类并使用该分类来确定需要哪些指令可能是有益的。这可以通过定义与处理给定类别中的任务相关的固定类别和硬编码指令来实现。这个过程也可以递归地应用，将任务分解为一系列阶段。这种方法的优点是每个查询仅包含执行任务下一阶段所需的指令，与使用单个查询执行整个任务相比，这可以降低错误率。这还可以降低成本，因为较大的提示运行成本更高（请参阅定价信息）。

例如，假设对于客户服务应用程序，查询可以有效地分类如下：

根据客户查询的分类，可以向 GPT 模型提供一组更具体的指令来处理后续步骤。例如，假设客户需要“故障排除”方面的帮助。

请注意，模型已被指示发出特殊字符串来指示对话状态何时发生变化。这使我们能够将我们的系统变成一个状态机，其中状态决定注入哪些指令。通过跟踪状态、哪些指令与该状态相关，以及可选地允许从该状态进行哪些状态转换，我们可以为用户体验设置护栏，而使用不太结构化的方法很难实现这一点。

（2）对于需要很长对话的对话应用，总结或过滤之前的对话

由于 GPT 具有固定的上下文长度，因此用户和助手之间的对话（其中整个对话都包含在上下文窗口中）无法无限期地继续。

解决此问题有多种解决方法，其中之一是总结对话中的先前回合。一旦输入的大小达到预定的阈值长度，这可能会触发总结部分对话的查询，并且先前对话的摘要可以作为系统消息的一部分包括在内。或者，可以在整个对话过程中在后台异步总结之前的对话。

另一种解决方案是动态选择与当前查询最相关的对话的先前部分。请参阅策略“使用基于嵌入的搜索来实现高效的知识检索”。

4、给予GPT“思考”的时间

如果被要求计算17乘以28，您可能不会立即知道，但仍然可以用时间来计算出来。类似地，当试图立即回答问题时，GPTs会产生更多的推理错误，而不是花时间算出一个答案。在得出答案之前要求一个推理链条，可以帮助GPTs更可靠地推理出正确答案。

策略：

（1）指示模型在急于得出结论之前找出自己的解决方案

有时，当我们明确指示模型在得出结论之前从第一原理进行推理时，我们会得到更好的结果。假设我们想要一个模型来评估学生对数学问题的解决方案。解决这个问题最明显的方法是简单地询问模型学生的解决方案是否正确。

但这位同学的解法其实并不正确！我们可以通过提示模型首先生成自己的解决方案来让模型成功注意到这一点。

（2）使用内心独白或一系列查询来隐藏模型的推理过程

前面的策略表明，对于模型来说，在回答具体问题之前，有时需要详细地推理解决问题。对于某些应用而言，模型用于得出最终答案的推理过程可能不适合与用户分享。例如，在辅导应用中，我们可能希望鼓励学生自行解答问题，但模型对学生解决方案的推理过程可能会向学生透露答案。

内心独白是一种可以用来减轻这种情况的策略。内心独白的思想是指示模型将那些希望对用户隐藏的输出部分放入结构化的格式中，以便容易解析。然后，在向用户呈现输出之前，对输出进行解析，只有部分输出内容会被显示给用户。

或者，这可以通过一系列查询来实现，其中除了最后一个查询之外，所有查询的输出都对最终用户隐藏。

首先，我们可以要求模型自己解决问题。由于这个初始查询不需要学生的解决方案，因此可以省略。这提供了额外的优势，即模型的解决方案不会因学生尝试的解决方案而产生偏差。

接下来，我们可以让模型使用所有可用信息来评估学生解决方案的正确性。

最后，我们可以让模型使用自己的分析来以乐于助人的导师的角色构建回复。

（3）询问模型在之前的过程中是否遗漏了任何内容

假设我们正在使用一个模型来列出与特定问题相关的来源的摘录。列出每个摘录后，模型需要确定是否应该开始编写另一个摘录或者是否应该停止。如果源文档很大，模型通常会过早停止并且无法列出所有相关摘录。在这种情况下，通过使用后续查询提示模型查找之前传递中错过的任何摘录，通常可以获得更好的性能。

5、使用外部工具

通过向 GPT 提供其他工具的输出来弥补 GPT 的弱点。例如，文本检索系统可以告诉 GPT 相关文档。代码执行引擎可以帮助 GPT 进行数学计算和运行代码。如果某项任务可以通过工具而不是 GPT 更可靠或更高效地完成，请卸载它以充分利用两者。

（1）使用基于嵌入的搜索实现高效的知识检索

如果作为输入的一部分提供，模型可以利用外部信息源。这可以帮助模型生成更明智和最新的响应。例如，如果用户询问有关特定电影的问题，则将有关电影的高质量信息（例如演员、导演等）添加到模型的输入中可能会很有用。嵌入可用于实现高效的知识检索，从而可以在运行时动态地将相关信息添加到模型输入中。

文本嵌入是一个可以衡量文本字符串之间相关性的向量。相似或相关的字符串比不相关的字符串更接近。这一事实以及快速向量搜索算法的存在意味着嵌入可以用于实现高效的知识检索。特别地，文本语料库可以被分割成块，并且每个块可以被嵌入和存储。然后可以嵌入给定的查询，并且可以执行矢量搜索以从语料库中查找与查询最相关的嵌入文本块（即在嵌入空间中最接近的文本块）。

示例实现可以在 OpenAI Cookbook 中找到。请参阅策略“指示模型使用检索到的知识来回答查询”，了解如何使用知识检索来最大程度地减少模型编造不正确事实的可能性的示例。

（2）使用代码执行来执行更准确的计算或调用外部API

不能依赖 GPT 自行准确地执行算术或长计算。在需要的情况下，可以指示模型编写和运行代码，而不是进行自己的计算。特别是，可以指示模型将要运行的代码放入指定的格式（例如三重回溯）中。产生输出后，可以提取代码并运行。最后，如有必要，可以将代码执行引擎（即 Python 解释器）的输出作为下一个查询的模型的输入。

代码执行的另一个很好的用例是调用外部 API。如果模型接受了如何正确使用 API 的指导，它就可以编写使用该 API 的代码。通过向模型提供展示如何使用 API 的文档和/或代码示例，可以指导模型如何使用 API。

警告：执行模型生成的代码本质上并不安全，任何试图执行此操作的应用程序都应采取预防措施。特别是，需要沙盒代码执行环境来限制不受信任的代码可能造成的危害。

(3) 授予模型访问特定功能的权限

聊天完成 API 允许在请求中传递功能描述列表。这使得模型能够根据提供的模式生成函数参数。生成的函数参数由 API 以 JSON 格式返回，可用于执行函数调用。然后，可以将函数调用提供的输出反馈到以下请求中的模型中以关闭循环。这是使用GPT模型调用外部函数的推荐方式。要了解更多信息，请参阅我们的 GPT 介绍指南中的函数调用部分以及 OpenAI Cookbook 中的更多函数调用示例。

6、系统地测试变更

如果能够衡量绩效，改进绩效就会更容易。在某些情况下，对提示进行修改可能会在一些孤立的示例上取得更好的绩效，但会导致更具代表性的示例集上的整体绩效变差。因此，要确保变更对绩效的影响是积极的，可能需要定义一个全面的测试套件（也称为“评估”）。

有时很难判断更改（例如新指令或新设计）是否使您的系统变得更好或更差。看几个例子可能会暗示哪个更好，但由于样本量较小，很难区分真正的改进或随机运气。也许这种变化有助于某些输入的性能，但会损害其他输入的性能。

评估程序（或“evals”）对于优化系统设计非常有用。好的评估是：

>代表现实世界的使用情况（或至少是多样化的）

>包含许多测试用例以获得更大的统计能力（有关指南，请参阅下表）

>易于自动化或重复

输出的评估可以由计算机、人类或两者混合来完成。计算机可以使用客观标准（例如，具有单一正确答案的问题）以及一些主观或模糊标准自动进行评估，其中模型输出由其他模型查询进行评估。 OpenAI Evals 是一个开源软件框架，提供用于创建自动化评估的工具。

当存在一系列可能的输出被认为质量同样高时（例如，对于答案很长的问题），基于模型的评估可能会很有用。通过基于模型的评估可以实际评估的内容与需要人类评估的内容之间的界限是模糊的，并且随着模型变得更加强大而不断变化。我们鼓励进行实验，以确定基于模型的评估对您的用例的效果如何。

(1) 参考黄金标准答案评估模型输出

假设已知问题的正确答案应参考一组特定的已知事实。然后我们可以使用模型查询来计算答案中包含多少必需的事实。

例如，使用以下系统消息：

这是一个满足这两点的示例输入：

以下是仅满足一个点的示例输入：

这是一个不满足任何条件的示例输入：

这种基于模型的评估有许多可能的变体。考虑以下变体，它跟踪候选答案和黄金标准答案之间的重叠类型，并且还跟踪候选答案是否与黄金标准答案的任何部分相矛盾。

这是一个示例输入，其答案不合格，但与专家答案并不矛盾：

以下是一个示例输入，其答案与专家答案直接矛盾：

下面是一个带有正确答案的示例输入，它还提供了比必要的更多的细节：

文档信息

本文作者：Eric Chen
本文链接：https://aiwv.xyz/2023/07/25/chatgpt-best-practice/
版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）

AI智谷X

ChatGPT的最佳实践