🔴 可解释的软提示

软提示是一系列向量，不对应词汇表中的任何实际标记(tokens)。这使得难以解释提示。然而，我们仍然可以尝试通过将向量映射到词汇表中最接近的标记(tokens)来解释它们。但是，投影的软提示通常是任意的。它们可以很好地解决任务，但会被投影到词汇表中的任意标记上¹。

例如，如果我们在数学问题（例如GSM8K²）上进行训练，我们可能会从提示You are a mathematician. Solve this question:开始。如果我们在其上执行提示调整，然后将其投影回标记空间，我们可能会得到类似A bus is a bus. Do thing here:这样的无意义内容。经常出现将映射到这种无意义提示的软提示可以在任务上提供更好的性能！

任意性假设

Khashabi等人¹ 提出了个不可思议的假设。它说，对于任何离散的目标提示，给定一个任务，存在一个连续的提示可以投影到它，同时在任务上表现良好。

这意味着对于1000个不同的任务，存在1000个不同的高效软提示（每个任务一个），它们映射到同一个离散提示。

解释风险

他们使用任意性假设来强调解释软提示时会出现的一些风险。特别是，软提示可能被投影到给人误导的离散提示上。

考虑一个用于简历排名的软提示。当投影到标记空间时，它可能是You hiring manager. Rank good resumes:。这似乎还可以，也许有点缺乏语法正确性。但是，标记good可能与标记white具有类似的投影，提示中可能存在隐含的偏见。使用略微不同的投影方法，我们可能会得到You hiring manager. Rank white resumes:。这显然是非常不同的，可能具有重大影响。

与解释常规离散提示类似，我们应该非常注意提示中可能存在的偏见。由于软提示更难解释，因此我们必须格外小心。

Khashabi, D., Lyu, S., Min, S., Qin, L., Richardson, K., Welleck, S., Hajishirzi, H., Khot, T., Sabharwal, A., Singh, S., & Choi, Y. (2021). Prompt Waywardness: The Curious Case of Discretized Interpretation of Continuous Prompts. ↩
Cobbe, K., Kosaraju, V., Bavarian, M., Chen, M., Jun, H., Kaiser, L., Plappert, M., Tworek, J., Hilton, J., Nakano, R., Hesse, C., & Schulman, J. (2021). Training Verifiers to Solve Math Word Problems. ↩

🔴 可解释的软提示

任意性假设​

解释风险​

任意性假设

解释风险