Attention Is Off By One

发表时间: 2023-07 · Blog post by Evan Miller (evanmiller.org)

作者: Evan Miller

A1 主要贡献

本文针对现代人工智能(特别是Transformer模型)中普遍存在的量化困难问题,提出了一个核心观点:Attention机制中的softmax函数存在“off-by-one”错误。

A3 背景知识与关键观察

异常值(Outliers)问题

LLM中存在着难以消除的异常值,这些值在数量级上远超同类。研究表明,这些异常值对于模型的运作至关重要,但其存在与神经网络的常规认知相悖。
- 现有研究(如:[Quantizable Transformers: Removing Outliers by Helping Attention Heads Do Nothing, 2023, Qualcomm AI Research, https://arxiv.org/abs/2306.12929])指出,超过97%的LLM异常激活值出现在空格和标点符号位置 。
- 现有针对这些异常值的量化方案(如位压缩技术)往往会导致模型性能显著下降。

Softmax机制的局限性

Attention机制的原始公式为:
$[ \textrm{Attention}(Q, K, V) = \textrm{softmax}\left(\frac{QK^T}{\sqrt{d}}\right)V ]$

A2 方法细节

Softmax1 定义

为了解决上述问题,作者提出了Softmax1函数,旨在为Attention机制提供一个“退出机制”。

Softmax1 公式
$[ (\textrm{softmax}_1(x))_i = \frac{\exp(x_i)}{1+\sum_j \exp(x_j)} ]$

QuietAttention 机制

基于Softmax1,作者定义了改进后的Attention机制:

QuietAttention 公式
$[ \textrm{QuietAttention}(Q, K, V) := \textrm{softmax}_1 \left(\frac{QK^T}{\sqrt{d}}\right)V ]$

实现建议

作者建议通过以下方式快速验证该机制:

A4 实验环境与结果

A5 结论与展望


参考文献说明:
1. [Quantizable Transformers: Removing Outliers by Helping Attention Heads Do Nothing, 2023, Qualcomm AI Research, https://arxiv.org/abs/2306.12929]:该论文被引用以说明LLM中异常激活值 (outlier activations)的分布特征(97%+出现在空格和标点位置)。