IntAttention: A Fully Integer Attention Pipeline for Efficient Edge Inference

Wanli Zhong 1 Haibo Feng 1 2 Zirui Zhou 1 Hanyang Peng 2 Shiqi Yu† 1

A1 主要贡献

本文旨在解决在边缘设备上部署Transformer模型时遇到的延迟和能耗瓶颈。尽管INT8量化能有效加速主要的矩阵乘法运算,但它使得Softmax操作成为了新的性能瓶颈。标准的Softmax阶段需要一个成本高昂的“反量化 → Softmax → 重新量化”流程,这一流程在INT8流水线中可能占据高达65%的注意力计算延迟,并破坏了对边缘硬件效率至关重要的端到端整数数据流。

为了解决这一问题,本文提出了IntAttention,这是首个无需重新训练、可即插即用的全整数注意力流水线。其核心是一种名为IndexSoftmax的硬件友好型算子,它在整数域内完全替代了浮点指数运算。IntAttention集成了稀疏性感知剪裁(sparsity-aware clipping)、一个32项的查找表(LUT)近似以及直接整数归一化,从而消除了所有数据类型转换的开销。

本文的主要贡献总结如下:
* 提出IndexSoftmax:这是一种基于查找表的Softmax近似方法,与整数执行兼容。通过将其与整数归一化和概率量化相结合,构成了IntAttention流水线,实现了端到端的整数注意力计算。
* 在商用边缘处理器上验证有效性:实验证明,IntAttention可在现成的边缘处理器上运行。与FP16基线相比,它实现了高达3.7倍的速度提升和高达61%的能耗降低。同时,在多种语言和视觉模型上,其精度与基线方法相当,保真度高。

图1. 传统量化注意力与本文提出的IntAttention的比较,其中IntAttention维持了从QK⊤到PV的端到端整数数据流。
图1. 传统量化注意力与本文提出的IntAttention的比较,其中IntAttention维持了从QK⊤到PV的端到端整数数据流。

A3 背景知识/关键Observation/设计原则

2.1 注意力机制与动态量化

标准缩放点积注意力。首先回顾作为我们设计基础的标准注意力机制。假设$Q, K, V \in R^{L \times d}$ 分别代表查询、键和值,其中序列长度为$L$,每个token的特征维度为$d$【29,Attention is all you need,2017,Advances in neural information processing systems】。标准注意力的计算过程如下:

$$\mathbf{A} = \mathbf{Q}\mathbf{K}^{\top}, \quad \mathbf{P} = \text{softmax}\left( \frac{\mathbf{A}}{\sqrt{d}} \right), \quad \mathbf{O} = \mathbf{P}\mathbf{V}.$$

对Q, K, V进行动态量化。为了降低在边缘硬件上的延迟和内存访问量,我们对输入$Q, K, V$采用逐张量对称INT8量化,并将零点固定为0【11,Quantization and training of neural networks for efficient integerarithmetic-only inference,2018,Proceedings of the IEEE conference on computer vision and pattern recognition】。对于一个张量$X$,令其量化版本为 $\hat{X} = quant(X)$;其缩放因子和量化后的张量计算如下:

$$s_X = \frac{\max(|\mathbf{X}|)}{127},$$
图片描述
图片描述

这种方法能够在保持简单的反量化模型 $X \approx s_X \hat{X}$(其中$\hat{X} \in Z_{\text{INT8}}$)的同时,实现低精度矩阵乘法。将公式3应用于Q, K, V,可以得到它们的量化版本$\hat{Q}, \hat{K}, \hat{V}$以及对应的缩放因子$s_Q, s_K, s_V$。

整数累加与缩放。量化之后,注意力的logits完全在整数域内通过INT8×INT8乘法和INT32累加来计算:

图片描述
图片描述

此处的$\alpha$将整数logits重新缩放回浮点范围。将$V \approx s_V \hat{V}$代入$O = PV$可得:

$$\mathbf{O} \approx s_{V} \hat{\mathbf{O}}=s_{V} \mathbf{P} \hat{\mathbf{V}}.$$

根据这些定义,两个计算量大的矩阵乘法($QK^T$和$PV$)都可以在整数算术下执行。SageAttention【36,Sageattention: Accurate 8-bit attention for plug-and-play inference acceleration,2025c,International Conference on Learning Representations (ICLR)】证明了精心设计的INT8核能够在多种模型上实现显著的吞吐量提升,且精度损失极小。SageAttention2【34,Sageattention2: Efficient attention with thorough outlier smoothing and per-thread int4 quantization,2025a,International Conference on Machine Learning (ICML)】进一步表明,将Q和K的相似度计算推向INT4,同时在值路径上保持稍高的精度,可以做到几乎无损,并在现代GPU上提供额外的加速。

2.2 量化注意力流水线中的新兴瓶颈

数值稳定的Softmax。我们采用标准的最大值减法策略来确保指数运算的数值稳定性。给定$A \in R^{L \times L}$,定义行最大值向量$m = \text{rowMax}(A)$。稳定的Softmax可以紧凑地写为:

图片描述
图片描述

其中rowMax和rowSum都沿着行维度操作。这种变换在保持Softmax精确性的同时,将所有指数运算的输入限制在$(-\infty, 0]$范围内,从而防止数值溢出并提高稳定性。

边缘硬件上的成本驱动因素。即使$QK^T$和$PV$被加速,Softmax的$O(L^2)$复杂度依然存在。在线程级并行能力有限的边缘硬件上,指数运算和除法主导了延迟。单次exp(·)通常会扩展为每个元素几十个浮点操作,而归一化仍然需要逐行进行除法。在量化流水线中,这个成本被进一步放大,因为INT32的logits必须在Softmax之前被反量化为FP32,而得到的概率又必须为值投影重新量化,这中断了本可以连续的整数数据流。

实测性能瓶颈分析。图2报告了“反量化→Softmax→重新量化”路径的实测时间占比。在FP32精度下,该路径的占比在不同序列长度下约为13%到19%。当GEMM使用FP16时,占比增加到约23%到30%,但仍是次要部分。然而,当GEMM切换到INT8后,其延迟大幅下降,而Softmax路径基本不变,导致其时间占比飙升至57%到65%,成为主要的成本来源。因此,一旦矩阵乘法被量化,概率归一化路径就成为必须优化的下一个组件,以释放进一步的端到端加速潜力。

图2. 不同精度下“反量化→Softmax→重新量化”路径的时间占比分解。一旦GEMM加速到INT8,该路径就成为主要的延迟瓶颈和下一个优化目标。
图2. 不同精度下“反量化→Softmax→重新量化”路径的时间占比分解。一旦GEMM加速到INT8,该路径就成为主要的延迟瓶颈和下一个优化目标。

相关工作背景。多项面向GPU的研究已经表明,一旦周围的矩阵乘法被高度优化,Softmax就会成为限制阶段。FlashAttention系列核【3, Flashattention: Fast and memory-efficient exact attention with io-awareness, 2022a, Advances in neural information processing systems; 4, Flashattention: Fast and memory-efficient exact attention with IO-awareness, 2022b, Advances in Neural Information Processing Systems】通过分块处理查询和键,将注意力计算与在线Softmax融合,并积极减少内存访问。FlashAttention-3【23,Flashattention-3: Fast and accurate attention with asynchrony and low-precision,2024,Advances in Neural Information Processing Systems】更进一步,利用FP8 Tensor Cores驱动GEMM,然后通过warp特化和使用双缓冲的乒乓调度来重叠GEMM和Softmax,从而隐藏了主要的Softmax成本。TurboAttention【12,Turboattention: Efficient attention approximation for high throughputs llm,2025,Eighth Conference on Machine Learning and Systems】扩展了这一系列工作,不仅解决了Softmax瓶颈,还解决了量化注意力中出现的反量化开销。它通过FlashQ统一了这些优化,实现了矩阵乘法的量化执行,并采用基于稀疏性的Softmax近似来避免指数运算过程中的FP32反量化。

对边缘设备的启示。这些结果证实了Softmax及与量化相关的路径是一个真实的瓶颈。然而,所有这些优化都依赖于大规模的GPU并行性和专门的浮点硬件。在边缘设备上,缺乏高吞吐量的浮点单元和深度的warp级并发性,但提供了高效的整数单元,同样的路径仍然是大部分标量化且成本高昂。这激发了我们为进一步加速边缘硬件上的注意力推理,需要一个轻量级、即插即用且整数友好的Softmax替代方案。

2.3 加速策略

现有加速策略概述。由于Softmax及其相关的浮点转换开销已成为量化注意力的主要瓶颈,近期的研究主要集中在通过三种策略来加速这一阶段:
1. 面向硬件的Softmax协同设计:Softermax【25,Softermax: Hardware/software codesign of an efficient softmax for transformers,2021,2021 58th ACM/IEEE Design Automation Conference (DAC)】和ConSmax【17,Consmax: Hardware-friendly alternative softmax with learnable parameters,2024,Proceedings of the 43rd IEEE/ACM International Conference on Computer-Aided Design】等方法重新设计了Softmax算子以及专用的加速器逻辑。Softermax用$2^x$替代$e^x$,并使用定点整数移位器进行指数运算和归一化。ConSmax通过训练固定的缩放常数来移除显式的最大值查找和归一化,使得推理可以用查表和乘法实现。这些协同设计实现了高吞吐量和节能,但仅适用于专用硬件并需要改变算子,限制了它们在通用边缘处理器上的应用。
2. 输入感知的量化和基于LUT的Softmax:EXAQ【24,EXAQ: Exponent aware quantization for LLMs acceleration,2024,Workshop on Machine Learning and Compression, NeurIPS 2024】和TurboAttention【12,Turboattention: Efficient attention approximation for high throughputs llm,2025,Eighth Conference on Machine Learning and Systems】等方法在不改变模型算子或硬件的情况下加速Softmax。EXAQ确定动态最优裁剪范围,将注意力分数量化到低至3比特。TurboAttention对指数的整数部分使用小型LUT,对小数部分使用三阶多项式,并对可忽略的指数进行稀疏化。这些技术消除了繁重的浮点指数运算,可直接应用于注意力推理,但归一化步骤(求和与除法)通常仍在高精度算术下进行,因此数据流仍然是混合精度的,这仍然给边缘CPU带来负担。
3. Transformer量化中的纯整数Softmax:全整数Softmax方案被集成到整数化Transformer流水线中。I-BERT【13,I-bert: Integer-only bert quantization,2021,International conference on machine learning】使用低阶整数多项式和迭代整数求精来近似Softmax。I-ViT【16,I-vit: Integer-only quantization for efficient vision transformer inference,2023,Proceedings of the IEEE/CVF International Conference on Computer Vision】引入了Shiftmax,通过位移和加法来表示指数。I-LLM【10,I-llm: Efficient integer-only inference for fullyquantized low-bit large language models,2024,arXiv preprint arXiv:2405.17849】提出了DI-ClippedSoftmax,完全以整数形式进行裁剪和缩放。尽管这些方法提供了真正的整数数据流,但它们通常依赖于量化感知训练或校准来恢复精度,并增加了用于估计缩放/裁剪因子的运行时开销,这限制了它们在边缘设备上的无缝部署。

现有策略的局限性总结。总而言之,硬件协同设计方法效率非常高,但依赖于专门的逻辑和重新训练,限制了可移植性。输入感知的量化和基于LUT的方法更易于部署,但它们通常将归一化步骤保留在浮点或高精度计算中,因此数据流仍然是混合精度的。纯整数Softmax方法承诺一个全整数路径,但它们需要通过微调或重构来适应模型。这些方法族中没有一个能以一种既严格为整数又真正即插即用的方式,完全移除“反量化→Softmax→重新量化”循环。

2.4 动机与设计目标

核心动机。第2.2小节的性能分析表明,一旦注意力机制中的矩阵乘法被量化加速,边缘处理器上的主要延迟就来自于剩余的“反量化→Softmax→重新量化”路径。先前的工作缓解了该路径的部分问题,但总是以牺牲至少一个关键属性为代价:要么假设有定制硬件,要么在归一化步骤回退到浮点运算,要么需要模型重新训练。因此,对于实际部署而言,端到端的实际增益仍然有限。

设计目标。我们的目标是以一种可以直接用于现有量化注意力流水线的方式移除这个瓶颈。这引出了四个设计目标:
1. 整数执行。注意力的所有阶段,包括指数运算的类似物和逐行归一化,都必须在整数算术中运行。这使得计算能够充分利用边缘硬件上已有的高效整数单元,而不是调用较慢的浮点路径。
2. 即插即用部署。该方法必须能作为预训练模型中标准注意力的直接替代品。它不应需要量化感知训练、微调或结构性改变。这使其能直接应用于大量现有模型,并具有即时部署价值。
3. 可移植效率。实现必须仅依赖于常见的整数原语,如加法、乘法、移位和索引查找,并且必须能在SIMD风格的核心(例如ARM NEON)上干净地并行化。它不应为每个输入的统计数据引入额外的全局遍。这使得该方法在广泛的商用设备上保持实用性。
4. 加速下的保真度。该算子必须在延迟和能耗上比浮点Softmax有明显优势,同时保持接近原始FP16注意力的准确性。换句话说,效率的提升不能以不可接受的性能下降为代价。

A2 方法细节

IntAttention将传统的量化注意力块转变为一个真正的整数域流水线,消除了在边缘处理器上主导延迟的“反量化→Softmax→重新量化”的弯路。通过维持从$QK^T$ logits到$PV$乘法的连续整数路径,IntAttention完全在商用整数单元上执行,无需模型重新训练,并可以作为现有量化注意力推理中的直接替代品。

IntAttention的核心是IndexSoftmax,其核心操作是整数裁剪后跟基于查找表的指数近似。由此产生的UINT8注意力图$\hat{P}$直接馈送到整数$PV$核,因此在运行时路径上没有出现浮点计算。

IndexSoftmax的实现依赖于三个紧密耦合的机制:整数域裁剪、基于LUT的指数运算和整数尺度归一化,这些机制是协同设计和调优的,而不是作为独立的模块。这种耦合最小化了额外的遍或全局统计,保留了在SIMD风格整数单元上的并行性,并在保持接近基线精度的同时,显著降低了延迟和能耗。

提出的IntAttention流水线的概述如图3所示。以下小节详细介绍了每个机制以及实现高效、可移植的整数注意力的集成选择。

图3. 提出的IntAttention流水线概览。
图3. 提出的IntAttention流水线概览。

3.1 IndexSoftmax

通过稀疏性感知剪枝进行整数域裁剪。Softmax中的指数函数具有固有的稀疏性:随着输入值的减小,$\exp(\cdot)$会迅速趋近于零。如图4所示,在实践中,一小部分高价值的logits主导了归一化项,而大多数logits的贡献微不足道。为这些接近零的项计算指数会浪费算术资源并增加内存流量,尤其是在边缘设备上。为了利用这一点,我们引入了一种整数域裁剪机制,在指数近似之前移除低重要性的logits。与浮点稀疏/高效注意力变体不同,我们的方法完全停留在整数域,避免了类型转换。

图4. Softmax中指数激活的图示。大多数logits位于近零区域,其中e^x对归一化的贡献微不足道。只有一小部分较高的logits显著影响输出分布。
图4. Softmax中指数激活的图示。大多数logits位于近零区域,其中e^x对归一化的贡献微不足道。只有一小部分较高的logits显著影响输出分布。

裁剪过程。形式上,给定整数logits $\hat{A} \in Z^{L \times L}$,我们应用逐行最大值减法以保证稳定性:

$$\hat{\mathbf{\Delta}} = \operatorname{rowmax}(\hat{\mathbf{A}}) - \hat{\mathbf{A}},$$

这会产生每行中与主导值的非负距离。然后,我们使用一个与量化对齐的裁剪阈值$c_{\text{int}}$,该阈值由裁剪阈值$c$通过公式4中的量化缩放因子导出:

$$c_{\mathrm{int}} = \mathrm{round} \left( \frac{c}{\alpha} \right) = \mathrm{round} \left( \frac{c \sqrt{d}}{s_{Q} s_{K}} \right).$$

裁剪是逐元素执行的:

$$\hat{\Delta}^{\prime}=\min \left(\hat{\Delta}, c_{\text {int }}\right),$$

因此,对$\exp(-\alpha \hat{\Delta})$贡献可忽略的条目被饱和到$c_{\text{int}}$。

符号约定与优势。为了匹配基于查找表(LUT)的指数运算,我们采用$m - A$的符号约定(而不是公式6中的$A - m$),确保所有$\exp(-x)$的参数都是非负的,并位于$[0, c]$范围内。结合裁剪,这将指数评估限制在一个紧凑、适合查表的域内。总的来说,整数域裁剪提供了两个好处:(i) 它移除了对近零贡献的冗余工作,减少了算术和带宽;(ii) 它为整数域指数运算建立了一个与量化一致的有界范围。这些特性为一个高效、全整数的Softmax流水线奠定了基础,该流水线既具有稀疏性感知能力,又易于在低功耗加速器上部署。

使用查找表的高效指数近似。在量化推理中,评估$\exp(\cdot)$的成本很高。经典实现使用迭代或多项式方案(例如,Pade或泰勒级数),需要多个浮点运算。在GPU上,这个成本可以通过大规模并行来分摊,但在边缘设备上,带宽和指令延迟占主导地位,一旦矩阵乘法被量化,$\exp(\cdot)$通常会成为瓶颈。结果是快速的整数$QK^T$之后跟着一个浮点Softmax,这打破了整数数据流并限制了进一步的加速。

基于查找表的替代方案。我们通过用一个表驱动的代理替换指数阶段来解决这个问题。在公式9中定义的整数域裁剪之后,所有$\exp(-x)$的输入都位于有限区间$[0, c]$内。在这个范围内,该函数是有界的,因此固定分辨率的离散化提供了一个有效且简单的近似。因此,我们预先计算一个包含$2^b$个条目的固定查找表(LUT),

图片描述
图片描述

并通过线性重缩放将裁剪后的整数距离映射到索引,

$$\mathbf{idx} = \lfloor \frac{\hat{\Delta}^\prime}{c_{\text{int}}} (2^b - 1) \rfloor,$$

然后通过一次收集(gather)操作获得指数的代理值:

图片描述
图片描述

与EXAQ的比较与优势。在仅使用LUT的方法中,最接近的是EXAQ【24,EXAQ: Exponent aware quantization for LLMs acceleration,2024,Workshop on Machine Learning and Compression, NeurIPS 2024】,它使用基于每张量标准差统计的动态裁剪规则,以及超低的LUT分辨率($b \in {2, 3}$)。这增加了全局归约和控制开销,在边缘设备上是昂贵的。相比之下,我们采用离线选择的固定超参数($c, b$)。如图9所示的经验表明,性能在实际范围内对$c$不敏感,而将$b$适度增加到一个中等大小的表,其运行时影响可以忽略不计,同时明显提高了近似精度。只要表保持中等大小,查找延迟实际上是恒定的,因此追求极小的表几乎没有实际好处,反而会降低保真度。一个中等大小、固定分辨率的LUT在边缘硬件上的整数注意力中,实现了准确性和效率之间更强的平衡。

图5. 在相同内存预算下,IndexSoftmax实现了4倍更高的LUT分辨率,从而能够在无需动态裁剪或全局统计的情况下实现更高保真度的指数近似,而这些操作在边缘设备上成本高昂。
图5. 在相同内存预算下,IndexSoftmax实现了4倍更高的LUT分辨率,从而能够在无需动态裁剪或全局统计的情况下实现更高保真度的指数近似,而这些操作在边缘设备上成本高昂。

3.2 LUT重建与整数尺度归一化

概率矩阵P的量化。概率矩阵$P$的量化对最终的注意力输出有至关重要的影响。虽然先前的方法通常将概率乘以127并存储在有符号的INT8中,但我们采用无符号的UINT8格式,并乘以255进行缩放,这充分利用了可用范围并改善了归一化过程中的数值平滑度。这种设计使得Softmax路径能够完全保留在整数域中,查找表和输出概率都被量化为UINT8。由于$P$的精度受其8位表示的固有限制,使用过高精度的浮点查找表几乎没有好处。因此,我们的指数查找表也被量化为UINT8,这样每个条目既紧凑又足够表达被裁剪的指数曲线。

整数域归一化过程。在裁剪后的区间$[0, c]$上,浮点表被线性映射到整数表:

$$\tilde{\mathbf{E}}=\operatorname{LUT}[\mathbf{idx}] \approx \exp \left(-\alpha \hat{\mathbf{\Delta}}^{\prime}\right),$$

这样,非常小的值也能以精细的整数粒度被保留。给定裁剪后的索引向量idx,我们收集一个逐行的代理值

图片描述
图片描述

用一个更宽的整数累加器累加其行和,并通过定点缩放产生8位概率:

图片描述
图片描述

所有步骤都完全是整数友好的:一次LUT收集、一次32位累加和一次逐元素缩放。通过在整数域中执行归一化,我们避免了运行时路径中的任何浮点运算。如图5所示,与EXAQ在32字节预算下使用INT3 LUT分辨率仅编码8个指数值相比,我们的IndexSoftmax在相同的内存占用下存储了32个条目,实现了4倍的分辨率提升,并显著提高了基于LUT的近似保真度,而无需动态裁剪或全局统计,这些在边缘处理器上是昂贵的。

3.3 量化范围与兼容性

默认配置与兼容性。我们的默认配置对周围的矩阵乘法$QK^T$和$PV$使用逐张量对称量化,这在准确性和实现简易性之间提供了一个平衡。然而,所提出的IndexSoftmax与更细粒度的方案兼容,例如逐通道或逐块量化。在这些情况下,裁剪变为分组特定的,而后续的查找和归一化保持不变。

细粒度量化下的调整。假设量化是定义在组$g = 1, \dots, G$(通道或块)上的。用$s_Q^{(g)}$和$s_K^{(g)}$表示缩放因子,并定义:

图片描述
图片描述

然后,第3.1小节中的裁剪使用$c_{\text{int}}^{(g)}$按组应用:

$$\hat{\Delta}'^{(g)}=\min(\hat{\Delta}^{(g)},c_{\text{int}}^{(g)}).$$

索引映射和查找表使用$c_{\text{int}}^{(g)}$遵循相同的公式,而LUT本身可以在各组之间共享,因为连续边界$c$和分辨率$b$是固定的:

图片描述
图片描述

在连接或求和每行内的贡献之后,公式15中的逐行归一化过程完全相同。因此,从逐张量量化转为逐通道或逐块量化,仅增加了对缩放因子的记录和组特定$c^{(g)}$的计算,同时保留了纯整数数据流、LUT分辨率和整体流水线结构。

A4 实验环境与结果

实验环境

实验结果

主要结论:IntAttention在Armv8 CPU上的速度比FP16快3.7倍,比仅量化的流水线快2.0倍。此外,它实现了平均61%的能耗降低,同时在语言和视觉模型上保持了与基线相当的准确性。

效率评估

图6. 在RK3588S2上,不同注意力实现在不同序列长度下的速度比较(头维度=128)。
图6. 在RK3588S2上,不同注意力实现在不同序列长度下的速度比较(头维度=128)。
图7. 在Apple M2上,不同注意力实现在不同序列长度下的速度比较(头维度=128)。
图7. 在Apple M2上,不同注意力实现在不同序列长度下的速度比较(头维度=128)。
图8. 不同精度设置下每次迭代的归一化能耗,以FP16为基准进行比较。
图8. 不同精度设置下每次迭代的归一化能耗,以FP16为基准进行比较。

准确性评估
* 语言任务:如表1所示,IntAttention在大多数模型和任务上优于Quantized-Only基线。在LLaMA和OPT上,其性能与基线持平或略有超出。对于对注意力量化更敏感的Qwen3,IntAttention也缩小了性能差距,并在WikiText上取得了明显的困惑度提升。
* 视觉任务:如表2所示,在ImageNet上,IntAttention在DeiT-B上略低于Quantized-Only但仍高于基线,而在ViT-L和CaiT上则表现出一致的增益。
* 结论:这些结果表明,使用UINT8概率矩阵P的全整数注意力能够有效地保持注意力权重,并通过PV阶段维持概率聚合的保真度。

表1. IntAttention与基线在多个语言任务基准上的端到端性能比较。
表1. IntAttention与基线在多个语言任务基准上的端到端性能比较。
表2. IntAttention与基线在多个视觉任务基准上的端到端性能比较。
表2. IntAttention与基线在多个视觉任务基准上的端到端性能比较。

消融研究
* 超参数敏感性:如图9所示,IntAttention的两个超参数——裁剪阈值c和LUT分辨率b——具有很强的鲁棒性。实验表明,当$b \ge 4$且$c \in [5.5, 7.7]$时,模型性能稳定。在$c \approx 6.6$附近存在一个跨模态的一致性能高峰。因此,论文推荐并固定使用$(b, c) = (5, 6.6)$,其中$b=5$对应一个32项的UINT8 LUT(约32字节),内存和运行时开销可忽略不计。

图9. IntAttention对LUT分辨率b和裁剪阈值c的超参数敏感性。红色表示显著的性能下降(>1 PPL或>0.3% Top-1),而绿色表示高保真度区域。
图9. IntAttention对LUT分辨率b和裁剪阈值c的超参数敏感性。红色表示显著的性能下降(>1 PPL或>0.3% Top-1),而绿色表示高保真度区域。
表3. 不同softmax实现的消融研究。在语言基准上比较IndexSoftmax和EXAQ变体(INT2/INT3)。
表3. 不同softmax实现的消融研究。在语言基准上比较IndexSoftmax和EXAQ变体(INT2/INT3)。
表4. 不同softmax实现的消融研究。在视觉基准上比较IndexSoftmax和EXAQ变体(INT2/INT3)。
表4. 不同softmax实现的消融研究。在视觉基准上比较IndexSoftmax和EXAQ变体(INT2/INT3)。
表5. 两种注意力概率矩阵P的量化格式的准确性比较,以FP16基线为评估标准。
表5. 两种注意力概率矩阵P的量化格式的准确性比较,以FP16基线为评估标准。

讨论
* 准确性角度:IntAttention的剩余精度差距主要源于Q, K, V的量化,而非Softmax本身。该方法与输入平滑、逐块量化等技术是正交的,结合使用有望进一步提升精度。
* 效率角度:IntAttention将瓶颈转回GEMM,为未来的优化指明了方向,即开发更强的GEMM核和利用硬件支持的低比特实现。

A5 结论

本文提出了IntAttention,一个全整数且即插即用的注意力流水线,它消除了量化注意力中成本高昂的“反量化→Softmax→重新量化”路径。通过引入IndexSoftmax——一个带有整数归一化的、基于查找表的整数Softmax替代品,IntAttention实现了端到端的注意力全整数域执行。在Armv8边缘处理器上的实验表明,该方法可实现高达3.7倍的延迟降低和61%的能耗减少,同时保持与基线相当的准确性。这些结果证明,实现高效可部署的Transformer边缘推理,关键不仅在于整数矩阵乘法,还在于原生的整数注意力机制。