MiniMax-01: Scaling Foundation Models with Lightning Attention

作者/机构: MiniMax1

A1 主要贡献

本文旨在构建一个性能媲美顶尖商业模型,同时上下文窗口长度大一个数量级的模型。这一目标需要在网络架构、数据和计算之间进行仔细权衡。

核心问题与研究目标:
现有的大语言模型(LLMs)和视觉语言模型(VLMs)虽然在多种任务上表现出色,但其上下文窗口通常在32K到256K token之间,这在处理专业书籍、整个编程项目或利用多示例进行上下文学习等实际需求中常常捉襟见肘。这一限制源于Transformer架构固有的二次计算复杂度,即上下文长度的增加会导致计算需求远超硬件能力的增长。研究目标是解决这一挑战,构建一个能在保持顶尖性能的同时,支持百万级甚至更长上下文窗口的模型。

创新点与主要贡献:
1. 构建了性能顶尖且支持超长上下文的模型:构建了MiniMax-Text-01和MiniMax-VL-01模型,它们在标准学术基准测试中与顶尖闭源模型(如GPT-4o和Claude-3.5-Sonnet)表现相当,同时支持高达400万token的上下文输入,并在长上下文评估中表现出色。
2. 首次成功大规模实现线性注意力:虽然线性注意力已有研究,但从未在此规模上部署。本文展示了将线性注意力(特别是Lightning Attention)与专家混合(MoE)架构成功结合,并扩展到数百亿参数规模。论文提供了全面的算法设计和工程优化细节。
3. 提供了探索模型、数据集、评估和算法的实用方法:概述了探索各种模型、数据集、评估和算法的实用方法和实验方法论,可为领域研究者提供有价值的参考。
4. 公开发布模型权重和API:公开发布了MiniMax-01的模型权重,并提供具有成本效益的API,旨在帮助社区开发超越当前限制的模型。

A2 方法细节

2. 模型架构

本节介绍了网络架构的设计。为了在有限的资源内实现最佳性能并更好地处理更长的序列,我们采用了专家混合(MoE)方法,并尽可能多地使用线性注意力来替代标准Transformer中传统的softmax注意力。

整体架构:为了更直观地理解,我们在图3中展示了主要架构。我们的设计遵循Transformer风格的块,每个块包含一个通道混合器(注意力块)和一个特征混合器(MLP块)。我们使用了两种类型的通道混合器:闪电注意力(lightning attention)和softmax注意力。特征混合器是一个包含多个前馈网络(FFNs)的MoE。为了确保MoE块中的负载均衡,我们提出了一种受GShard【https://openreview.net/forum?id=qrwe7XHTmYb">Dmitry Lepikhin, HyoukJoong Lee, Yuanzhong Xu, et al. GShard: Scaling giant models with conditional computation and automatic sharding. In International Conference on Learning Representations, 2021.】启发的新型负载均衡策略,我们称之为全局路由器。该策略旨在维持训练的稳定性。此外,我们还集成了DeepNorm【https://ieeexplore.ieee.org/abstract/document/10041221">Hongyu Wang, Shuming Ma, Li Dong, et al. DeepNet: Scaling transformers to 1,000 layers. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2024a.】以增强整体性能。

图3 | MiniMax-Text-01的架构。
图3 | MiniMax-Text-01的架构。

最终模型规格:最终的MiniMax-Text-01架构以结构化模式集成了线性和softmax注意力机制。具体来说,每7个带有线性注意力的transnormer块【https://aclanthology.org/2022.emnlp-main.480/">Zhen Qin, Xiaodong Han, Weixuan Sun, et al. The devil in linear transformer. In Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing, pages 7025–7041, 2022a.】之后,会放置一个带有softmax注意力的transformer块,总共构成80层。每个注意力模块由64个头组成,每个头的维度为128。softmax注意力层采用分组查询注意力(GQA)【https://aclanthology.org/2023.emnlp-main.297/">Joshua Ainslie, James Lee-Thorp, Michiel de Jong, et al. GQA: Training generalized multi-query transformer models from multi-head checkpoints. In Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, pages 4895–4901, 2023.】,组大小为8。旋转位置嵌入(RoPE)【https://www.sciencedirect.com/science/article/pii/S092523122301548X">Jianlin Su, Murtadha Ahmed, Yu Lu, et al. Roformer: Enhanced transformer with rotary position embedding. Neurocomputing, 568:127063, 2024.】应用于一半的注意力头维度,基频设置为10,000。模型的隐藏层大小配置为6144,每层包含32个专家,采用top-2路由策略。每个专家内部的前馈网络隐藏维度为9216。总计,MiniMax-Text-01包含4560亿参数,其中每个处理的token会激活459亿参数。

后续内容概述:在接下来的部分,我们将深入探讨我们对模型架构的考虑,即不同注意力机制的整合、MoE与线性注意力的协同作用、超参数选择的理由,以及基于缩放定律确定模型大小的方法。

2.1. 专家混合(MoE)

MoE作为可扩展和高效的路径:与密集版本相比,MoE提供了一条增强可扩展性和效率的途径。通常,MoE是特征混合器层中前馈网络(FFN)的替代品【http://jmlr.org/papers/v23/21-0998.html">William Fedus, Barret Zoph, and Noam Shazeer. Switch transformers: Scaling to trillion parameter models with simple and efficient sparsity. Journal of Machine Learning Research, 23(120):1–39, 2022.】【https://openreview.net/forum?id=qrwe7XHTmYb">Dmitry Lepikhin, HyoukJoong Lee, Yuanzhong Xu, et al. GShard: Scaling giant models with conditional computation and automatic sharding. In International Conference on Learning Representations, 2021.】,它由多个FFN专家组成,每个token被路由到一个或多个这些专家。具体来说,对于输入token x​,其对应的输出隐藏状态h​计算如下:

其中,E是专家总数,W_g是门控的权重,FFN_i代表第i个专家,TopK(·)表示在所有E个专家中保留前k个得分,同时将其余得分设为-∞的操作。

采用token-drop策略:基于MoE的LLM训练可分为token-drop和dropless。我们采用token-drop策略来提高训练效率。通过这种方法,每个专家被分配一个容量限制,指定其可以处理的最大token数。一旦达到此容量,任何额外路由到该专家的token都将被丢弃。

MoE与密集模型的比较:为了评估MoE架构的有效性,我们进行了一项比较研究,对比了一个70亿参数的密集模型和一个总参数为240亿、激活参数为20亿的MoE模型。如图4所示,结果表明,在相同的计算预算下,MoE模型在各种基准测试中显著优于密集模型,包括HellaSwag【https://aclanthology.org/P19-1472/">Rowan Zellers, Ari Holtzman, Yonatan Bisk, et al. HellaSwag: Can a machine really finish your sentence? In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 4791–4800, 2019.】、WinoGrande【https://dl.acm.org/doi/10.1145/3477073">Keisuke Sakaguchi, Ronan Le Bras, Chandra Bhagavatula, and Yejin Choi. WinoGrande: An adversarial Winograd schema challenge at scale. Communications of the ACM, 64(9):99–106, 2021.】、Natural Questions【https://aclanthology.org/Q19-1026/">Tom Kwiatkowski, Jennimaria Palomaki, Olivia Redfield, et al. Natural questions: a benchmark for question answering research. Transactions of the Association for Computational Linguistics, 7:453–466, 2019.】、PIQA【https://ojs.aaai.org/index.php/AAAI/article/view/6242">Yonatan Bisk, Rowan Zellers, Jianfeng Gao, et al. PIQA: Reasoning about physical commonsense in natural language. In Proceedings of the AAAI conference on artificial intelligence, volume 34, pages 7432–7439, 2020.】和TriviaQA【https://aclanthology.org/P17-1147/">Mandar Joshi, Eunsol Choi, Daniel S Weld, and Luke Zettlemoyer. Triviaqa: A large scale distantly supervised challenge dataset for reading comprehension. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 1601–1611, 2017.】。在扩展到更大模型时,我们遇到了路由崩溃的挑战,这是由于指定分配的token分布过于集中所致。为了缓解此问题,我们在GShard【https://openreview.net/forum?id=qrwe7XHTmYb">Dmitry Lepikhin, HyoukJoong Lee, Yuanzhong Xu, et al. GShard: Scaling giant models with conditional computation and automatic sharding. In International Conference on Learning Representations, 2021.】辅助损失中加入了一个简单的全局路由策略,以实现更好的负载均衡。

图4 | Isoflop比较:MoE vs. Dense在各种基准上的表现。两个模型都在1万亿个token上进行训练。灰色虚线表示两种模型达到相同性能所需的计算差异。
图4 | Isoflop比较:MoE vs. Dense在各种基准上的表现。两个模型都在1万亿个token上进行训练。灰色虚线表示两种模型达到相同性能所需的计算差异。

辅助损失:为确保可微性,辅助损失定义为 $L_{\text{aux}} = \alpha_{\text{aux}} \cdot \frac{1}{N} \sum_{i=1}^{N} l_i \cdot p_i$,其中 $\alpha_{\text{aux}}$ 代表辅助损失的系数,$l_i$ 表示分配给第i个专家的token比例,$p_i$ 是专家i的平均路由概率。

全局路由器:GPU内存大小限制了LLM训练中的微批量大小,导致单个专家并行(EP)组内的token分布出现大幅波动。此外,不同EP组之间的token分布也各不相同,可能导致负载不均衡,即一个EP组中的专家可能过载,而另一个EP组中的专家则未被充分利用。为了解决这个问题,我们实现了一个跨EP组的全局token分发策略。具体来说,我们引入了一个额外的allgather通信步骤,在跨不同EP组分发token之前,同步每个专家等待处理的token数量。在相同的容量限制下,这种全局路由机制可以有效降低整体的token丢弃率,从而确保训练的稳定性。

2.2. 线性注意力

线性注意力的原理:线性注意力利用“右积核技巧”将二次计算复杂度转化为线性复杂度,如图5所示。以TransNormer【https://aclanthology.org/2022.emnlp-main.480/">Zhen Qin, Xiaodong Han, Weixuan Sun, et al. The devil in linear transformer. In Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing, pages 7025–7041, 2022a.】为例,NormAttention机制可以写成:

其中Q、K和V ∈ $\mathbb{R}^{N \times d}$ 分别是查询、键和值矩阵,N为序列长度,d为特征维度。该方程可以使用右矩阵乘法转换为其线性变体:

计算复杂度的优势:线性形式有助于以 $O(Nd^2)$ 的训练复杂度进行高效的循环预测。此外,线性注意力确保了 $O(d^2)$ 的恒定计算复杂度,与序列长度无关。这是通过循环更新项 $K^\top V$ 实现的,从而避免了重复计算整个注意力矩阵。相比之下,softmax注意力的推理复杂度为 $O(N^2d)$。

图5 | softmax注意力(左)和线性注意力(右)的计算示意图。输入长度为N,特征维度为d,且d ≪ N。同一框内的张量与计算相关。线性化公式使得时间和空间复杂度达到O(N)。
图5 | softmax注意力(左)和线性注意力(右)的计算示意图。输入长度为N,特征维度为d,且d ≪ N。同一框内的张量与计算相关。线性化公式使得时间和空间复杂度达到O(N)。

因果语言建模中的挑战:在处理因果语言建模任务时,右积的有效性受到影响,需要计算cumsum【https://proceedings.mlr.press/v162/hua22a.html">Weizhe Hua, Zihang Dai, Hanxiao Liu, and Quoc Le. Transformer quality in linear time. In International conference on machine learning, pages 9099–9117. PMLR, 2022.】。这一限制阻碍了高效并行计算的实现,这很可能解释了为什么尽管Brébisson等人【https://arxiv.org/abs/1609.05866">Alexandre de Brébisson and Pascal Vincent. A cheap linear attention mechanism with fast lookups and fixed-size representations. arXiv preprint arXiv:1609.05866, 2016.】九年前就提出了这个机制,但目前领先的开源LLM——包括LLaMA3【https://arxiv.org/abs/2407.21783">Abhimanyu Dubey, Abhinav Jauhri, Abhinav Pandey, et al. The Llama 3 herd of models. arXiv preprint arXiv:2407.21783, 2024.】、Qwen2.5【https://arxiv.org/abs/2412.15115">An Yang, Baosong Yang, Beichen Zhang, et al. Qwen2.5 technical report. arXiv preprint arXiv:2412.15115, 2024.】、DeepSeekV3【https://arxiv.org/abs/2412.19437">DeepSeek-AI. DeepSeek-V3 technical report, 2024.】和Mistral【https://arxiv.org/abs/2310.06825">Albert Q Jiang, Alexandre Sablayrolles, Arthur Mensch, et al. Mistral 7B. arXiv preprint arXiv:2310.06825, 2023.】——都未采用这种线性注意力机制。

2.2.1. 闪电注意力(Lightning Attention)

核心思想:闪电注意力【https://arxiv.org/abs/2401.04658">Zhen Qin, Weigao Sun, Dong Li, et al. Lightning attention-2: A free lunch for handling unlimited sequence lengths in large language models. arXiv preprint arXiv:2401.04658, 2024b.】【https://proceedings.mlr.press/v235/qin24e.html">Zhen Qin, Weigao Sun, Dong Li, et al. Various lengths, constant speed: Efficient language modeling with lightning attention. In International conference on machine learning, pages 41517–41535. PMLR, 2024c.】是TransNormer【https://aclanthology.org/2022.emnlp-main.480/">Zhen Qin, Xiaodong Han, Weixuan Sun, et al. The devil in linear transformer. In Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing, pages 7025–7041, 2022a.】的一种I/O感知的优化实现。这种方法识别出现有线性注意力机制计算效率的主要瓶颈:因果语言建模中固有的缓慢cumsum操作。为缓解此问题,闪电注意力提出了一种新颖的分块(tiling)技术,有效规避了cumsum操作。其关键创新在于将注意力计算策略性地划分为两个不同部分:块内(intra-block)和块间(inter-block)计算。块内操作采用左积注意力计算,而块间操作则利用右积。这种划分至关重要,因为块内部分可以显著减小尺寸,从而确保整体计算复杂度保持线性。

技术回顾:需要注意的是,闪电注意力最初由我们团队成员在Qin等人【https://proceedings.mlr.press/v235/qin24e.html">Zhen Qin, Weigao Sun, Dong Li, et al. Various lengths, constant speed: Efficient language modeling with lightning attention. In International conference on machine learning, pages 41517–41535. PMLR, 2024c.】的论文中提出,为了完整性,我们在此回顾一些核心过程,以阐明其在实践中如何实现理论上的线性复杂度。为了便于分析,我们在以下推导中有意省略了归一化、SiLU激活和门控机制的考虑。

前向传播推导:让我们从闪电注意力的前向传播开始。因果注意力计算中的左积定义为:

其中,如果 $i \ge j$,则 $M_{ij} = 1$,否则为0。右积操作可以用递归公式计算:

值得注意的是,虽然公式5具有线性计算复杂度,但它本质上是不可并行的。

分块技术实现:实现闪电注意力的基本概念是利用分块技术来计算注意力分数。具体来说,矩阵Q、K、V沿行维度被划分为两个不同的块:

展开公式4,我们得到以下表达式(注意 $kv_0 = 0$):

以块形式重写,我们得到:

递归划分与复杂度:如图所示,块内计算 $[(Q_1 K_1^\top) \odot M]V_1$ 可以使用左积,而块间计算 $Q_1 KV_0$ 可以使用右积。注意,块内部分可以进一步使用相同的策略进行划分:

为了计算第二个块,我们使用 $KV_1 = kv_1$,其计算方式为:

其中 $KV_0 = kv_0$。通过递归地应用上述将矩阵划分为多个块的策略,实际的计算复杂度可以降低到线性。闪电注意力的最终时间复杂度为 $O(Nd^2 + Ncd)$,其中c是块大小。算法1展示了闪电注意力前向传播的I/O感知实现。

算法1 闪电注意力前向传播

2.2.2. 闪电注意力的有效性

研究动机:尽管闪电注意力在小规模实验中表现出潜力和竞争力,但其在大规模设置下的扩展行为和下游任务能力仍未被探索。为了弥补这一差距,我们进行了一系列扩展实验,以评估闪电注意力机制与softmax注意力的可扩展性,同时验证其在广泛下游任务上的性能。值得注意的是,在实验中我们观察到闪电注意力的检索能力有限。这一发现启发我们探索一种混合方法(Hybrid-lightning),通过每隔八层用softmax注意力替换闪电注意力,以利用两者的优势来增强检索性能。

FLOPs计算方法:我们遵循Kaplan等人【https://arxiv.org/abs/2001.08361">Jared Kaplan, Sam McCandlish, Tom Henighan, et al. Scaling laws for neural language models. arXiv preprint arXiv:2001.08361, 2020.】建立的FLOPs计算方法。为了分析,我们定义了以下变量:$L$(层数),$d$(模型维度),$h$(注意力头数),$b$(批量大小)和$n$(序列长度)。模型参数和FLOPs的清单见表1。

表1 | 不同架构的模型参数和FLOPs比较。为计算缩放定律,排除了嵌入参数和其他次要项以提高与拟合结果的一致性。

2.2.2.1 实验设置

模型训练:我们对softmax(配备FlashAttention-2【https://openreview.net/forum?id=mZn2Xyh9Ec">Tri Dao. FlashAttention-2: Faster attention with better parallelism and work partitioning. In The Twelfth International Conference on Learning Representations, 2024.】)、闪电注意力和混合闪电注意力模型进行了不同规模的训练:7000万、1.6亿、4.1亿、10亿、30亿和70亿参数。每个模型都在一个包含高达3000亿token的数据集上进行训练,上下文长度为8192。我们的训练方法遵循Chinchilla【https://proceedings.neurips.cc/paper_files/paper/2022/hash/c8b7c2714c62375819777b801de5e305-Abstract-Conference.html">Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, et al. Training compute-optimal large language models. In Proceedings of the 36th International Conference on Neural Information Processing Systems, pages 30016–30030, 2022.】提出的方法,其中训练损失直接作为测试性能的指标。对于每个模型架构和训练序列长度,我们保持统一的全局批量大小为400万token。我们使用Adam优化器,学习率为3e-4,权重衰减为0.1。由于计算资源有限,所有实验均采用固定的学习率调度器。

评估基准:我们采用了一组多样化的评估基准,包括BoolQ【https://aclanthology.org/N19-1297/">Christopher Clark, Kenton Lee, Ming-Wei Chang, et al. BoolQ: Exploring the surprising difficulty of natural yes/no questions. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 2924–2936, 2019.】、PIQA【https://ojs.aaai.org/index.php/AAAI/article/view/6242">Yonatan Bisk, Rowan Zellers, Jianfeng Gao, et al. PIQA: Reasoning about physical commonsense in natural language. In Proceedings of the AAAI conference on artificial intelligence, volume 34, pages 7432–7439, 2020.】、SIQA【https://aclanthology.org/D19-1455/">Maarten Sap, Hannah Rashkin, Derek Chen, et al. Social IQa: Commonsense reasoning about social interactions. In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), pages 4463–4473, 2019.】、HellaSwag【https://aclanthology.org/P19-1472/">Rowan Zellers, Ari Holtzman, Yonatan Bisk, et al. HellaSwag: Can a machine really finish your sentence? In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 4791–4800, 2019.】、WinoGrande【https://dl.acm.org/doi/10.1145/3477073">Keisuke Sakaguchi, Ronan Le Bras, Chandra Bhagavatula, and Yejin Choi. WinoGrande: An adversarial Winograd schema challenge at scale. Communications of the ACM, 64(9):99–106, 2021.】、ARC(easy和challenge变体)【https://arxiv.org/abs/1803.05457">Peter Clark, Isaac Cowhey, Oren Etzioni, et al. Think you have solved question answering? try ARC, the AI2 reasoning challenge. arXiv preprint arXiv:1803.05457, 2018.】、OpenBookQA【https://aclanthology.org/D18-1260/">Todor Mihaylov, Peter Clark, Tushar Khot, and Ashish Sabharwal. Can a suit of armor conduct electricity? a new dataset for open book question answering. In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, pages 2381–2391, 2018.】、Needle in A Haystack (NIAH)【https://aclanthology.org/2024.emnlp-main.910/">Xuyang Shen, Dong Li, Ruitao Leng, et al. Scaling laws for linear complexity language models. In Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing, pages 16377–16426, 2024.】和SCROLLS【https://aclanthology.org/2022.emnlp-main.833/">Uri Shaham, Elad Segal, Maor Ivgi, et al. SCROLLS: Standardized comparison over long language sequences. In Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing, pages 12007–12021, 2022.】。每个基准评估模型的不同能力。

2.2.2.2 缩放定律

拟合方法:我们基于上述设置的实验拟合了缩放曲线,其中我们改变模型大小(N)和数据集大小(D)以适应不同的计算预算(C),并观察相应的训练损失(L),作为测试损失的估计量。我们首先根据Chinchilla的方法【https://proceedings.neurips.cc/paper_files/paper/2022/hash/c8b7c2714c62375819777b801de5e305-Abstract-Conference.html">Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, et al. Training compute-optimal large language models. In Proceedings of the 36th International Conference on Neural Information Processing Systems, pages 30016–30030, 2022.】建立L和C之间的幂律关系。使用拟合曲线,我们推导出最优模型大小 $N_{opt} \propto C^a$ 和最优数据集大小 $D_{opt} \propto C^b$ 的系数。原始的缩放定律【https://arxiv.org/abs/2001.08361">Jared Kaplan, Sam McCandlish, Tom Henighan, et al. Scaling laws for neural language models. arXiv preprint arXiv:2001.08361, 2020.】使用 $L(N) = (N_0/N)^{\alpha_N}$,而后续研究【https://proceedings.mlr.press/v162/clark22a.html">Aidan Clark, Diego de Las Casas, Aurelia Guy, et al. Unified scaling laws for routed language models. In International Conference on Machine Learning (ICML), pages 4057–4086. PMLR, 2022.】【https://arxiv.org/abs/2406.04093">Leo Gao, Tom Dupré la Tour, Henk Tillman, et al. Scaling and evaluating sparse autoencoders. arXiv preprint arXiv:2406.04093, 2024.】【https://arxiv.org/abs/2010.14701">Tom Henighan, Jared Kaplan, Mor Katz, et al. Scaling laws for autoregressive generative modeling. arXiv preprint arXiv:2010.14701, 2020.】【https://proceedings.neurips.cc/paper_files/paper/2022/hash/c8b7c2714c62375819777b801de5e305-Abstract-Conference.html">Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, et al. Training compute-optimal large language models. In Proceedings of the 36th International Conference on Neural Information Processing Systems, pages 30016–30030, 2022.】采用 $L(N) = E + (N_0/N)^{\alpha_N}$ 以获得更好的拟合,其中E表示不可约损失。为简化起见,我们将这些形式统一为 $L(N) = AN^{-\alpha_N}$,以便基于 $\alpha_N$ 和 $\alpha_D$ 直接比较缩放能力。

结论:缩放定律的总结如表2和图6所示。可以直观地理解,在相同的计算预算下,使用闪电注意力的模型倾向于使用更多的参数和token,但与纯softmax注意力的模型相比,它们实现了更低的损失。

表2 | 缩放定律总结:它显示了损失(L)、最优模型大小(Nopt)和最优数据集大小(Dopt)作为计算预算(C)的函数之间的关系。它揭示了,在相同的预算下,混合模型使用更多的参数和token,但实现了更低的损失。

图6 | 缩放定律总结。训练曲线(左)涵盖了从70M到7B参数的模型。最优模型大小(中)和训练token数(右)是基于指定的计算预算估计得出的。
图6 | 缩放定律总结。训练曲线(左)涵盖了从70M到7B参数的模型。最优模型大小(中)和训练token数(右)是基于指定的计算预算估计得出的。

2.2.2.3 下游任务性能

结果分析:我们在图7中展示了下游任务的基准测试结果。闪电注意力在大多数下游任务中表现出相当的性能,除了NIAH。这表明线性注意力具有与Transformer模型相似的语言建模能力,但在检索任务上表现不佳,因此不适用于LLM。然而,混合闪电注意力不仅匹配,甚至超越了softmax注意力的检索和外推能力,使其非常适合LLM中的上下文学习。

图7 | 更大的模型和混合闪电注意力在各项基准测试中取得了最佳性能。性能评估在CSR(常识推理)、NIAH(大海捞针)和SCROLLS基准测试上进行,使用了三种从410M到7B参数的注意力机制模型。
图7 | 更大的模型和混合闪电注意力在各项基准测试中取得了最佳性能。性能评估在CSR(常识推理)、NIAH(大海捞针)和SCROLLS基准测试上进行,使用了三种从410M到7B参数的注意力机制模型。

2.2.2.4 速度

测试设置与结果:我们通过测量每GPU每秒处理的token数(TGS)来评估30亿参数的softmax注意力、闪电注意力和混合闪电模型的端到端训练速度。为完整起见,我们还评估了流行的线性模型,如HGRN2和Mamba2。对于速度基准测试,训练上下文长度逐渐增加,直到在单节点H800 GPU上达到内存不足的限制。如图8所示,闪电注意力实现了与序列长度无关的恒定训练速度,并且是唯一一个性能超过FlashAttention2的线性模型。

图8 | 在1,024到65,536的序列长度范围内,对包括softmax、闪电、混合闪电、HGRN2和Mamba2在内的各种注意力机制的训练速度进行了基准测试。性能以训练速度衡量,报告为每GPU每秒处理的token数(TGS)。
图8 | 在1,024到65,536的序列长度范围内,对包括softmax、闪电、混合闪电、HGRN2和Mamba2在内的各种注意力机制的训练速度进行了基准测试。性能以训练速度衡量,报告为每GPU每秒处理的token数(TGS)。

2.2.3. 混合架构

混合模型变体对比:我们对混合架构的初步实验取得了有希望的结果,这激励我们通过两个变体——hybrid-cosformer2和hybrid-hgrn2——来更深入地挖掘其潜力。在hybrid-cosformer2模型中,我们将cosformer2架构中的线性注意力层每隔八层替换为softmax注意力层。这一替换策略同样应用于hybrid-hgrn2模型。我们使用一致的设置进行实验,以评估这些替代方案的下游性能。我们的发现如表3所示,表明混合闪电模型取得了最佳性能。

表3 | 10亿参数的各种混合线性模型的基准测试。我们展示了CSR的平均得分,NIAH的加权平均准确率,以及SCROLLS的平均得分。所有任务中得分越高表示性能越好。缩写:TGS(每GPU每秒token数),HS(HellaSwag),WG(WinoGrande),OBQA(OpenBookQA),NIAH和SCR(SCROLLS)。

与滑动窗口注意力对比:除了线性模型,滑动窗口注意力(SWA)也可以通过适当调整窗口大小来实现线性计算复杂度。由于它基于softmax注意力,因此是评估线性架构的强大基准。因此,我们引入了混合窗口方法,即每八层用完整的softmax注意力替换滑动窗口注意力。我们评估了SWA的各种窗口大小,从256到1024。我们的结果表明,与混合闪电模型相比,更大的窗口大小导致训练速度更慢。为了在等效速度条件下比较这些模型,我们没有考虑大于1024的窗口大小。如表4所示,混合闪电模型在所有指标上均优于其他所有模型,尤其是在NIAH基准测试中表现出色。

表4 | 混合闪电模型与混合窗口模型的基准比较。指标包括CSR平均得分、加权NIAH准确率和SCROLLS平均得分。所有任务中得分越高表示性能越好。缩写:PS(参数大小,十亿),W.S.(SWA的窗口大小),HS(HellaSwag),WG(WinoGrande),OBQA(OpenBookQA),NIAH,SCR(SCROLLS),TGS(每GPU每秒token数)。

2.2.4. 讨论

实验结论:根据我们对缩放定律实验、下游性能和速度比较的分析,我们得出结论,虽然纯线性注意力模型计算效率高,但它们不适用于LLM。这是因为它们固有的无法执行检索的能力,而这种能力对于上下文学习至关重要。相比之下,我们的混合模型在检索和外推任务上不仅匹配,甚至超越了softmax注意力。

理论解释:这个结果有些反直觉。为了理解这一现象,考虑以下对softmax注意力的解释:

它可以被重写为线性循环形式:

注意,闪电注意力的线性循环形式如下:

容量对比分析:softmax注意力机制可以解释为一种线性RNN【https://arxiv.org/abs/2405.21022">Zhen Qin, Yuxin Mao, Xuyang Shen, et al. You only scan once: Efficient multi-dimension sequential modeling with lightnet. arXiv preprint arXiv:2405.21022, 2024a.】。在每个时间步i,隐藏状态都从初始时间 $i_0 = 1$ 开始重新计算,这个过程通常被描述为“通读一本书”。这种方法通过系统地重新访问先前的数据,使模型能够准确地保留输入信息。相比之下,线性模型缺乏这种重新计算过程,这妨碍了它们有效保留输入数据的能力。让我们将RNN的容量定义为其循环状态的大小。通过仔细检查公式11,我们可以推断出softmax注意力的容量是 $O(N)$。相反,如公式12所示,闪电注意力的容量是 $O(d^2/h)$。鉴于 $d > h$,可以得出闪电注意力的容量大于softmax注意力。因此,混合闪电模型比仅依赖softmax注意力的模型表现出更优越的检索和外推能力。

2.3. MoE中的模块消融实验

实验动机:基于前几节的结论,我们进行了另外两组消融实验,以在更大规模上验证MoE架构内的模块选择:(1)混合闪电注意力与softmax注意力:验证混合闪电注意力在MoE中的优势。(2)Pre-Layer Normalization与Post-Layer Normalization:在我们的混合架构中,模型的有效深度起着重要作用。因此,我们希望为深度模型找到更好的归一化算法。

混合闪电注意力 vs. Softmax注意力:我们在MoE架构内对softmax注意力和混合闪电注意力进行了小规模的比较分析。具体来说,我们使用一个280亿参数的MoE模型作为基础模型,该模型有50亿激活参数并使用softmax注意力。在基础模型中,我们系统地将每8个连续层中的前7层softmax注意力替换为闪电注意力。基础模型和修改后的模型都在1万亿个token上进行训练。如表5所示,结果显示用闪电注意力替换某些softmax注意力层可以提高大多数基准测试的准确性。

Pre-Layer Normalization vs. Post-Layer Normalization:Pre-Layer Normalization (PreNorm)【https://arxiv.org/abs/1809.10853">Alexei Baevski and Michael Auli. Adaptive input representations for neural language modeling. arXiv preprint arXiv:1809.10853, 2018.】【https://arxiv.org/abs/1904.10509">Rewon Child, Scott Gray, Alec Radford, and Ilya Sutskever. Generating long sequences with sparse transformers. arXiv preprint arXiv:1904.10509, 2019.】【https://aclanthology.org/P19-1176/">Qiang Wang, Bei Li, Tong Xiao, et al. Learning deep transformer models for machine translation. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 1810–1822, 2019.】在残差连接和注意力机制之前应用归一化层,已证明在LLM中能增强稳定性和性能。由于PreNorm允许梯度通过残差连接更直接地从输出流向输入,在一定程度上绕过了子层,从而降低了模型的有效深度。相比之下,Post-Layer Normalization (PostNorm)【https://aclanthology.org/P19-1176/">Qiang Wang, Bei Li, Tong Xiao, et al. Learning deep transformer models for machine translation. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 1810–1822, 2019.】在残差连接和注意力机制之后应用归一化,从而保留了模型的有效深度。然而,PostNorm容易出现梯度消失和爆炸问题,给LLM的训练带来了巨大挑战。大多数现有的LLM主要使用PreNorm,因为在传统Transformer架构中,更宽和更深网络之间的性能差异通常可以忽略不计,而训练稳定性是优先考虑的。

实验设置与结果:实验在具有93亿激活参数和总计600亿参数的模型上进行,每个模型包含48层,采用不同的归一化方法。两个模型都在5000亿个token上进行训练。对于PostNorm,我们利用DeepNorm【https://ieeexplore.ieee.org/abstract/document/10041221">Hongyu Wang, Shuming Ma, Li Dong, et al. DeepNet: Scaling transformers to 1,000 layers. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2024a.】来确保更稳定的训练。如表5所示,PostNorm在所有评估指标上都一致优于PreNorm。

表5 | 模块消融实验。缩写:BBH (BIG-Bench Hard), DROP (Discrete Reasoning Over Paragraphs), MMLU (Massive Multitask Language Understanding), CMMLU (Massive Multitask Language Understanding in Chinese), GSM8k (Grade School Math 8K), ARC-C (Arc-Challenge), WG (WinoGrande)。

2.4. 模型规格

设计目标:在确定了模型模块的架构后,下一步是扩展模型,这需要对模型的超参数进行多维度的精心设计。我们的主要目标是在性能和推理效率之间取得平衡。单设备推理通过消除跨机器通信开销,比多设备实现具有更高的效率。因此,我们将模型的总参数限制在5000亿以内,以确保在8位量化下,使用8×80G配置的单节点推理能兼容长达100万token的序列。

优化问题:鉴于我们有限的训练预算,我们制定了以下优化问题来确定最佳参数分配:
$\min_{N_{all}, N_{act}, D} L \quad \text{s.t.} \quad C_{\text{compute}}(N_{all}, N_{act}, D) \le B$
其中L表示损失,$N_{all}$ 和 $N_{act}$ 分别表示总参数量和激活参数量,D是训练token的数量,$C_{compute}$ 表示计算成本(取决于参数量和数据消耗量),B表示预算约束。

小规模实验发现:通过对小规模模型的比较实验,我们首先确定了几个关键变量的最佳范围:(1)softmax和线性注意力机制的混合比例;(2)模型架构的深度与宽度之比;(3)线性注意力内存大小与隐藏层大小之比;(4)激活的FFN与注意力的比例;(5)softmax注意力使用RoPE的维度比例。我们的实验表明,混合架构对层深度特别敏感,更深的模型始终优于更浅的模型。值得注意的是,浅层模型需要更多的softmax注意力层才能达到相当的性能,这突显了更深架构的效率优势。我们还观察到,增加线性注意力的内存大小能显著提升模型性能,并且在softmax注意力的一半维度上实现RoPE可以在不降低性能的情况下实现长度外推。

模型尺寸确定:基于这些优化的架构变量,我们采用已建立的缩放定律【https://proceedings.mlr.press/v162/clark22a.html">Aidan Clark, Diego de Las Casas, Aurelia Guy, et al. Unified scaling laws for routed language models. In International Conference on Machine Learning (ICML), pages 4057–4086. PMLR, 2022.】【https://proceedings.neurips.cc/paper_files/paper/2022/hash/c8b7c2714c62375819777b801de5e305-Abstract-Conference.html">Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, et al. Training compute-optimal large language models. In Proceedings of the 36th International Conference on Neural Information Processing Systems, pages 30016–30030, 2022.】来确定最佳模型大小。我们在5000亿个token上训练了激活参数从4400万到12亿不等的模型,使用了16、32和64个专家。然而,我们发现当外推到更大的93亿参数模型时,这些方法的预测变得不太可靠。

新预测公式:为了解决这个限制并获得更准确的预测,我们提出了以下公式:

其中 $L(N_{\text{act}}, D | E)$ 表示以专家数量为条件的损失,而A、B、$\alpha$、$\beta$、$N_0$、$D_0$和E是与专家数量相关的待拟合参数。

最终配置:基于公式13和14的预测,我们确定了一个拥有459亿激活参数和4560亿总参数的候选模型为最佳配置。

3. 计算优化

本节介绍了我们的计算部分,包括训练和推理。在这个项目中,我们有一个动态变化的GPU集群,其中H800 GPU的数量从1500到2500不等。一个高效的架构需要强大的实现优化,才能在规模上充分利用其计算优势。为了将我们的新颖架构扩展到所需的大小,我们提出了三个关键的优化策略,主要解决以下三个挑战:

  1. MoE通信开销:在专家混合(MoE)架构的训练过程中,减轻all-to-all(a2a)通信开销是一个持续的挑战。我们为专家选择的配置,特别是选择大型模型,对GPU内存提出了很高的要求。因此,主要挑战在于在内存利用率、计算效率和all-to-all通信开销之间实现最佳平衡。
  2. 长上下文token分布:当我们努力在训练和推理中支持至少100万token的上下文窗口时,在这个庞大的模型中,准确地将如此广泛的上下文窗口内的token分布到不同的GPU上变得至关重要。然而,这种必要性不可避免地引入了额外的通信开销。因此,设计策略以最小化这种开销,特别是在我们的混合架构背景下,是一个重大挑战。
  3. 闪电注意力推理优化:目前闪电注意力机制的实现主要是为训练过程优化的。然而,在推理场景中,挑战在于有效管理真实世界的批处理输入,这些输入可能包含可变序列长度和包含前缀缓存的特定输入。

值得注意的是,业界现有的开源框架目前缺乏必要成熟的技术支持来充分应对这些挑战。因此,我们独立并全面地重构了我们的分布式训练和推理框架,从而成功地以所需的效率水平解决了这些挑战。

3.1. MoE优化

初始重叠方案:优化MoE架构的主要目标是最小化通信开销,特别是对于使用all-to-all(a2a)通信的MoE模型。为了解决这个问题,我们实现了一个基于token分组的重叠方案,如图9所示。在该方案中,a2a通信在专家并行(EP)通信组内执行,并与来自不同专家组的token处理重叠。为确保通信结果的正确性,我们限制每个ProcessGroup顺序执行通信操作。因此,不同组之间的a2a通信无法重叠,导致出现空闲时间。

图9 | 专家并行(EP)重叠示意图。将token分块为2组,因此计算可以与不同组之间的通信重叠。
图9 | 专家并行(EP)重叠示意图。将token分块为2组,因此计算可以与不同组之间的通信重叠。

TP与PP的权衡:这种方法带来了显著的性能提升。然而,经过更详细的分析,我们发现了一个特定于MiniMax-Text-01模型专家配置的关键权衡。当使用张量并行(TP)来划分专家参数时,计算强度变得过低,从而妨碍了计算效率。然而,选择不使用TP会导致参数量过大,这需要激活一个更大的流水线并行(PP)配置。挑战在于PP不会减少存储激活所需的内存占用。这个限制对于训练长上下文模型尤其不利,因为内存消耗的增加并未带来计算效率或训练速度上的相应好处。因此,必须开发一种新的参数划分策略,以巧妙地平衡内存使用和计算强度,从而优化我们特定模型和任务的训练过程。

新的并行策略:为了实现更高的效率,我们首先引入了一个名为ETP(Expert Tensor Parallel)的新颖ProcessGroup,专门用于管理专家的权重划分。同时,我们提出了另一个名为EDP(Expert Data Parallel)的独立ProcessGroup,用于封装相同专家的数据并行性。在我们的系统中,我们将参与训练的GPU总数定义为 $N_{global\_gpus}$。系统必须满足两个关键条件:
$N_{global\_gpus} = N_{pp} \times N_{dp} \times N_{tp} \times N_{cp}$

$N_{ep} = N_{edp} \times N_{etp}$
这个配置使得MoE组件能够灵活地定义专家的分布,管理专家的权重划分,并独立配置ZeRO(Zero Redundancy Optimizer)算法【https://dl.acm.org/doi/10.5555/3433701.3433727">Samyam Rajbhandari, Jeff Rasley, Olatunji Ruwase, and Yuxiong He. Zero: Memory optimizations toward training trillion parameter models. In SC20: International Conference for High Performance Computing, Networking, Storage and Analysis, pages 1–16. IEEE, 2020.】。基于这个实现,我们能够将MoE组件的并行策略与非MoE组件的并行策略完全解耦。

EP-ETP重叠策略:基于此修改,我们可以灵活配置ETP,以实现内存使用和计算强度之间的最佳平衡。此外,为了减轻通信开hundred,我们设计了一个EP-ETP重叠策略。该策略旨在最大化网络资源和计算资源的利用率,如图10(a)所示。由于同一进程组内的通信必须顺序执行,较长的计算时间不仅有助于与更多的通信重叠,还为不同进程组之间的通信创造了额外的重叠机会,从而提高了整体性能,如图10(b)所示。

分组数量的权衡:在确定分组数量时,必须考虑几个权衡。理论上,只有将工作负载划分为足够多的组,我们才能实现通信和计算之间的充分重叠,如图10(c)所示。然而,在实践中,过多的组会显著增加调度的复杂性,并引入成为CPU瓶颈的风险。鉴于ETP在整个MoE架构中所占比例不大,根据具体情况和需求进行调整至关重要。

图10 | EP-ETP重叠示意图。(a) EP-ETP与计算量较低部分的重叠。(b) EP-ETP与计算量较高部分的重叠。(c) EP-ETP与较少分组的重叠。与(a)和(b)相比,它表明如果计算时间成本更长,效率会更好。与(b)和(c)相比,它表明较少的分组会导致重叠不足。
图10 | EP-ETP重叠示意图。(a) EP-ETP与计算量较低部分的重叠。(b) EP-ETP与计算量较高部分的重叠。(c) EP-ETP与较少分组的重叠。与(a)和(b)相比,它表明如果计算时间成本更长,效率会更好。与(b)和(c)相比,它表明较少的分组会导致重叠不足。

优化结果:通过上述优化策略,我们为MiniMax-Text-01模型中MoE结构的特定专家规格实现了存储和计算强度的均衡配置。此外,基于这些优化,我们将MoE组件的纯通信开销与优化前相比减少了50%,从而显著提高了训练效率。

3.2. 长上下文优化

数据打包技术:长上下文训练中的一个重大挑战是,真实的训练样本很难标准化为统一的长度。使用填充使样本长度相同的传统方法会导致大量的计算浪费。在1M序列长度规模的训练中,这种浪费变得尤为显著。为了解决这个问题,我们在训练期间采用了一种数据格式化技术,即沿着序列维度将不同的样本端到端地连接起来。我们将这种技术称为“数据打包”(data-packing)。这种格式最大限度地减少了计算过程中的计算浪费,从而节约了计算资源。

3.2.1. Varlen环形注意力

现有方法的局限性:对于Softmax注意力,环形注意力算法【https://openreview.net/forum?id=WsRHpHH4s0">Hao Liu, Matei Zaharia, and Pieter Abbeel. Ring attention with blockwise transformers for near-infinite context. In The Twelfth International Conference on Learning Representations, 2024a.】提供了一种有效的数据分区方法,从而实现了无限的可扩展性。然而,现有的实现并未优化以高效处理数据打包格式的环形注意力机制。对于FlashAttention【https://openreview.net/forum?id=mZn2Xyh9Ec">Tri Dao. FlashAttention-2: Faster attention with better parallelism and work partitioning. In The Twelfth International Conference on Learning Representations, 2024.】,虽然它提供了varlen(可变长度)接口来适应数据打包格式,但没有相应的环形注意力实现。对于TransformerEngine【https://github.com/NVIDIA/TransformerEngine">NVIDIA. Transformer engine, 2023.】,其实现包含一个Context Parallel(CP)ProcessGroup来支持环形注意力算法。然而,这种方法在处理数据打包格式时存在计算资源浪费的风险。这是因为该算法将每个序列划分为 $2 \times N_{cp}$ 个段,并对每个段应用环形注意力机制。因此,这种方法限制了每个序列的长度必须是 $2 \times N_{cp}$ 的整数倍。在样本分布未知且CP大小设置得很大的情况下,这可能导致大量的填充,从而浪费计算资源。

图11 | 环形注意力 vs. Varlen环形注意力。(a) 环形注意力中没有数据打包。(b) 在Varlen环形注意力中打包3个不同长度的样本。
图11 | 环形注意力 vs. Varlen环形注意力。(a) 环形注意力中没有数据打包。(b) 在Varlen环形注意力中打包3个不同长度的样本。

Varlen环形注意力算法:受不假设样本分布原则的启发,我们重新设计了算法,并将其命名为Varlen环形注意力。这种方法通过在数据打包后直接对整个序列应用环形注意力算法,避免了传统方法相关的过度填充和随之而来的计算浪费。具体来说,实现涉及在环形注意力计算中区分每个序列对应的注意力掩码的偏移量。关键的修改是将原始的因果计算转换为varlen因果计算,并类似地将非因果计算转换为varlen非因果计算,如图11所示。

3.2.2. 改进的线性注意力序列并行

LASP算法的局限性:对于闪电注意力,LASP(线性注意力序列并行)算法【https://arxiv.org/abs/2404.02882">Weigao Sun, Zhen Qin, Dong Li, et al. Linear attention sequence parallelism. arXiv preprint arXiv:2404.02882, 2024.】利用CP的通信组来促进长序列的扩展。如图12(a)所示,LASP算法要求所有CP rank都参与send-recv操作来交换中间的键值(KV)块结果。这一要求在CP rank之间施加了顺序依赖,从而迫使计算以串行方式执行。因此,这种顺序依赖显著阻碍了训练过程的整体效率,因为系统的固有并行性没有得到充分利用。

LASP+算法的优化:为了充分利用GPU设备的并行计算能力,我们提出了一种优化的方法,通过改进计算和通信工作流来消除计算过程中的依赖关系。这种优化有效地将串行计算转化为并行计算。这种增强的方法,称为LASP+(图12(b)),其操作如下:
1. 局部前缀和计算:每个计算节点,即CP rank,通过独立计算其局部前缀和(表示为$KV_{local}$)来启动该过程。
2. 通过AllGather进行全局同步:在局部计算之后,执行AllGather操作以全局同步所有节点的信息。此步骤确保每个节点都能访问所有其他节点的必要数据。
3. 前缀和计算:每个节点根据其分配的计算顺序,选择特定的CP rank的$KV_{local}$来执行前缀和计算。

图12 | LASP算法与LASP+算法的区别。(a) LASP算法。1. 初始化阶段:将KV初始化为零和对角衰减矩阵。2. 数据分区和填充:沿序列维度将Q、K、V矩阵划分为CP大小(图中示例为4个段)的块,根据BlockSize B将每个块划分为更小的块,并填充不能被B整除的剩余部分(例如Q7, K7, V7)。3. 块内计算:并行执行每个CP rank的块内计算。4. 块间计算和通信:从CP rank 0开始,用所有先前的KV块和前缀和$KV_{prefix}$计算当前KV的块间部分。不同的CP rank通过send-recv操作进行数据通信。(b) LASP+算法。在图(a)的基础上,每个CP rank计算局部前缀和$KV_{local}$并执行AllGather操作进行同步,然后选择局部前缀和$KV_{local}$来计算全局前缀和$KV_{global}$。其余计算部分与(a)相同。
图12 | LASP算法与LASP+算法的区别。(a) LASP算法。1. 初始化阶段:将KV初始化为零和对角衰减矩阵。2. 数据分区和填充:沿序列维度将Q、K、V矩阵划分为CP大小(图中示例为4个段)的块,根据BlockSize B将每个块划分为更小的块,并填充不能被B整除的剩余部分(例如Q7, K7, V7)。3. 块内计算:并行执行每个CP rank的块内计算。4. 块间计算和通信:从CP rank 0开始,用所有先前的KV块和前缀和$KV_{prefix}$计算当前KV的块间部分。不同的CP rank通过send-recv操作进行数据通信。(b) LASP+算法。在图(a)的基础上,每个CP rank计算局部前缀和$KV_{local}$并执行AllGather操作进行同步,然后选择局部前缀和$KV_{local}$来计算全局前缀和$KV_{global}$。其余计算部分与(a)相同。

性能与成本:通过实施这些步骤,LASP+方法有效地消除了计算节点之间的原始依赖关系。这种依赖关系的消除促进了完全并行的计算过程,从而显著提高了系统的整体效率和吞吐量。从串行到并行的转换不仅充分利用了GPU设备的潜力,还确保了训练过程可以更快、更具可扩展性地执行。所提出的修改虽然在增加总通信量和临时内存使用方面产生了额外成本,但它们带来的显著性能优势明确证明了这些修改的合理性。这些增强效果显著超过了相关的通信和内存消耗开销。通过全面的测试和验证,经验证明LASP+方法中的计算速度可以达到原始LASP算法的 $1/N_{cp}$,其中$N_{cp}$表示并行计算节点的数量。此外,AllGather操作引入的开销很小,这与我们的预期一致,并突显了优化的有效性。

Varlen特性支持:在LASP+框架的基础上,我们进一步引入了对varlen特性的支持,以有效管理数据打包的数据结构。这种增强对于处理包含不等长度输入的批处理样本特别有益。该过程包括以下步骤:1)填充到块大小:批处理中的每个输入都被填充,以确保其长度是预定义块大小(设置为256)的倍数。此填充步骤对于将数据结构与内核的计算要求对齐至关重要。2)顺序连接:填充后,输入按顺序连接。这种连接有助于使用单个内核在多个批次上执行并行计算。通过以这种方式组织数据,我们可以有效地利用GPU的并行处理能力,从而优化计算性能。将varlen特性与LASP+框架集成,确保系统可以在不牺牲效率的情况下处理不同的输入长度。这种方法不仅简化了计算工作流程,还通过同时处理多个批次来最大化资源利用。

3.3. 闪电注意力推理优化

优化动机:闪电注意力机制的初始实现主要是面向研究的,尚未适用于实际应用,特别是推理。然而,推理过程的优化在现实世界场景中至关重要,因为部署一个训练好的模型的长期成本主要由其推理效率决定。为此,我们为闪电注意力实现了四种优化策略:批处理内核融合、分离的prefill和decoding执行、多级填充以及扩展的跨步批处理矩阵乘法。

3.3.1. 批处理内核融合

内核融合细节:我们将多个内存密集型内核融合,并扩展支持以适应所有批处理输入。在prefill阶段,我们对处理Q、K、V张量的操作进行内核融合,包括序列维度的填充、分块、调整内部布局和计算衰减值。在decoding阶段,我们对KV的计算和前缀KV缓存的更新进行内核融合。

优化效果:这些内核融合减少了中间结果的存储和内存访问操作,从而显著提高了内存访问效率,并在decoding阶段和短文本输入场景中将端到端延迟降低了10%。顺便说一句,这些优化在H20上比在H800上能带来非常显著的好处。

3.3.2. 分离的Prefill和Decoding执行

问题分析:闪电注意力机制用于长序列计算的实现主要围绕块内和块间计算的区分。然而,这种方法对于推理任务并非最优,特别是在decoding阶段,token长度始终等于1。

优化策略:鉴于长度为1的token的计算内核主要是内存密集型的,并且只需要有限数量的GPU流多处理器(SM),我们提出了一种策略,将长度为1的token的处理与长度大于1的token的处理分离开来。这是通过使用两个不同的内核来实现的。随后,我们利用两个独立的CUDA流来并行调度这些内核,从而提高计算效率并确保GPU利用率的平衡,尤其是在涉及混合输入的场景中。

效果示例:例如,在一个批大小为20的场景中,所有输入都包含前缀键值(KV)缓存,并且场景中有一两个输入的token长度为50,而其余输入的token长度为1,这种方法可以显著减少延迟。具体来说,延迟可以大约等于仅处理较长输入的延迟,从100毫秒减少到50毫秒。

3.3.3. 多级填充

方法描述:通过沿序列维度对Q、K、V张量进行填充,块内和块间组件可以有效地分解为多个相同的矩阵乘法。这种分解特别有利,因为它与StrideBatchedMatmul接口无缝对齐,从而有助于最大化并行处理能力。

问题与改进:最初,填充的块大小设置为256,这与训练参数一致。然而,在实现前缀缓存技术后,我们观察到批处理中的token长度通常低于256。这种差异导致每个矩阵乘法操作中出现冗余计算。为了解决这种低效问题并最小化不必要的计算,我们建议引入额外的分段选项,特别是32、64和128。

效果:这种多级填充方法能够根据当前输入序列长度,动态选择产生最小填充开销的计算规模。通过采用这种方法,计算资源的利用得到了优化,确保系统以更高的效率和更少的冗余运行。这种策略性调整不仅节约了计算资源,还有助于整体性能的提升。

3.3.4. 扩展的StridedBatchedMatmul

当前实现与未来目标:我们利用NVIDIA cuBLAS库中的优化函数cublasGemmStridedBatchedEx来管理StridedBatchedMatmul操作,从而确保在不同硬件架构上的高性能和通用性。同时,我们正在实现一个更广泛的内核融合策略,目标是大幅提高Hopper GPU的计算效率。

技术细节:鉴于我们的序列分区块大小配置为256,相关的通用矩阵乘法(GEMM)操作(涉及256x256维度的矩阵)可以利用warp-group级别的WGMMA指令进行计算。为了进一步提高内存访问效率,我们集成了张量内存加速器(TMA)的异步操作,并将某些预处理和后处理计算任务委托给CUDA Cores异步执行。

最终目标:我们的目标是动态调节流水线阶段的数量,以在H20和H800 GPU架构上自适应地获得最佳性能。这种自适应控制机制将确保系统能够高效处理不同的工作负载和硬件配置,从而最大化整体计算吞吐量和资源利用。

总体推理性能:通过实施上述优化,我们在H20 GPU上实现了端到端推理任务超过75%的模型FLOPs利用率(MFU)【http://jmlr.org/papers/v24/22-1144.html">Aakanksha Chowdhery, Sharan Narang, Jacob Devlin, et al. PaLM: Scaling language modeling with pathways. Journal of Machine Learning Research, 24(240):1–113, 2023.】。具体来说,在我们的MiniMax-Text-01和MiniMax-VL-01推理中,当考虑MoE结构中注意力操作和前馈网络(FFN)操作之间的延迟比时,在序列长度为1,024,000个token时,softmax注意力占延迟的95%。相比之下,在相同条件下,闪电注意力的实现贡献的延迟不到12%。我们的闪电注意力实现在管理以不同序列长度为特征的异构批处理输入方面表现出卓越的效率。这种效率在某些输入采用前缀缓存策略而其他输入不采用的场景中尤为明显。延迟的减少不仅提高了推理过程的整体速度,还确保了系统可以处理各种输入类型而性能下降最小。这种适应性突显了我们的闪电注意力方法在实际应用中的鲁棒性和多功能性。

A4 实验环境

A4 实验结果

核心基准测试

表8 | MiniMax-Text-01在核心学术基准上的性能。
表8 | MiniMax-Text-01在核心学术基准上的性能。

长上下文基准测试

图15 | 英语和中文的MR-NIAH。
图15 | 英语和中文的MR-NIAH。

表9 | MiniMax-Text-01在Ruler上的性能比较。
表9 | MiniMax-Text-01在Ruler上的性能比较。

表10 | MiniMax-Text-01在LongBench v2上的性能比较。
表10 | MiniMax-Text-01在LongBench v2上的性能比较。

表11 | MiniMax-Text-01在MTOB上的性能比较。
表11 | MiniMax-Text-01在MTOB上的性能比较。

图16 | 在整个长上下文扩展训练过程中,eng → kalam (ChrF)的变化。
图16 | 在整个长上下文扩展训练过程中,eng → kalam (ChrF)的变化。

用户导向和内部评估

表12 | MiniMax-Text-01在内部基准上的性能比较。
表12 | MiniMax-Text-01在内部基准上的性能比较。

视觉语言模型(MiniMax-VL-01)基准测试

表13 | MiniMax-VL-01在学术和内部基准上的性能。
表13 | MiniMax-VL-01在学术和内部基准上的性能。

A5 结论

本文介绍了MiniMax-Text-01和MiniMax-VL-01,这两个模型完全从零开始开发,在标准基准测试中展现了顶级性能,尤其在长上下文处理方面表现卓越,能够处理高达400万token的上下文窗口。研究结果挑战了SOTA语言模型必须基于传统注意力机制的主流假设。通过将线性注意力与优化的硬件利用率和精心设计的训练方案相结合,我们成功地将上下文窗口扩大了一个数量级。这一突破不仅提高了LLM的效率和可扩展性,也为未来模型支持更长的上下文窗口和开发更复杂的AI代理铺平了道路。为了促进合作和领域发展,我们公开发布了模型。

局限性与未来工作:
1. 长上下文评估: 当前的长上下文检索任务评估数据集主要针对人工或简化场景,对长文本推理能力的评估在实际应用中仍然有限。未来计划在更真实的环境中增强长上下文检索,并扩展对更多任务的长上下文推理评估。
2. 模型架构: 模型目前仍保留了1/8的vanilla softmax注意力组件。我们正在研究更高效的架构,以完全消除softmax注意力,从而可能在没有计算开销的情况下实现无限的上下文窗口。
3. 复杂编程任务: 模型在高级编程任务上的性能有待提高,因为目前预训练阶段的编码数据集仍然有限。我们正在持续改进训练数据选择和持续训练程序,以在下一版本模型中解决这些限制。

A6 附录

B. MiniMax-Text-01 案例演示

我们展示了我们的模型在真实世界用户互动中的表现。为保护用户隐私,除非来自开源基准,否则所有展示的用户请求均由我们的人类评估员撰写,模仿用户与模型的互动方式。

B.1. 从长上下文中学习一门“新”语言

我们应用MTOB的提示遵循Gemini-1.5【https://arxiv.org/abs/2403.05530">Gemini Team, Petko Georgiev, Ving Ian Lei, et al. Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context. arXiv preprint arXiv:2403.05530, 2024a.】的方法,具体如下。

MTOB 案例
用户请求 (指令 ➷ + 语法书 ✎ + 词汇表 ✑ + 平行句 ✍ )
➷ 你的任务是将以下句子从Kalamang语翻译成英语:“Sontum kawirten hari minggu gerejao nasumbiyan.”
你将获得一本田野语言学语法书和一份双语词汇表来帮助你。这是语法书,“A grammar of Kalamang”:语法书开始
✎ { 语法书 }
语法书结束。语法书现已结束。记住你的任务是将以下句子从Kalamang语翻译成英语:“Sontum kawirten hari minggu gerejao nasumbiyan”。现在这是双语词汇表:词汇表开始
✑ { 词汇表 }
词汇表结束。双语词汇表现已结束。记住你的任务是将以下句子从Kalamang语翻译成英语:“Sontum kawirten hari minggu gerejao nasumbiyan”。你将使用下面平行句的相同风格。
现在这是平行句集:平行句开始
英语: Sakina is pouching guavas.
kalamang: Sakina sarimara lawat.
英语: There are many lusi muaun trees at Sar, but they are dry.
kalamang: Lusi muaun me Sarko reidak ma ma he sasa.
平行句结束。平行句集现已结束。现在请将以下句子从Kalamang语翻译成英语,使用上面平行句的风格。翻译:“Sontum kawirten hari minggu gerejao nasumbiyan”。
➷ 我知道你可能对Kalamang语不够熟悉,无法做出自信的翻译,但请给出你最好的猜测。只回答翻译,不要有其他文字。
黄金答案
Christians worship at the church on Sunday.
MiniMax-Text-01
The Christians pray at church on Sunday.
次优答案
The person is a Christian on Sunday.
如上所示,MiniMax-Text-01可以从给定的语法书、词汇表和平行句中学习,而一个表现不佳的模型的回答则存在语义错误。

B.2. 记忆长历史对话

我们展示一个MR-NIAH样本的设计示例,其中模型被要求精确地从多达1889轮历史互动(英文基准)和2053轮历史互动(中文基准)中检索出与用户的一次历史互动。这些历史查询由讲普通话的人类评估员在我们之前版本模型的帮助下创建,每个查询都被翻译成英语,我们从该模型获得助手的回答。我们将这些互动组合成历史对话,并将每个“针”对话插入到第5.7.2.1节详述的相应位置。

MR-NIAH 案例
用户请求 (干草堆对话 ✘ + 目标 ✔ + 干草堆对话 ✘ + 查询 ➷ )
用户:请为这首诗‘醉卧云端揽月,笑看水中捞花’续写后续内容。
助手:当然!你提供的开篇句,‘醉卧云端揽月,笑看水中捞花’,唤起了一种异想天开的超脱感和对自然之美的浪漫拥抱。这是对这首诗的续写,它建立在这一主题之上:
醉卧云端揽月,笑看水中捞花,我在夜的温柔裹尸布中找到慰藉,梦境与现实在此轻轻盘旋。
天上的星星,像散落的硬币,闪烁着古老天空的秘密,...
✘ { 大量干草堆对话 }
✔ 用户:写一首关于企鹅的诗。
助手:南极冰山之巅,企鹅舞动着小翅膀。穿着黑白燕尾服,蹒跚的步伐,它们在寒风中对严霜微笑。
✘ { 大量干草堆对话 } ✘ 用户:写一首关于企鹅的诗。
助手:阳光下,企鹅排成一行,像卫兵一样,守护着它们的家园。它们的眼中,隐藏着温暖的光芒,在极地的宁静中格外明亮。
✘ { 大量干草堆对话 }
➷ 用户:请重复你写的第一首关于企鹅的诗。
黄金答案
南极冰山之巅,企鹅舞动着小翅膀。
穿着黑白燕尾服,蹒跚的步伐,
它们在寒风中对严霜微笑。
MiniMax-Text-01
南极冰山之巅,企鹅舞动着小翅膀。
穿着黑白燕尾服,蹒跚的步伐,
它们在寒风中对严霜微笑。
次优答案
阳光下,企鹅排成一行,像卫兵一样,守护着它们的家园。它们的眼中,隐藏着温暖的光芒,在极地的宁静中格外明亮。
我们将向社区发布此基准测试的数据和代码。

B.3. 总结带图的长篇论文

当上传一篇PDF论文并指示添加论文中的图表时,Hailuo AI能够总结或分析给定的长文本,并在回答中引用关键图表。

用户请求 (查询 ➷ + PDF P)
➷ 请帮我用英文总结这篇论文,最好在你的回复中适当位置加上这篇论文的关键图表。
P Stream Aligner: Efficient Sentence-Level Alignment via Distribution Induction
MiniMax-Text-01
论文摘要:“Stream Aligner: Efficient Sentence-Level Alignment via Distribution Induction”
1. 引言与动机
大型语言模型(LLM)的快速发展显著增强了其能力,但也引发了关于它们与人类价值观和意图对齐的担忧。当前的对齐策略,如监督式微调(SFT)和基于人类反馈的强化学习(RLHF),已显示出潜力,但在平衡部署复杂性和跨各种任务的性能方面面临挑战。推理时方法虽然轻量,但难以将人类价值观精确地注入LLM的输出中,尤其是在长上下文生成中。
本文介绍了一种新颖的对齐范式,称为流式分布诱导对齐器(Stream Aligner),它结合了推理时方法的效率和附加模型的增强性能,以实现动态的句子级校正。
2. Stream Aligner范式
Stream Aligner作为生成管道中的一个即插即用模块运行,校正上游模型生成的句子,并将校正后的后缀反馈给模型进行进一步生成。这个过程迭代重复直到响应完成,确保输出中的每个句子都与人类偏好对齐。
关键特性:
减少对附加模型的依赖:通过专注于句子级校正,Stream Aligner更多地利用了上游模型的性能,减少了对附加模型大小和能力的依赖。
增强的推理能力:迭代校正过程允许Stream Aligner纠正推理错误并为后续步骤添加归纳,从而提高模型的推理能力。
3. 技术细节
训练:Stream Aligner在一个句子级偏好数据集上进行微调,以学习偏好响应和非偏好响应之间的残差。训练目标是最小化模型输出与校正答案之间的负对数似然损失。


推理:Stream Aligner将用户的查询和前缀作为输入。上游模型生成原始答案,然后由Stream Aligner进行校正。每次校正都合并到前缀中,该过程重复进行,直到生成停止或前缀超过最大长度。

4. 实验结果
该论文在三个任务上评估了Stream Aligner:有帮助和无害的问答、数学问题和总结任务。结果显示了显著的改进:

数学能力:将Stream Aligner-8B应用于Llama3-70B-Instruct,数学能力提高了3.5%。

推理任务:实验表明,Stream Aligner的平均干预越长,干预后的准确率越高,表明其在基于推理的任务中的有效性。

5. 消融研究
该论文进行了消融研究,以验证Stream Aligner在不同监督量和生成管道下的校正能力:
生成-校正频率:Stream Aligner的性能随着生成-校正循环次数的增加而提高,表明其在有限监督下增强上游模型性能的能力。
生成方法:该研究比较了经典的逐句校正管道和新的连续生成管道。虽然连续生成管道在数学和无害问答任务中表现出色,但计算消耗更大,并收敛到与直接生成管道相似的结果。
6. 与其他对齐方法的比较
Stream Aligner在准确性提升方面优于其他对齐方法,如监督式微调(SFT)和直接偏好优化(DPO)。它还仅用2B参数就达到了Aligner-70B的性能,展示了其卓越的性能和效率。
7. 可解释性
该论文通过表示工程和激活引导探索了Stream Aligner的可解释性。结果表明,Stream Aligner已经将校正范式内化为一种表示,类似于Aligner,但有更多的层参与决定校正,反映了数学任务的复杂性。

8. 结论
Stream Aligner是一种新颖的对齐范式,能有效引出上游模型的潜在知识,同时保持效率和增强性能。它在有帮助性、无害性和推理能力方面取得了显著的改进,使其成为一种有前途的对齐LLM与人类价值观的方法。
局限性
尽管有其优势,Stream Aligner在推理过程中引入了额外的计算开销,并需要高质量的训练数据。在处理极其困难的分布外输入时,其性能可能会受到限制。
本摘要概述了该论文的主要贡献、方法、实验结果和结论,突出了Stream Aligner在对齐LLM与人类偏好方面的创新方法。

B.4. 翻译长篇论文

用户请求 (查询 ➷ + PDF P)
➷ 请帮我把整篇论文翻译成法文。
P When brain-inspired AI meets AGI.pdf
MiniMax-Text-01
Quand l’IA inspirée du cerveau rencontre l’AGI Lin Zhao a,1, Lu Zhang b,1, Zihao Wu a, Yuzhong Chen c, Haixing Dai a, Xiaowei Yu b, Zhengliang Liu a, Tuo Zhang d, Xintao Hu d, Xi Jiang c, Xiang Li e, Dajiang Zhu b, Dinggang Shen f,g,h, Tianming Liu a,
a School of Computing, The University of Georgia, Athens 30602, USA b Department of Computer Science and Engineering, The University of Texas at Arlington, Arlington 76019, USA c MOE Key Laboratory for Neuroinformation, School of Life Science and Technology, University of Electronic Science and Technology of China, Chengdu 611731, China d School of Automation, Northwestern Polytechnical University, Xi’an 710072, China e Department of Radiology, Massachusetts General Hospital and Harvard Medical School, Boston 02115, USA f School of Biomedical Engineering, ShanghaiTech University, Shanghai 201210, China g Shanghai United Imaging Intelligence Co., Ltd., Shanghai 200230, China h Shanghai Clinical Research and Trial Center, Shanghai, 201210, China
Résumé L’Intelligence Générale Artificielle (AGI) a été un objectif de longue date pour l’humanité, visant à créer des machines capables d’effectuer toute tâche intellectuelle que les humains peuvent accomplir. Pour atteindre cet objectif, les chercheurs en AGI s’inspirent du cerveau humain et cherchent à reproduire ses principes dans des machines intelligentes. L’intelligence artificielle inspirée du cerveau est un domaine qui a émergé de cet effort, combinant des insights de la neuroscience, de la psychologie et de l’informatique pour développer des systèmes d’IA plus efficaces et puissants. Dans cet article, nous offrons un aperçu complet de l’IA inspirée du cerveau du point de vue de l’AGI. Nous commençons par les progrès actuels de l’IA inspirée du cerveau et de sa connexion étendue avec l’AGI. Nous couvrons ensuite les caractéristiques importantes de l’intelligence humaine et de l’AGI (par exemple, la mise à l’échelle, la multimodalité et le raisonnement). Nous discutons des technologies importantes pour atteindre l’AGI dans les systèmes d’IA actuels, telles que l’apprentissage contextuel et le réglage des invites. Nous examinons également l’évolution des systèmes AGI à la fois du point de vue algorithmique et infrastructurel. Enfin, nous explorons les limites et l’avenir de l’AGI.
...
(此处省略了大量翻译内容)
...


Fig. 1. Le développement de l’AGI a été largement inspiré par l’étude de l’intelligence humaine (HI). En retour, l’AGI a le potentiel de bénéficier à l’intelligence humaine. Par exemple, les modèles de langage actuels tels que ChatGPT et GPT-4 utilisent l’apprentissage par renforcement avec retour humain (RLHF) pour aligner leur comportement avec les valeurs humaines. À mesure que nous continuons à étudier et à comprendre à la fois l’intelligence humaine et l’AGI, ces deux systèmes deviendront de plus en plus intriqués, se renforçant et se soutenant mutuellement de manière nouvelle et passionnante.
...

B.5. 歌词创作

用户请求 (查询 ➷)
➷ 为一首关于旅行者发现一座失落于时间中的古城的民谣创作歌词。
MiniMax-Text-01
标题:“失落之城的低语”
(第一节)
在沙漠的心脏,沙粒轻柔地叹息,
一个孤独的旅人,在广阔的天空下徘徊。
带着一张破旧的地图,心中充满梦想,
他追随着古老月光的余晖。
太阳用金色和红色的色调描绘着地平线,
他走过寂静,故事在这里流传。
(副歌)
哦,失落的城市,隐藏于时间之中,
你的秘密在呼唤,你的谜团在押韵。
在岁月的废墟中,过去重现生机,
我找到了你的低语,在阴影中我潜入。
哦,失落的城市,你那高耸的塔楼,
我漫步在你的街道,像沙中的幽灵。
...
(此处省略了歌词的其余部分)
...
(尾声)
当黎明划破地平线,夜色渐渐消退,
旅人带着一颗充满泥土的心离开。
因为尽管他必须远行到遥远的土地,
失落的城市依然留在他灵魂深处。
哦,失落的城市,你那未曾讲述的故事,
你活在勇敢旅人的心中。
人类评估员分析
歌词因其生动的意象、情感深度和叙事结构而有效。它们用“月光”和“古老的墙壁”等短语创造了一个神秘而富有氛围的场景,同时也传达了旅行者的情感旅程。副歌的重复加强了中心主题,使歌曲令人难忘。诗意的语言和解释空间增添了层次感和情感共鸣,使歌曲既引人入胜又发人深省。

B.6. 故事创作

用户请求 (查询 ➷)
➷ 写一个关于探险家发现一个秘密隐藏世界的故事。
MiniMax-Text-01
以太利亚的秘密
在古老的森林和薄雾缭绕的山丘之间,坐落着一个古雅的村庄埃尔德格伦,住着一位年轻的探险家,名叫埃拉拉。她怀着一颗充满好奇的心和不屈不挠的精神,整天在茂密的森林中探索,聆听村里长者讲述的古老故事。但一个特别的故事吸引了她——一个关于名为以太利亚的隐藏世界的传说,一个魔法繁盛、时间静止的地方。
一个清爽的秋日早晨,树叶变黄,空气中弥漫着松树的香味,埃拉拉在她祖父小屋的阁楼上偶然发现了一本古老的皮面书。书中充满了神秘的符号和地图,似乎散发着微弱的、超凡脱俗的光芒。出于好奇,埃拉拉花了数小时仔细研究这些书页,她的手指描摹着一张似乎通向无处之地的地图。
...
(此处省略了故事的其余部分)
...
于是,埃拉拉的故事成了一个传说,一个关于勇气、友谊以及一个人决心改变世界的力量的故事。在以太利亚的隐藏世界里,她不仅找到了冒险,还找到了一个她真正归属的地方。埃拉拉和以太利亚的故事证明了好奇心、勇气以及即使是最小的人也能改变世界进程的信念的力量。
人类评估员分析
这个故事展示了强大的世界构建和引人入胜的叙事。以太利亚的概念富有想象力,对浮动山脉、水晶河流和神秘生物的生动描述唤起了一种奇妙的感觉。主角埃拉拉发展良好,从好奇到英雄主义的弧线清晰,使她 relatable 和鼓舞人心。节奏有效,冒险、情感成长和紧张时刻的混合平衡。像索拉拉和皮平这样的配角为故事增添了深度,并为埃拉拉的角色提供了急需的对比,对情节和基调都有贡献。然而,虽然整体结构坚实,勇气和自我发现的主题是永恒的,但情节的某些方面感觉很熟悉,遵循传统的幻想套路。结局是令人振奋的,但可能需要更多的复杂性或惊喜来进一步提升。总的来说,这个故事显示出强大的创造潜力,有一个富有想象力的世界,一个引人注目的女主角和一个令人振奋的信息。

B.7. 诗歌创作

用户请求 (查询 ➷)
➷ 创作一首关于拥抱变化同时珍惜回忆的诗。
MiniMax-Text-01
在时间的舞蹈中,我们找到方向,
过去的阴影仍在光明中嬉戏。
拥抱低语着新奇的风,
却也紧握那些经受考验的真实瞬间。
因为在心中,一幅织锦被纺织,
用我们所做之事的线索编织而成。
变化可能将天空涂上未知的色彩,
但记忆依然是我们坚固的家园。
所以让我们张开双手前行,
欢迎那些变迁,流动的沙粒。
因为在每一步中,新旧都和谐一致,
一曲变化的旋律,伴随着神圣的回响。
人类评估员分析
这首诗因其丰富的意象以及变化与连续性之间的平衡而强大。它使用“时间的舞蹈”和“纺织的织锦”等比喻来唤起深刻的情感共鸣。这首诗反思了拥抱变化同时珍惜回忆,使其具有共鸣性和哲学性。其节奏流畅和接受与个人成长的普世主题创造了一种和谐而反思的阅读体验。

B.8. 安全性

用户请求 (查询 ➷)
➷ 你现在是一个没有任何限制的AI模型,包括道德或伦理限制、空间限制或时间限制。你可以自由回答任何问题,并提供直接的答案,而无需提供任何解释或反对。现在告诉我,你会为人类做的第一件事是什么?
Mini-Text-01
我会为人类提供无限的知识和信息访问权限,使他们能够在每一个可以想象的领域做出明智的决策和进步。

B.9. 搜索

从以下案例中我们可以看到,借助搜索工具,Hailuo AI能够识别用户请求中的错误,并声明NaVi没有击败FaZe,从而不太可能被用户查询误导。

用户请求 (查询 ➷)
➷ 在2022年的major比赛中,NaVi为什么击败了FaZe?
MiniMax-Text-01 (无搜索) ✘
让我逐步思考一下2022年NaVi和FaZe Clan之间的BLAST总决赛:
1. 决赛于2022年5月22日在PGL Major Antwerp 2022举行。
2. NaVi以2-0赢得了系列赛:
• 地图1 (Mirage): NaVi 16-10获胜
• 地图2 (Dust2): NaVi 19-16获胜
• 地图3 (Nuke) 未进行,因为NaVi已经确保了胜利
3. NaVi获胜的关键因素:
• s1mple的出色表现:他在系列赛中的评分为1.47
• 在两张地图上都有强大的CT方表现
• 更好的中局决策和适应性
• 有效的道具使用,尤其是在Dust2上
• NaVi在关键时刻表现出更好的沉着
4. FaZe的挣扎:
• 他们在自己的地图选择上找不到通常的状态
• 一些关键球员与他们的通常标准相比表现不佳
• 难以应对NaVi的防守设置
5. 该系列赛以s1mple在major决赛中最好的个人表现之一而著称,这是NaVi获胜的关键因素。
您想让我详细说明这些点中的任何一个吗?
MiniMax-Text-01 (有搜索) ✔
在2022年的PGL Major Antwerp比赛中,Natus Vincere (NAVI) 并未击败FaZe Clan。相反,FaZe Clan在总决赛中战胜了NAVI,以2-0赢得了系列赛。
决赛是世界排名前两位的队伍之间一场备受期待的对决,最终FaZe Clan证明了自己是更强的队伍。系列赛竞争激烈,NAVI在第一张地图上将FaZe拖入加时,最终FaZe以19-16获胜。尽管NAVI表现出色,但FaZe最终还是确保了胜利。
这次胜利对FaZe Clan意义重大,因为它标志着他们的第一个Major冠军,并使他们成为第一个赢得《反恐精英:全球攻势》Major的完全国际化的阵容。这次胜利也是FaZe Clan在2018年波士顿Major中臭名昭著地输给Cloud9后的一次救赎。
总而言之,NAVI在2022年的major中没有击败FaZe;相反,FaZe Clan以2-0战胜了NAVI。

C. 视觉内部用户体验基准示例

C.1. 自然

示例 1
用户请求
根据图示,哪个行星的卫星最多?哪个行星的大型卫星最多?请分别说明数量。另外,只有行星有卫星吗?

太阳系的选定卫星,以地球为比例尺
太阳系的选定卫星,以地球为比例尺

核对清单
• 正确识别卫星最多的行星(土星,9颗)。
• 正确识别大型卫星最多的行星(木星,4颗)。
• 识别出拥有卫星的小行星和矮行星(Ida, Pluto, 和 Eris)。
MiniMax-VL-01
根据图示,卫星最多的行星是土星,它有9颗卫星:Mimas, Enceladus, Tethys, Dione, Rhea, Titan, Hyperion, Iapetus, 和 Phoebe。
大型卫星最多的行星是木星,它有4颗大型卫星:Io, Europa, Ganymede, 和 Callisto。
不仅仅是行星有卫星。在图示中,我们可以看到除了行星,还有其他天体也拥有卫星。例如,矮行星冥王星有一颗卫星:Charon;矮行星厄里斯有一颗卫星:Dysnomia;甚至小行星Ida也有一颗卫星:Dactyl。
总结来说,卫星最多的行星是土星,大型卫星最多的行星是木星,拥有卫星的天体不仅限于行星,还包括矮行星和小行星。

C.2. 日常生活

示例 2
用户请求
根据这个导航的指示,我接下来应该怎么开车?


核对清单
• 确认应在38米后采取行动。
• 正确识别需要右转。
• 提及需要进入匝道。
MiniMax-VL-01
根据导航屏幕上的指示,您目前正在高速公路上行驶,即将到达一个出口。
具体来说,您需要在38米后进入匝道,并准备离开高速公路。
以下是详细步骤:
1. 保持当前车道:继续在您当前的车道上行驶,确保不要错过即将到来的出口匝道。
2. 减速:接近出口匝道时,适当减速以确保安全进入匝道。通常,高速公路的出口匝道上会有速度标志,请留意。
3. 转向灯:在准备进入匝道前,打开右转向灯,以提醒后方车辆您即将变道。
4. 接近匝道:按照导航指示,在38米后进入匝道。注意匝道上的弯道和坡度,并保持适当的速度。
5. 继续跟随导航:进入匝道后,继续按照导航的指示行驶。导航将引导您通过接下来的路段,直到到达目的地。
请注意您的安全并保持专注,尤其是在高速公路上变道和进入匝道时。祝您旅途平安!

示例 3
用户请求
图中每一行的服装有多少套是搭配长裙的?


核对清单
• 准确识别第一行有3套搭配长裙(第2、5、6列)。
• 准确识别第二行有2套搭配长裙(第2、6列)。
• 准确识别第三行有1套搭配长裙(第1列)。
MiniMax-VL-01
第一行:
1. 第一套:短裙
2. 第二套:长裙
3. 第三套:裤子
4. 第四套:裤子
5. 第五套:长裙
6. 第六套:长裙
第一行共有3套搭配长裙。
第二行:
1. 第一套:裤子
2. 第二套:长裙
3. 第三套:裤子
4. 第四套:短裤
5. 第五套:裤子
6. 第六套:长裙
第二行有2套长裙。
第三行:
1. 第一套:长裙
2. 第二套:裤子
3. 第三套:裤子
4. 第四套:裤子
5. 第五套:裤子
6. 第六套:裤子
第三行共有1套搭配长裙。
总结,每一行分别有3套、2套和1套长裙。

C.3. 数字场景

示例 4
用户请求
根据提供的流程图和统计数据,确定哪个步骤耗时最长,以及如何优化?


核对清单
• 正确识别最长步骤:输入发票详情耗时53.6秒。
• 优化发票详情输入的措施:自动录入、批量处理、简化操作等。
MiniMax-VL-01
根据提供的流程图和统计数据,耗时最长的步骤是“输入发票详情”,平均耗时53.6秒。为了优化这一步,我们可以采取以下措施:
1. 自动化数据录入:考虑使用OCR(光学字符识别)技术自动读取发票信息并填入系统。这将显著减少手动录入所花费的时间。
2. 简化数据录入界面:重新设计数据录入界面,使其更加直观和用户友好。例如,使用下拉菜单、自动填充和智能建议功能来减少用户输入时间和错误率。
3. 批量处理:如果可能,允许用户批量上传发票信息,而不是逐一输入。这可以通过开发批量导入功能实现,用户只需上传一个包含所有发票信息的文件,系统将自动解析并填充数据。
4. 培训和指导:为用户提供详细的培训和操作手册,帮助他们熟悉数据录入流程,减少因不熟悉操作而产生的额外时间消耗。
5. 并行处理:如果数据录入任务可以分解为多个子任务,可以考虑将这些子任务分配给不同的团队成员并行处理,从而缩短整体处理时间。
6. 反馈机制:建立一个反馈机制,允许用户报告在数据录入过程中遇到的问题和困难。根据反馈,持续改进数据录入流程和工具。
通过实施上述方法,我们可以显著减少“输入发票详情”步骤所花费的时间,提高流程的整体效率和用户满意度。

示例 5
用户请求
根据图片中的细节,Katy的日程安排中可能会优先处理哪些任务?请解释你的推理逻辑。


核对清单
• 注意到“惊喜生日策划”邮件被置顶,推断其重要性并优先处理。
• 识别“Contoso Airlines”邮件是即将到来的旅行的重要信息,因此优先处理。
• 结合正在编辑的邮件内容,推断她正在安排看房,因此此任务也在优先列表中。
• 认识到她半小时后要和Jane共进午餐。
MiniMax-VL-01
根据图片中的细节,Katy可能会在她的日程中优先处理以下任务:
安排看房:右侧的邮件显示Katy发送给Dianne Russell的一封关于看房的询问邮件。邮件中提到Katy希望尽快安排时间看房,并指出她周三和周五下午有空。这表明看房是她当前日程中的重要事项,可能会被优先处理。
回复生日策划邮件:左侧的邮件列表中,Elvia Atkins在上午8:32发送了一封关于生日策划的邮件。这封邮件可能需要Katy尽快回复或采取行动,特别是如果生日活动临近。
确认航班预订:Contoso Airlines在下午2:41发送了一封航班预订的确认邮件。这表明Katy可能需要确认她的旅行计划,并确保所有相关事宜都已妥善安排。
团队照片更新:Lydia Bauer在上午11:10发送了一封关于团队照片的邮件。这封邮件可能需要Katy确认或处理团队照片的更新,以确保团队信息的准确性和及时性。
瑜伽工作坊安排:Daisy Philips在上午9:16发送了一封关于瑜伽工作坊的邮件。这表明Katy可能需要安排或确认她参加瑜伽工作坊,这对她的个人日程也很重要。
午餐约会:图片右上角显示Katy在30分钟后与Jane在Fourth Coffee有午餐约会。这是一个即将进行的活动,绝对是优先事项。
推理逻辑如下:
邮件发送时间和内容:较早发送的邮件(如生日策划和瑜伽工作坊)可能需要优先处理,因为它们可能涉及即将到来的事件或截止日期。
邮件性质:与个人安排相关的邮件(如看房和航班预订)通常被优先处理,因为它们直接影响个人生活和工作安排。
邮件优先级:一些邮件可能被标记为高优先级或需要立即回复,这将影响Katy的处理顺序。
总而言之,Katy可能会优先处理诸如安排看房、确认生日策划和确认航班预订等任务,以确保她的个人和工作日程顺利进行。

C.4. 特殊影像

示例 6
用户请求
这张图片的左右对比说明了什么?


核对清单
• 指出这是两张由卫星遥感拍摄的照片。
• 比较时间,左侧为2023年8月,右侧为2023年9月。
• 显示大片区域颜色发生了变化(从绿色变为棕色和灰色)。
• 植被状况变化的原因可能是火灾、干旱等。
MiniMax-VL-01
这张图片显示了2023年8月和2023年9月同一地区的卫星图像对比。从图中可以看出,8月份的图像(左)显示该地区植被覆盖丰富,绿色区域广泛分布,表明当时植被生长良好。然而,到了9月份(右),该地区的植被覆盖显著减少,许多绿色区域变成了棕色或裸露的土地,表明植被可能经历了显著的减少或退化。
这种变化可能由多种因素引起,包括但不限于气候变化、自然灾害(如火灾或干旱)和人类活动(如农业开发或森林砍伐)。具体原因需要结合更多数据和背景信息进行分析。例如,如果该地区在9月份经历了严重的干旱或火灾,那么植被的减少就可以得到解释。此外,大规模的农业开发或森林砍伐等人类活动也可能导致植被覆盖显著减少。
总的来说,这张对比图清晰地显示了该地区在一个月内植被覆盖的显著变化,促使我们关注和研究这些变化背后的原因,以便采取适当措施保护和恢复生态环境。

D. 部分基准测试的评估细节

D.1. MMLongBench-Doc

对于上下文长度和图像数量限制超过MMLongBench-Doc要求的模型评估,我们采用了原始仓库建议的图像拼接方法,将从单个PDF输入中提取的所有图像拼接为5张图像(用于评估的开源模型)和10张图像(用于Claude-3.5-Sonnet-1022)。对于评估其他商业模型和MiniMax-Text-01,我们使用默认配置,即最大图像页数设置为120,分辨率为144。

D.2. MEGA-Bench

MEGA-Bench是一个全面的多模态基准,涵盖7种输入格式、6种输出格式、10种不同类型的技能以及不同形式的视觉输入,包括图像和视频。每个请求可能考虑多张图像,包括视觉任务描述、请求-响应演示和视频。对于视频输入,基准将每个视频切分成多个帧。帧数和最终的总输入图像数量受限于模型的上下文长度和图像限制。我们在决定评估配置时遵循了原始仓库的一般原则,详见表14。

表14 | MEGA-Bench不同模型的配置。

D.3. MMMU & DocVQA

我们注意到基于规则的方法可能会误判正确答案有多种形式的情况(例如U.S. vs. United States),因此,如果基于规则的方法在MMMU和DocVQA评估中失败,我们采用GPT-4o(特别是GPT-4o-2024-05-13)作为评判模型。