作者/机构:
Xunzhuo Liu, Tencent
Chen Wang, IBM Research
Yuhan Liu, University of Chicago
Xiangxi Mo, UC Berkeley
Yue Zhu, IBM Research
Junchen Jiang, University of Chicago
Huamin Chen, Red Hat
本文针对大型语言模型(LLM)在推理时面临的效率与准确性权衡问题,提出了一种语义路由器(semantic router)解决方案。
利用路由器动态处理查询以提升效率和准确性。近期的研究工作探索了使用路由器来动态决定如何处理查询,从而提高LLM推理的效率和准确性。例如,FrugalGPT 【5,FrugalGPT: How to use large language models while reducing cost and improving performance, 2023, arXiv preprint arXiv:2305.05176】通过学习为不同查询调用哪些LLM组合,利用提示词自适应、近似和级联模型选择等方法,在商业API上实现了高达98%的成本降低。同样,RouteLLM 【15,RouteLLM: Learning to route llms from preference data, 2025, The Thirteenth International Conference on Learning Representations】训练路由器模型,在推理时根据人类偏好数据和增强数据在强弱LLM之间进行选择,从而在MT Bench、MMLU和GSM8K等基准测试中维持准确性的同时,大幅节省了成本。这些方法展示了基于路由器的技术在改善推理性能方面的潜力,但它们主要集中在模型级别的路由。
高级推理策略虽能提升准确性但并非普遍适用且成本高昂。虽然链式思考(CoT)等高级推理策略可以提高准确性,但最近的研究强调,推理并非对所有任务都有益,并且通常会带来巨大的计算开销。Wilhelm等人【5,FrugalGPT: How to use large language models while reducing cost and improving performance, 2023, arXiv preprint arXiv:2305.05176】的研究表明,对于知识型任务,CoT几乎没有带来好处,却可能使能源成本增加高达150倍。类似地,Aggarwal等人发现LLM经常对简单问题“过度思考”而对复杂问题“思考不足”【1,Optimalthinkingbench: Evaluating over and underthinking in llms, 2025, arXiv preprint arXiv:2508.13141】,导致效率低下。Sprague等人【17,To cot or not to cot? chain-of-thought helps mainly on math and symbolic reasoning, 2024, arXiv preprint arXiv:2409.12183】的元分析以及Wei等人【20,Chain-of-thought prompting elicits reasoning in large language models, 2022, Advances in neural information processing systems】最初的CoT研究进一步证实,CoT主要在数学和逻辑任务上提升性能,在其他领域的增益有限,甚至可能降低小型模型的准确性。为了缓解这些低效问题,近期的框架【6,Aware first, think less: Dynamic boundary self-awareness drives extreme reasoning efficiency in large language models, 2025, arXiv preprint arXiv:2508.11582】【24,Think in blocks: Adaptive reasoning from direct response to deep reasoning, 2025, arXiv preprint arXiv:2508.15507】【21,Stop spinning wheels: Mitigating llm overthinking via mining patterns for early reasoning exit, 2025, arXiv preprint arXiv:2508.17627】引入了自适应推理策略,动态调节推理深度,从而在保持准确性的同时减少Token使用量。
一种基于语义而非关键词进行请求转发的新兴系统。语义路由器是一种新兴的LLM推理请求转发系统,其路由决策由输入的语义含义指导,而非明确的关键词或手动定义的规则【13,Semantic routing for enhanced performance of llm-assisted intent-based 5g core network management and orchestration, 2024, GLOBECOM 2024-2024 IEEE Global Communications Conference】【3,Semantic router, 2025, https://www.aurelio.ai/semantic-router】。该路由器通过将用户查询和候选路由话语编码为能够捕捉上下文含义的高维嵌入【23 ,Query routing for retrieval-augmented language models, 2025, arXiv preprint arXiv:2505.23052】,然后选择语义相似度最高的目标路径,通常使用余弦距离等指标进行度量。语义路由为查询级控制提供了一种轻量级且高效的机制,使其成为实现推理感知路由的一个有前景的基础。
集成语义路由与推理模式选择器以实现效率与准确性的动态平衡。我们的系统集成了一个语义路由器和一个推理模式选择器,以在LLM推理中动态地平衡效率和准确性。如图1a所示,该过程首先将用户提示编码为高维语义嵌入,以捕捉输入的上下文含义。随后,这些嵌入被一个意图分类器处理,该分类器判断提示是简单的知识型查询还是需要密集推理的任务。基于此分类结果,路由器将输入导向最合适的推理路径:对于简单任务,采用非推理模型的轻量级推理;对于复杂查询,则采用启用了链式思考的模型的推理。最后,各个路径的输出被统一成最终响应。与FrugalGPT和RouteLLM等主要在模型选择层面权衡准确性与成本的先前路由方法不同,我们的设计侧重于基于语义意图的路由,并选择性地调用推理。这使得自适应推理成为可能,即仅在有益时才应用成本高昂的逐步推理,同时为直接的查询保持低延迟和高效率。
一个集成了三个关键模块的统一架构。我们的意图感知语义路由器的实现集成了三个关键模块——用于意图分类的ModernBERT微调、一个基于Rust的高性能分类核心,以及用于Envoy集成的Golang-Rust绑定——形成一个统一的架构,如图1b所示。
微调ModernBERT模型以实现多任务意图分类。我们微调了ModernBERT模型【19,Smarter, better, faster, longer: A modern bidirectional encoder for fast, memory efficient, and long context finetuning and inference, 2024】用于多任务意图分类。选择该模型是因为它速度快、内存效率高、支持长上下文,并通过融合RoPE和FlashAttention等现代LLM创新技术实现了高准确率。训练流程使用了三个数据集:MMLU-Pro【18,Mmlu-pro: A more robust and challenging multi-task language understanding benchmark, 2024, Advances in Neural Information Processing Systems】(包含约14个领域的约1.2万个学术样本)、Microsoft Presidio【14,Presidio research: Data science utilities, evaluation tools and synthetic data generation for presidio, 2023, https://github.com/microsoft/presidio-research】(包含约5万个Token级别的个人身份信息(PII)示例)以及越狱安全数据集【4 ,Jailbreakbench: An open robustness benchmark for jailbreaking large language models, 2024, Advances in Neural Information Processing Systems】。该分类流程既可以使用CPU也可以使用GPU进行实时在线推理,从而简化了运行时环境的资源需求。
使用Rust和Candle框架实现高效的分类引擎。分类引擎采用Rust语言和Hugging Face的Candle框架【8,Candle: A minimalist machine learning framework for Rust, 2023, https://github.com/huggingface/candle】实现,该框架支持高效的零拷贝张量工作流、SIMD加速和优化的内存使用。它利用Rust的所有权模型来保证线程安全,从而运行多阶段的并行推理——包括类别分类、PII检测和越狱检测。该处理流程会对请求进行批处理,并利 用Hugging Face Tokenizers进行快速分词,支持大上下文窗口,并能链接多个分类任务,从而在商用硬件上无需使用昂贵的GPU即可支持高并发请求。
通过CGO绑定将Rust核心封装到Golang层以支持Envoy集成。我们使用CGO绑定将基于Rust的分类核心封装在一个Golang层中,以支持Envoy的外部处理(ext_proc)过滤器接口【7,External processing filter (ext_proc), 2025, https://www.envoyproxy.io/docs/envoy/latest/configuration/http/http_filters/ext_proc_filter】。Envoy会拦截HTTP请求,并通过gRPC将其转发给外部处理器。外部处理器在响应到达后端服务之前,应用实时的分类和路由决策。CGO层被静态链接,最大限度地减少了运行时开销,同时实现了与Kubernetes、服务网格和API网关模式的无缝集成。这种设计模式促进了云原生生态系统的采纳 。
实验评估了语义路由器在MMLU-Pro基准上相对于直接vLLM推理的性能,主要关注准确性、延迟和Token消耗。
总体性能提升: 如表1所示,与直接vLLM推理相比,语义路由器在整体性能上取得了显著提升。
分领域准确性分析: 图2展示了在MMLU-Pro的14个领域中,语义路由器与各种vLLM直连模式的准确性对比。
综合分析:
本文提出了一种语义路由器,它能够动态地在推理和非推理策略之间进行选择,以优化大型语言模型的推理过程。在MMLU-Pro基准测试上的评估结果表明,该路由器在准确率上提升了超过10个百分点,同时将Token使用量和延迟降低了近50%。该方法在商业、经济和物理等知识密集型领域尤其有效,尽管在技术和重推理领域仍存在挑战。通过与vLLM的集成,该路由器证明了语义路由是现实世界推理服务中一种实用且高效的解决方案。
补充效率优势的分类数据。除了图3中报告的各类别准确性结果外,我们还提供了两个补充性的分类数据,以突显语义路由在效率方面的优势。
语义路由器在各领域均展现出一致的效率提升。图4和图5中的各类别细分数据证实,语义路由器在所有领域都持续提升了效率。在Token使用方面,与直接使用vLLM的执行模式相比,路由器将平均消耗减少了近一半,在知识密集型学科(如历史、法律和健康)中节省尤为显著,因为这些领域很少需要推理。同样,延迟结果显示,路由器在大多数类别中都保持了更快的响应时间,即使在数学和物理等对推理敏感的领域,延迟也减少了40%以上。这些结果表明,语义路由不仅提高了总体效率,还在各个领域实现了稳健的收益,从而在不牺牲准确性的前提下,提供了更快、更经济的推理。