首页> 新闻资讯> 软件教程

AI21Lab新推出的LLM架构Mamba是什么

2025-09-02 13:00:04来源：9gapp 编辑：佚名

在ai领域，技术的每一次革新都推动着行业的快速发展。近日，ai21 lab推出了一种新的llm（大型语言模型）架构——mamba，这一消息迅速在ai圈内引起了广泛关注。mamba不仅预示着llm的未来走向，更为ai的发展带来了新的思路和方向。

mamba架构的创新点

mamba是一款创新的结构化状态空间（ssm）模型，旨在克服传统transformer架构的限制。传统的transformer模型在处理长序列时，自注意力机制的计算量会随着上下文长度的增加而呈平方级增长，这在一定程度上限制了模型的应用范围。而mamba则通过引入选择性ssm（状态空间模型）来优化这一问题。

选择性ssm是mamba架构的核心创新点。与传统的自注意力机制不同，ssm能够根据内容动态过滤和处理信息，使得模型能够有选择地记住或忽略部分输入。这种机制不仅显著降低了计算量，而且提高了模型处理长序列的能力。在实际应用中，mamba的性能在百万token长度序列上可得到显著提升，同时推理吞吐量也能提高5倍以上。

jamba：首个基于mamba架构的应用级ai模型

随着mamba架构的推出，ai21 lab还发布了全球首个基于mamba架构的、可用于实际应用的ai模型——jamba。jamba结合了mamba结构化状态空间模型（ssm）和传统transformer架构的优点，实现了性能和效率的显著提升。

jamba拥有256k个token的超长文本处理能力，相当于大约210页文本，同时可在单个80gb的gpu上容纳140k个token。这一突破得益于其混合ssm-transformer架构，该架构利用混合专家（moe）技术，在进行推算时仅调用其520亿个参数中的120亿个。这意味着jamba比大多数同类模型能够处理更长的文本，同时保持着高吞吐量和效率。

在处理长文本时，jamba的吞吐量是同等规模的transformer模型（例如mixtral 8x7b）的三倍。这得益于其独特的混合架构，该架构由transformer、mamba和混合专家（moe）层组成，可同时优化内存占用、吞吐量和性能。