我们就是“多模态卷王”，这便是阶跃冲击AGI的方式

xinrui · 发表于 2025-5-12 17:20:30

只不过这些野望藏在姜大昕习惯性追求“逻辑严谨”的表述里，不易察觉。而阶跃星辰追求各个模态各种模型都不能错过的技术布局，更让这家公司此前在外界看来有点若隐若现。

事实上这家刚刚成立两年的大模型公司，已发布了22款自研基座模型，从文字、图像、到视频、语音，以及音乐和推理等，且大多数为多模态模型。

5月8日，阶跃星辰创始人和CEO姜大昕在阶跃星辰北京办公室分享了他最近的思考和阶跃的研发更新。在他的PPT里，他把阶跃的模型分成两类，语言&推理，以及多模态。他称其为阶跃的Step系列模型矩阵。

“国内的大模型公司里面，像我们这样重视模态的全覆盖并且坚持原生多模理念的公司并不多，但阶跃从一开始就始终认为多模态对通用人工智能非常重要。有一句话我也在很多场合不停的重复：我们认为多模态是实现 AGI 的必经之路。”

但这样的全面有时候对围观者来说意味着重点模糊。在一个所有人为AI 焦虑的时期，缺少某一个“爆款”的模型，会让围观的人们无法集中注意力。在姜大昕和阶跃内部的判断，这是他们从技术路线发展和行业现状出发从第一天主动选择的路线。在DeepSeek前后，许多AI公司大幅度掉头，有的从应用转回预训练，然后在“预训练撞墙”论流行后，许多公司又纷纷放弃预训练，而阶跃则基本上一直在把重心放在基础模型侧。

“追求智能的上限，我们认为这仍然是当下最重要的一件事。我们还是坚持基础大模型的研发。”他说。阶跃在最近还调整了此前推出的类ChatGPT的产品，姜大昕认为，这些是过渡期的一些尝试，而“DeepSeek给我们的经验就是，投流的逻辑实际上（对AI的c端产品来说）是不成立的”。

听姜大昕分享，你会感觉即便是今天教授创业成风的AI领域，他也比其他人更像一个教授，追求一环又一环的逻辑推演。这种思考方式的一个典型表现是，他习惯于向AI的历史演变里找答案，非常在意做一件事背后路线的判断，会花很多时间寻找“主流的技术脉络和共性的规律”。

在他看来，“模型的发展是沿着这样一条智能演进的路线往前进化的：模拟世界、探索世界、归纳世界。”

他认为今天正在发生的“大势”有两个，一个已经完成，就是“推理模型从一个趋势变成了一个范式，现在语言模型基本上是推理模型一统天下。”

而另一个还没有统一答案的重要课题，则是多模态理解生成的一体化。其实更具体来说，在这个阶段就是视觉领域的理解生成一体化。

“什么叫做理解生成一体化，它的定义是理解和生成是用一个模型来完成。”他说。文本模型诸如ChatGPT已经完成理解生成一体化，但视觉领域没有。

“即使是对图片，我们理解的时候用的是 GPT-4o 这样的模型，或者是在阶跃是用的 Step-1o。那么生成又换了其他的模型，比如说用 Flux、用 Stable Diffusion，阶跃是用 Step image 这样的模型。它是分开的。”

为什么一定要做理解生成一体化？姜大昕认为，简单说就是“生成需要理解来控制，理解需要生成来监督”。

我们就是“多模态卷王”，这便是阶跃冲击AGI的方式

浏览过的版块