-
友情链接:


本文为《Token 经济学》系列第九期。token 正在重塑 AI 时间的价值坐标,当通盘东谈主都在用 token 丈量 AI 的价值时,两篇险些同期发表的论文提议了一个更根柢的问题:言语生成的核神思较,是否必须发生在 token 空间里?若是谜底是含糊的,那么围绕 token 设备的技巧范式、居品叙事和交易样式,都将面对再行订价。
文|晓静
裁剪|徐青阳
"我言语的局限,即意味着我寰宇的局限。"(Die Grenzen meiner Sprache bedeuten die Grenzen meiner Welt.)
形而上学家维特根斯坦在 1921 年写下这句话时,他驳斥的是东谈主类主见的范围。一百年后,这句话精准地形色了大言语模子面对的结构性逆境,若是 AI 的"言语"等于龙套 token 序列,那么它的"寰宇"长期被困在 token 能抒发的范围内。
这也引出了一个一直被洽商的中枢问题:大言语模子能走到 AGI(通用东谈主工智能)吗?
2024 年 12 月,OpenAI 前首席科学家 Ilya Sutskever 在 NeurIPS 发表主题演讲,他说"预历练行将完毕"。2026 年 3 月,图灵奖得主 Yann LeCun 离开 Meta 创办 AMI Labs,径直宣判"大言语模子阶梯错了"。
两位深度学习殿堂级的民众,一位选定颠覆我方亲手开启的预历练时间,另一位选定连续践行我方着力多年的寰宇模子阶梯,去赌" LLM 的下一个时间"。虽然实足不是现时的模子不好用或莫得交易价值,大模子的用户数目及渗入率都在执续增长,产业价值会越来越大。可是从技巧旅途来看,他们要抒发的是:这条路有一个结构性的天花板,这个天花板刚巧卡在通往 AGI(通用东谈主工智能)的路上。
2026 年 5 月,MIT 何恺明团队和字节越过 Seed 实验室险些同期发布论文,给出了一个更明确的信号:言语生成的中枢建模经过无须经久发生在龙套 token 空间中,也不错改变到贯串 embedding 或 latent 空间里完成,临了再映射回环本。
这是第一批来自工程实验的硬把柄,逐 token 预计可能是通向 AGI 路上的一个局部最优解。但贯串空间范式掀开了另一条路,这条路的天花板也许更高。

图片由 AI 生成
01 天花板在哪?
维特根斯坦的话不错这么领会。
东谈主类的龙套言语不是想维的原生时局。大脑里面的主见行动是贯串的、并行的、高维的。比如东谈主类料到一个苹果时,激活的不是"苹果"两个字的 token,而是一大片嗅觉皮层的贯串行动样式,包括心思、质感、分量、咬下去的声息。东谈主之是以把这团贯串体验压缩成"苹果"这个龙套鲜艳,隧谈是因为东谈主类大脑的带宽逼你序列化。
东谈主类言语是进化推断打算的有损压缩公约,它是跨脑传输的工程妥洽。
咱们现在用到的主流的交易化大模子居品,底层都是自纪念架构(预计下一个 token)。
自纪念大模子作念的事情是,在这个压缩公约的输出时局上建模。它无法领会"寰宇如何运作",它了解的是"东谈主类选定用什么鲜艳序列来形色寰宇"。它们极其擅长模拟东谈主类的言语步履,但模拟言语步履和领会寰宇之间,差着一个意志论的鸿沟。
比如体魄感受,苦衷是若何的;空间直观,知谈若何接住球但无法形色如何接住的;因果搅扰的具身响应,比如若是"我把这个椅子推倒会若何"的直观。这些荫藏在东谈主类大脑中的"嗅觉",从未被任何东谈主类言语编码过。是以它们从未插足历练数据,在 token 序列上作念任何建模,不管参数多大、数据多多,都波及不到这些维度。
这等于 token 范式的天花板。
02 "潜逃"实验
从 token 空间潜逃的第一批实验正在发生。
何恺明团队的 ELF(Embedded Language Flows,镶嵌式言语流)作念了一件反直观的事:把笔墨生成的全经过留在贯串向量空间里完成,只在临了一步,确凿只须临了一步,2026美加墨世界杯中国认证平台才把贯串向量投影回东谈主类可读的笔墨。它用 Flow Matching(一种 2022 年由 Yaron Lipman 等东谈主提议的贯串正则化流框架)从噪声启程,沿学习到的速率场平滑演化到主张镶嵌。32 个采样步,生成质料杰出龙套模子用 1024 步的扫尾。历练数据约 450 亿 token,只须主流递次的特别之一。

图:ELF 仅用 32 步采样即超越 MDLM、Duo 等龙套模子 1024 步的生成质料,且未使用蒸馏加快。模子参数 105M,历练数据约为同类递次的特别之一。
四天后发布的 Cola DLM(字节 Seed 团队):先用 Text VAE 把言语压缩成更深层的语义潜空间,再在这个纯语义空间里用 Flow Matching 建模全局先验,临了才解码回环字。论漂后确说:扩散经过作念的是"潜在先验运载",不是" token 级别的不雅测复原"。20 亿参数,8 个基准,与同体量自纪念模子和照旧 scale 到 1000 亿参数的 LLaDA2.0 严格对比,贯串阶梯的 scaling 弧线是健康的。

图:Cola DLM 合座架构图
两篇论文的中枢都在抒发,token 不是言语建模的必要条目。贯串空间不错作念得更好、更快、更省。

图:自纪念模子逐 token 生成,每一步不可逆选定一个龙套鲜艳,已选 token 锁定后续通盘可能性。

图:贯串流模子从噪声启程,沿速率场平滑演化到主张镶嵌,全程可逆可调,仅在非常映射回环字,ELF 论文。
03 AI 巨头也在质疑" Tokenization "?这两篇论文仅仅学术信号,科技巨头也在用真金白银下注。
Google 是最早、也最坚硬地走向"原生多模态合伙"的巨头。Gemini 的技巧论确认确写谈:它是" from the ground up "历练的多模态模子, " not by bolting a frozen vision encoder onto a text decoder "(不是把冻结的视觉编码器接到文本解码器上)。
文本、图像、音频、视频在团结个模子里交错历练,分享堤防力层。这个推断打算形而上学从 2023 年 12 月的 Gemini 1.0 延续到了 2026 年的 3.1 Pro。2026 年 3 月发布的 Gemini Embedding 2 把这件事推到了表征层面:一个 embedding 模子,原生继承文本、图像、文档、音频、视频输入,Z6尊龙凯时2026世界杯推荐官网一起映射到团结个 3072 维向量空间。
Google 在作念的事情,试验上等于为通盘模态建造一个合伙的贯串坐标系,模态之间的范围在这个坐标系里不存在。
OpenAI 走了一条更波折的路。GPT-4V 时间的架构是拼接式的,由一个视觉编码器外挂到言语模子上,跨模态信息需要经过特地的投影层传递。GPT-5 系列公开强化了多模态推明智力,但 OpenAI 并未败露富裕细的架构信息。不错笃定的是,OpenAI 正在把文本、视觉、视频等智力更深地整合进中枢模子体验;不行笃定的是,它是否照旧完成了合伙 Transformer 层面的架构切换。
根据外媒报谈 Sora 运营时候"被职工视作牵扯核默算力的吞金兽"。OpenAI 选定砍掉视频把握,把算力汇集到 GPT-5.5 的 Agent 架构和 Codex 代码用具上。这也不错猜测:OpenAI 招供多模态合伙的地点,但在视频生成这个具体维度上暂时退场,恭候更高效的架构决策纯熟后再行插足。
字节越过 Seed 团队在 Cola DLM 论文的临了一句话是"为龙套文本与贯串模态的合伙建模指出了一条具体旅途"。Seed 团队自大视频生成模子 Seedance 系列照旧在使用雷同的贯串潜空间架构,私有上风在于:它同期领有抖音 /TikTok 级别的海量视频数据和前沿模子连系智力。若是贯串合伙空间确乎是下一代架构的谜底,字节是最有条目早先在工业限制考证它的公司。
金佰利app官网下载入口Anthropic 的选定是通盘巨头中最私有的,它在刻意隐衷多模态生成。限制 2026 年 5 月,Claude 莫得原生图像生成智力,莫得视频领会,莫得音频处理。2026 年 4 月发布的 Claude Design 生成的是结构化推断打算产出物,原型图、线框图、幻灯片,而不是像素级图像。
Anthropic 把险些通盘资源压在文本推理和代码引申上。这个政策在交易上正在被考证:Claude Code 年化收入 25 亿好意思元,2026 年 5 月 Anthropic 隐含估值冲到 1.2 万亿好意思元(36 氪报谈),主要靠的是企业客户为推理和代码智力付费。但从范式演进的角度看,这是一个在积贮技巧债的选定。若是两到三年后竞争的中枢转向"谁能在合伙贯串空间里同期领会和生成通盘模态",Anthropic 就很被迫。
在巨头除外,两个最值得情切的零丁押注来自 Ilya Sutskever 和 Yann LeCun。Sutskever 创办的 SSI(Safe Superintelligence)在 2025 年 5 月完成 20 亿好意思元融资,估值 320 亿好意思元——莫得居品、莫得论文、莫得任何公开技巧细节。投资东谈主买的隧谈是他对"下一个范式"的判断力。他在 NeurIPS 2024 所说的"预历练行将完毕",指的是靠堆数据预计 next token 的表情已到收益递减阶段,下一步需要的是质变。
LeCun2026 年 3 月离开使命杰出十年的 Meta,创办 AMI Labs,融资 10.3 亿好意思元,估值 35 亿。他的 JEPA 阶梯和 ELF/Cola DLM 形而上学重复,都是离开 token 空间、在贯串表征空间建模,但地点不同。JEPA 不追求生成传神的输出,强调在笼统空间里预计事物演化的物理扫尾。
LeCun 在 5 月的访谈中说:"自纪念机制一一预计 token,试验是在字符级别作念统计复现,不是在建模寰宇的因果轨则。参数目的加多处治不了这个结构性弱势。"他以为,生成仅仅模拟,预计才是领会。
04 若是 token 范式阑珊,谁会莫得往时?
作念视频 tokenizer 的公司首当其冲。VQ-VAE、MAGVIT、OmniTokenizer,这些使命的中枢价值主张是"高质料视频龙套编码"。英伟达的 Cosmos Tokenizer、微软的 VidTok,大厂也在竞争。若是言语生成都驱动把核神思较挪动到贯串空间,那么视频这类自然贯串的数据,更莫得根由被默许压成龙套 token 序列。
信得过的问题会酿成:什么样的视觉表征既能高效压缩,又能保留富裕的物理、时序和语义结构。
然后是"多模态"这个居品叙事自己。当通盘模态分享一个贯串空间时,"多模态智力"酿成默许设立,不再是互异化卖点。就像今天没东谈主把"守旧中语和英文"当成一个 AI 居品的中枢竞争力。作念模态桥接和对王人的中间层居品也面对通常的问题——若是基础模子原生在合伙空间运行,文本和视觉之间不存在需要被弥补的"鸿沟",弥补鸿沟的生意就莫得根由存在。
再往下流推一步,今天通盘行业按 token 收费,是因为自纪念模子的资本结构极其透明:生成 1000 个 token 等于串行跑 1000 步推理,输入输出的 token 数径直等于算力耗尽。
但若是核神思较挪动到贯串空间,扩散模子可能用固定步数生成随便长度文本,输出长度与计较量脱钩,"耗尽了几许 token "就不再是资本的确凿度量。
仅仅,AI 的发展太快,估量 AI 交易价值的信得过订价体系还没固定下来,下一个范式可能就会发生。而具体会是多快,莫得东谈主能够预计。
05 大言语模子能走到 AGI 吗?
回到伊始的问题,大言语模子范式能走到 AGI 吗?
从 token 范式自己的结构来看,不行,它的历练信号有信息论上的硬上限。东谈主类言语看成有损压缩公约,在编码时就不可逆地丢弃了寰宇的精深结构。在压缩产物上作念任何建模,都还原不了被丢弃的维度。
但"杀死 tokenization "也不等于到达 AGI。ELF 和 Cola DLM 讲明了贯串空间更高效、更优雅,但它们的历练数据仍然来自东谈主类产出的内容,一个有损压缩后的寰宇。LeCun 看到了这一层,是以他押注"能预计物理扫尾的寰宇模子"。Sutskever 或者也看到了。
但这也许仅仅第一步,若是模子不再受困于东谈主类言语的压缩时局时,它需要的新历练信号从那儿来?
谜底或者不在更多的数据里,而在某种主动探索中——辞寰宇中行动,承受扫尾,从响应中学习。
这将是咱们在后头的另外一篇著述中Z6尊龙凯时2026世界杯推荐官网,连续洽商的主题。