张小珺Jùn|商业访谈录

Training World Models
Over Word Models

2026年2月,布鲁克林暴雪之后的一栋楼房里,一场从下午2点持续到凌晨的马拉松式对话。这是谢赛宁第一次接受深度访谈。

BROOKLYN, NEW YORK · FEBRUARY 2026 · AFTER THE SNOWSTORM

谢赛宁 Saining Xie

Co-founder & Chief Science Officer, AMI Labs

1990年生于中国,上海交通大学ACM班 → 加州大学圣地亚哥分校 → Meta FAIR(4年) → Google DeepMind → 纽约大学助理教授。共同提出 Diffusion Transformers (DiT),论文总引用数近10万次。学生中走出了 Sora 负责人 William Peebles 和 Pika 创始人郭文景。

张小珺 Zhang Xiaojun

Financial Journalist & Podcast Producer

财经作者,长期关注AI、科技巨头、风险投资与知名人物的中国商业深度报道。播客《张小珺Jùn|商业访谈录》制作人,以深度长对话著称,曾访谈杨植麟、李想、印奇等AI与科技领域关键人物。她说:如果我的访谈能陪你走一段孤独的路,也许离目的地更近一点。

"Silicon Valley is very LLM-pilled。硅谷已经深陷于LLM,完全被它催眠了。"
— 谢赛宁,AMI Labs联合创始人兼首席科学官
对谈章节 · Interactive Chapters
00:01
🧬 The Normal One — 一个"正常"的科学家
谢赛宁的成长叙事:从一个自认为"normal"的人,到踏上AI研究的不归路

▸ 核心内容

谢赛宁用 "the normal one" 来描述自己——不是天才少年,不是竞赛冠军。他在上海交通大学ACM班就读,周围都是信息学竞赛金牌得主,而他觉得自己只是一个"正常人"。正是这种"局外人"的视角,让他后来在学术路上保持了独特的品味和判断力。

他并非一开始就笃定AI这条路。在交大ACM班的日子里,他见证了真正的天才是什么样子,也因此学会了用不同的方式定义自己的价值。 — 叙事提炼

这段讲述揭示了一个重要的元叙事:在AI领域,最具颠覆性的想法往往不来自最"聪明"的人,而来自那些保持好奇心、愿意在交叉地带探索的人。

00:35
👁️ 世界总不让我做Vision
在NLP浪潮汹涌的年代,坚持做计算机视觉研究的孤独与执念

▸ 核心内容

从2018年Transformer席卷NLP开始,到GPT系列引发全球大模型军备竞赛,整个AI界的注意力和资源都在向"语言"倾斜。而谢赛宁始终坚信:视觉(Vision)才是通向真正智能的关键路径。他曾被NeurIPS拒稿,经历过论文发不出的低谷,但也正是这些"逆风"时期的坚持,让他后来提出了影响深远的工作。

语言是人类文明高度提炼的产物,它本质上是一种"捷径"。如果你只从文字中学习,你永远无法真正理解这个世界——你只是在模仿人类表达的方式,而不是理解世界运转的方式。 — 谢赛宁
00:52
🌍 学术流浪
从UCSD到Meta FAIR,从Google DeepMind到NYU——一位学者的游牧式成长

▸ 核心内容

谢赛宁的职业轨迹是一场学术流浪:UCSD读博 → Meta FAIR做研究科学家4年 → Google DeepMind → NYU任教。每一次选择都不是功利计算,而是追随研究本能。在FAIR,他身处全球最顶尖的视觉研究团队;在DeepMind,他接触到了更前沿的生成模型方向。

他形容自己在面试各大AI实验室时的经历极具戏剧性——DeepMind要求两小时解100多道数学题,OpenAI由John Schulman亲自手写强化学习问题要求当场解决。

00:57
🤝 与何恺明的友谊
两位华人计算机视觉巨擘的学术情谊与思想碰撞

▸ 核心内容

何恺明(Kaiming He)是ResNet的发明者,也是谢赛宁在FAIR时期最重要的合作者与朋友。两人在Meta FAIR共事期间,共同推动了一系列具有里程碑意义的视觉研究。谢赛宁提出的 ResNeXtConvNeXt 都深受何恺明研究范式的影响。

这段友谊不仅是技术层面的互补,更是一种 research taste(研究品味)的共鸣——他们都相信,好的研究应该是简洁的、优雅的、能够经受时间考验的。

01:21
🚪 两次拒绝了Ilya
先后婉拒OpenAI与SSI邀约——选择的背后是路线之争

▸ 核心内容

这是访谈中最戏剧化的段落之一。2018年,Ilya Sutskever(前OpenAI首席科学家)邀请谢赛宁加入OpenAI,谢赛宁选择了Meta FAIR。2024年,Ilya离开OpenAI创立SSI再次邀约,谢赛宁又一次婉拒。

拒绝的核心原因不是个人恩怨,而是对AI路线的根本分歧。Ilya和OpenAI整个体系建立在一个信念之上:语言模型通过足够的规模可以涌现出越来越强的智能。而谢赛宁不信这条路能通向真正的智能。 — 内容提炼

两次拒绝Ilya,就是两次拒绝了当时AI世界最热门的"船票"。但谢赛宁的逻辑很清晰:如果你不相信LLM路线,加入一个以LLM为信仰的组织毫无意义。

01:37
🏛️ 杨立昆和李飞飞往事
与两位AI领域标志性人物的深度交往,以及世界模型路线的精神源流

▸ 核心内容

Yann LeCun(杨立昆)——图灵奖得主、卷积网络之父、Meta前首席AI科学家——是谢赛宁在FAIR时期的"导师级"人物。LeCun一直坚持一个在LLM狂热中显得"异端"的观点:语言模型不是通向AGI的正确道路。他在Meta时提出的 JEPA架构(Joint Embedding Predictive Architecture),成为后来AMI Labs技术方向的基石。

李飞飞——ImageNet之母、斯坦福教授——则代表了另一个维度的启发。她创立的World Labs同样押注世界模型方向。2026年的AI圈,正式迎来世界模型的"终极对决":李飞飞的World Labs vs 杨立昆的AMI Labs。

01:58
🧩 草蛇灰线:"表征的世界"
从ResNeXt到DiT,一条隐藏在论文序列中的思想暗线

▸ 核心内容

回顾谢赛宁的论文序列——ResNeXt → ConvNeXt → DiT——表面上看是从CNN到Transformer的技术迭代,但底层贯穿着一条不变的主线:表征学习 (Representation Learning)。他一直在追问:怎样让机器学到更好的世界表征?

DiT论文的影响是决定性的:它让视觉模型能像大语言模型一样受益于Scaling Law。后来Sora、Stable Diffusion新版本,底层都在DiT的延伸路线上。他的学生William Peebles成了OpenAI Sora核心负责人,郭文景创立了Pika。但对谢赛宁来说,这些还不够——生成好图像/视频只是副产品,他真正想回答的是:AI能不能真正理解这个世界?

02:43
📿 Research Taste 与《金刚经》
研究品味的形成,以及一种近乎禅宗式的科学方法论

▸ 核心内容

这是访谈中最具人文深度的段落。谢赛宁谈到了 Research Taste(研究品味)——这个在学术界被频繁提及却很少被认真定义的概念。他认为好的research taste不是方法论,而是一种直觉:知道什么问题值得问,什么方向值得走,什么答案是"对"的。

他将这种直觉与《金刚经》中的智慧相连:不执着于任何一种范式,不被当下的"正确答案"所束缚。好的研究者应该像水一样,能够在不同的思想容器之间自由流动。 — 叙事提炼

这段近一个半小时的深度讨论,是整场访谈的思想高地。它超越了技术讨论,进入了科学哲学的领域。

04:11
🌐 世界模型是什么?
从技术原理到哲学内涵——一次对World Model的系统性阐释

▸ 核心内容

访谈的技术核心。谢赛宁系统性地区分了 World Model(世界模型)与 Word Model(语言模型):语言模型预测"下一个token",世界模型基于行动预测"下一个状态"。

LLM像一个读了全世界所有书的人——他什么都能谈,但他从来没出过门。世界模型要做的,是让AI像一个在真实世界中成长的孩子一样,通过观察、交互、试错来理解世界的运作规律。 — 谢赛宁

世界模型从真实世界的传感器数据中学习抽象表示,在表征空间中进行预测。在这种框架下,行动条件(action-conditioned)的世界模型可以让智能体预测自身行为的后果,并在安全约束下规划行动。

谢赛宁还直言:"我完全不觉得LLM是Bitter Lesson的成功展示,某种程度上,LLM是反Bitter Lesson的。" 他认为AGI是伪命题——打造一只能够在现实世界生存的智能体,比解决数学竞赛或写代码更困难。

04:29
⬇️ 从下载互联网,到下载人类
一个关于AI训练范式转变的惊人隐喻

▸ 核心内容

这是谢赛宁在整场访谈中最具想象力的表达:

LLM的训练数据本质上是"下载互联网"——把人类写在网上的所有文字喂给模型。而世界模型要做的,是"下载人类"——不是人类说了什么,而是人类如何感知、如何行动、如何在物理世界中生存。 — 谢赛宁

如果LLM路线是对的,AI的上限就是"一个读了所有书但没有身体的超级大脑"。如果世界模型路线是对的,AI的上限是"一个既能思考又能理解和操控物理世界的完整智能体"。

他认为AI训练范式正从"下载互联网"转向"下载人类",短期落地场景将是AI智能眼镜与机器人。

04:58
🚀 和杨立昆创立AMI始末
25人团队,10.3亿美元种子轮,零产品——一场关于信仰的豪赌

▸ 核心内容

AMI Labs(Advanced Machine Intelligence Labs)的创立故事:杨立昆离开效力13年的Meta,联合谢赛宁等核心研究者创立了这家公司。仅25人、零产品的状态下完成 $10.3亿种子轮,投前估值35亿美元——创造了欧洲历史最大Seed轮。

投资阵容包括NVIDIA、三星、贝索斯家族基金、Eric Schmidt、Mark Cuban等。LeCun曾"三顾茅庐"邀请谢赛宁加入——在FAIR聘请过他两次,创立AMI时再次力邀。公司总部设在巴黎,刻意不在硅谷设办公室。

谢赛宁的个人主页只写了一句话:"Training world models over word models." ——用一句话向整个AI行业宣战。

05:45
💊 "硅谷被催眠了"
对LLM路线的系统性批评,以及为什么要"逃出硅谷"

▸ 核心内容

"Silicon Valley is very LLM-pilled. 硅谷已经深陷于LLM,完全被它催眠了。" — 谢赛宁

谢赛宁认为,硅谷的LLM路线正在形成一种"集体催眠":所有人都在做同一件事,所有的钱都流向同一个方向,所有的人才都被同一种叙事吸引。这不是科学进步的方式,而是泡沫的特征。

AMI Labs刻意选择巴黎作为总部,而非硅谷。谢赛宁将此比喻为"逃出硅谷"——物理距离创造思想距离。当所有人都在同一个房间里对着同一面墙时,你需要走出去才能看到不同的风景。

语言本身是一种"捷径"——它是人类文明几万年提炼出来的高度压缩的信息载体。过度依赖这种捷径会限制AI对真实世界的学习能力。

06:07
🪞 自大的人类!
关于AGI的反思——为何"在现实世界中生存"比解数学题更难

▸ 核心内容

谢赛宁直言:"AGI是伪命题。" 他的逻辑:人类定义AGI时,总是以人类擅长的事情为标准——数学、编程、写作、逻辑推理。但这些恰恰是人类认知中最容易被形式化的部分。

打造一只能够在现实世界中生存的智能体,比解决数学竞赛或写代码要困难得多。一只猫在复杂的物理环境中导航的能力,远比GPT-4解数学题更接近"智能"的本质。 — 谢赛宁

这是对整个AI行业"人类中心主义"的深刻反思。当我们用"通过律师考试"来衡量AI时,我们只是在用人类的偏见定义智能。真正的挑战是让AI理解物理世界的因果关系——这才是世界模型的终极使命。

06:18
"42"
终章——对生命、宇宙和一切的终极回答

▸ 核心内容

访谈的最后一个章节,标题来自《银河系搭车客指南》——42是"关于生命、宇宙以及一切的终极问题的答案"。

这个看似荒谬的答案,其实蕴含着深意:超级计算机算出了答案,但没有人知道问题是什么。正如AI领域的现状——我们一直在拼命寻找"答案"(更大的模型、更多的算力),但也许我们连正确的"问题"都还没有搞清楚。

也许"42"的启示是:在追问答案之前,先确保你问对了问题。整个AI行业都在回答"如何让模型更大更强",但也许真正的问题是"智能究竟是什么"。 — 对谈终章的哲学余韵

凌晨时分,纽约的雪已经停了。布鲁克林的街头沉默而清冷。一场7小时的对话结束了,但关于世界模型、关于AI的未来、关于智能的本质——这些问题,才刚刚开始。

核心启示 · Key Takeaways
🧠

World Model ≠ Word Model

语言模型预测"下一个token",世界模型预测"下一个状态"。前者从文字中学习,后者从物理世界的感知与交互中学习。这不是技术细节的差异,而是通向智能的两条根本不同的道路。

💡

下载互联网 → 下载人类

LLM的训练范式是"下载互联网"——将人类在网上的文字全部喂给模型。世界模型的范式是"下载人类"——学习人类如何感知、行动、在物理世界中生存。这决定了AI的上限是"超级大脑"还是"完整智能体"。

🔬

Research Taste 是终极壁垒

技术可以复制,算力可以购买,但研究品味(Research Taste)无法速成。它像《金刚经》中的智慧——不执着于任何范式,在不确定中保持判断力。这是谢赛宁两次拒绝Ilya的底层逻辑。

🌌

42 — 问对问题比找到答案更重要

整个AI行业都在回答"如何让模型更大更强"。但也许正确的问题是"智能究竟是什么"。当你问错了问题,再精确的答案都是无意义的。逃出硅谷,也许首先是逃出一种思维定式。