7h Marathon · 谢赛宁 × 张小珺

00:01

🧬 The Normal One — 一个"正常"的科学家

谢赛宁的成长叙事：从一个自认为"normal"的人，到踏上AI研究的不归路

▼

▸ 核心内容

谢赛宁用 "the normal one" 来描述自己——不是天才少年，不是竞赛冠军。他在上海交通大学ACM班就读，周围都是信息学竞赛金牌得主，而他觉得自己只是一个"正常人"。正是这种"局外人"的视角，让他后来在学术路上保持了独特的品味和判断力。

他并非一开始就笃定AI这条路。在交大ACM班的日子里，他见证了真正的天才是什么样子，也因此学会了用不同的方式定义自己的价值。 — 叙事提炼

这段讲述揭示了一个重要的元叙事：在AI领域，最具颠覆性的想法往往不来自最"聪明"的人，而来自那些保持好奇心、愿意在交叉地带探索的人。

00:35

👁️ 世界总不让我做Vision

在NLP浪潮汹涌的年代，坚持做计算机视觉研究的孤独与执念

▼

▸ 核心内容

从2018年Transformer席卷NLP开始，到GPT系列引发全球大模型军备竞赛，整个AI界的注意力和资源都在向"语言"倾斜。而谢赛宁始终坚信：视觉(Vision)才是通向真正智能的关键路径。他曾被NeurIPS拒稿，经历过论文发不出的低谷，但也正是这些"逆风"时期的坚持，让他后来提出了影响深远的工作。

语言是人类文明高度提炼的产物，它本质上是一种"捷径"。如果你只从文字中学习，你永远无法真正理解这个世界——你只是在模仿人类表达的方式，而不是理解世界运转的方式。 — 谢赛宁

00:52

🌍 学术流浪

从UCSD到Meta FAIR，从Google DeepMind到NYU——一位学者的游牧式成长

▼

▸ 核心内容

谢赛宁的职业轨迹是一场学术流浪：UCSD读博 → Meta FAIR做研究科学家4年 → Google DeepMind → NYU任教。每一次选择都不是功利计算，而是追随研究本能。在FAIR，他身处全球最顶尖的视觉研究团队；在DeepMind，他接触到了更前沿的生成模型方向。

他形容自己在面试各大AI实验室时的经历极具戏剧性——DeepMind要求两小时解100多道数学题，OpenAI由John Schulman亲自手写强化学习问题要求当场解决。

00:57

🤝 与何恺明的友谊

两位华人计算机视觉巨擘的学术情谊与思想碰撞

▼

▸ 核心内容

何恺明（Kaiming He）是ResNet的发明者，也是谢赛宁在FAIR时期最重要的合作者与朋友。两人在Meta FAIR共事期间，共同推动了一系列具有里程碑意义的视觉研究。谢赛宁提出的 ResNeXt 和 ConvNeXt 都深受何恺明研究范式的影响。

这段友谊不仅是技术层面的互补，更是一种 research taste（研究品味）的共鸣——他们都相信，好的研究应该是简洁的、优雅的、能够经受时间考验的。

01:21

🚪 两次拒绝了Ilya

先后婉拒OpenAI与SSI邀约——选择的背后是路线之争

▼

▸ 核心内容

这是访谈中最戏剧化的段落之一。2018年，Ilya Sutskever（前OpenAI首席科学家）邀请谢赛宁加入OpenAI，谢赛宁选择了Meta FAIR。2024年，Ilya离开OpenAI创立SSI再次邀约，谢赛宁又一次婉拒。

拒绝的核心原因不是个人恩怨，而是对AI路线的根本分歧。Ilya和OpenAI整个体系建立在一个信念之上：语言模型通过足够的规模可以涌现出越来越强的智能。而谢赛宁不信这条路能通向真正的智能。 — 内容提炼

两次拒绝Ilya，就是两次拒绝了当时AI世界最热门的"船票"。但谢赛宁的逻辑很清晰：如果你不相信LLM路线，加入一个以LLM为信仰的组织毫无意义。

01:37

🏛️ 杨立昆和李飞飞往事

与两位AI领域标志性人物的深度交往，以及世界模型路线的精神源流

▼

▸ 核心内容

Yann LeCun（杨立昆）——图灵奖得主、卷积网络之父、Meta前首席AI科学家——是谢赛宁在FAIR时期的"导师级"人物。LeCun一直坚持一个在LLM狂热中显得"异端"的观点：语言模型不是通向AGI的正确道路。他在Meta时提出的 JEPA架构（Joint Embedding Predictive Architecture），成为后来AMI Labs技术方向的基石。

李飞飞——ImageNet之母、斯坦福教授——则代表了另一个维度的启发。她创立的World Labs同样押注世界模型方向。2026年的AI圈，正式迎来世界模型的"终极对决"：李飞飞的World Labs vs 杨立昆的AMI Labs。

01:58

🧩 草蛇灰线："表征的世界"

从ResNeXt到DiT，一条隐藏在论文序列中的思想暗线

▼

▸ 核心内容

回顾谢赛宁的论文序列——ResNeXt → ConvNeXt → DiT——表面上看是从CNN到Transformer的技术迭代，但底层贯穿着一条不变的主线：表征学习 (Representation Learning)。他一直在追问：怎样让机器学到更好的世界表征？

DiT论文的影响是决定性的：它让视觉模型能像大语言模型一样受益于Scaling Law。后来Sora、Stable Diffusion新版本，底层都在DiT的延伸路线上。他的学生William Peebles成了OpenAI Sora核心负责人，郭文景创立了Pika。但对谢赛宁来说，这些还不够——生成好图像/视频只是副产品，他真正想回答的是：AI能不能真正理解这个世界？

02:43

📿 Research Taste 与《金刚经》

研究品味的形成，以及一种近乎禅宗式的科学方法论

▼

▸ 核心内容

这是访谈中最具人文深度的段落。谢赛宁谈到了 Research Taste（研究品味）——这个在学术界被频繁提及却很少被认真定义的概念。他认为好的research taste不是方法论，而是一种直觉：知道什么问题值得问，什么方向值得走，什么答案是"对"的。

他将这种直觉与《金刚经》中的智慧相连：不执着于任何一种范式，不被当下的"正确答案"所束缚。好的研究者应该像水一样，能够在不同的思想容器之间自由流动。 — 叙事提炼

这段近一个半小时的深度讨论，是整场访谈的思想高地。它超越了技术讨论，进入了科学哲学的领域。

04:11

🌐 世界模型是什么？

从技术原理到哲学内涵——一次对World Model的系统性阐释

▼

▸ 核心内容

访谈的技术核心。谢赛宁系统性地区分了 World Model（世界模型）与 Word Model（语言模型）：语言模型预测"下一个token"，世界模型基于行动预测"下一个状态"。

LLM像一个读了全世界所有书的人——他什么都能谈，但他从来没出过门。世界模型要做的，是让AI像一个在真实世界中成长的孩子一样，通过观察、交互、试错来理解世界的运作规律。 — 谢赛宁

世界模型从真实世界的传感器数据中学习抽象表示，在表征空间中进行预测。在这种框架下，行动条件(action-conditioned)的世界模型可以让智能体预测自身行为的后果，并在安全约束下规划行动。

谢赛宁还直言："我完全不觉得LLM是Bitter Lesson的成功展示，某种程度上，LLM是反Bitter Lesson的。" 他认为AGI是伪命题——打造一只能够在现实世界生存的智能体，比解决数学竞赛或写代码更困难。

04:29

⬇️ 从下载互联网，到下载人类

一个关于AI训练范式转变的惊人隐喻

▼

▸ 核心内容

这是谢赛宁在整场访谈中最具想象力的表达：

LLM的训练数据本质上是"下载互联网"——把人类写在网上的所有文字喂给模型。而世界模型要做的，是"下载人类"——不是人类说了什么，而是人类如何感知、如何行动、如何在物理世界中生存。 — 谢赛宁

如果LLM路线是对的，AI的上限就是"一个读了所有书但没有身体的超级大脑"。如果世界模型路线是对的，AI的上限是"一个既能思考又能理解和操控物理世界的完整智能体"。

他认为AI训练范式正从"下载互联网"转向"下载人类"，短期落地场景将是AI智能眼镜与机器人。

04:58

🚀 和杨立昆创立AMI始末

25人团队，10.3亿美元种子轮，零产品——一场关于信仰的豪赌

▼

▸ 核心内容

AMI Labs（Advanced Machine Intelligence Labs）的创立故事：杨立昆离开效力13年的Meta，联合谢赛宁等核心研究者创立了这家公司。仅25人、零产品的状态下完成 $10.3亿种子轮，投前估值35亿美元——创造了欧洲历史最大Seed轮。

投资阵容包括NVIDIA、三星、贝索斯家族基金、Eric Schmidt、Mark Cuban等。LeCun曾"三顾茅庐"邀请谢赛宁加入——在FAIR聘请过他两次，创立AMI时再次力邀。公司总部设在巴黎，刻意不在硅谷设办公室。

谢赛宁的个人主页只写了一句话："Training world models over word models." ——用一句话向整个AI行业宣战。

05:45

💊 "硅谷被催眠了"

对LLM路线的系统性批评，以及为什么要"逃出硅谷"

▼

▸ 核心内容

"Silicon Valley is very LLM-pilled. 硅谷已经深陷于LLM，完全被它催眠了。" — 谢赛宁

谢赛宁认为，硅谷的LLM路线正在形成一种"集体催眠"：所有人都在做同一件事，所有的钱都流向同一个方向，所有的人才都被同一种叙事吸引。这不是科学进步的方式，而是泡沫的特征。

AMI Labs刻意选择巴黎作为总部，而非硅谷。谢赛宁将此比喻为"逃出硅谷"——物理距离创造思想距离。当所有人都在同一个房间里对着同一面墙时，你需要走出去才能看到不同的风景。

语言本身是一种"捷径"——它是人类文明几万年提炼出来的高度压缩的信息载体。过度依赖这种捷径会限制AI对真实世界的学习能力。

06:07

🪞 自大的人类！

关于AGI的反思——为何"在现实世界中生存"比解数学题更难

▼

▸ 核心内容

谢赛宁直言："AGI是伪命题。" 他的逻辑：人类定义AGI时，总是以人类擅长的事情为标准——数学、编程、写作、逻辑推理。但这些恰恰是人类认知中最容易被形式化的部分。

打造一只能够在现实世界中生存的智能体，比解决数学竞赛或写代码要困难得多。一只猫在复杂的物理环境中导航的能力，远比GPT-4解数学题更接近"智能"的本质。 — 谢赛宁

这是对整个AI行业"人类中心主义"的深刻反思。当我们用"通过律师考试"来衡量AI时，我们只是在用人类的偏见定义智能。真正的挑战是让AI理解物理世界的因果关系——这才是世界模型的终极使命。

06:18

✦ "42"

终章——对生命、宇宙和一切的终极回答

▼

▸ 核心内容

访谈的最后一个章节，标题来自《银河系搭车客指南》——42是"关于生命、宇宙以及一切的终极问题的答案"。

这个看似荒谬的答案，其实蕴含着深意：超级计算机算出了答案，但没有人知道问题是什么。正如AI领域的现状——我们一直在拼命寻找"答案"（更大的模型、更多的算力），但也许我们连正确的"问题"都还没有搞清楚。

也许"42"的启示是：在追问答案之前，先确保你问对了问题。整个AI行业都在回答"如何让模型更大更强"，但也许真正的问题是"智能究竟是什么"。 — 对谈终章的哲学余韵

凌晨时分，纽约的雪已经停了。布鲁克林的街头沉默而清冷。一场7小时的对话结束了，但关于世界模型、关于AI的未来、关于智能的本质——这些问题，才刚刚开始。

Training World Models
Over Word Models

谢赛宁 Saining Xie

张小珺 Zhang Xiaojun

▸ 核心内容

▸ 核心内容

▸ 核心内容

▸ 核心内容

▸ 核心内容

▸ 核心内容

▸ 核心内容

▸ 核心内容

▸ 核心内容

▸ 核心内容

▸ 核心内容

▸ 核心内容

▸ 核心内容

▸ 核心内容

World Model ≠ Word Model

下载互联网 → 下载人类

Research Taste 是终极壁垒

42 — 问对问题比找到答案更重要

Training World ModelsOver Word Models

谢赛宁 Saining Xie

张小珺 Zhang Xiaojun

▸ 核心内容

▸ 核心内容

▸ 核心内容

▸ 核心内容

▸ 核心内容

▸ 核心内容

▸ 核心内容

▸ 核心内容

▸ 核心内容

▸ 核心内容

▸ 核心内容

▸ 核心内容

▸ 核心内容

▸ 核心内容

World Model ≠ Word Model

下载互联网 → 下载人类

Research Taste 是终极壁垒

42 — 问对问题比找到答案更重要

Training World Models
Over Word Models