xAI 内部:3 个月做出 Grok Imagine、视频生成、世界模型与视频 Agent
Ethan He 在 xAI 从 0 infra / 0 data / 0 model 起步,3 个月内带几个工程师交付了 Grok Imagine 0.9(首个大规模部署的 audio-video joint generation 模型)。这期访谈把 视频模型的全链路拆开讲: synthetic text-video pair、VAE tokenizer、temporal vs frame-by-frame 压缩、step distillation、长视频的 context 管理。他给 world model 下了一个 三支柱定义 (real time + interactive + long horizon),并提出一个"big claim" —— 现在视觉模型的进步主要来自语言模型,而不是视频模型本身——这也是他刚离开 xAI 想回到 语言模型 / context-aware agent 方向的原因。