Description
<p style="color:#333333;font-weight:normal;font-size:16px;line-height:30px;font-family:Helvetica,Arial,sans-serif;hyphens:auto;text-align:justify;" data-flag="normal">李智昊,1998 年生。Spark AI 联合创始人。Spark 3D 论文发表在 NeurIPS 2025。</p><p style="color:#333333;font-weight:normal;font-size:16px;line-height:30px;font-family:Helvetica,Arial,sans-serif;hyphens:auto;text-align:justify;" data-flag="normal">聊到第 33 分钟,他对我说:</p><span><br></span><p style="color:#333333;font-weight:normal;font-size:16px;line-height:30px;font-family:Helvetica,Arial,sans-serif;hyphens:auto;text-align:justify;" data-flag="normal">「<b>从我的视角来看,这条路线非常的不本质。</b>」</p><p style="color:#333333;font-weight:normal;font-size:16px;line-height:30px;font-family:Helvetica,Arial,sans-serif;hyphens:auto;text-align:justify;" data-flag="normal">——「这条路线」指的是今天最火、最多融资的世界模型公司"用视频做世界模型"的路线。</p><p style="color:#333333;font-weight:normal;font-size:16px;line-height:30px;font-family:Helvetica,Arial,sans-serif;hyphens:auto;text-align:justify;" data-flag="normal">去年 5 月 1 日凌晨,他和团队的 Spark 3D demo 上了 Hugging Face Trending 第一。他的判断是:4D 物理世界自己的 Stable Diffusion 时刻——<b>两年内会被实现</b>。</p><p style="color:#333333;font-weight:normal;font-size:16px;line-height:30px;font-family:Helvetica,Arial,sans-serif;hyphens:auto;text-align:justify;" data-flag="normal">这一期是给所有做图、做 3D、做机器人、做游戏、做视频、以及想在下一波 AI 跃迁里"埋伏"的人——一份蹲守地图。</p><span><br></span><p style="font-size:17px;line-height:30px;margin:10px 0px;color:#333333;font-weight:900;" data-flag="subtitle"><strong style="color:#FC5832;word-break:break-all;font-family:Helvetica,Arial,sans-serif;font-weight: normal;">嘉宾</strong></p><p style="color:#333333;font-weight:normal;font-size:16px;line-height:30px;font-family:Helvetica,Arial,sans-serif;hyphens:auto;text-align:justify;" data-flag="normal"><b>李智昊</b>|Spark AI 联合创始人。1998 年生,南大本科、新加坡南洋理工大学博士。代表作 Spark 3D——2025 年 5 月 1 日 demo 上 Hugging Face Trending 第一名,论文发表于 NeurIPS。一直沿着"压缩可以提升智能"这条暗线在走:从语言、图像、3D 一路逼到 4D 物理世界。本期他给所有人画了一张"世界模型赛道全景图",并预测了下一个跃迁的时间窗。</p><span><br></span><p style="font-size:17px;line-height:30px;margin:10px 0px;color:#333333;font-weight:900;" data-flag="subtitle"><strong style="color:#FC5832;word-break:break-all;font-family:Helvetica,Arial,sans-serif;font-weight: normal;">亮点</strong></p><span><br></span><p style="color:#333333;font-weight:normal;font-size:16px;line-height:30px;font-family:Helvetica, Arial, sans-serif;hyphens:auto;text-align:justify;" data-flag="normal"><b>视频是 4D 物理世界的有损投影</b></p><span><br></span><p style="color:#333333;font-weight:normal;font-size:16px;line-height:30px;font-family:Helvetica,Arial,sans-serif;hyphens:auto;text-align:justify;" data-flag="normal">聊到第 6 分钟,李智昊把所有"视频生成式"世界模型的根一句话点出来——它们都是"从视频出发",把视频当成 4D 物理世界的投影来做建构。问题在哪?「<b>它被拍扁了那一刻,就很多的物理规律就被丢失掉了</b>。举个最简单的例子,我们两个人相遇,这手手之间错过——为什么一直视频生成会有很大的问题?因为他丢失了这种手的前后关系、深度的空间关系。」</p><span><br></span><p style="color:#333333;font-weight:normal;font-size:16px;line-height:30px;font-family:Helvetica,Arial,sans-serif;hyphens:auto;text-align:justify;" data-flag="normal"><b>这条路线非常的不本质</b></p><span><br></span><p style="color:#333333;font-weight:normal;font-size:16px;line-height:30px;font-family:Helvetica,Arial,sans-serif;hyphens:auto;text-align:justify;" data-flag="normal">全集冲突感最强的一句直引。任鑫问:能不能像 GPT 那样用 Next Token Prediction,直接从视频里把 3D 理解逼出来?李智昊的回答:「其实每个人都有不同的观点。<b>从我的视角来看,这条路线非常的不本质。</b> 因为你妄图从这种海量的数据里面做推理、做建模,它其实并不是一个高效的表征。」一句话把今天市面上所有视频生成派的世界模型公司都点了名。</p><span><br></span><p style="color:#333333;font-weight:normal;font-size:16px;line-height:30px;font-family:Helvetica,Arial,sans-serif;hyphens:auto;text-align:justify;" data-flag="normal"><b>视频生成派的第二个死结:Latency</b></p><span><br></span><p style="color:#333333;font-weight:normal;font-size:16px;line-height:30px;font-family:Helvetica,Arial,sans-serif;hyphens:auto;text-align:justify;" data-flag="normal">李智昊给视频派的第二个判断:现在通用做法是用 3D VAE 对原始视频进行压缩——「它不可避免的会对时间维度进行压缩,这样就会导致你在 latent space 想去做一个 action,得到的 feedback 会在几帧之后,甚至有可能一秒之后才有。相当于你在 Vivo 的自动驾驶 simulator 里踩了一下刹车,最后过了十几帧才得到一个 feedback。」对自动驾驶 simulator、机器人 RL 训练,这种 latency 是致命的。</p><span><br></span><p style="color:#333333;font-weight:normal;font-size:16px;line-height:30px;font-family:Helvetica,Arial,sans-serif;hyphens:auto;text-align:justify;" data-flag="normal"><b>Spark 3D 的路:4D 点云 + Motion 残差</b></p><span><br></span><p style="color:#333333;font-weight:normal;font-size:16px;line-height:30px;font-family:Helvetica,Arial,sans-serif;hyphens:auto;text-align:justify;" data-flag="normal">具体怎么做?李智昊和团队的路是「直接对 4D 空间进行建模」——以 4D 点云作为表征,把点源拆成"静态 + motion 残差"两部分。静态部分用 3D 高斯压缩,动态部分单独用一个小 token 表征。「我每次只压一个小的残差,不会把整张图像进行压缩。」一次 action 只改 motion 那一小段 token——latency 死结解开。</p><span><br></span><p style="color:#333333;font-weight:normal;font-size:16px;line-height:30px;font-family:Helvetica,Arial,sans-serif;hyphens:auto;text-align:justify;" data-flag="normal"><b>大厂难以去从表征层面来做更改</b></p><span><br></span><p style="color:#333333;font-weight:normal;font-size:16px;line-height:30px;font-family:Helvetica,Arial,sans-serif;hyphens:auto;text-align:justify;" data-flag="normal">任鑫问:这种事大公司不更适合干吗?人家有 10 万张卡。李智昊接着说:「其实我觉得这反而是我们差异化的优势。大厂他投入了非常巨量的资源去做每一次视频生成的训练……可能他下一个 Q 就要做超过他自己的 2.0、3.0……<b>但其实他们非常难以去从表征层面来做更改。</b> 每一次表征的更改都意味着你数据的推倒重来,也意味着从整个数据处理到整个压缩设计智能生成,所有的管线都可能要被重做。</p><span><br></span><p style="color:#333333;font-weight:normal;font-size:16px;line-height:30px;font-family:Helvetica,Arial,sans-serif;hyphens:auto;text-align:justify;" data-flag="normal"><b>壁垒在于表征的效率</b></p><span><br></span><p style="color:#333333;font-weight:normal;font-size:16px;line-height:30px;font-family:Helvetica,Arial,sans-serif;hyphens:auto;text-align:justify;" data-flag="normal">聊到后半段最关键的一句立场宣告,李智昊接着说:「我觉得现在大部分人认为世界模型的壁垒还在于数据。我去采更多的 egocentric 数据……因此在同样的数据量下,我也需要加入更多的算力。<b>我个人认为,包括我们 Spark AI 整个的姿态,还是认为壁垒在于表征的效率。</b> 你如果把更多或者再多的资源投入到错误的表征上,只是把现在的这个天花板逐渐去逼近,<b>而不是把天花板本身去捅破</b>。」——这是直接反主流"数据 + 算力"派的立场。</p><span><br></span><p style="color:#333333;font-weight:normal;font-size:16px;line-height:30px;font-family:Helvetica,Arial,sans-serif;hyphens:auto;text-align:justify;" data-flag="normal"><b>两年内会被实现 4D 的 Stable Diffusion 时刻</b></p><span><br></span><p style="color:#333333;font-weight:normal;font-size:16px;line-height:30px;font-family:Helvetica,Arial,sans-serif;hyphens:auto;text-align:justify;" data-flag="normal">任鑫问:4D 的「Stable Diffusion 时刻」会在两年内还是更晚一点?李智昊回答:「我觉得应该是在两年内,我们觉得还是比较有信心的。我们确实看到了一些迹象,我们认为两年内会被实现。」</p><span><br></span><p style="color:#333333;font-weight:normal;font-size:16px;line-height:30px;font-family:Helvetica,Arial,sans-serif;hyphens:auto;text-align:justify;" data-flag="normal">任鑫追问:假设 12 个月后有重大突破,第 9 个月该干啥?李智昊给的方向:高精度多人 Minecraft / 4D 元宇宙;AI 生成游戏 + 3D 资产;机器人 simulator;个性化 3D 打印。</p><span><br></span><p style="font-size:17px;line-height:30px;margin:10px 0px;color:#333333;font-weight:900;" data-flag="subtitle"><span>时间戳</span></p><p style="color:#333333;font-weight:normal;font-size:16px;line-height:30px;font-family:Helvetica,Arial,sans-serif;hyphens:auto;text-align:justify;" data-flag="normal">00:04 一句话讲清楚他在干嘛——表征是底层暗线</p><p style="color:#333333;font-weight:normal;font-size:16px;line-height:30px;font-family:Helvetica,Arial,sans-serif;hyphens:auto;text-align:justify;" data-flag="normal">02:35 Spark 3D 是怎么火起来的(5 月 1 日 Hugging Face Trending 第一)</p><p style="color:#333333;font-weight:normal;font-size:16px;line-height:30px;font-family:Helvetica,Arial,sans-serif;hyphens:auto;text-align:justify;" data-flag="normal">03:29 压缩本身是一种表征方式</p><p style="color:#333333;font-weight:normal;font-size:16px;line-height:30px;font-family:Helvetica,Arial,sans-serif;hyphens:auto;text-align:justify;" data-flag="normal">04:39 为什么 word model 必须做 4D 而不是 2D 视频</p><p style="color:#333333;font-weight:normal;font-size:16px;line-height:30px;font-family:Helvetica,Arial,sans-serif;hyphens:auto;text-align:justify;" data-flag="normal">06:07 「我们把视频当做一个 4D 物理世界的有损投影」</p><p style="color:#333333;font-weight:normal;font-size:16px;line-height:30px;font-family:Helvetica,Arial,sans-serif;hyphens:auto;text-align:justify;" data-flag="normal">07:52 视频生成路线的真正瓶颈:Latency</p><p style="color:#333333;font-weight:normal;font-size:16px;line-height:30px;font-family:Helvetica,Arial,sans-serif;hyphens:auto;text-align:justify;" data-flag="normal">10:20 Spark 3D 的技术路径:4D 点云 + Motion 残差</p><p style="color:#333333;font-weight:normal;font-size:16px;line-height:30px;font-family:Helvetica,Arial,sans-serif;hyphens:auto;text-align:justify;" data-flag="normal">18:14 4D 点云怎么压缩成 token</p><p style="color:#333333;font-weight:normal;font-size:16px;line-height:30px;font-family:Helvetica,Arial,sans-serif;hyphens:auto;text-align:justify;" data-flag="normal">19:23 Ablation study:压缩好就能把智能上限提高</p><p style="color:#333333;font-weight:normal;font-size:16px;line-height:30px;font-family:Helvetica,Arial,sans-serif;hyphens:auto;text-align:justify;" data-flag="normal">25:07 「大厂非常难以去从表征层面来做更改」</p><p style="color:#333333;font-weight:normal;font-size:16px;line-height:30px;font-family:Helvetica,Arial,sans-serif;hyphens:auto;text-align:justify;" data-flag="normal">26:31 任鑫提炼:"越小公司越应该做大事"</p><p style="color:#333333;font-weight:normal;font-size:16px;line-height:30px;font-family:Helvetica,Arial,sans-serif;hyphens:auto;text-align:justify;" data-flag="normal">27:17 「我们其实真的是在做底层」</p><p style="color:#333333;font-weight:normal;font-size:16px;line-height:30px;font-family:Helvetica,Arial,sans-serif;hyphens:auto;text-align:justify;" data-flag="normal">33:20 「这条路线非常的不本质」</p><p style="color:#333333;font-weight:normal;font-size:16px;line-height:30px;font-family:Helvetica,Arial,sans-serif;hyphens:auto;text-align:justify;" data-flag="normal">34:59 任鑫讲佛教公案 / 35:30 李智昊技术解读</p><p style="color:#333333;font-weight:normal;font-size:16px;line-height:30px;font-family:Helvetica,Arial,sans-serif;hyphens:auto;text-align:justify;" data-flag="normal">36:37 类比图像生成的 Stable Diffusion 时刻</p><p style="color:#333333;font-weight:normal;font-size:16px;line-height:30px;font-family:Helvetica,Arial,sans-serif;hyphens:auto;text-align:justify;" data-flag="normal">39:36 「4D 跃迁,两年内会被实现」</p><p style="color:#333333;font-weight:normal;font-size:16px;line-height:30px;font-family:Helvetica,Arial,sans-serif;hyphens:auto;text-align:justify;" data-flag="normal">41:05 To C 切入点:高精度多人 Minecraft</p><p style="color:#333333;font-weight:normal;font-size:16px;line-height:30px;font-family:Helvetica,Arial,sans-serif;hyphens:auto;text-align:justify;" data-flag="normal">42:09 彩蛋:OnlyFans / NSFW 方向</p><p style="color:#333333;font-weight:normal;font-size:16px;line-height:30px;font-family:Helvetica,Arial,sans-serif;hyphens:auto;text-align:justify;" data-flag="normal">43:15 游戏公司是天然客户:3D 一致性需求</p><p style="color:#333333;font-weight:normal;font-size:16px;line-height:30px;font-family:Helvetica,Arial,sans-serif;hyphens:auto;text-align:justify;" data-flag="normal">45:08 世界模型赛道全景图(三类玩家)</p><p style="color:#333333;font-weight:normal;font-size:16px;line-height:30px;font-family:Helvetica,Arial,sans-serif;hyphens:auto;text-align:justify;" data-flag="normal">47:58 「壁垒在于表征的效率」</p><p style="color:#333333;font-weight:normal;font-size:16px;line-height:30px;font-family:Helvetica,Arial,sans-serif;hyphens:auto;text-align:justify;" data-flag="normal">51:12 一句话送给想跟图、跟 3D 创业的人</p><p style="color:#333333;font-weight:normal;font-size:16px;line-height:30px;font-family:Helvetica,Arial,sans-serif;hyphens:auto;text-align:justify;" data-flag="normal">52:04 「下一个被突破的,可能就是 4D 物理世界」</p><p style="color:#333333;font-weight:normal;font-size:16px;line-height:30px;font-family:Helvetica,Arial,sans-serif;hyphens:auto;text-align:justify;" data-flag="normal">53:21 任鑫收尾:做 AI 最痛苦的事</p><span><br></span><span><br></span><p style="font-size:17px;line-height:30px;margin:10px 0px;color:#333333;font-weight:900;" data-flag="subtitle"><strong style="color:#FC5832;word-break:break-all;font-family:Helvetica,Arial,sans-serif;font-weight: normal;">欢迎订阅「AI 炼金术」的播客,以及同名公众号、视频号</strong> </p><p style="color:#333333;font-weight:normal;font-size:16px;line-height:30px;font-family:Helvetica, Arial, sans-serif;hyphens:auto;text-align:justify;" data-flag="normal">「AI 炼金术」是一档由徐文浩和任鑫——两位多年老友、AI 领域的资深从业者——打造的播客。这里是探讨 AI 和创业的理想聚集地,我们会邀请一线创业者、产品产品和科研学者,深入探讨 AI 如何重塑行业、变革生活,以及如何从 0 到 1 打造 AI 原生产品。 </p><p style="color:#333333;font-weight:normal;font-size:16px;line-height:30px;font-family:Helvetica, Arial, sans-serif;hyphens:auto;text-align:justify;" data-flag="normal">我们的讨论会涵盖多个话题:从 AI 如何改变世界的未来,到如何找到 AI 创业的 PMF;从如何利用 AI 降本增效,到怎样将 AI 技术融入日常生活……如果你对 AI、产品、创业感兴趣,这里有满满的干货和一线实战经验,欢迎关注并推荐给你的朋友,共同探索未来的无限可能! </p><p style="color:#333333;font-weight:normal;font-size:16px;line-height:30px;font-family:Helvetica, Arial, sans-serif;hyphens:auto;text-align:justify;" data-flag="normal">商务合作:公众号 「AI炼金术 」菜单栏中【商务】获取联系方式 </p><span><br></span><p style="color:#333333;font-weight:normal;font-size:16px;line-height:30px;font-family:Helvetica, Arial, sans-serif;hyphens:auto;text-align:justify;" data-flag="normal"><strong style="color:#FC5832;word-break:break-all;font-family:Helvetica,Arial,sans-serif;font-weight: normal;">节目主理人:</strong> </p><p style="color:#333333;font-weight:normal;font-size:16px;line-height:30px;font-family:Helvetica, Arial, sans-serif;hyphens:auto;text-align:justify;" data-flag="normal"><b>徐文浩:</b>某AI创业公司联合创始人,正在面向全球市场开发AI应用。连续创业者,参与过多家创业公司,拼多多早期员工。广告科技公司MediaV的算法和数据负责人,后被360收购。离开后加入成立不到1个月的拼多多。后创办了基于AI的海外客服聊天机器人公司 BotHub.AI 和 海外社交电商平台 Bukito 都宣告失败。2023年再次下场创业。 </p><p style="color:#333333;font-weight:normal;font-size:16px;line-height:30px;font-family:Helvetica, Arial, sans-serif;hyphens:auto;text-align:justify;" data-flag="normal"><b>任鑫:</b>美元基金合伙人,主要在投资和孵化面向全球市场的 AI 应用。之前是连续创业者,曾经打造“今夜酒店特价”用移动互联网应用特价销售酒店尾房;被京东并购后内部创业“京东到家”开展本地即时零售业务;2015 年再次创业 Get 探索对话式人工智能助理成为先烈;2021 年出售公司,2023 年重新回到 AI 世界。</p><span><br></span><p style="font-size:17px;line-height:30px;margin:10px 0px;color:#333333;font-weight:900;" data-flag="subtitle"><strong style="color:#FC5832;word-break:break-all;font-family:Helvetica,Arial,sans-serif;font-weight: normal;">播客剪辑:</strong></p><p style="color:#333333;font-weight:normal;font-size:16px;line-height:30px;font-family:Helvetica, Arial, sans-serif;hyphens:auto;text-align:justify;" data-flag="normal">十六颗糖</p><span><br></span><p style="font-size:17px;line-height:30px;margin:10px 0px;color:#333333;font-weight:900;" data-flag="subtitle"><strong style="color:#FC5832;word-break:break-all;font-family:Helvetica,Arial,sans-serif;font-weight: normal;">BGM:</strong></p><p style="color:#333333;font-weight:normal;font-size:16px;line-height:30px;font-family:Helvetica,Arial,sans-serif;hyphens:auto;text-align:justify;" data-flag="normal"><b>片头:</b>Shortwire - Reconfig</p><p style="color:#333333;font-weight:normal;font-size:16px;line-height:30px;font-family:Helvetica,Arial,sans-serif;hyphens:auto;text-align:justify;" data-flag="normal"><b>片尾:</b>Alex Siegel - Daydreaming Pilot</p><span></span><br>