<p>终于来到了OnBoard! 2024 年压轴之作!那必须是绝对深度绝对精彩的一期!年底关于 AI 的新闻太多,但是最值得我们压轴深入探讨的,必须是 coding agent ——即使已经有很多讨论,或许也都还是被低估。</p>
<p>不到两个月的时间,coding agent 产品完成了二连跳式的升级,从IDE 助手 Cursor 到 Replit Agent, Windsurf 为代表的 coding agent,到Devin 的惊艳发布,让我们意识到真正 end-to-end coding agent 的能力已经超过 coding 本身,打开了大模型未来全新的想象空间。</p>
<p><strong>Hello World, who is OnBoard!?</strong></p>
<p>更巧的是,就在我们录制这一期节目的凌晨,就是 OpenAI 12天发布会最后一天,OpenAI o3 横空出世,在编程和数学领域最有挑战的 Benchmark 上超越了绝大部分的人类,也让我们对大语言模型能力天花板的预期再次被刷新。要展望2025年AI领域还会发生什么,coding agent 以及强化学习为新范式的 o3系列,无疑是最核心的问题。</p>
<p>这一期的嘉宾,汇集了国内和硅谷 coding agent 一线创业者、coding 大模型研究员和 AI 投资人,这次长达三个多小时的讨论,在全网恐怕都很少见了,有一线 coding agent 设计解读,还有最新鲜热乎的对 o3 实现难点和未来挑战的拆解,你是不是还不知道,在好几个开源项目里,OpenHands 已经超越人类成为最活跃贡献者了?我们还探讨了:</p>
<ul>
 <li>为什么说 Devin 展示了“完成工作”的 scaling law?</li>
 <li>最早引领 coding agent 潮流的 Replit Agent,以及开源 Devin 项目 - Openhands, 是设计中有哪些关键决策?</li>
 <li>Coding agent 未来是 Devin 形态赢家通吃吗?</li>
 <li>底层模型能力之外,coding agent 应用公司的核心能力和壁垒是什么?</li>
  <li>Coding Agent 对于工程师和未来的组织和社会,会有哪些深远影响?</li>
  <li>如何看待 o3 超越大部分人类的能力?未来的发展空间在哪里?</li>
</ul>
<p><br /></p>
<p>理解这次内容需要一些背景知识,非常强烈推荐大家去复习Onboard! EP 62. 与Google deepmind 研究员对o1的讨论,以及EP 53 对coding agent 的第一次探讨,其中一位嘉宾姚顺雨,作为 SWE bench 的提出人,已经加入OpenAI 负责 agent方向的研究。</p>
<p><strong>未来已来,不论你是否已经感知到,这3个小时,绝对值得你的时间。</strong></p>
<p>感谢大家这一年以来的支持,如果喜欢我们的内容,今年最后有机会在小宇宙里面打赏,在Apple podcast, spotify 里面给五星好评啦!我们明年见!Enjoy!

<strong>嘉宾介绍</strong></p>
<ul>
  <li>Yusen Dai,真格基金管理合伙人,聚美优品联合创始人。</li>
  <li>Zhen Li, Replit Agent 核心成员,Replit 资深工程师,ex-字节,Google.</li>
  <li>Xingyao Wang, Allhands AI (开源项目 OpenHands) co-founder &amp; Chief AI Officer, UIUC PhD.</li>
  <li>Binyuan Hui, 阿里巴巴通义实验室科学家</li>
  <li>Cohost: Peak, 真格基金EIR,前猛犸浏览器创始人</li>
  <li>OnBoard! 主持:Monica:美元VC投资人,前 AWS 硅谷团队+ AI 创业公司打工人,公众号M小姐研习录 (ID: MissMStudy) 主理人 | 即刻:莫妮卡同学</li>
</ul>
<p><br /></p>
<p><strong>我们都聊了什么</strong></p>
<ul>
  <li><a rel="ugc noopener noreferrer" target="_blank">04:06</a> 嘉宾自我介绍,最近用 coding agent 实现的有意思的任务</li>
  <li><a rel="ugc noopener noreferrer" target="_blank">15:17</a> 投资人视角下,Coding agent 发展历程中的核心节点,为什么说 scale of work 是最令人兴奋的机会</li>
  <li><a rel="ugc noopener noreferrer" target="_blank">22:03</a> Replit Agent 诞生的历程,发展过程中的关键节点,从1-10 有什么计划</li>
  <li><a rel="ugc noopener noreferrer" target="_blank">36:04</a> 如何看待与Devin 的竞争?未来不同 coding agent 产品形态会融合吗?</li>
  <li><a rel="ugc noopener noreferrer" target="_blank">39:01</a> OpenHands/All hands AI 不同寻常的诞生故事,打造开源 coding agent 的重要技术和商业决策?</li>
  <li><a rel="ugc noopener noreferrer" target="_blank">41:48</a> Openhands 的架构设计,与Devin 的异同意味着什么?</li>
  <li><a rel="ugc noopener noreferrer" target="_blank">49:24</a> Coding agent 与 Anthropic Computer Use 之间的关系?</li>
  <li><a rel="ugc noopener noreferrer" target="_blank">54:35</a> OpenHands 产品发布以来,社区的主要反馈和重要变化?开源有什么作用?</li>
  <li><a rel="ugc noopener noreferrer" target="_blank">1:04:40</a> Coding agent 产品的长期竞争力是什么?</li>
  <li><a rel="ugc noopener noreferrer" target="_blank">1:09:20</a> o3 最让人印象深刻的是什么?对 coding 和AGI 未来有什么影响?</li>
  <li><a rel="ugc noopener noreferrer" target="_blank">1:20:08</a> 解决真实世界的复杂问题,o3 之后还需要什么?</li>
  <li><a rel="ugc noopener noreferrer" target="_blank">1:24:33</a> SWE bench 被“刷爆”之后,下一个有意义的 benchmark 是什么?</li>
  <li><a rel="ugc noopener noreferrer" target="_blank">1:36:27</a> Coding agent 领域今年还出现了哪些重要变化?</li>
  <li><a rel="ugc noopener noreferrer" target="_blank">101:33</a> 未来需要怎样的工程师和怎样的组织?</li>
  <li><a rel="ugc noopener noreferrer" target="_blank">1:58:07</a> 如何进一步提高模型 planning 的能力?完成多步骤任务能力如何实现?</li>
  <li><a rel="ugc noopener noreferrer" target="_blank">2:07:45</a> Agent 的普及会带来哪些底层技术栈和工具的新机会?</li>
  <li><a rel="ugc noopener noreferrer" target="_blank">2:17:25</a> 投资人如何看待 AI agent 的价值和投资机会?未来中国 coding agent 的机会是怎样的?</li>
  <li><a rel="ugc noopener noreferrer" target="_blank">2:25:55</a> 快问快答:未来1年和3年对AI的期望,coding agent 翻车的例子,AI被高估和低估的能力</li>
</ul>
<p>
<strong>我们提到的公司和重点词汇</strong></p>
<ul>
  <li>Cursor</li>
  <li>Cognition labs/Devin</li>
  <li>Replit</li>
  <li>Replit Agent</li>
  <li>OpenHands, <a href="https://github.com/All-Hands-AI/OpenHands" rel="ugc noopener noreferrer" target="_blank">github.com</a>; OpenHands 论文: <a href="https://arxiv.org/abs/2407.16741" rel="ugc noopener noreferrer" target="_blank">arxiv.org</a></li>
  <li>VisualWebArena: <a href="https://arxiv.org/abs/2401.13649" rel="ugc noopener noreferrer" target="_blank">arxiv.org</a></li>
  <li>TheAgentCompany: 官网 <a href="https://the-agent-company.com/" rel="ugc noopener noreferrer" target="_blank">the-agent-company.com</a>,paper <a href="https://arxiv.org/abs/2412.14161" rel="ugc noopener noreferrer" target="_blank">arxiv.org</a></li>
  <li>OpenAI o3</li>
  <li>OpenAI o1</li>
  <li>Anthropic</li>
  <li>Computer use by Anthropic</li>
  <li>SWE bench</li>
  <li>Windsurf</li>
  <li>Bolt.new</li>
</ul>
<p>
<strong>参考文章</strong></p>
<ul>
  <li><a href="https://m.okjike.com/originalPosts/6759369e0ebeb9cd3daf2169?s=eyJ1IjoiNWIzOGNjNGU1NGVhOGUwMDE3ZjVhNWY1IiwiZCI6MX0%3D&amp;utm_source=wechat_session" rel="ugc noopener noreferrer" target="_blank">刚体验了一小时 Devin,这是我第一次见到真正意义上的 A - 即刻App</a></li>
  <li><a href="https://yage.ai/devin-vs-agent-cursor.html" rel="ugc noopener noreferrer" target="_blank">Devin和Agent Cursor使用体验对比</a></li>
  <li><a href="https://www.latent.space/p/bolt" rel="ugc noopener noreferrer" target="_blank">www.latent.space</a></li>
  <li><a href="https://www.cursor.com/blog/problems-2023" rel="ugc noopener noreferrer" target="_blank">Our Problems | Cursor - The AI Code Editor</a></li>
  <li><a href="https://www.cursor.com/blog/problems-2024" rel="ugc noopener noreferrer" target="_blank">More Problems | Cursor - The AI Code Editor</a></li>
  <li><a href="https://www.cognition.ai/blog/introducing-devin" rel="ugc noopener noreferrer" target="_blank">www.cognition.ai</a></li>
</ul>
<p>

<strong>欢迎关注M小姐的微信公众号,了解更多中美软件、AI与创业投资的干货内容!</strong></p>
<p><strong>M小姐研习录 (ID: MissMStudy)</strong></p>
<p>喜欢 OnBoard! 的话,也可以点击打赏,请我们喝一杯咖啡!如果你用 Apple Podcasts 收听,也请给我们一个五星好评,这对我们非常重要。</p>
<p><br /></p>
<p><em>最后!快来加入Onboard!听友群,结识到高质量的听友们,我们还会组织线下主题聚会,开放实时旁听播客录制,嘉宾互动等新的尝试。添加任意一位小助手微信,onboard666, 或者 Nine_tunes,小助手会拉你进群。期待你来!</em>

</p>

OnBoard!

Monica Xie

EP 66. 深度解读Coding Agent与OpenAI o3:中美Agent 创业者、研究员与投资人眼里的未来

DEC 30, 2024167 MIN
OnBoard!

EP 66. 深度解读Coding Agent与OpenAI o3:中美Agent 创业者、研究员与投资人眼里的未来

DEC 30, 2024167 MIN

Description

<p>终于来到了OnBoard! 2024 年压轴之作!那必须是绝对深度绝对精彩的一期!年底关于 AI 的新闻太多,但是最值得我们压轴深入探讨的,必须是 coding agent ——即使已经有很多讨论,或许也都还是被低估。</p> <p>不到两个月的时间,coding agent 产品完成了二连跳式的升级,从IDE 助手 Cursor 到 Replit Agent, Windsurf 为代表的 coding agent,到Devin 的惊艳发布,让我们意识到真正 end-to-end coding agent 的能力已经超过 coding 本身,打开了大模型未来全新的想象空间。</p> <p><strong>Hello World, who is OnBoard!?</strong></p> <p>更巧的是,就在我们录制这一期节目的凌晨,就是 OpenAI 12天发布会最后一天,OpenAI o3 横空出世,在编程和数学领域最有挑战的 Benchmark 上超越了绝大部分的人类,也让我们对大语言模型能力天花板的预期再次被刷新。要展望2025年AI领域还会发生什么,coding agent 以及强化学习为新范式的 o3系列,无疑是最核心的问题。</p> <p>这一期的嘉宾,汇集了国内和硅谷 coding agent 一线创业者、coding 大模型研究员和 AI 投资人,这次长达三个多小时的讨论,在全网恐怕都很少见了,有一线 coding agent 设计解读,还有最新鲜热乎的对 o3 实现难点和未来挑战的拆解,你是不是还不知道,在好几个开源项目里,OpenHands 已经超越人类成为最活跃贡献者了?我们还探讨了:</p> <ul> <li>为什么说 Devin 展示了“完成工作”的 scaling law?</li> <li>最早引领 coding agent 潮流的 Replit Agent,以及开源 Devin 项目 - Openhands, 是设计中有哪些关键决策?</li> <li>Coding agent 未来是 Devin 形态赢家通吃吗?</li> <li>底层模型能力之外,coding agent 应用公司的核心能力和壁垒是什么?</li> <li>Coding Agent 对于工程师和未来的组织和社会,会有哪些深远影响?</li> <li>如何看待 o3 超越大部分人类的能力?未来的发展空间在哪里?</li> </ul> <p><br /></p> <p>理解这次内容需要一些背景知识,非常强烈推荐大家去复习Onboard! EP 62. 与Google deepmind 研究员对o1的讨论,以及EP 53 对coding agent 的第一次探讨,其中一位嘉宾姚顺雨,作为 SWE bench 的提出人,已经加入OpenAI 负责 agent方向的研究。</p> <p><strong>未来已来,不论你是否已经感知到,这3个小时,绝对值得你的时间。</strong></p> <p>感谢大家这一年以来的支持,如果喜欢我们的内容,今年最后有机会在小宇宙里面打赏,在Apple podcast, spotify 里面给五星好评啦!我们明年见!Enjoy! <strong>嘉宾介绍</strong></p> <ul> <li>Yusen Dai,真格基金管理合伙人,聚美优品联合创始人。</li> <li>Zhen Li, Replit Agent 核心成员,Replit 资深工程师,ex-字节,Google.</li> <li>Xingyao Wang, Allhands AI (开源项目 OpenHands) co-founder &amp; Chief AI Officer, UIUC PhD.</li> <li>Binyuan Hui, 阿里巴巴通义实验室科学家</li> <li>Cohost: Peak, 真格基金EIR,前猛犸浏览器创始人</li> <li>OnBoard! 主持:Monica:美元VC投资人,前 AWS 硅谷团队+ AI 创业公司打工人,公众号M小姐研习录 (ID: MissMStudy) 主理人 | 即刻:莫妮卡同学</li> </ul> <p><br /></p> <p><strong>我们都聊了什么</strong></p> <ul> <li><a rel="ugc noopener noreferrer" target="_blank">04:06</a> 嘉宾自我介绍,最近用 coding agent 实现的有意思的任务</li> <li><a rel="ugc noopener noreferrer" target="_blank">15:17</a> 投资人视角下,Coding agent 发展历程中的核心节点,为什么说 scale of work 是最令人兴奋的机会</li> <li><a rel="ugc noopener noreferrer" target="_blank">22:03</a> Replit Agent 诞生的历程,发展过程中的关键节点,从1-10 有什么计划</li> <li><a rel="ugc noopener noreferrer" target="_blank">36:04</a> 如何看待与Devin 的竞争?未来不同 coding agent 产品形态会融合吗?</li> <li><a rel="ugc noopener noreferrer" target="_blank">39:01</a> OpenHands/All hands AI 不同寻常的诞生故事,打造开源 coding agent 的重要技术和商业决策?</li> <li><a rel="ugc noopener noreferrer" target="_blank">41:48</a> Openhands 的架构设计,与Devin 的异同意味着什么?</li> <li><a rel="ugc noopener noreferrer" target="_blank">49:24</a> Coding agent 与 Anthropic Computer Use 之间的关系?</li> <li><a rel="ugc noopener noreferrer" target="_blank">54:35</a> OpenHands 产品发布以来,社区的主要反馈和重要变化?开源有什么作用?</li> <li><a rel="ugc noopener noreferrer" target="_blank">1:04:40</a> Coding agent 产品的长期竞争力是什么?</li> <li><a rel="ugc noopener noreferrer" target="_blank">1:09:20</a> o3 最让人印象深刻的是什么?对 coding 和AGI 未来有什么影响?</li> <li><a rel="ugc noopener noreferrer" target="_blank">1:20:08</a> 解决真实世界的复杂问题,o3 之后还需要什么?</li> <li><a rel="ugc noopener noreferrer" target="_blank">1:24:33</a> SWE bench 被“刷爆”之后,下一个有意义的 benchmark 是什么?</li> <li><a rel="ugc noopener noreferrer" target="_blank">1:36:27</a> Coding agent 领域今年还出现了哪些重要变化?</li> <li><a rel="ugc noopener noreferrer" target="_blank">101:33</a> 未来需要怎样的工程师和怎样的组织?</li> <li><a rel="ugc noopener noreferrer" target="_blank">1:58:07</a> 如何进一步提高模型 planning 的能力?完成多步骤任务能力如何实现?</li> <li><a rel="ugc noopener noreferrer" target="_blank">2:07:45</a> Agent 的普及会带来哪些底层技术栈和工具的新机会?</li> <li><a rel="ugc noopener noreferrer" target="_blank">2:17:25</a> 投资人如何看待 AI agent 的价值和投资机会?未来中国 coding agent 的机会是怎样的?</li> <li><a rel="ugc noopener noreferrer" target="_blank">2:25:55</a> 快问快答:未来1年和3年对AI的期望,coding agent 翻车的例子,AI被高估和低估的能力</li> </ul> <p> <strong>我们提到的公司和重点词汇</strong></p> <ul> <li>Cursor</li> <li>Cognition labs/Devin</li> <li>Replit</li> <li>Replit Agent</li> <li>OpenHands, <a href="https://github.com/All-Hands-AI/OpenHands" rel="ugc noopener noreferrer" target="_blank">github.com</a>; OpenHands 论文: <a href="https://arxiv.org/abs/2407.16741" rel="ugc noopener noreferrer" target="_blank">arxiv.org</a></li> <li>VisualWebArena: <a href="https://arxiv.org/abs/2401.13649" rel="ugc noopener noreferrer" target="_blank">arxiv.org</a></li> <li>TheAgentCompany: 官网 <a href="https://the-agent-company.com/" rel="ugc noopener noreferrer" target="_blank">the-agent-company.com</a>,paper <a href="https://arxiv.org/abs/2412.14161" rel="ugc noopener noreferrer" target="_blank">arxiv.org</a></li> <li>OpenAI o3</li> <li>OpenAI o1</li> <li>Anthropic</li> <li>Computer use by Anthropic</li> <li>SWE bench</li> <li>Windsurf</li> <li>Bolt.new</li> </ul> <p> <strong>参考文章</strong></p> <ul> <li><a href="https://m.okjike.com/originalPosts/6759369e0ebeb9cd3daf2169?s=eyJ1IjoiNWIzOGNjNGU1NGVhOGUwMDE3ZjVhNWY1IiwiZCI6MX0%3D&amp;utm_source=wechat_session" rel="ugc noopener noreferrer" target="_blank">刚体验了一小时 Devin,这是我第一次见到真正意义上的 A - 即刻App</a></li> <li><a href="https://yage.ai/devin-vs-agent-cursor.html" rel="ugc noopener noreferrer" target="_blank">Devin和Agent Cursor使用体验对比</a></li> <li><a href="https://www.latent.space/p/bolt" rel="ugc noopener noreferrer" target="_blank">www.latent.space</a></li> <li><a href="https://www.cursor.com/blog/problems-2023" rel="ugc noopener noreferrer" target="_blank">Our Problems | Cursor - The AI Code Editor</a></li> <li><a href="https://www.cursor.com/blog/problems-2024" rel="ugc noopener noreferrer" target="_blank">More Problems | Cursor - The AI Code Editor</a></li> <li><a href="https://www.cognition.ai/blog/introducing-devin" rel="ugc noopener noreferrer" target="_blank">www.cognition.ai</a></li> </ul> <p> <strong>欢迎关注M小姐的微信公众号,了解更多中美软件、AI与创业投资的干货内容!</strong></p> <p><strong>M小姐研习录 (ID: MissMStudy)</strong></p> <p>喜欢 OnBoard! 的话,也可以点击打赏,请我们喝一杯咖啡!如果你用 Apple Podcasts 收听,也请给我们一个五星好评,这对我们非常重要。</p> <p><br /></p> <p><em>最后!快来加入Onboard!听友群,结识到高质量的听友们,我们还会组织线下主题聚会,开放实时旁听播客录制,嘉宾互动等新的尝试。添加任意一位小助手微信,onboard666, 或者 Nine_tunes,小助手会拉你进群。期待你来!</em> </p>