S2E57 LLM 之後：Thinking Machines 互動模型的誕生

MAY 17, 202635 MIN

S2E57 LLM 之後：Thinking Machines 互動模型的誕生

MAY 17, 202635 MIN

Description

如果你喜歡我的內容，歡迎加入會員支持我，讓我把內容做得更深、做得更好，一起把這個頻道做成我們都想看到的樣子！👉 https://www.youtube.com/channel/UCJIPFjZSCWR15_jxBaK2fQQ/join 兩年前 Mira Murati 在 GPT-4o 的發表會上講過一句話，她說未來人類跟機器的互動應該要更自然、更即時。兩年後，她自己創辦的 Thinking Machines 把這件事做出來了。 他們最近發表了一個叫做互動模型 (Interaction Model) 的東西，是一個跟大語言模型走完全不同路的新模型類別。現在我們用的 LLM 其實都是回合制：你說一句、它回一句，你在講話的時候模型其實聽不到也看不到。互動模型不一樣，它每 200 毫秒就處理一次輸入跟輸出，可以一邊聽你講一邊回你，可以同時看到畫面、聽到聲音、在背景幫你搜尋資料。 這集我會跟大家一起看他們的官方 demo，拆解他們的 blog，回答三個我覺得最關鍵的問題：為什麼其他模型做不到這種即時互動？這個模型的時間感是怎麼來的？它怎麼做到一邊聽一邊講？ 另外這集也是我第一次嘗試螢幕錄影的形式，邊看 demo、邊看 blog、邊跟大家聊。如果你喜歡這種形式或覺得有幫助理解，歡迎在底下留言告訴我，我願意未來多做一點嘗試。中間也會聊到 Mira Murati 從 OpenAI CTO 到創辦 Thinking Machines 的這段路、2023 年 OpenAI 政變裡她扮演的角色，以及為什麼 Thinking Machines 選在這個時間點端出這個模型？ 🔗 《矽谷輕鬆談》傳送門 👉 https://linktr.ee/jktech (00:00) 開頭(02:30) Thinking Machines 推出互動模型(03:06) Demo 一：模型一邊聽你講一邊回，還能背景搜尋(05:48) 你以為視覺最快？其實聽覺走得比視覺還快(06:55) Blog 開講：為什麼跟 AI 合作這件事其實還沒解決(08:08) 200 毫秒一回合：把時間切到比你眨眼還快(10:00) Demo 二：AI 即時幫你把粗話改寫成 HR 喜歡的話(13:30) 時間是 first citizen：模型第一次有了時間感(14:25) 兩個模型在背後跑：互動的口、背景的腦(16:02) Mira Murati 的故事：從達特茅斯到 OpenAI CTO(16:56) 2023 年 OpenAI 政變：Mira 到底扮演了什麼角色(21:32) 從 OpenAI 離職到 Thinking Machines 成立，A16Z 領投 20 億美金(23:18) 互動模型為什麼會有時間感？(25:02) 第一代、第二代、第三代模型的本質差別(27:21) Harness engineering 的宿命：撐不過模型本身變強(29:12) Benchmark：跟 GPT-realtime、Gemini Live 比起來如何(31:28) 為什麼是現在？六個創辦人走了三個的危機