Description
<p>如果你喜歡我的內容,歡迎加入會員支持我,讓我把內容做得更深、做得更好,一起把這個頻道做成我們都想看到的樣子!</p><p>👉 https://www.youtube.com/channel/UCJIPFjZSCWR15_jxBaK2fQQ/join</p><p><br /></p><p>兩年前 Mira Murati 在 GPT-4o 的發表會上講過一句話,她說未來人類跟機器的互動應該要更自然、更即時。兩年後,她自己創辦的 Thinking Machines 把這件事做出來了。</p><p><br /></p><p>他們最近發表了一個叫做互動模型 (Interaction Model) 的東西,是一個跟大語言模型走完全不同路的新模型類別。現在我們用的 LLM 其實都是回合制:你說一句、它回一句,你在講話的時候模型其實聽不到也看不到。互動模型不一樣,它每 200 毫秒就處理一次輸入跟輸出,可以一邊聽你講一邊回你,可以同時看到畫面、聽到聲音、在背景幫你搜尋資料。</p><p><br /></p><p>這集我會跟大家一起看他們的官方 demo,拆解他們的 blog,回答三個我覺得最關鍵的問題:為什麼其他模型做不到這種即時互動?這個模型的時間感是怎麼來的?它怎麼做到一邊聽一邊講?</p><p><br /></p><p>另外這集也是我第一次嘗試螢幕錄影的形式,邊看 demo、邊看 blog、邊跟大家聊。如果你喜歡這種形式或覺得有幫助理解,歡迎在底下留言告訴我,我願意未來多做一點嘗試。中間也會聊到 Mira Murati 從 OpenAI CTO 到創辦 Thinking Machines 的這段路、2023 年 OpenAI 政變裡她扮演的角色,以及為什麼 Thinking Machines 選在這個時間點端出這個模型?</p><p><br /></p><p>🔗 《矽谷輕鬆談》傳送門 👉 https://linktr.ee/jktech</p><p><br /></p><p>(00:00) 開頭</p><p>(02:30) Thinking Machines 推出互動模型</p><p>(03:06) Demo 一:模型一邊聽你講一邊回,還能背景搜尋</p><p>(05:48) 你以為視覺最快?其實聽覺走得比視覺還快</p><p>(06:55) Blog 開講:為什麼跟 AI 合作這件事其實還沒解決</p><p>(08:08) 200 毫秒一回合:把時間切到比你眨眼還快</p><p>(10:00) Demo 二:AI 即時幫你把粗話改寫成 HR 喜歡的話</p><p>(13:30) 時間是 first citizen:模型第一次有了時間感</p><p>(14:25) 兩個模型在背後跑:互動的口、背景的腦</p><p>(16:02) Mira Murati 的故事:從達特茅斯到 OpenAI CTO</p><p>(16:56) 2023 年 OpenAI 政變:Mira 到底扮演了什麼角色</p><p>(21:32) 從 OpenAI 離職到 Thinking Machines 成立,A16Z 領投 20 億美金</p><p>(23:18) 互動模型為什麼會有時間感?</p><p>(25:02) 第一代、第二代、第三代模型的本質差別</p><p>(27:21) Harness engineering 的宿命:撐不過模型本身變強</p><p>(29:12) Benchmark:跟 GPT-realtime、Gemini Live 比起來如何</p><p>(31:28) 為什麼是現在?六個創辦人走了三個的危機</p><p><br /></p>