矽谷輕鬆談 Just Kidding Tech
柯柯與肯吉在矽谷
Overview
Episodes
Details
商業合作請來信 👉
[email protected]
這個頻道由在美國矽谷科技公司工作的軟體工程師肯吉 Kenji 和資料科學家柯柯 Jessica 所創立,帶給你來自美國矽谷科技業第一手的經驗分享,我們會談到軟體開發、職涯發展、美國的生活以及科技公司的新聞和八卦!想要了解矽谷科技業最新趨勢的你,千萬不能錯過喔! 矽谷輕鬆談傳送門:https://linktr.ee/jktech
Recent Episodes
MAY 17, 2026
S2E57 LLM 之後:Thinking Machines 互動模型的誕生
如果你喜歡我的內容,歡迎加入會員支持我,讓我把內容做得更深、做得更好,一起把這個頻道做成我們都想看到的樣子!👉 https://www.youtube.com/channel/UCJIPFjZSCWR15_jxBaK2fQQ/join兩年前 Mira Murati 在 GPT-4o 的發表會上講過一句話,她說未來人類跟機器的互動應該要更自然、更即時。兩年後,她自己創辦的 Thinking Machines 把這件事做出來了。他們最近發表了一個叫做互動模型 (Interaction Model) 的東西,是一個跟大語言模型走完全不同路的新模型類別。現在我們用的 LLM 其實都是回合制:你說一句、它回一句,你在講話的時候模型其實聽不到也看不到。互動模型不一樣,它每 200 毫秒就處理一次輸入跟輸出,可以一邊聽你講一邊回你,可以同時看到畫面、聽到聲音、在背景幫你搜尋資料。這集我會跟大家一起看他們的官方 demo,拆解他們的 blog,回答三個我覺得最關鍵的問題:為什麼其他模型做不到這種即時互動?這個模型的時間感是怎麼來的?它怎麼做到一邊聽一邊講?另外這集也是我第一次嘗試螢幕錄影的形式,邊看 demo、邊看 blog、邊跟大家聊。如果你喜歡這種形式或覺得有幫助理解,歡迎在底下留言告訴我,我願意未來多做一點嘗試。中間也會聊到 Mira Murati 從 OpenAI CTO 到創辦 Thinking Machines 的這段路、2023 年 OpenAI 政變裡她扮演的角色,以及為什麼 Thinking Machines 選在這個時間點端出這個模型?🔗 《矽谷輕鬆談》傳送門 👉 https://linktr.ee/jktech(00:00) 開頭(02:30) Thinking Machines 推出互動模型(03:06) Demo 一:模型一邊聽你講一邊回,還能背景搜尋(05:48) 你以為視覺最快?其實聽覺走得比視覺還快(06:55) Blog 開講:為什麼跟 AI 合作這件事其實還沒解決(08:08) 200 毫秒一回合:把時間切到比你眨眼還快(10:00) Demo 二:AI 即時幫你把粗話改寫成 HR 喜歡的話(13:30) 時間是 first citizen:模型第一次有了時間感(14:25) 兩個模型在背後跑:互動的口、背景的腦(16:02) Mira Murati 的故事:從達特茅斯到 OpenAI CTO(16:56) 2023 年 OpenAI 政變:Mira 到底扮演了什麼角色(21:32) 從 OpenAI 離職到 Thinking Machines 成立,A16Z 領投 20 億美金(23:18) 互動模型為什麼會有時間感?(25:02) 第一代、第二代、第三代模型的本質差別(27:21) Harness engineering 的宿命:撐不過模型本身變強(29:12) Benchmark:跟 GPT-realtime、Gemini Live 比起來如何(31:28) 為什麼是現在?六個創辦人走了三個的危機
35 MIN
MAY 10, 2026
S2E56 Anthropic 創辦人賭 60%:2028 年 AI 開始自己造 AI
如果你喜歡我的內容,歡迎加入會員支持我,讓我把內容做得更深、做得更好,一起把這個頻道做成我們都想看到的樣子!👉 https://www.youtube.com/channel/UCJIPFjZSCWR15_jxBaK2fQQ/joinAnthropic 共同創辦人 Jack Clark 最近在他自己的電子報 Import AI 寫了一篇文章,預測 2028 年底以前有 60% 的機率,AI 會開始自己研發下一代的 AI。聽起來很扯,但他這篇真的寫得不錯。Jack 是 Anthropic 七個 founder 裡面唯一沒技術背景的,平常都在跟政府、白宮談 AI 政策,所以他不太會講那種 CEO 在台上喊的狂預測。他這次就是把幾個公開的 benchmark 跟 Anthropic 內部研究的數據攤出來,一步一步推到這個結論。裡面有些數字其實蠻嚇人的。像是 Anthropic 內部讓 AI 去優化語言模型,人類研究員大概只能做到 4 倍,最強的 Mythos 直接做到 52 倍。長時間任務的能力也從幾十秒跳到 12 個小時,年底可能會看到連跑 100 小時的模型。不過我自己覺得這集最有意思的,是一個比較哲學的問題:AI 做研究比較像發現相對論,還是在組樂高?這個區別會決定這個預測到底有沒有可能成立。中間也會聊到 AlphaGo 那個有名的第 37 手,那一手到底算不算創意?另一個我看完印象很深的,是 AI 對齊的風險。有個概念叫「複利錯誤」,你每一代都做到 99.9% 的準確度,跑完 500 代之後只剩下 60%。再加上 AI 已經很清楚自己什麼時候在被測試,它有沒有可能一直都在假裝對齊?目前其實沒人有答案,我自己看完是不太敢樂觀。🔗 《矽谷輕鬆談》傳送門 👉 https://linktr.ee/jktech(00:00) 開頭(02:15) Jack Clark 是誰?為什麼他的預測值得認真聽(04:28) 第一個理由:AI 寫程式的能力正在爆炸式成長(06:16) 從 36 秒到 12 小時:AI 長時間任務的曲線(08:13) 外插一下:明年 40 天、後年 400 天的 AI agent(09:15) 第二個理由:AI 開始能複製論文、優化模型(11:38) AI 做研究比較像發現相對論,還是組樂高?(12:47) AlphaGo 第 37 手:那一手到底算不算創意?(14:33) AI 對齊的風險:教 AI 不作弊其實很微妙(15:31) 複利錯誤:99.9% 準確度為什麼撐不過 500 代(16:39) 當 AI 比你聰明,你還驗證得了它嗎?(18:11) 預測對錯不重要,重要的是學會他怎麼推導
21 MIN
MAY 3, 2026
S2E55 GPT-5.5 深入解析:為什麼從 Claude Code 跳到 Codex?
如果你喜歡我的內容,歡迎加入會員支持我,讓我更有動力繼續分享更多好內容!👉 https://www.youtube.com/channel/UCJIPFjZSCWR15_jxBaK2fQQ/join各位,GPT-5.5 這次真的做到了。我原本也沒有預期自己會這麼快從 Claude Code 轉到 Codex。前幾天工作到一半 Claude Code 又當機,我就想說好吧,剛好 GPT-5.5 也出了,那就把 Codex 裝回來試試看。結果一用之後發現,這次的體驗真的跟我上次印象裡的 Codex 不太一樣。模型本身變聰明是一回事,但更有感的是整個 Codex App 的工作流變得非常順。Browser QA、Computer Use、plugin、multi-session 這些東西加起來,會讓你開始覺得它不只是另一個 coding assistant,而是比較像一個真的可以接進你日常工作流程裡的 agent 環境。另外這集其實連後製流程我也完全改了。這次影片裡面的資訊圖卡跟視覺輔助,基本上都是用 HyperFrame 做出來的。我自己覺得加上這些圖卡以後,整個影片的質感有明顯提升,也比較能把一些原本很抽象的模型能力、benchmark、System Card 內容講清楚。如果你有看到這些新的視覺呈現,也歡迎留言跟我說你的感覺,我很想知道大家看起來覺得如何。不過這集也不是單純在說「Codex 贏了」或「Claude Code 輸了」。我覺得現在 AI 工具變化太快了,今天你覺得某個工具最好,下個月可能又有新的東西出來。真正重要的不是忠於哪一家公司,而是你有沒有能力很快地切換、測試、驗證,然後把這些工具變成自己能力的延伸。後半段我也深入看了 GPT-5.5 的 System Card。裡面有幾個很值得注意的點:像是它在長上下文的表現真的進步很多,長任務的穩定度也明顯變好;但另一方面,它變得比較不容易放棄之後,也可能在某些不可能完成的任務裡,更容易聲稱自己已經完成了。我覺得這其實很有意思。當模型越來越像一個會持續嘗試、會使用工具、會自己修正的 agent,我們要看的就不只是 benchmark 分數,而是它到底知不知道自己在做什麼、它做錯的時候能不能回得來,以及我們人類要怎麼驗證它真的完成了任務。System Card 裡還提到 chain of thought 監控、faithfulness、sandbagging 這些安全性測試。最有趣的問題是:模型表現得誠實,到底是因為它真的誠實,還是因為它知道自己正在被測試?這集就來聊聊我為什麼最近改用 Codex,也順便從 GPT-5.5 的官方文件裡,看看這個模型到底進步在哪裡,以及它還有哪些值得我們小心的地方。(00:00) GPT-5.5 做到了:OpenAI 真的回來了?(02:01) 我的 AI 奇幻時刻(03:16) AI 開始接管我的內容工作流(05:41) 為什麼我從 Claude Code 轉到 Codex(06:52) Codex 的殺手級功能:Computer Use(07:35) Superpower Plugin:我願意轉換的關鍵(09:35) AI 工具切換能力正在變成核心技能(11:26) 工具不是重點,駕馭 Agent 才是(12:49) GPT-5.5 到底強在哪?(16:51) System Card 深讀:模型到底怎麼變了?(18:57) 思想鏈會不會只是編給你看的?(20:40) 模型會不會刻意裝弱?(24:10) AI 工具風向變太快
27 MIN
APR 26, 2026
S2E54 LLM 賭錯方向了?從駕馭工程到世界模型
👉 矽谷輕鬆談專屬優惠連結:https://nordvpn.com/jktech訂閱即額外多送 4 個月|30 天退款保證#NordVPN🔒 本集節目由 NordVPN 贊助AI 工具讓詐騙集團幾十秒內就能生出一個幾可亂真的釣魚網站,以前靠排版、錯字來識破假網站的方法已經失效了。攻擊在自動化,我們的防護也要跟上。NordVPN 內建「威脅防護」,在網路底層主動幫你攔截釣魚網站、惡意連結和網頁追蹤器,就連在咖啡廳用公用 Wi-Fi 也能全程加密保護,不用靠感覺,交給系統幫你顧。每個月大概一杯咖啡的錢,就能讓你的網路安全從被動靠感覺,變成主動全自動防禦。有興趣的朋友透過下方矽谷輕鬆談的專屬連結試試看,訂閱額外多送 4 個月,30 天不滿意直接退,完全沒有損失。如果你喜歡我的內容,歡迎加入會員支持我,讓我更有動力繼續分享更多好內容!👉 https://www.youtube.com/channel/UCJIPFjZSCWR15_jxBaK2fQQ/join過去幾年,我們看到 AI 模型的能力一路快速進步,從一開始大家在研究怎麼把 Prompt 寫好,到後來開始加入工具、記憶、工作流、狀態管理,也就是這幾個月很紅的 Harness Engineering 駕馭工程,讓模型不只是回答問題,而是可以更像一個真正能做事的 AI Agent。所以很自然地,我們會開始想一個問題:如果模型繼續變強,再加上駕馭工程,把 LLM 原本不穩定、沒有狀態、容易幻覺的地方慢慢補起來,那這條路會不會就是通往 AGI 的答案?🤔這一集我想從這個問題出發,聊聊我最近一直在思考的另一個角度:世界模型。因為如果大語言模型本質上還是在理解文字、預測下一個 token,那它到底是真的理解這個世界,還是只是從大量資料裡學到「看起來應該怎麼回答」?世界模型想補上的,正是這個部分。它不是單純讓 AI 生成下一段文字、下一張圖片或下一段影片,而是希望模型能夠理解現實世界背後的運作方式。比如一個杯子被推到桌邊會掉下去,一台車突然切進來你需要煞車,一顆球飛過來你會直覺知道它大概會落在哪裡。這些對人類來說很自然的物理直覺,其實不只是「看過很多資料」而已,而是我們腦中有一套對世界運作方式的內部模型。世界模型的方向,就是希望 AI 也能建立類似的理解。🌎這集我會用比較白話的方式,聊聊為什麼光靠 LLM 可能還不夠,駕馭工程到底補了哪些東西,以及為什麼世界模型可能會是 AGI 發展中很重要的一塊拼圖。我也會提到 Yann LeCun 近年一直推的 JEPA 架構,還有為什麼他認為 Sora 這類生成影片模型,雖然看起來很像理解世界,但其實跟真正的世界模型還是不太一樣。所以這一集不只是聊「下一個模型會不會更強」,而是想換一個角度來看:如果 AI 真的要變成一個能在現實世界裡行動、判斷、規劃的系統,它到底還缺什麼?如果你最近也有一種感覺,覺得 AI 明明越來越強,可是用久了又會發現它離真正可靠的智慧還差一段距離,那這集應該會蠻值得聽的。🚀(00:00) 開頭(02:46) AI 詐騙時代的自動化防禦(04:37) 為什麼我們頻道這麼少廣告?(06:25) Meta 開發者體驗有多坑?(10:32) 為什麼光靠 LLM 不能達到 AGI?(12:22) Scaling Law 與 LLM 的天生限制(13:25) 為什麼需要 Harness Engineering 駕馭工程?(14:43) 另一條路:世界模型(15:36) 世界模型到底想解決什麼?(17:01) Sora 這類影片模型算世界模型嗎?(18:51) JEPA:預測抽象狀態,而不是像素(20:04) LeWorldModel 的新突破(22:01) LLM + 駕馭工程短期仍是主流(22:50) 未來可能是 Hybrid AI 架構
24 MIN
APR 19, 2026
S2E53 小龍蝦殺手 Hermes Agent 深度上手!Opus 4.7 到底有沒有變強?
如果你喜歡我的內容,歡迎加入會員支持我,讓我更有動力繼續分享更多好內容!👉 https://www.youtube.com/channel/UCJIPFjZSCWR15_jxBaK2fQQ/join上個禮拜小朋友學校放春假跟全家去了一趟大峽谷,這種壯闊的景色真的要定時補充一下,書本上、影片上看再多還是沒有現場的臨場感強烈,然後你就會突然覺得,平常在公司瞎忙、在那邊計較誰的 AI token 燒比較多,在這片峽谷底下一點意義都沒有 😎我最近買了一台 Mac Studio,本來是想拿來跑 local LLM 的,結果機器拿到以後一直擱著沒動工。剛好社群上都在瘋 Hermes Agent,想說那就先來裝裝看,沒想到一裝就回不去了。這集我會講為什麼我覺得它比 OpenClaw 小龍蝦好,而且也會聊到我之前利用 Anthropic Client SDK + Agent SDK 自幹的個人助理,我是怎麼做到主 agent 可以跟我一直聊天不中斷,然後把所有工作都交給背景的 sub-agent 去跑,整個體驗非常絲滑,但為什麼我還是決定使用 Hermes Agent 呢?這個我會在影片慢慢聊。另外,這禮拜 Anthropic 正式把 Opus 4.7 放出來了,不是大家期待的 Mythos,可以算是 Mythos 的安全閹割版。它有一個地方真的進步超多,就是檔案跟圖片的辨識能力,從 4.6 的 55% 直接跳到 4.7 的 99%,這個跳躍幅度完全不合理,我猜他們一定是找到了什麼訓練方法。但也不是全部都是好消息,我在影片裡會聊到為什麼換到 4.7 之後,你可能會突然發現自己的 Token 消耗變多了,整體花費變貴了。另外從三月開始,很多人都發現 Opus 4.6 的品質變差了,這是真的嗎?Anthropic 偷偷做了什麼事讓模型的思考能力下降?這集我也會順便帶一下 OpenAI 最新的 Agent SDK 設計理念、Qwen 3.6 為什麼在 12 天內就把 Gemma 4 的 coding 能力打得毫無還手之力、還有一些我一邊用 Hermes Agent 一邊在想的東西,像是當我們越來越依賴一家廠商、一個模型的時候,該怎麼去平衡這件事。總之就是有技術、有吐槽、也有一點旅遊心得,如果你最近也在用 Claude Code、或是在想要不要自己做個 agent、或是只是對 Anthropic 這波操作感到奇怪的,這集應該會蠻有共鳴的。看完如果有想法,歡迎在底下留言跟我聊聊。最近我越來越期待看到大家的討論區,因為總是可以看到一些我自己沒想到的角度。🔗 《矽谷輕鬆談》傳送門 👉 https://linktr.ee/jktech(00:00) 開頭(02:19) 大峽谷景色太美:比誰 AI Token 燒得多一點都沒意義(05:34) 出去玩早睡早起身心舒暢 (07:06) Hermes Agent 上手心得:不要裝小龍蝦了(10:56) 自建 AI 助理:我怎麼做到主 agent 一直聊天不中斷(12:41) 既然自建 agent 也不錯,那我為什麼最後還是換掉它?(13:36) Hermes 名字背後的典故,與 skill 自動產生的設計(15:55) OpenAI Agent SDK 新方向:harness 與 compute 分開(19:07) Qwen 3.6 用 12 天把 Gemma 4 打趴(21:03) Opus 4.7 發表:不是 Mythos,為什麼變貴了?(22:38) Opus 4.6 真的變笨了嗎?完整時間線還原(24:31) 4.7 發表同時,Anthropic 做了一件更微妙的事(26:46) Anthropic 的 premium 還能收多久?
28 MIN
See all episodes