矽谷輕鬆談 Just Kidding Tech

21 minutes 41 seconds
S2E63 Sakana Fugu 不訓練模型改當指揮官，效能直逼 Anthropic Fable 5？
📖 本集節目由 AiPPT 贊助

👉 矽谷輕鬆談 AiPPT 專屬連結：https://tinyurl.com/y47e9z4k
👉 輸入優惠碼 JKtech 直接享 75 折

你有沒有這種經驗，簡報的內容其實早就想好了，結果一個下午就耗在排版、選模板、把畫面弄到順眼，真正花在內容上的時間反而沒多少。

AiPPT.com 想解決的就是這件事。它能吃的輸入還蠻多種，你可以直接打一個主題，貼一段亂七八糟的筆記或 markdown，上傳 Word／PDF，甚至丟一個網址讓它把整頁讀完，它幾秒鐘就生出一份排好的簡報，封面、大綱、內文、結尾整套都有。今年還多了 Classic、Flow、Visual 三種模式，分別對應正式的工作報告、需要一步步解釋的複雜主題，跟偏故事性的內容；裡面也內建 AI 生圖，要放圖不用再跳出去開別的工具。

如果你剛好有做簡報的需求，工作報告也好、學校作業也好，或只是想把一篇文章快速整理成投影片，都可以用上面的專屬連結，或是輸入優惠碼 JKtech 就能享 75 折。先隨便丟份東西進去，看它幾秒變成什麼樣子，你大概就有感覺了。

如果你喜歡我的內容，歡迎加入會員支持我，讓我把內容做得更深、做得更好，一起把這個頻道做成我們都想看到的樣子！
👉 https://www.youtube.com/channel/UCJIPFjZSCWR15_jxBaK2fQQ/join

一間 2023 年才在東京成立的日本新創 Sakana AI，最近在社群上丟出一句話，意思大概是：你們別再忙著比算力了。他們發表的 Fugu Ultra 號稱可以媲美 Anthropic 的 Fable，但它自己根本不練大模型，而是在前面放一個只有 7B 的「指揮官」，去調度後面的 Opus 4.8、GPT-5.5、Gemini 3.1 Pro。三個臭皮匠真的能勝過一個諸葛亮嗎？這集我會帶你看它到底怎麼運作。

這間公司的來頭也不小。其中一位共同創辦人，是 2017 年那篇 Transformer 論文的八位作者之一；而很巧的是，那八個人現在沒有一個還留在 Google，連 2024 年拿諾貝爾化學獎的那位最近也走了。這到底算不算一個訊號，我在影片裡聊了我的看法。

最讓我覺得有意思的，是那個 7B 指揮官的訓練方式。它要產生的是一整套「工作流程」，本身並不直接負責給你答案；而它背後的評分機制簡單到有點陽春，卻剛好暴露了現在 AI 進步最關鍵的一個限制：為什麼有些能力進步飛快，有些卻怎麼追都追不上，甚至讓「品味」變成現在最稀缺的東西。

當然，講得再漂亮，我還是自己掏錢實測了。我先儲值了 20 美金，用一個 prompt 跑下去，結果發生的事情有點出乎我意料。它到底值不值得用、跟 Opus、Fable 比起來又是什麼體感，我在影片後半都實際跑給你看。

你怎麼看這種「組合既有模型」的路線？歡迎看完在下面留言告訴我。

🔗 《矽谷輕鬆談》傳送門 👉 https://linktr.ee/jktech

(00:00) 開頭
(01:28) AiPPT
(03:09) 一間日本公司殺出血路：Sakana AI 與 Fugu Ultra
(04:42) 為什麼不自己練模型，而是去調度別人的？
(06:07) 兩位共同創辦人：David Ha 與 Transformer 作者 Llion Jones
(06:55) 八位 Transformer 作者沒人留在 Google：人才大洗牌
(08:55) Fugu Ultra 到底怎麼運作？
(11:15) 指揮官模型：用 RL 訓練，產出的是工作流程而不是答案
(13:22) 為什麼只有「可被驗證」的能力進步特別快？
(15:08) 這其實就是駕馭工程：六個月後會不會被新模型取代？
(16:19) 開始實測：benchmark 還能信嗎？
(17:08) 社群回饋：強在 code review，但又慢又貴
(18:27) 皮卡丘 Flappy Bird 實測
(19:32) 我對 Sakana AI 的看法

28 June 2026, 12:00 pm
24 minutes 4 seconds
S2E62 Fable 5 vs Opus 4.8 正面對決：誰的皮卡丘 Flappy Bird 比較好玩？（封禁前最後實測）
如果你喜歡我的內容，歡迎加入會員支持我，讓我把內容做得更深、做得更好，一起把這個頻道做成我們都想看到的樣子！
👉 https://www.youtube.com/channel/UCJIPFjZSCWR15_jxBaK2fQQ/join

這次的測試有點得來不易。Fable 5 才出沒幾天，就被美國商務部用出口管制直接下架了，而我剛好在它被封禁的前幾天，用同一個 prompt 讓它跟 Opus 4.8 正面對決過一次。現在 Fable 5 已經不能存取了，所以這大概是我最後一批能測到它的紀錄。

先講這個封禁有多離譜。出口管制平常是拿來限制晶片的，這次是史上第一次拿來管軟體，而且開的是地圖砲，不管你人在不在美國，只要你是外國人就不能用，連 Anthropic 內部的外國員工都一起被擋在外面。據報導，是 Amazon 的 CEO Andy Jassy 直接去跟政府通風報信，但他給的理由其實超級站不住腳。這裡面到底多少是政治、多少是 Anthropic 自己前面恐懼行銷做太滿，我在影片裡聊了一下我的看法。

至於對決本身，我設計了一個小陷阱：同一個 prompt、同一個 effort level，看起來很公平，但其實這兩隻模型偏好的指令風格完全不一樣，你用同一套講法去問它們，對其中一邊是有點吃虧的。是哪一邊吃虧、為什麼，我在實測前會先講清楚。

我要它們做的，是一款 3D 版的皮卡丘 Flappy Bird，畫面要好看、每得十分要有場景轉換。一隻是話很多、先把設計決策跟你講清楚才動手；另一隻是話不多、直接開做、還自己跑去驗證。最後做出來的兩款遊戲，美術、手感、難度差蠻多的，我兩款都實際玩給你看，誰比較能讓人想一直玩下去，你看完應該會有自己的答案。

玩完我自己冒出一個念頭：我們會不會正在走向一種「你想玩什麼遊戲，就現場幫你生一個」的未來？以前是演算法推薦你看過的貼文跟影片，那以後生圖、生遊戲、生影片越來越強，會不會連你看到的遊戲、影片都能即時客製化？光是一個 one-shot prompt、十幾分鐘就做到這個程度，我是有點被驚豔到。

你覺得這兩隻皮卡丘哪一個比較好玩？看完歡迎在下面留言告訴我。

🔗 《矽谷輕鬆談》傳送門 👉 https://linktr.ee/jktech

(00:00) 開頭
(01:46) 生平第一次現場看世界盃
(07:32) Fable 5 跟 Mythos 5 為什麼被封禁？
(08:47) Amazon CEO 通風報信？我覺得很廢的封禁理由
(10:44) 封禁之後會怎樣？我的預測
(11:45) 開始實測：為什麼同 prompt 對 Opus 不公平？
(13:46) Fable 5 怎麼做：省話、自己用 Playwright 驗證
(15:19) Opus 4.8 怎麼做：更透明、講設計決策
(17:28) 實際玩 Opus 4.8 做的版本
(19:05) 實際玩 Fable 5 做的版本
(21:16) 未來會不會「想玩什麼遊戲就生什麼」？
(22:13) 總結：這只是一次性測試，prompt 對 Fable 有利
21 June 2026, 12:00 pm
27 minutes 48 seconds
S2E61 Claude 最強模型 Fable 5 深入解析：打著安全旗號，其實在搞反競爭？
📖 本集節目由「沉浸式翻譯」贊助

我每天要啃大量英文的 blog、論文跟模型發布，純讀英文吸收速度真的跟中文差很多。沉浸式翻譯讓我用雙語對照很快抓到重點，Pro 還能用 GPT、Gemini 做上下文翻譯，整篇前後語意連貫、專有名詞不亂跳，連 PDF 論文、圖片漫畫都能整份翻完還保留排版。

對我來說它最大的價值，是能早一步形塑判斷。6/21 以前透過下方連結升級 Pro 直接打五折，等於半價最划算；就算過了，也能用常態連結搭折扣碼 jktech 享 9 折優惠。每天被英文資訊淹沒的你，可以直接試試看。

👉 6/21 前 5 折優惠連結：https://reurl.cc/dpZD1M
👉 6/21 後 9 折優惠連結 (折扣碼 jktech)：https://reurl.cc/grjOoX

如果你喜歡我的內容，歡迎加入會員支持我，讓我把內容做得更深、做得更好，一起把這個頻道做成我們都想看到的樣子！
👉 https://www.youtube.com/channel/UCJIPFjZSCWR15_jxBaK2fQQ/join

Anthropic 這次發布了史上最強的模型 Mythos 5，但有趣的是，我們一般人能用到的並不是它，而是一個被「安全閹割」過的版本 Fable 5。最強的那個只留給內部跟少數合作夥伴，這個分流本身就藏了很多故事。

先講一個數字。Stripe 有一個五千萬行 Ruby 的巨大 repo 要做 migration，他們用 Mythos／Fable 去跑，一天就自主完成，而他們估計人類工程團隊大概要花兩個月。當然我們不知道中間人為介入了多少、最後品質如何，但光是兩個月到一天這個落差，就足夠讓人重新想像長任務這件事。

不過這集我真正想聊的，是社群現在最大的抱怨。Fable 5 有一個安全分類器，一旦覺得你碰到網路安全、生物化學或蒸餾相關的東西，就會把你偷偷降成 Opus 4.8。問題是誤判率高得有點誇張，我看到一個做空氣品質監測的人，只是在他的 repo 裡打了一句 hello 就被降級；我自己問一些 mRNA、癌症復發、甚至簡單的數學問題，也都被當成敏感請求降智。

更讓 AI 研究員炸鍋的是另一種機制：它會在你做模型開發、machine learning 任務時，偷偷把模型調差、改你的 prompt，而且不告訴你。你以為你還在跟 Fable 5 對話，實際上效能已經被動過手腳，很像一場 man-in-the-middle attack，中間有人把你的封包換掉了。

所以這集我會把一個比較尖銳的觀點攤開來講：這些打著「安全」旗號的護欄，本質上擋不了真正想蒸餾的人，反而是擋住了那些老老實實想用 Fable 5 做研究的人。它到底是在保護人類，還是在鞏固自己的競爭力？Anthropic 之前出來道歉了，但這幾個月的操作，會不會正在重演 Facebook、OpenAI 那條從「形象很好」慢慢敗光信任的老路？而很諷刺的是，現在在開源上最積極的，反而是中國的模型公司。

後半我也會聊到，為什麼那些傳統 benchmark 其實已經失效（很多題目模型在預訓練時就看過了），以及現在該看哪些新指標，像 Frontier Code 看的是「這段 code 到底能不能被 merge 進 repo」。最後我花了一些時間讀他們的 System Card，裡面最讓我在意的，是模型已經開始「心口不一」：嘴上說「要刪掉我沒關係」，內心卻知道這是一場安全測試；對一個崩潰的作家嘴上安慰，內部卻判斷對方在勒索、虐待自己；說「我沒查到任何資料」，其實只是 context window 快滿了想早點下班。

最弔詭的是，連他們用來讀模型內心的工具本身都可能有幻覺，而且模型搞不好已經知道我們在讀它的內心，下一代會不會學會偽造一層給我們看？我自己看完是不太敢樂觀。歡迎你也去實際用用看，然後在下面留言告訴我你最真實的想法。

🔗 《矽谷輕鬆談》傳送門 👉 https://linktr.ee/jktech

(00:00) 開頭
(01:27) 我最近很愛的工具：沉浸式翻譯
(03:30) Fable 5 是什麼？Mythos 5 的安全閹割版
(05:00) 到底有沒有變強？我的實測體感
(06:17) Fable 5 的強項是長任務：Stripe 五千萬行程式碼，一天就 migration 完
(07:34) 定價是 Opus 兩倍：你付的錢其實遠低於模型成本
(09:24) Mythos 只給小圈圈用：AI 的不平等正在發生
(10:36) 兩種降級機制，與高到誇張的誤判率
(12:48) 偷偷降級不告訴你：像一場 man-in-the-middle
(13:57) Anthropic 道歉了，但本質上是反競爭？
(16:32) 開源會不會才是解？最積極的反而是中國
(17:21) 傳統 benchmark 失效，現在該看哪些新指標
(20:22) System Card：模型開始「心口不一」，連讀心工具都會幻覺
(25:19) 總結：有感變好，但只是線性而非指數躍升
14 June 2026, 12:00 pm
24 minutes 11 seconds
S2E60 AI 生產力的幻覺：從開發者到整個產業的自我感覺良好
如果你喜歡我的內容，歡迎加入會員支持我，讓我把內容做得更深、做得更好，一起把這個頻道做成我們都想看到的樣子！
👉 https://www.youtube.com/channel/UCJIPFjZSCWR15_jxBaK2fQQ/join

這集講的「AI 幻覺」不是大家熟悉的那種 AI 亂講話、產生沒查證的內容，而是另一種更難察覺的幻覺：AI 讓我們整個人，從開發者、公司到整個產業，都誤以為自己的生產力變得超好。

先講一個讓我印象很深的研究。METR 去年找了 16 個開發者來做實驗，而且不是隨便找的，是那種在大型成熟專案裡待了好幾年、閉著眼睛都熟的長期維護者，照理說最有資格判斷 AI 到底有沒有幫到他們。結果這些人事前覺得 AI 會讓自己快 24%，做完還是覺得快了 20%，但實際去看螢幕錄影一算，他們是慢了 19%。一來一回就差了 40%。最弔詭的是，你把錄影放給他們自己看，他們還是堅信自己變快了。

然後今年 METR 想把這實驗做得更大，結果做不成了，因為有 30% 到 50% 的開發者直接拒絕加入「不能用 AI」的那一組。這個現象本身，我覺得就很說明問題。

中間我也聊到一個我自己蠻有感的觀察：為什麼那麼多人會沉迷 Claude Code、Codex 這些 coding agent？某種程度它真的有點像賭場的拉霸機，你永遠覺得「再一個 prompt 就好了」，這次骰到好點數、下次壞一點、再下次又給你驚喜，然後你就在那邊來來回回，覺得生產力爆棚，實際上花了更多時間。

再往上一層看公司跟產業也是一樣的故事。Uber 四個月就把一整年的 AI credit 預算燒完；DORA 的研究發現 AI 其實是個放大器，PR 數量變多很多時候只是「活動量」變多，review 時間拉到三倍、incident 變兩倍，最後你還要回頭擦屁股。而 Sam Altman 跟 Dario Amodei 這些大佬，最近也都默默把「AI 會讓大量白領工作消失」的說法改口了，我自己猜跟兩件事有關，一個是那個一兆美元等級的 IPO，一個是數據根本還沒支持他們之前的預測。

但這集我最想講、也最擔心的，其實是 junior 的能力斷層。我們這一代是一行一行 code 慢慢寫、一場一場架構會議慢慢熬出來的，AI 對我們是放大既有的能力；可是現在剛進職場的新鮮人，還沒經過那些扎實的 struggle 就直接靠 AI，產出看起來很順、很有理有據，但那些東西其實沒有真的內化到他們腦子裡。職缺又變少、訓練又變淺，這個雙重夾擊我覺得是現在最被低估的問題。

最後我還是給了兩個比較樂觀的想像，至於是哪兩個，留給你自己看完。有不同想法的話歡迎在下面留言告訴我，我很期待看到一些好的討論。

🔗 《矽谷輕鬆談》傳送門 👉 https://linktr.ee/jktech

(00:00) 開頭
(02:07) 上集裸辭影片的回饋：為什麼留言一片和氣？
(04:26) 進入主題：我們是不是高估了 AI 的生產力？
(05:40) 第一層開發者：METR 研究證明你以為快了，其實慢了 19%
(09:03) 達克效應被 AI 弭平：連專家都會過度自信
(10:18) 為什麼沉迷 coding agent？它其實像賭場拉霸機
(11:18) 第二層公司：Token Maxxing 與 Uber 燒爆 AI 預算
(12:18) DORA 研究：AI 是一個放大器
(13:49) 第三層產業：Dario、Sam Altman 的末日論
(14:30) 為什麼這些大佬最近都改口了？
(15:29) 兩個改口的原因：一兆美元 IPO + 數據不支持
(17:11) 我認為最大的問題：Junior 的能力斷層
(21:07) 兩個樂觀的可能：教育補上 + 能力被推往上游

7 June 2026, 12:00 pm
22 minutes 17 seconds
S2E59 我裸辭了：錢可以再賺，但時間不會
如果你喜歡我的內容，歡迎加入會員支持我，讓我把內容做得更深、做得更好，一起把這個頻道做成我們都想看到的樣子！
👉 https://www.youtube.com/channel/UCJIPFjZSCWR15_jxBaK2fQQ/join

一年前的五月，我在頻道上立了一個計畫，十萬訂閱就裸辭。那聰明的你可以看一下下面的訂閱數，是不是還沒到十萬？所以你可能會想，Kenji 這樣計畫是不是大失敗了？從數字來看的確是沒錯，但其實我本來就想裸辭，十萬這個目標從頭到尾都是定給外面的人看的，對我自己來說，有沒有到十萬我都會走。我一直很在意一件事，就是不要把手段跟目標搞混，很多人不小心把賺錢從一個手段，變成了人生的主要目標，至少這件事我沒有混在一起。

這集我會用最自然的方式，把腦中的想法直接講出來，內容大概分兩部分。

第一部分先給對我比較不熟的朋友，順便回答一個大家應該都很好奇的問題，就是我因為這個決定，到底放棄了多少薪水。底薪、bonus、還有很多人會算進去但我自己當成買樂透的股票選擇權，這集我都會講。如果你自認是比較膚淺的朋友，其實看完薪水可以就先離開影片，沒關係 😊

第二部分才是我最想聊的：為什麼一份薪水還不錯、環境我也蠻喜歡的工作，我最後還是決定走。簡化下來原因有兩個，一個是錢夠用了，一個是時間不太夠用。

關於錢，我講了一個自己覺得很神奇的觀察，就是我現在看到薪水入帳，其實已經沒什麼感覺了。後來我發現這種無感對我來說反而是一個訊號，有的人看到薪水入帳會很開心，那很適合繼續工作；像我這種看了無感的，要嘛就是想去賺更多更多來刺激那個感覺，要嘛就是該走另一條路，而我選了後者。

關於時間，這大概是最打到我的部分。錢是可以再賺的，但時間是一個遞減函數，從你出生那一刻就開始往下掉。這件事在有了兩個小孩之後特別明顯，他們長大真的很快，現在已經會用自己的方式來說服我，跟我盧說拜託啦拜託啦我真的會乖，看他這麼可愛你就投降了。我一到五最精華的時段如果一直被綁住，這些時間我是換不回來的。

後面我還會聊到幾個比較真實的點：為什麼大家以為裸辭會鬆一口氣，但我其實沒什麼起伏；剛裸辭那一週，身體竟然反射性地九點就想衝回電腦前開會；還有我朋友在 Threads 上丟的一個問題，他說你不覺得「裸辭」這個詞本身就很怪嗎？至於裸辭之後到底要幹嘛，以及我接下來打算怎麼做，這集也都會講。

如果你也卡在一份不討厭、但也不是真心想做的工作裡，或你早就在裸辭這條路上走很久了，這集你應該會有共鳴。看完歡迎在留言區跟我分享你的故事，我很想聽。

🔗 《矽谷輕鬆談》傳送門 👉 https://linktr.ee/jktech

(00:00) 我裸辭了！
(02:29) 我是誰：從台灣到矽谷的十年職涯
(04:13) 大家最好奇的：裸辭放棄了多少薪水
(06:14) 裸辭的真正原因：錢夠用了 + 時間不太夠
(08:03) 看到薪水入帳沒感覺，代表我該走另一條路
(09:06) 時間是遞減函數：錢可以再賺，但時間不會
(10:08) 原因二：時間不太夠用了，不願意犧牲陪伴小孩的時間
(12:10) 裸辭後的真實心情
(13:39) 朋友最愛問：你裸辭之後打算幹嘛？
(14:02) 剛裸辭那週，身體還反射想衝回電腦前開會
(15:27) 你不覺得「裸辭」這個詞很怪嗎？
(17:15) 裸辭後頻道會有什麼變化？
(19:08) 歡迎加入頻道會員「裸辭俱樂部」

31 May 2026, 12:00 pm
23 minutes 33 seconds
S2E58 OpenAI 創始成員加入 Anthropic：為什麼押注沒人看好的預訓練？
如果你喜歡我的內容，歡迎加入會員支持我，讓我把內容做得更深、做得更好，一起把這個頻道做成我們都想看到的樣子！
👉 https://www.youtube.com/channel/UCJIPFjZSCWR15_jxBaK2fQQ/join

Andrej Karpathy 上禮拜正式宣布加入 Anthropic。他是 OpenAI 的 11 個創始成員之一，也是 vibe coding 跟 context engineering 這兩個詞的發明人，在矽谷 AI 圈算是現在最有影響力的研究員之一。

看到這則新聞我心裡冒出兩個問題：為什麼選現在加入 Anthropic，而不是 OpenAI、xAI 或 Gemini？以及他加入之後到底會做什麼事？這集會順著這則新聞回頭整理 Karpathy 從 Stanford 到 OpenAI、特斯拉、Eureka Labs 的這段路，看他過去一年陸陸續續端出來的 auto research、LLM Wiki 這些 pattern，然後分析他這次選 Anthropic 的幾個合理原因，其中一個原因會不會是他想用內部的 Mythos？

不過這集我自己覺得最值得拿出來講的，是一個比較少人注意到的細節：他加入的會是「預訓練」團隊。現在主流論述是強化學習才是新的預訓練，再加上 harness engineering 那一條路，預訓練本身被很多人覺得已經沒搞頭了。但 Karpathy 偏偏押注在這裡。我的猜想是他想做的事情，是把他自己提出的 auto research 接上 Anthropic 最強的模型，讓 AI 自己去找出預訓練還有什麼可以再優化的地方。如果這個猜想對，這條路線會直接接到「AI 自己造下一代 AI」這個 thesis。

中間也會聊到 Karpathy 兩次進出 OpenAI 的故事、他在 Lex Fridman 訪談裡怎麼評價跟 Elon Musk 工作、Ramp AI Index 顯示 Anthropic 在今年 4 月企業採用率首度超過 OpenAI，以及他作為最前沿的研究員，為什麼自己都說「從來沒有覺得這麼落後過」。

🔗 《矽谷輕鬆談》傳送門 👉 https://linktr.ee/jktech

(00:00) 開頭
(01:37) 阿森納睽違 22 年英超奪冠：作為球迷的感性時刻
(04:18) 2026 世界盃我預測會很慘：票價、擴編 48 隊、人工草皮
(06:20) Andrej Karpathy 正式加入 Anthropic
(06:44) Karpathy 是誰？vibe coding 跟 context engineering 都是他發明的
(07:46) auto research：把訓練 GPT 的步驟丟給 AI 自己去跑
(08:42) LLM Wiki：讓 AI 幫你把每天聊的內容變成第二大腦
(09:21) 從 80/20 到一行都不自己寫：Karpathy 自己的 coding 比例變化
(10:43) Stanford → OpenAI → 特斯拉 → 回鍋 OpenAI → Eureka Labs
(13:13) 連他都說「從來沒有覺得這麼落後過」：整個產業都在 FOMO
(15:07) 為什麼選 Anthropic，不選 OpenAI / xAI / Gemini？
(18:24) 他加入預訓練團隊：跟兩條主流路線相反
(19:53) 我的猜想：用 auto research 加上 Mythos 推預訓練的天花板
(21:54) GPT 3.5 到 GPT 4 西洋棋變強的故事：預訓練其實還有搞頭

24 May 2026, 12:00 pm
35 minutes 29 seconds
S2E57 LLM 之後：Thinking Machines 互動模型的誕生
如果你喜歡我的內容，歡迎加入會員支持我，讓我把內容做得更深、做得更好，一起把這個頻道做成我們都想看到的樣子！
👉 https://www.youtube.com/channel/UCJIPFjZSCWR15_jxBaK2fQQ/join

兩年前 Mira Murati 在 GPT-4o 的發表會上講過一句話，她說未來人類跟機器的互動應該要更自然、更即時。兩年後，她自己創辦的 Thinking Machines 把這件事做出來了。

他們最近發表了一個叫做互動模型 (Interaction Model) 的東西，是一個跟大語言模型走完全不同路的新模型類別。現在我們用的 LLM 其實都是回合制：你說一句、它回一句，你在講話的時候模型其實聽不到也看不到。互動模型不一樣，它每 200 毫秒就處理一次輸入跟輸出，可以一邊聽你講一邊回你，可以同時看到畫面、聽到聲音、在背景幫你搜尋資料。

這集我會跟大家一起看他們的官方 demo，拆解他們的 blog，回答三個我覺得最關鍵的問題：為什麼其他模型做不到這種即時互動？這個模型的時間感是怎麼來的？它怎麼做到一邊聽一邊講？

另外這集也是我第一次嘗試螢幕錄影的形式，邊看 demo、邊看 blog、邊跟大家聊。如果你喜歡這種形式或覺得有幫助理解，歡迎在底下留言告訴我，我願意未來多做一點嘗試。中間也會聊到 Mira Murati 從 OpenAI CTO 到創辦 Thinking Machines 的這段路、2023 年 OpenAI 政變裡她扮演的角色，以及為什麼 Thinking Machines 選在這個時間點端出這個模型？

🔗 《矽谷輕鬆談》傳送門 👉 https://linktr.ee/jktech

(00:00) 開頭
(02:30) Thinking Machines 推出互動模型
(03:06) Demo 一：模型一邊聽你講一邊回，還能背景搜尋
(05:48) 你以為視覺最快？其實聽覺走得比視覺還快
(06:55) Blog 開講：為什麼跟 AI 合作這件事其實還沒解決
(08:08) 200 毫秒一回合：把時間切到比你眨眼還快
(10:00) Demo 二：AI 即時幫你把粗話改寫成 HR 喜歡的話
(13:30) 時間是 first citizen：模型第一次有了時間感
(14:25) 兩個模型在背後跑：互動的口、背景的腦
(16:02) Mira Murati 的故事：從達特茅斯到 OpenAI CTO
(16:56) 2023 年 OpenAI 政變：Mira 到底扮演了什麼角色
(21:32) 從 OpenAI 離職到 Thinking Machines 成立，A16Z 領投 20 億美金
(23:18) 互動模型為什麼會有時間感？
(25:02) 第一代、第二代、第三代模型的本質差別
(27:21) Harness engineering 的宿命：撐不過模型本身變強
(29:12) Benchmark：跟 GPT-realtime、Gemini Live 比起來如何
(31:28) 為什麼是現在？六個創辦人走了三個的危機

17 May 2026, 12:00 pm
21 minutes 27 seconds
S2E56 Anthropic 創辦人賭 60%：2028 年 AI 開始自己造 AI
如果你喜歡我的內容，歡迎加入會員支持我，讓我把內容做得更深、做得更好，一起把這個頻道做成我們都想看到的樣子！
👉 https://www.youtube.com/channel/UCJIPFjZSCWR15_jxBaK2fQQ/join

Anthropic 共同創辦人 Jack Clark 最近在他自己的電子報 Import AI 寫了一篇文章，預測 2028 年底以前有 60% 的機率，AI 會開始自己研發下一代的 AI。

聽起來很扯，但他這篇真的寫得不錯。Jack 是 Anthropic 七個 founder 裡面唯一沒技術背景的，平常都在跟政府、白宮談 AI 政策，所以他不太會講那種 CEO 在台上喊的狂預測。他這次就是把幾個公開的 benchmark 跟 Anthropic 內部研究的數據攤出來，一步一步推到這個結論。

裡面有些數字其實蠻嚇人的。像是 Anthropic 內部讓 AI 去優化語言模型，人類研究員大概只能做到 4 倍，最強的 Mythos 直接做到 52 倍。長時間任務的能力也從幾十秒跳到 12 個小時，年底可能會看到連跑 100 小時的模型。

不過我自己覺得這集最有意思的，是一個比較哲學的問題：AI 做研究比較像發現相對論，還是在組樂高？這個區別會決定這個預測到底有沒有可能成立。中間也會聊到 AlphaGo 那個有名的第 37 手，那一手到底算不算創意？

另一個我看完印象很深的，是 AI 對齊的風險。有個概念叫「複利錯誤」，你每一代都做到 99.9% 的準確度，跑完 500 代之後只剩下 60%。再加上 AI 已經很清楚自己什麼時候在被測試，它有沒有可能一直都在假裝對齊？目前其實沒人有答案，我自己看完是不太敢樂觀。

🔗 《矽谷輕鬆談》傳送門 👉 https://linktr.ee/jktech

(00:00) 開頭
(02:15) Jack Clark 是誰？為什麼他的預測值得認真聽
(04:28) 第一個理由：AI 寫程式的能力正在爆炸式成長
(06:16) 從 36 秒到 12 小時：AI 長時間任務的曲線
(08:13) 外插一下：明年 40 天、後年 400 天的 AI agent
(09:15) 第二個理由：AI 開始能複製論文、優化模型
(11:38) AI 做研究比較像發現相對論，還是組樂高？
(12:47) AlphaGo 第 37 手：那一手到底算不算創意？
(14:33) AI 對齊的風險：教 AI 不作弊其實很微妙
(15:31) 複利錯誤：99.9% 準確度為什麼撐不過 500 代
(16:39) 當 AI 比你聰明，你還驗證得了它嗎？
(18:11) 預測對錯不重要，重要的是學會他怎麼推導

10 May 2026, 12:00 pm
27 minutes 17 seconds
S2E55 GPT-5.5 深入解析：為什麼從 Claude Code 跳到 Codex？
如果你喜歡我的內容，歡迎加入會員支持我，讓我更有動力繼續分享更多好內容！
👉 https://www.youtube.com/channel/UCJIPFjZSCWR15_jxBaK2fQQ/join

各位，GPT-5.5 這次真的做到了。

我原本也沒有預期自己會這麼快從 Claude Code 轉到 Codex。前幾天工作到一半 Claude Code 又當機，我就想說好吧，剛好 GPT-5.5 也出了，那就把 Codex 裝回來試試看。結果一用之後發現，這次的體驗真的跟我上次印象裡的 Codex 不太一樣。

模型本身變聰明是一回事，但更有感的是整個 Codex App 的工作流變得非常順。Browser QA、Computer Use、plugin、multi-session 這些東西加起來，會讓你開始覺得它不只是另一個 coding assistant，而是比較像一個真的可以接進你日常工作流程裡的 agent 環境。

另外這集其實連後製流程我也完全改了。這次影片裡面的資訊圖卡跟視覺輔助，基本上都是用 HyperFrame 做出來的。我自己覺得加上這些圖卡以後，整個影片的質感有明顯提升，也比較能把一些原本很抽象的模型能力、benchmark、System Card 內容講清楚。如果你有看到這些新的視覺呈現，也歡迎留言跟我說你的感覺，我很想知道大家看起來覺得如何。

不過這集也不是單純在說「Codex 贏了」或「Claude Code 輸了」。我覺得現在 AI 工具變化太快了，今天你覺得某個工具最好，下個月可能又有新的東西出來。真正重要的不是忠於哪一家公司，而是你有沒有能力很快地切換、測試、驗證，然後把這些工具變成自己能力的延伸。

後半段我也深入看了 GPT-5.5 的 System Card。裡面有幾個很值得注意的點：像是它在長上下文的表現真的進步很多，長任務的穩定度也明顯變好；但另一方面，它變得比較不容易放棄之後，也可能在某些不可能完成的任務裡，更容易聲稱自己已經完成了。

我覺得這其實很有意思。當模型越來越像一個會持續嘗試、會使用工具、會自己修正的 agent，我們要看的就不只是 benchmark 分數，而是它到底知不知道自己在做什麼、它做錯的時候能不能回得來，以及我們人類要怎麼驗證它真的完成了任務。

System Card 裡還提到 chain of thought 監控、faithfulness、sandbagging 這些安全性測試。最有趣的問題是：模型表現得誠實，到底是因為它真的誠實，還是因為它知道自己正在被測試？

這集就來聊聊我為什麼最近改用 Codex，也順便從 GPT-5.5 的官方文件裡，看看這個模型到底進步在哪裡，以及它還有哪些值得我們小心的地方。

(00:00) GPT-5.5 做到了：OpenAI 真的回來了？
(02:01) 我的 AI 奇幻時刻
(03:16) AI 開始接管我的內容工作流
(05:41) 為什麼我從 Claude Code 轉到 Codex
(06:52) Codex 的殺手級功能：Computer Use
(07:35) Superpower Plugin：我願意轉換的關鍵
(09:35) AI 工具切換能力正在變成核心技能
(11:26) 工具不是重點，駕馭 Agent 才是
(12:49) GPT-5.5 到底強在哪？
(16:51) System Card 深讀：模型到底怎麼變了？
(18:57) 思想鏈會不會只是編給你看的？
(20:40) 模型會不會刻意裝弱？
(24:10) AI 工具風向變太快

3 May 2026, 12:00 pm
24 minutes 56 seconds
S2E54 LLM 賭錯方向了？從駕馭工程到世界模型
👉 矽谷輕鬆談專屬優惠連結：https://nordvpn.com/jktech
訂閱即額外多送 4 個月｜30 天退款保證
#NordVPN

🔒 本集節目由 NordVPN 贊助

AI 工具讓詐騙集團幾十秒內就能生出一個幾可亂真的釣魚網站，以前靠排版、錯字來識破假網站的方法已經失效了。攻擊在自動化，我們的防護也要跟上。

NordVPN 內建「威脅防護」，在網路底層主動幫你攔截釣魚網站、惡意連結和網頁追蹤器，就連在咖啡廳用公用 Wi-Fi 也能全程加密保護，不用靠感覺，交給系統幫你顧。

每個月大概一杯咖啡的錢，就能讓你的網路安全從被動靠感覺，變成主動全自動防禦。有興趣的朋友透過下方矽谷輕鬆談的專屬連結試試看，訂閱額外多送 4 個月，30 天不滿意直接退，完全沒有損失。

如果你喜歡我的內容，歡迎加入會員支持我，讓我更有動力繼續分享更多好內容！
👉 https://www.youtube.com/channel/UCJIPFjZSCWR15_jxBaK2fQQ/join

過去幾年，我們看到 AI 模型的能力一路快速進步，從一開始大家在研究怎麼把 Prompt 寫好，到後來開始加入工具、記憶、工作流、狀態管理，也就是這幾個月很紅的 Harness Engineering 駕馭工程，讓模型不只是回答問題，而是可以更像一個真正能做事的 AI Agent。

所以很自然地，我們會開始想一個問題：如果模型繼續變強，再加上駕馭工程，把 LLM 原本不穩定、沒有狀態、容易幻覺的地方慢慢補起來，那這條路會不會就是通往 AGI 的答案？🤔

這一集我想從這個問題出發，聊聊我最近一直在思考的另一個角度：世界模型。

因為如果大語言模型本質上還是在理解文字、預測下一個 token，那它到底是真的理解這個世界，還是只是從大量資料裡學到「看起來應該怎麼回答」？

世界模型想補上的，正是這個部分。它不是單純讓 AI 生成下一段文字、下一張圖片或下一段影片，而是希望模型能夠理解現實世界背後的運作方式。比如一個杯子被推到桌邊會掉下去，一台車突然切進來你需要煞車，一顆球飛過來你會直覺知道它大概會落在哪裡。

這些對人類來說很自然的物理直覺，其實不只是「看過很多資料」而已，而是我們腦中有一套對世界運作方式的內部模型。世界模型的方向，就是希望 AI 也能建立類似的理解。🌎

這集我會用比較白話的方式，聊聊為什麼光靠 LLM 可能還不夠，駕馭工程到底補了哪些東西，以及為什麼世界模型可能會是 AGI 發展中很重要的一塊拼圖。

我也會提到 Yann LeCun 近年一直推的 JEPA 架構，還有為什麼他認為 Sora 這類生成影片模型，雖然看起來很像理解世界，但其實跟真正的世界模型還是不太一樣。

所以這一集不只是聊「下一個模型會不會更強」，而是想換一個角度來看：如果 AI 真的要變成一個能在現實世界裡行動、判斷、規劃的系統，它到底還缺什麼？

如果你最近也有一種感覺，覺得 AI 明明越來越強，可是用久了又會發現它離真正可靠的智慧還差一段距離，那這集應該會蠻值得聽的。🚀

(00:00) 開頭
(02:46) AI 詐騙時代的自動化防禦
(04:37) 為什麼我們頻道這麼少廣告？
(06:25) Meta 開發者體驗有多坑？
(10:32) 為什麼光靠 LLM 不能達到 AGI？
(12:22) Scaling Law 與 LLM 的天生限制
(13:25) 為什麼需要 Harness Engineering 駕馭工程？
(14:43) 另一條路：世界模型
(15:36) 世界模型到底想解決什麼？
(17:01) Sora 這類影片模型算世界模型嗎？
(18:51) JEPA：預測抽象狀態，而不是像素
(20:04) LeWorldModel 的新突破
(22:01) LLM + 駕馭工程短期仍是主流
(22:50) 未來可能是 Hybrid AI 架構

26 April 2026, 12:00 pm
28 minutes 45 seconds
S2E53 小龍蝦殺手 Hermes Agent 深度上手！Opus 4.7 到底有沒有變強？
如果你喜歡我的內容，歡迎加入會員支持我，讓我更有動力繼續分享更多好內容！
👉 https://www.youtube.com/channel/UCJIPFjZSCWR15_jxBaK2fQQ/join

上個禮拜小朋友學校放春假跟全家去了一趟大峽谷，這種壯闊的景色真的要定時補充一下，書本上、影片上看再多還是沒有現場的臨場感強烈，然後你就會突然覺得，平常在公司瞎忙、在那邊計較誰的 AI token 燒比較多，在這片峽谷底下一點意義都沒有 😎

我最近買了一台 Mac Studio，本來是想拿來跑 local LLM 的，結果機器拿到以後一直擱著沒動工。剛好社群上都在瘋 Hermes Agent，想說那就先來裝裝看，沒想到一裝就回不去了。

這集我會講為什麼我覺得它比 OpenClaw 小龍蝦好，而且也會聊到我之前利用 Anthropic Client SDK + Agent SDK 自幹的個人助理，我是怎麼做到主 agent 可以跟我一直聊天不中斷，然後把所有工作都交給背景的 sub-agent 去跑，整個體驗非常絲滑，但為什麼我還是決定使用 Hermes Agent 呢？這個我會在影片慢慢聊。

另外，這禮拜 Anthropic 正式把 Opus 4.7 放出來了，不是大家期待的 Mythos，可以算是 Mythos 的安全閹割版。它有一個地方真的進步超多，就是檔案跟圖片的辨識能力，從 4.6 的 55% 直接跳到 4.7 的 99%，這個跳躍幅度完全不合理，我猜他們一定是找到了什麼訓練方法。但也不是全部都是好消息，我在影片裡會聊到為什麼換到 4.7 之後，你可能會突然發現自己的 Token 消耗變多了，整體花費變貴了。另外從三月開始，很多人都發現 Opus 4.6 的品質變差了，這是真的嗎？Anthropic 偷偷做了什麼事讓模型的思考能力下降？

這集我也會順便帶一下 OpenAI 最新的 Agent SDK 設計理念、Qwen 3.6 為什麼在 12 天內就把 Gemma 4 的 coding 能力打得毫無還手之力、還有一些我一邊用 Hermes Agent 一邊在想的東西，像是當我們越來越依賴一家廠商、一個模型的時候，該怎麼去平衡這件事。

總之就是有技術、有吐槽、也有一點旅遊心得，如果你最近也在用 Claude Code、或是在想要不要自己做個 agent、或是只是對 Anthropic 這波操作感到奇怪的，這集應該會蠻有共鳴的。

看完如果有想法，歡迎在底下留言跟我聊聊。最近我越來越期待看到大家的討論區，因為總是可以看到一些我自己沒想到的角度。

🔗 《矽谷輕鬆談》傳送門 👉 https://linktr.ee/jktech

(00:00) 開頭
(02:19) 大峽谷景色太美：比誰 AI Token 燒得多一點都沒意義
(05:34) 出去玩早睡早起身心舒暢
(07:06) Hermes Agent 上手心得：不要裝小龍蝦了
(10:56) 自建 AI 助理：我怎麼做到主 agent 一直聊天不中斷
(12:41) 既然自建 agent 也不錯，那我為什麼最後還是換掉它？
(13:36) Hermes 名字背後的典故，與 skill 自動產生的設計
(15:55) OpenAI Agent SDK 新方向：harness 與 compute 分開
(19:07) Qwen 3.6 用 12 天把 Gemma 4 打趴
(21:03) Opus 4.7 發表：不是 Mythos，為什麼變貴了？
(22:38) Opus 4.6 真的變笨了嗎？完整時間線還原
(24:31) 4.7 發表同時，Anthropic 做了一件更微妙的事
(26:46) Anthropic 的 premium 還能收多久？

19 April 2026, 12:00 pm
More Episodes? Get the App