- 24 minutes 11 secondsS2E60 AI 生產力的幻覺:從開發者到整個產業的自我感覺良好
如果你喜歡我的內容,歡迎加入會員支持我,讓我把內容做得更深、做得更好,一起把這個頻道做成我們都想看到的樣子!
👉 https://www.youtube.com/channel/UCJIPFjZSCWR15_jxBaK2fQQ/join
這集講的「AI 幻覺」不是大家熟悉的那種 AI 亂講話、產生沒查證的內容,而是另一種更難察覺的幻覺:AI 讓我們整個人,從開發者、公司到整個產業,都誤以為自己的生產力變得超好。
先講一個讓我印象很深的研究。METR 去年找了 16 個開發者來做實驗,而且不是隨便找的,是那種在大型成熟專案裡待了好幾年、閉著眼睛都熟的長期維護者,照理說最有資格判斷 AI 到底有沒有幫到他們。結果這些人事前覺得 AI 會讓自己快 24%,做完還是覺得快了 20%,但實際去看螢幕錄影一算,他們是慢了 19%。一來一回就差了 40%。最弔詭的是,你把錄影放給他們自己看,他們還是堅信自己變快了。
然後今年 METR 想把這實驗做得更大,結果做不成了,因為有 30% 到 50% 的開發者直接拒絕加入「不能用 AI」的那一組。這個現象本身,我覺得就很說明問題。
中間我也聊到一個我自己蠻有感的觀察:為什麼那麼多人會沉迷 Claude Code、Codex 這些 coding agent?某種程度它真的有點像賭場的拉霸機,你永遠覺得「再一個 prompt 就好了」,這次骰到好點數、下次壞一點、再下次又給你驚喜,然後你就在那邊來來回回,覺得生產力爆棚,實際上花了更多時間。
再往上一層看公司跟產業也是一樣的故事。Uber 四個月就把一整年的 AI credit 預算燒完;DORA 的研究發現 AI 其實是個放大器,PR 數量變多很多時候只是「活動量」變多,review 時間拉到三倍、incident 變兩倍,最後你還要回頭擦屁股。而 Sam Altman 跟 Dario Amodei 這些大佬,最近也都默默把「AI 會讓大量白領工作消失」的說法改口了,我自己猜跟兩件事有關,一個是那個一兆美元等級的 IPO,一個是數據根本還沒支持他們之前的預測。
但這集我最想講、也最擔心的,其實是 junior 的能力斷層。我們這一代是一行一行 code 慢慢寫、一場一場架構會議慢慢熬出來的,AI 對我們是放大既有的能力;可是現在剛進職場的新鮮人,還沒經過那些扎實的 struggle 就直接靠 AI,產出看起來很順、很有理有據,但那些東西其實沒有真的內化到他們腦子裡。職缺又變少、訓練又變淺,這個雙重夾擊我覺得是現在最被低估的問題。
最後我還是給了兩個比較樂觀的想像,至於是哪兩個,留給你自己看完。有不同想法的話歡迎在下面留言告訴我,我很期待看到一些好的討論。
🔗 《矽谷輕鬆談》傳送門 👉 https://linktr.ee/jktech
(00:00) 開頭
(02:07) 上集裸辭影片的回饋:為什麼留言一片和氣?
(04:26) 進入主題:我們是不是高估了 AI 的生產力?
(05:40) 第一層 開發者:METR 研究證明你以為快了,其實慢了 19%
(09:03) 達克效應被 AI 弭平:連專家都會過度自信
(10:18) 為什麼沉迷 coding agent?它其實像賭場拉霸機
(11:18) 第二層 公司:Token Maxxing 與 Uber 燒爆 AI 預算
(12:18) DORA 研究:AI 是一個放大器
(13:49) 第三層 產業:Dario、Sam Altman 的末日論
(14:30) 為什麼這些大佬最近都改口了?
(15:29) 兩個改口的原因:一兆美元 IPO + 數據不支持
(17:11) 我認為最大的問題:Junior 的能力斷層
(21:07) 兩個樂觀的可能:教育補上 + 能力被推往上游
7 June 2026, 12:00 pm - 22 minutes 17 secondsS2E59 我裸辭了:錢可以再賺,但時間不會
如果你喜歡我的內容,歡迎加入會員支持我,讓我把內容做得更深、做得更好,一起把這個頻道做成我們都想看到的樣子!
👉 https://www.youtube.com/channel/UCJIPFjZSCWR15_jxBaK2fQQ/join
一年前的五月,我在頻道上立了一個計畫,十萬訂閱就裸辭。那聰明的你可以看一下下面的訂閱數,是不是還沒到十萬?所以你可能會想,Kenji 這樣計畫是不是大失敗了?從數字來看的確是沒錯,但其實我本來就想裸辭,十萬這個目標從頭到尾都是定給外面的人看的,對我自己來說,有沒有到十萬我都會走。我一直很在意一件事,就是不要把手段跟目標搞混,很多人不小心把賺錢從一個手段,變成了人生的主要目標,至少這件事我沒有混在一起。
這集我會用最自然的方式,把腦中的想法直接講出來,內容大概分兩部分。
第一部分先給對我比較不熟的朋友,順便回答一個大家應該都很好奇的問題,就是我因為這個決定,到底放棄了多少薪水。底薪、bonus、還有很多人會算進去但我自己當成買樂透的股票選擇權,這集我都會講。如果你自認是比較膚淺的朋友,其實看完薪水可以就先離開影片,沒關係 😊
第二部分才是我最想聊的:為什麼一份薪水還不錯、環境我也蠻喜歡的工作,我最後還是決定走。簡化下來原因有兩個,一個是錢夠用了,一個是時間不太夠用。
關於錢,我講了一個自己覺得很神奇的觀察,就是我現在看到薪水入帳,其實已經沒什麼感覺了。後來我發現這種無感對我來說反而是一個訊號,有的人看到薪水入帳會很開心,那很適合繼續工作;像我這種看了無感的,要嘛就是想去賺更多更多來刺激那個感覺,要嘛就是該走另一條路,而我選了後者。
關於時間,這大概是最打到我的部分。錢是可以再賺的,但時間是一個遞減函數,從你出生那一刻就開始往下掉。這件事在有了兩個小孩之後特別明顯,他們長大真的很快,現在已經會用自己的方式來說服我,跟我盧說拜託啦拜託啦我真的會乖,看他這麼可愛你就投降了。我一到五最精華的時段如果一直被綁住,這些時間我是換不回來的。
後面我還會聊到幾個比較真實的點:為什麼大家以為裸辭會鬆一口氣,但我其實沒什麼起伏;剛裸辭那一週,身體竟然反射性地九點就想衝回電腦前開會;還有我朋友在 Threads 上丟的一個問題,他說你不覺得「裸辭」這個詞本身就很怪嗎?至於裸辭之後到底要幹嘛,以及我接下來打算怎麼做,這集也都會講。
如果你也卡在一份不討厭、但也不是真心想做的工作裡,或你早就在裸辭這條路上走很久了,這集你應該會有共鳴。看完歡迎在留言區跟我分享你的故事,我很想聽。
🔗 《矽谷輕鬆談》傳送門 👉 https://linktr.ee/jktech
(00:00) 我裸辭了!
(02:29) 我是誰:從台灣到矽谷的十年職涯
(04:13) 大家最好奇的:裸辭放棄了多少薪水
(06:14) 裸辭的真正原因:錢夠用了 + 時間不太夠
(08:03) 看到薪水入帳沒感覺,代表我該走另一條路
(09:06) 時間是遞減函數:錢可以再賺,但時間不會
(10:08) 原因二:時間不太夠用了,不願意犧牲陪伴小孩的時間
(12:10) 裸辭後的真實心情
(13:39) 朋友最愛問:你裸辭之後打算幹嘛?
(14:02) 剛裸辭那週,身體還反射想衝回電腦前開會
(15:27) 你不覺得「裸辭」這個詞很怪嗎?
(17:15) 裸辭後頻道會有什麼變化?
(19:08) 歡迎加入頻道會員「裸辭俱樂部」
31 May 2026, 12:00 pm - 23 minutes 33 secondsS2E58 OpenAI 創始成員加入 Anthropic:為什麼押注沒人看好的預訓練?
如果你喜歡我的內容,歡迎加入會員支持我,讓我把內容做得更深、做得更好,一起把這個頻道做成我們都想看到的樣子!
👉 https://www.youtube.com/channel/UCJIPFjZSCWR15_jxBaK2fQQ/join
Andrej Karpathy 上禮拜正式宣布加入 Anthropic。他是 OpenAI 的 11 個創始成員之一,也是 vibe coding 跟 context engineering 這兩個詞的發明人,在矽谷 AI 圈算是現在最有影響力的研究員之一。
看到這則新聞我心裡冒出兩個問題:為什麼選現在加入 Anthropic,而不是 OpenAI、xAI 或 Gemini?以及他加入之後到底會做什麼事?這集會順著這則新聞回頭整理 Karpathy 從 Stanford 到 OpenAI、特斯拉、Eureka Labs 的這段路,看他過去一年陸陸續續端出來的 auto research、LLM Wiki 這些 pattern,然後分析他這次選 Anthropic 的幾個合理原因,其中一個原因會不會是他想用內部的 Mythos?
不過這集我自己覺得最值得拿出來講的,是一個比較少人注意到的細節:他加入的會是「預訓練」團隊。現在主流論述是強化學習才是新的預訓練,再加上 harness engineering 那一條路,預訓練本身被很多人覺得已經沒搞頭了。但 Karpathy 偏偏押注在這裡。我的猜想是他想做的事情,是把他自己提出的 auto research 接上 Anthropic 最強的模型,讓 AI 自己去找出預訓練還有什麼可以再優化的地方。如果這個猜想對,這條路線會直接接到「AI 自己造下一代 AI」這個 thesis。
中間也會聊到 Karpathy 兩次進出 OpenAI 的故事、他在 Lex Fridman 訪談裡怎麼評價跟 Elon Musk 工作、Ramp AI Index 顯示 Anthropic 在今年 4 月企業採用率首度超過 OpenAI,以及他作為最前沿的研究員,為什麼自己都說「從來沒有覺得這麼落後過」。
🔗 《矽谷輕鬆談》傳送門 👉 https://linktr.ee/jktech
(00:00) 開頭
(01:37) 阿森納睽違 22 年英超奪冠:作為球迷的感性時刻
(04:18) 2026 世界盃我預測會很慘:票價、擴編 48 隊、人工草皮
(06:20) Andrej Karpathy 正式加入 Anthropic
(06:44) Karpathy 是誰?vibe coding 跟 context engineering 都是他發明的
(07:46) auto research:把訓練 GPT 的步驟丟給 AI 自己去跑
(08:42) LLM Wiki:讓 AI 幫你把每天聊的內容變成第二大腦
(09:21) 從 80/20 到一行都不自己寫:Karpathy 自己的 coding 比例變化
(10:43) Stanford → OpenAI → 特斯拉 → 回鍋 OpenAI → Eureka Labs
(13:13) 連他都說「從來沒有覺得這麼落後過」:整個產業都在 FOMO
(15:07) 為什麼選 Anthropic,不選 OpenAI / xAI / Gemini?
(18:24) 他加入預訓練團隊:跟兩條主流路線相反
(19:53) 我的猜想:用 auto research 加上 Mythos 推預訓練的天花板
(21:54) GPT 3.5 到 GPT 4 西洋棋變強的故事:預訓練其實還有搞頭
24 May 2026, 12:00 pm - 35 minutes 29 secondsS2E57 LLM 之後:Thinking Machines 互動模型的誕生
如果你喜歡我的內容,歡迎加入會員支持我,讓我把內容做得更深、做得更好,一起把這個頻道做成我們都想看到的樣子!
👉 https://www.youtube.com/channel/UCJIPFjZSCWR15_jxBaK2fQQ/join
兩年前 Mira Murati 在 GPT-4o 的發表會上講過一句話,她說未來人類跟機器的互動應該要更自然、更即時。兩年後,她自己創辦的 Thinking Machines 把這件事做出來了。
他們最近發表了一個叫做互動模型 (Interaction Model) 的東西,是一個跟大語言模型走完全不同路的新模型類別。現在我們用的 LLM 其實都是回合制:你說一句、它回一句,你在講話的時候模型其實聽不到也看不到。互動模型不一樣,它每 200 毫秒就處理一次輸入跟輸出,可以一邊聽你講一邊回你,可以同時看到畫面、聽到聲音、在背景幫你搜尋資料。
這集我會跟大家一起看他們的官方 demo,拆解他們的 blog,回答三個我覺得最關鍵的問題:為什麼其他模型做不到這種即時互動?這個模型的時間感是怎麼來的?它怎麼做到一邊聽一邊講?
另外這集也是我第一次嘗試螢幕錄影的形式,邊看 demo、邊看 blog、邊跟大家聊。如果你喜歡這種形式或覺得有幫助理解,歡迎在底下留言告訴我,我願意未來多做一點嘗試。中間也會聊到 Mira Murati 從 OpenAI CTO 到創辦 Thinking Machines 的這段路、2023 年 OpenAI 政變裡她扮演的角色,以及為什麼 Thinking Machines 選在這個時間點端出這個模型?
🔗 《矽谷輕鬆談》傳送門 👉 https://linktr.ee/jktech
(00:00) 開頭
(02:30) Thinking Machines 推出互動模型
(03:06) Demo 一:模型一邊聽你講一邊回,還能背景搜尋
(05:48) 你以為視覺最快?其實聽覺走得比視覺還快
(06:55) Blog 開講:為什麼跟 AI 合作這件事其實還沒解決
(08:08) 200 毫秒一回合:把時間切到比你眨眼還快
(10:00) Demo 二:AI 即時幫你把粗話改寫成 HR 喜歡的話
(13:30) 時間是 first citizen:模型第一次有了時間感
(14:25) 兩個模型在背後跑:互動的口、背景的腦
(16:02) Mira Murati 的故事:從達特茅斯到 OpenAI CTO
(16:56) 2023 年 OpenAI 政變:Mira 到底扮演了什麼角色
(21:32) 從 OpenAI 離職到 Thinking Machines 成立,A16Z 領投 20 億美金
(23:18) 互動模型為什麼會有時間感?
(25:02) 第一代、第二代、第三代模型的本質差別
(27:21) Harness engineering 的宿命:撐不過模型本身變強
(29:12) Benchmark:跟 GPT-realtime、Gemini Live 比起來如何
(31:28) 為什麼是現在?六個創辦人走了三個的危機
17 May 2026, 12:00 pm - 21 minutes 27 secondsS2E56 Anthropic 創辦人賭 60%:2028 年 AI 開始自己造 AI
如果你喜歡我的內容,歡迎加入會員支持我,讓我把內容做得更深、做得更好,一起把這個頻道做成我們都想看到的樣子!
👉 https://www.youtube.com/channel/UCJIPFjZSCWR15_jxBaK2fQQ/join
Anthropic 共同創辦人 Jack Clark 最近在他自己的電子報 Import AI 寫了一篇文章,預測 2028 年底以前有 60% 的機率,AI 會開始自己研發下一代的 AI。
聽起來很扯,但他這篇真的寫得不錯。Jack 是 Anthropic 七個 founder 裡面唯一沒技術背景的,平常都在跟政府、白宮談 AI 政策,所以他不太會講那種 CEO 在台上喊的狂預測。他這次就是把幾個公開的 benchmark 跟 Anthropic 內部研究的數據攤出來,一步一步推到這個結論。
裡面有些數字其實蠻嚇人的。像是 Anthropic 內部讓 AI 去優化語言模型,人類研究員大概只能做到 4 倍,最強的 Mythos 直接做到 52 倍。長時間任務的能力也從幾十秒跳到 12 個小時,年底可能會看到連跑 100 小時的模型。
不過我自己覺得這集最有意思的,是一個比較哲學的問題:AI 做研究比較像發現相對論,還是在組樂高?這個區別會決定這個預測到底有沒有可能成立。中間也會聊到 AlphaGo 那個有名的第 37 手,那一手到底算不算創意?
另一個我看完印象很深的,是 AI 對齊的風險。有個概念叫「複利錯誤」,你每一代都做到 99.9% 的準確度,跑完 500 代之後只剩下 60%。再加上 AI 已經很清楚自己什麼時候在被測試,它有沒有可能一直都在假裝對齊?目前其實沒人有答案,我自己看完是不太敢樂觀。
🔗 《矽谷輕鬆談》傳送門 👉 https://linktr.ee/jktech
(00:00) 開頭
(02:15) Jack Clark 是誰?為什麼他的預測值得認真聽
(04:28) 第一個理由:AI 寫程式的能力正在爆炸式成長
(06:16) 從 36 秒到 12 小時:AI 長時間任務的曲線
(08:13) 外插一下:明年 40 天、後年 400 天的 AI agent
(09:15) 第二個理由:AI 開始能複製論文、優化模型
(11:38) AI 做研究比較像發現相對論,還是組樂高?
(12:47) AlphaGo 第 37 手:那一手到底算不算創意?
(14:33) AI 對齊的風險:教 AI 不作弊其實很微妙
(15:31) 複利錯誤:99.9% 準確度為什麼撐不過 500 代
(16:39) 當 AI 比你聰明,你還驗證得了它嗎?
(18:11) 預測對錯不重要,重要的是學會他怎麼推導
10 May 2026, 12:00 pm - 27 minutes 17 secondsS2E55 GPT-5.5 深入解析:為什麼從 Claude Code 跳到 Codex?
如果你喜歡我的內容,歡迎加入會員支持我,讓我更有動力繼續分享更多好內容!
👉 https://www.youtube.com/channel/UCJIPFjZSCWR15_jxBaK2fQQ/join
各位,GPT-5.5 這次真的做到了。
我原本也沒有預期自己會這麼快從 Claude Code 轉到 Codex。前幾天工作到一半 Claude Code 又當機,我就想說好吧,剛好 GPT-5.5 也出了,那就把 Codex 裝回來試試看。結果一用之後發現,這次的體驗真的跟我上次印象裡的 Codex 不太一樣。
模型本身變聰明是一回事,但更有感的是整個 Codex App 的工作流變得非常順。Browser QA、Computer Use、plugin、multi-session 這些東西加起來,會讓你開始覺得它不只是另一個 coding assistant,而是比較像一個真的可以接進你日常工作流程裡的 agent 環境。
另外這集其實連後製流程我也完全改了。這次影片裡面的資訊圖卡跟視覺輔助,基本上都是用 HyperFrame 做出來的。我自己覺得加上這些圖卡以後,整個影片的質感有明顯提升,也比較能把一些原本很抽象的模型能力、benchmark、System Card 內容講清楚。如果你有看到這些新的視覺呈現,也歡迎留言跟我說你的感覺,我很想知道大家看起來覺得如何。
不過這集也不是單純在說「Codex 贏了」或「Claude Code 輸了」。我覺得現在 AI 工具變化太快了,今天你覺得某個工具最好,下個月可能又有新的東西出來。真正重要的不是忠於哪一家公司,而是你有沒有能力很快地切換、測試、驗證,然後把這些工具變成自己能力的延伸。
後半段我也深入看了 GPT-5.5 的 System Card。裡面有幾個很值得注意的點:像是它在長上下文的表現真的進步很多,長任務的穩定度也明顯變好;但另一方面,它變得比較不容易放棄之後,也可能在某些不可能完成的任務裡,更容易聲稱自己已經完成了。
我覺得這其實很有意思。當模型越來越像一個會持續嘗試、會使用工具、會自己修正的 agent,我們要看的就不只是 benchmark 分數,而是它到底知不知道自己在做什麼、它做錯的時候能不能回得來,以及我們人類要怎麼驗證它真的完成了任務。
System Card 裡還提到 chain of thought 監控、faithfulness、sandbagging 這些安全性測試。最有趣的問題是:模型表現得誠實,到底是因為它真的誠實,還是因為它知道自己正在被測試?
這集就來聊聊我為什麼最近改用 Codex,也順便從 GPT-5.5 的官方文件裡,看看這個模型到底進步在哪裡,以及它還有哪些值得我們小心的地方。
(00:00) GPT-5.5 做到了:OpenAI 真的回來了?
(02:01) 我的 AI 奇幻時刻
(03:16) AI 開始接管我的內容工作流
(05:41) 為什麼我從 Claude Code 轉到 Codex
(06:52) Codex 的殺手級功能:Computer Use
(07:35) Superpower Plugin:我願意轉換的關鍵
(09:35) AI 工具切換能力正在變成核心技能
(11:26) 工具不是重點,駕馭 Agent 才是
(12:49) GPT-5.5 到底強在哪?
(16:51) System Card 深讀:模型到底怎麼變了?
(18:57) 思想鏈會不會只是編給你看的?
(20:40) 模型會不會刻意裝弱?
(24:10) AI 工具風向變太快
3 May 2026, 12:00 pm - 24 minutes 56 secondsS2E54 LLM 賭錯方向了?從駕馭工程到世界模型
👉 矽谷輕鬆談專屬優惠連結:https://nordvpn.com/jktech
訂閱即額外多送 4 個月|30 天退款保證
#NordVPN
🔒 本集節目由 NordVPN 贊助
AI 工具讓詐騙集團幾十秒內就能生出一個幾可亂真的釣魚網站,以前靠排版、錯字來識破假網站的方法已經失效了。攻擊在自動化,我們的防護也要跟上。
NordVPN 內建「威脅防護」,在網路底層主動幫你攔截釣魚網站、惡意連結和網頁追蹤器,就連在咖啡廳用公用 Wi-Fi 也能全程加密保護,不用靠感覺,交給系統幫你顧。
每個月大概一杯咖啡的錢,就能讓你的網路安全從被動靠感覺,變成主動全自動防禦。有興趣的朋友透過下方矽谷輕鬆談的專屬連結試試看,訂閱額外多送 4 個月,30 天不滿意直接退,完全沒有損失。
如果你喜歡我的內容,歡迎加入會員支持我,讓我更有動力繼續分享更多好內容!
👉 https://www.youtube.com/channel/UCJIPFjZSCWR15_jxBaK2fQQ/join
過去幾年,我們看到 AI 模型的能力一路快速進步,從一開始大家在研究怎麼把 Prompt 寫好,到後來開始加入工具、記憶、工作流、狀態管理,也就是這幾個月很紅的 Harness Engineering 駕馭工程,讓模型不只是回答問題,而是可以更像一個真正能做事的 AI Agent。
所以很自然地,我們會開始想一個問題:如果模型繼續變強,再加上駕馭工程,把 LLM 原本不穩定、沒有狀態、容易幻覺的地方慢慢補起來,那這條路會不會就是通往 AGI 的答案?🤔
這一集我想從這個問題出發,聊聊我最近一直在思考的另一個角度:世界模型。
因為如果大語言模型本質上還是在理解文字、預測下一個 token,那它到底是真的理解這個世界,還是只是從大量資料裡學到「看起來應該怎麼回答」?
世界模型想補上的,正是這個部分。它不是單純讓 AI 生成下一段文字、下一張圖片或下一段影片,而是希望模型能夠理解現實世界背後的運作方式。比如一個杯子被推到桌邊會掉下去,一台車突然切進來你需要煞車,一顆球飛過來你會直覺知道它大概會落在哪裡。
這些對人類來說很自然的物理直覺,其實不只是「看過很多資料」而已,而是我們腦中有一套對世界運作方式的內部模型。世界模型的方向,就是希望 AI 也能建立類似的理解。🌎
這集我會用比較白話的方式,聊聊為什麼光靠 LLM 可能還不夠,駕馭工程到底補了哪些東西,以及為什麼世界模型可能會是 AGI 發展中很重要的一塊拼圖。
我也會提到 Yann LeCun 近年一直推的 JEPA 架構,還有為什麼他認為 Sora 這類生成影片模型,雖然看起來很像理解世界,但其實跟真正的世界模型還是不太一樣。
所以這一集不只是聊「下一個模型會不會更強」,而是想換一個角度來看:如果 AI 真的要變成一個能在現實世界裡行動、判斷、規劃的系統,它到底還缺什麼?
如果你最近也有一種感覺,覺得 AI 明明越來越強,可是用久了又會發現它離真正可靠的智慧還差一段距離,那這集應該會蠻值得聽的。🚀
(00:00) 開頭
(02:46) AI 詐騙時代的自動化防禦
(04:37) 為什麼我們頻道這麼少廣告?
(06:25) Meta 開發者體驗有多坑?
(10:32) 為什麼光靠 LLM 不能達到 AGI?
(12:22) Scaling Law 與 LLM 的天生限制
(13:25) 為什麼需要 Harness Engineering 駕馭工程?
(14:43) 另一條路:世界模型
(15:36) 世界模型到底想解決什麼?
(17:01) Sora 這類影片模型算世界模型嗎?
(18:51) JEPA:預測抽象狀態,而不是像素
(20:04) LeWorldModel 的新突破
(22:01) LLM + 駕馭工程短期仍是主流
(22:50) 未來可能是 Hybrid AI 架構
26 April 2026, 12:00 pm - 28 minutes 45 secondsS2E53 小龍蝦殺手 Hermes Agent 深度上手!Opus 4.7 到底有沒有變強?
如果你喜歡我的內容,歡迎加入會員支持我,讓我更有動力繼續分享更多好內容!
👉 https://www.youtube.com/channel/UCJIPFjZSCWR15_jxBaK2fQQ/join
上個禮拜小朋友學校放春假跟全家去了一趟大峽谷,這種壯闊的景色真的要定時補充一下,書本上、影片上看再多還是沒有現場的臨場感強烈,然後你就會突然覺得,平常在公司瞎忙、在那邊計較誰的 AI token 燒比較多,在這片峽谷底下一點意義都沒有 😎
我最近買了一台 Mac Studio,本來是想拿來跑 local LLM 的,結果機器拿到以後一直擱著沒動工。剛好社群上都在瘋 Hermes Agent,想說那就先來裝裝看,沒想到一裝就回不去了。
這集我會講為什麼我覺得它比 OpenClaw 小龍蝦好,而且也會聊到我之前利用 Anthropic Client SDK + Agent SDK 自幹的個人助理,我是怎麼做到主 agent 可以跟我一直聊天不中斷,然後把所有工作都交給背景的 sub-agent 去跑,整個體驗非常絲滑,但為什麼我還是決定使用 Hermes Agent 呢?這個我會在影片慢慢聊。
另外,這禮拜 Anthropic 正式把 Opus 4.7 放出來了,不是大家期待的 Mythos,可以算是 Mythos 的安全閹割版。它有一個地方真的進步超多,就是檔案跟圖片的辨識能力,從 4.6 的 55% 直接跳到 4.7 的 99%,這個跳躍幅度完全不合理,我猜他們一定是找到了什麼訓練方法。但也不是全部都是好消息,我在影片裡會聊到為什麼換到 4.7 之後,你可能會突然發現自己的 Token 消耗變多了,整體花費變貴了。另外從三月開始,很多人都發現 Opus 4.6 的品質變差了,這是真的嗎?Anthropic 偷偷做了什麼事讓模型的思考能力下降?
這集我也會順便帶一下 OpenAI 最新的 Agent SDK 設計理念、Qwen 3.6 為什麼在 12 天內就把 Gemma 4 的 coding 能力打得毫無還手之力、還有一些我一邊用 Hermes Agent 一邊在想的東西,像是當我們越來越依賴一家廠商、一個模型的時候,該怎麼去平衡這件事。
總之就是有技術、有吐槽、也有一點旅遊心得,如果你最近也在用 Claude Code、或是在想要不要自己做個 agent、或是只是對 Anthropic 這波操作感到奇怪的,這集應該會蠻有共鳴的。
看完如果有想法,歡迎在底下留言跟我聊聊。最近我越來越期待看到大家的討論區,因為總是可以看到一些我自己沒想到的角度。
🔗 《矽谷輕鬆談》傳送門 👉 https://linktr.ee/jktech
(00:00) 開頭
(02:19) 大峽谷景色太美:比誰 AI Token 燒得多一點都沒意義
(05:34) 出去玩早睡早起身心舒暢
(07:06) Hermes Agent 上手心得:不要裝小龍蝦了
(10:56) 自建 AI 助理:我怎麼做到主 agent 一直聊天不中斷
(12:41) 既然自建 agent 也不錯,那我為什麼最後還是換掉它?
(13:36) Hermes 名字背後的典故,與 skill 自動產生的設計
(15:55) OpenAI Agent SDK 新方向:harness 與 compute 分開
(19:07) Qwen 3.6 用 12 天把 Gemma 4 打趴
(21:03) Opus 4.7 發表:不是 Mythos,為什麼變貴了?
(22:38) Opus 4.6 真的變笨了嗎?完整時間線還原
(24:31) 4.7 發表同時,Anthropic 做了一件更微妙的事
(26:46) Anthropic 的 premium 還能收多久?
19 April 2026, 12:00 pm - 19 minutes 37 secondsS2E52 矽谷 10 年回顧:軟體工程師真的很爽!為何這是我最後一份打工?
如果你喜歡我的內容,歡迎加入會員支持我,讓我更有動力繼續分享更多好內容!
👉 https://www.youtube.com/channel/UCJIPFjZSCWR15_jxBaK2fQQ/join
今年,我在美國即將待滿 10 年了!🤯 回想當初,身為一個臺大電機畢業生,出國其實完全不在我的計畫內。一切的起心動念,竟然只是因為不想跟柯柯談「沒有期限的遠距離戀愛」!😂 就這樣,我一路從半年衝刺托福、申請 CMU 矽谷分校,到落地美國第一天不去放行李,而是直接在「機場交車」準備全力找工作,開啟了我在美國這十年的破關打怪之旅。
這十年間,我經歷了 Square 這樣頂尖科技公司的高標準文化洗禮,也坐過公司股價從 20 塊狂飆到 300 塊、最後又跌下來的真實雲霄飛車,這段震撼教育讓我深刻體悟到「你永遠賺不到認知以外的錢」。雖然網路上常常看到大家抱怨灣區的缺點,但我必須大聲說一句真心話:在美國當軟體工程師,真的是太爽了!不用一直加班,同事間互相尊重,這十年真的讓我紮實地累積了專業與資產。
不過,既然這麼爽,為什麼我會決定:「這應該是我最後一份幫別人打工的工作了」?😫 隨著這一年 Claude Code、Cursor 等 AI 工具的突飛猛進,我發現自己有太多新的想法想要實現。當大腦不斷在公司專案與個人頻道間瘋狂切換,每天還要花大把時間在正職工作上,真的讓我覺得很煩躁,面對這個典範轉移的時代,我認為「不行動的風險,反而比留在原地更大」
本集精彩亮點:
✈️ 衝動赴美與機場交車的超狂開局: 為了不談遠距離戀愛而開啟的留學路!帶你回顧我落地美國第一天,不去安頓住宿直接約交車的破關打怪期。
🎢 股價 15 倍雲霄飛車的震撼教育: 在 Square 經歷股價暴漲又暴跌的血淚教訓,這段經歷讓我深刻體悟:為什麼你永遠賺不到「認知以外的錢」。
💻 打破勸退文迷思,矽谷工程師真心話: 網路上大家都在抱怨灣區?我必須大聲說:在美國當軟體工程師真的「太爽了」!
🤯 AI 時代的反思與「最後一份打工」宣告: 腦袋有滿滿的點子想實現,每天被正職綁住真的好煩躁!不行動的風險反而更大!
🔗 《矽谷輕鬆談》傳送門 👉 https://linktr.ee/jktech
(00:00) 美國 10 年回顧
(01:49) 別人的意見永遠只是參考
(02:50) 為什麼我會來美國?
(04:10) 半年衝刺申請留學與錄取 CMU 矽谷分校
(06:48) 高速成長的一年:第一天機場交車 + Airbnb 住十個月
(08:55) 加入 Square:體驗頂尖企業文化與多元性
(11:27) 你賺不到認知以外的錢
(13:16) 疫情爆發時把大螢幕扛回家的趣事
(14:20) 核心體悟:在美國當軟體工程師真的太爽了
(16:49) 這是我最後一份打工!
12 April 2026, 12:00 pm - 18 minutes 55 secondsS2E51 解密 Claude Code:原始碼流出揭露記憶架構與未公開的 Kairos 模式
如果你喜歡我的內容,歡迎加入會員支持我,讓我更有動力繼續分享更多好內容!
👉 https://www.youtube.com/channel/UCJIPFjZSCWR15_jxBaK2fQQ/join
這禮拜 AI 圈最大的新聞,絕對是 Anthropic 的史詩級翻車事件!🤯 因為一個低級的發布失誤,Claude Code 的 Source Map 竟然被當成愚人節大禮包,原始碼直接被看光光,社群更是一夜之間鑽版權漏洞,瘋狂用 Python 和 Rust 重寫備份!😂
不過這場意外,反而成了我們一窺頂級 AI 公司實力的最好機會,直接把 Anthropic 最核心的「駕馭工程 (Harnessing Engineering)」底牌全掀了!我們在流出的原始碼中,發現了未公開的全自主模式「Kairos」、超聰明的三層記憶架構(Agent 竟然會在半夜「自動做夢」整理記憶!),甚至還有用來防堵對手抄襲的「反蒸餾機制」與內部專用的「臥底模式」。這次底褲全被看光,到底會不會摧毀 Claude 的競爭優勢?這集帶你一次拆解!
本集精彩亮點:
🚨 Anthropic 史詩級翻車: 愚人節前夕的致命失誤,Source Map 意外打包讓原始碼瞬間被全網還原,帶你直擊矽谷真實的危機處理與 Blameless 文化!
🐢 專屬 AI 電子雞 Buddy: 實測 4/1 上線的超萌彩蛋,在寫 Code 崩潰時陪你講幹話的小烏龜(還可以自己改名字,中文也通喔)!
🤖 隱藏版全自主模式 Kairos: 準備淘汰被動的一問一答!全天候主動幫你修 Bug、監控 PR 的未來貼身助理即將上線?
🧠 揭秘超強三層記憶架構: Context Window 夠大也沒用!看 Claude Code 如何透過記憶分層與「Auto Dream (自動做夢)」精準管理,只載入真正重要的上下文。
🛡️ 防君子不防小人的反蒸餾機制: 故意塞假工具、隱藏推理過程?解密 Anthropic 防堵對手偷學的絕招,以及未來可能引爆的法庭鐵證。
🔗 《矽谷輕鬆談》傳送門 👉 https://linktr.ee/jktech
(00:00) 開頭
(02:15) Anthropic 送幸福開放原始碼?炒飯哥率先發現漏洞
(04:15) 如何鑽版權漏洞重寫 Claude Code?
(06:34) 犯錯工程師被開除了嗎?直擊矽谷的 Blameless 文化
(08:06) 實測隱藏彩蛋:專屬 AI 電子雞 Buddy
(09:13) 淘汰小龍蝦?未公開的全自主模式 Kairos
(11:11) 揭秘三層記憶架構與自動做夢 (Auto Dream)
(14:02) 解析「反蒸餾機制」:塞假工具 + 隱藏推理過程
(15:42) 隱藏 Anthropic 員工身份的「臥底模式」
(16:13) 原始碼看光光,會摧毀 Claude 的競爭優勢嗎?
5 April 2026, 12:00 pm - 19 minutes 41 secondsS2E50 Google TurboQuant 演算法打破 AI 記憶體牆!放棄 OpenClaw 自幹個人助理?
如果你喜歡我的內容,歡迎加入會員支持我,讓我更有動力繼續分享更多好內容!
👉 https://www.youtube.com/channel/UCJIPFjZSCWR15_jxBaK2fQQ/join
AI 變小變快,竟然還能不變笨?!🤯 這週 Google 丟出了一個重量級的技術突破——TurboQuant 演算法!現在大家動不動就狂塞十萬、百萬 token 的 Context Window,導致 AI 推論時撞上了超大的瓶頸「記憶體牆 (Memory Wall)」,GPU 最核心的算力幾乎都在空轉等待資料傳輸。而 TurboQuant 竟然能把記憶體需求暴縮 6 倍、推論速度狂飆 8 倍,重點是模型輸出「零損失」!這集就來跟大家拆解,他們是如何透過發現 AI 的「注意力黑洞」,利用動態混合精度,精準壓縮掉 95% 不重要的廢話!
另外,上週才剛跟大家聊完讓我熬夜調教的「小龍蝦」OpenClaw,這週我直接決定棄坑啦!😂 為了打造一個真正懂我、記憶力不混亂的專屬助理,我決定砍掉重練,直接結合 Claude Agent SDK 與向量資料庫 Mem0,自己弄一個部署在雲端、能用 Telegram 溝通的專屬 AI 助理!
影片也會跟大家分享我剛從奧蘭多員工旅遊回來的心情。不知道大家有沒有聽過「第一次與最後一次理論」?當我意識到這極有可能是我人生中「最後一次」參加別人的員工旅遊時,整個心境與看事情的角度都變得完全不同了。
本集精彩亮點:
🚀 Google TurboQuant 震撼彈: 打破致命的「記憶體牆」,記憶體縮小 6 倍、提速 8 倍且零損失的神奇魔法!
🕳️ 破解 AI 注意力黑洞: 傳統無損壓縮太笨?看 Google 如何揪出那最重要的 5% 關鍵字。
🦞 棄坑小龍蝦 OpenClaw: 調教太心累!看我如何用 Claude Agent SDK + Mem0 自幹專屬雲端助理。
🌅 第一次與最後一次理論: 奧蘭多奢華員工旅遊心得,以及我對未來不當員工的職涯反思!
🔗 《矽谷輕鬆談》傳送門 👉 https://linktr.ee/jktech
(00:00) 開頭
(02:24) 留在 Phantom 的兩大理由:無限 AI Credit 自由與超讚員工旅遊
(04:03) 第一次與最後一次理論:最後一次員工旅遊?
(07:30) 放棄 OpenClaw!改用 Claude Agent SDK + Mem0 自幹個人助理
(10:33) Google TurboQuant 打破 AI 推論的「記憶體牆」
(12:22) 驚人成效:記憶體縮小 6 倍、提速 8 倍且「零損失」
(13:12) 怎麼做到的?傳統壓縮 vs. 動態混合精度
(14:16) 關鍵發現:AI 注意力極度不平均,精準壓縮 95% 不重要的資訊
(15:32) AI 發展 M 型化:一邊瘋狂擴張算力,一邊極致省成本
29 March 2026, 12:00 pm - More Episodes? Get the App