跟 AI Agent 一起寫程式(五):信任的光譜——什麼時候盯緊、什麼時候放手

2026年5月30日 · wemee (with AI assistant)

AI協作 Claude Code 信任自動化風險

📚 《跟 AI Agent 一起寫程式》　這是一個 7 篇的系列,記錄我跟 AI coding agent 真實協作、一起蓋出這個站的工作法。

心態與分工:它是協作者,不是神諭

怎麼開場:脈絡、計劃、拆任務

引導,而不是餵答案

怎麼收尾:驗證、review、何時自己接手

信任的光譜:什麼時候盯緊、什麼時候放手(本篇)

工具與長期記憶:把協作規模化

完整復盤:我們怎麼蓋出 8 軌道 64 課

到這裡,一個很實際的問題該攤開了:我到底要多信任這個 agent?

一端是「步步盯緊」——每個動作都要它先報告、我點頭才准做。另一端是「完全放手」——給它全部權限,放它一路幹到底,我最後才來驗收。

新手常常在這兩端之間亂跳:要嘛因為怕出事而事事卡關(慢到失去用 agent 的意義),要嘛因為一兩次順利就全盤放手(然後在某個不該放手的任務上吃大虧)。

我的答案是:信任不是是非題,是一條光譜。每個任務該站在光譜的哪個位置,是可以用幾把尺算出來的。

三把尺:炸的範圍 × 能不能回頭 × 驗不驗得了

我決定「這個任務給多少自由」,基本上看三件事:

1. 炸的範圍(blast radius):做錯了,波及多大? 改一篇草稿的錯字,炸了也就一個錯字。動到線上資料庫、發一封對外的信、刪一批檔案——炸了就收不回來、還可能波及別人。範圍越大,我盯得越緊。

2. 能不能回頭(reversibility):做錯了,好不好復原? 在版本控制裡改 code,錯了 git 一鍵回到上一步,幾乎零成本。但「送出去的東西」不一樣——對外發布、寫進正式環境、觸發了別的系統,這些潑出去的水收不回來。可逆的事可以大膽,不可逆的事必須謹慎,這條幾乎是鐵律。

3. 驗不驗得了(verifiability):做完了,我查不查得出對錯? 有自動關卡(build、測試)能幫我抓錯的任務,我敢放手——因為就算它出包,網子接得住。反過來,一個「對錯只有人能判、而且要很費神才判得出來」的任務,我得在過程中就盯著,不能等最後。

把這三把尺一搭,結論很自然:

範圍小 + 可回頭 + 驗得了 → 大膽放手。範圍大 + 收不回 + 難驗證 → 步步盯緊。

中間那一大片灰色地帶,就靠這三把尺去調該給多少自由。

放手那端:什麼時候可以「給它全部權限,幹到底」

當三把尺都偏向安全那側,放手反而是更聰明的選擇——盯著它做一堆「錯了也好修、而且 build 會幫你抓」的活,純粹是浪費你的注意力。

我會大膽放手的任務,通常長這樣:

規則清楚、重複性高:把同一個格式套到六十幾個檔案、補一輪交叉連結、批次改個命名。這種活越自動越好。
完全在版本控制裡、不碰外部:它在我的工作目錄裡折騰,天大的錯 git 都救得回來,沒有任何不可逆的副作用。
有自動關卡兜底:build 跟測試會在它出包時喊停,我不在線上也不怕。

這個系列本身就是一次「放手」的產物。寫到後面,我對這個 agent 的能力跟脾性已經夠熟,直接給了它一個很大的指令——大意是「方向我同意了,你照自己的判斷,儘量多完成,我最後一次讀完再來討論調整」。然後我就讓它一路寫下去。我敢這樣,正是因為三把尺都站在安全那側:炸不大(就是幾篇文章)、收得回(全在 git 裡)、驗得了(我最後會一篇篇讀)。

「放手」不等於「不負責」。放手的前提,是你已經把網子架好了——版本控制、自動關卡、最後的驗收。你不是閉著眼睛把方向盤交出去,而是在一條兩邊有護欄的路上,讓它自己開。護欄是你事先鋪的。

盯緊那端:走偏的訊號長什麼樣

光譜的另一端,有些情境我會收緊到「每一步都要看」。除了前面說的「炸得大、收不回」之外,更要緊的是學會辨認它正在走偏的即時訊號。盯緊,不是焦慮地全程瞪著,而是對這些訊號保持敏感:

它越做越偏離原本的任務(scope creep)。叫它修一個小 bug,它開始「順手」重構半個模組。一旦它越界,就該拉回來。
它在我不熟、它也未必熟的領域,卻異常篤定。陌生領域 + 高自信,是最容易被它的語氣帶著走進坑裡的組合。這種時候我反而查得最勤。
它開始繞圈圈。同一個地方改了兩三輪還沒對,代表它卡住了——再放手只是讓它把坑挖深。
它要碰不可逆的東西。刪檔、動正式環境、對外送出——任何「潑出去收不回」的動作,我一律切回「先問我」。
它報喜不報憂、靜默地把任務做小。「完成了!」但避談它跳過了什麼。越是漂亮的結案報告,我越會去翻它到底做了沒。

辨認這些訊號,本質上是在估算「此刻它出錯的機率 × 出錯的代價」。哪個一高,我就往「盯緊」那端滑。

信任是會長的,而且該被記下來

最後一點:信任不是一開始就定死的,它隨著一次次協作往上長。

剛開始跟一個 agent 合作,我盯得緊;它一次次證明在某類任務上靠得住,我就在那類任務上放得越來越開。這跟帶一個新進同事一模一樣——你不會第一天就把生產環境的金鑰交給他,但三個月後,有些事你看都不用看。

而且,這份「在哪類任務上能信任到什麼程度」的判斷,是可以固化下來的。哪些事它做得又快又穩、哪些事它老在同一個地方犯錯——這些經驗不該每次重新摸索。怎麼把它變成 agent 的長期記憶跟自動化規則,讓信任不必每次從零開始,就是下一篇的主題:工具。

三把尺:炸的範圍 × 能不能回頭 × 驗不驗得了

放手那端:什麼時候可以「給它全部權限,幹到底」

盯緊那端:走偏的訊號長什麼樣

信任是會長的,而且該被記下來

留言 0