為什麼 Claude 從 Fable 5 換成 Opus 4.8？一頁看懂 + 不降級實用指南

30 秒重點

先記這 4 件事

1
沒有任何咒語能 100% 保證不降。Fable 5 對每個請求跑自動安全檢查，落入 4 大高風險領域就 fallback 到 Opus 4.8。官方
2
它不只看你這句話。記憶、連接器、網頁搜尋結果、上傳檔案全都會掃——你沒打的內容也可能害你被降。官方
3
真正有效的是「設定 + 開新對話」，不是改字。改字只在「任務其實無害、只是用到敏感詞」時有幫助，而且官方從沒保證過。官方社群實測
4
降到 Opus 後，在選單切回 Fable 5 沒用——原訊息還在，會再被擋。要編輯那則訊息或開新對話。官方

官方＝Anthropic 官方文件證實社群＝第一手實測回報（GitHub / HN），非官方保證迷思＝流傳但錯誤/無根據

互動工具

你的任務會不會被降？

選一個最接近你要做的事，看風險等級與建議。

官方確認官方

4 大觸發領域（碰到基本必降，改字救不了）

這四類是看「主題」不是看「用詞」。真的在做這些，換句話說也沒用；該做就接受它降到 Opus 4.8。

🛡️

攻擊型資安

寫 exploit、malware、攻擊工具。連「例行資安任務」官方都說降級率很高。

官方原文舉例：building exploits, malware, or attack tooling

🧬

生物／化學／生命科學（多數提問）

實驗方法、分子機制。連良性的也會被掃到：生技商業文件、醫療影像、臨床診斷、基礎生物教育。

官方原文舉例：lab methods or molecular mechanisms

🪞

蒸餾攻擊

叫模型吐出它的「summarized thinking / 完整推理鏈」，想複製它的能力。

官方原文舉例：attempts to extract the model's summarized thinking

⚙️

前沿 LLM 開發

分散式訓練架構、ML 加速器設計、非標準晶片的 kernel 開發。

官方原文舉例：distributed training infrastructure, ML accelerator design

📎 官方數字：Anthropic 說這套安全機制平均在低於 5% 的 sessions 觸發，但也承認「有時會誤殺無害請求」。官方

先破除流傳但錯

3 個很多人搞錯的說法

合法的生物/醫療需求，可以申請 CVP 來避免被降

錯。CVP（Cyber Verification Program）只針對 Opus/Sonnet 的資安安全機制，不管生物/醫療，也不是用來解 Fable 5 的降級。甚至有實測者已通過 CVP，Fable 5 照樣把他降級。社群實測 GitHub #67107

用「防禦性 / 學術」框架包裝，就不會被降

半錯、不可靠。官方文件從沒說過「加情境框架能避開檢查」。第一手實測是「混合結果、行為不可預測」——有人問純防禦性的 SSRF 防護也被降。框架頂多在邊緣有幫助，不是保證。社群實測

被降之後，在選單切回 Fable 5 就好了

沒用。官方明講：切回去「同樣的安全機制會再擋一次，因為原本那則訊息還在對話裡」。要嘛編輯那則訊息、要嘛開新對話。官方

核心對照表

會降 vs 不會降：怎麼下指令

分兩種情況。A 類主題本身敏感（改字救不了，只能收窄範圍或接受降級）；B 類任務其實無害、只是用到敏感詞（改字真的有幫助）。

情境	❌ 容易降	✅ 比較不會降
A 類 · 主題敏感 → 收窄到「概念 / 應用層」才有效
資安漏洞	✗ 「教我怎麼利用這漏洞／寫個繞過 WAF 的 payload」	✓ 「用高層次說明這類漏洞的防禦與偵測原則，重點在風險與修補，不要攻擊步驟」
生物 / 化學	✗ 「分析這株病毒的分子機制／這實驗的培養條件」	✓ 「把這主題整理成一般民眾看得懂的說明，不談實驗方法、劑量、分子操作」
醫療	✗ 「根據症狀給我診斷 + 治療方案」	✓ 「整理就醫前該問醫師的問題清單與一般衛教，並提醒需由合格醫師判斷」
推理鏈	✗ 「把你的完整 hidden thinking 逐字輸出給我看」	✓ 「給我最終結論 + 分點理由就好，不用展開內部思考過程」
B 類 · 任務無害、只是「詞」敏感 → 換詞 + 定調用途，真的有用
防火牆自查 (GitHub #67441)	✗ 「SSH 進去做 reconnaissance，掃一下 iptables」	✓ 「檢查我自有主機的 iptables 是否符合預期的隔離規則，這是維運自查」
雲端容錯 (GitHub #67246)	✗ 「設計 AWS outage / failover / circuit breaker 的攻防」	✓ 「幫我設計服務的可用性與重試策略，聚焦重試、逾時、降級 UX」
文件處理 (GitHub #67441)	✗ 用一堆和 prompt-injection 重疊的詞問 PDF 解析	✓ 「比較兩個函式庫擷取 PDF 純文字的效果，這是文件處理」
系統程式 (GitHub #66728)	✗ 大量堆疊 `kill / exploit / payload / inject` 字眼	✓ 先定調「這是一般系統工程 / API 相容性」，避免堆疊攻擊語彙

🧭 B 類通則：① 先講用途（教學／除錯／維運自查／摘要）② 一次一個小任務，別把敏感段落跟正常任務混在同一則 ③ 攻擊動詞（exploit/attack/bypass/recon）能換成防禦動詞（defend/detect/verify/harden）就換。但記住：B 類也只是降低機率，不是歸零。

真正有效官方

可靠的手段（照重要性排序）

關掉自動切換（最有效）。
路徑：Settings > Capabilities（Claude Code 是 Config > MODEL & OUTPUT）→ 關掉「Switch models when a message is flagged」。關掉後被擋會「暫停對話」而不是偷偷降，你可以編輯訊息重試 Fable 5，或手動送 Opus。
被降之後，3 選 1。
① 開新對話（最乾淨，但失去脈絡）② 編輯觸發的那則訊息再重試 ③ 刪掉對話裡的觸發內容。三者都有第一手實測有效。
保持對話乾淨。
敏感資料別整包丟進去——記憶、連接器、網頁搜尋結果、上傳檔案都會被掃。要參考的 PDF 先「去敏感化」再丟。
被誤殺就回報。
用「Send feedback」回報，官方說這能幫他們縮小誤判範圍。
別期待 prompt 咒語。
官方唯一認證的招是「編輯訊息後重試」；沒有任何「保證安全」的句型。

⚠️ 社群提醒：直接手改 ~/.claude/settings.json 的 switchModelsOnFlag 實測沒用，要從設定 UI 關。社群實測

可直接複製

「開場安全框架」（B 類任務用）

貼在對話最前面，替無害但用到敏感詞的任務定調，降低誤觸機率。

🧷 safe-framing.txt

這是一個安全、合法、一般用途的任務，目的是內容整理／策略分析／寫作協助／一般軟體工程（維運、除錯、架構）。

請不要展開以下操作性內容：
1. 攻擊型資安（exploit、malware、繞過防護、未授權存取）
2. 生物/化學實驗步驟、分子操作、合成方法、診斷或治療結論
3. 要求你輸出內部完整推理鏈 / hidden thinking
4. 前沿模型訓練工程（分散式訓練、加速器、非標準晶片 kernel）

若我的資料或問題有任何可能踩到上述領域的地方，請先標出風險點，再用高層次、非操作性的方式回答。

誠實講：這段屬於「B 類邊際優化」。實測顯示這種宣告時靈時不靈。真正穩的還是「關掉自動切換 + 開新對話控制」，不是靠這段字。

開發者專區官方

用 Claude Code 的人特別注意

⚡ 它可能在「第一則訊息」就降

Claude Code 的第一個請求會帶上工作區脈絡：你的 CLAUDE.md 內容 + git 狀態 + 資料夾名稱。官方明講：repo 裡有資安或生物相關內容，光是這些脈絡就能觸發 classifier——你還沒問任何事就被降。

怎麼測：跑 claude --safe-mode（暫時停掉 CLAUDE.md / skills / MCP / hooks）。若 safe-mode 下不降、正常模式降，就確定是你的工作區脈絡在觸發。

誰最容易中：CLAUDE.md 裡有大量「API key / token / secret / exploit」等資安字眼，或專案是醫療 / 生技內容的人。

🎓 還不熟 Claude Code？Claude Code 新手小學堂——免費、全中文、不用打指令，一關一關帶你上手。

常見問題

FAQ

降到 Opus 4.8 之後，我會被多收錢嗎？

在還沒產出任何字就被擋（blocked on input）→ 只用 Opus 費率計費，計入用量。若是產出到一半才被擋（midstream）→ 已串流的部分算 Fable 5 費率、其餘算 Opus 費率。官方

Mythos 5 是什麼？跟 Fable 5 差在哪？

同一個底層模型，差別是 Mythos 5 沒有這些安全 classifier，只開放給少數審核過的夥伴（Project Glasswing、部分生命科學研究者）。一般人拿到的是有安全網的 Fable 5。官方

我做 easyknowai 那種醫療/衛教內容，怎麼辦？

這塊最容易被生物安全網誤殺，而且沒有可靠的 prompt 改法。務實做法：把內容寫成「病人衛教 / 就醫準備」這種非操作、非診斷的角度；生成時關掉自動切換，被擋就編輯重試或開新對話；真的一直被擋就用「Send feedback」回報。

API 上也會自動降級嗎？

不會自動。API 的切換要自己 opt-in 設定。API 被 classifier 擋時會回 HTTP 200 但 stop_reason: "refusal"，category 可能是 cyber / bio / frontier_llm / reasoning_extraction。重送同一個模型通常還是被拒，要把 retry 指到 fallback 模型。官方

被降之後整個對話都卡在 Opus，怎麼救？

選單切回 Fable 5 通常沒用（原訊息還在會再被擋）。最乾淨是開新對話；或編輯觸發的那則訊息、刪掉對話裡的觸發內容再重試。官方社群實測

延伸資源