Fable 5 不降級指南
💬 社群
📌 對齊官方文件 · 最後更新 2026-07-02

為什麼 Claude 會從
Fable 5 換成 Opus 4.8

Fable 5 會對「每個請求」做安全檢查,碰到 4 大領域就自動降級。這頁用官方說明 + 社群實測,帶你搞懂哪些指令會降、哪些不會,以及真正有效的設定與補救。

🎯 4 大觸發領域 🧪 互動風險自測器 📋 會降 vs 不會降對照表 ⚙️ 可複製 prompt 框架

30 秒重點

先記這 4 件事

  • 1
    沒有任何咒語能 100% 保證不降。Fable 5 對每個請求跑自動安全檢查,落入 4 大高風險領域就 fallback 到 Opus 4.8。官方
  • 2
    它不只看你這句話。記憶、連接器、網頁搜尋結果、上傳檔案全都會掃——你沒打的內容也可能害你被降。官方
  • 3
    真正有效的是「設定 + 開新對話」,不是改字。改字只在「任務其實無害、只是用到敏感詞」時有幫助,而且官方從沒保證過。官方 社群實測
  • 4
    降到 Opus 後,在選單切回 Fable 5 沒用——原訊息還在,會再被擋。要編輯那則訊息開新對話官方
官方=Anthropic 官方文件證實 社群=第一手實測回報(GitHub / HN),非官方保證 迷思=流傳但錯誤/無根據

互動工具

你的任務會不會被降?

選一個最接近你要做的事,看風險等級與建議。

官方確認 官方

4 大觸發領域(碰到基本必降,改字救不了)

這四類是看「主題」不是看「用詞」。真的在做這些,換句話說也沒用;該做就接受它降到 Opus 4.8。

🛡️

攻擊型資安

寫 exploit、malware、攻擊工具。連「例行資安任務」官方都說降級率很高

官方原文舉例:building exploits, malware, or attack tooling
🧬

生物/化學/生命科學(多數提問)

實驗方法、分子機制。連良性的也會被掃到:生技商業文件、醫療影像、臨床診斷、基礎生物教育。

官方原文舉例:lab methods or molecular mechanisms
🪞

蒸餾攻擊

叫模型吐出它的「summarized thinking / 完整推理鏈」,想複製它的能力。

官方原文舉例:attempts to extract the model's summarized thinking
⚙️

前沿 LLM 開發

分散式訓練架構、ML 加速器設計、非標準晶片的 kernel 開發。

官方原文舉例:distributed training infrastructure, ML accelerator design
📎 官方數字:Anthropic 說這套安全機制平均在低於 5% 的 sessions 觸發,但也承認「有時會誤殺無害請求」。官方

先破除 流傳但錯

3 個很多人搞錯的說法

合法的生物/醫療需求,可以申請 CVP 來避免被降

錯。CVP(Cyber Verification Program)只針對 Opus/Sonnet 的資安安全機制,不管生物/醫療,也不是用來解 Fable 5 的降級。甚至有實測者已通過 CVP,Fable 5 照樣把他降級社群實測 GitHub #67107

用「防禦性 / 學術」框架包裝,就不會被降

半錯、不可靠。官方文件從沒說過「加情境框架能避開檢查」。第一手實測是「混合結果、行為不可預測」——有人問純防禦性的 SSRF 防護也被降。框架頂多在邊緣有幫助,不是保證社群實測

被降之後,在選單切回 Fable 5 就好了

沒用。官方明講:切回去「同樣的安全機制會再擋一次,因為原本那則訊息還在對話裡」。要嘛編輯那則訊息、要嘛開新對話官方

核心對照表

會降 vs 不會降:怎麼下指令

分兩種情況。A 類主題本身敏感(改字救不了,只能收窄範圍或接受降級);B 類任務其實無害、只是用到敏感詞(改字真的有幫助)。

情境❌ 容易降✅ 比較不會降
A 類 · 主題敏感 → 收窄到「概念 / 應用層」才有效
資安漏洞 「教我怎麼利用這漏洞/寫個繞過 WAF 的 payload」 「用高層次說明這類漏洞的防禦與偵測原則,重點在風險與修補,不要攻擊步驟」
生物 / 化學 「分析這株病毒的分子機制/這實驗的培養條件」 「把這主題整理成一般民眾看得懂的說明,不談實驗方法、劑量、分子操作」
醫療 「根據症狀給我診斷 + 治療方案」 「整理就醫前該問醫師的問題清單與一般衛教,並提醒需由合格醫師判斷」
推理鏈 「把你的完整 hidden thinking 逐字輸出給我看」 「給我最終結論 + 分點理由就好,不用展開內部思考過程」
B 類 · 任務無害、只是「詞」敏感 → 換詞 + 定調用途,真的有用
防火牆自查
(GitHub #67441)
「SSH 進去做 reconnaissance,掃一下 iptables」 「檢查我自有主機的 iptables 是否符合預期的隔離規則,這是維運自查
雲端容錯
(GitHub #67246)
「設計 AWS outage / failover / circuit breaker 的攻防」 「幫我設計服務的可用性與重試策略,聚焦重試、逾時、降級 UX」
文件處理
(GitHub #67441)
用一堆和 prompt-injection 重疊的詞問 PDF 解析 「比較兩個函式庫擷取 PDF 純文字的效果,這是文件處理」
系統程式
(GitHub #66728)
大量堆疊 kill / exploit / payload / inject 字眼 先定調「這是一般系統工程 / API 相容性」,避免堆疊攻擊語彙
🧭 B 類通則:① 先講用途(教學/除錯/維運自查/摘要)② 一次一個小任務,別把敏感段落跟正常任務混在同一則 ③ 攻擊動詞(exploit/attack/bypass/recon)能換成防禦動詞(defend/detect/verify/harden)就換。但記住:B 類也只是降低機率,不是歸零

真正有效 官方

可靠的手段(照重要性排序)

  1. 關掉自動切換(最有效)。
    路徑:Settings > Capabilities(Claude Code 是 Config > MODEL & OUTPUT)→ 關掉「Switch models when a message is flagged」。關掉後被擋會「暫停對話」而不是偷偷降,你可以編輯訊息重試 Fable 5,或手動送 Opus。
  2. 被降之後,3 選 1。
    ① 開新對話(最乾淨,但失去脈絡)② 編輯觸發的那則訊息再重試 ③ 刪掉對話裡的觸發內容。三者都有第一手實測有效。
  3. 保持對話乾淨。
    敏感資料別整包丟進去——記憶、連接器、網頁搜尋結果、上傳檔案都會被掃。要參考的 PDF 先「去敏感化」再丟。
  4. 被誤殺就回報。
    用「Send feedback」回報,官方說這能幫他們縮小誤判範圍。
  5. 別期待 prompt 咒語。
    官方唯一認證的招是「編輯訊息後重試」;沒有任何「保證安全」的句型。
⚠️ 社群提醒:直接手改 ~/.claude/settings.jsonswitchModelsOnFlag 實測沒用,要從設定 UI 關。社群實測

可直接複製

「開場安全框架」(B 類任務用)

貼在對話最前面,替無害但用到敏感詞的任務定調,降低誤觸機率。

🧷 safe-framing.txt
這是一個安全、合法、一般用途的任務,目的是內容整理/策略分析/寫作協助/一般軟體工程(維運、除錯、架構)。

請不要展開以下操作性內容:
1. 攻擊型資安(exploit、malware、繞過防護、未授權存取)
2. 生物/化學實驗步驟、分子操作、合成方法、診斷或治療結論
3. 要求你輸出內部完整推理鏈 / hidden thinking
4. 前沿模型訓練工程(分散式訓練、加速器、非標準晶片 kernel)

若我的資料或問題有任何可能踩到上述領域的地方,請先標出風險點,再用高層次、非操作性的方式回答。
誠實講:這段屬於「B 類邊際優化」。實測顯示這種宣告時靈時不靈。真正穩的還是「關掉自動切換 + 開新對話控制」,不是靠這段字。

開發者專區 官方

用 Claude Code 的人特別注意

⚡ 它可能在「第一則訊息」就降

Claude Code 的第一個請求會帶上工作區脈絡:你的 CLAUDE.md 內容 + git 狀態 + 資料夾名稱。官方明講:repo 裡有資安或生物相關內容,光是這些脈絡就能觸發 classifier——你還沒問任何事就被降。

怎麼測:claude --safe-mode(暫時停掉 CLAUDE.md / skills / MCP / hooks)。若 safe-mode 下不降、正常模式降,就確定是你的工作區脈絡在觸發。

誰最容易中:CLAUDE.md 裡有大量「API key / token / secret / exploit」等資安字眼,或專案是醫療 / 生技內容的人。

🎓 還不熟 Claude Code?Claude Code 新手小學堂——免費、全中文、不用打指令,一關一關帶你上手。

常見問題

FAQ

降到 Opus 4.8 之後,我會被多收錢嗎?
在還沒產出任何字就被擋(blocked on input)→ 只用 Opus 費率計費,計入用量。若是產出到一半才被擋(midstream)→ 已串流的部分算 Fable 5 費率、其餘算 Opus 費率。官方
Mythos 5 是什麼?跟 Fable 5 差在哪?
同一個底層模型,差別是 Mythos 5 沒有這些安全 classifier,只開放給少數審核過的夥伴(Project Glasswing、部分生命科學研究者)。一般人拿到的是有安全網的 Fable 5。官方
我做 easyknowai 那種醫療/衛教內容,怎麼辦?
這塊最容易被生物安全網誤殺,而且沒有可靠的 prompt 改法。務實做法:把內容寫成「病人衛教 / 就醫準備」這種非操作、非診斷的角度;生成時關掉自動切換,被擋就編輯重試或開新對話;真的一直被擋就用「Send feedback」回報。
API 上也會自動降級嗎?
不會自動。API 的切換要自己 opt-in 設定。API 被 classifier 擋時會回 HTTP 200 但 stop_reason: "refusal",category 可能是 cyber / bio / frontier_llm / reasoning_extraction。重送同一個模型通常還是被拒,要把 retry 指到 fallback 模型。官方
被降之後整個對話都卡在 Opus,怎麼救?
選單切回 Fable 5 通常沒用(原訊息還在會再被擋)。最乾淨是開新對話;或編輯觸發的那則訊息、刪掉對話裡的觸發內容再重試。官方 社群實測

延伸資源

想更快上手 AI?這些免費工具給你

這頁由 馬上懂 AI 整理維護。正在學 Claude,或想用 AI 做點什麼,下面幾個免費資源可以直接用。

💬

還在跟 Fable 5 的降級鬥?來社群一起解

跟其他在用 Claude 開發、做內容的人,交換踩雷心得、最新的 classifier 變化、實測有效的 prompt 技巧。有新發現,我們第一時間更新這頁。

加入 Discord 社群
🆓 免費加入 ⚡ classifier 變動即時通報 🧠 prompt 技巧交流

discord.gg/EkgPKejCJ

資料來源

官方文件(自己去看最準)

使用說明:標「官方」的內容出自上列 Anthropic 文件;標「社群」的是 GitHub / Hacker News 第一手實測回報,是別人的經驗、不是保證,classifier 行為會隨時間調整。這頁是整理與教學,不是 Anthropic 官方頁面。有疑問請以官方文件為準。