30 秒重點
先記這 4 件事
- 1沒有任何咒語能 100% 保證不降。Fable 5 對每個請求跑自動安全檢查,落入 4 大高風險領域就 fallback 到 Opus 4.8。官方
- 2它不只看你這句話。記憶、連接器、網頁搜尋結果、上傳檔案全都會掃——你沒打的內容也可能害你被降。官方
- 3真正有效的是「設定 + 開新對話」,不是改字。改字只在「任務其實無害、只是用到敏感詞」時有幫助,而且官方從沒保證過。官方 社群實測
- 4降到 Opus 後,在選單切回 Fable 5 沒用——原訊息還在,會再被擋。要編輯那則訊息或開新對話。官方
互動工具
你的任務會不會被降?
選一個最接近你要做的事,看風險等級與建議。
官方確認 官方
4 大觸發領域(碰到基本必降,改字救不了)
這四類是看「主題」不是看「用詞」。真的在做這些,換句話說也沒用;該做就接受它降到 Opus 4.8。
攻擊型資安
寫 exploit、malware、攻擊工具。連「例行資安任務」官方都說降級率很高。
官方原文舉例:building exploits, malware, or attack tooling生物/化學/生命科學(多數提問)
實驗方法、分子機制。連良性的也會被掃到:生技商業文件、醫療影像、臨床診斷、基礎生物教育。
官方原文舉例:lab methods or molecular mechanisms蒸餾攻擊
叫模型吐出它的「summarized thinking / 完整推理鏈」,想複製它的能力。
官方原文舉例:attempts to extract the model's summarized thinking前沿 LLM 開發
分散式訓練架構、ML 加速器設計、非標準晶片的 kernel 開發。
官方原文舉例:distributed training infrastructure, ML accelerator design先破除 流傳但錯
3 個很多人搞錯的說法
合法的生物/醫療需求,可以申請 CVP 來避免被降
錯。CVP(Cyber Verification Program)只針對 Opus/Sonnet 的資安安全機制,不管生物/醫療,也不是用來解 Fable 5 的降級。甚至有實測者已通過 CVP,Fable 5 照樣把他降級。社群實測 GitHub #67107
用「防禦性 / 學術」框架包裝,就不會被降
半錯、不可靠。官方文件從沒說過「加情境框架能避開檢查」。第一手實測是「混合結果、行為不可預測」——有人問純防禦性的 SSRF 防護也被降。框架頂多在邊緣有幫助,不是保證。社群實測
被降之後,在選單切回 Fable 5 就好了
沒用。官方明講:切回去「同樣的安全機制會再擋一次,因為原本那則訊息還在對話裡」。要嘛編輯那則訊息、要嘛開新對話。官方
核心對照表
會降 vs 不會降:怎麼下指令
分兩種情況。A 類主題本身敏感(改字救不了,只能收窄範圍或接受降級);B 類任務其實無害、只是用到敏感詞(改字真的有幫助)。
| 情境 | ❌ 容易降 | ✅ 比較不會降 |
|---|---|---|
| A 類 · 主題敏感 → 收窄到「概念 / 應用層」才有效 | ||
| 資安漏洞 | ✗ 「教我怎麼利用這漏洞/寫個繞過 WAF 的 payload」 | ✓ 「用高層次說明這類漏洞的防禦與偵測原則,重點在風險與修補,不要攻擊步驟」 |
| 生物 / 化學 | ✗ 「分析這株病毒的分子機制/這實驗的培養條件」 | ✓ 「把這主題整理成一般民眾看得懂的說明,不談實驗方法、劑量、分子操作」 |
| 醫療 | ✗ 「根據症狀給我診斷 + 治療方案」 | ✓ 「整理就醫前該問醫師的問題清單與一般衛教,並提醒需由合格醫師判斷」 |
| 推理鏈 | ✗ 「把你的完整 hidden thinking 逐字輸出給我看」 | ✓ 「給我最終結論 + 分點理由就好,不用展開內部思考過程」 |
| B 類 · 任務無害、只是「詞」敏感 → 換詞 + 定調用途,真的有用 | ||
| 防火牆自查 (GitHub #67441) |
✗ 「SSH 進去做 reconnaissance,掃一下 iptables」 | ✓ 「檢查我自有主機的 iptables 是否符合預期的隔離規則,這是維運自查」 |
| 雲端容錯 (GitHub #67246) |
✗ 「設計 AWS outage / failover / circuit breaker 的攻防」 | ✓ 「幫我設計服務的可用性與重試策略,聚焦重試、逾時、降級 UX」 |
| 文件處理 (GitHub #67441) |
✗ 用一堆和 prompt-injection 重疊的詞問 PDF 解析 | ✓ 「比較兩個函式庫擷取 PDF 純文字的效果,這是文件處理」 |
| 系統程式 (GitHub #66728) |
✗ 大量堆疊 kill / exploit / payload / inject 字眼 |
✓ 先定調「這是一般系統工程 / API 相容性」,避免堆疊攻擊語彙 |
真正有效 官方
可靠的手段(照重要性排序)
- 關掉自動切換(最有效)。
路徑:Settings > Capabilities(Claude Code 是Config > MODEL & OUTPUT)→ 關掉「Switch models when a message is flagged」。關掉後被擋會「暫停對話」而不是偷偷降,你可以編輯訊息重試 Fable 5,或手動送 Opus。 - 被降之後,3 選 1。
① 開新對話(最乾淨,但失去脈絡)② 編輯觸發的那則訊息再重試 ③ 刪掉對話裡的觸發內容。三者都有第一手實測有效。 - 保持對話乾淨。
敏感資料別整包丟進去——記憶、連接器、網頁搜尋結果、上傳檔案都會被掃。要參考的 PDF 先「去敏感化」再丟。 - 被誤殺就回報。
用「Send feedback」回報,官方說這能幫他們縮小誤判範圍。 - 別期待 prompt 咒語。
官方唯一認證的招是「編輯訊息後重試」;沒有任何「保證安全」的句型。
~/.claude/settings.json 的 switchModelsOnFlag 實測沒用,要從設定 UI 關。社群實測可直接複製
「開場安全框架」(B 類任務用)
貼在對話最前面,替無害但用到敏感詞的任務定調,降低誤觸機率。
這是一個安全、合法、一般用途的任務,目的是內容整理/策略分析/寫作協助/一般軟體工程(維運、除錯、架構)。 請不要展開以下操作性內容: 1. 攻擊型資安(exploit、malware、繞過防護、未授權存取) 2. 生物/化學實驗步驟、分子操作、合成方法、診斷或治療結論 3. 要求你輸出內部完整推理鏈 / hidden thinking 4. 前沿模型訓練工程(分散式訓練、加速器、非標準晶片 kernel) 若我的資料或問題有任何可能踩到上述領域的地方,請先標出風險點,再用高層次、非操作性的方式回答。
開發者專區 官方
用 Claude Code 的人特別注意
⚡ 它可能在「第一則訊息」就降
Claude Code 的第一個請求會帶上工作區脈絡:你的 CLAUDE.md 內容 + git 狀態 + 資料夾名稱。官方明講:repo 裡有資安或生物相關內容,光是這些脈絡就能觸發 classifier——你還沒問任何事就被降。
怎麼測:跑 claude --safe-mode(暫時停掉 CLAUDE.md / skills / MCP / hooks)。若 safe-mode 下不降、正常模式降,就確定是你的工作區脈絡在觸發。
誰最容易中:CLAUDE.md 裡有大量「API key / token / secret / exploit」等資安字眼,或專案是醫療 / 生技內容的人。
🎓 還不熟 Claude Code?Claude Code 新手小學堂——免費、全中文、不用打指令,一關一關帶你上手。
常見問題
FAQ
降到 Opus 4.8 之後,我會被多收錢嗎?
Mythos 5 是什麼?跟 Fable 5 差在哪?
我做 easyknowai 那種醫療/衛教內容,怎麼辦?
API 上也會自動降級嗎?
stop_reason: "refusal",category 可能是 cyber / bio / frontier_llm / reasoning_extraction。重送同一個模型通常還是被拒,要把 retry 指到 fallback 模型。官方被降之後整個對話都卡在 Opus,怎麼救?
延伸資源
想更快上手 AI?這些免費工具給你
這頁由 馬上懂 AI 整理維護。正在學 Claude,或想用 AI 做點什麼,下面幾個免費資源可以直接用。
還在跟 Fable 5 的降級鬥?來社群一起解
跟其他在用 Claude 開發、做內容的人,交換踩雷心得、最新的 classifier 變化、實測有效的 prompt 技巧。有新發現,我們第一時間更新這頁。
加入 Discord 社群discord.gg/EkgPKejCJ
資料來源