我把 Codex 變成 Claude Code 的生圖外掛 — 兩個 AI 工具串接的工作流升級實錄

從 GPT Image-2 在 2026-04-21 推出開始，我就一直在想：能不能不要每次都切到 ChatGPT 的聊天視窗、一張一張點按鈕、再下載整理？尤其當我每週要產出 9 張一致風格的 IG carousel、每次都是同樣的步驟，重複幾次就覺得這條路長期不對。

直到我確認 Codex CLI 也支援 Image-2 的 image_gen tool，腦中閃過一個念頭：何不讓原本搭好的 Claude Code 系統，直接調用 Codex CLI 來生圖？

把這個想法推到底，我在過去一週做了 4 次完整實驗。最有感的不只是省時間——是看到一個方向：未來的工作流不會只用一個 AI 工具，而是讓不同強項的 AI 互相串接、各司其職。

下面這篇是這條路的整套思路。包含為何想串、三角色架構、過去 vs 現在的工作流對比、體感升級的三件事、誰該用誰可以不用、以及完整的命令 + prompt template，讓你看完能直接動手在自己的 Claude Code 上接起來。

一、為什麼想把 Codex 當生圖外掛？

大部分人對 Codex 的第一印象是 OpenAI 的 code 寫作工具——拿來寫程式、做 review。我也是這樣用的。

但 Codex CLI 有個容易被忽略的設定：內建 image_gen tool 走 ChatGPT Plus 訂閱的 quota。也就是說、只要你有 ChatGPT Plus、不需要額外設定 OpenAI API key、不需要按量計費，就能在終端機透過 Codex 直接呼叫 Image-2 生圖。

這跟我原本對 Codex 的認知完全不同。它不是 code-only tool——它對 Claude Code 來說、就是一個「生圖外掛」。

把它接進工作流的好處很直接：

Claude Code 本來就在管我整套內容工作流（選題、寫稿、品質把關）
Codex 對 Claude Code 來說、就是另一個能用的助手
那為什麼還要手動切去 ChatGPT 端、一張一張點？

想到這層之後、整個工作流的圖像就清楚了：兩個 AI 工具串接、各做各的事。

二、三角色架構：Claude × Codex × Image-2

把這條路走過一週、我把它抽象成三個角色：

Claude Code = 大腦。負責規劃選題、寫 prompt pack、做品質把關、跑 QA review、決定該不該重生哪一張
Codex = 手。接收 Claude Code 的指令、執行 codex exec 命令、調用 Image-2 tool、把產出落地到資料夾
Image-2 = 視覺。負責生成繁中字精準、版型穩定、9 張一致風格的圖片

這三角色不是替代、是分工。Claude 不擅長精準渲染繁中字（它的圖片生成能力沒有 Image-2 強），Codex 不擅長規劃整套敘事（它沒有跑過你的 brand guidelines），Image-2 不擅長判斷「這張該不該重生」（它沒有 self-QA 的 reasoning）。

但三個串起來、每個負責自己最強的事、整體就成立了。

三、過去 vs 現在的工作流（4 個工具到 1 行命令）

這是這次升級最直觀的對比。

過去做一篇 carousel 的工作流

在 Claude Code 寫好內容後、用 HTML 模板做排版
用 Gemini API 生背景插圖
用 Playwright 自動截圖每張 slide
手動整合確認、修微調

四個工具切來切去、每篇花我大約一個下午。

現在這套變成

Claude Code 寫好給 Codex 的 prompt pack（含 9 張 spec + chrome lock + banned tokens）
Claude Code 跑一行命令

cat codex-instruction.txt | codex exec --full-auto --cd <cwd> -i avatar.png -i style.png

Codex 在背景跑 12-15 分鐘、9 張 1080×1350 的 PNG 直接落到 codex-generated/ 資料夾
Claude Code 收回、做 21-point QA review

從 4 個工具縮成 1 行命令、從一個下午縮成一小時。

💡

當然這條路不能完全取代 HTML 排版——當你需要嚴格統一格式（例如系列封面）、HTML pipeline 還是更適合。但多元性跟美感、立刻多了一個選擇。

四、體感升級的三件事

但效率不是最大的差異。真正讓我體感不同的是畫質：

繁中字筆劃精準到可印刷級。Image-2 是首款能精準渲染 CJK 密集字的模型。複雜字像「液冷散熱」「判斷」「畫質」都能正確、不糊不斷筆。這是過去 Gemini 插圖時代難達到的。
九張一起看的一致感。Reference image pin 機制讓跨張的 chrome / avatar / 紙感質地全鎖死、不再像過去那套會漂移。
版型穩定到 px 級。Token-level 的 chrome lock spec 讓 page number、kicker、footer pill 在 9 張之間 1px 級對齊。

這三件事是過去那套先排版、再後製插圖、再截圖的做法做不到的層級。

五、適用 vs 不適用情境

但不是每個人都需要這樣串。

ChatGPT 點按鈕已經很完整的場景

偶爾生一張簡報封面
偶爾生一張 Blog 配圖
一次性的 hero image 試做

真正會想串接自動化的場景

每週都要產出固定節奏的 carousel
寫專欄定期出視覺
做簡報 / 行銷素材模板的反覆迭代

對後一群人來說、每週省下半天、月底就是兩天。一年下來就是接近一個月的時間。

六、GPT 5.5 推出後、agent 終於成立

這一週試下來最有感的、反而不是省了多少時間——是看到一個方向。

GPT 5.5 在 2026-04-23 推出後、AI 真的能自己 plan、自己 check、跨工具跑完整個任務。OSWorld 78.7% 的 Computer Use 能力跟 Claude 4.7（78.0%）已經同級、原生 omnimodal 能同時處理文字、圖片、影片、聲音。

這意味著什麼？

意味著 agent 不再只是 prompt 工程的延伸——它真的開始能成立。從規劃 → 執行 → 檢查 → 迭代、整個 loop 都能跑、不用每一步都人工接力。

而當 agent 真的成立，跨工具串接就成了基本款。Claude 推理、Codex 執行、Image-2 視覺、Gemini 多模態、ChatGPT 入門易用——各家有各家的強項，怎麼讓它們互相串接、互相補位、各司其職，才是接下來幾年內容創作者真正要練的功。

七、5 分鐘把這套接起來（讓你的 AI 帶你跑）

這套設定看起來像工程師的事，其實只要會把字貼進對話框就能完成。下面三步驟、每一步都是「複製給你的 Claude Code、它幫你跑」，你不用打開終端機。

Step 1：裝 Codex Plugin

最簡單的方式：打開 Claude Code，找 Plugin 設定，搜尋「codex」、按新增。如果你的 Claude Code 是 VS Code 裡的對話框，貼下面這兩條也可以、它會自己幫你跑：

/plugin marketplace add openai/codex-plugin-cc
/plugin install codex@openai-codex

裝完跟 Claude Code 確認：跑 /codex:setup、看到引導畫面就 OK。

Step 2：用你的 ChatGPT 帳號登入 Codex

跟 Claude Code 說：「幫我用 ChatGPT 帳號登入 Codex、我跟你一起跑。」它會開瀏覽器登入頁讓你登入，登完回來自動綁定。完成後 Codex 顯示「已綁 ChatGPT 訂閱」，Plus 或 Pro 都行、不另計費（不需要 OpenAI API key）。

Step 3：教 Claude Code 何時叫 Codex 動工

最後一步，跟 Claude Code 說：「打開我這個專案的 CLAUDE.md（沒有就建一個），加一段告訴你以後遇到什麼任務該叫 Codex 動工。」複製下面這段給它：

使用者要圖像生成、infographic、繁中字密集視覺，
或寫程式 P0 變動的 adversarial review（找漏洞審查）時，
主動建議呼叫 Codex，不要自己硬做。

寫完之後跟 Claude Code 說：「下次我說『幫我做一張封面圖』、你會主動建議叫 Codex 嗎？」如果它答 yes、整套就接好了。

💡

如果你不是用 Claude Code、是用 Claude Desktop / ChatGPT / Cursor — 一樣可以走、Plugin 那段改說：「先帶我用 npm 裝 Codex CLI、你能直接跑就跑、不能跑就教我」，AI 會切換成適合你介面的方式帶你做。

八、讓你的 AI 把這個能力記下來（skill 化）

裝完最容易踩的雷是：每次開新對話都要重新跟 AI 解釋「你要叫 Codex 不要自己生圖」。對人類 OK，對 AI 來說等於每天從頭認識你。

養 skill 的心法是——跟 AI 講過一次之後、請它打包成「skill」存起來，下次同類型對話它自動帶著這份能力跑、不用每次重講。

複製下面整段給你的 Claude Code：

從現在開始，當我們做重複性任務（生圖、Code Review、寫文案），
請照下面的「skill 打包協定」做：

第一次我問：盡力做、記下哪些做法 work。
第二次同類型任務：注意我上次怎麼修改你的成果、套用到這次。
第三次：主動提議把這個流程打包成 skill 存起來。

skill 是一個小檔案、含：
  - 目標（一句話）
  - 觸發條件（什麼情境呼叫）
  - 步驟（有順序、可執行）
  - 已踩過的雷（以及修法）
  - 常用的參考檔案／命令

存到 ~/.claude/skills/{skill-name}/SKILL.md（或你工具對應的位置）。
下次觸發條件 match、你載入這個 skill 接著做、不從頭開始。

重點：不要讓我重複教你同一件事兩次。

貼完之後，未來做第三次同類型任務、Claude Code 會主動問你「要打包成 skill 嗎？」同意就建檔、之後永遠記得。這就是 AI 一次比一次更順的關鍵。

如果你的 AI 不支援 skill 機制（例如 ChatGPT Custom GPT 不寫檔）、改用「把這份協定存進 project memory / system prompt」、心法一樣——AI 累積經驗、不每次從頭。

📖

想看完整雙 AI 工作流（三步驟 setup + 養 skill 心法 + 寫程式／圖像兩場景 prompt 範本）？讀姊妹篇：Claude Code × Codex 雙 AI 起手包

結尾觀點

未來的 AI 工作流不會只用一個工具——這不是預測、這是已經在發生的現實。

Claude 4.7 的 reasoning + Computer Use、Codex 的 image_gen + code execution、GPT 5.5 的 omnimodal、Gemini 的 multimodal context、Image-2 的繁中字渲染——每家都有強項、每家也都有弱項。

把它們編排成一支隊伍、用 orchestration 邏輯讓它們互相串接、互相補位——這才是 2026 真正開始要練的功。

幫你成為自己 AI 團隊的主理人。

通用 prompt template — 封面圖場景

複製貼上後替換 {{ }} 變數、跑 codex exec：

你是一位 editorial illustrator。請生成一張 1024×1280 直式插圖。

【風格】
- 扁平 line-color 編輯式插圖
- 暖色調（不要 AI gradient、不要 neon、不要 glassmorphism）
- 紙感質地背景、輕柔暖色 spotlight
- 單一暖白底色 #FDFCF9

【主題】
{{你的場景描述，例如：「一個人坐在木桌前、合著的筆電、左側有窗光、桌上有植物」}}

【精準文字 overlay】（依字面渲染、圖中不准出現其他文字）
- 左上 kicker：「{{KICKER 英文標籤}}」UPPERCASE、letter-spacing 2px、字級 24px、weight 800、色 #D4623B
- 中央 H1：「{{你的中文主標}}」weight 900、最多 14 個中文字、色 #0F172A

【限制】
- 圖中只能出現上面指定的文字、其他不准
- 不要 emoji、不要 QR code、不要 URL、不要假按鈕
- 不要在 props / 場景 / 招牌上自動加任何文字
- 不要 watermark、logo、brand mark

更多場景模板（infographic 3-card、left-right compare、簡報 hero）會持續更新。完整 Skill 包含 4 個檔案：SKILL.md / README.md / references/3-step-setup.md / references/prompt-template.md。

拿到模板之後、你就能在自己的工作流上發展自己的版本——不必照搬我這套 9-slide pipeline、可以從你最常做的視覺類型（簡報封面 / blog hero / infographic）開始接起來。