← 回到 Blog
我把 Codex 變成 Claude Code 的生圖外掛 — 兩個 AI 工具串接的工作流升級實錄
AI 工作流·N

我把 Codex 變成 Claude Code 的生圖外掛 — 兩個 AI 工具串接的工作流升級實錄

Image-2 推出後,我發現 Codex 不只是 code reviewer、是繁中字重圖最強引擎。把 Claude Code 跟 Codex 串起來、9 張一致風格 carousel 從半天縮成一小時——附完整命令、prompt template、初級版串接 Skill 模板,看完能直接動手在自己的 Claude Code 上接起來。

Claude Code自動化AgentPromptAI 工作流

從 GPT Image-2 在 2026-04-21 推出開始,我就一直在想:能不能不要每次都切到 ChatGPT 的聊天視窗、一張一張點按鈕、再下載整理?尤其當我每週要產出 9 張一致風格的 IG carousel、每次都是同樣的步驟,重複幾次就覺得這條路長期不對。

直到我確認 Codex CLI 也支援 Image-2 的 image_gen tool,腦中閃過一個念頭:何不讓原本搭好的 Claude Code 系統,直接調用 Codex CLI 來生圖?

把這個想法推到底,我在過去一週做了 4 次完整實驗。最有感的不只是省時間——是看到一個方向:未來的工作流不會只用一個 AI 工具,而是讓不同強項的 AI 互相串接、各司其職。

下面這篇是這條路的整套思路。包含為何想串、三角色架構、過去 vs 現在的工作流對比、體感升級的三件事、誰該用誰可以不用、以及完整的命令 + prompt template,讓你看完能直接動手在自己的 Claude Code 上接起來。

一、為什麼想把 Codex 當生圖外掛?

大部分人對 Codex 的第一印象是 OpenAI 的 code 寫作工具——拿來寫程式、做 review。我也是這樣用的。

但 Codex CLI 有個容易被忽略的設定:內建 image_gen tool 走 ChatGPT Plus 訂閱的 quota。也就是說、只要你有 ChatGPT Plus、不需要額外設定 OpenAI API key、不需要按量計費,就能在終端機透過 Codex 直接呼叫 Image-2 生圖。

這跟我原本對 Codex 的認知完全不同。它不是 code-only tool——它對 Claude Code 來說、就是一個「生圖外掛」。

把它接進工作流的好處很直接:

  • Claude Code 本來就在管我整套內容工作流(選題、寫稿、品質把關)
  • Codex 對 Claude Code 來說、就是另一個能用的助手
  • 那為什麼還要手動切去 ChatGPT 端、一張一張點?

想到這層之後、整個工作流的圖像就清楚了:兩個 AI 工具串接、各做各的事。

二、三角色架構:Claude × Codex × Image-2

把這條路走過一週、我把它抽象成三個角色:

  • Claude Code = 大腦。負責規劃選題、寫 prompt pack、做品質把關、跑 QA review、決定該不該重生哪一張
  • Codex = 手。接收 Claude Code 的指令、執行 codex exec 命令、調用 Image-2 tool、把產出落地到資料夾
  • Image-2 = 視覺。負責生成繁中字精準、版型穩定、9 張一致風格的圖片

這三角色不是替代、是分工。Claude 不擅長精準渲染繁中字(它的圖片生成能力沒有 Image-2 強),Codex 不擅長規劃整套敘事(它沒有跑過你的 brand guidelines),Image-2 不擅長判斷「這張該不該重生」(它沒有 self-QA 的 reasoning)。

但三個串起來、每個負責自己最強的事、整體就成立了。

三、過去 vs 現在的工作流(4 個工具到 1 行命令)

這是這次升級最直觀的對比。

過去做一篇 carousel 的工作流

  1. 在 Claude Code 寫好內容後、用 HTML 模板做排版
  2. 用 Gemini API 生背景插圖
  3. 用 Playwright 自動截圖每張 slide
  4. 手動整合確認、修微調

四個工具切來切去、每篇花我大約一個下午。

現在這套變成

  1. Claude Code 寫好給 Codex 的 prompt pack(含 9 張 spec + chrome lock + banned tokens)
  2. Claude Code 跑一行命令
cat codex-instruction.txt | codex exec --full-auto --cd <cwd> -i avatar.png -i style.png
  1. Codex 在背景跑 12-15 分鐘、9 張 1080×1350 的 PNG 直接落到 codex-generated/ 資料夾
  2. Claude Code 收回、做 21-point QA review

從 4 個工具縮成 1 行命令、從一個下午縮成一小時。

💡
當然這條路不能完全取代 HTML 排版——當你需要嚴格統一格式(例如系列封面)、HTML pipeline 還是更適合。但多元性跟美感、立刻多了一個選擇。

四、體感升級的三件事

但效率不是最大的差異。真正讓我體感不同的是畫質:

  • 繁中字筆劃精準到可印刷級。Image-2 是首款能精準渲染 CJK 密集字的模型。複雜字像「液冷散熱」「判斷」「畫質」都能正確、不糊不斷筆。這是過去 Gemini 插圖時代難達到的。
  • 九張一起看的一致感。Reference image pin 機制讓跨張的 chrome / avatar / 紙感質地全鎖死、不再像過去那套會漂移。
  • 版型穩定到 px 級。Token-level 的 chrome lock spec 讓 page number、kicker、footer pill 在 9 張之間 1px 級對齊。

這三件事是過去那套先排版、再後製插圖、再截圖的做法做不到的層級。

五、適用 vs 不適用情境

但不是每個人都需要這樣串。

ChatGPT 點按鈕已經很完整的場景

  • 偶爾生一張簡報封面
  • 偶爾生一張 Blog 配圖
  • 一次性的 hero image 試做

真正會想串接自動化的場景

  • 每週都要產出固定節奏的 carousel
  • 寫專欄定期出視覺
  • 做簡報 / 行銷素材模板的反覆迭代

對後一群人來說、每週省下半天、月底就是兩天。一年下來就是接近一個月的時間。

六、GPT 5.5 推出後、agent 終於成立

這一週試下來最有感的、反而不是省了多少時間——是看到一個方向。

GPT 5.5 在 2026-04-23 推出後、AI 真的能自己 plan、自己 check、跨工具跑完整個任務。OSWorld 78.7% 的 Computer Use 能力跟 Claude 4.7(78.0%)已經同級、原生 omnimodal 能同時處理文字、圖片、影片、聲音。

這意味著什麼?

意味著 agent 不再只是 prompt 工程的延伸——它真的開始能成立。從規劃 → 執行 → 檢查 → 迭代、整個 loop 都能跑、不用每一步都人工接力。

而當 agent 真的成立,跨工具串接就成了基本款。Claude 推理、Codex 執行、Image-2 視覺、Gemini 多模態、ChatGPT 入門易用——各家有各家的強項,怎麼讓它們互相串接、互相補位、各司其職,才是接下來幾年內容創作者真正要練的功。

七、5 分鐘把這套接起來(讓你的 AI 帶你跑)

這套設定看起來像工程師的事,其實只要會把字貼進對話框就能完成。下面三步驟、每一步都是「複製給你的 Claude Code、它幫你跑」,你不用打開終端機。

Step 1:裝 Codex Plugin

最簡單的方式:打開 Claude Code,找 Plugin 設定,搜尋「codex」、按新增。如果你的 Claude Code 是 VS Code 裡的對話框,貼下面這兩條也可以、它會自己幫你跑:

/plugin marketplace add openai/codex-plugin-cc
/plugin install codex@openai-codex

裝完跟 Claude Code 確認:跑 /codex:setup、看到引導畫面就 OK。

Step 2:用你的 ChatGPT 帳號登入 Codex

跟 Claude Code 說:「幫我用 ChatGPT 帳號登入 Codex、我跟你一起跑。」它會開瀏覽器登入頁讓你登入,登完回來自動綁定。完成後 Codex 顯示「已綁 ChatGPT 訂閱」,Plus 或 Pro 都行、不另計費(不需要 OpenAI API key)。

Step 3:教 Claude Code 何時叫 Codex 動工

最後一步,跟 Claude Code 說:「打開我這個專案的 CLAUDE.md(沒有就建一個),加一段告訴你以後遇到什麼任務該叫 Codex 動工。」複製下面這段給它:

使用者要圖像生成、infographic、繁中字密集視覺,
或寫程式 P0 變動的 adversarial review(找漏洞審查)時,
主動建議呼叫 Codex,不要自己硬做。

寫完之後跟 Claude Code 說:「下次我說『幫我做一張封面圖』、你會主動建議叫 Codex 嗎?」如果它答 yes、整套就接好了。

💡
如果你不是用 Claude Code、是用 Claude Desktop / ChatGPT / Cursor — 一樣可以走、Plugin 那段改說:「先帶我用 npm 裝 Codex CLI、你能直接跑就跑、不能跑就教我」,AI 會切換成適合你介面的方式帶你做。

八、讓你的 AI 把這個能力記下來(skill 化)

裝完最容易踩的雷是:每次開新對話都要重新跟 AI 解釋「你要叫 Codex 不要自己生圖」。對人類 OK,對 AI 來說等於每天從頭認識你。

養 skill 的心法是——跟 AI 講過一次之後、請它打包成「skill」存起來,下次同類型對話它自動帶著這份能力跑、不用每次重講。

複製下面整段給你的 Claude Code:

從現在開始,當我們做重複性任務(生圖、Code Review、寫文案),
請照下面的「skill 打包協定」做:

第一次我問:盡力做、記下哪些做法 work。
第二次同類型任務:注意我上次怎麼修改你的成果、套用到這次。
第三次:主動提議把這個流程打包成 skill 存起來。

skill 是一個小檔案、含:
  - 目標(一句話)
  - 觸發條件(什麼情境呼叫)
  - 步驟(有順序、可執行)
  - 已踩過的雷(以及修法)
  - 常用的參考檔案/命令

存到 ~/.claude/skills/{skill-name}/SKILL.md(或你工具對應的位置)。
下次觸發條件 match、你載入這個 skill 接著做、不從頭開始。

重點:不要讓我重複教你同一件事兩次。

貼完之後,未來做第三次同類型任務、Claude Code 會主動問你「要打包成 skill 嗎?」同意就建檔、之後永遠記得。這就是 AI 一次比一次更順的關鍵。

如果你的 AI 不支援 skill 機制(例如 ChatGPT Custom GPT 不寫檔)、改用「把這份協定存進 project memory / system prompt」、心法一樣——AI 累積經驗、不每次從頭。

📖
想看完整雙 AI 工作流(三步驟 setup + 養 skill 心法 + 寫程式/圖像兩場景 prompt 範本)?讀姊妹篇:Claude Code × Codex 雙 AI 起手包

結尾觀點

未來的 AI 工作流不會只用一個工具——這不是預測、這是已經在發生的現實。

Claude 4.7 的 reasoning + Computer Use、Codex 的 image_gen + code execution、GPT 5.5 的 omnimodal、Gemini 的 multimodal context、Image-2 的繁中字渲染——每家都有強項、每家也都有弱項。

把它們編排成一支隊伍、用 orchestration 邏輯讓它們互相串接、互相補位——這才是 2026 真正開始要練的功。

幫你成為自己 AI 團隊的主理人。


通用 prompt template — 封面圖場景

複製貼上後替換 {{ }} 變數、跑 codex exec:

你是一位 editorial illustrator。請生成一張 1024×1280 直式插圖。

【風格】
- 扁平 line-color 編輯式插圖
- 暖色調(不要 AI gradient、不要 neon、不要 glassmorphism)
- 紙感質地背景、輕柔暖色 spotlight
- 單一暖白底色 #FDFCF9

【主題】
{{你的場景描述,例如:「一個人坐在木桌前、合著的筆電、左側有窗光、桌上有植物」}}

【精準文字 overlay】(依字面渲染、圖中不准出現其他文字)
- 左上 kicker:「{{KICKER 英文標籤}}」UPPERCASE、letter-spacing 2px、字級 24px、weight 800、色 #D4623B
- 中央 H1:「{{你的中文主標}}」weight 900、最多 14 個中文字、色 #0F172A

【限制】
- 圖中只能出現上面指定的文字、其他不准
- 不要 emoji、不要 QR code、不要 URL、不要假按鈕
- 不要在 props / 場景 / 招牌上自動加任何文字
- 不要 watermark、logo、brand mark

更多場景模板(infographic 3-card、left-right compare、簡報 hero)會持續更新。完整 Skill 包含 4 個檔案:SKILL.md / README.md / references/3-step-setup.md / references/prompt-template.md。

拿到模板之後、你就能在自己的工作流上發展自己的版本——不必照搬我這套 9-slide pipeline、可以從你最常做的視覺類型(簡報封面 / blog hero / infographic)開始接起來。

Claude Code × Codex × Image-2 起手包

把 Codex CLI 接成 Claude Code 的生圖外掛,繁中字封面 / infographic / carousel 一條龍生圖。MIT 授權,可直接複製到 ~/.claude/skills/。

  • 3 步驟把 Codex CLI 接進 Claude Code(含 ChatGPT Plus quota 用法)
  • 4 場景通用 image prompt 模板(封面 / infographic / before-after / hero)
  • 3 個常見雷的 workaround(native size 不可預測 / chrome 跨張飄 / 自動長英文字)
  • Avatar pin 機制(連續多張保持人物五官一致)
  • 後處理 normalize 腳本(sips resampleWidth + center crop)
  • 進階自動化:Claude Code 自動 orchestrate Codex 完整 pipeline
免費下載完整資源包

.md 純文字檔,可直接複製到 Claude / ChatGPT 使用

圖文精簡版

這篇文章也有好讀的社群版本

追蹤 @be.ai.curator

每天分享用 AI 經營公司的實戰筆記