三家 AI 答案差三倍：我拉了一場搜尋工具大 PK、從中翻車兩次

副標：搜尋工具不是模型的附屬、是模型答案好壞的根。我用 28 題對比 3 個搜尋工具、再用 3 題對比自己拼的「更聰明方法」跟 Anthropic 自帶 — 兩場都翻車、學到兩條紀律。

趕時間版（給沒空看完整篇的）

起心動念：上禮拜同一個問題（「2026 Anthropic 跟 OpenAI 誰 API 比較便宜」）我問 ChatGPT、Claude、Perplexity 三家、數字差三倍。挖一輪才知道問題不在模型、在底下用的搜尋工具
拉了兩場 PK：14 種題目 × 28 題 × 3 個工具（第一場 PK 看能力地圖）+ 3 個硬骨頭題目 × 3 個方案（第二場 PK 看自製方法 vs 自帶）
三件意外的事：Tavily 完整度倒數第一、我自己拼的方法輸 1.58 分、其中一題自信地寫錯五倍誤差
兩條紀律：表面「選工具不靠官網廣告、自己拉去 PK」；更深「自己拼的也要驗證、沒驗證的設計都是安慰劑」
新版工具選用規則：Anthropic 自帶搜尋升 default、Grok / Gemini 搜尋是補位

起心動念：三家 AI 答案差三倍

事情是這樣。

上禮拜有人 LinkedIn 私訊問我「2026 Anthropic 跟 OpenAI 哪家 API 比較便宜」。

我順手打開三個 AI 助手同時問：ChatGPT、Claude、Perplexity。

結果三家給的數字差三倍。

換五種問法（加 context、加比較條件、限制 token 範圍）、落差還在。

挖一輪才發現問題不在模型。

每個 AI 助手底下用了不同的搜尋工具：ChatGPT 用 Bing 跟自己的後端、Claude 自帶搜尋走 Anthropic 自家後端、Perplexity 自己有一套抓資料的方法。

每個搜尋工具有自己的索引、自己的排序邏輯、自己抓資料的偏好 — 每個工具都有自己的盲區。

換 prompt 解不了這個問題、換工具才是真解。

這就是我這個月想升級整套搜尋系統的起點。

為什麼搜尋工具這層對日常工作很重要

這幾年我自己每天用 AI 找資料。寫 blog 寫 LinkedIn 寫提案、研究新的 SaaS 工具、看 KOL 想引用一句話、寫競品比較 — 全部都依賴底下的搜尋層。

最常翻車的四個情境：

1. 想核對一個數字

寫文章引用「Anthropic 2026 Q1 營收 10 億」、要找權威出處確認。Anthropic 自帶搜尋有時抓到 SEO blog（轉貼）而不是原始 8-K filing。

2. 看 KOL 講過的一句話想找原話

看到 Karpathy 在某 talk 講「software 3.0」、想找完整原話 + 影片時間點用在 blog。X 上的 thread 是片段、需要影片字幕 + 講稿一起對才能找到原話。

3. 研究 SaaS 工具的最新定價跟新功能

評估要不要訂 Cursor / Windsurf / Claude Code、要看 2026 第二季各家定價結構（每席 / 點數 / 額度）。如果搜尋抓的是去年快照、會給去年資料、誤導判斷。

4. 寫競品比較想看四家在某個面向各自怎麼說

4 家 × 4 個面向 = 16 格。單家搜尋工具常常某幾格漏掉（特別是「冷門品牌 + 特殊功能」這種長尾組合）。

這四件事我都翻過車。

不是模型亂編、是搜尋工具沒抓到對的東西給模型看。

第一場 PK：14 種題目 × 3 個工具 = 28 題能力地圖

為什麼用「能力地圖」、不是「排行榜」

AI 模型自己在做 PK 的時候、早就放棄「誰最強」這種說法。MMLU 不是一條排名、是 57 個學科 × 多個模型的對比表。SWE-bench 不是「最強寫程式 model」、是「在這個 repo 修這種 bug 的成功率」。

沒有單一數字能講「誰最強」、只能講「在哪種題目上強」。

我把這套套到搜尋工具：

14 種題目類型（X / Threads/IG / Reddit / HN / Google 通用 / 趨勢新聞 / 個人 blog/Substack / 付費牆 / 動態網站 / 官方文檔 / YouTube / GitHub 程式碼 / 學術論文 / 台灣媒體）
3 個工具對打（Gemini 搜尋 / Grok 搜尋 / Tavily 搜尋）
每種題目出 2 題（一題穩定的 / 一題時敏的）= 28 題
每題派給 3 個工具同時跑、總共 84 次

為什麼這場 PK 沒包 JINA / Firecrawl / Anthropic 自帶

讀到這邊一定有讀者想問 — 我自己這一年陸續用過 JINA / Firecrawl / Tavily / Grok / Gemini 搜尋 / Anthropic 自帶 6 家、為什麼第一場 PK 只比 3 家？

誠實版：

JINA：原本是我整套系統的主力（把網址讀成乾淨文字）。免費額度上個月用完之後改 anonymous 兜底、不是主力、所以沒進這場 PK。
Firecrawl：是「把網址讀成乾淨文字」的工具、不是「主動搜尋」工具。它跟 Tavily / Gemini 搜尋不在同一層。它在「抓全文」這層強、見後文真正能 work 的拼法那段。
Anthropic 自帶搜尋：第一場 PK 沒包、因為我跑 Python 腳本沒辦法直接 call Claude Code 內建工具。但在後面的第二場 PK 有對比。

第一場 PK 結果：能力地圖出爐

跑完 28 題 × 3 工具 = 84 次、再請 Gemini Pro 評分（評每題的完整度、具體度、出處可不可驗證）。

幾個意外的發現：

發現 1: Tavily 官網廣告 vs 實測完全相反

官網廣告：「The search API designed for AI agents」（為 AI 設計的搜尋 API）
實測完整度：1.54 / 5（倒數第一）
實測具體度：1.36 / 5（差距甚大）
14 種題目只在 GitHub 程式碼這 1 格拿第一
速度 4.4 秒最快、但「快但答案不對」沒意義

Tavily 在我的場景就是不適合。它的價值或許在「機器讀的網址列表」、不是「人看的可用答案」。

發現 2: Gemini 搜尋是最穩的單一工具

14 種題目贏 8 種
在內容深度題（blog / 動態網站 / 台灣媒體 / 趨勢新聞 / 官方文檔 / YouTube / HN / Threads-IG）幾乎全勝
不要錢（Gemini API 在免費額度內）
平均回應時間 10 秒可接受

發現 3: Grok 搜尋不只強 X 內容

14 種題目贏 5 種（Google 通用 / Reddit / X / 付費牆 / 學術論文）
在「需要跨多個出處推理」的題目特別強（Grok 4.1 Fast 模型本身的推理深度）
代價是平均回應時間 50 秒 + 一題大概 0.05 美金
適合「品質優先、不在乎慢」場景

完整能力地圖見一頁版（lead magnet）。先帶到第二場 PK — 翻車最痛的那場。

第二場 PK：我自己拼的方法 vs Anthropic 自帶 — 自我打臉

拼的時候自己很滿意（事後看是被自己騙）

拿到第一場 PK 的能力地圖之後、我想再升級一層。

設計了一個三層工具選用規則：

第一層：簡單問題用 Anthropic 自帶搜尋
第二層：依題目類型派 PK 贏家單跑（X 走 Grok / Google 通用走 Gemini 搜尋）
第三層：硬骨頭題目跑「對抗式拼裝」 — 三個搜尋工具同搜 + Voyage 排序器排第二輪 + Gemini 把前 10 條合成最終答案

聽起來怎麼想都該贏單一搜尋對吧。多家來源、有排序、有合成。

我以為勝定了、差一步就把這個方法寫進每天用的工作守則。

幸好被一個關鍵問題打斷 — 我憑什麼認為它會贏？

第二場 PK 設計

選了 3 個硬骨頭題目（涵蓋 quote 引用 / 競品深度對比 / 核對事實基準題）、對比三個方案：

A：Anthropic 自帶搜尋
B：Gemini 搜尋單跑（單工具基準）
C：我設計的拼裝方法

同一個 AI 評分（Gemini Pro）、同 4 個面向（完整度 / 具體度 / 出處可驗證度 / 整理品質）。

結果讓我重新看自己的設計直覺

方案                       | 完整度 | 具體度 | 出處 | 整理 | 平均
A — Anthropic 自帶          | 4.67  | 5.00  | 5.00 | 4.67 | 4.83 ⭐
B — Gemini 搜尋單跑         | 4.67  | 4.33  | 1.00 | 4.00 | 3.50
C — 我自己拼的              | 2.00  | 2.33  | 5.00 | 3.67 | 3.25 ❌

Anthropic 自帶三題全勝。我精心拼裝的方法三題全敗、平均倒數第一。

最痛的是其中一題：

我問「Anthropic Claude Opus 4.7 釋出日期 + 一次能讀多少字 + 主要新功能」

A 自帶搜尋答：1M（對）、2026-04-16 釋出（對）、5 個新功能
C 我拼的方法答：200K（錯、差五倍）、2026-04-16 釋出（對）、3 個新功能

我設計的方法自信地寫錯一個五倍誤差的數字。

為什麼這個聽起來合理的設計會輸

挖完之後找到三個原因：

1. 排序器只看標題跟網址、沒看內文

我送給排序器（Voyage）的東西是「標題 + 網址 + 前 300 字摘要」、不是全文。排序器是看「題目跟資料的相似度」、但只看摘要資訊不夠、所以排錯位置、把對的出處排到後面。

2. 合成 AI（Gemini）也沒原文可看

收到排好的前 10 條、也只看到標題 + 網址、合成 AI 只能照標題編答案。看不到內容、當然會自信地亂寫。

3. Anthropic 自帶搜尋已經做完「全文 + AI 看內容 + 整理重點」全套

它的後端早就做完「抓全文 + AI 看內文 + 整理結構」全流程。我自己拼的方法重做這件事、卻少了「抓全文 + AI 看內文」最關鍵那步。等於用更慢的方式做出爛三分之一的版本。

真正能 work 的拼裝方法

如果以後要重啟、需要這樣：

題目
 ↓
Gemini 搜尋 + Grok 搜尋（拿到大概 30 條出處）
 ↓
Firecrawl 把前 30 條的全文抓回來  ← 這步是關鍵（Firecrawl 在這層）
 ↓
Voyage 排序器看「題目 vs 全文」排第二輪 → 拉前 10 條
 ↓
Claude / Gemini 看著前 10 條全文合成最終答案

這個拼法包含 Firecrawl 當「抓全文層」、不是當「搜尋層」。Firecrawl 在搜尋層比不過 Tavily / Gemini 搜尋、但在「網址→乾淨全文」這層它強項。

但這需要：Firecrawl 月費方案（19 美金）、60-120 秒等待、跟自帶比是否真贏還要再拉一場 PK。

不確定值不值得、暫時擱置。

兩條紀律

表面：選工具不靠官網廣告、要自己拉去 PK

廠商定位常常是 anti-signal — 講越大聲、實測落差越可能大
評估新工具不准只看 README / 定價頁 / 廠商 demo
必拉「自己場景 PK」（你真實會用的 5-10 題）
「永久免費」「無限制」「最強」這類廣告話術自動觸發驗證紀律

更深：自己拼的也要驗證

這層比表面更重要。

我自己設計的三層工具選用規則 + 拼裝方法、邏輯聽起來合理、實作也跑通了。如果沒先做第二場 PK 就直接寫進工作守則、會發生兩件事：

每次「嚴謹研究」都跑一次比自帶差的拼裝、得到錯誤答案還以為「我用了更厲害的方法」
錯誤往下游污染所有依賴它的內容（blog 核對事實 / Post 主題定稿 / 競品比較）

自己拼的東西自己會偏愛、是天性。

所以更要設一道強制機制 — 用最簡單的既有方法當對照組、新方法沒明顯贏（5 分制差 0.5 分以上）就撤。

這條紀律救了我這次沒把錯的方法寫進每天用的工作守則。

我新版的工具選用規則（直接 inline 給你抄）

跑完兩場 PK、我把自己的搜尋工具選用規則改成這樣：

預設 / 不確定 → Anthropic 自帶搜尋（第二場 PK 贏家、不要錢、整合最深）
Blog 主文核對 / 競品深度比較 / 找原話 → Anthropic 自帶搜尋（高風險場景自帶碾壓拼裝）
結構化網址列表（給程式吃） → Gemini 搜尋（gsearch）
X / Twitter 內容 → Grok 搜尋（grok-search）
付費牆 / 學術論文 / Reddit 深度 → Grok 搜尋（第一場 PK 完整度 5.0 贏家）
Google Workspace / 長 PDF → Gemini CLI（OAuth、自帶沒辦法存私人 Workspace）
GitHub 程式碼深度 → Tavily（免費額度內、第一場 PK 唯一贏家題型）
網址→乾淨全文 → Firecrawl（未來重啟拼裝必含）
影片字幕 → youtube-transcript
登入站爬取 → browser-sessions

撤掉的設計：自己拼的對抗式拼裝 — 第二場 PK 證明輸給自帶。Voyage 排序器在「只看標題 + 網址」場景沒戰場、暫降「擱置」。

給未來的我

這次學到最重要的不是哪個搜尋工具贏。

是「我自己設計的東西要自己驗證」這條紀律。

如果說過去一年我建立的習慣是「動手寫之前先讀過去 baseline」、那這次建立的新習慣就是「動手 deploy 之前先拉一場 PK」。

兩條紀律同根：直覺好聽 ≠ 實測有效。

這篇是寫給也想自己拉 PK 的人看的。完整 PK 腳本跟原始數據我攤平在文章下方的下載卡片裡、可以直接抄去你自己 use case 跑。

下篇我們聊另一個翻車。這個月我拼失敗的東西不只一個。

Benchmark Deep Report — 完整數據攤平給你看

故事講完了。如果你想看真實 raw data 而不是被我消化過的版本、底下是兩場 PK 的完整數據攤平。

第一場 PK 整體分（28 題平均）

28 題分散在 14 種題目（每題型 2 題）、3 個搜尋工具同時跑、共 84 次 API 呼叫。Gemini 2.5 Pro 當評審、評每題的完整度 / 具體度 / 出處可驗證度。

注意 Tavily 速度最快（4.4 秒）但完整度 1.54 倒數第一。快、但答案不對、價值不在搜尋這層。

14 種題目能力地圖（一張圖看完）

每個 cell 是該工具在該題型的完整度（0-5 分）、底色強度反映分數、★ 標每行 winner。一張圖看完三家工具的能力分布。

14 種題目 winner 分布

數一下：Gemini 搜尋贏 8 種、Grok 搜尋贏 5 種、Tavily 贏 1 種（GitHub 程式碼跟 Grok tied）。

「能力地圖」這個 framing 重要在哪 — 如果只看 overall 平均分（Gemini 3.46、Grok 3.29、Tavily 1.54）你會以為 Gemini 全面最強。但拉開看 task 維度才看到：X / Twitter 跟 Google 通用是 Grok 完勝、Gemini 連 1 分都拿不到。沒看 task 分布、你會做出錯誤的工具選用決定。

第二場 PK 三題逐題打分（自己拼的 vs 自帶）

3 題硬骨頭、3 個方案、4 個評分面向 = 36 個 cell。Gemini 2.5 Pro 當評審 + 給簡短理由。

題目 m1：Karpathy 2026 Sequoia AI Ascent 原話

題目 m2：Cursor / Windsurf / Cline / Claude Code 四面向比較

題目 m6：Claude Opus 4.7 核對事實基準題

這就是「自信地寫錯」的 evidence — m6 我自己拼的方法完整度 1/5、評審直接標「嚴重幻覺、答案失去參考價值」。同題自帶搜尋 5/5 全勝。我設計的方法不是答得不全、是答得自信地錯。

為什麼三場都輸 — 三個根因

根因 1: 排序器吃的是 metadata、不是全文。我送給 Voyage 排序器的是「標題 + 網址 + 前 300 字摘要」。排序器看不到內容 detail、無法判斷哪條真的有答案。所以排錯位置 — 真正有答案的 source 被排到後面 10 條去。

根因 2: 合成 AI 也沒原文可看。收到排序過的前 10 條、Gemini 看到的只是「title + URL」list、沒有對應全文。合成 AI 只能照標題編答案。Context Window 寫成 200K 就是這樣 — Gemini 看標題「Claude 4.7 release notes」、自己腦補（200K 是過去常見 Claude context size）、寫進答案。

根因 3: Anthropic 自帶搜尋已經做完最關鍵那步。它的後端是「抓 top sources 全文 + LLM 看內文 + 整理結構」三段式。我自己拼的方法重做「整理結構」這段、但少了「抓全文 + LLM 看內文」最關鍵的中間步。等於用更慢的方式做出一個爛三分之一的版本。

把根因翻成一條操作紀律：如果你要拼裝多工具搜尋、必須先 scrape 全文、再做 rerank、再做合成 — 三段不能缺中間。我跳過 scrape 全文這步、所以全敗。

你拿去自己拉一場 PK 的操作 SOP

這場 PK 我用的工程紀律、攤給你 — 你可以拿去自己 use case 跑一場、不需要從零想流程。

Step 1: 題目集 — 從過去 30 天真實查過的東西採樣 5-10 題（不要用「我覺得讀者會問的」假題）
Step 2: 評分面向 — 主觀面向（完整度 / 具體度 / 出處可驗證度）AI 判 / 客觀面向（出處信度白名單 / 時敏度 regex / 速度）程式判、兩軌分開
Step 3: AI 評審用獨立 model — 不要 Claude 評 Claude、Gemini 評 Gemini。我這場 PK 評審用 Gemini 2.5 Pro、被評的是 gsearch / Grok / Tavily
Step 4: AI 評審 timeout 給 240 秒 — 長提示詞 5-10K 字會超 120 秒。我跑這場 PK 中途 timeout、整批 batch 卡住、後來改 240 秒才順
Step 5: try / except 包單次呼叫 — 一次失敗不該殺整個 batch、寫 error file 繼續下一題
Step 6: 評分輸出嚴格 JSON + parser fallback — AI 即使說「嚴格 JSON」也會偶爾包 ``` markdown、parser 要剝 markdown / 抓第一個 {...} bracket

完整 Python runner 腳本 + 評審提示詞模板在下方的下載卡片裡、你可以拿去改 use case 直接跑。