llms.txt
是一種新興的網路協議檔案格式,由類似 Google 的robots.txt
概念衍生出來,用來告訴AI「大型語言模型(Large Language Models, LLMs)」哪些網站內容可以或不可以被用來訓練模型,或供模型擷取資料。
一、llms.txt 是什麼?
- 是一個放在網站根目錄下的純文字檔案
- 命名為:
llms.txt
- 格式與語法靈感來自
robots.txt
主要目的是給 AI 模型開發者(例如 OpenAI、Anthropic、Google DeepMind 等)一個明確的訊號,網站擁有者是否同意其內容被用來:
- 作為模型訓練資料
- 提供 LLM 即時存取查詢(如 Bing Chat、ChatGPT Plugins)
二、怎麼撰寫 llms.txt?
llms.txt
使用類似 robots.txt
的語法:
✅ 範例 1:允許所有 AI 學習整個網站內容
🚫 範例 2:禁止所有 AI 學習本站任何內容
🎯 範例 3:只禁止特定 AI(例如 OpenAI)使用內容
✅ 範例 4:允許 Anthropic,但禁止 Google DeepMind
註:不同 AI 廠商會有不同的
User-Agent
名稱,這需要由各家 AI 公司提供。常見如:
- OpenAI
- Anthropic
- GoogleDeepMind
- MetaAI
- PerplexityAI
三、怎麼運作?
當 AI 訓練系統或資料爬蟲來拜訪你的網站時,它們會先尋找:
若該檔案存在,並有清楚規範的規則,AI 服務會依照內容遵守你的資料授權意願。若不存在
llms.txt
,AI 公司可能預設允許抓取資料,除非你用其他方式禁止(如 HTTP headers 或法律聲明)。四、補充:為何網站要設 llms.txt?
- 保護原創內容:網站經營者可決定是否讓 AI 用來訓練,防止內容被免費吸收進 AI。
- 資料主權與隱私保護:避免內部或會員專屬資料被抓取。
- 法律合規:在某些地區,訓練資料來源需要明確授權,
llms.txt
可作為合法依據。
五、實作建議
用文字編輯器建立一個名為llms.txt
的檔案將其放置於網站根目錄(與
index.html
同層)使用
robots.txt
類似語法設定你允許或禁止的 LLM 使用者可以與網站政策或條款結合,例如:在隱私政策內加上聲明
六、進階選項(選擇性實作)
如果你是開發者或站長,還可以透過以下方式進一步控管:
- 搭配
robots.txt
、meta noindex
、X-Robots-Tag
控制搜索引擎 - 加入 OpenAI、Anthropic 等公司公布的禁止資料抓取 API 接口
- 如果不希望 AI 學習特定頁面,可在該頁加上特殊標籤,例如:
(這類功能目前尚未統一標準,但各家 AI 可能未來會支援)
總 結
問題 | 答案 |
---|---|
什麼是 llms.txt ? | 控制 AI 是否能抓取網站資料的設定檔 |
放在哪? | 網站根目錄:https://你的網站/llms.txt |
如何撰寫? | 使用 User-Agent 和 Allow/Disallow 規則 |
能保證 AI 不學習嗎? | 無法完全保證,但能提供明確法律訊號與業界默契 |
0 留言