llms.txt 功能是什麼?怎麼撰寫?怎麼運作?新的SEO 關鍵武器?一次看懂!

 


llms.txt 是一種新興的網路協議檔案格式,由類似 Google 的 robots.txt 概念衍生出來,用來告訴AI「大型語言模型(Large Language Models, LLMs)」哪些網站內容可以或不可以被用來訓練模型,或供模型擷取資料。


一、llms.txt 是什麼?

  • 是一個放在網站根目錄下的純文字檔案
  • 命名為:llms.txt
  • 格式與語法靈感來自 robots.txt
  • 主要目的是給 AI 模型開發者(例如 OpenAI、Anthropic、Google DeepMind 等)一個明確的訊號,網站擁有者是否同意其內容被用來:

  • 作為模型訓練資料
  • 提供 LLM 即時存取查詢(如 Bing Chat、ChatGPT Plugins)


二、怎麼撰寫 llms.txt?

llms.txt 使用類似 robots.txt 的語法:

✅ 範例 1:允許所有 AI 學習整個網站內容


User-Agent: * Allow: /

🚫 範例 2:禁止所有 AI 學習本站任何內容


User-Agent: * Disallow: /

🎯 範例 3:只禁止特定 AI(例如 OpenAI)使用內容


User-Agent: OpenAI Disallow: /

✅ 範例 4:允許 Anthropic,但禁止 Google DeepMind


User-Agent: Anthropic Allow: / User-Agent: GoogleDeepMind Disallow: /

註:不同 AI 廠商會有不同的 User-Agent 名稱,這需要由各家 AI 公司提供。常見如:

  • OpenAI
  • Anthropic
  • GoogleDeepMind
  • MetaAI
  • PerplexityAI


三、怎麼運作?

當 AI 訓練系統或資料爬蟲來拜訪你的網站時,它們會先尋找:

https://你的網站網址/llms.txt
若該檔案存在,並有清楚規範的規則,AI 服務會依照內容遵守你的資料授權意願

若不存在 llms.txt,AI 公司可能預設允許抓取資料,除非你用其他方式禁止(如 HTTP headers 或法律聲明)

小編推薦:超級便宜的導購助手!最適合中小企業的AI AGENT客服小幫手!現在跟站長聯絡可以免費試用唷!

四、補充:為何網站要設 llms.txt?

  • 保護原創內容:網站經營者可決定是否讓 AI 用來訓練,防止內容被免費吸收進 AI。
  • 資料主權與隱私保護:避免內部或會員專屬資料被抓取。
  • 法律合規:在某些地區,訓練資料來源需要明確授權,llms.txt 可作為合法依據。


五、實作建議

用文字編輯器建立一個名為 llms.txt 的檔案
將其放置於網站根目錄(與 index.html 同層)
使用 robots.txt 類似語法設定你允許或禁止的 LLM 使用者
可以與網站政策或條款結合,例如:在隱私政策內加上聲明




六、進階選項(選擇性實作)

如果你是開發者或站長,還可以透過以下方式進一步控管:

  • 搭配 robots.txtmeta noindexX-Robots-Tag 控制搜索引擎
  • 加入 OpenAI、Anthropic 等公司公布的禁止資料抓取 API 接口
  • 如果不希望 AI 學習特定頁面,可在該頁加上特殊標籤,例如:

<meta name="llm-training" content="no">

(這類功能目前尚未統一標準,但各家 AI 可能未來會支援)


總  結

問題答案
什麼是 llms.txt控制 AI 是否能抓取網站資料的設定檔
放在哪?網站根目錄:https://你的網站/llms.txt
如何撰寫?使用 User-AgentAllow/Disallow 規則
能保證 AI 不學習嗎?無法完全保證,但能提供明確法律訊號與業界默契

張貼留言

0 留言