llms.txt:AIクローラー対策の新標準ガイド
llms.txtの歴史
近年の大規模言語モデル(LLM)の隆盛に伴い、
ウェブ上のコンテンツがAIモデルの学習や回答生成に無断で利用されることへの懸念が高まりました。
その一方で、ChatGPTのような生成AIはウェブ上の公開情報をユーザの質問に応じて取得・利用するケースも増えています。従来の検索エンジン向けにはrobots.txt
でクローラーのアクセス制御を行ってきましたが、AIクローラー(LLMのためのクローラー)は従来とは異なる課題をもたらしています。
まず、LLMはウェブ上の膨大な情報を必要としますが、
コンテキストウィンドウの制約により大半のサイト全体を一度に扱うことは困難です
参考:searchengineland.com
複雑なHTMLやナビゲーション、広告、JavaScriptを含むページをそのままテキスト化して理解させるのは非効率で不正確になりがちでした。
こうした背景から、2024年9月に米国の技術者Jeremy Howard氏(fast.aiの共同創設者)が「/llms.txt」ファイルの標準を提案しました
参考:llmstxt.org。
これはウェブサイト側でLLMに適した簡潔な情報提供を行い、
AI側の負荷軽減とサイト運営者のコントロール強化を両立しようとする試みです。
Howard氏の提案は、SXSW 2024でのコンテンツ制作者の権利議論などを経て注目を集めました2023年秋頃から有志による議論が進み、翌2024年には一部の開発者ドキュメントサイトで試験的に導入され始めます(例:Mintlify社のドキュメントホスティングでllms.txtサポートが追加され、多数のOSSプロジェクトDocsがLLMフレンドリー化された)参考:quoleady.com
Anthropic社(Claudeの開発元)やHugging Face、Perplexity.ai、Zapierなど
技術系サイトを中心に採用が広がり
2025年現在、llms.txtは「AI時代の新しい標準」として急速に存在感を高めています。
llms.txtの意味と目的
llms.txt(Large Language Models Text)は、一言で言えば「AI向けのrobots.txt」のようなもので、
ウェブサイトが生成AIに対して提供するガイドライン兼コンテンツ索引です
参考:searchengineland.com
ただし従来のrobots.txtのようにクローラーを機械的に排除するのではなく、
どのコンテンツをどのようにAIに利用してほしいかをサイト側が提示する目的があります
主なポイントは次のとおりです。
- LLMに最適化された情報提供:llms.txtはサイト内容を要約・平文化し、重要ページへのリンクや説明を記載します。これによりAIはサイト全体をクロールせずとも重要事項を把握できます。特にプログラミングのドキュメントやAPIリファレンスなど、人間にとっては複数ページにまたがる情報でも、AIには単一テキストで包括的に与えた方が理解しやすくなります。
言い換えれば、llms.txtはサイトのキュレーション情報を提供し、AIが必要な知識を文脈を保ったまま取得できるようにするのです。 - AIクローラー負荷の軽減:従来、LLM企業は大規模なクローラーでウェブ全体を走査し莫大なトラフィックを発生させていました。llms.txtを各サイトが用意すれば、AI側はそのファイルのみを取得すれば良くなり、不要なクロールを減らせます。実際「LLMsは巨大なクローリングエンジンになるよりも、“知能”部分にリソースを割くべきだ」とも指摘されており
llms.txtは効率的な情報取得によってモデル側・サイト側双方にメリットがあります。 - サイト運営者のコントロール強化:llms.txtはサイト側が自主的に用意するものであり、そこに記載した内容だけをAIに見せることで情報漏洩や誤用のリスク軽減につなげられます。
例えば機密ページや誤解を招く古いページはllms.txtに載せないことで、AIに積極的に読ませないよう誘導できます。また後述するように、従来のrobots.txtが「排除したいもの」を記述する除外リストなのに対し、llms.txtは「利用して良いもの」を記述する包括リストという違いがあります。
これはサイト側にとってAIに利用される範囲を選択するアプローチと言えます。 - AIからの保護と透明性:llms.txt自体に強制力はありませんが、サイトの意向を明示することで、少なくとも良質なAIクローラーに対して「この範囲のデータは使ってよい/使わないでほしい」というシグナルを送る役割を果たします。OpenAIやAnthropicなど主要なAI企業は「ウェブマスターの意思を尊重する」姿勢を示しており (参考:theregister.com)llms.txtによりデータ利用の透明性が高まることが期待されています。
以上のように、llms.txtは単なるクローラーブロックではなく「AI時代のサイトマップ+ポリシーファイル」とも言える位置づけです。
検索エンジン最適化(SEO)が従来のWeb向け施策であったように、llms.txtは生成AI最適化(AIOとも呼ばれます)の一環として注目されており、将来的にはAI検索結果やAIアシスタントで自サイトの情報が適切に参照されるために必須の対応になる可能性があります(参考:quoleady.comquoleady.com)
仕様と形式
llms.txtの書式はMarkdownで記述されたシンプルなテキストファイルですllmstxt.org。
基本仕様は以下の通りです。
- 配置場所:サイトのドメイン直下(ルートパス)に
llms.txt
という名前で設置します。
例:https://example.com/llms.txt
。
※必要に応じサブディレクトリ以下に置く応用も提案されていますが、通常はルートに配置します。 - ファイル形式:拡張子こそ
.txt
ですが、中身はMarkdown記法で構造化します
人間が読めると同時に、プログラムやLLMエージェントがパースしやすい書式です。 - 記載すべき内容と順序:提案されている標準的なフォーマットは以下の順序になります
- H1見出し(
#
で始まる行) – プロジェクトやサイトの名称を記載します。そのllms.txtが何のサイトを対象としているか明示します。 - 概要のブロック引用(
>
で始まる行) – サイトやプロジェクトの簡潔な説明を1〜数行で書きます重要なキーワードやサイトの目的など、LLMが全体像を掴むのに必要な情報を含めます。 - 追加の詳細説明(任意) – 段落やリストなどMarkdownの通常の書式で、必要に応じてより詳しい説明や利用上の注意を書きますここでは見出し(ヘッダ)は使わず、文章や箇条書きで記述します(見出しを使うのは後述の各セクションのみ)。
- セクション別のリソースリスト – さらに詳細な情報源へのリンク集を、H2見出し(
##
)ごとに分類して列挙しますたとえば「## Docs」「## API」などの見出しを作り、その下に箇条書きでMarkdown形式のハイパーリンクと説明を書きます。書式は「- [タイトル](URL): 補足説明
」という形で、リンク名とURL、コロンに続けてそのリンク先の内容説明(必要なら)を記載します。 - 「Optional」セクション(任意) – 特別なセクション名として
## Optional
を設けることができます。この下に列挙したリンクは「補足的な情報」であり、省略可能であることを意味します。AIがコンテキスト容量に制約がある場合、このOptionalセクションの内容は飛ばして主要部分のみ読む、といった運用が想定されています。
- H1見出し(
以下は、上記フォーマットの簡単な例です。
# MyProject (サイト/プロジェクト名)
> MyProjectはデータ分析用のオープンソースツールです。高度な可視化と統計機能を提供します。
MyProjectはPythonで実装され、研究者やデータサイエンティストに利用されています。以下に主なドキュメントへのリンクを示します。
## Docs
- [クイックスタート](https://example.com/docs/quickstart.md): 基本的な使い方の概要。
- [APIリファレンス](https://example.com/docs/api.md): 関数・クラスの詳細なドキュメント。
## Tutorials
- [チュートリアル1](https://example.com/docs/tutorials/one.md): 入門チュートリアル。
- [チュートリアル2](https://example.com/docs/tutorials/two.md): 応用チュートリアル。
## Optional
- [論文リンク](https://example.com/paper.pdf): 本プロジェクトに関連する学術論文(必要に応じて参照)。
上記のように、サイトの重要情報を凝縮しつつ階層立てて記述します。実際にはプロジェクト規模によってはllms.txt自体が非常に長くなる場合もあります。例えばある実験ではサイト全文を平文化し115,000語超・966KBのllms.txtを設置した例もあります。
一方で、複数のファイルに分割する運用も可能です(例えばルートに基本情報のllms.txt
、詳細全文はllms-full.txt
に分けるなど)。このあたりはサイト規模や目的に応じて柔軟に構成できます。
他の標準との関係も整理しておきます。llms.txtは既存のrobots.txtやsitemap.xmlと共存する設計です。sitemap.xmlが人間向けページの一覧を提供するのに対し、llms.txtはLLM向けに厳選した概要を提供します。またrobots.txtがクローラーへのアクセス許可/禁止を示すのに対し、llms.txtはAIへの利用許諾とコンテキスト提供を目的とします。したがって、llms.txtにはDisallow:
のようなクロール禁止指示は書きません。あくまでコンテンツの所在と要約を示すファイルであり、AI側エージェントがこれをどう扱うか(読むか無視するか)はrobots.txtと同様に自主的なルール遵守に委ねられます。
主なAIクローラー別の対応状況
現在想定されているllms.txtの利用・運用は、各AI企業によって多少スタンスが異なります。重要なAIクローラー(LLM関連のクローラー)ごとの状況や書き方のポイントは次の通りです。
- OpenAI(GPTBot):OpenAI社は2023年8月に独自クローラー「GPTBot」を公開し、ウェブからのデータ収集に利用しています。GPTBotは基本的に
robots.txt
の指示を尊重すると公式に表明されており、サイト側でrobots.txt
に以下を記載すればChatGPTなどの訓練データに使われないよう除外できます。User-agent: GPTBot Disallow: /
(上記のように記載すると、GPTBotはサイト全体のクロールを行わず、その内容をモデル学習に利用しないaaron-gustafson.com。)
現時点でOpenAIはllms.txtファイルそのものの公式対応には言及していません。しかし、将来的にはllms.txtを参照してChatGPTのブラウズ機能やプラグインでの情報取得を最適化する可能性があります。なおOpenAIは2024年に、コンテンツ提供者が自分のデータ利用可否を管理できるツール「Media Manager」を発表しておりpureai.com、業界標準となる仕組み作りにも関与しています。 - OpenAI(ChatGPT-Userエージェント):ChatGPTがユーザからの要求でウェブ閲覧を行う際には「ChatGPT-User」というユーザーエージェントでアクセスしますmedium.commedium.com。これは自動巡回ではなくユーザ要求に応じたオンデマンド取得ですが、サイト運営者は必要に応じて
robots.txt
でブロック可能ですmedium.com。例えばChatGPTによる閲覧自体を禁止したい場合、以下をrobots.txtに追加できます。User-agent: ChatGPT-User Disallow:
ただし、この設定を行うとChatGPTのブラウズ機能経由で自サイトが参照されなくなるため、通常はブロックしない方がメリットが大きいでしょう(トラフィックや引用獲得の観点)。OpenAIとしても、llms.txtによってサイト運営者が見せたい情報を優先取得するよう誘導できれば、ChatGPT-Userはサイト全体を読む代わりにllms.txtを参照する可能性があります。 - Anthropic(Claude):Anthropic社は早くから自社ドキュメントにllms.txtを導入した例として知られますquoleady.com。Claude向けには3種類のクローラーがあり、それぞれ目的が異なりますsupport.anthropic.comsupport.anthropic.com。
- ClaudeBot:LLM訓練データ収集用のクローラー。サイトの将来のコンテンツを学習データセットに含めないようにするには、robots.txtで
ClaudeBot
をブロックします
- Claude-User:ユーザーからの質問に応じてウェブ情報を取得するエージェント(ChatGPT-Userに相当)。これをブロックすると、ユーザーからの要求でClaudeが自サイトを参照しなくなります。Claude-SearchBot:Claudeの検索機能向上のためのクローラー。これをブロックすると、Claudeの検索結果に自サイトが出にくくなります
Anthropicのポリシーでは、いずれのBotもrobots.txtの指示を遵守すると明言されています。
したがって、学習データから除外したい場合はUser-agent: ClaudeBot
にDisallow: /
を設定し、
逆に利用を促進したい有用ページはllms.txtに整理して掲載する、
といった対応が考えられます。
Anthropicもllms.txtの普及に前向きであり、Claudeが将来的にllms.txtを優先して読むことでサイト負荷軽減と回答精度向上が図れるでしょう。 - ClaudeBot:LLM訓練データ収集用のクローラー。サイトの将来のコンテンツを学習データセットに含めないようにするには、robots.txtで
- Perplexity.ai:PerplexityはLLM搭載の検索エンジン/質問応答サービスです。他社サイトの情報取得には主に既存の検索エンジンAPIやオンデマンド閲覧を使っていると推測され、独自の大規模クローラーは公開されていません。ただし自社のヘルプセンターにLLM対応のドキュメントを用意するなど、llms.txtの概念を活用していますquoleady.com。
具体的にはllms-full.txt
という名称で詳細なドキュメント全文を提供し、AIから自社情報が正確に参照されるよう工夫しています。
Perplexityのユーザーエージェント文字列としてはPerplexity-User
やPerplexityBot
が報告されておりgithub.com、基本的にrobots.txtを尊重するとみられます。サイト運営者側では特別な対応は不要ですが、llms.txtを用意しておけばPerplexityのようなサービスにも自サイト情報が伝わりやすくなるでしょう。 - Google(Bard / DeepMind系):Googleは自社の検索インデックスをLLM(Bardや今後のGeminiなど)に活用する方針で、2023年9月にGoogle-Extendedというユーザーエージェントによる制御を導入しましたsearchengineland.comsearchengineland.com。
これは、ウェブマスターがGoogle-Extended
をrobots.txtでブロックすることで自サイトの内容をGoogleの生成AIの訓練や回答生成に利用させない選択肢を提供するものです。
記述例:User-agent: Google-Extended Disallow:
/
こうすることで、
Google BardやVertex AIなどのモデルがそのサイトを参照・学習しなくなります
一方、許可する限りはGoogleのクローラー(GooglebotやGoogleOther)が収集したデータが生成AIにも活用され得るということになります。
現時点でGoogleはllms.txtについて公式な対応表明はありません。おそらくGoogleのAIは基本的に検索エンジンのデータベースを利用するため、追加でllms.txtを読む必要性が低いからです。
しかし今後、DeepMindの技術統合やより高度なAI検索が進めば、llms.txtから構造化知識を取り込む可能性もゼロではありません。 - Meta(Meta AI / LLaMA):Meta社(Facebook)は大規模言語モデル「LLaMA」を公開し話題になりましたが、学習には公開データセット(Common Crawl等)を主に利用したとされています。Meta自身が運営するクローラーとしては、SNSプラットフォームのプレビュー用など従来型のものはありますが、AIモデル用の専門クローラーは公に確認されていません。ただし一部報道では、Metaが学習目的で大規模クロールを行い
robots.txt
のルールを回避したのではという指摘もありますreddit.com。
公式開示は乏しいため推測の域を出ませんが、少なくとも公開情報としてMetaは「ウェブクローラーはrobots.txtで制御可能」と述べていますdevelopers.facebook.com。
今後Metaがllms.txtを採用するかは不明ですが、もし自サイトをMetaのAIに使われたくない場合は、現状では一般的な対策(例えばCommon Crawlや他社クローラーごとブロックする)を講じるしかないでしょう。 - その他のAIクローラー:上記以外にも、Amazon(Alexa AIなど)、Cohere、Baiduやその他研究機関のクローラーなど多数存在しますgithub.comgithub.com。
例えばAmazonはAmazonbot
、Cohere社はcohere-ai
といったUAを持ちますgithub.com。オープンソースのLAIONやCommon Crawl(CCBot)も広くデータ提供されています。
Mistral AI(フランスのスタートアップ)など新興企業は現時点で独自クローラーの情報はありませんが、将来的にウェブデータ収集を行う可能性があります。基本的にロボット型クローラーへの対応はrobots.txtで行い、llms.txtはそれらが参照するコンテンツの指針として補助的に使うイメージです。包括的な対策として、有志が管理する「AIクローラーブロック用robots.txt」リポジトリには主要なAI関連User-Agent一覧が公開されているので参考になるでしょう。
実装方法
llms.txtを実際に導入する手順を、一般的なWebサーバー環境ごとに説明します。基本的な流れは「ファイルを用意して所定の場所に配置する」だけですが、環境によって若干手順が異なります。
1. llms.txtファイルの作成
まず手元でllms.txt
というテキストファイルを作成し、前述のフォーマットに従って内容を記述します。エンコーディングはUTF-8で問題ありません。Markdown記法がそのまま残るように、**拡張子は必ず「.txt」**にします(.md
ではない点に注意)。ファイルサイズに制限はありませんが、あまりに大きい場合は分割も検討してください。記述が完了したらローカルで内容を見直し、必要な情報が網羅されているか確認します。
2. ウェブサーバーへの配置
次に、作成したファイルをWebサーバーのドキュメントルートに配置します。基本的にrobots.txt
と同じ場所に置けば、そのURLで直接アクセスできるようになります。以下、代表的な環境での配置例です。
- Apache(httpd):Apacheの場合、サイトのDocumentRoot(例:
/var/www/html
など)にllms.txtを置くだけで配信可能です。特別な設定変更は不要ですが、サーバーが.txt
ファイルに対して適切なContent-Typeを返すようにしておきましょう(通常は自動でtext/plain
になります)。共有ホスティングなどでFTPアップロードする場合も、他のHTMLファイル同様にルート直下にアップします。Apacheをプロキシ利用している場合や、CMSがルーティングを乗っ取っている場合は、.htaccess
で明示的に許可することもできます。例えば以下のように記述すれば、llms.txtへの直接アクセスを優先します。<Files "llms.txt"> Require all granted </Files>
(※通常は不要ですが、万一llms.txtが認証や他設定の影響を受ける場合に備えた例です。) - Nginx:Nginxでも基本はドキュメントルート(
root
ディレクティブで指定したパス)に配置すればそのまま配信されます。例えば静的ファイルを/usr/share/nginx/html
から提供しているなら、そこにllms.txtを置いてください。動的アプリケーションで特定パスをハンドリングしている場合は、Nginxの設定に以下のようなロケーションブロックを追加することで直接配信できます。location = /llms.txt { alias /path/to/llms.txt; add_header X-Robots-Tag "llms-txt"; }
上記では、リクエストが/llms.txt
だった場合に指定ファイルを返し、X-Robots-Tagヘッダでllms-txt
というタグを付加していますquoleady.com(後述)。aliasの代わりにroot
を使う場合は適宜パスを調整してください。重要なのはどんなサーバー構成でも/llms.txt
というURLでファイルを返せるようにすることです。 - 静的ホスティング(GitHub Pages等):静的サイト生成やホスティングサービスを利用している場合も、ルートにllms.txtを配置する考え方は同じです。例えばGitHub Pagesでは、リポジトリのルート(もしくは
docs/
ディレクトリ)にllms.txtを追加してコミットすれば、自動的にhttps://ユーザ名.github.io/llms.txt
で配信されます。Jekyll等の静的サイトジェネレータを使っている場合、llms.txtをサイト出力に含める必要があります。単純にプロジェクト内に配置すればビルド時にコピーされるでしょう。もしビルドで除外されてしまう場合は、設定でそのファイルを含めるよう指定します(GitHub PagesのJekyllなら、ルートに**.nojekyll**ファイルを置いてビルドをスキップする方法もあります)。 一方、WixやNote、Webflowのように直接ルートにファイルを設置できないサービスもあります。その場合は少し工夫が必要です。たとえばWebflowでは次のような手順で対応できますquoleady.comquoleady.com。- llms.txtファイルを作成し、サービスのアセット管理機能でアップロードする。
- アップロード後に発行されるファイルURLを取得する。
- サイトの設定で「/llms.txt へのリダイレクト」を作成し、先ほどのファイルURLへ301リダイレクトさせる。
- サイトを公開し、
/llms.txt
でアクセスして正しくリダイレクト・表示されるか確認する。
/llms.txt
で提供できますquoleady.comquoleady.com。この方法は多少手間ですが、ルートへの直接アクセスが制限される環境下でllms.txtを提供する有効なワークアラウンドです。
3. 実装後の確認と運用
llms.txtを配置したら、正しく取得できるかテストしましょう。
まず自分のブラウザでhttps://自分のサイト/llms.txt
にアクセスし、内容が表示されるか確認します。次に、その内容を実際にChatGPTやClaudeなどに読ませてみるのも有用です。
「このサイト(会社)は何をしている?」「主要な機能は?」などと質問し、AIがllms.txt由来の正確な回答をするかチェックします。もし意図しない回答をしている場合、llms.txtの記述を改善する余地があるでしょう。
運用面では、サイト更新に合わせてllms.txtも随時更新することが重要です。特にドキュメントサイトの場合、新しいAPIやページ追加時にllms.txtへの追記を忘れないようにします。自動化する方法もあり、例えばサイト生成時に目次からllms.txtを組み立てるスクリプトを組み込んだり、プラグインを利用することもできます。またCloudflareなど一部CDNサービスは独自にllms.txtを活用する動きを見せているため、更新を疎かにしないことで最新情報がAIに行き渡るようにしましょう。
最後に、**X-Robots-Tagヘッダの付加(任意)**について触れておきます。前述の通りllms.txtは人間とAIの双方に読まれる想定ですが、レスポンスヘッダにX-Robots-Tag: llms-txt
を追加することで、検索エンジン等がそのファイルを認識しやすくなる可能性があります。現状では必須ではありませんが、Apacheの場合は.htaccess
で、Nginxの場合はadd_header
ディレクティブで付与できます。これにより「このテキストはllms.txtだ」と明示でき、将来的にクローラー側で特別扱いされる布石になるかもしれません。
法的観点
llms.txtは技術的には有用な仕組みですが、その法的効力や拘束力については現状限定的です。以下、現状のスタンスと今後の展望を整理します。
- 強制力の欠如:まず、llms.txtやrobots.txtに書かれた内容は法律で守られた権利ではありません。あくまでウェブ上の紳士協定に依存していますraptive.com。従って悪意のあるクローラーや規約無視のスクレイパーに対して、llms.txtで「読むな」と書いても法的拘束はできません。実際、「クローラー開発者が本当にrobots.txtを守る保証はない」という指摘もありますthreads.net。言い換えれば、llms.txtはサイト側の意思表示に過ぎず、それを守るかはクローラー側の良識に委ねられていますsearchengineland.com。
- 主要AI企業のスタンス:とはいえ、大手AI企業は世論や規制を意識し、比較的この意思表示を尊重する方向です。OpenAIは先述の通りGPTBotでのrobots.txt遵守を表明しtheregister.com、Anthropicもクローラーの節度やrobots.txt順守を公約していますsupport.anthropic.com。GoogleもGoogle-Extendedというオプトアウト手段を提供しましたaaron-gustafson.com。このように業界自主規制としての位置づけが強まっており、「各社が応じれば事実上の標準になる」という状況です。もっとも、これらはあくまで「今後の学習や利用から除外する」措置であり、一度学習済みのモデルから既存データを消去するものではありませんraptive.com。
- 知的財産権・著作権との関係:AIの学習データ問題は各国で法的議論の俎上に載っています。米国では著作権オフィスがAIと著作権の問題を検討中ですが、明確な指針はまだありませんmnot.netmnot.net。一方、欧州連合(EU)では比較的踏み込んだ方針が示されています。EUの著作権指令(2019/790)では、「権利者が機械可読な形でテキスト・データマイニングを拒否した場合、商業目的のデータマイニングには許可が必要」と定められていますmnot.netmnot.net。さらに2023年に欧州議会で可決されたAI法(AI Act)でも、「権利者が適切な手段でオプトアウトを表明したら、汎用AIモデル提供者はそのデータ利用に許可を要する」旨が追記されました。これは事実上、商用AIクローラーにオプトアウト対応を義務付ける内容ですmnot.net。ただし具体的な実装手段までは規定されておらず、「適切な機械可読手段」とだけ述べられています。
その候補として、現在のところrobots.txtやメタタグ、そしてllms.txtのようなファイルが挙げられています。 - llms.txtの法的意義:上述のEU法文脈では、サイト運営者が明確な拒絶の意思表示をすることが重要になります。llms.txt自体に「当サイトのデータを無断で学習に使用することを禁ず」という一文を入れたとしましょう。これが直接法的拘束力を持つわけではありませんが、少なくとも「適切な機械可読手段による権利留保」の一つとみなされる可能性があります。その意味で、llms.txtは単なる技術ドキュメント以上に、権利主張のエビデンスとして機能し得ます。また、仮に将来裁判等になった場合でも、「自サイトに明確に利用方針を掲示していたのにAI企業が無視した」という事実は主張の助けになるでしょう。
- 今後の展望:OpenAIが準備中のMedia Managerのように、業界横断的なオプトアウト管理ツールが普及する可能性がありますpureai.com。しかしそれが登場するまでは、各サイトがrobots.txtやllms.txtで対応するほかありません。幸いllms.txtはサイトに負荷をかけず設置でき、またAI側にもメリットがあるため、対立ではなく協調の解決策と言えます。将来的に法規制が整えば、llms.txtに従わないクローラーは法的リスクを負うことになるかもしれませんし、逆にllms.txtそのものが法定の標準フォーマットとして位置づけられる可能性もあります。現時点では実験的な段階ですが、ウェブ運営者としては「備えあれば憂いなし」の精神で早めに対応しておくことが望ましいでしょう。
まとめ:llms.txtは法的強制力こそありませんが、技術的・倫理的文脈で**「サイト運営者の意思表示とAI連携のプラットフォーム」**として機能します。主要なAI企業は一定の尊重を示しており、また法整備も追いつきつつあります。ウェブの未来において、コンテンツ制作者が自分の情報の使われ方をコントロールし、AIもそれに従って発展していく——llms.txtはその一端を担う重要なピースと言えるでしょう。
ぶっちゃけApacheなら設定いらないからドキュメントルートに
llms.txtというファイルを作ります。
そこにこんなふうな記述を書きます
# 合同会社FIELDのサイト
> 合同会社FIELDはWeb制作、システム開発、SEO、マーケティング、コンテンツ制作のプロ集団です。
## 利用可能コンテンツ
- [会社概要](https://field.example.com/company): 合同会社FIELDの企業情報・理念・実績など。
- [サービス案内](https://field.example.com/services): Web制作やマーケティング、SEO、コンテンツ制作などの提供サービス詳細。
- [実績紹介](https://field.example.com/works): これまでに行ったプロジェクトや事例の一覧。
- [採用情報](https://field.example.com/recruit): 一緒に働きたい方向けの求人情報。
- [お問い合わせ](https://field.example.com/contact): 依頼や質問など各種問い合わせフォーム。
のような感じです。
そしてさらに思うんだけど、llms.txtはぶっちゃけ必要ないのでは?
llms.txtを狙い撃ちに読みにきてるわけではないと私は考えています。
というよりもう確信を持っています。
botは全てのファイルを見るなかで「これからAI botがいろいろくるからガイドラインを決めてこのファイルでこういう書き方を標準として書いていこうよ」ってただ言ってるだけだと思っています。
あくまでAIクローラー側とサイト側の「紳士協定」によるものです。
なので、私はどのファイルにも書いていいと思っています。
むしろその性質を利用することでAIのサマリーをハックすることすらできると思っています。
….が、ためしにコメントアウトにGPT BOTむけの記述をしたり、してみましたがそれは読まれませんでした。ただやり方はいろいろあるのでまた試してみます。