こんにちは!株式会社テラ AIエンジニアリングチームです。

「robots.txtって、AIボットの設定も必要なの?」

LLMO(AI検索最適化)に取り組み始めると、必ず出てくるのがこの疑問です。

robots.txtは、Webサイトの「門番」として、どのクローラーにどのページへのアクセスを許可・拒否するかを指示するファイルです。従来はGooglebotやBingbotといった検索エンジンのクローラーだけを意識していれば十分でした。

しかし今、ChatGPT(GPTBot)、Claude(ClaudeBot)、Gemini(Google-Extended)、Perplexity(PerplexityBot)といった AIボットが、あなたのサイトを見に来ています。

そして、多くのサイトでは、これらのAIボットに対する設定が 何も書かれていません。

何も書かれていないということは、デフォルトでアクセスが許可されている状態です。これが良いのか悪いのかは、サイトの性質と戦略によって異なります。

この記事では、robots.txtの基本からAIボットの種類、Allow(許可)とDisallow(拒否)それぞれのメリット・デメリット、そして当社が自社サイトで実際に行った設定までを解説します。

INDEX
  1. robots.txtとは? 基本のおさらい
  2. 主要なAIボット一覧
  3. 何も設定していない場合、どうなるか?
  4. Allow(許可)のメリットとデメリット
  5. Disallow(拒否)のメリットとデメリット
  6. 判断基準:あなたのサイトはどちらにすべきか?
  7. 実例:株式会社テラのrobots.txt設定
  8. 設定方法:ステップバイステップ
  9. よくある疑問

robots.txtとは? 基本のおさらい

robots.txtは、Webサイトのルートディレクトリに設置するテキストファイルです。
https://example.com/robots.txt でアクセスでき、クローラーに対して「このページは見ていいですよ」「このページは見ないでください」を指示します。

基本的な構文は以下の通りです。

User-agent: *
Disallow: /admin/
Allow: /

重要なポイント: robots.txtはあくまで「お願い」であり、強制力はありません。行儀の良いボットは従いますが、悪意のあるボットは無視します。ただし、ChatGPTやGemini、Claudeなどの主要AIサービスのボットは、robots.txtの指示に従うことを公式に表明しています。

主要なAIボット一覧

2026年現在、robots.txtで設定を意識すべき主要なAIボットは以下の通りです。

ボット名サービス用途
GPTBotChatGPT(OpenAI)AIの学習データ収集・回答生成
ChatGPT-UserChatGPT(OpenAI)ユーザーの質問に答える際のリアルタイム参照
ClaudeBotClaude(Anthropic)AIの参照・回答生成
Google-ExtendedGemini(Google)Geminiの学習用データ収集
PerplexityBotPerplexityリアルタイムWeb検索・回答生成

それぞれのボットに対して、個別にAllow / Disallowを設定できます。

何も設定していない場合、どうなるか?

多くのサイトのrobots.txtには、AIボットに関する記述が一切ありません。

この場合、一般的なルール User-agent: * が適用されます。Disallowが指定されていないパスは、すべてのボット(AIボットを含む)にアクセスが許可された状態です。

つまり、何も設定していない = AIに全ページを読まれている可能性がある ということです。

これが望ましいかどうかは、次のセクションで整理します。

Allow(許可)のメリットとデメリット

AIボットのアクセスを許可する場合の影響を整理します。

メリット

LLMOの大前提
AIボットがサイトを読めなければ、そもそもAIの回答に引用されることはありません。LLMO対策の第一歩は、AIボットにコンテンツを読んでもらうことです。

AI検索経由の流入増加
ChatGPTやPerplexityが回答の中で自社サイトを引用すれば、そこからの流入が期待できます。従来のSEO経由とは異なる、新しい流入チャネルになります。

ブランド認知の向上
「〇〇について、△△社の情報によると…」とAIが回答の中で言及してくれれば、ユーザーの頭に自社ブランドが刻まれます。

情報の正確性を担保
自社のコンテンツをAIが正確に参照できる状態にしておくことで、誤情報の流通を防ぐ効果もあります。ブロックしてしまうと、AIが不正確な二次情報を参照するリスクが高まります。

デメリット

コンテンツの無断利用リスク
AIが自社コンテンツを学習・引用することで、ユーザーがサイトに訪問せず、AIの回答だけで満足してしまう可能性があります。特に、コンテンツそのものが商品であるメディアサイトにとっては深刻です。

著作権の懸念
AIの学習にコンテンツが使われることへの法的・倫理的な議論は現在も進行中です。自社のオリジナルコンテンツが、AIを通じて間接的に競合に利用される可能性もゼロではありません。

サーバー負荷
AIボットのクロール頻度が高く、サーバーに負荷がかかるケースがあります。小規模サイトではあまり問題になりませんが、大規模サイトでは考慮が必要です。

Disallow(拒否)のメリットとデメリット

AIボットのアクセスを拒否する場合の影響です。

メリット

コンテンツの保護
自社のオリジナルコンテンツがAIの学習データとして使われることを防げます。有料コンテンツ、学術論文、独自のリサーチデータなど、コンテンツ自体に価値がある場合は保護する意義があります。

サーバー負荷の軽減
AIボットのクロールを拒否することで、サーバーリソースを節約できます。

デメリット

AIの回答から除外される
最大のデメリットです。AIボットをブロックすると、ChatGPTやGemini、Claudeの回答に自社の情報が引用されなくなります。AIが情報の入口として普及する中で、この「不在」のコストは年々大きくなっています。

不正確な情報が流通するリスク
自社サイトをブロックしても、AIは他の情報源から自社に関する情報を取得します。その情報が不正確であっても、自社のコンテンツで上書きする手段がなくなります。

競合に差をつけられる
競合がAIボットを許可して積極的にLLMO対策をしている場合、自社だけブロックしていると、AIの回答の中で競合ばかりが言及される状態になります。

判断基準:あなたのサイトはどちらにすべきか?

一律の正解はありません。サイトの性質と戦略に応じて判断します。

Allowが適しているケース

Disallowを検討すべきケース

ハイブリッドアプローチ

多くのサイトにとって最適なのは、ページ単位でAllow/Disallowを使い分ける 方法です。

例えば:

User-agent: GPTBot
Allow: /
Disallow: /members/
Disallow: /reports/premium/

User-agent: ClaudeBot
Allow: /
Disallow: /members/
Disallow: /reports/premium/

このように、ボットごと・パスごとに細かく制御できます。

実例:株式会社テラのrobots.txt設定

当社では、2026年4月にrobots.txtを更新し、主要なAIボットへのアクセスを明示的に許可しました。

当社のサイト(https://www.cdn-tera.co.jp/)はBtoB向けのコーポレートサイトであり、自社を知ってもらう・問い合わせにつなげることが目的です。コンテンツを保護する必要性よりも、AIに正しく認識してもらうメリットの方が大きいと判断しました。

追加した設定

User-agent: GPTBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Allow: /

判断のポイント

あわせて行ったこと

robots.txtの更新と同時に、以下も実施しました。

設定方法:ステップバイステップ

ステップ1:現在のrobots.txtを確認

ブラウザで https://あなたのドメイン/robots.txt にアクセスし、現在の設定を確認します。

ステップ2:AIボットに関する記述があるか確認

GPTBotClaudeBotPerplexityBotGoogle-Extended といった文字列が含まれているか確認します。含まれていなければ、AIボットに対する明示的な設定がない状態です。

ステップ3:方針を決める

前述の判断基準を参考に、自社サイトにとってAllowが良いか、Disallowが良いか、ハイブリッドにするかを決定します。

ステップ4:robots.txtを編集

テキストエディタでrobots.txtを編集し、AIボット向けの記述を追加します。既存の設定は変更せず、末尾に追記するのが安全です。

ステップ5:サーバーにアップロード・確認

更新したrobots.txtをサーバーのルートディレクトリにアップロードし、ブラウザからアクセスして内容を確認します。

よくある疑問

robots.txtでブロックしても、AIは過去のデータを持っているのでは?

はい。robots.txtは「これ以降のクロール」を制御するものであり、AIが過去に学習済みのデータには影響しません。ただし、Perplexityのようにリアルタイムで参照するサービスには即座に効果があります。

全てのAIボットを一括でブロックできる?

User-agent: *Disallow: / を設定すれば全ボットをブロックできますが、これはGooglebotも含む全クローラーに影響します。AIボットだけをブロックしたい場合は、ボットごとに個別に設定する必要があります。

robots.txtの変更はすぐに反映される?

ボットが次にrobots.txtを取得するタイミングで反映されます。通常は数時間〜数日程度です。

Googlebot をブロックすると Gemini もブロックされる?

いいえ。Googlebotは検索インデックス用、Google-ExtendedはGeminiの学習用で、別々のボットとして扱われます。Googlebotを許可しつつ、Google-Extendedだけをブロックすることも可能です。

まとめ:「何も設定しない」が最大のリスク

robots.txtのAIボット設定は、Allow・Disallowのどちらが正解というものではありません。

重要なのは「意図を持って設定すること」です。

何も設定していない状態は、「許可しているのか、気づいていないだけなのか」が自分でもわからない状態です。AIの利用が社会的に広がっている今、robots.txtに対するAIボットの設定は、企業のデジタル戦略の一部として明確に判断すべきテーマになっています。


robots.txtの設定、ご相談ください

「自社サイトのrobots.txt、AIボットの設定がどうなっているか確認したい」
「Allow/Disallowの判断を一緒に考えてほしい」
「llms.txtの設置とあわせてLLMO対策をまとめて進めたい」

そうした方は、ぜひ一度ご相談ください。当社のLLMO診断ツールによる現状チェックから、robots.txtの最適化、llms.txtの作成・設置まで、ワンストップでご支援いたします。

→ お問い合わせはこちら

— RELATED POSTS
TECH
llms.txtとは? AIに自社サイトを正しく伝えるための新しい標準ファイル
INSIGHT
LLMO入門 ── ChatGPTやGemini、Claudeに自社サイトを「拾ってもらう」ために今やるべきこと