robots.txtとは:AIクローラーはOK、悪質なボットをブロックするrobots.txt最適化コードまで

こんにちは。私はこのブログ以外にも様々なサイトを運営しているノトグンです。会社のホームページ、個人ブログ、外注で制作したWordPressサイトまで、全てAWS Lightsailの1台のインスタンスで動かしています。

これを1台のインスタンスで運用すると、料金は安く利用できます。

しかし、これには欠点もあります。動的サイトであろうと静的ページであろうと、一つのサーバーに集中しているわけですから…トラフィックが集中したら?サイト全体がダウンしてしまう状況が発生します。(静的サイト一つがダウンすると、会社のホームページ+外注で制作してホスティングされているサイトまで全てが崩れてしまいます。)

そのため私は定期的にサーバートラフィックをチェックし、特に「悪質なボット」をブロックすることに時間を割いています。

WordPressでは、サーバートラフィックを防ぐために、基本的にWordfenceプラグインの設定+robots.txtによる悪質なボットのブロック設定という2つの組み合わせで、ある程度サーバーを安定して運用できます。

この記事ではrobots.txtに関する内容と、私がこれまで経験しながら最適化したrobots.txtファイルを共有したいと思います。

robots.txtとは?(概念整理)

robots.txtはロボットとの通信ファイルです。
検索エンジンやAIロボット(クローラー)との通信を行うファイルです。クローラー(ロボット)とは、Google、Naver、GPTなどのAIがウェブサイトを巡回するプログラムです。

robots.txtファイル内のコードを利用して、私たちが共有したい情報と共有したくない情報を区別し、クロールすべきか否かを伝える役割があります。

  • 例:
    • Google検索結果にホームページを表示させたい場合 👉 ロボットが自分の記事を読み取る必要がある
    • しかしログインページや管理者画面までクロールされたら?❌危険なのでクロールさせないようにする必要があります

そこで私たちはrobots.txtというファイルで「これはクロールしてもOK/これはクロールしないで」を伝えるファイルです。

  • ❌ robots.txtがない場合?
    • サイトのトラフィックの無駄 + セキュリティリスク
    • ほとんどのロボットは基本的に全てのページをクロールします
    • 悪意のあるボットもクロールし、管理者ページもスキャンできます

robots.txt ファイルの場所は?

robots.txt ファイルは常にドメインルートパスに存在する必要があります。

https://내사이트주소.com/robots.txt

上記のアドレスにアクセスすると、robots.txt ファイルはボットも人間も確認できます。

robots.txt 基本構文説明表

構文意味説明
User-agent:対象ロボットを指定User-agent: *すべてのロボット(クローラー)
(Googlebot、Bingbotなど)に適用
Disallow:アクセス禁止パス設定Disallow: /private/ロボット(クローラー)が該当パスをクロールできないようにする
Allow:アクセス許可パス設定Allow: /public/ロボット(クローラー)が該当のパスをクロールすることを許可
Sitemap:サイトマップの場所を指定Sitemap: https://example.com/sitemap.xmlサイト構造を案内し、検索エンジン最適化を支援
  • User-agent: 誰に伝えているか
    例: * = 全て、 Googlebot = Google専用
  • Disallow: これは見ないで
    例: /public
  • Allow: これは見てもOK
    例: /wp-admin/admin-ajax.php
  • sitemap: サイト構造図はこちらです。
    検索エンジンにサイトマップを知らせる目的

"User-agent:"
この構文は「誰に伝えているのか」を示すものです。例えば User-agent: *と書けば、GoogleボットでもNaverボットでも全てのロボットに適用されます。
特定のボットだけに伝えたい場合は User-agent: Googlebot のように書いてください。

"Disallow:"
これは「このパスは見ないで!」という禁止命令です。例えば Disallow: /private/ と書くと、ロボットは example.com/private/ 以下のコンテンツを読み取りません。

"Allow:"
逆にこれは「ここはスクレイピングしてもOK!」という許可です。主に Disallow:全体をブロックした状態で、その一部のみ例外的に公開する場合に使用します。

"Sitemap:"
検索エンジンに「うちのサイトの構造図もここにありますよ!」と知らせるものです。サイトマップファイルがあると、検索エンジンが自分のサイトをもっとよく把握し、より多く露出させてくれるようになります。

よく使う ROBOTS.TXT ファイル

1. サイト全体へのアクセス許可:全てのロボットに全てクロールしてもOK

User-agent: *
Disallow:

2. サイト全体へのアクセス禁止:絶対アクセス不可。検索エンジンにも表示されない。

User-agent: *
Disallow: /

3. 特定のクローラーのみブロック(例:AhrefsBot):Ahrefsのようなバックリンクスキャンボットはトラフィックを発生させるためブロック

User-agent: AhrefsBot
Disallow: /

4. 特定フォルダのみ禁止: /private/ フォルダ内はアクセス禁止

User-agent: *
Disallow: /private/

robots.txtで「人間をブロック」することは不可

robots.txtはロボットにのみ適用されます。人がブラウザで直接アクセスすれば全て表示されます。

人間をブロックしたい場合は

  • ログインページへリダイレクトする方法
  • 会員認証システムを導入する方法
  • サーバー側で User-Agent チェックする方法

を利用してホームページに人をブロックしたり、ログインページに移動させることができます。

WordPressのデフォルトrobots.txt

以下のrobots.txtコードは、WordPressをインストールすると自動的に作成されるデフォルトのrobots.txtファイルです。

# 워드프레스 기본 설정
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-login.php
Allow: /wp-admin/admin-ajax.php

Sitemap: https://사이트주소.com/sitemap_index.xml

📌WordPressのデフォルトのrobots.txtファイルで設定している場合トラフィックの増加によりサーバーダウンが発生するケースがあります。(WordPress基準のサーバーダウン現象には様々な原因があります。例:低価格ホスティングの利用、robots.txt、サーバー衝突、プラグイン衝突など)

最近では単純な検索エンジンクローラーだけでなく、AIクローラーもますます増えています。

GPTBot、ClaudeBot、Applebot、Perplexity…その中には歓迎すべきAIもありますがトラフィックだけ発生させながら自分のコンテンツをスクレイピングする悪質なボットも存在します。

悪質なボット以外に活用可能なボットの場合、robots.txtファイルで適切にクロールできるように整理しました。

AIクローラー制御 + 悪質ボット遮断バージョン (2025.05.23)

私が作成したrobots.txtファイルは、以下の原則に従います。

項目設定方法目的
WordPress 基本セキュリティDisallow設定ログインページのブロック
AIクローラークロール遅延ポジティブな露出は許可するが速度を制御
悪意のあるボットDisallow: /トラフィック/情報スクレイピングのブロック
検索エンジン用Allow + SitemapSEO最適化の維持
  • 1. AIクローラーは許可するが、速度を制御
    • GPTBot、Gemini、Applebotなどは Crawl-delay: 30 設定
    • 当サイトのコンテンツをクロールするが、速度を落としてアクセスすること
  • 2. 悪質なボットは単純にブロック
    • Ahrefs、Semrush、MJ12などのバックリンク分析ボットは完全ブロック
    • DataForSeoBot、barkrowlerなど正体不明の情報収集ボットはOUT
  • 3. ロシア/中国拠点の疑わしいクローラーをブロック
    • Yandex、PetalBot、MauiBotなどは Disallow: / 処理

robots.txtファイルは2つの方法で利用できます。ダウンロードしてすぐにルートフォルダにアップロードできる方式、またはrobots.txtコードをコピー&ペーストできるように2つの方法で作成されています。

robots.txtファイル配布方法

🔹 方法 1: robots.txt ファイルを直接ダウンロードしてルートにアップロード

🔹 方法2:以下のコードをコピー+貼り付け

**워드프레스 Robots.txt 최적화 코드 ( ai bot + 악성 봇 차단)**

# ==  워드프레스==

User-agent: *

Disallow: /wp-admin/

Disallow: /wp-login.php

Allow: /wp-admin/admin-ajax.php

# ==============================================

# 🤖 AI & SEO 크롤러 제어 설정 - by 노퇴근

# GPTBot, Ahrefs, Baidu 등 트래픽 유발 크롤러 관리

# robots.txt v2025.05.23

# ==============================================

# 🧠 국내 AI 크롤러들

# ====================================

# 네이버의 클로바 AI 크롤러

User-agent: CLOVA

Crawl-delay: 30

# 카카오의 AI 및 검색용 크롤러

User-agent: KakaoBot

Crawl-delay: 30

# ====================================

# 🌎 글로벌 AI 크롤러들  - 허용하되 딜레이만 설정

# ====================================

# OpenAI의 ChatGPT용 크롤러 (공식)

User-agent: GPTBot

Crawl-delay: 30

# 구글의 Gemini (Bard) AI 관련 크롤러 (추정)

User-agent: Gemini

Crawl-delay: 30

# 마이크로소프트의 Copilot (VS Code 등 연동)

User-agent: Copilot

Crawl-delay: 30

# Anthropic Claude AI의 일반 User-agent (별도 공식 미확인)

User-agent: Claude

Crawl-delay: 30

# Perplexity AI의 검색형 LLM 봇

User-agent: Perplexity

Crawl-delay: 30

# ChatGPT와 연결된 일반 유저 요청 (비공식 User-agent 사용시)

User-agent: ChatGPT-User

Crawl-delay: 30

# ====================================

# 🍏 Apple & Microsoft AI 크롤러 - 허용하되 딜레이만 설정

# ====================================

# 🍏 Apple의 Siri/Spotlight용

User-agent: Applebot

Crawl-delay: 30

# Apple의 AI 학습용 확장 크롤러

User-agent: Applebot-Extended

Crawl-delay: 30

# Bing AI 기반 봇 (Copilot 연계)

User-agent: Bing AI

Crawl-delay: 30

# ====================================

# 🌐 글로벌 번역/검색/대화형 AI

# ====================================

# DeepL 번역 서비스 연동 크롤러

User-agent: DeepL

Crawl-delay: 30

# 캐릭터 기반 대화 AI 서비스 (Character.AI)

User-agent: Character.AI

Crawl-delay: 30

# Quora 기반 Poe AI 또는 관련 크롤러

User-agent: Quora

Crawl-delay: 30

# Microsoft의 실험적 대화형 모델 DialoGPT (추정 User-agent)

User-agent: DialoGPT

Crawl-delay: 30

# Otter.ai 회의 텍스트 전환 및 음성 분석 서비스

User-agent: Otter

Crawl-delay: 30

# 학생용 학습 Q&A AI 앱 Socratic (구글 소유)

User-agent: Socratic

Crawl-delay: 30

# ====================================

# ✍️ AI 콘텐츠 자동생성 툴들

# ====================================

# Writesonic (ChatGPT 대안급 AI 카피/에디터)

User-agent: Writesonic

Crawl-delay: 30

# CopyAI (스타트업 대상 카피라이팅 AI)

User-agent: CopyAI

Crawl-delay: 30

# Jasper (전문 마케팅/블로그 AI)

User-agent: Jasper

Crawl-delay: 30

# ELSA 스피킹/영어 말하기 코칭 AI

User-agent: ELSA

Crawl-delay: 30

# Codium (코드 자동화 AI) — Git 연동

User-agent: Codium

Crawl-delay: 30

# TabNine (VSCode 기반 코딩 AI)

User-agent: TabNine

Crawl-delay: 30

# Vaiv (국내 AI 스타트업, NLP 서비스)

User-agent: Vaiv

Crawl-delay: 30

# Bagoodex (출처 불명, 데이터 수집 크롤러 추정)

User-agent: Bagoodex

Crawl-delay: 30

# You.com의 YouChat AI 봇

User-agent: YouChat

Crawl-delay: 30

# 중국 기반 iAsk AI 검색/QA 봇

User-agent: iAsk

Crawl-delay: 30

# Komo.ai — 개인정보 중심 AI 검색

User-agent: Komo

Crawl-delay: 30

# Hix AI — 콘텐츠 생성 특화 AI

User-agent: Hix

Crawl-delay: 30

# ThinkAny — ChatGPT 기반 AI 플랫폼

User-agent: ThinkAny

Crawl-delay: 30

# Brave 검색 엔진 기반 AI 요약/검색

User-agent: Brave

Crawl-delay: 30

# Lilys — AI 추천 엔진/챗봇 추정

User-agent: Lilys

Crawl-delay: 30

# Sidetrade Indexer Bot — AI 영업 CRM 기반 크롤러

User-agent: Sidetrade Indexer Bot

Crawl-delay: 30

# Common Crawl 기반 AI 학습 봇

User-agent: CCBot

Crawl-delay: 30

# 추후 사용자 정의 AI 크롤러 등록용 placeholder

User-agent: AI-Bot-Name

Crawl-delay: 30

# ====================================

# 🧠 기타 주요 AI/웹 크롤러 (이전에 추가한 것 포함)

# ====================================

# Anthropic의 Claude 공식 크롤러

User-agent: ClaudeBot

Crawl-delay: 30

# Claude의 웹 전용 크롤러

User-agent: Claude-Web

Crawl-delay: 30

# Google의 AI 학습용 크롤러

User-agent: Google-Extended

Crawl-delay: 30

# Google 기타 Crawlers

User-agent: GoogleOther

Crawl-delay: 30

# Google Search Console 검사 도구 크롤러

User-agent: Google-InspectionTool

Crawl-delay: 30

# Google Cloud Vertex AI 크롤러

User-agent: Google-CloudVertexBot

Crawl-delay: 30

# DuckDuckGo의 AI 요약 지원 봇

User-agent: DuckAssistBot

Crawl-delay: 30

# 웹 페이지를 구조화된 데이터로 바꾸는 Diffbot

User-agent: Diffbot

Crawl-delay: 30

# Kagi 검색엔진의 고급 AI 요약 크롤러

User-agent: Teclis

Crawl-delay: 30

# ====================================

# 🔍 기타 불필요한 크롤러들 - 딜레이만

# ====================================

# 중국 검색엔진 Baidu - 국내 사이트엔 불필요

User-agent: Baiduspider

Crawl-delay: 300

# 📊 마케팅 분석/광고 관련 봇 - 과도한 트래픽 유발 가능

User-agent: BomboraBot

Crawl-delay: 300

User-agent: Buck

Crawl-delay: 300

User-agent: startmebot

Crawl-delay: 300

# ==============================

# ❌ 완전 차단이 필요한 크롤러

# ==============================

# 🦾 백링크 분석 툴들 - 모든 페이지 긁어감

User-agent: MJ12bot

Disallow: /

User-agent: AhrefsBot

Disallow: /

User-agent: SemrushBot

Disallow: /

# 🛑 중국/러시아/광고용 등 트래픽 & 정보 분석용 봇 차단

User-agent: PetalBot

Disallow: /

User-agent: MediaMathbot

Disallow: /

User-agent: Bidswitchbot

Disallow: /

User-agent: barkrowler

Disallow: /

User-agent: DataForSeoBot

Disallow: /

User-agent: DotBot

Disallow: /

User-agent: Bytespider

Disallow: /

User-agent: CensysInspect

Disallow: /

User-agent: rss2tg bot

Disallow: /

User-agent: proximic

Disallow: /

User-agent: Yandex

Disallow: /

User-agent: MauiBot

Disallow: /

User-agent: AspiegelBot

Disallow: /

Sitemap: https://사이트주소.com/sitemap_index.xml

robots.txt管理のコツ

  • Google Search Consoleのrobots.txt検査機能を活用する
  • サーバートラフィック急増時、クロールログを確認し新規ボットを即時登録
  • 静的ページもボットにスクレイピングされるとサーバーがダウンする…常に監視しよう

コメントする

목차