こんにちは。私はこのブログ以外にも様々なサイトを運営しているノトグンです。会社のホームページ、個人ブログ、外注で制作したWordPressサイトまで、全てAWS Lightsailの1台のインスタンスで動かしています。
これを1台のインスタンスで運用すると、料金は安く利用できます。
しかし、これには欠点もあります。動的サイトであろうと静的ページであろうと、一つのサーバーに集中しているわけですから…トラフィックが集中したら?サイト全体がダウンしてしまう状況が発生します。(静的サイト一つがダウンすると、会社のホームページ+外注で制作してホスティングされているサイトまで全てが崩れてしまいます。)

そのため私は定期的にサーバートラフィックをチェックし、特に「悪質なボット」をブロックすることに時間を割いています。
WordPressでは、サーバートラフィックを防ぐために、基本的にWordfenceプラグインの設定+robots.txtによる悪質なボットのブロック設定という2つの組み合わせで、ある程度サーバーを安定して運用できます。
この記事ではrobots.txtに関する内容と、私がこれまで経験しながら最適化したrobots.txtファイルを共有したいと思います。
robots.txtとは?(概念整理)
robots.txtはロボットとの通信ファイルです。
検索エンジンやAIロボット(クローラー)との通信を行うファイルです。クローラー(ロボット)とは、Google、Naver、GPTなどのAIがウェブサイトを巡回するプログラムです。
robots.txtファイル内のコードを利用して、私たちが共有したい情報と共有したくない情報を区別し、クロールすべきか否かを伝える役割があります。
-
例:
- Google検索結果にホームページを表示させたい場合 👉 ロボットが自分の記事を読み取る必要がある
- しかしログインページや管理者画面までクロールされたら?❌危険なのでクロールさせないようにする必要があります
そこで私たちはrobots.txtというファイルで「これはクロールしてもOK/これはクロールしないで」を伝えるファイルです。
-
❌ robots.txtがない場合?
- サイトのトラフィックの無駄 + セキュリティリスク
- ほとんどのロボットは基本的に全てのページをクロールします
- 悪意のあるボットもクロールし、管理者ページもスキャンできます
robots.txt ファイルの場所は?
robots.txt ファイルは常にドメインルートパスに存在する必要があります。
https://내사이트주소.com/robots.txt
上記のアドレスにアクセスすると、robots.txt ファイルはボットも人間も確認できます。
robots.txt 基本構文説明表
| 構文 | 意味 | 例 | 説明 |
|---|---|---|---|
User-agent: | 対象ロボットを指定 | User-agent: * | すべてのロボット(クローラー) (Googlebot、Bingbotなど)に適用 |
Disallow: | アクセス禁止パス設定 | Disallow: /private/ | ロボット(クローラー)が該当パスをクロールできないようにする |
Allow: | アクセス許可パス設定 | Allow: /public/ | ロボット(クローラー)が該当のパスをクロールすることを許可 |
Sitemap: | サイトマップの場所を指定 | Sitemap: https://example.com/sitemap.xml | サイト構造を案内し、検索エンジン最適化を支援 |
- User-agent: 誰に伝えているか
例:*= 全て、Googlebot= Google専用 - Disallow: これは見ないで
例:/public - Allow: これは見てもOK
例:/wp-admin/admin-ajax.php - sitemap: サイト構造図はこちらです。
検索エンジンにサイトマップを知らせる目的
"User-agent:"
この構文は「誰に伝えているのか」を示すものです。例えば User-agent: *と書けば、GoogleボットでもNaverボットでも全てのロボットに適用されます。
特定のボットだけに伝えたい場合は User-agent: Googlebot のように書いてください。
"Disallow:"
これは「このパスは見ないで!」という禁止命令です。例えば Disallow: /private/ と書くと、ロボットは example.com/private/ 以下のコンテンツを読み取りません。
"Allow:"
逆にこれは「ここはスクレイピングしてもOK!」という許可です。主に Disallow:全体をブロックした状態で、その一部のみ例外的に公開する場合に使用します。
"Sitemap:"
検索エンジンに「うちのサイトの構造図もここにありますよ!」と知らせるものです。サイトマップファイルがあると、検索エンジンが自分のサイトをもっとよく把握し、より多く露出させてくれるようになります。
よく使う ROBOTS.TXT ファイル
1. サイト全体へのアクセス許可:全てのロボットに全てクロールしてもOK!
User-agent: *
Disallow:
2. サイト全体へのアクセス禁止:絶対アクセス不可。検索エンジンにも表示されない。
User-agent: *
Disallow: /
3. 特定のクローラーのみブロック(例:AhrefsBot):Ahrefsのようなバックリンクスキャンボットはトラフィックを発生させるためブロック
User-agent: AhrefsBot
Disallow: /
4. 特定フォルダのみ禁止: /private/ フォルダ内はアクセス禁止
User-agent: *
Disallow: /private/
robots.txtで「人間をブロック」することは不可
robots.txtはロボットにのみ適用されます。人がブラウザで直接アクセスすれば全て表示されます。
人間をブロックしたい場合は
- ログインページへリダイレクトする方法
- 会員認証システムを導入する方法
- サーバー側で
User-Agentチェックする方法
を利用してホームページに人をブロックしたり、ログインページに移動させることができます。
WordPressのデフォルトrobots.txt
以下のrobots.txtコードは、WordPressをインストールすると自動的に作成されるデフォルトのrobots.txtファイルです。
# 워드프레스 기본 설정
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-login.php
Allow: /wp-admin/admin-ajax.php
Sitemap: https://사이트주소.com/sitemap_index.xml
📌WordPressのデフォルトのrobots.txtファイルで設定している場合、トラフィックの増加によりサーバーダウンが発生するケースがあります。(WordPress基準のサーバーダウン現象には様々な原因があります。例:低価格ホスティングの利用、robots.txt、サーバー衝突、プラグイン衝突など)
最近では単純な検索エンジンクローラーだけでなく、AIクローラーもますます増えています。
GPTBot、ClaudeBot、Applebot、Perplexity…その中には歓迎すべきAIもありますが、トラフィックだけ発生させながら自分のコンテンツをスクレイピングする悪質なボットも存在します。
悪質なボット以外に活用可能なボットの場合、robots.txtファイルで適切にクロールできるように整理しました。
AIクローラー制御 + 悪質ボット遮断バージョン (2025.05.23)
私が作成したrobots.txtファイルは、以下の原則に従います。
| 項目 | 設定方法 | 目的 |
|---|---|---|
| WordPress 基本セキュリティ | Disallow設定 | ログインページのブロック |
| AIクローラー | クロール遅延 | ポジティブな露出は許可するが速度を制御 |
| 悪意のあるボット | Disallow: / | トラフィック/情報スクレイピングのブロック |
| 検索エンジン用 | Allow + Sitemap | SEO最適化の維持 |
-
1. AIクローラーは許可するが、速度を制御
- GPTBot、Gemini、Applebotなどは
Crawl-delay: 30設定 - 当サイトのコンテンツをクロールするが、速度を落としてアクセスすること
- GPTBot、Gemini、Applebotなどは
-
2. 悪質なボットは単純にブロック
- Ahrefs、Semrush、MJ12などのバックリンク分析ボットは完全ブロック
- DataForSeoBot、barkrowlerなど正体不明の情報収集ボットはOUT
-
3. ロシア/中国拠点の疑わしいクローラーをブロック
- Yandex、PetalBot、MauiBotなどは
Disallow: /処理
- Yandex、PetalBot、MauiBotなどは
robots.txtファイルは2つの方法で利用できます。ダウンロードしてすぐにルートフォルダにアップロードできる方式、またはrobots.txtコードをコピー&ペーストできるように2つの方法で作成されています。
robots.txtファイル配布方法
🔹 方法 1: robots.txt ファイルを直接ダウンロードしてルートにアップロード
🔹 方法2:以下のコードをコピー+貼り付け
**워드프레스 Robots.txt 최적화 코드 ( ai bot + 악성 봇 차단)**
# == 워드프레스==
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-login.php
Allow: /wp-admin/admin-ajax.php
# ==============================================
# 🤖 AI & SEO 크롤러 제어 설정 - by 노퇴근
# GPTBot, Ahrefs, Baidu 등 트래픽 유발 크롤러 관리
# robots.txt v2025.05.23
# ==============================================
# 🧠 국내 AI 크롤러들
# ====================================
# 네이버의 클로바 AI 크롤러
User-agent: CLOVA
Crawl-delay: 30
# 카카오의 AI 및 검색용 크롤러
User-agent: KakaoBot
Crawl-delay: 30
# ====================================
# 🌎 글로벌 AI 크롤러들 - 허용하되 딜레이만 설정
# ====================================
# OpenAI의 ChatGPT용 크롤러 (공식)
User-agent: GPTBot
Crawl-delay: 30
# 구글의 Gemini (Bard) AI 관련 크롤러 (추정)
User-agent: Gemini
Crawl-delay: 30
# 마이크로소프트의 Copilot (VS Code 등 연동)
User-agent: Copilot
Crawl-delay: 30
# Anthropic Claude AI의 일반 User-agent (별도 공식 미확인)
User-agent: Claude
Crawl-delay: 30
# Perplexity AI의 검색형 LLM 봇
User-agent: Perplexity
Crawl-delay: 30
# ChatGPT와 연결된 일반 유저 요청 (비공식 User-agent 사용시)
User-agent: ChatGPT-User
Crawl-delay: 30
# ====================================
# 🍏 Apple & Microsoft AI 크롤러 - 허용하되 딜레이만 설정
# ====================================
# 🍏 Apple의 Siri/Spotlight용
User-agent: Applebot
Crawl-delay: 30
# Apple의 AI 학습용 확장 크롤러
User-agent: Applebot-Extended
Crawl-delay: 30
# Bing AI 기반 봇 (Copilot 연계)
User-agent: Bing AI
Crawl-delay: 30
# ====================================
# 🌐 글로벌 번역/검색/대화형 AI
# ====================================
# DeepL 번역 서비스 연동 크롤러
User-agent: DeepL
Crawl-delay: 30
# 캐릭터 기반 대화 AI 서비스 (Character.AI)
User-agent: Character.AI
Crawl-delay: 30
# Quora 기반 Poe AI 또는 관련 크롤러
User-agent: Quora
Crawl-delay: 30
# Microsoft의 실험적 대화형 모델 DialoGPT (추정 User-agent)
User-agent: DialoGPT
Crawl-delay: 30
# Otter.ai 회의 텍스트 전환 및 음성 분석 서비스
User-agent: Otter
Crawl-delay: 30
# 학생용 학습 Q&A AI 앱 Socratic (구글 소유)
User-agent: Socratic
Crawl-delay: 30
# ====================================
# ✍️ AI 콘텐츠 자동생성 툴들
# ====================================
# Writesonic (ChatGPT 대안급 AI 카피/에디터)
User-agent: Writesonic
Crawl-delay: 30
# CopyAI (스타트업 대상 카피라이팅 AI)
User-agent: CopyAI
Crawl-delay: 30
# Jasper (전문 마케팅/블로그 AI)
User-agent: Jasper
Crawl-delay: 30
# ELSA 스피킹/영어 말하기 코칭 AI
User-agent: ELSA
Crawl-delay: 30
# Codium (코드 자동화 AI) — Git 연동
User-agent: Codium
Crawl-delay: 30
# TabNine (VSCode 기반 코딩 AI)
User-agent: TabNine
Crawl-delay: 30
# Vaiv (국내 AI 스타트업, NLP 서비스)
User-agent: Vaiv
Crawl-delay: 30
# Bagoodex (출처 불명, 데이터 수집 크롤러 추정)
User-agent: Bagoodex
Crawl-delay: 30
# You.com의 YouChat AI 봇
User-agent: YouChat
Crawl-delay: 30
# 중국 기반 iAsk AI 검색/QA 봇
User-agent: iAsk
Crawl-delay: 30
# Komo.ai — 개인정보 중심 AI 검색
User-agent: Komo
Crawl-delay: 30
# Hix AI — 콘텐츠 생성 특화 AI
User-agent: Hix
Crawl-delay: 30
# ThinkAny — ChatGPT 기반 AI 플랫폼
User-agent: ThinkAny
Crawl-delay: 30
# Brave 검색 엔진 기반 AI 요약/검색
User-agent: Brave
Crawl-delay: 30
# Lilys — AI 추천 엔진/챗봇 추정
User-agent: Lilys
Crawl-delay: 30
# Sidetrade Indexer Bot — AI 영업 CRM 기반 크롤러
User-agent: Sidetrade Indexer Bot
Crawl-delay: 30
# Common Crawl 기반 AI 학습 봇
User-agent: CCBot
Crawl-delay: 30
# 추후 사용자 정의 AI 크롤러 등록용 placeholder
User-agent: AI-Bot-Name
Crawl-delay: 30
# ====================================
# 🧠 기타 주요 AI/웹 크롤러 (이전에 추가한 것 포함)
# ====================================
# Anthropic의 Claude 공식 크롤러
User-agent: ClaudeBot
Crawl-delay: 30
# Claude의 웹 전용 크롤러
User-agent: Claude-Web
Crawl-delay: 30
# Google의 AI 학습용 크롤러
User-agent: Google-Extended
Crawl-delay: 30
# Google 기타 Crawlers
User-agent: GoogleOther
Crawl-delay: 30
# Google Search Console 검사 도구 크롤러
User-agent: Google-InspectionTool
Crawl-delay: 30
# Google Cloud Vertex AI 크롤러
User-agent: Google-CloudVertexBot
Crawl-delay: 30
# DuckDuckGo의 AI 요약 지원 봇
User-agent: DuckAssistBot
Crawl-delay: 30
# 웹 페이지를 구조화된 데이터로 바꾸는 Diffbot
User-agent: Diffbot
Crawl-delay: 30
# Kagi 검색엔진의 고급 AI 요약 크롤러
User-agent: Teclis
Crawl-delay: 30
# ====================================
# 🔍 기타 불필요한 크롤러들 - 딜레이만
# ====================================
# 중국 검색엔진 Baidu - 국내 사이트엔 불필요
User-agent: Baiduspider
Crawl-delay: 300
# 📊 마케팅 분석/광고 관련 봇 - 과도한 트래픽 유발 가능
User-agent: BomboraBot
Crawl-delay: 300
User-agent: Buck
Crawl-delay: 300
User-agent: startmebot
Crawl-delay: 300
# ==============================
# ❌ 완전 차단이 필요한 크롤러
# ==============================
# 🦾 백링크 분석 툴들 - 모든 페이지 긁어감
User-agent: MJ12bot
Disallow: /
User-agent: AhrefsBot
Disallow: /
User-agent: SemrushBot
Disallow: /
# 🛑 중국/러시아/광고용 등 트래픽 & 정보 분석용 봇 차단
User-agent: PetalBot
Disallow: /
User-agent: MediaMathbot
Disallow: /
User-agent: Bidswitchbot
Disallow: /
User-agent: barkrowler
Disallow: /
User-agent: DataForSeoBot
Disallow: /
User-agent: DotBot
Disallow: /
User-agent: Bytespider
Disallow: /
User-agent: CensysInspect
Disallow: /
User-agent: rss2tg bot
Disallow: /
User-agent: proximic
Disallow: /
User-agent: Yandex
Disallow: /
User-agent: MauiBot
Disallow: /
User-agent: AspiegelBot
Disallow: /
Sitemap: https://사이트주소.com/sitemap_index.xml
robots.txt管理のコツ
- Google Search Consoleのrobots.txt検査機能を活用する
- サーバートラフィック急増時、クロールログを確認し新規ボットを即時登録
- 静的ページもボットにスクレイピングされるとサーバーがダウンする…常に監視しよう
