什么是 robots.txt：人工智能爬虫没问题，阻止恶意机器人取决于 robots.txt 优化代码

你好。我是NoTaeGeun，除了这个博客外还运营着多个网站。公司官网、个人博客、外包制作的WordPress网站，全都运行在一台AWS Lightsail实例上。

虽然单实例运营能有效控制成本，

但缺点也很明显。无论是动态网站还是静态页面，所有内容都集中在单一服务器上……一旦流量激增？整个站点就会彻底瘫痪。（只要某个静态站点崩溃，公司官网+外包托管的网站都会跟着垮掉。）

因此我定期监测服务器流量，尤其花时间拦截"恶意机器人"。

在WordPress中，通过基础的Wordfence插件配置+robots.txt恶意机器人拦截设置这两种组合，基本能实现服务器的稳定运行。

本文将分享关于robots.txt的知识，以及我根据实践经验优化后的robots.txt文件。

robots.txt是什么？（概念梳理）

robots.txt是与机器人进行沟通的文件，
用于与搜索引擎及AI机器人（爬虫）进行交互。爬虫（机器人）是指谷歌、Naver、GPT等AI程序在网站上进行爬取的程序。

通过robots.txt文件中的代码，我们可以区分需要共享的信息与需要隐藏的信息，告知爬虫哪些内容可以抓取、哪些内容不应抓取。

示例：
- 若需让网站出现在谷歌搜索结果中 👉 需允许机器人抓取内容
- 但若连登录页面或管理后台都被抓取呢？❌ 需禁止抓取以防风险

因此我们通过robots.txt文件告知"这些内容可以抓取/这些内容禁止抓取"。

❌ 若未设置robots.txt文件？
- 网站流量浪费 + 安全风险
- 多数机器人默认抓取所有页面
- 恶意机器人同样会抓取内容，甚至可能扫描管理页面

`robots.txt` 文件位置？

robots.txt 该文件必须始终存放在域名根目录下。

https://내사이트주소.com/robots.txt

访问上述地址时，机器人和用户均可查看robots.txt文件。

robots.txt基本语法说明表

语法	含义	示例	说明
`User-agent:`	指定目标机器人	`User-agent: *`	适用于所有机器人（爬虫）（Googlebot、Bingbot等）
`Disallow:`	设置禁止访问的路径	`Disallow: /private/`	禁止机器人（爬虫）抓取该路径
`Allow:`	设置允许访问的路径	`Allow: /public/`	允许机器人（爬虫）抓取该路径
`Sitemap:`	网站地图位置指定	`Sitemap: https://example.com/sitemap.xml`	引导网站结构，助力搜索引擎优化

User-agent: 指定指令
对象示例： * = 所有用户， Googlebot = 仅限谷歌
Disallow: 禁止访问
示例： /public
Allow: 允许访问的
页面示例： /wp-admin/admin-ajax.php
sitemap: 网站结构图在此。
用于告知搜索引擎网站地图

"User-agent:"
该语法用于指定"对象"。例如 User-agent: *若写成，则适用于谷歌爬虫、Naver爬虫等所有机器人。
若只想对特定机器人发出指令 User-agent: Googlebot 请这样写：

"Disallow:"
表示"禁止访问此路径！"的指令。例如 Disallow: /private/ 写成这样，机器人就 example.com/private/ 不会抓取以下内容。

"Allow:"
相反，"" 则表示"此处允许抓取！"的许可。主要用于 Disallow:当整个页面被屏蔽时，仅对部分内容例外开放时使用。

"Sitemap:" 这是
向搜索引擎宣告"本站结构图在此！"的标记。拥有站点地图文件能帮助搜索引擎更准确地理解网站结构，从而提升内容曝光度。

常用ROBOTS.TXT文件

1. 允许访问整个网站：所有机器人均可抓取！

User-agent: *
Disallow:

2. 全站禁止访问：绝对禁止访问，搜索引擎也无法收录。

User-agent: *
Disallow: /

3. 仅屏蔽特定爬虫（如AhrefsBot）：因Ahrefs等反向链接扫描机器人会产生流量，故予以屏蔽

User-agent: AhrefsBot
Disallow: /

4. 仅禁止特定文件夹访问： `/private/` 文件夹内部禁止访问

User-agent: *
Disallow: /private/

robots.txt无法实现"屏蔽人类访问"

robots.txt仅对机器人生效。用户通过浏览器直接访问仍可查看全部内容。

若需阻止人类访问

可采用重定向至登录页面的方式
引入会员认证系统
在服务器端 User-Agent 进行验证

来阻止访问者进入主页，或将其引导至登录页面。

WordPress默认robots.txt文件

下方robots.txt代码是WordPress安装后自动生成的默认文件。

# 워드프레스 기본 설정
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-login.php
Allow: /wp-admin/admin-ajax.php

Sitemap: https://사이트주소.com/sitemap_index.xml

📌若仅使用WordPress默认robots.txt文件，可能因流量激增导致服务器崩溃（WordPress服务器崩溃原因多样，例如：使用低价主机、robots.txt配置问题、服务器冲突、插件冲突等）。

如今除传统搜索引擎爬虫外，AI爬虫正日益增多。

GPTBot、ClaudeBot、Applebot、Perplexity…其中既有值得欢迎的AI，也存在仅消耗流量却窃取内容的恶意爬虫。

针对可利用的良性爬虫，我们已在robots.txt文件中做好规范配置。

AI爬虫控制+恶意爬虫拦截版本（2025.05.23）

我制作的robots.txt文件遵循以下原则：

项目	设置方式	目的
WordPress 基础安全	Disallow设置	登录页面屏蔽
AI爬虫	爬行延迟	允许正面曝光但控制访问速度
恶意机器人	Disallow: /	阻止流量/信息抓取
搜索引擎专用	允许 + 网站地图	保持SEO优化

1. 允许AI爬虫访问，但需控制访问速度
- GPTBot、Gemini、Applebot等 Crawl-delay: 30 设置
- 允许抓取我们的内容，但请放慢速度
2. 恶意机器人直接屏蔽
- Ahrefs、Semrush、MJ12等反向链接分析机器人完全封禁
- DataForSeoBot、barkrowler等身份不明的信息抓取机器人请出局
3. 拦截俄罗斯/中国来源的可疑爬虫
- Yandex、PetalBot、MauiBot等 Disallow: / 处理

robots.txt文件提供两种使用方式：可直接下载上传至根目录，或通过复制粘贴robots.txt代码实现。

robots.txt文件部署方式

🔹 方法1：直接下载robots.txt文件上传至根目录

robots.txt下载

robots.txt 下载直达链接

🔹 方法二：复制粘贴下方代码

**워드프레스 Robots.txt 최적화 코드 ( ai bot + 악성 봇 차단)**

# ==  워드프레스==

User-agent: *

Disallow: /wp-admin/

Disallow: /wp-login.php

Allow: /wp-admin/admin-ajax.php

# ==============================================

# 🤖 AI & SEO 크롤러 제어 설정 - by 노퇴근

# GPTBot, Ahrefs, Baidu 등 트래픽 유발 크롤러 관리

# robots.txt v2025.05.23

# ==============================================

# 🧠 국내 AI 크롤러들

# ====================================

# 네이버의 클로바 AI 크롤러

User-agent: CLOVA

Crawl-delay: 30

# 카카오의 AI 및 검색용 크롤러

User-agent: KakaoBot

Crawl-delay: 30

# ====================================

# 🌎 글로벌 AI 크롤러들  - 허용하되 딜레이만 설정

# ====================================

# OpenAI의 ChatGPT용 크롤러 (공식)

User-agent: GPTBot

Crawl-delay: 30

# 구글의 Gemini (Bard) AI 관련 크롤러 (추정)

User-agent: Gemini

Crawl-delay: 30

# 마이크로소프트의 Copilot (VS Code 등 연동)

User-agent: Copilot

Crawl-delay: 30

# Anthropic Claude AI의 일반 User-agent (별도 공식 미확인)

User-agent: Claude

Crawl-delay: 30

# Perplexity AI의 검색형 LLM 봇

User-agent: Perplexity

Crawl-delay: 30

# ChatGPT와 연결된 일반 유저 요청 (비공식 User-agent 사용시)

User-agent: ChatGPT-User

Crawl-delay: 30

# ====================================

# 🍏 Apple & Microsoft AI 크롤러 - 허용하되 딜레이만 설정

# ====================================

# 🍏 Apple의 Siri/Spotlight용

User-agent: Applebot

Crawl-delay: 30

# Apple의 AI 학습용 확장 크롤러

User-agent: Applebot-Extended

Crawl-delay: 30

# Bing AI 기반 봇 (Copilot 연계)

User-agent: Bing AI

Crawl-delay: 30

# ====================================

# 🌐 글로벌 번역/검색/대화형 AI

# ====================================

# DeepL 번역 서비스 연동 크롤러

User-agent: DeepL

Crawl-delay: 30

# 캐릭터 기반 대화 AI 서비스 (Character.AI)

User-agent: Character.AI

Crawl-delay: 30

# Quora 기반 Poe AI 또는 관련 크롤러

User-agent: Quora

Crawl-delay: 30

# Microsoft의 실험적 대화형 모델 DialoGPT (추정 User-agent)

User-agent: DialoGPT

Crawl-delay: 30

# Otter.ai 회의 텍스트 전환 및 음성 분석 서비스

User-agent: Otter

Crawl-delay: 30

# 학생용 학습 Q&A AI 앱 Socratic (구글 소유)

User-agent: Socratic

Crawl-delay: 30

# ====================================

# ✍️ AI 콘텐츠 자동생성 툴들

# ====================================

# Writesonic (ChatGPT 대안급 AI 카피/에디터)

User-agent: Writesonic

Crawl-delay: 30

# CopyAI (스타트업 대상 카피라이팅 AI)

User-agent: CopyAI

Crawl-delay: 30

# Jasper (전문 마케팅/블로그 AI)

User-agent: Jasper

Crawl-delay: 30

# ELSA 스피킹/영어 말하기 코칭 AI

User-agent: ELSA

Crawl-delay: 30

# Codium (코드 자동화 AI) — Git 연동

User-agent: Codium

Crawl-delay: 30

# TabNine (VSCode 기반 코딩 AI)

User-agent: TabNine

Crawl-delay: 30

# Vaiv (국내 AI 스타트업, NLP 서비스)

User-agent: Vaiv

Crawl-delay: 30

# Bagoodex (출처 불명, 데이터 수집 크롤러 추정)

User-agent: Bagoodex

Crawl-delay: 30

# You.com의 YouChat AI 봇

User-agent: YouChat

Crawl-delay: 30

# 중국 기반 iAsk AI 검색/QA 봇

User-agent: iAsk

Crawl-delay: 30

# Komo.ai — 개인정보 중심 AI 검색

User-agent: Komo

Crawl-delay: 30

# Hix AI — 콘텐츠 생성 특화 AI

User-agent: Hix

Crawl-delay: 30

# ThinkAny — ChatGPT 기반 AI 플랫폼

User-agent: ThinkAny

Crawl-delay: 30

# Brave 검색 엔진 기반 AI 요약/검색

User-agent: Brave

Crawl-delay: 30

# Lilys — AI 추천 엔진/챗봇 추정

User-agent: Lilys

Crawl-delay: 30

# Sidetrade Indexer Bot — AI 영업 CRM 기반 크롤러

User-agent: Sidetrade Indexer Bot

Crawl-delay: 30

# Common Crawl 기반 AI 학습 봇

User-agent: CCBot

Crawl-delay: 30

# 추후 사용자 정의 AI 크롤러 등록용 placeholder

User-agent: AI-Bot-Name

Crawl-delay: 30

# ====================================

# 🧠 기타 주요 AI/웹 크롤러 (이전에 추가한 것 포함)

# ====================================

# Anthropic의 Claude 공식 크롤러

User-agent: ClaudeBot

Crawl-delay: 30

# Claude의 웹 전용 크롤러

User-agent: Claude-Web

Crawl-delay: 30

# Google의 AI 학습용 크롤러

User-agent: Google-Extended

Crawl-delay: 30

# Google 기타 Crawlers

User-agent: GoogleOther

Crawl-delay: 30

# Google Search Console 검사 도구 크롤러

User-agent: Google-InspectionTool

Crawl-delay: 30

# Google Cloud Vertex AI 크롤러

User-agent: Google-CloudVertexBot

Crawl-delay: 30

# DuckDuckGo의 AI 요약 지원 봇

User-agent: DuckAssistBot

Crawl-delay: 30

# 웹 페이지를 구조화된 데이터로 바꾸는 Diffbot

User-agent: Diffbot

Crawl-delay: 30

# Kagi 검색엔진의 고급 AI 요약 크롤러

User-agent: Teclis

Crawl-delay: 30

# ====================================

# 🔍 기타 불필요한 크롤러들 - 딜레이만

# ====================================

# 중국 검색엔진 Baidu - 국내 사이트엔 불필요

User-agent: Baiduspider

Crawl-delay: 300

# 📊 마케팅 분석/광고 관련 봇 - 과도한 트래픽 유발 가능

User-agent: BomboraBot

Crawl-delay: 300

User-agent: Buck

Crawl-delay: 300

User-agent: startmebot

Crawl-delay: 300

# ==============================

# ❌ 완전 차단이 필요한 크롤러

# ==============================

# 🦾 백링크 분석 툴들 - 모든 페이지 긁어감

User-agent: MJ12bot

Disallow: /

User-agent: AhrefsBot

Disallow: /

User-agent: SemrushBot

Disallow: /

# 🛑 중국/러시아/광고용 등 트래픽 & 정보 분석용 봇 차단

User-agent: PetalBot

Disallow: /

User-agent: MediaMathbot

Disallow: /

User-agent: Bidswitchbot

Disallow: /

User-agent: barkrowler

Disallow: /

User-agent: DataForSeoBot

Disallow: /

User-agent: DotBot

Disallow: /

User-agent: Bytespider

Disallow: /

User-agent: CensysInspect

Disallow: /

User-agent: rss2tg bot

Disallow: /

User-agent: proximic

Disallow: /

User-agent: Yandex

Disallow: /

User-agent: MauiBot

Disallow: /

User-agent: AspiegelBot

Disallow: /

Sitemap: https://사이트주소.com/sitemap_index.xml

robots.txt管理实用技巧

利用Google Search Console的robots.txt检测功能
服务器流量激增时，检查爬行日志并立即注册新爬虫
静态页面若被爬虫抓取也会导致服务器崩溃…请持续监控