你好。我是NoTaeGeun,除了这个博客外还运营着多个网站。公司官网、个人博客、外包制作的WordPress网站,全都运行在一台AWS Lightsail实例上。
虽然单实例运营能有效控制成本,
但缺点也很明显。无论是动态网站还是静态页面,所有内容都集中在单一服务器上……一旦流量激增?整个站点就会彻底瘫痪。(只要某个静态站点崩溃,公司官网+外包托管的网站都会跟着垮掉。)

因此我定期监测服务器流量,尤其花时间拦截"恶意机器人"。
在WordPress中,通过基础的Wordfence插件配置+robots.txt恶意机器人拦截设置这两种组合,基本能实现服务器的稳定运行。
本文将分享关于robots.txt的知识,以及我根据实践经验优化后的robots.txt文件。
robots.txt是什么?(概念梳理)
robots.txt是与机器人进行沟通的文件,
用于与搜索引擎及AI机器人(爬虫)进行交互。爬虫(机器人)是指谷歌、Naver、GPT等AI程序在网站上进行爬取的程序。
通过robots.txt文件中的代码,我们可以区分需要共享的信息与需要隐藏的信息,告知爬虫哪些内容可以抓取、哪些内容不应抓取。
-
示例:
- 若需让网站出现在谷歌搜索结果中 👉 需允许机器人抓取内容
- 但若连登录页面或管理后台都被抓取呢?❌ 需禁止抓取以防风险
因此我们通过robots.txt文件告知"这些内容可以抓取/这些内容禁止抓取"。
-
❌ 若未设置robots.txt文件?
- 网站流量浪费 + 安全风险
- 多数机器人默认抓取所有页面
- 恶意机器人同样会抓取内容,甚至可能扫描管理页面
robots.txt 文件位置?
robots.txt 该文件必须始终存放在域名根目录下。
https://내사이트주소.com/robots.txt
访问上述地址时,机器人和用户均可查看robots.txt文件。
robots.txt基本语法说明表
| 语法 | 含义 | 示例 | 说明 |
|---|---|---|---|
User-agent: | 指定目标机器人 | User-agent: * | 适用于所有机器人(爬虫) (Googlebot、Bingbot等) |
Disallow: | 设置禁止访问的路径 | Disallow: /private/ | 禁止机器人(爬虫)抓取该路径 |
Allow: | 设置允许访问的路径 | Allow: /public/ | 允许机器人(爬虫)抓取该路径 |
Sitemap: | 网站地图位置指定 | Sitemap: https://example.com/sitemap.xml | 引导网站结构,助力搜索引擎优化 |
- User-agent: 指定指令
对象示例:*= 所有用户,Googlebot= 仅限谷歌 - Disallow: 禁止访问
示例:/public - Allow: 允许访问的
页面示例:/wp-admin/admin-ajax.php - sitemap: 网站结构图在此。
用于告知搜索引擎网站地图
"User-agent:"
该语法用于指定"对象"。例如 User-agent: *若写成,则适用于谷歌爬虫、Naver爬虫等所有机器人。
若只想对特定机器人发出指令 User-agent: Googlebot 请这样写:
"Disallow:"
表示"禁止访问此路径!"的指令。例如 Disallow: /private/ 写成这样,机器人就 example.com/private/ 不会抓取以下内容。
"Allow:"
相反,"" 则表示"此处允许抓取!"的许可。主要用于 Disallow:当整个页面被屏蔽时,仅对部分内容例外开放时使用。
"Sitemap:" 这是
向搜索引擎宣告"本站结构图在此!"的标记。拥有站点地图文件能帮助搜索引擎更准确地理解网站结构,从而提升内容曝光度。
常用ROBOTS.TXT文件
1. 允许访问整个网站:所有机器人均可抓取!
User-agent: *
Disallow:
2. 全站禁止访问:绝对禁止访问,搜索引擎也无法收录。
User-agent: *
Disallow: /
3. 仅屏蔽特定爬虫(如AhrefsBot):因Ahrefs等反向链接扫描机器人会产生流量,故予以屏蔽
User-agent: AhrefsBot
Disallow: /
4. 仅禁止特定文件夹访问: /private/ 文件夹内部禁止访问
User-agent: *
Disallow: /private/
robots.txt无法实现"屏蔽人类访问"
robots.txt仅对机器人生效。用户通过浏览器直接访问仍可查看全部内容。
若需阻止人类访问
- 可采用重定向至登录页面的方式
- 引入会员认证系统
- 在服务器端
User-Agent进行验证
来阻止访问者进入主页,或将其引导至登录页面。
WordPress默认robots.txt文件
下方robots.txt代码是WordPress安装后自动生成的默认文件。
# 워드프레스 기본 설정
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-login.php
Allow: /wp-admin/admin-ajax.php
Sitemap: https://사이트주소.com/sitemap_index.xml
📌若仅使用WordPress默认robots.txt文件,可能因流量激增导致服务器崩溃(WordPress服务器崩溃原因多样,例如:使用低价主机、robots.txt配置问题、服务器冲突、插件冲突等)。
如今除传统搜索引擎爬虫外,AI爬虫正日益增多。
GPTBot、ClaudeBot、Applebot、Perplexity…其中既有值得欢迎的AI,也存在仅消耗流量却窃取内容的恶意爬虫。
针对可利用的良性爬虫,我们已在robots.txt文件中做好规范配置。
AI爬虫控制+恶意爬虫拦截版本(2025.05.23)
我制作的robots.txt文件遵循以下原则:
| 项目 | 设置方式 | 目的 |
|---|---|---|
| WordPress 基础安全 | Disallow设置 | 登录页面屏蔽 |
| AI爬虫 | 爬行延迟 | 允许正面曝光但控制访问速度 |
| 恶意机器人 | Disallow: / | 阻止流量/信息抓取 |
| 搜索引擎专用 | 允许 + 网站地图 | 保持SEO优化 |
-
1. 允许AI爬虫访问,但需控制访问速度
- GPTBot、Gemini、Applebot等
Crawl-delay: 30设置 - 允许抓取我们的内容,但请放慢速度
- GPTBot、Gemini、Applebot等
-
2. 恶意机器人直接屏蔽
- Ahrefs、Semrush、MJ12等反向链接分析机器人完全封禁
- DataForSeoBot、barkrowler等身份不明的信息抓取机器人请出局
-
3. 拦截俄罗斯/中国来源的可疑爬虫
- Yandex、PetalBot、MauiBot等
Disallow: /处理
- Yandex、PetalBot、MauiBot等
robots.txt文件提供两种使用方式:可直接下载上传至根目录,或通过复制粘贴robots.txt代码实现。
robots.txt文件部署方式
🔹 方法1:直接下载robots.txt文件上传至根目录
🔹 方法二:复制粘贴下方代码
**워드프레스 Robots.txt 최적화 코드 ( ai bot + 악성 봇 차단)**
# == 워드프레스==
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-login.php
Allow: /wp-admin/admin-ajax.php
# ==============================================
# 🤖 AI & SEO 크롤러 제어 설정 - by 노퇴근
# GPTBot, Ahrefs, Baidu 등 트래픽 유발 크롤러 관리
# robots.txt v2025.05.23
# ==============================================
# 🧠 국내 AI 크롤러들
# ====================================
# 네이버의 클로바 AI 크롤러
User-agent: CLOVA
Crawl-delay: 30
# 카카오의 AI 및 검색용 크롤러
User-agent: KakaoBot
Crawl-delay: 30
# ====================================
# 🌎 글로벌 AI 크롤러들 - 허용하되 딜레이만 설정
# ====================================
# OpenAI의 ChatGPT용 크롤러 (공식)
User-agent: GPTBot
Crawl-delay: 30
# 구글의 Gemini (Bard) AI 관련 크롤러 (추정)
User-agent: Gemini
Crawl-delay: 30
# 마이크로소프트의 Copilot (VS Code 등 연동)
User-agent: Copilot
Crawl-delay: 30
# Anthropic Claude AI의 일반 User-agent (별도 공식 미확인)
User-agent: Claude
Crawl-delay: 30
# Perplexity AI의 검색형 LLM 봇
User-agent: Perplexity
Crawl-delay: 30
# ChatGPT와 연결된 일반 유저 요청 (비공식 User-agent 사용시)
User-agent: ChatGPT-User
Crawl-delay: 30
# ====================================
# 🍏 Apple & Microsoft AI 크롤러 - 허용하되 딜레이만 설정
# ====================================
# 🍏 Apple의 Siri/Spotlight용
User-agent: Applebot
Crawl-delay: 30
# Apple의 AI 학습용 확장 크롤러
User-agent: Applebot-Extended
Crawl-delay: 30
# Bing AI 기반 봇 (Copilot 연계)
User-agent: Bing AI
Crawl-delay: 30
# ====================================
# 🌐 글로벌 번역/검색/대화형 AI
# ====================================
# DeepL 번역 서비스 연동 크롤러
User-agent: DeepL
Crawl-delay: 30
# 캐릭터 기반 대화 AI 서비스 (Character.AI)
User-agent: Character.AI
Crawl-delay: 30
# Quora 기반 Poe AI 또는 관련 크롤러
User-agent: Quora
Crawl-delay: 30
# Microsoft의 실험적 대화형 모델 DialoGPT (추정 User-agent)
User-agent: DialoGPT
Crawl-delay: 30
# Otter.ai 회의 텍스트 전환 및 음성 분석 서비스
User-agent: Otter
Crawl-delay: 30
# 학생용 학습 Q&A AI 앱 Socratic (구글 소유)
User-agent: Socratic
Crawl-delay: 30
# ====================================
# ✍️ AI 콘텐츠 자동생성 툴들
# ====================================
# Writesonic (ChatGPT 대안급 AI 카피/에디터)
User-agent: Writesonic
Crawl-delay: 30
# CopyAI (스타트업 대상 카피라이팅 AI)
User-agent: CopyAI
Crawl-delay: 30
# Jasper (전문 마케팅/블로그 AI)
User-agent: Jasper
Crawl-delay: 30
# ELSA 스피킹/영어 말하기 코칭 AI
User-agent: ELSA
Crawl-delay: 30
# Codium (코드 자동화 AI) — Git 연동
User-agent: Codium
Crawl-delay: 30
# TabNine (VSCode 기반 코딩 AI)
User-agent: TabNine
Crawl-delay: 30
# Vaiv (국내 AI 스타트업, NLP 서비스)
User-agent: Vaiv
Crawl-delay: 30
# Bagoodex (출처 불명, 데이터 수집 크롤러 추정)
User-agent: Bagoodex
Crawl-delay: 30
# You.com의 YouChat AI 봇
User-agent: YouChat
Crawl-delay: 30
# 중국 기반 iAsk AI 검색/QA 봇
User-agent: iAsk
Crawl-delay: 30
# Komo.ai — 개인정보 중심 AI 검색
User-agent: Komo
Crawl-delay: 30
# Hix AI — 콘텐츠 생성 특화 AI
User-agent: Hix
Crawl-delay: 30
# ThinkAny — ChatGPT 기반 AI 플랫폼
User-agent: ThinkAny
Crawl-delay: 30
# Brave 검색 엔진 기반 AI 요약/검색
User-agent: Brave
Crawl-delay: 30
# Lilys — AI 추천 엔진/챗봇 추정
User-agent: Lilys
Crawl-delay: 30
# Sidetrade Indexer Bot — AI 영업 CRM 기반 크롤러
User-agent: Sidetrade Indexer Bot
Crawl-delay: 30
# Common Crawl 기반 AI 학습 봇
User-agent: CCBot
Crawl-delay: 30
# 추후 사용자 정의 AI 크롤러 등록용 placeholder
User-agent: AI-Bot-Name
Crawl-delay: 30
# ====================================
# 🧠 기타 주요 AI/웹 크롤러 (이전에 추가한 것 포함)
# ====================================
# Anthropic의 Claude 공식 크롤러
User-agent: ClaudeBot
Crawl-delay: 30
# Claude의 웹 전용 크롤러
User-agent: Claude-Web
Crawl-delay: 30
# Google의 AI 학습용 크롤러
User-agent: Google-Extended
Crawl-delay: 30
# Google 기타 Crawlers
User-agent: GoogleOther
Crawl-delay: 30
# Google Search Console 검사 도구 크롤러
User-agent: Google-InspectionTool
Crawl-delay: 30
# Google Cloud Vertex AI 크롤러
User-agent: Google-CloudVertexBot
Crawl-delay: 30
# DuckDuckGo의 AI 요약 지원 봇
User-agent: DuckAssistBot
Crawl-delay: 30
# 웹 페이지를 구조화된 데이터로 바꾸는 Diffbot
User-agent: Diffbot
Crawl-delay: 30
# Kagi 검색엔진의 고급 AI 요약 크롤러
User-agent: Teclis
Crawl-delay: 30
# ====================================
# 🔍 기타 불필요한 크롤러들 - 딜레이만
# ====================================
# 중국 검색엔진 Baidu - 국내 사이트엔 불필요
User-agent: Baiduspider
Crawl-delay: 300
# 📊 마케팅 분석/광고 관련 봇 - 과도한 트래픽 유발 가능
User-agent: BomboraBot
Crawl-delay: 300
User-agent: Buck
Crawl-delay: 300
User-agent: startmebot
Crawl-delay: 300
# ==============================
# ❌ 완전 차단이 필요한 크롤러
# ==============================
# 🦾 백링크 분석 툴들 - 모든 페이지 긁어감
User-agent: MJ12bot
Disallow: /
User-agent: AhrefsBot
Disallow: /
User-agent: SemrushBot
Disallow: /
# 🛑 중국/러시아/광고용 등 트래픽 & 정보 분석용 봇 차단
User-agent: PetalBot
Disallow: /
User-agent: MediaMathbot
Disallow: /
User-agent: Bidswitchbot
Disallow: /
User-agent: barkrowler
Disallow: /
User-agent: DataForSeoBot
Disallow: /
User-agent: DotBot
Disallow: /
User-agent: Bytespider
Disallow: /
User-agent: CensysInspect
Disallow: /
User-agent: rss2tg bot
Disallow: /
User-agent: proximic
Disallow: /
User-agent: Yandex
Disallow: /
User-agent: MauiBot
Disallow: /
User-agent: AspiegelBot
Disallow: /
Sitemap: https://사이트주소.com/sitemap_index.xml
robots.txt管理实用技巧
- 利用Google Search Console的robots.txt检测功能
- 服务器流量激增时,检查爬行日志并立即注册新爬虫
- 静态页面若被爬虫抓取也会导致服务器崩溃…请持续监控
