什么是 robots.txt:人工智能爬虫没问题,阻止恶意机器人取决于 robots.txt 优化代码

你好。我是NoTaeGeun,除了这个博客外还运营着多个网站。公司官网、个人博客、外包制作的WordPress网站,全都运行在一台AWS Lightsail实例上。

虽然单实例运营能有效控制成本,

但缺点也很明显。无论是动态网站还是静态页面,所有内容都集中在单一服务器上……一旦流量激增?整个站点就会彻底瘫痪。(只要某个静态站点崩溃,公司官网+外包托管的网站都会跟着垮掉。)

因此我定期监测服务器流量,尤其花时间拦截"恶意机器人"

在WordPress中,通过基础的Wordfence插件配置+robots.txt恶意机器人拦截设置这两种组合,基本能实现服务器的稳定运行。

本文将分享关于robots.txt的知识,以及我根据实践经验优化后的robots.txt文件。

robots.txt是什么?(概念梳理)

robots.txt是与机器人进行沟通文件
用于与搜索引擎及AI机器人(爬虫)进行交互。爬虫(机器人)是指谷歌、Naver、GPT等AI程序在网站上进行爬取的程序。

通过robots.txt文件中的代码,我们可以区分需要共享的信息与需要隐藏的信息,告知爬虫哪些内容可以抓取、哪些内容不应抓取。

  • 示例:
    • 若需让网站出现在谷歌搜索结果中 👉 需允许机器人抓取内容
    • 但若连登录页面或管理后台都被抓取呢?❌ 需禁止抓取以防风险

因此我们通过robots.txt文件告知"这些内容可以抓取/这些内容禁止抓取"。

  • ❌ 若未设置robots.txt文件?
    • 网站流量浪费 + 安全风险
    • 多数机器人默认抓取所有页面
    • 恶意机器人同样会抓取内容,甚至可能扫描管理页面

robots.txt 文件位置?

robots.txt 该文件必须始终存放在域名根目录下

https://내사이트주소.com/robots.txt

访问上述地址时,机器人和用户均可查看robots.txt文件。

robots.txt基本语法说明表

语法含义示例说明
User-agent:指定目标机器人User-agent: *适用于所有机器人(爬虫)
(Googlebot、Bingbot等)
Disallow:设置禁止访问的路径Disallow: /private/禁止机器人(爬虫)抓取该路径
Allow:设置允许访问的路径Allow: /public/允许机器人(爬虫)抓取该路径
Sitemap:网站地图位置指定Sitemap: https://example.com/sitemap.xml引导网站结构,助力搜索引擎优化
  • User-agent: 指定指令
    对象示例: * = 所有用户, Googlebot = 仅限谷歌
  • Disallow: 禁止访问
    示例: /public
  • Allow: 允许访问的
    页面示例: /wp-admin/admin-ajax.php
  • sitemap: 网站结构图在此。
    用于告知搜索引擎网站地图

"User-agent:"
该语法用于指定"对象"。例如 User-agent: *若写成,则适用于谷歌爬虫、Naver爬虫等所有机器人。
若只想对特定机器人发出指令 User-agent: Googlebot 请这样写:

"Disallow:"
表示"禁止访问此路径!"的指令。例如 Disallow: /private/ 写成这样,机器人就 example.com/private/ 不会抓取以下内容。

"Allow:"
相反,"" 则表示"此处允许抓取!"的许可。主要用于 Disallow:当整个页面被屏蔽时,仅对部分内容例外开放时使用。

"Sitemap:" 这是
向搜索引擎宣告"本站结构图在此!"的标记。拥有站点地图文件能帮助搜索引擎更准确地理解网站结构,从而提升内容曝光度。

常用ROBOTS.TXT文件

1. 允许访问整个网站:所有机器人均可抓取!

User-agent: *
Disallow:

2. 全站禁止访问:绝对禁止访问,搜索引擎也无法收录。

User-agent: *
Disallow: /

3. 仅屏蔽特定爬虫(如AhrefsBot):因Ahrefs等反向链接扫描机器人会产生流量,故予以屏蔽

User-agent: AhrefsBot
Disallow: /

4. 仅禁止特定文件夹访问: /private/ 文件夹内部禁止访问

User-agent: *
Disallow: /private/

robots.txt无法实现"屏蔽人类访问"

robots.txt仅对机器人生效。用户通过浏览器直接访问仍可查看全部内容。

若需阻止人类访问

  • 可采用重定向至登录页面的方式
  • 引入会员认证系统
  • 在服务器端 User-Agent 进行验证

来阻止访问者进入主页,或将其引导至登录页面。

WordPress默认robots.txt文件

下方robots.txt代码是WordPress安装后自动生成的默认文件。

# 워드프레스 기본 설정
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-login.php
Allow: /wp-admin/admin-ajax.php

Sitemap: https://사이트주소.com/sitemap_index.xml

📌若仅使用WordPress默认robots.txt文件,可能因流量激增导致服务器崩溃(WordPress服务器崩溃原因多样,例如:使用低价主机、robots.txt配置问题、服务器冲突、插件冲突等)。

如今除传统搜索引擎爬虫外,AI爬虫正日益增多。

GPTBot、ClaudeBot、Applebot、Perplexity…其中既有值得欢迎的AI,也存在仅消耗流量却窃取内容的恶意爬虫

针对可利用的良性爬虫,我们已在robots.txt文件中做好规范配置。

AI爬虫控制+恶意爬虫拦截版本(2025.05.23)

我制作的robots.txt文件遵循以下原则:

项目设置方式目的
WordPress 基础安全Disallow设置登录页面屏蔽
AI爬虫爬行延迟允许正面曝光但控制访问速度
恶意机器人Disallow: /阻止流量/信息抓取
搜索引擎专用允许 + 网站地图保持SEO优化
  • 1. 允许AI爬虫访问,但需控制访问速度
    • GPTBot、Gemini、Applebot等 Crawl-delay: 30 设置
    • 允许抓取我们的内容,但请放慢速度
  • 2. 恶意机器人直接屏蔽
    • Ahrefs、Semrush、MJ12等反向链接分析机器人完全封禁
    • DataForSeoBot、barkrowler等身份不明的信息抓取机器人请出局
  • 3. 拦截俄罗斯/中国来源的可疑爬虫
    • Yandex、PetalBot、MauiBot等 Disallow: / 处理

robots.txt文件提供两种使用方式:可直接下载上传至根目录,或通过复制粘贴robots.txt代码实现。

robots.txt文件部署方式

🔹 方法1:直接下载robots.txt文件上传至根目录

🔹 方法二:复制粘贴下方代码

**워드프레스 Robots.txt 최적화 코드 ( ai bot + 악성 봇 차단)**

# ==  워드프레스==

User-agent: *

Disallow: /wp-admin/

Disallow: /wp-login.php

Allow: /wp-admin/admin-ajax.php

# ==============================================

# 🤖 AI & SEO 크롤러 제어 설정 - by 노퇴근

# GPTBot, Ahrefs, Baidu 등 트래픽 유발 크롤러 관리

# robots.txt v2025.05.23

# ==============================================

# 🧠 국내 AI 크롤러들

# ====================================

# 네이버의 클로바 AI 크롤러

User-agent: CLOVA

Crawl-delay: 30

# 카카오의 AI 및 검색용 크롤러

User-agent: KakaoBot

Crawl-delay: 30

# ====================================

# 🌎 글로벌 AI 크롤러들  - 허용하되 딜레이만 설정

# ====================================

# OpenAI의 ChatGPT용 크롤러 (공식)

User-agent: GPTBot

Crawl-delay: 30

# 구글의 Gemini (Bard) AI 관련 크롤러 (추정)

User-agent: Gemini

Crawl-delay: 30

# 마이크로소프트의 Copilot (VS Code 등 연동)

User-agent: Copilot

Crawl-delay: 30

# Anthropic Claude AI의 일반 User-agent (별도 공식 미확인)

User-agent: Claude

Crawl-delay: 30

# Perplexity AI의 검색형 LLM 봇

User-agent: Perplexity

Crawl-delay: 30

# ChatGPT와 연결된 일반 유저 요청 (비공식 User-agent 사용시)

User-agent: ChatGPT-User

Crawl-delay: 30

# ====================================

# 🍏 Apple & Microsoft AI 크롤러 - 허용하되 딜레이만 설정

# ====================================

# 🍏 Apple의 Siri/Spotlight용

User-agent: Applebot

Crawl-delay: 30

# Apple의 AI 학습용 확장 크롤러

User-agent: Applebot-Extended

Crawl-delay: 30

# Bing AI 기반 봇 (Copilot 연계)

User-agent: Bing AI

Crawl-delay: 30

# ====================================

# 🌐 글로벌 번역/검색/대화형 AI

# ====================================

# DeepL 번역 서비스 연동 크롤러

User-agent: DeepL

Crawl-delay: 30

# 캐릭터 기반 대화 AI 서비스 (Character.AI)

User-agent: Character.AI

Crawl-delay: 30

# Quora 기반 Poe AI 또는 관련 크롤러

User-agent: Quora

Crawl-delay: 30

# Microsoft의 실험적 대화형 모델 DialoGPT (추정 User-agent)

User-agent: DialoGPT

Crawl-delay: 30

# Otter.ai 회의 텍스트 전환 및 음성 분석 서비스

User-agent: Otter

Crawl-delay: 30

# 학생용 학습 Q&A AI 앱 Socratic (구글 소유)

User-agent: Socratic

Crawl-delay: 30

# ====================================

# ✍️ AI 콘텐츠 자동생성 툴들

# ====================================

# Writesonic (ChatGPT 대안급 AI 카피/에디터)

User-agent: Writesonic

Crawl-delay: 30

# CopyAI (스타트업 대상 카피라이팅 AI)

User-agent: CopyAI

Crawl-delay: 30

# Jasper (전문 마케팅/블로그 AI)

User-agent: Jasper

Crawl-delay: 30

# ELSA 스피킹/영어 말하기 코칭 AI

User-agent: ELSA

Crawl-delay: 30

# Codium (코드 자동화 AI) — Git 연동

User-agent: Codium

Crawl-delay: 30

# TabNine (VSCode 기반 코딩 AI)

User-agent: TabNine

Crawl-delay: 30

# Vaiv (국내 AI 스타트업, NLP 서비스)

User-agent: Vaiv

Crawl-delay: 30

# Bagoodex (출처 불명, 데이터 수집 크롤러 추정)

User-agent: Bagoodex

Crawl-delay: 30

# You.com의 YouChat AI 봇

User-agent: YouChat

Crawl-delay: 30

# 중국 기반 iAsk AI 검색/QA 봇

User-agent: iAsk

Crawl-delay: 30

# Komo.ai — 개인정보 중심 AI 검색

User-agent: Komo

Crawl-delay: 30

# Hix AI — 콘텐츠 생성 특화 AI

User-agent: Hix

Crawl-delay: 30

# ThinkAny — ChatGPT 기반 AI 플랫폼

User-agent: ThinkAny

Crawl-delay: 30

# Brave 검색 엔진 기반 AI 요약/검색

User-agent: Brave

Crawl-delay: 30

# Lilys — AI 추천 엔진/챗봇 추정

User-agent: Lilys

Crawl-delay: 30

# Sidetrade Indexer Bot — AI 영업 CRM 기반 크롤러

User-agent: Sidetrade Indexer Bot

Crawl-delay: 30

# Common Crawl 기반 AI 학습 봇

User-agent: CCBot

Crawl-delay: 30

# 추후 사용자 정의 AI 크롤러 등록용 placeholder

User-agent: AI-Bot-Name

Crawl-delay: 30

# ====================================

# 🧠 기타 주요 AI/웹 크롤러 (이전에 추가한 것 포함)

# ====================================

# Anthropic의 Claude 공식 크롤러

User-agent: ClaudeBot

Crawl-delay: 30

# Claude의 웹 전용 크롤러

User-agent: Claude-Web

Crawl-delay: 30

# Google의 AI 학습용 크롤러

User-agent: Google-Extended

Crawl-delay: 30

# Google 기타 Crawlers

User-agent: GoogleOther

Crawl-delay: 30

# Google Search Console 검사 도구 크롤러

User-agent: Google-InspectionTool

Crawl-delay: 30

# Google Cloud Vertex AI 크롤러

User-agent: Google-CloudVertexBot

Crawl-delay: 30

# DuckDuckGo의 AI 요약 지원 봇

User-agent: DuckAssistBot

Crawl-delay: 30

# 웹 페이지를 구조화된 데이터로 바꾸는 Diffbot

User-agent: Diffbot

Crawl-delay: 30

# Kagi 검색엔진의 고급 AI 요약 크롤러

User-agent: Teclis

Crawl-delay: 30

# ====================================

# 🔍 기타 불필요한 크롤러들 - 딜레이만

# ====================================

# 중국 검색엔진 Baidu - 국내 사이트엔 불필요

User-agent: Baiduspider

Crawl-delay: 300

# 📊 마케팅 분석/광고 관련 봇 - 과도한 트래픽 유발 가능

User-agent: BomboraBot

Crawl-delay: 300

User-agent: Buck

Crawl-delay: 300

User-agent: startmebot

Crawl-delay: 300

# ==============================

# ❌ 완전 차단이 필요한 크롤러

# ==============================

# 🦾 백링크 분석 툴들 - 모든 페이지 긁어감

User-agent: MJ12bot

Disallow: /

User-agent: AhrefsBot

Disallow: /

User-agent: SemrushBot

Disallow: /

# 🛑 중국/러시아/광고용 등 트래픽 & 정보 분석용 봇 차단

User-agent: PetalBot

Disallow: /

User-agent: MediaMathbot

Disallow: /

User-agent: Bidswitchbot

Disallow: /

User-agent: barkrowler

Disallow: /

User-agent: DataForSeoBot

Disallow: /

User-agent: DotBot

Disallow: /

User-agent: Bytespider

Disallow: /

User-agent: CensysInspect

Disallow: /

User-agent: rss2tg bot

Disallow: /

User-agent: proximic

Disallow: /

User-agent: Yandex

Disallow: /

User-agent: MauiBot

Disallow: /

User-agent: AspiegelBot

Disallow: /

Sitemap: https://사이트주소.com/sitemap_index.xml

robots.txt管理实用技巧

  • 利用Google Search Console的robots.txt检测功能
  • 服务器流量激增时,检查爬行日志并立即注册新爬虫
  • 静态页面若被爬虫抓取也会导致服务器崩溃…请持续监控

发表评论

목차