안녕하세요. 저는 이 블로그 외에도 다양한 사이트를 운영하고 있는 노퇴근입니다. 회사 홈페이지, 개인 블로그, 외주로 제작한 워드프레스 사이트까지 전부 AWS Lightsail 한 대의 인스턴스에서 돌리고 있어요.
이게 1개의 인스턴스로 운영하다보면 요금은 저렴하게 이용가능합니다,
하지만, 이게 단점도 있습니다. 동적 사이트든 정적 페이지든, 하나의 서버에 몰빵이라… 트래픽 몰리면? 사이트가 모두 올킬 되버리는 상황이 발생합니다.. (정적 사이트 하나 터지면, 회사 홈페이지 + 외주 제작하여 호스팅된 사이트까지 모두 무너지게 됩니다.)
그래서 저는 정기적으로 서버 트래픽을 체크하고, 특히 “악성 봇” 들을 차단하는데 시간을 쏟는 편 입니다.
워드프레스에서는 서버 트래픽을 막기위해서는 기본적으로 wordfence 플러그인 설정+ robots.txt 악성 봇 차단 설정 2가지 조합으로 어느정도 서버를 안정적으로 운영할 수 있습니다.
이 글에서는 robots.txt 에 관한 내용과 제가 그동안 겪으면서 최적화한 robots.txt 파일을 공유하고자 합니다.
robots.txt란? (개념 정리)
robots.txt 는 로봇들과의 소통 파일입니다.
검색엔진과, ai 로봇(크롤러)들과의 소통을 하는 파일입니다. 크롤러(로봇)란 구글, 네이버, GPT 같은 AI들이 웹사이트를 훑어가는 프로그램입니다.
robots.txt 파일안에 코드를 이용해서 우리가 공유하고 싶은 정보와 공유하고싶지 않은 정보를 구분해서 긁어갈지, 긁어가지 말아야할지 알려주는 용도 입니다.
- 예시:
- 구글 검색 결과에 홈페이지를 나오게 하려면 👉 로봇이 내 글을 읽어가야 함
- 근데 로그인 페이지나 관리자 화면까지 긁어간다면? ❌ 위험해서 긁어가지 말게 해야함
그래서 우리는 robots.txt라는 파일로 “이건 긁어가도 돼 / 이건 긁어 가지마” 를 알려주는 파일 입니다.
- ❌ robots.txt가 없다면?
- 사이트 트래픽 낭비 + 보안 위험
- 대부분의 로봇은 기본적으로 모든 페이지를 긁어갑니다
- 악성 봇도 긁어가고, 관리자 페이지도 스캔할 수 있어요
robots.txt
파일 위치는?
robots.txt
파일은 항상 도메인 루트 경로에 있어야 해요.
https://내사이트주소.com/robots.txt
위의 주소로 접속하면 robots.txt 파일을 봇도 확인할 수 있고, 사람도 확인할 수 있습니다.
robots.txt 기본 구문 설명 표
구문 | 의미 | 예시 | 설명 |
---|---|---|---|
User-agent: | 대상 로봇을 지정 | User-agent: * | 모든 로봇(크롤러) (Googlebot, Bingbot 등)에 적용 |
Disallow: | 접근 금지 경로 설정 | Disallow: /private/ | 로봇(크롤러)가 해당 경로를 긁지 못하게 함 |
Allow: | 접근 허용 경로 설정 | Allow: /public/ | 로봇(크롤러)가 해당 경로는 긁어가도 되게 허용 |
Sitemap: | 사이트맵 위치 지정 | Sitemap: https://example.com/sitemap.xml | 사이트 구조를 안내해 검색엔진 최적화 도움 |
- User-agent: 누구에게 말하는지
예:*
= 모두,Googlebot
= 구글 전용 - Disallow: 이건 보지 마
예:/public
- Allow: 이건 봐도 돼
예:/wp-admin/admin-ajax.php
- sitemap: 사이트 구조도는 여기 있어요.
검색엔진에게 사이트맵을 알려주는 용도
“User-agent:
“
이 구문은 “누구한테 말하는지” 알려주는 거예요. 예를 들어 User-agent: *
라고 하면, 구글봇이든 네이버봇이든 모든 로봇에게 적용됩니다.
특정 봇에게만 말하고 싶다면 User-agent: Googlebot
처럼 적어줘요.
“Disallow:
“
이건 “이 경로는 보지 마!” 라고 금지하는 명령이에요.예를 들어 Disallow: /private/
라고 쓰면, 로봇은 example.com/private/
아래의 콘텐츠를 읽지 않게 됩니다.
“Allow:
“
반대로 이건 “여긴 긁어가도 돼!” 라는 허락이에요. 주로 Disallow:
로 전체를 막아놓고, 그 안에서 일부만 예외적으로 열어줄 때 사용합니다.
“Sitemap:
“
검색 엔진한테 “우리 집 구조도 여기 있어요!” 하고 알려주는 거예요. 사이트맵 파일이 있으면 검색엔진이 내 사이트를 더 잘 파악하고 더 많이 노출시켜 줄 수 있어요.
자주 쓰는 ROBOTS.TXT 파일
1. 사이트 전체 접근 허용 : 모든 로봇에게 전부 긁어가도 OK!
User-agent: *
Disallow:
2. 사이트 전체 접근 금지 : 절대 접근 불가. 검색엔진에도 노출 안 됨.
User-agent: *
Disallow: /
3. 특정 크롤러만 차단 (예: AhrefsBot) : Ahrefs처럼 백링크 스캔 봇은 트래픽 발생시키니 차단
User-agent: AhrefsBot
Disallow: /
4. 특정 폴더만 금지 : /private/
폴더 안은 접근 금지
User-agent: *
Disallow: /private/
robots.txt로 “사람 차단”은 불가
robots.txt는 로봇에게만 적용됩니다. 사람이 브라우저로 직접 접속하면 다 보입니다.
사람을 막고 싶다면
- 로그인 페이지로 리디렉션 하는 방법
- 회원 인증 시스템을 도입하는 방법
- 서버에서
User-Agent
체크하는 방법
을 이용하여 홈페리지에 사람을 차단 하거나, 로그인 페이지로 이동시킬 수 있습니다.
워드프레스 기본 robots.txt
아래 robots.txt 코드는 워드프레스 설치하면 자동으로 작성되는 기본 robots.txt 파일입니다.
# 워드프레스 기본 설정
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-login.php
Allow: /wp-admin/admin-ajax.php
Sitemap: https://사이트주소.com/sitemap_index.xml
📌워드프레스 기본 robotst.txt 파일로 설정 해둔다면 트래픽 증가로 인해 서버 다운 현상 겪는 경우가 발생합니다. (워드프레스 기준 서버 다운 현상은 여러가지가 있음. 예 : 저렴한 호스팅 사용, robots.txt , 서버충돌, 플러그인 충돌 등)
요즘은 단순한 검색엔진 크롤러 말고도 AI 크롤러가 점점 많아지고 있습니다.
GPTBot, ClaudeBot, Applebot, Perplexity… 그 중에는 우리가 반길 만한 AI도 있지만, 트래픽만 발생시키면서 나의 콘텐츠를 긁어가는 악성 봇도 존재합니다.
악성 bot 외에 활용 가능한 bot 일경우 robots.txt 파일에 잘 긁어 갈 수 잇도록 정리해두었습니다.
AI 크롤러 제어 + 악성 봇 차단 버전 (2025.05.23)
제가 만든 robots.txt 파일은 다음과 같은 원칙을 따릅니다.
항목 | 설정 방식 | 목적 |
---|---|---|
워드프레스 기본 보안 | Disallow 설정 | 로그인 페이지 차단 |
AI 크롤러 | Crawl-delay | 긍정적 노출은 허용하되 속도 제어 |
악성 봇 | Disallow: / | 트래픽/정보 긁기 차단 |
검색엔진용 | Allow + Sitemap | SEO 최적화 유지 |
- 1. AI 크롤러는 허용하되, 속도 조절
- GPTBot, Gemini, Applebot 등은
Crawl-delay: 30
설정 - 우리 콘텐츠를 긁되 천천히 와라
- GPTBot, Gemini, Applebot 등은
- 2. 악성 봇은 그냥 차단
- Ahrefs, Semrush, MJ12 등 백링크 분석봇 완전 차단
- DataForSeoBot, barkrowler 등 정체불명의 정보 긁는 봇 OUT
- 3. 러시아/중국 기반 의심 크롤러 차단
- Yandex, PetalBot, MauiBot 등은
Disallow: /
처리
- Yandex, PetalBot, MauiBot 등은
robots.txt 파일 2가지 방식으로 사용할 수 있습니다. 다운로드하여 바로 루트폴더에 업로드할 수 있는 방식이거나, robots.txt 코드를 복사 붙여넣기할 수 있도록 2가지 방식으로 작성 되었습니다.
robots.txt 파일 배포 방법
🔹 방법 1: robots.txt 파일 직접 다운로드해서 루트에 업로드
🔹 방법 2: 아래 코드를 복사 + 붙여넣기
**워드프레스 Robots.txt 최적화 코드 ( ai bot + 악성 봇 차단)**
# == 워드프레스==
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-login.php
Allow: /wp-admin/admin-ajax.php
# ==============================================
# 🤖 AI & SEO 크롤러 제어 설정 - by 노퇴근
# GPTBot, Ahrefs, Baidu 등 트래픽 유발 크롤러 관리
# robots.txt v2025.05.23
# ==============================================
# 🧠 국내 AI 크롤러들
# ====================================
# 네이버의 클로바 AI 크롤러
User-agent: CLOVA
Crawl-delay: 30
# 카카오의 AI 및 검색용 크롤러
User-agent: KakaoBot
Crawl-delay: 30
# ====================================
# 🌎 글로벌 AI 크롤러들 - 허용하되 딜레이만 설정
# ====================================
# OpenAI의 ChatGPT용 크롤러 (공식)
User-agent: GPTBot
Crawl-delay: 30
# 구글의 Gemini (Bard) AI 관련 크롤러 (추정)
User-agent: Gemini
Crawl-delay: 30
# 마이크로소프트의 Copilot (VS Code 등 연동)
User-agent: Copilot
Crawl-delay: 30
# Anthropic Claude AI의 일반 User-agent (별도 공식 미확인)
User-agent: Claude
Crawl-delay: 30
# Perplexity AI의 검색형 LLM 봇
User-agent: Perplexity
Crawl-delay: 30
# ChatGPT와 연결된 일반 유저 요청 (비공식 User-agent 사용시)
User-agent: ChatGPT-User
Crawl-delay: 30
# ====================================
# 🍏 Apple & Microsoft AI 크롤러 - 허용하되 딜레이만 설정
# ====================================
# 🍏 Apple의 Siri/Spotlight용
User-agent: Applebot
Crawl-delay: 30
# Apple의 AI 학습용 확장 크롤러
User-agent: Applebot-Extended
Crawl-delay: 30
# Bing AI 기반 봇 (Copilot 연계)
User-agent: Bing AI
Crawl-delay: 30
# ====================================
# 🌐 글로벌 번역/검색/대화형 AI
# ====================================
# DeepL 번역 서비스 연동 크롤러
User-agent: DeepL
Crawl-delay: 30
# 캐릭터 기반 대화 AI 서비스 (Character.AI)
User-agent: Character.AI
Crawl-delay: 30
# Quora 기반 Poe AI 또는 관련 크롤러
User-agent: Quora
Crawl-delay: 30
# Microsoft의 실험적 대화형 모델 DialoGPT (추정 User-agent)
User-agent: DialoGPT
Crawl-delay: 30
# Otter.ai 회의 텍스트 전환 및 음성 분석 서비스
User-agent: Otter
Crawl-delay: 30
# 학생용 학습 Q&A AI 앱 Socratic (구글 소유)
User-agent: Socratic
Crawl-delay: 30
# ====================================
# ✍️ AI 콘텐츠 자동생성 툴들
# ====================================
# Writesonic (ChatGPT 대안급 AI 카피/에디터)
User-agent: Writesonic
Crawl-delay: 30
# CopyAI (스타트업 대상 카피라이팅 AI)
User-agent: CopyAI
Crawl-delay: 30
# Jasper (전문 마케팅/블로그 AI)
User-agent: Jasper
Crawl-delay: 30
# ELSA 스피킹/영어 말하기 코칭 AI
User-agent: ELSA
Crawl-delay: 30
# Codium (코드 자동화 AI) — Git 연동
User-agent: Codium
Crawl-delay: 30
# TabNine (VSCode 기반 코딩 AI)
User-agent: TabNine
Crawl-delay: 30
# Vaiv (국내 AI 스타트업, NLP 서비스)
User-agent: Vaiv
Crawl-delay: 30
# Bagoodex (출처 불명, 데이터 수집 크롤러 추정)
User-agent: Bagoodex
Crawl-delay: 30
# You.com의 YouChat AI 봇
User-agent: YouChat
Crawl-delay: 30
# 중국 기반 iAsk AI 검색/QA 봇
User-agent: iAsk
Crawl-delay: 30
# Komo.ai — 개인정보 중심 AI 검색
User-agent: Komo
Crawl-delay: 30
# Hix AI — 콘텐츠 생성 특화 AI
User-agent: Hix
Crawl-delay: 30
# ThinkAny — ChatGPT 기반 AI 플랫폼
User-agent: ThinkAny
Crawl-delay: 30
# Brave 검색 엔진 기반 AI 요약/검색
User-agent: Brave
Crawl-delay: 30
# Lilys — AI 추천 엔진/챗봇 추정
User-agent: Lilys
Crawl-delay: 30
# Sidetrade Indexer Bot — AI 영업 CRM 기반 크롤러
User-agent: Sidetrade Indexer Bot
Crawl-delay: 30
# Common Crawl 기반 AI 학습 봇
User-agent: CCBot
Crawl-delay: 30
# 추후 사용자 정의 AI 크롤러 등록용 placeholder
User-agent: AI-Bot-Name
Crawl-delay: 30
# ====================================
# 🧠 기타 주요 AI/웹 크롤러 (이전에 추가한 것 포함)
# ====================================
# Anthropic의 Claude 공식 크롤러
User-agent: ClaudeBot
Crawl-delay: 30
# Claude의 웹 전용 크롤러
User-agent: Claude-Web
Crawl-delay: 30
# Google의 AI 학습용 크롤러
User-agent: Google-Extended
Crawl-delay: 30
# Google 기타 Crawlers
User-agent: GoogleOther
Crawl-delay: 30
# Google Search Console 검사 도구 크롤러
User-agent: Google-InspectionTool
Crawl-delay: 30
# Google Cloud Vertex AI 크롤러
User-agent: Google-CloudVertexBot
Crawl-delay: 30
# DuckDuckGo의 AI 요약 지원 봇
User-agent: DuckAssistBot
Crawl-delay: 30
# 웹 페이지를 구조화된 데이터로 바꾸는 Diffbot
User-agent: Diffbot
Crawl-delay: 30
# Kagi 검색엔진의 고급 AI 요약 크롤러
User-agent: Teclis
Crawl-delay: 30
# ====================================
# 🔍 기타 불필요한 크롤러들 - 딜레이만
# ====================================
# 중국 검색엔진 Baidu - 국내 사이트엔 불필요
User-agent: Baiduspider
Crawl-delay: 300
# 📊 마케팅 분석/광고 관련 봇 - 과도한 트래픽 유발 가능
User-agent: BomboraBot
Crawl-delay: 300
User-agent: Buck
Crawl-delay: 300
User-agent: startmebot
Crawl-delay: 300
# ==============================
# ❌ 완전 차단이 필요한 크롤러
# ==============================
# 🦾 백링크 분석 툴들 - 모든 페이지 긁어감
User-agent: MJ12bot
Disallow: /
User-agent: AhrefsBot
Disallow: /
User-agent: SemrushBot
Disallow: /
# 🛑 중국/러시아/광고용 등 트래픽 & 정보 분석용 봇 차단
User-agent: PetalBot
Disallow: /
User-agent: MediaMathbot
Disallow: /
User-agent: Bidswitchbot
Disallow: /
User-agent: barkrowler
Disallow: /
User-agent: DataForSeoBot
Disallow: /
User-agent: DotBot
Disallow: /
User-agent: Bytespider
Disallow: /
User-agent: CensysInspect
Disallow: /
User-agent: rss2tg bot
Disallow: /
User-agent: proximic
Disallow: /
User-agent: Yandex
Disallow: /
User-agent: MauiBot
Disallow: /
User-agent: AspiegelBot
Disallow: /
Sitemap: https://사이트주소.com/sitemap_index.xml
robots.txt 관리 꿀팁
- Google Search Console에서 robots.txt 검사 기능 활용하기
- 서버 트래픽 급증 시, 크롤링 로그 확인하고 신규 봇 즉시 등록
- 정적 페이지도 bot이 긁어가면 서버 죽는다… 늘 감시하자