robots.txt 생성기
크롤러 허용·차단 규칙과 사이트맵을 담은 robots.txt를 생성합니다.
robots.txt는 사이트 루트(/robots.txt)에 두는 평문 파일로, 검색엔진 크롤러가 어느 경로를 크롤링해도 되는지 안내합니다. 이 생성기는 User-agent, Allow/Disallow 규칙, Crawl-delay, 여러 개의 Sitemap을 입력하면 표준 형식의 robots.txt를 즉시 만들어 줍니다.
모두 허용, 모두 차단, 워드프레스 기본 같은 프리셋으로 시작한 뒤 경로를 더하거나 빼며 다듬을 수 있습니다. 입력값은 브라우저에서만 처리되며 서버로 전송되지 않습니다.
User-agent: * Disallow:
robots.txt는 크롤링 제어이지 색인 차단이 아니다
가장 흔한 오해는 Disallow가 페이지를 검색 결과에서 빼준다는 것입니다. 실제로는 그렇지 않습니다.robots.txt는 크롤러가 URL을 가져오지(crawl) 못하게 막을 뿐, 색인 자체를 막지는 않습니다. 외부에 그 URL로 향하는 링크가 많으면 구글은 본문을 읽지 않고도 URL을 색인해 "이 페이지에 대한 정보를 사용할 수 없음" 형태로 검색 결과에 노출할 수 있습니다.
페이지를 검색 결과에서 확실히 빼고 싶다면 robots.txt가 아니라 페이지 자체에noindex를 써야 합니다(메타 태그 <meta name="robots" content="noindex"> 또는 HTTP 헤더 X-Robots-Tag: noindex). 단, 크롤러가 noindex를 보려면 그 페이지를 크롤링할 수 있어야 하므로, 같은 URL을 robots.txt로 막으면서 동시에 noindex를 거는 것은 모순입니다.
지시문 빠른 정리
- User-agent: 규칙을 적용할 크롤러.
*는 모든 봇,Googlebot은 구글만. - Disallow: 크롤링을 막을 경로.
/admin/처럼 접두사로 매칭됩니다. 값이 비면 전체 허용. - Allow: Disallow로 막은 영역 안에서 예외적으로 허용할 경로. 더 구체적인 규칙이 우선합니다.
- Crawl-delay: 요청 간 대기 초. 구글은 무시하고 Bing·Yandex 등 일부만 따릅니다.
- Sitemap: 사이트맵의 절대 URL. 여러 줄로 여러 개를 넣을 수 있습니다.
흔한 실수
- 전체 사이트를 실수로
Disallow: /로 막아 색인이 통째로 빠지는 경우 — 배포 후 반드시 확인하세요. - CSS·JS를 막아 구글이 페이지를 제대로 렌더링하지 못하는 경우. 정적 자원은 막지 마세요.
- 경로 앞 슬래시 누락 또는 대소문자 혼동. 경로는 대소문자를 구분하며 항상
/로 시작합니다.
배포 후에는 robots.txt 점검으로 실제 사이트에 올라간 robots.txt가 의도대로 동작하는지, 사이트맵 검증기로 선언한 사이트맵이 정상인지 확인하세요.