robots.txt 생성기

크롤러 허용·차단 규칙과 사이트맵을 담은 robots.txt를 생성합니다.

robots.txt는 사이트 루트(/robots.txt)에 두는 평문 파일로, 검색엔진 크롤러가 어느 경로를 크롤링해도 되는지 안내합니다. 이 생성기는 User-agent, Allow/Disallow 규칙, Crawl-delay, 여러 개의 Sitemap을 입력하면 표준 형식의 robots.txt를 즉시 만들어 줍니다.

모두 허용, 모두 차단, 워드프레스 기본 같은 프리셋으로 시작한 뒤 경로를 더하거나 빼며 다듬을 수 있습니다. 입력값은 브라우저에서만 처리되며 서버로 전송되지 않습니다.

프리셋

User-agent규칙을 적용할 크롤러. 모든 봇에 적용하려면 *(별표)를 사용하세요. 예: Googlebot, Bingbot.

Allow / Disallow 규칙

경로는 슬래시(/)로 시작합니다. Disallow 값이 비어 있으면 '모두 허용'을 뜻합니다.

Crawl-delay (선택)요청 사이 대기 초. 구글은 무시하며 Bing/Yandex 등 일부만 따릅니다. 비워두면 출력에서 제외됩니다.

Sitemap URL (여러 개 가능)

절대 URL을 한 줄에 하나씩 입력하세요. 예: https://example.com/sitemap.xml

생성된 robots.txt

User-agent: *
Disallow:

robots.txt는 크롤링 제어이지 색인 차단이 아니다

가장 흔한 오해는 Disallow가 페이지를 검색 결과에서 빼준다는 것입니다. 실제로는 그렇지 않습니다.robots.txt는 크롤러가 URL을 가져오지(crawl) 못하게 막을 뿐, 색인 자체를 막지는 않습니다. 외부에 그 URL로 향하는 링크가 많으면 구글은 본문을 읽지 않고도 URL을 색인해 "이 페이지에 대한 정보를 사용할 수 없음" 형태로 검색 결과에 노출할 수 있습니다.

페이지를 검색 결과에서 확실히 빼고 싶다면 robots.txt가 아니라 페이지 자체에noindex를 써야 합니다(메타 태그 <meta name="robots" content="noindex"> 또는 HTTP 헤더 X-Robots-Tag: noindex). 단, 크롤러가 noindex를 보려면 그 페이지를 크롤링할 수 있어야 하므로, 같은 URL을 robots.txt로 막으면서 동시에 noindex를 거는 것은 모순입니다.

지시문 빠른 정리

User-agent: 규칙을 적용할 크롤러. *는 모든 봇, Googlebot은 구글만.
Disallow: 크롤링을 막을 경로. /admin/처럼 접두사로 매칭됩니다. 값이 비면 전체 허용.
Allow: Disallow로 막은 영역 안에서 예외적으로 허용할 경로. 더 구체적인 규칙이 우선합니다.
Crawl-delay: 요청 간 대기 초. 구글은 무시하고 Bing·Yandex 등 일부만 따릅니다.
Sitemap: 사이트맵의 절대 URL. 여러 줄로 여러 개를 넣을 수 있습니다.

흔한 실수

전체 사이트를 실수로 Disallow: /로 막아 색인이 통째로 빠지는 경우 — 배포 후 반드시 확인하세요.
CSS·JS를 막아 구글이 페이지를 제대로 렌더링하지 못하는 경우. 정적 자원은 막지 마세요.
경로 앞 슬래시 누락 또는 대소문자 혼동. 경로는 대소문자를 구분하며 항상 /로 시작합니다.

배포 후에는 robots.txt 점검으로 실제 사이트에 올라간 robots.txt가 의도대로 동작하는지, 사이트맵 검증기로 선언한 사이트맵이 정상인지 확인하세요.

와일드카드 `*`와 `$` 패턴 표

구글봇과 빙봇은 표준에 없는 두 가지 패턴을 추가로 지원합니다. *는 임의의 문자열(0자 이상)에,$는 URL의 끝에 매칭됩니다. 이 둘을 조합하면 확장자나 쿼리스트링 단위로 정교하게 제어할 수 있습니다. 단, 모든 매칭은 경로의 앞부분부터 시작한다는 점을 잊지 마세요.

규칙	의미	막히는 예 / 안 막히는 예
`Disallow: /*.pdf$`	경로가 `.pdf`로 끝나는 모든 URL	막힘 `/docs/a.pdf` · 안 막힘 `/a.pdf?v=2`
`Disallow: /*?`	물음표(쿼리스트링)가 들어간 모든 URL	막힘 `/search?q=x` · 안 막힘 `/search`
`Disallow: /private`	접두사 매칭(끝에 `$` 없음)	막힘 `/private/`·`/privately` 둘 다
`Disallow: /*/print`	중간에 임의 폴더가 끼는 경로	막힘 `/blog/print` · 안 막힘 `/print`

Allow vs Disallow 충돌은 어떻게 풀리나 (워크스루)

같은 URL에 Allow와 Disallow가 동시에 걸리면 구글은 경로 패턴이 더 긴(구체적인) 규칙을 따릅니다. 길이가 같으면 가장 덜 제한적인 규칙(Allow)이 이깁니다. 다음 블록을 보겠습니다.

User-agent: *
Disallow: /folder/ (8자)
Allow: /folder/public.html (19자)

요청 URL이 /folder/public.html이면 두 규칙 다 매칭되지만 Allow 패턴이 더 길어 크롤 허용됩니다. 반면 /folder/secret.html은 Disallow에만 걸려 차단됩니다. 핵심은 "위에 적은 줄이 이긴다"가 아니라 패턴 길이가 승부를 가른다는 점 — 줄 순서를 바꿔도 결과는 같습니다.

흔한 실수 / 함정

Disallow: /folder(끝 슬래시 없음)와 Disallow: /folder/(끝 슬래시 있음)를 같다고 생각하는 것입니다. 전자는 접두사 매칭이라 /folder-archive나 /folderX.html까지 함께 막아버려 의도치 않은 페이지가 색인에서 빠질 수 있습니다. 특정 폴더 내부만 막고 싶다면 반드시 끝에 /를 붙이세요.

자주 묻는 질문

robots.txt로 막으면 구글 검색에서 안 보이나요?

아니요. robots.txt는 크롤링(페이지 가져오기)만 막습니다. 외부 링크가 있으면 본문 없이도 URL이 색인될 수 있습니다. 검색에서 확실히 빼려면 페이지에 noindex 메타 태그나 X-Robots-Tag 헤더를 사용하세요.

Disallow와 noindex는 어떻게 다른가요?

Disallow는 '이 URL을 크롤링하지 마라'는 크롤 제어이고, noindex는 '이 페이지를 색인하지 마라'는 색인 제어입니다. noindex가 작동하려면 크롤러가 페이지를 읽을 수 있어야 하므로, 같은 URL에 둘을 동시에 걸면 noindex가 무시됩니다.

robots.txt 파일은 어디에 둬야 하나요?

반드시 도메인 루트에 둬야 합니다(https://example.com/robots.txt). 하위 폴더에 두면 크롤러가 인식하지 못합니다. 서브도메인은 각각 별도의 robots.txt가 필요합니다.

Crawl-delay는 꼭 넣어야 하나요?

필수가 아닙니다. 구글봇은 Crawl-delay를 무시하고 Search Console의 크롤링 속도 설정을 사용합니다. Bing이나 Yandex 등 서버 부하가 걱정될 때 일부 크롤러에만 효과가 있습니다.

입력한 경로가 서버로 전송되나요?

아니요. 모든 생성은 브라우저 안에서만 이뤄지며 입력값은 외부로 전송되지 않습니다.

robots.txt 생성기

robots.txt는 크롤링 제어이지 색인 차단이 아니다

지시문 빠른 정리

흔한 실수

와일드카드 `*`와 `$` 패턴 표

Allow vs Disallow 충돌은 어떻게 풀리나 (워크스루)

흔한 실수 / 함정

자주 묻는 질문

관련 가이드

관련 도구

robots.txt는 크롤링 제어이지 색인 차단이 아니다

지시문 빠른 정리

흔한 실수

와일드카드 *와 $ 패턴 표

Allow vs Disallow 충돌은 어떻게 풀리나 (워크스루)

흔한 실수 / 함정

자주 묻는 질문

관련 가이드

관련 도구

와일드카드 `*`와 `$` 패턴 표