코딩 및 개발언어(웹, 앱, 블록체인)

✅ robots.txt란 무엇인가?

aukibary 2025. 2. 15. 20:53
반응형

robots.txt는 웹사이트의 루트 디렉터리에 위치하는 텍스트 파일로, **검색 엔진 크롤러(bot)**가 사이트를 어떻게 크롤링해야 하는지를 알려주는 역할을 합니다.

  • 검색 엔진(예: Google, Bing, Naver)이 웹사이트의 어떤 페이지를 크롤링할 수 있고, 어떤 페이지를 크롤링하지 말아야 하는지를 결정하는 파일입니다.
  • 예를 들어, 비공개 페이지나 관리자 페이지가 검색 결과에 노출되지 않도록 막을 수 있습니다.

로봇robots.txt 작동 방식 설명 보완
로봇 robots.txt 작동 방식 설명


왜 robots.txt가 중요한가?

🔹 1. 검색 엔진이 웹사이트를 효율적으로 크롤링하도록 도움

  • 불필요한 페이지(예: 관리자 페이지, 검색 페이지)가 크롤링되지 않도록 제한하여 검색 엔진이 중요한 콘텐츠에 집중하도록 유도합니다.

🔹 2. 개인 정보 보호 & 보안 강화

  • 예를 들어, 로그인 페이지나 회원정보 페이지가 검색 엔진에 노출되지 않도록 방지할 수 있습니다.

🔹 3. 검색 엔진 크롤링 부담(서버 부하) 줄이기

  • 너무 많은 페이지가 크롤링되면 서버 부하가 증가할 수 있습니다. robots.txt로 크롤링 속도와 범위를 조절할 수 있습니다.

티스토리 블로그에서 robots.txt 파일 확인하는 방법

티스토리 블로그의 robots.txt 파일은 기본적으로 자동 생성되며 수정할 수 없습니다. 하지만 확인은 가능합니다.

📌 robots.txt 확인하는 방법 (내비게이션 포함)

1️⃣ 웹 브라우저에서 다음 주소를 입력하세요.

https://블로그주소/robots.txt

예: https://myinfo1995.tistory.com/robots.txt

2️⃣ 엔터(Enter) 키를 누르면, robots.txt 파일의 내용이 표시됩니다.

3️⃣ 어떤 페이지가 차단되었는지 확인합니다.

  • Disallow: /search → 검색 페이지 차단
  • Disallow: /admin → 관리자 페이지 차단

이렇게 하면, 내 블로그의 robots.txt 파일이 어떤 설정으로 운영되는지 쉽게 확인할 수 있습니다.


티스토리 블로그 robots.txt 기본 구조 분석

User-agent: *
Disallow: /guestbook
Disallow: /m/guestbook
Disallow: /manage
Disallow: /owner
Disallow: /admin
Disallow: /search
Disallow: /m/search

📌 주요 설정 설명

명령어 의미

User-agent: * 모든 검색 엔진(구글, 네이버, 빙 등)에 적용
Disallow: /guestbook 방명록 페이지 크롤링 차단
Disallow: /admin 관리자 페이지 크롤링 차단 (보안 강화를 위해 필요)
Disallow: /search 블로그 내 검색 결과 페이지 크롤링 차단
Disallow: /m/search 모바일 검색 결과 페이지 차단

결론: 티스토리 기본 robots.txt 설정은 검색 결과에 불필요한 페이지(방명록, 검색 페이지, 관리자 페이지 등)가 노출되지 않도록 설정되어 있습니다.


robots.txt를 수정할 수 있나요?

📌 티스토리 블로그는 직접 robots.txt 파일을 수정할 수 없습니다. 하지만 아래 방법을 통해 검색 색인 최적화가 가능합니다.

🔹 1️⃣ Google Search Console에서 색인 관리하기

  1. Google Search Console 접속 (🔗 바로가기)
  2. 블로그 도메인 등록 (예: https://myinfo1995.tistory.com/)
  3. “색인 생성 요청”을 통해 중요한 페이지 색인 요청 가능

🔹 2️⃣ 사이트맵 등록하여 크롤링 최적화

  1. Google Search Console 접속
  2. 왼쪽 메뉴에서 “Sitemaps” 선택
  3. 사이트맵 URL 입력:
    https://블로그주소/sitemap.xml
    
  4. 제출 후 색인 요청 완료

이렇게 하면, 티스토리 블로그에서도 검색엔진 색인을 최적화할 수 있습니다!


robots.txt 설정이 잘못되면 어떤 문제가 생길까요?

1️⃣ 중요한 페이지가 검색되지 않을 수 있음

  • Disallow: /처럼 전체 사이트를 차단하면 검색 결과에서 블로그가 아예 사라질 수도 있습니다.

2️⃣ 검색 노출이 줄어들어 방문자 수 감소 가능

  • 불필요한 페이지뿐만 아니라 중요한 콘텐츠까지 검색 제외되면 트래픽이 줄어들 수 있습니다.

3️⃣ Google Search Console에서 경고 발생

  • 검색 크롤링이 제대로 이루어지지 않으면 Google Search Console에서 “차단된 페이지” 경고가 뜰 수 있습니다. 예를 들어, robots.txt 설정이 잘못되어 검색 엔진이 중요한 페이지를 차단하면, Google Search Console에서 붉은 경고 메시지가 나타날 수 있습니다. 이를 확인하려면 Google Search Console에 접속한 후 '색인 범위'에서 '차단된 페이지' 섹션을 확인하세요.

📌 색인이란?

색인이란 검색 엔진이 웹사이트의 정보를 수집하고 데이터베이스에 저장하는 과정을 의미합니다.

  • 검색 엔진이 사이트를 크롤링한 후, 콘텐츠를 분석하여 색인(indexing)합니다.
  • 색인이 완료된 페이지만 검색 결과에 표시됩니다.
  • robots.txt 설정이 잘못되면 중요한 페이지가 색인되지 않을 수 있습니다

따라서 robots.txt는 잘 활용해야 하며, 기본 설정을 유지하는 것이 좋습니다!


결론: 티스토리 블로그 초보자를 위한 robots.txt 요약

robots.txt란? 검색 엔진이 어떤 페이지를 크롤링할지 결정하는 파일
티스토리는 robots.txt를 직접 수정할 수 없음
기본 설정으로 불필요한 페이지(관리자 페이지, 검색 페이지)가 차단됨
Google Search Console을 활용하여 검색 색인 최적화 가능
잘못된 설정은 검색 노출 문제를 유발할 수 있음

robots.txt 설정에 따른 실제 블로거들의 이익과 손실

🔹 robots.txt를 올바르게 설정하면? (이익)

검색 엔진이 중요한 콘텐츠를 집중 크롤링하여 검색 노출 증가 관리자 페이지, 검색 페이지 등 불필요한 색인 차단으로 SEO 최적화사이트 트래픽 증가 → 방문자 증가 및 광고 수익 향상 가능개인정보 보호 강화 → 로그인 페이지, 비공개 콘텐츠 보호 가능

🔹 robots.txt를 잘못 설정하면? (손실)

중요한 페이지까지 차단되면 검색 결과에서 사라짐 → 방문자 급감Google Search Console에서 '차단된 페이지' 경고 발생 → 검색 색인 오류 증가트래픽 감소로 인해 애드센스, 제휴 마케팅 등 광고 수익 감소 가능잘못된 설정으로 검색 엔진이 블로그를 크롤링하지 못하면 신뢰도 하락

결론: robots.txt 설정은 검색 노출 최적화 및 트래픽 증가에 필수적인 요소입니다.
Google Search Console을 활용해 정기적으로 색인 상태를 점검하는 것이 중요합니다!

🚀 이제 robots.txt가 무엇인지 이해하고, 티스토리 블로그 검색 최적화에 활용하세요! 😊

반응형