본문 바로가기

개발일지/도서추천서비스

크롤링 허용 여부 확인하기 : /robots.txt

반응형
크롤링을 하는 것은 불법일까?

 

일반적으로 크롤링이 위법행위인 것은 아니다.

하지만 특정 경우에 한해서 법적 제재를 받을 수는 있다.

해당 예시는 아래와 같은 경우들이다.

  1. 웹 페이지 운영자가 크롤링 행위를 막아놓은 데이터를 획득하는 경우
  2. 부당하게 긁어간 데이터를 사용하여 부당한 이득을 얻는 경우 

 

그렇다면 내가 크롤링하고 싶은 웹페이지의 크롤링 허용 여부를 확인할 수 있는 방법은 없을까?

아주 간단한 방법이 있다.

 

주소창에 '크롤링할 웹 사이트 주소/robots.txt' 를 검색해보면 된다.

아래는 교보 문고 웹 사이트를 예시 크롤링 허용 여부를 확인해 본 결과이다.

https://www.kyobobook.co.kr/robots.txt

 

User-agent: * 

Allow: / 

또는 

User-agent: *

Disallow:

위의 표시는 모든 접근을 허용한다는 뜻이다.

 

 

Disallow: /store/book/detail

Disallow: /cscenter/qna-form

해당 표시는 특정 디렉토리의 접근을 금지한다는 의미이다.

교보문고는 위의 두 경로에 대한 접근을 제한하고 있다.

따라서 해당 경로의 하위 페이지의 모든 접근은 금지된다.

 

 

User-agent:*

Disallow: /

만약 위와 같은 표시가 있다면

사이트의 모든 접근을 금지한다의 의미이므로 크롤링 해서는 안된다.

 

결론적으로, 교보문고는 위의 특정 두 경로만 피한다면

다른 경로는 크롤링이 허용된다는 것을 확인할 수 있다.