크롤링 허용 여부 확인하기 : /robots.txt

크롤링을 하는 것은 불법일까?

일반적으로 크롤링이 위법행위인 것은 아니다.

하지만 특정 경우에 한해서 법적 제재를 받을 수는 있다.

해당 예시는 아래와 같은 경우들이다.

그렇다면 내가 크롤링하고 싶은 웹페이지의 크롤링 허용 여부를 확인할 수 있는 방법은 없을까?

아주 간단한 방법이 있다.

주소창에 '크롤링할 웹 사이트 주소/robots.txt' 를 검색해보면 된다.

아래는 교보 문고 웹 사이트를 예시 크롤링 허용 여부를 확인해 본 결과이다.

User-agent: *

Allow: /

또는

User-agent: *

Disallow:

위의 표시는 모든 접근을 허용한다는 뜻이다.

Disallow: /store/book/detail

Disallow: /cscenter/qna-form

해당 표시는 특정 디렉토리의 접근을 금지한다는 의미이다.

교보문고는 위의 두 경로에 대한 접근을 제한하고 있다.

따라서 해당 경로의 하위 페이지의 모든 접근은 금지된다.

User-agent:*

Disallow: /

만약 위와 같은 표시가 있다면

사이트의 모든 접근을 금지한다의 의미이므로 크롤링 해서는 안된다.

결론적으로, 교보문고는 위의 특정 두 경로만 피한다면

다른 경로는 크롤링이 허용된다는 것을 확인할 수 있다.

훈련 데이터셋 구성 (오버피팅을 피하는 법) (0)	2024.05.10
koBERT 모델이란 / BERT (0)	2024.04.23
Transformer 모델이란 (구조와 종류) (0)	2024.04.20
[Python] 교보 문고 크롤링 하기 with Selenium & BeautifulSoup (0)	2024.04.16

코드 뒤의 솔방울