반응형
크롤링을 하는 것은 불법일까?
일반적으로 크롤링이 위법행위인 것은 아니다.
하지만 특정 경우에 한해서 법적 제재를 받을 수는 있다.
해당 예시는 아래와 같은 경우들이다.
- 웹 페이지 운영자가 크롤링 행위를 막아놓은 데이터를 획득하는 경우
- 부당하게 긁어간 데이터를 사용하여 부당한 이득을 얻는 경우
그렇다면 내가 크롤링하고 싶은 웹페이지의 크롤링 허용 여부를 확인할 수 있는 방법은 없을까?
아주 간단한 방법이 있다.
주소창에 '크롤링할 웹 사이트 주소/robots.txt' 를 검색해보면 된다.
아래는 교보 문고 웹 사이트를 예시 크롤링 허용 여부를 확인해 본 결과이다.
User-agent: *
Allow: /
또는
User-agent: *
Disallow:
위의 표시는 모든 접근을 허용한다는 뜻이다.
Disallow: /store/book/detail
Disallow: /cscenter/qna-form
해당 표시는 특정 디렉토리의 접근을 금지한다는 의미이다.
교보문고는 위의 두 경로에 대한 접근을 제한하고 있다.
따라서 해당 경로의 하위 페이지의 모든 접근은 금지된다.
User-agent:*
Disallow: /
만약 위와 같은 표시가 있다면
사이트의 모든 접근을 금지한다의 의미이므로 크롤링 해서는 안된다.
결론적으로, 교보문고는 위의 특정 두 경로만 피한다면
다른 경로는 크롤링이 허용된다는 것을 확인할 수 있다.
'개발일지 > 도서추천서비스' 카테고리의 다른 글
훈련 데이터셋 구성 (오버피팅을 피하는 법) (0) | 2024.05.10 |
---|---|
koBERT 모델이란 / BERT (0) | 2024.04.23 |
Transformer 모델이란 (구조와 종류) (0) | 2024.04.20 |
[Python] 교보 문고 크롤링 하기 with Selenium & BeautifulSoup (0) | 2024.04.16 |