본문 바로가기

개발일지/도서추천서비스

(5)
훈련 데이터셋 구성 (오버피팅을 피하는 법) 목차모델 학습에 활용되는 데이터셋 종류오버피팅 방지하기데이터셋 구성 시 주의할 점1.  모델 학습에 활용되는 데이터셋 종류모델을 학습시킨다는 것은 "적절한 파라미터를 찾는다" 라는 의미를 가지고 있다. 특정 도메인에 특화되도록 모델을 학습 시키기 위해서는 해당 도메인의 데이터를 활용한다.보통 모델 학습에 활용되는 데이터 셋은 "훈련 / 검증 / 시험" 이렇게 3가지 종류로 분리 한다. 1. 훈련 데이터셋 (Training)→ 모델을 피팅(훈련)하는데 사용되는 실제 데이터 샘플을 말한다.    신경망의 경우 이 데이터를 통해 가중치 및 편향이 특정 도메인에 맞게 조정된다. 2. 검증 데이터셋 (Validation)→ 훈련 과정에서 주어진 모델의 성능을 평가하는데 사용되는 데이터이다.    모델 하이퍼파라..
koBERT 모델이란 / BERT 목차koBERT 모델에 대해서BERT 모델의 아키텍처Transformer 인코더 구조 코드로 살펴보기1.  koBERT 모델에 대해서먼저 BERT 모델은 단반향으로 학습하던 기존 모델인 GPT-1과 다르게Bidirectional Transformer 모델로서 양방향으로 학습하는 모델이다. 단어 앞 뒤의 양방향으로 학습하기 때문에 문맥 파악에 좀 더 유리하고자연어 이해에 강력한 성능을 보인다. BERT는 질의응답이나, NER 등 다양한 NLP 작업에 적용이 가능하다.koBERT는 korean BERT로 한국어 자연어 처리를 위해 사전 학습된 BERT모델을 말한다.  2.  BERT 모델의 아키텍처koBERT모델의 아키텍처를 이해한다는 것은 곧 BERT의 아키텍처를 이해한다는 것이다. BERT는 Trans..
Transformer 모델이란 (구조와 종류) 목차기존 seq2seq 모델의 한계트랜스포머 모델에 대하여트랜스포머를 활용한 대표적인 NLP 모델 3가지BERT, GPT, BART의 차이점각각의 모델이 가진 장단점1. 기존 seq2seq 모델의 한계seq2seq는 인코더-디코더 구조의 모델로 각각의 인코더, 디코더에서 RNN을 사용한다.RNN(순환신경망) : 입력과 출력을 시퀀스 단위로 처리하는 시퀀스 모델. 인코더에서는 입력 시퀀스를 받아 벡터화한 요소를 차례대로 처리하면서 내부 상태를 갱신한다.이 때 '내부 상태'는 과거의 모든 정보를 압축하고 있다.(히든 상태)이후 모든 단어 정보를 압축해서 하나의 벡터(컨텍스트 벡터)를 만들어 디코더에 전달한다.디코더는 이 벡터 표현을 사용하여 출력 시퀀스를 만들어낸다. 그러나 입력 시퀀스가 길어질수록 초기에..
크롤링 허용 여부 확인하기 : /robots.txt 크롤링을 하는 것은 불법일까? 일반적으로 크롤링이 위법행위인 것은 아니다. 하지만 특정 경우에 한해서 법적 제재를 받을 수는 있다. 해당 예시는 아래와 같은 경우들이다. 웹 페이지 운영자가 크롤링 행위를 막아놓은 데이터를 획득하는 경우 부당하게 긁어간 데이터를 사용하여 부당한 이득을 얻는 경우 그렇다면 내가 크롤링하고 싶은 웹페이지의 크롤링 허용 여부를 확인할 수 있는 방법은 없을까? 아주 간단한 방법이 있다. 주소창에 '크롤링할 웹 사이트 주소/robots.txt' 를 검색해보면 된다. 아래는 교보 문고 웹 사이트를 예시 크롤링 허용 여부를 확인해 본 결과이다. User-agent: * Allow: / 또는 User-agent: * Disallow: 위의 표시는 모든 접근을 허용한다는 뜻이다. Disa..
[Python] 교보 문고 크롤링 하기 with Selenium & BeautifulSoup 목차 동적 페이지 크롤링 Selenium & BeautifulSoup 크롤링 할 데이터 목록 초기 셋팅 코드 및 결과 1. 동적 페이지 크롤링 동적 웹페이지는 정적 웹페이지와 다르다. 정적 페이지는 html에 이미 모든 정보를 담고 있다. 인터넷에 접속하여 서버에 요청을 보내면 서버는 저장되어 있는 html 문서를 클라이언트에게 그대로 전송한다. 따라서 모든 사용자들에게 동일한 웹페이지가 보여진다. 블로그, 기업 정보 페이지, 포트폴리오 사이트 등을 예로 들 수 있다. 반면 동적 페이지의 경우, 사용자의 요청에 따라 데이터가 변경되고 화면에 보여지는 콘텐츠에도 변동이 적용된다. 오늘 크롤링 할 교보 문고 웹페이지도 동적 페이지에 해당한다. ※ 교보문고 홈페이지 : https://www.kyobobook...

반응형