제공하는 말뭉치 목록
Korpora
패키지가 다운로드와 전처리를 지원하는 말뭉치 목록은 다음과 같습니다. 말뭉치들을 공유해 주신 분들께 감사드립니다.
- 챗봇 문답 페어
- KcBERT 댓글 데이터
- 한국어 혐오 데이터셋
- 청와대 국민청원
- KorNLI
- KorSTS
- 한국어 위키 텍스트
- 나무 위키 텍스트
- 네이버 x 창원대 NER 데이터
- NAVER Sentiment Movie Corpus
- 한국어 질문쌍
- 한영 병렬 말뭉치
- 모두의 말뭉치: 신문
- 모두의 말뭉치: 메신저
- 모두의 말뭉치: 형태 분석
- 모두의 말뭉치: 개체명
- 모두의 말뭉치: 구어
- 모두의 말뭉치: 웹
- 모두의 말뭉치: 문어
- AI Hub 한국어-영어 번역 말뭉치
- 영화 자막 한영 병렬 말뭉치
Warning
국립국어원에서 제공하는 ‘모두의 말뭉치’와 AIHub 관련 데이터는 라이센스 문제로 Korpora
패키지에서는 다운로드 기능을 제공하지 않고 로드 기능만 제공합니다. 해당 말뭉치를 사용하고 싶다면 해당 기관의 안내대로 인증 과정을 거쳐 수작업으로 말뭉치를 내려받아야 합니다.