Korpora: Korean Corpora Archives

Korpora는 오픈소스 말뭉치들의 다운로드와 전처리 기능을 제공하는 파이썬 라이브러리입니다. 오픈소스 말뭉치들을 보다 쉽게 사용할 수 있도록 돕기 위해 만들었습니다. 말뭉치들을 공유해 주신 분들께 감사드립니다.

말뭉치 목록

  • Korpora 패키지가 제공하는 말뭉치 목록은 다음과 같습니다.
말뭉치 이름 설명 링크
korean_chatbot_data 챗봇 트레이닝용 문답 페어 https://github.com/songys/Chatbot_data
kcbert KcBERT 모델 학습용 댓글 데이터 https://github.com/Beomi/KcBERT
korean_hate_speech 한국어 혐오 데이터셋 https://github.com/kocohub/korean-hate-speech
korean_petitions 청와대 국민 청원 https://github.com/lovit/petitions_archive
kornli Korean NLI https://github.com/kakaobrain/KorNLUDatasets
korsts Korean STS https://github.com/kakaobrain/KorNLUDatasets
namuwikitext 나무위키 텍스트 https://github.com/lovit/namuwikitext
naver_changwon_ner 네이버 x 창원대 개체명 인식 데이터셋 https://github.com/naver/nlp-challenge/tree/master/missions/ner
nsmc NAVER Sentiment Movie Corpus https://github.com/e9t/nsmc
question_pair 한국어 질문쌍 데이터셋 https://github.com/songys/Question_pair
modu_news 모두의 말뭉치: 신문 https://corpus.korean.go.kr
modu_messenger 모두의 말뭉치: 메신저 https://corpus.korean.go.kr
modu_mp 모두의 말뭉치: 형태 분석 https://corpus.korean.go.kr
modu_ne 모두의 말뭉치: 개체명 분석 https://corpus.korean.go.kr
modu_spoken 모두의 말뭉치: 구어 https://corpus.korean.go.kr
modu_web 모두의 말뭉치: 웹 https://corpus.korean.go.kr
modu_written 모두의 말뭉치: 문어 https://corpus.korean.go.kr
aihub_translation 한국어-영어 번역 말뭉치 https://aihub.or.kr/aidata/87
open_substitles 영화 자막 한영 병렬 말뭉치 http://opus.nlpl.eu/OpenSubtitles-v2018.php
korean_parallel_koen_news 한국어-영어 병렬 말뭉치 https://github.com/jungyeul/korean-parallel-corpora

라이센스

  • Korpora 라이센스는 Creative Commons License(CCL) 4.0의 CC-BY입니다. 이 라이센스는 Korpora 패키지 및 그 부속물에 한정됩니다.
  • 이용자는 다음의 권리를 갖습니다.
    • 공유 : 복제, 배포, 전시, 공연 및 공중 송신(포맷 변경도 포함) 등을 자유롭게 할 수 있습니다.
    • 변경 : 리믹스, 변형, 2차적 저작물의 작성이 가능합니다. 영리 목적으로도 이용이 가능합니다.
  • 이용자는 다음의 의무가 있습니다. 아래 의무를 지키는 한 위의 권리가 유효합니다.
    • 저작자표시 : Korpora를 이용했다는 정보를 표시해야 합니다.
    • 추가제한금지 : 이용자는 Korpora를 활용한 2차적 저작물에 CC-BY보다 엄격한 라이센스를 부가할 수 없습니다.
    • 예컨대 Korpora를 내려 받아 단순히 사용하기만 했다면 ‘저작자표시'만 지키면 됩니다. Korpora를 활용해 모델이나 문서 등 2차 저작물을 만들고 이를 배포할 경우 ‘저작자표시'뿐 아니라 ‘추가제한금지' 의무도 지켜야 합니다.
  • 한편 말뭉치의 라이센스는 말뭉치별로 별도 적용됩니다. 자신이 사용할 말뭉치의 라이센스가 어떤 내용인지 활용 전에 반드시 확인하세요!

프로젝트에 기여해주신 분들

  • lovit
  • ratsgo
  • hungry-wook
  • hungry-wook
  • hungry-wook

Korpora: Korean Corpora Archives

Korpora is an open-source Python package that aims to minimize such inconvenience. The name Korpora comes from the word corpora, a plural form of the word corpus. Korpora is an acronym that stands for Korean Corpora. We hope that Korpora will serve as a starting point that encourages more Korean datasets to be released and improve the state of Korean natural language processing to the next level.

List of corpora

Korpora provides following corpora.

corpus_name description link
korean_chatbot_data Question and answer pairs for training a chatbot https://github.com/songys/Chatbot_data
kcbert Comment data used for training KcBERT model https://github.com/Beomi/KcBERT
korean_hate_speech Korean hate speech dataset https://github.com/kocohub/korean-hate-speech
korean_petitions Petitions to Blue House https://github.com/lovit/petitions_archive
kornli Korean NLI https://github.com/kakaobrain/KorNLUDatasets
korsts Korean STS https://github.com/kakaobrain/KorNLUDatasets
kowikitext Korean Wikipedia text https://github.com/lovit/kowikitext/
namuwikitext Namuwiki text https://github.com/lovit/namuwikitext
naver_changwon_ner NAVER x Changwon National University NER dataset https://github.com/naver/nlp-challenge/tree/master/missions/ner
nsmc NAVER Sentiment Movie Corpus https://github.com/e9t/nsmc
question_pair Korean question and answer pair dataset https://github.com/songys/Question_pair
modu_news Modu Corpus: Newspaper https://corpus.korean.go.kr
modu_messenger Modu Corpus: Messenger https://corpus.korean.go.kr
modu_mp Modu Corpus: Morphemes https://corpus.korean.go.kr
modu_ne Modu Corpus: Named Entity https://corpus.korean.go.kr
modu_spoken Modu Corpus: Spoken https://corpus.korean.go.kr
modu_web Modu Corpus: Web https://corpus.korean.go.kr
modu_written Modu Corpus: Written https://corpus.korean.go.kr
aihub_translation Korean-English translation corpus https://aihub.or.kr/aidata/87
open_subtitles Korean-English parallel corpus from movie subtitles http://opus.nlpl.eu/OpenSubtitles-v2018.php
korean_parallel_koen_news Korean-English parallel corpus https://github.com/jungyeul/korean-parallel-corpora

License

  • Korpora is licensed under the Creative Commons License(CCL) 4.0 CC-BY. This license covers the Korpora package and all of its components.
  • Its users have the following rights.
    • Share : They are free to reproduce, distribute, exhibit, perform and transmit via air (including changes in the format).
    • Adapt : They can remix, transform, and build upon the material for any purpose, even commercially.
  • Its users have the following obligations. As long as these obligations are fulfilled, the user rights listed above are valid.
    • Attribution : They must indicate that they have used Korpora.
    • No additional restrictions : For all derivative works of Korpora, they cannot impose stricter license than CC-BY permits.
    • For example, if you have downloaded and used Korpora, you need to fulfill only the ‘attribution' obligation. However, if you are creating and distributing models, documents or any other derivative works of Korpora, you must fulfill both the ‘attribution' and ‘no additional restrictions' obligations.
  • Each corpus adheres to its own license policy. Please check the license of the corpus before using it!

Contributors

  • lovit
  • ratsgo
  • hungry-wook
  • hungry-wook
  • hungry-wook