개발 목적

최근 자연어 처리에 관심이 높아지면서 정부와 기업은 물론 뜻있는 개인에 이르기까지 데이터를 무료로 공개하는 추세입니다. 하지만 데이터가 곳곳에 산재해 있다보니 품질 좋은 말뭉치임에도 그 존재조차 잘 알려지지 않은 경우가 많습니다. 파일 포맷과 저장 형식 등이 각기 달라 사용이 쉽지 않습니다. 개별 사용자들은 다운로드나 전처리 코드를 그때그때 개발해서 써야 하는 수고로움이 있습니다.

Korpora는 이 같은 불편함을 조금이나마 덜어드리기 위해 개발한 오픈소스 파이썬 패키지입니다. Korpora는 말뭉치라는 뜻의 영어 단어 corpus의 복수형인 corpora에서 착안해 이름 지었습니다. Korpora는 Korean Corpora의 준말입니다. Korpora가 마중물이 되어 한국어 데이터셋이 더 많이 공개되고 이를 통해 한국어 자연어 처리 수준이 한 단계 업그레이드되기를 희망합니다. 많이 써보시고 의견 남겨 주시면 패키지 개발에 큰 도움이 될 것 같습니다.

핵심 기능

Korpora는 pip으로 간단하게 설치 가능하며 데이터 다운로드와 전처리와 관련한 인터페이스를 통일해 편리하게 쓸 수 있게 만들었습니다. 파이썬 콘솔에 Korpora.fetch("corpus_name") 한 줄만 입력하면 데이터를 다운받을 수 있고요. Korpora.load("corpus_name")으로 다운로드와 파이썬 로딩을 한꺼번에 수행할 수 있습니다. CLI(Command Line Interface) 기능을 지원해 파이썬 콘솔 실행 없이 터미널 환경에서도 말뭉치를 내려받을 수 있습니다.

향후 계획

현재는 0.2.0 버전이기 때문에 아직 지원하지 않는 데이터가 많습니다. 이 패키지에 포함되어야할 데이터가 있다면 ko-nlp 팀으로 제보해 주시면 다음 버전에 반영하겠습니다. 물론 Korpora를 통해 재배포가 가능한 라이센스를 가진 데이터에 한정됩니다. 버그나 이슈, 개선 의견이 있다면 언제든지 이슈를 작성해서 알려주세요. 물론 Pull Request를 더 격하게 환영합니다.

ko-nlp 팀은 앞으로 Korpora를 한국어 자연어 처리 벤치마크 프레임워크로 발전시켜 나가고픈 욕심이 있습니다. 의견, PR, 참여를 기다립니다. 감사합니다.