모두의 말뭉치: 메신저

모두의 말뭉치(메신저)는 국립국어원이 공개한 데이터입니다. 데이터 정보는 다음과 같습니다.

author: 국립국어원
repository: https://corpus.korean.go.kr
references: document
size:
- train: 4,203 examples

데이터 구조는 다음과 같습니다.

속성명	내용
document_id	대화 고유 아이디
form	대화 텍스트
original_form	대화 원본 텍스트
speaker_id	발화자 (숫자가 아님)
time	`yyyymmdd hh:mm` 형식

Warning

국립국어원에서 제공하는 ‘모두의 말뭉치’는 라이센스 문제로 Korpora 패키지에서는 다운로드 기능을 제공하지 않고 로드 기능만 제공합니다. 해당 말뭉치를 사용하고 싶다면 국립국어원 안내대로 인증 과정을 거쳐 수작업으로 말뭉치를 내려받아야 합니다.

모두의 말뭉치(메신저)를 파이썬 콘솔에서 읽어들이는 예제는 다음과 같습니다.

from Korpora import Korpora
corpus = Korpora.load("modu_messenger")
  

Warning

위의 코드는 해당 말뭉치가 ~/Korpora/NIKL_MESSENGER에 압축이 해제된 상태로 존재하는 걸 전제로 작동합니다. 루트 디렉토리의 기본값은 ~/Korpora입니다. 만일 루트 다렉토리를 바꾸고 싶다면 load 함수 호출시 root_dir=custom_path 인자를 추가하시기 바랍니다.

다음과 같이 실행해도 모두의 말뭉치(메신저)를 읽어들일 수 있습니다. 수행 결과는 위의 코드와 동일합니다.

from Korpora import ModuMessengerKorpus
corpus = ModuMessengerKorpus()
  

Warning

위의 코드는 해당 말뭉치가 ~/Korpora/NIKL_MESSENGER 디렉토리에 압축이 해제된 상태로 존재하는 걸 전제로 작동합니다. 만일 다른 디렉토리에 말뭉치가 존재한다면 ModuMessengerKorpus 클래스 선언시 root_dir=custom_path 인자를 추가하시기 바랍니다.

위 코드 둘 중 하나를 택해 실행하면 corpus라는 변수에 말뭉치를 로드합니다. train은 모두의 말뭉치(메신저)의 train 데이터로 첫번째 인스턴스는 다음과 같이 확인할 수 있습니다.

>>> corpus.train[0]
Conversation(id=MDRW1900000002.1, len=70, attributes=(form(str), original_form(str), speaker_id(str), time(str)))
>>> corpus.train[0].form
('누나 모해??', 'ㅋㅋㅋㅋ 일하고 있지ㅠㅠ', ... )
>>> corpus.train[0].speaker_id
('1', '2', ... )