논문
논문 기본정보
확률 기반 미등록 단어 분리 및 태깅
기관명 | NDSL |
---|---|
저널명 | 정보과학회논문지 = Journal of KIISE |
ISSN | 2383-630x,2383-6296 |
ISBN |
논문 개요
저자(한글) | 김보겸,이재성 |
---|---|
저자(영문) | |
소속기관 | |
소속기관(영문) | |
출판인 | |
간행물 번호 | |
빌행연도 | 2016-01-01 |
초록 | 형태소 분석시 나타나는 고유명사나 신조어 등의 미등록어에 대한 처리는 다양한 도메인의 문서 처리에 필수적이다. 이 논문에서는 3단계 확률 기반 형태소 분석에서 미등록어를 분리하고 태깅하기 위한 방법을 제시한다. 이 방법은 고유명사나 일반명사와 같은 개방어 뒤에 붙는 다양한 접미사를 분석하여 미등록 개방어를 추정할 수 있도록 했다. 이를 위해 형태소 품사 부착 말뭉치에서 자동으로 접미사 패턴을 학습하고, 확률 기반 형태소 분석에 맞도록 미등록 개방어의 분리 및 태깅 확률을 계산하는 방법을 제시하였다. 실험 결과, 제안한 방법은 새로운 미등록 용어가 많이 나오는 문서에서 미등록어 처리 성능을 크게 향상시켰다. |
원문URL | http://click.ndsl.kr/servlet/OpenAPIDetailView?keyValue=03553784&target=NART&cn=JAKO201613752757857 |
첨부파일 |
추가정보
과학기술표준분류 | |
---|---|
ICT 기술분류 | |
DDC 분류 | |
주제어 (키워드) | 미등록어 처리 단어 분리 개방어 처리 확률 기반 형태소 분석 unknown word processing word segmentation open word class processing probabilistic morphological analysis |