고객센터 > 고객센터 >공지사항 | 기업공감 원스톱서비스

논문

확률 기반 미등록 단어 분리 및 태깅

논문저자 및 소속기관 정보
저자(한글)	김보겸,이재성
저자(영문)
소속기관
소속기관(영문)
출판인
간행물 번호
빌행연도	2016-01-01
초록	형태소 분석시 나타나는 고유명사나 신조어 등의 미등록어에 대한 처리는 다양한 도메인의 문서 처리에 필수적이다. 이 논문에서는 3단계 확률 기반 형태소 분석에서 미등록어를 분리하고 태깅하기 위한 방법을 제시한다. 이 방법은 고유명사나 일반명사와 같은 개방어 뒤에 붙는 다양한 접미사를 분석하여 미등록 개방어를 추정할 수 있도록 했다. 이를 위해 형태소 품사 부착 말뭉치에서 자동으로 접미사 패턴을 학습하고, 확률 기반 형태소 분석에 맞도록 미등록 개방어의 분리 및 태깅 확률을 계산하는 방법을 제시하였다. 실험 결과, 제안한 방법은 새로운 미등록 용어가 많이 나오는 문서에서 미등록어 처리 성능을 크게 향상시켰다.
원문URL	http://click.ndsl.kr/servlet/OpenAPIDetailView?keyValue=03553784&target=NART&cn=JAKO201613752757857
첨부파일

추가정보
과학기술표준분류
ICT 기술분류
DDC 분류
주제어 (키워드)	미등록어 처리 단어 분리 개방어 처리 확률 기반 형태소 분석 unknown word processing word segmentation open word class processing probabilistic morphological analysis