[arirang] 사전 데이터 등록 예제
ITWeb/검색일반 2015. 11. 20. 15:15arirang analyzer 를 사용하면서 사전 활용을 위해서는 사전 파일이 어떻게 구성이 되어 있고 관리가 되어야 하는지 알아야 합니다.
아래 공식 카페에 들어가시면 많은 정보들이 있으니 참고 하시면 되겠습니다.
[공식카페]
[형태소분석 사전 구성 및 사용법]
[사전 등록 예시]
# 위 구성 및 사용법 에서와 같이 인덱스 순서가 이렇게 되어 있습니다.
명사 동사 기타품사 하여(다)동사 되어(다)동사 '내'가붙을수있는명사 na na na 불규칙변형
# 엘사는 명사이고 동사, 기타품사, 불규칙이 아니다, 라고 가정하면 아래와 같이 표현이 됩니다.
엘사,100000000X
# 노래는 명사이고 하여 동사가 됩니다.
노래,100100000X
# 소리는 명사이고 소리내다와 같이 내가 붙을 수 있는 명사 입니다.
소리,100001000X
[사전작업 후 리로딩]
arirang-morph 패키지에서 DictionaryUtil.java 내 loadDictionary() 호출을 통해 다시 올려 줍니다.
▶ 별도 구현이 필요합니다.
[불규칙변형 태그]
원문) http://cafe.naver.com/korlucene/135
# 위에서 제일 마지막에 'X' 라는 문자가 있습니다. 이 부분에 대한 설명 입니다.
B : ㅂ 불규칙
H : ㅎ 불규칙
L : 르 불규칙
U : ㄹ 불규칙
S : ㅅ 불규칙
D : ㄷ 불규칙
R : 러 불규칙
X : 규칙