lucene kr analyzer flow

Elastic/Elasticsearch 2013. 1. 23. 10:43

stopwords 적용을 하다 보니 그냥 심심해서 어떤 workflow 인지 올려봅니다.
뭐 소스 보시면 다 아시는 내용이라 그냥 혼자 저장용으로 활용... ^^


[기본 flow]

KoreanAnalyzer.java        : 문장을 분석하기 위한 Analyzer 구성 (LUCENE.Version 과 stopwords, encoding)

KoreanTokenizer.java       : 지정한 token type 별로 token 분리

KoreanFilter.java              : 입력 받은 token 을 형태소 분석기를 이용해 AnalysisOutput 생성

MorphAnalyzer.java         : 여기서 한국어의 형태소를 분석 (동사, 명사, 조사, 어간, 어미 등등 ) 하여 keyword 추출


[개념적 flow]

KoreanAnalyzer -> KoreanTokenizer -> KoreanFilter -> MorphAnalyzer

: