lucene kr analyzer flow
Elastic/Elasticsearch 2013. 1. 23. 10:43stopwords 적용을 하다 보니 그냥 심심해서 어떤 workflow 인지 올려봅니다.
뭐 소스 보시면 다 아시는 내용이라 그냥 혼자 저장용으로 활용... ^^
[기본 flow]
KoreanAnalyzer.java : 문장을 분석하기 위한 Analyzer 구성 (LUCENE.Version 과 stopwords, encoding)
KoreanTokenizer.java : 지정한 token type 별로 token 분리
KoreanFilter.java : 입력 받은 token 을 형태소 분석기를 이용해 AnalysisOutput 생성
MorphAnalyzer.java : 여기서 한국어의 형태소를 분석 (동사, 명사, 조사, 어간, 어미 등등 ) 하여 keyword 추출
[개념적 flow]
KoreanAnalyzer -> KoreanTokenizer -> KoreanFilter -> MorphAnalyzer