lucene kr analyzer flow

분류 전체보기 (1583)

Elastic (498)

Cloud&Container (30)

ITWeb (799)

Legacy (255)

10-25 05:10

Links
Henry's Linkedin.
Elasticsearch Facebook User Gr….
Elasticsearch Blog.
Elasticsearch Resiliency Statu….
Elasticsearch Issues.
Kibana.
Logstash.
Logstash Plugins.
Elasticsearch: The Definitive ….
Elasticsearch Reference.
Elastic Discuss.
Elasticsearch Presentations.
Elastic Support Matrix.

Elastic/Elasticsearch 2013. 1. 23. 10:43

stopwords 적용을 하다 보니 그냥 심심해서 어떤 workflow 인지 올려봅니다.
뭐 소스 보시면 다 아시는 내용이라 그냥 혼자 저장용으로 활용... ^^

[기본 flow]

KoreanAnalyzer.java : 문장을 분석하기 위한 Analyzer 구성 (LUCENE.Version 과 stopwords, encoding)

KoreanTokenizer.java : 지정한 token type 별로 token 분리

KoreanFilter.java : 입력 받은 token 을 형태소 분석기를 이용해 AnalysisOutput 생성

MorphAnalyzer.java : 여기서 한국어의 형태소를 분석 (동사, 명사, 조사, 어간, 어미 등등 ) 하여 keyword 추출

[개념적 flow]

KoreanAnalyzer -> KoreanTokenizer -> KoreanFilter -> MorphAnalyzer

jjeong