[Elasticsearch] Arirang analyzer 버전 올렸습니다.

Elastic/Elasticsearch 2016. 3. 16. 16:38

작업 하는 김에 버전 올렸습니다.


git branch)


루씬 한글 형태소 분석기인 arirang analyzer 버전 올렸습니다.
Elasticsearch 2.2.0
Lucene 5.4.1
arirang.morph 1.0.3

빌드 및 설치 방법)
$ mvn clean package
$ bin/plugin install file:/git/elasticsearch-analysis-arirang/target/elasticsearch-analysis-arirang.zip

인덱스 세팅 방법)
"index": {
"analysis": {
"analyzer": {
"arirang_custom": {
"type": "arirang_analyzer",
"tokenizer": "arirang_tokenizer",
"filter": ["lowercase", "trim", "arirang_filter"]
}
}
}

analyze 테스트 방법)
$ curl -XGET http://localhost:9200/memebox_deal_idx/_analyze?pretty -d '{ "analyzer":"arirang_analyzer", "text":"elasticsearch 한국 사용자 그룹입니다." }' { "tokens" : [ { "token" : "elasticsearch", "start_offset" : 0, "end_offset" : 13, "type" : "word", "position" : 0 }, { "token" : "한국", "start_offset" : 14, "end_offset" : 16, "type" : "korean", "position" : 1 }, { "token" : "사용자", "start_offset" : 17, "end_offset" : 20, "type" : "korean", "position" : 2 }, { "token" : "그룹", "start_offset" : 21, "end_offset" : 23, "type" : "korean", "position" : 3 } ] }


사전 reload 방법)

$ curl -XGET http://localhost:9200/_arirang_dictionary_reload

- 클러스터 재시작 없이 사전 데이터 수정 후 리로드 잘 됩니다. 단, 이미 색인 된 문서들은 재색인 해야 합니다.

: