[Elasticsearch] Arirang analyzer 버전 올렸습니다.
Elastic/Elasticsearch 2016. 3. 16. 16:38작업 하는 김에 버전 올렸습니다.
git branch)
루씬 한글 형태소 분석기인 arirang analyzer 버전 올렸습니다.
Elasticsearch 2.2.0
Lucene 5.4.1
arirang.morph 1.0.3
빌드 및 설치 방법)
$ mvn clean package
$ bin/plugin install file:/git/elasticsearch-analysis-arirang/target/elasticsearch-analysis-arirang.zip
인덱스 세팅 방법)
"index": {
"analysis": {
"analyzer": {
"arirang_custom": {
"type": "arirang_analyzer",
"tokenizer": "arirang_tokenizer",
"filter": ["lowercase", "trim", "arirang_filter"]
}
}
}
analyze 테스트 방법)
$ curl -XGET http://localhost:9200/memebox_deal_idx/_analyze?pretty -d '{
"analyzer":"arirang_analyzer",
"text":"elasticsearch 한국 사용자 그룹입니다."
}'
{
"tokens" : [ {
"token" : "elasticsearch",
"start_offset" : 0,
"end_offset" : 13,
"type" : "word",
"position" : 0
}, {
"token" : "한국",
"start_offset" : 14,
"end_offset" : 16,
"type" : "korean",
"position" : 1
}, {
"token" : "사용자",
"start_offset" : 17,
"end_offset" : 20,
"type" : "korean",
"position" : 2
}, {
"token" : "그룹",
"start_offset" : 21,
"end_offset" : 23,
"type" : "korean",
"position" : 3
} ]
}
사전 reload 방법)
$ curl -XGET http://localhost:9200/_arirang_dictionary_reload
- 클러스터 재시작 없이 사전 데이터 수정 후 리로드 잘 됩니다. 단, 이미 색인 된 문서들은 재색인 해야 합니다.