  1. 2015.12.10 [Elasticsearch - The Definitive Guide] Relevance is Broken!
  2. 2015.12.10 [Elasticsearch - The Definitive Guide] The match Query
  3. 2015.12.10 [Elasticsearch] Shard Allocation Filtering 설정 시 주의사항. (on 2.1)
  4. 2015.12.09 [Elasticsearch - The Definitive Guide] Ranges
  5. 2015.12.09 [Elasticsearch - The Definitive Guide] Segment Merging
  6. 2015.12.09 [Elasticsearch - The Definitive Guide] Making Changes Persistent
  7. 2015.12.09 [Elasticsearch - The Definitive Guide] Dynamically Updatable Indices
  8. 2015.12.09 [Elasticsearch - The Definitive Guide] Customizing Dynamic Mapping
  9. 2015.12.09 [Elasticsearch] Tribe Node
  10. 2015.12.03 [Elasticsearch - The Definitive Guide] Index Settings

[Elasticsearch - The Definitive Guide] Relevance is Broken!

2015. 12. 10.

예전에 어느 분이 elasticsearch에서 score 관련 문의를 주셨었는데요.

IDF 값에 대한 global value 를 사용하는지 였습니다.

Elasticsearch에서는 default 설정이 사용하지 않는다 입니다.

서비스와 문서 특징에 따라 다를수는 있지만 저 역시 반드시 global idf 값을 써야 하나 하는 생각이 듭니다.

일단 각설 하고, The Definitive Guide 에 올라온 내용 기록 합니다.



원문 Snippet)

However, for performance reasons, Elasticsearch doesn’t calculate the IDF across all documents in the index. Instead, each shard calculates a local IDF for the documents contained in that shard.


Don’t use dfs_query_then_fetch in production. It really isn’t required. Just having enough data will ensure that your term frequencies are well distributed. There is no reason to add this extra DFS step to every query that you run.


[Elasticsearch - The Definitive Guide] The match Query

2015. 12. 10.

Match Query 와 Term Query 가 어떻게 다른지 간단하게 정리하는 차원에서 기록 합니다.



Match Query Flow)

1. Check the field type

2. Analyze the query string (term query 로 재실행 됩니다.)

3. Find matching docs

4. Score each doc

Term Query Flow)

1. Find matching docs

2. Score each doc

보시면 아시겠지만 match query 보다 term  query가 수행 단계가 적습니다.

결국 match  query 를 실행 하더라도 term query 로 query rewrite 되기 때문에 검색 서비스 개발 시 잘 판단해서 사용하시면 좋을 듯 합니다.

보통은 front end 에서 smart query 또는 query preprocessing 이라고 해서 query stirng 에 대한 1차 가공 후 실제 검색엔진으로 질의시에는 term query  형태로 사용을 많이 합니다.


[Elasticsearch] Shard Allocation Filtering 설정 시 주의사항. (on 2.1)

2015. 12. 10.

hot-warm architecture 구성시 경험했던 팁 공유 합니다.

아주 사소한 팁입니다.



index settings 기능을 이용해서 "index.routing.allocation.{attribute}.{attribute}" 설정을 하게 됩니다.

이 과정에서 사용하는 REST API 가 두 가지가 있습니다.

[_settings API]

$ curl -XPUT "http://localhost:9200/db/_settings" -d'




[Request body에 settings]

$ curl -XPUT "http://localhost:9200/db" -d'


  "settings": {




개인적으로는 위 두 가지 방식이 다 동작해야 한다고 생각해서 실행을 시켰습니다.

해보시면 아시겠지만 아래 방식은 index_already_exists_exception 에러가 발생을 합니다.

Elasticsearch에 확인해본 결과로는 에러 메시지를 잘못 return 해준 경우라고 하내요. 즉, trivial 정도의 bug(?) 라고 봐도 될 것 같긴 합니다.

어쨌든 수정할 거라고 하니 나중에는 반영 되리라 기대 합니다.

그리고 http method 사용시 보시면 아시겠지만 PUT method 를 사용하셔야 합니다.

제가 POST 를 사용했는데요.

이 경우에는 PUT 을 사용하는게 맞다고 합니다.

제가 삽질한 이유가 되겠습니다. ㅡ.ㅡ;;


[Elasticsearch - The Definitive Guide] Ranges

2015. 12. 9.

Date type의 field에 대한 range query example 입니다.

기억력 향상을 위해 기록해 봅니다.



원문 Snippet)

"range" : { "timestamp" : { "gt" : "2014-01-01 00:00:00", "lt" : "2014-01-07 00:00:00" } }

"range" : { "timestamp" : { "gt" : "now-1h" } }

"range" : { "timestamp" : { "gt" : "2014-01-01 00:00:00", "lt" : "2014-01-01 00:00:00||+1M" } }


[Elasticsearch - The Definitive Guide] Segment Merging

2015. 12. 9.

알아 두면 매우 좋은 내용입니다.



원문 Snippet)

With the automatic refresh process creating a new segment every second, it doesn’t take long for the number of segments to explode.


This is the moment when those old deleted documents are purged from the filesystem. Deleted documents (or old versions of updated documents) are not copied over to the new bigger segment.


The merge process... does not interrupt indexing and searching.


Once merging has finished, the old segments are deleted

아래는 merge flow 요약 입니다.

1) merge 하기 위한 new segment 를 생성 합니다. (run optimize)

2) deleted mark 된 것들을 제외 하고 신규 segment 로 merge 대상 segment 들이 합쳐 집니다.)

3) 신규 commit point 를 생성 합니다. (merge 대상 segment 는 제거 하고, 신규 segment 와 아직 merge 가 안된 segment 정보만 기록 합니다.)

4) 검색 가능한 상태가 됩니다.

5) merge 가 완료된 segment는 삭제 됩니다.

※ 이 작업은 상당한 비용이(cpu, disk i/o) 발생 하기 때문에 사용시 주의하셔야 합니다.


[Elasticsearch - The Definitive Guide] Making Changes Persistent

2015. 12. 9.

per-segment search works 와 더불어 알아 두면 좋을 것 같아 올려봅니다.



원문 Snippet)

Elasticsearch uses this commit point during startup or when reopening an index to decide which segments belong to the current shard.


Elasticsearch added a translog, or transaction log, which records every operation in Elasticsearch as it happens.

아래는 원문에 나와 있는 Making Changes Persistent 에 대한 flow 정리 입니다.

1) write in-memory buffer & translog

2) write new segment file without fsync

3) flush in-memory buffer (run refresh and not yet flush)

4) write in-memory buffer & append translog 

5) write new segment file (run flush)

6) flush in-memory buffer

7) write commit point on disk

8) flush filesystem cache with fsync

9) delete old translog

10) create new translog

기본적으로 refresh 와 flush 는 간단하게 아래와 같이 이해 하시면 됩니다.

- refresh

검색 가능한 상태로 만들어 줍니다.

- flush

fsync 작업을 합니다. (commit point 기록 및 translog 제거)


[Elasticsearch - The Definitive Guide] Dynamically Updatable Indices

2015. 12. 9.

Elasticsearch가 lucene 기반으로 만들어진 분산검색엔진 이라는 것은 이미 잘 알고 계실겁니다.

하지만 elasticsearch를 사용하시는 분들중 lucene을 잘 아시는 분들은 그렇게 많이 계시지는 않은것 같아 참고 할 만한 좋은 내용이 있어 올려 봅니다.



원문 Snippet)

[Deletes and Updates]

Segments are immutable, so documents cannot be removed from older segments, nor can older segments be updated to reflect a newer version of a document. Instead, every commit point includes a .del file that lists which documents in which segments have been deleted.

When a document is “deleted,” it is actually just marked as deleted in the .del file. A document that has been marked as deleted can still match a query, but it is removed from the results list before the final query results are returned.

Document updates work in a similar way: when a document is updated, the old version of the document is marked as deleted, and the new version of the document is indexed in a new segment. Perhaps both versions of the document will match a query, but the older deleted version is removed before the query results are returned.

아래는 원문에 나와 있는 per-segment search works 간단 정리 입니다.

1) write in-memory buffer

2) write new segment file from in-memory buffer

3) write commit point (Refresh API on Elasticsearch)

4) flush in-memory buffer

5) searchable

※ 이 내용과 실제 elasticsearch 에서 primary shard 와 replica shard 간 데이터가 sync 되는 것과는 다른 내용입니다.


[Elasticsearch - The Definitive Guide] Customizing Dynamic Mapping

2015. 12. 9.

별건 아니고 작은 팁 정도 입니다.




[date_detection 설정]

PUT /my_index { "mappings": { "my_type": { "date_detection": false } } }

dynamic mapping 의 경우 아래 세 가지 옵션을 가집니다.

Add new fields dynamically—the default
Ignore new fields
Throw an exception if an unknown field is encountered

date_detection 설정의 경우 문서에도 있지만 처음 들어온 데이터가 date type 으로 인식이 되면 이후 데이터가 string 이더라도 date 로 처리가 된다는 이야기 입니다. 그렇기 때문에 에러가 발생을 하게 될 것이구요.

저는 기본적으로 dynamic mapping 은 false 또는 strict 로 구성 하는 것을 추천 드립니다.

이유는 위와 같은 문제도 있고 하고자 하는 것에 대한 투명성을 보장하는게 좋지 않나 생각해서 입니다.


[Elasticsearch] Tribe Node

2015. 12. 9.

tribe node는 서로 다른 cluster로 구성된 elasticsearch의 데이터에 대해서 질의 또는 색인이 가능 하도록 제공하는 기능 입니다.

RDBMS의 view 와 비슷한 개념이라고 생각 하시면 쉽습니다.





이제 부터 간단하게 구성하는 방법을 살펴 보겠습니다.

elasticsearch 다운로드와 설치 과정은 아래 링크 참고하세요.

- https://www.elastic.co/guide/en/elasticsearch/reference/current/_installation.html


1. 노드구성

위에서 이야기 한 것과 같이 서로 다른 Cluster라고 했습니다.

그렇기 때문에 standalone 구성의 cluster 두 개를 준비 하겠습니다.

더불어 tribe node 도 하나 구성을 합니다.

- 총 3개의 노드

2. 노드설정

- Cluster 1


cluster.name: t1-cluster

node.name: t1-node

http.port: 9201

transport.tcp.port: 9301

index.number_of_shards: 1

index.number_of_replicas: 0

- Cluster 2


cluster.name: t2-cluster

node.name: t2-node

http.port: 9202

transport.tcp.port: 9302

index.number_of_shards: 1

index.number_of_replicas: 0

- Tribe Node(cluster)


tribe.t1.cluster.name: "t1-cluster"

tribe.t1.discovery.zen.ping.multicast.enabled: false

tribe.t1.discovery.zen.ping.unicast.hosts: ["localhost:9301"]

tribe.t2.cluster.name: "t2-cluster"

tribe.t2.discovery.zen.ping.multicast.enabled: false

tribe.t2.discovery.zen.ping.unicast.hosts: ["localhost:9302"]

tribe.blocks.write: true

tribe.blocks.metadata: true

cluster.name: "tribe-cluster"

node.name: "tribe-node"

http.port: 9200

3. 클러스터실행

생성한 3개의 클러스터를 실행 합니다.

4. Cluste 1과 Cluster 2에 Index 생성 및 색인

그냥 구성 샘플이라 문서 하나씩만 색인 하겠습니다.

Cluster 1)

- sample1.json

{"index":{"_index":"db", "_type":"tbl"}}

{"number":"1","name":"MALICE MIZER","url":"http://www.last.fm/music/MALICE+MIZER","picture":"http://userserve-ak.last.fm/serve/252/10808.jpg","@timestamp":"2000-10-06T19:20:25.000Z"}

$ curl -XPOST http://localhost:9201/db/tbl/_bulk --data-binary @sample1.json

Cluster 2)

- sample2.json

{"index":{"_index":"db2", "_type":"tbl"}}

{"number":"2","name":"Diary of Dreams","url":"http://www.last.fm/music/Diary+of+Dreams","picture":"http://userserve-ak.last.fm/serve/252/3052066.jpg","@timestamp":"2001-10-06T19:20:25.000Z"}

$ curl -XPOST http://localhost:9202/db2/tbl/_bulk --data-binary @sample2.json

5. Tribe Node(Cluster)를 이용한 질의

질의) Cluster 1

$ curl -XGET "http://localhost:9200/db/_search" -d'


    "query": {

        "match_all": {}





   "took": 24,

   "timed_out": false,

   "_shards": {

      "total": 1,

      "successful": 1,

      "failed": 0


   "hits": {

      "total": 1,

      "max_score": 1,

      "hits": [


            "_index": "db",

            "_type": "tbl",

            "_id": "AVFhPAntBw75btupmZWX",

            "_score": 1,

            "_source": {

               "number": "1",

               "name": "MALICE MIZER",

               "url": "http://www.last.fm/music/MALICE+MIZER",

               "picture": "http://userserve-ak.last.fm/serve/252/10808.jpg",

               "@timestamp": "2000-10-06T19:20:25.000Z"






질의) Cluster 2

curl -XGET "http://localhost:9200/db2/_search" -d'


    "query": {

        "match_all": {}





   "took": 16,

   "timed_out": false,

   "_shards": {

      "total": 1,

      "successful": 1,

      "failed": 0


   "hits": {

      "total": 1,

      "max_score": 1,

      "hits": [


            "_index": "db2",

            "_type": "tbl",

            "_id": "AVFha2Vz4YXacqLkqH0V",

            "_score": 1,

            "_source": {

               "number": "2",

               "name": "Diary of Dreams",

               "url": "http://www.last.fm/music/Diary+of+Dreams",

               "picture": "http://userserve-ak.last.fm/serve/252/3052066.jpg",

               "@timestamp": "2001-10-06T19:20:25.000Z"






View 질의) Tribe Node(Cluster)

$ curl -XGET "http://localhost:9200/_search" -d'


    "query": {

        "match_all": {}





   "took": 12,

   "timed_out": false,

   "_shards": {

      "total": 2,

      "successful": 2,

      "failed": 0


   "hits": {

      "total": 2,

      "max_score": 1,

      "hits": [


            "_index": "db",

            "_type": "tbl",

            "_id": "AVFhPAntBw75btupmZWX",

            "_score": 1,

            "_source": {

               "number": "1",

               "name": "MALICE MIZER",

               "url": "http://www.last.fm/music/MALICE+MIZER",

               "picture": "http://userserve-ak.last.fm/serve/252/10808.jpg",

               "@timestamp": "2000-10-06T19:20:25.000Z"




            "_index": "db2",

            "_type": "tbl",

            "_id": "AVFha2Vz4YXacqLkqH0V",

            "_score": 1,

            "_source": {

               "number": "2",

               "name": "Diary of Dreams",

               "url": "http://www.last.fm/music/Diary+of+Dreams",

               "picture": "http://userserve-ak.last.fm/serve/252/3052066.jpg",

               "@timestamp": "2001-10-06T19:20:25.000Z"






※ 부가적으로 alias 기능과 함께 활용하시면 아주 유용하게 사용하실 수 있습니다.


[Elasticsearch - The Definitive Guide] Index Settings

2015. 12. 3.

아주 좋은 글 귀가 보여서 이건 기록을 안할래야.. ^^


원문 Snippet)

Elasticsearch comes with good defaults. Don’t twiddle these knobs until you understand what they do and why you should change them.

Elasticsearch는 잘 모르겠다 싶으시면 그냥 default 로 사용하시는게 제일 좋습니다. :)
