'엘라스틱서치'에 해당되는 글 17건

  1. 2019.08.28 [Elasticsearch] Node Topology 7.x
  2. 2018.12.19 [Elasticsearch] Settings/Mappings 테스트 템플릿
  3. 2018.04.18 [Elasticsearch] elasticsearch-docker plugin 설치는 어떻게?
  4. 2018.04.06 [Elasticsearch] Split Index 기능 맛보기
  5. 2018.04.06 [Elasticsearch] Elasticsearch Case Study 1) Data 노드에 Index/Shard 구성 시작 해보기
  6. 2018.04.05 [Elasticsearch] 쉽게 Elasticsearch Estimation 하기
  7. 2018.04.04 [Elasticsearch] Contribution 하기 위한 준비 작업
  8. 2018.03.23 책 구매해 주신 분들께 감사드립니다.
  9. 2016.06.28 [Elasticsearch] This Week in Elasticsearch and Apache Lucene - 2016-06-27
  10. 2016.04.22 [Elasticsearch] Elasticsearch에서 synonyms 사용 시 고려사항.

[Elasticsearch] Node Topology 7.x

Elastic/Elasticsearch 2019. 8. 28. 10:54

사용성에서 정확한 정의가 없어서 많이들 헷갈려 하셨던 Node 가 정리가 된 것 같아 기록해 봅니다.

 

원문 링크)

https://www.elastic.co/guide/en/elasticsearch/reference/7.3/modules-node.html

 

Master Eligible Node

- node.master

마스터 노드는 전용으로 구성 하는 것을 추천 하며, 최소한의 작업을 수행 하도록 하는 것이 좋습니다.

 

Data Node

- node.data

CPU-, Memory-, I/O 성능 영향을 많이 받기 때문에 좋은 장비로 구성 하시길 추천 드립니다.

또한 Network 사용량에 대한 고려도 해야 합니다.

 

Ingest Node

- node.ingest

 

Machine Learning Node (x-pack)

- node.ml

 

Coordinating Node

node.master: false

node.data: false

node.ingest: false

node.ml: false

이 노드의 수를 너무 많이 늘리지 않도록 주의 하는게 좋습니다.

이유는 마스터 노드가 선출 되었을 때 모든 노드의 승인을 기다리게 되어 오히려 성능적으로 손해를 볼 수도 있습니다.

 

Voting Only Node (x-pack)

- node.voting_only

:

[Elasticsearch] Settings/Mappings 테스트 템플릿

Elastic/Elasticsearch 2018. 12. 19. 09:46

그냥 뭐 급하게 테스트 할 때 필요해서 올려 놓고 쓰려고 합니다.

(git 에 올리면 될 것을 ㅡ.ㅡ;;)


http://localhost:9200/helloworld

{

    "settings": {

        "index": {

            "number_of_shards": 1,

            "number_of_replicas": 0,

            "analysis": {

                "analyzer": {

                    "custom_analyzer": {

                        "tokenizer": "standard",

                        "filter": [

                            "lowercase",

                            "trim",

                            "custom_synonym"

                        ]

                    },

                    "cnori_analyzer" : {

                    "type" : "custom",

                    "tokenizer" : "cnori_tokenizer"

                    }

                },

                "tokenizer" : {

                "cnori_tokenizer" : {

                "type": "nori_tokenizer",

            "decompound_mode": "mixed"

                }

                },

                "filter": {

                    "custom_synonym": {

                        "type": "synonym_graph",

                        "synonyms": []

                    }

                }

            }

        }

    },

    "mappings": {

        "_doc": {

            "properties": {

                "title": {

                    "type": "text",

                    "analyzer" : "cnori_analyzer",

                    "fielddata" : true

                },

                "name": {

                    "type": "keyword"

                },

                "age": {

                    "type": "integer"

                },

                "created": {

                    "type": "date",

                    "format": "strict_date_optional_time||epoch_millis"

                }

            }

        }

    }

}



:

[Elasticsearch] elasticsearch-docker plugin 설치는 어떻게?

Elastic/Elasticsearch 2018. 4. 18. 15:44

Elasticsearch docker 만들어 보기 참고하세요.


초간단 예제를 보여 드리겠습니다.

Dockerfile 에 추가해 주시면 됩니다.


# plugin 을 설치 합니다.

RUN bin/elasticsearch-plugin install --batch analysis-icu


$ docker run elasticsearch-6.2.3-ubuntu-14.04-jdk8u152 ls -al plugins/

total 12

drwxr-xr-x 1 elasticsearch elasticsearch 4096 Apr 18 06:38 .

drwxr-xr-x 1 elasticsearch elasticsearch 4096 Apr 18 06:37 ..

drwxr-xr-x 2 elasticsearch elasticsearch 4096 Apr 18 06:38 analysis-icu


참 쉽습니다.

:

[Elasticsearch] Split Index 기능 맛보기

Elastic/ElasticsearchReferences 2018. 4. 6. 14:24

Split index 기능에 대해서 공식 문서에 나와 있는 내용을 그대로 테스트 해봤습니다.

(Shrink 와 Split 은 모두 Resize Action 에 해당 합니다.)


Reference)

https://www.elastic.co/guide/en/elasticsearch/reference/current/indices-split-index.html


이 split index API 는 기존에 존재하는 또는 생성된 index 의 primary shard 를 신규 index 로 기존 primary shard 크기 보다 크게 split 해서 생성해 주는 역할을 합니다.


RESTful endpoint 는 _split 입니다.


근데 7.0 에서는 삭제 된다고 하니 제가 이걸 왜 쓰고 있는지 모르겠습니다.

하지만 늘 그렇듯이 Elasticsearch 에서는 기능이 없어지게 되면 대체 가능한 기능을 추가로 제공해 줍니다. :)


이 API 사용시 제일 중요한 부분은 IMPORTANT 에 잘 나와 있습니다.


The _split API requires the source index to be created with a specific number_of_routing_shards in order to be split in the future. This requirement has been removed in Elasticsearch 7.0.


※ Source index 를 생성 할때 설정을 해줘야 한다는 이야기 입니다.


그럼 문서에 나와 있는 데로 한번 돌려 보겠습니다.

하지 전에, elasticsearch 하나 띄워 놓으시고 kibana 도 띄워 놓으세요. 그래야 편하게 dev tool 이용해서 request 할 수 있겠죠.


Step 1) Preparing an index for splitting

Source index 를 생성 하는 과정이며 이 과정에서 반드시 routing shard 정보를 설정 하셔야 합니다.


PUT my_source_index

{

    "settings": {

        "index.number_of_shards" : 1,

        "index.number_of_replicas" : 0,

        "index.number_of_routing_shards" : 2

    }

}


Step 2) Set read-only mode

Split 하기 전에 반드시 읽기 전용으로 반드시 설정을 하셔야 합니다. 안하시면 에러 납니다.

그럼 왜 해야 할까요?

보통 DB 마이그레이션 작업 하실때 생각을 해보시면 됩니다. :)


PUT /my_source_index/_settings

{

  "settings": {

    "index.blocks.write": true 

  }

}


문서를 자세히 보기 전까지 저 설정이 block 단위로 write 할 수 있도록 해주는 설정인 줄 알았습니다. ^^;


Step 3) Splitting an idex

이제 primary shard 를 2 개로 늘려 보겠습니다.


POST my_source_index/_split/my_target_index

{

  "settings": {

    "index.number_of_shards": 2,

    "index.number_of_replicas" : 0

  }

}


이 단계 작업을 하면서 주의 할 점은 당연한 내용이지만, 

1. target index 가 없어야 겠죠.

2. source index 의 primary shard 보다 커야 겠죠.

3. factor 조건을 만족 해야 합니다.


routingNumShards % numTargetShards != 0 이면 안되구요.


if (sourceNumberOfShards < targetNumberOfShards) { // split

factor = targetNumberOfShards / sourceNumberOfShards;

if (factor * sourceNumberOfShards != targetNumberOfShards || factor <= 1) { 이면 안되구요. }

}


즉,

- 나눠서 나머지가 없어야 합니다.

- target shard 는 routing shard 보다 작거나 같아야 합니다.


아래는 factor 조건을 만족하지 않는 예시 입니다.


PUT my_source_index

{

    "settings": {

        "index.number_of_shards" : 1,

        "index.number_of_replicas" : 0,

        "index.number_of_routing_shards" : 4

    }

}


PUT /my_source_index/_settings

{

  "settings": {

    "index.blocks.write": true 

  }

}


POST my_source_index/_split/my_target_index

{

  "settings": {

    "index.number_of_shards": 3,

    "index.number_of_replicas" : 0

  }

}


조건 1) 

4 % 3 => 1 // 0 이 되어야 합니다.


조건 2) 

assert getRoutingFactor(3, 4) >= 0


if ( 3 < 4 ) {

    factor = 4 / 3; // factor = 1

    if ( factor * 3 != 4 || factor <= 1) {

        throw new IllegalArgumentException(.....);

    }

}



혹시라도 사용하셔야 하는 분들이 계시다면 참고 하시면 되겠습니다.

:

[Elasticsearch] Elasticsearch Case Study 1) Data 노드에 Index/Shard 구성 시작 해보기

Elastic/Elasticsearch 2018. 4. 6. 10:13

Elasticsearch Case Study 1) Data 노드에 Index/Shard 구성 시작 해보기

- Data Node 3개, Active Index 1개

- Data Node Spec)

CPU : 16 cores

- 지속적인 Read/Write operaiton 이 발생 하는 경우로 가정 하겠습니다.


Primary/Replica Shard Sizing)

- Shard 구성을 하실 때 가장 쉽게 접근 할 수 있는 방법은 CPU 코어 크기를 가지고 판단 하시면 됩니다.

- Data 노드 하나당 active shard 로 배치 할 수 있는 가장 기본은 코어 크기와 똑같이 구성 하시는 것입니다.


위에 16 코어로 가정했기 때문에 Data 노드에는 16개의 Shard 를 할당 할 수 있습니다.


Elasticsearch Settings 정보)

curl -XPUT http://localhost:9200/case-study-1/_settings '{

    "settings" : {

        "index" : {

            "number_of_shards" : 15,

            "number_of_replicas" : 2

        }

    }

}'


이와 같이 Index 를 생성 하게 되면 아래와 같이 shard 가 배치 됩니다.


Data node 1 : 

Primary Shards : 0, 1, 2, 3, 4

Replica Shards : 5, 6, 7, 8, 9, 10, 11, 12, 13, 14

Data node 2 :

Primary Shards : 5, 6, 7, 8, 9

Replica Shards : 0, 1, 2, 3, 4, 10, 11, 12, 13, 14

Data node 3 :

Primary Shards : 10, 11, 12, 13, 14

Replica Shards : 5, 6, 7, 8, 9, 0, 1, 2, 3, 4


보시게 되면 모든 Data 노드에 Shard 가 15개씩 할당 되어 있는 것을 확인 하실 수 있습니다.

여기까지 확인 하셨으면 이제 부터가 시작 입니다.


Data 노드에 Index, Shard에 대한 기본 설정은 했지만 이게 최적화 된 것인지는 알수 없습니다.

그래서 사용환경에 맞춰서 성능 테스트를 해 보셔야 합니다.


아래 질문에 답변을 해보세요.


1. 내가 사용하고자 하는 클러스터는 질의 및 분석에 최적화 되어야 한다.

2. 내가 사용하고자 하는 클러스터는 색인에 최적화 되어야 한다.

3. 내가 사용하고자 하는 클러스터는 질의, 분석 그리고 색인 모두 최적화 되어야 한다.


1번을 원하신다면 아래 항목들에 대해서 검토를 해보시면 좋습니다.

질의 와 분석은 CPU 와 Memory 를 많이 사용하기 때문에 충분한 자원이 준비 되어 있어야 합니다.

그리고 Document 에 대한 mapping 정보 최적화가 필요 합니다.

1. Match query 종류를 사용해야 하는가? (주로 Full text query를 의미 합니다.)

- Elastic 사에서는 Full text queries 라고 합니다.

2. Term query 종류를 사용해야 하는가? (주로 Exact match query를 의미 합니다.)

- Elastic 사에서는 Term level queries 라고 합니다.

3. Aggregation 질의가 많은가?

4. Nested 유형의 Aggregation 질의가 많은가?


2번을 원하신다면 아래 항목들에 대해서 검토를 해보시면 좋습니다.

색인 작업은 CPU 와 Disk I/O 성능에 영향을 많이 받습니다.

또한 사용하는 형태소 분석기에 따른 성능 변화도 확인을 하셔야 합니다.


사실 색인에 최적화 라는건 Bulk Indexing 이 아니고서는 다른 주제 인것 같습니다.

로그 데이터의 경우 보통은 Data 노드의 처리량을 고려해서 앞단에 Queue 를 사용하고,

여기서 Beats 나 Logstash 와 같은 Shipper 를 이용해서 Elasticsearch 로 색인하도록 구성을 합니다.

결과적으로 Queue + Beats/Logstash + Elasticsearch 에 대한 최적화 작업 없이는 어려운 작업 입니다.


Elasticsearch 관점에서 바라보면:Bulk Indexing)

1. Dynamic mapping 사용을 피하는게 좋습니다.

2. 불필요한 Analyzed 과정을 제거 하는게 좋습니다.

3. Bulk 요청 시 Replica 와 Refresh 를 사용하지 않는게 좋습니다.

4. _all Field 사용을 피하는게 좋습니다.

5. _id 는 가능 하면 임의 설정을 하지 않는게 좋습니다.

6. Index Buffer Size 를 512MB 정도까지 크게 설정 하는게 좋습니다.

7. 기타 등등 사소한 튜닝 팁들이 많습니다.


3번을 원하신다면 아래 항목들에 대해서 검토를 해보시면 좋습니다.

가장 어려운 요구사항 입니다.

이런 경우 클러스터의 노드와 인덱스 구성을 분리해서 사용하시는게 좋습니다.

1. Cross Cluster Search(Tribe Node) 에 대해서 검토해 봅니다.

2. Hot-Warm Architecture 에 대해서 검토해 봅니다.

3. Index Alias 기능에 대해서 검토해 봅니다.

4. Shrink, Split, Reindex, Rollover, Rollup 기능에 대해서 검토해 봅니다.

5. Snapshot 과 Restore 기능에 대해서 검토해 봅니다.


이번 Case Study 는 아주 단순 합니다.

요구사항은 알수 없고 단순히 Data 노드 규모와 스펙만으로 Index/Shard 배치를 설정 하는 것이였습니다.

"왜 이렇게/저렇게 해야 하지?" 라는 궁금증이 드시는 부분은 이해를 돕기 위해 추가적인 설명이 들어가야 하는데 과감히 생략 했습니다. (커뮤니티에 질문 주시거나 저를 만나시면 물어보세요. 친절히 설명해 드리겠습니다.)


항상 반복 되는 이야기지만,

사용 환경에 맞게 테스트 하시고 최적화 하는게 정답입니다.

시작 하기 전에 조금이나마 도움이 될 수 있는 내용을 작성한 것이지 이대로 하면 된다는 것은 아닙니다.

알아야 할 것도 많고 검증 해야 할 것도 많습니다.

시간과 인력이 부족 하시다면 Elastic 사에서 지원하는 좋은 프로그램들이 있으니 참고 하셔도 좋을 것 같습니다.


궁금 하신 것들이 있으시면 Facebook 유저 커뮤니티에 질문으로 올려 주세요.

제가 할 수 있다면 도움 드릴 수 있도록 하겠습니다.

:

[Elasticsearch] 쉽게 Elasticsearch Estimation 하기

Elastic/Elasticsearch 2018. 4. 5. 15:44

Elasticsearch 를 이용해서 클러스터를 구성 하거나 인덱스를 구성 할 때 아는게 하나도 없는 상황에서 규모에 대한 평가를 하기 위한 기본 정보로 사용하시면 좋을 것 같아 공유 합니다.


기본 전제는 사용하는 환경에 맞게 테스트 및 최적화를 하셔야 합니다.


  • 1 shard around 20GB (max 50GB)


일반적인 서비스용 데이터에 대한 Shard 크기는 최대 20GB 를 넘지 않도록 설계 하시는게 좋으며, 로그 데이터의 경우 50GB 를 넘지 않도록 설계 하시면 됩니다.

이를 기준으로 사용 환경에 맞춰 성능 테스트를 하시고 크기를 최적화 하시면 됩니다.


  • Machine Spec
    • Master ( 1/2 of search ) < Search ( 1/2 of data ) <= Data
    • Minimum Master Node Spec ( m4.large )
      • CPU 2 cores
      • MEM 8GB


장비는 스펙이 좋으면 좋을 수록 좋습니다. 이건 다다익선이죠. 하지만 비용 문제가 있기 때문에 적절한 스펙 선정을 해야 합니다.

장비 하나에 인스턴스 하나를 띄운다고 가정 하고 일반적인 검색엔진 추천 스펙으로 정의 하면) 

장비 스펙이지 노드 스펙이 아닙니다.


  • CPU : 32 cores
  • MEM : 64GB


위 장비 스펙을 Data 노드라고 가정하면,
    • Search(Client) 노드의 장비 스펙은)
      • 32 cores X 32GB
      • 16 cores X 32GB


    • Master 노드의 장비 스펙은)
      • 8 cores X 16GB
      • 4 cores X 16GB


  • Primary Shards
    • CPU core size eq primary shards ( 1/2 of CPU cores )


위에 정리한 내용들의 출발은 알고 있는 정보가 전혀 없다는 가정에서 시작한 것입니다.

처음 시작 하시는 분들에게는 어디서 부터 어떻게 해야 할지 모르기 때문에 시작 할 수 있는 정보가 있다면 조금은 시간낭비나 고민을 덜어 드릴수 있지 않을까 싶어서 공유 합니다.


인덱스와 샤드에 대한 생성과 배치 전략에 대해서도 공유를 드리도록 하겠습니다.

그 전에 아주 옛날에 작성한 글 하나가 있어서 링크 투척하고

[Elasticsearch] replica & shard 이해하기.


약간의 부연 설명만 하고 마무리 하겠습니다.


1. Primary shard

원본 데이터 입니다.

한번 정의 하면 변경 할 수 없으며, 현재는 shrink, split, reindex 등의 API 를 이용해서 뭔가의 조작은 가능 합니다. (이것도 나중에 관련 API 설명을 해야 겠군요..)



2. Replica shard

복제 데이터 입니다.

동적으로 변경이 가능 하며, 장애 방지 및 검색 질의에 대한 throughput 향상에 활용 합니다.

(참고로 Replica shard 는 Primary shard 로 승격이 가능 합니다. - 참고문서)

:

[Elasticsearch] Contribution 하기 위한 준비 작업

Elastic/Elasticsearch 2018. 4. 4. 12:31

Elasticsearch 소스코드를 수정 하거나 디버깅을 하고 싶을 때가 있습니다.

로컬에서 빌드 부터 해야 가능하겠죠.


특별히 contributing 을 목적으로 하지는 않지만, 그래도 이왕이면 버그 수정도 하고 contribution 도 하면 좋겠죠.


아래는 이미 문서에 자세히 나와 있는 내용을 그냥 요약 정도 해본 내용입니다.

(기억을 위해 한번 더 작성해 본 내용입니다.)


Reference)

https://github.com/elastic/elasticsearch/blob/master/CONTRIBUTING.md

https://github.com/elastic/elasticsearch/blob/master/TESTING.asciidoc


사전 준비 도구)

- JDK 10 다운로드 및 설치 (Build 용)

- JDK 8 다운로드 및 설치 (Runtime 용)

- Gradle 4.3 다운로드 및 설치


JDK 10 설치 후 환경변수 설정)

$ vi .bash_profile

export JAVA_HOME=$(/usr/libexec/java_home)

export RUNTIME_JAVA_HOME=/Library/Java/JavaVirtualMachines/jdk1.8.0_144.jdk/Contents/Home


Intellij 환경설정)

This can be achieved by adding the -Didea.no.launcher=true JVM option. 

IntelliJ, go to Run->Edit Configurations...->Defaults->JUnit->VM options and input -ea.

$ ./gradlew idea


Formatting 설정)

- Java indent is 4 spaces

- Line width is 140 characters

- IntelliJ: Preferences/Settings->Editor->Code Style->Java->Imports

- Class count to use import with '*' and Names count to use static import with '*'. Set their values to 99999


Elasticsearch run)

$ ./gradlew run


# 실행 시 9200과 9300 port 로 실행 중인 elasticsearch daemon 이 있으면 에러 발생 합니다.


Logging level 설정)

# path : distribution/src/config/log4j2.properties


$ vi log4j2.properties

ASIS)

rootLogger.level = info


TOBE)

rootLogger.level = debug


Create distribution)

$ ./gradlew assemble

$ ./gradlew check


:

책 구매해 주신 분들께 감사드립니다.

Legacy 2018. 3. 23. 17:08

정말 죄송하고 감사합니다.

독자 여러분 그리고 아직도 부족한 제 책을 구매해 주신분들.

인증 사진과 함께 궁금한거 문의 주시면 무료 컨설팅 해드리겠습니다.

:

[Elasticsearch] This Week in Elasticsearch and Apache Lucene - 2016-06-27

Elastic/Elasticsearch 2016. 6. 28. 09:53

몇 가지 눈에 들어 오는게 있어서 scrap 합니다.


[원문]

https://www.elastic.co/blog/this-week-in-elasticsearch-and-apache-lucene-2016-06-27


[요점]

- low-level Java REST client has landed.

별도의 http client 를 이용해서 만들지 않고 es 에서 제공하는거 사용하면 될 것 같습니다.


- index.store.preload

warmmer 기능이 이걸로 대체 되는 것 같습니다.


- no longer turns red when creating an index

순간 red 나올 때가 있었는데 false alarm 이 줄어 들겠내요.


- default similarity is now BM25

TF/IDF 에서 BM25로 넘어 가는 군요.


- wait for status yellow

yellow 도 간혹 발생을 하는데 앞으로 status 에 대해서 다시 점검을 해야 겠내요.


Elasticsearch Core

Changes in 2.x:


Changes in master:


Ongoing changes:

    Apache Lucene


    :

    [Elasticsearch] Elasticsearch에서 synonyms 사용 시 고려사항.

    Elastic/Elasticsearch 2016. 4. 22. 17:59

    뭐 이런게 고려 사항 일까 싶지만 그냥 머리 식히기 위해서 작성해 봅니다.


    synonyms 는 기본적으로 search 시와 index 시에 다 사용이 가능 합니다.

    이 둘 사이에 장단점은 아래 링크를 참고해 주시면 좋겠습니다.


    참고링크)

    https://www.elastic.co/guide/en/elasticsearch/guide/2.x/synonyms-expand-or-contract.html


    search 시 synonyms 를 적용하기 위해서는 match query 종류를 사용하셔야 합니다.

    간혹 term query 종류를 사용하시면서 왜 안되지 하시는 분들도 있는데 주의 하셔야 합니다.


    index 시 synonyms 를 적용하기 위해서는 synonyms filter 우선순위를 잘 확인 하셔야 합니다.

    제일 앞에 있는 filter 때문에 적용이 안될 수도 있으니 주의 하셔야 합니다.

    이 경우 search 시 term query 류를 사용하면 안되던 것이 지원이 되기 때문에 요건에 따라 선택해서 사용하시면 좋을 것 같습니다.


    :