'elastic'에 해당되는 글 130건

  1. 2018.04.06 [Elasticsearch] Elasticsearch Case Study 1) Data 노드에 Index/Shard 구성 시작 해보기
  2. 2018.04.04 [Elasticsearch] Contribution 하기 위한 준비 작업
  3. 2017.11.15 [Elasticsearch] elasticsearch-arirang-analyzer-6.0.0 릴리즈
  4. 2017.11.14 [Lucene] Inverted index file - 역인덱스 파일
  5. 2017.11.14 [Elasticsearch] _id mapping 시 path 설정
  6. 2017.10.19 [Elasticsearch] Arirang Analyzer + Elasticsearch Analyzer Plugin 사용자 관점 개발리뷰
  7. 2017.08.17 [Logstash] input file start_position => "end"
  8. 2017.08.03 [Elasticsearch] Snapshot and Restore 알아보기
  9. 2017.07.19 [Logstash] input file plugin 에 대해서 알아 봅니다.
  10. 2017.07.17 [esquery-proxy] Elasticsearch 용 RESTful API Gateway/Proxy

[Elasticsearch] Elasticsearch Case Study 1) Data 노드에 Index/Shard 구성 시작 해보기

Elastic/Elasticsearch 2018. 4. 6. 10:13

Elasticsearch Case Study 1) Data 노드에 Index/Shard 구성 시작 해보기

- Data Node 3개, Active Index 1개

- Data Node Spec)

CPU : 16 cores

- 지속적인 Read/Write operaiton 이 발생 하는 경우로 가정 하겠습니다.


Primary/Replica Shard Sizing)

- Shard 구성을 하실 때 가장 쉽게 접근 할 수 있는 방법은 CPU 코어 크기를 가지고 판단 하시면 됩니다.

- Data 노드 하나당 active shard 로 배치 할 수 있는 가장 기본은 코어 크기와 똑같이 구성 하시는 것입니다.


위에 16 코어로 가정했기 때문에 Data 노드에는 16개의 Shard 를 할당 할 수 있습니다.


Elasticsearch Settings 정보)

curl -XPUT http://localhost:9200/case-study-1/_settings '{

    "settings" : {

        "index" : {

            "number_of_shards" : 15,

            "number_of_replicas" : 2

        }

    }

}'


이와 같이 Index 를 생성 하게 되면 아래와 같이 shard 가 배치 됩니다.


Data node 1 : 

Primary Shards : 0, 1, 2, 3, 4

Replica Shards : 5, 6, 7, 8, 9, 10, 11, 12, 13, 14

Data node 2 :

Primary Shards : 5, 6, 7, 8, 9

Replica Shards : 0, 1, 2, 3, 4, 10, 11, 12, 13, 14

Data node 3 :

Primary Shards : 10, 11, 12, 13, 14

Replica Shards : 5, 6, 7, 8, 9, 0, 1, 2, 3, 4


보시게 되면 모든 Data 노드에 Shard 가 15개씩 할당 되어 있는 것을 확인 하실 수 있습니다.

여기까지 확인 하셨으면 이제 부터가 시작 입니다.


Data 노드에 Index, Shard에 대한 기본 설정은 했지만 이게 최적화 된 것인지는 알수 없습니다.

그래서 사용환경에 맞춰서 성능 테스트를 해 보셔야 합니다.


아래 질문에 답변을 해보세요.


1. 내가 사용하고자 하는 클러스터는 질의 및 분석에 최적화 되어야 한다.

2. 내가 사용하고자 하는 클러스터는 색인에 최적화 되어야 한다.

3. 내가 사용하고자 하는 클러스터는 질의, 분석 그리고 색인 모두 최적화 되어야 한다.


1번을 원하신다면 아래 항목들에 대해서 검토를 해보시면 좋습니다.

질의 와 분석은 CPU 와 Memory 를 많이 사용하기 때문에 충분한 자원이 준비 되어 있어야 합니다.

그리고 Document 에 대한 mapping 정보 최적화가 필요 합니다.

1. Match query 종류를 사용해야 하는가? (주로 Full text query를 의미 합니다.)

- Elastic 사에서는 Full text queries 라고 합니다.

2. Term query 종류를 사용해야 하는가? (주로 Exact match query를 의미 합니다.)

- Elastic 사에서는 Term level queries 라고 합니다.

3. Aggregation 질의가 많은가?

4. Nested 유형의 Aggregation 질의가 많은가?


2번을 원하신다면 아래 항목들에 대해서 검토를 해보시면 좋습니다.

색인 작업은 CPU 와 Disk I/O 성능에 영향을 많이 받습니다.

또한 사용하는 형태소 분석기에 따른 성능 변화도 확인을 하셔야 합니다.


사실 색인에 최적화 라는건 Bulk Indexing 이 아니고서는 다른 주제 인것 같습니다.

로그 데이터의 경우 보통은 Data 노드의 처리량을 고려해서 앞단에 Queue 를 사용하고,

여기서 Beats 나 Logstash 와 같은 Shipper 를 이용해서 Elasticsearch 로 색인하도록 구성을 합니다.

결과적으로 Queue + Beats/Logstash + Elasticsearch 에 대한 최적화 작업 없이는 어려운 작업 입니다.


Elasticsearch 관점에서 바라보면:Bulk Indexing)

1. Dynamic mapping 사용을 피하는게 좋습니다.

2. 불필요한 Analyzed 과정을 제거 하는게 좋습니다.

3. Bulk 요청 시 Replica 와 Refresh 를 사용하지 않는게 좋습니다.

4. _all Field 사용을 피하는게 좋습니다.

5. _id 는 가능 하면 임의 설정을 하지 않는게 좋습니다.

6. Index Buffer Size 를 512MB 정도까지 크게 설정 하는게 좋습니다.

7. 기타 등등 사소한 튜닝 팁들이 많습니다.


3번을 원하신다면 아래 항목들에 대해서 검토를 해보시면 좋습니다.

가장 어려운 요구사항 입니다.

이런 경우 클러스터의 노드와 인덱스 구성을 분리해서 사용하시는게 좋습니다.

1. Cross Cluster Search(Tribe Node) 에 대해서 검토해 봅니다.

2. Hot-Warm Architecture 에 대해서 검토해 봅니다.

3. Index Alias 기능에 대해서 검토해 봅니다.

4. Shrink, Split, Reindex, Rollover, Rollup 기능에 대해서 검토해 봅니다.

5. Snapshot 과 Restore 기능에 대해서 검토해 봅니다.


이번 Case Study 는 아주 단순 합니다.

요구사항은 알수 없고 단순히 Data 노드 규모와 스펙만으로 Index/Shard 배치를 설정 하는 것이였습니다.

"왜 이렇게/저렇게 해야 하지?" 라는 궁금증이 드시는 부분은 이해를 돕기 위해 추가적인 설명이 들어가야 하는데 과감히 생략 했습니다. (커뮤니티에 질문 주시거나 저를 만나시면 물어보세요. 친절히 설명해 드리겠습니다.)


항상 반복 되는 이야기지만,

사용 환경에 맞게 테스트 하시고 최적화 하는게 정답입니다.

시작 하기 전에 조금이나마 도움이 될 수 있는 내용을 작성한 것이지 이대로 하면 된다는 것은 아닙니다.

알아야 할 것도 많고 검증 해야 할 것도 많습니다.

시간과 인력이 부족 하시다면 Elastic 사에서 지원하는 좋은 프로그램들이 있으니 참고 하셔도 좋을 것 같습니다.


궁금 하신 것들이 있으시면 Facebook 유저 커뮤니티에 질문으로 올려 주세요.

제가 할 수 있다면 도움 드릴 수 있도록 하겠습니다.

:

[Elasticsearch] Contribution 하기 위한 준비 작업

Elastic/Elasticsearch 2018. 4. 4. 12:31

Elasticsearch 소스코드를 수정 하거나 디버깅을 하고 싶을 때가 있습니다.

로컬에서 빌드 부터 해야 가능하겠죠.


특별히 contributing 을 목적으로 하지는 않지만, 그래도 이왕이면 버그 수정도 하고 contribution 도 하면 좋겠죠.


아래는 이미 문서에 자세히 나와 있는 내용을 그냥 요약 정도 해본 내용입니다.

(기억을 위해 한번 더 작성해 본 내용입니다.)


Reference)

https://github.com/elastic/elasticsearch/blob/master/CONTRIBUTING.md

https://github.com/elastic/elasticsearch/blob/master/TESTING.asciidoc


사전 준비 도구)

- JDK 10 다운로드 및 설치 (Build 용)

- JDK 8 다운로드 및 설치 (Runtime 용)

- Gradle 4.3 다운로드 및 설치


JDK 10 설치 후 환경변수 설정)

$ vi .bash_profile

export JAVA_HOME=$(/usr/libexec/java_home)

export RUNTIME_JAVA_HOME=/Library/Java/JavaVirtualMachines/jdk1.8.0_144.jdk/Contents/Home


Intellij 환경설정)

This can be achieved by adding the -Didea.no.launcher=true JVM option. 

IntelliJ, go to Run->Edit Configurations...->Defaults->JUnit->VM options and input -ea.

$ ./gradlew idea


Formatting 설정)

- Java indent is 4 spaces

- Line width is 140 characters

- IntelliJ: Preferences/Settings->Editor->Code Style->Java->Imports

- Class count to use import with '*' and Names count to use static import with '*'. Set their values to 99999


Elasticsearch run)

$ ./gradlew run


# 실행 시 9200과 9300 port 로 실행 중인 elasticsearch daemon 이 있으면 에러 발생 합니다.


Logging level 설정)

# path : distribution/src/config/log4j2.properties


$ vi log4j2.properties

ASIS)

rootLogger.level = info


TOBE)

rootLogger.level = debug


Create distribution)

$ ./gradlew assemble

$ ./gradlew check


:

[Elasticsearch] elasticsearch-arirang-analyzer-6.0.0 릴리즈

Elastic/Elasticsearch 2017. 11. 15. 23:49

페북에 올렸더니 스팸 이라고 삭제 당했내요. ㅡ.ㅡ;

https://github.com/HowookJeong/elasticsearch-analysis-arirang/tree/6.0.0

https://github.com/HowookJeong/elasticsearch-analysis-arirang/releases/download/6.0.0/elasticsearch-analysis-arirang-6.0.0.zip


설치 방법은 잘 아시겠지만 두 가지 입니다.

$ bin/elasticsearch-plugin install file:///elasticsearch-analysis-arirang-6.0.0.zip

$ bin/elasticsearch-plugin install https://github.com/HowookJeong/elasticsearch-analysis-arirang/releases/download/6.0.0/elasticsearch-analysis-arirang-6.0.0.zip


적용된 version 은 아래와 같습니다.

elasticsearch-6.0.0

lucene-7.0.1

arirang.lucene-analyzer-7.0.1

arirang.morph-1.1.0


혹시 arirang plugin 을 어떻게 만드는지 궁금하신 분들은 아래 글 참고하세요.

[Elasticsearch] Arirang Analyzer + Elasticsearch Analyzer Plugin 사용자 관점 개발리뷰


:

[Lucene] Inverted index file - 역인덱스 파일

ITWeb/검색일반 2017. 11. 14. 23:15

루씬에서 검색을 하기 위해 필요한 파일을 살짝 알아보겠습니다.

파일 구조와 목록은 아래 문서를 참고 하시기 바랍니다.

Lucene Index File Formats)

https://lucene.apache.org/core/7_1_0/core/org/apache/lucene/codecs/lucene70/package-summary.html#package.description


그럼 실제 검색을 위해 보셔야 하는 기본이 되는 클래스는 

  • IndexSearcher
  • IndexReader
  • CollectionStatistics
  • TermStatistics

이렇게 4개 정도 보시면 될 것 같습니다.


검색을 위해 필요한 정보는

  • Documents
  • Fields
  • Terms
  • FieldInvertState

이렇게 4개 정도가 필요 합니다.

딱 봐도 "searchField:elasticsearch" 하면 

  • searchField 라는 field 정보가 필요하고, 
  • elasticsearch 라는 term 관련 정보도 필요하고, 
  • elasticsearch 라는 term 이 있는 document 정보도 필요하고,
  • 해당 field 에서의 term 이 추출 된 offset과 position 정보가

필요합니다.


이걸 정리한 이유는 오늘 누가 custom function score query 를 사용하여 다수의 field 에 대한 ranking term boosting 기능을 사용하고 있는데 성능적으로 개선 할 수 있는 방법이 없는지 물어봐서 간단하게 정리해봤습니다.

Query 튜닝은 한계가 반드시 존재 합니다.

서버의 구조적인 개선과 튜닝을 병행해야 하며 다수의 field 에 대한 다수의 term boosting 은 최적화를 통해 최소화 해서 사용하는걸 추천 드립니다.

그리고 inverted index file 이라는 것은 루씬에서 하나의 파일만 이야기 하는 것이 아니라 lucene 이 가지고 있는 index file 목록들이 inverted index file 을 구성 한다고 보시면 될 것 같습니다.

:

[Elasticsearch] _id mapping 시 path 설정

Elastic/Elasticsearch 2017. 11. 14. 11:13

_id 에 사용하시는 데이터의 primary key 값을 지정 하고 싶을때가 많이 있습니다.

기억이 가물가물해서 잠시 찾아 봤는데요.

2.4 까지는 path 설정 기능이 살아 있었는데 5.X 들어 가면서 삭제 되었습니다.


2.4)

private String path = Defaults.PATH;


public Builder() {

    super(Defaults.NAME, new FieldType(Defaults.FIELD_TYPE));

    indexName = Defaults.INDEX_NAME;

}


public Builder path(String path) {

    this.path = path;

    return builder;

}


그래서 _id field 에 primary key 를 넣고 싶으실 경우  IndexRequestBuilder.setId() 를 이용하시거나 JSON 파일 만드실 때 _id field 에 primary key 값을 넣어 주시면 됩니다.


:

[Elasticsearch] Arirang Analyzer + Elasticsearch Analyzer Plugin 사용자 관점 개발리뷰

Elastic/Elasticsearch 2017. 10. 19. 14:25

사용자 관점에서 어떻게 개발 하는지 정리해 보았습니다.


Elasticsearch를 서비스에 사용하면서 한글 처리를 위해 어떤 analyzer를 사용해야 할지 고민해 보신적이 있을 것입니다.

오늘은 제가 사용하고 있는 Lucene Korean Analyzer와 이를 Elasticsearch에 plugin으로 설치하고 사용하는 방법을 알아 보도록 하겠습니다.


들어 가기에 앞서 lucene에서 제공하는 analyzer의 기본 구성과 동작에 대해서 살펴 보겠습니다.

Lucene에서 제공하는 analyzer 는 하나의 tokenizer와 다수의 filter로 구성이 됩니다.

Filter 는 CharFilter와 TokenFilter 두 가지가 있습니다.

CharFilter는 입력된 문자열에서 불필요한 문자를 normalization 하기 위해 사용되며 TokenFilter는 tokenizer에 의해 분해된 token에 대한 filter 처리를 하게 됩니다.

결과적으로 아래와 같은 순서로 analysis 된다고 이해 하면 됩니다.


Input Text 

Character Filter    Filtered Text        

Tokenizer              Tokens                 →

Token Filter          Filtered Tokens   

Output Tokens


이제 본론으로 들어 가겠습니다.

Lucene Korean Analyzer는 현재 이수명님에 의해 개발 및 유지보수가 되고 있으며 오픈소스로 등록이 되어 있습니다.

관련 소스코드는 아래 두 가지 repository를 통해서 제공 되고 있습니다.


[svn 주소]

https://lucenekorean.svn.sourceforge.net/svnroot/lucenekorean


[github 주소]

https://github.com/korlucene


 Lucene Korean Analyzer 는 지금 Arirang 이라고 부르고 있습니다.


Arirang의 프로젝트 구성은 크게 두 부분으로 나뉩니다.

  • arirang analyzer
  • arirang morph


1. arirang morph

  이 프로젝트는 한글 형태소에 대한 기본 분석과 사전 정보로 구성이 되어 있습니다.

  한글 처리와 사전 정보를 변경 하고 싶을 경우 본 프로젝트의 코드를 분석하고 수정 해서 활용을 하실 수 있습니다.


2. arirang analyzer

  이 프로젝트는 lucene의 analyzer를 상속받아 lucene에서 사용 할 수 있도록 구성이 되어 있습니다.

  Lucene의 analyzer pipeline에 필요한 

    - KoreanAnalyzer

    - KoreanFilter

    - KoreanFilterFactory

    - KoreanToken

    - KoreanTokenizer

    - KoreanTokenizerFactory

  등이 주요 클래스로 구현이 되어 있습니다.


한글 형태소 분석에서 중요한 역할을 하는 부분으로 사전 이라는 것이 있으며, 이를 알아 보도록 하겠습니다.

arirang.morph 프로젝트에 포함이 되어 있으며 언급 한것과 같이 지속적인 업데이트 및 변경이 가능 합니다.


1. Dictionary classpath

  org/apache/lucene/analysis/ko/dic


2. Dictionary files

  org/apache/lucene/analysis/ko

    korean.properties

  org/apache/lucene/analysis/ko/dic

    abbreviation.dic

    cj.dic

    compounds.dic

    eomi.dic

    extension.dic

    josa.dic

    mapHanja.dic

    occurrence.dic

    prefix.dic

    suffix.dic

    syllable.dic

    total.dic

    uncompounds.dic


3. 주요 사전 설명

주요 사전 설명 이라고는 했지만 쉽고 빠르게 활용할 수 있는 사전이라고 이해 하시면 좋을 것 같습니다.

  • total.dic
    이 사전 파일은 arirang analyzer 에서 사용하는 기본 사전으로 그대로 사용을 하시면 됩니다.
    다만, 수정이 필요 하실 경우 아래 extension.dic 파일을 활용 하시면 됩니다.
  • extension.dic
    확장사전이라고 부르며, 사전 데이터를 추가 해야 할 경우 이 파일에 추가해서 운영 및 관리를 하시면 됩니다.
  • compounds.dic
    복합명사 사전으로 하나의 단어가 여러개의 단어로 구성이 되어 있을 경우 이를 분해하기 위한 사전 정보를 관리 하는 파일 입니다.


4. total.dic / extension.dic 파일 구조

체언 용언 기타품사 하여(다)동사 되어(다)동사 '내'가붙을수있는체언 NA NA NA 불규칙변경


예)

  # 엘사는 명사이고 동사, 기타품사, 불규칙이 아니다, 라고 가정하면 아래와 같이 표현이 됩니다.

  엘사,100000000X


  # 노래는 명사이고 하여(다) 동사가 됩니다.

  노래,100100000X


  # 소리는 명사이고 소리내다와 같이 내가 붙을 수 있는 명사 입니다.

  소리,100001000X


불규칙 정보는 아래와 같으며 원문을 참고 하시기 바랍니다.

  B : ㅂ 불규칙

  H : ㅎ 불규칙

  L : 르 불규칙

  U : ㄹ 불규칙

  S : ㅅ 불규칙

  D : ㄷ 불규칙

  R : 러 불규칙

  X : 규칙

 원문 : http://cafe.naver.com/korlucene/135


5. compound.dic 파일 구조

분해전단어:분해후단어1,분해후단어2,...,분해후단어N:DBXX


분해전단어에 하여(다)동사(D), 되어(다)동사(B) 가 붙을 수 있는지 확인 하셔야 합니다.


예)

  객관화:객관,화:1100


  이와 같이 된 이유는

    객관화하다

    객관화되다

  가 되기 때문입니다.


  참고)

  http://krdic.naver.com/search.nhn?query=%EA%B0%9D%EA%B4%80%ED%99%94&kind=all


이제 부터는 소스 코드를 내려 받아서 빌드 후 Elasticsearch plugin을 만드는 방법을 알아 보겠습니다.


1. 프로젝트 clone

기본적으로 master branch 를 받습니다.


$ git clone https://github.com/korlucene/arirang.morph.git

$ git clone https://github.com/korlucene/arirang-analyzer-6.git


2. Maven build

  • 두 프로젝트 모드 maven project로 빌드 장비에 maven 이 설치가 되어 있어야 합니다.
    maven 설치 참고 - https://maven.apache.org/
  • arirang-analyzer-6 프로젝트에 기본적으로 arirang.morph 패키지가 등록이 되어 있기 때문에 별도 arirang.morph를 수정 하지 않았다면 arirang-analyzer-6 만 빌드하시면 됩니다.


arirang.morph $ mvn clean package

arirang-analyzer-6 $ mvn clean package


3. 기능 테스트

  • 기능 테스트는 arirang-analyzer-6 프로젝트에 포함된 test code를 이용해서 확인해 보시면 됩니다.
  • src/test 아래 TestKoreanAnalyzer1 클래스를 참고하시면 됩니다.

 아래는 이해를 돕기 위해 원본 테스트 코드를 추가 하였습니다.

/**

 * Created by SooMyung(soomyung.lee@gmail.com) on 2014. 7. 30.

 */

public class TestKoreanAnalyzer1 extends TestCase {


  public void testKoreanAnalzer() throws Exception {


    String[] sources = new String[]{

      "고려 때 중랑장(中郞將) 이돈수(李敦守)의 12대손이며",

      "이돈수(李敦守)의",

      "K·N의 비극",

      "金靜子敎授",

      "天國의",

      "기술천이",

      "12대손이며",

      "明憲淑敬睿仁正穆弘聖章純貞徽莊昭端禧粹顯懿獻康綏裕寧慈溫恭安孝定王后",

      "홍재룡(洪在龍)의",

      "정식시호는 명헌숙경예인정목홍성장순정휘장소단희수현의헌강수유령자온공안효정왕후(明憲淑敬睿仁正穆弘聖章純貞徽莊昭端禧粹顯懿獻康綏裕寧慈溫恭安孝定王后)이며 돈령부영사(敦寧府領事) 홍재룡(洪在龍)의 딸이다. 1844년, 헌종의 정비(正妃)인 효현왕후가 승하하자 헌종의 계비로써 중궁에 책봉되었으나 5년 뒤인 1849년에 남편 헌종이 승하하고 철종이 즉위하자 19세의 어린 나이로 대비가 되었다. 1857년 시조모 대왕대비 순원왕후가 승하하자 왕대비가 되었다.",

      "노벨상을"

    };


    KoreanAnalyzer analyzer = new KoreanAnalyzer();


    for (String source : sources) {

      TokenStream stream = analyzer.tokenStream("dummy", new StringReader(source));


      CharTermAttribute termAtt = stream.addAttribute(CharTermAttribute.class);

      PositionIncrementAttribute posIncrAtt = stream.addAttribute(PositionIncrementAttribute.class);

      PositionLengthAttribute posLenAtt = stream.addAttribute(PositionLengthAttribute.class);

      TypeAttribute typeAtt = stream.addAttribute(TypeAttribute.class);

      OffsetAttribute offsetAtt = stream.addAttribute(OffsetAttribute.class);

      MorphemeAttribute morphAtt = stream.addAttribute(MorphemeAttribute.class);

      stream.reset();


      while (stream.incrementToken()) {

        System.out.println(termAtt.toString() + ":" + posIncrAtt.getPositionIncrement() + "(" + offsetAtt.startOffset() + "," + offsetAtt.endOffset() + ")");

      }

      stream.close();

    }


  }

}


이제 arirang에 대한 빌드와 기능테스트가 끝났으니 elasticsearch에 설치 하기 위한 plugin 만드는 방법을 알아 보도록 하겠습니다.

먼저, elasticsearch에서 제공하는 plugins 관련 문서를 시간이 된다면 한번 읽어 보시고 아래 내용을 보시길 추천 드립니다.


Elasticsearch Plugins and Integrations : https://www.elastic.co/guide/en/elasticsearch/plugins/5.5/index.html


Elastic에서 공식문서에서 제공해 주고 있는 예제는 아래 링크에 나와 있으니 구현 시 참고하시기 바랍니다.

 https://github.com/elastic/elasticsearch/tree/master/plugins/jvm-example


 제가 추천하는 것은 elasticsearch source code를 다운받아 official하게 작성된 plugin 코드를 참고하여 구현하는 방법 입니다.


그럼 analysis plugin의 기본 프로젝트 구조를 살펴 보겠습니다.


1. Project Directory

  src/main

  assemblies

    plugin.xml

  java

    org/elasticsearch

      index/analysis

        ${CUSTOM-ANALYZER-NAME}AnalyzerProvider

        ${CUSTOM-ANALYZER-NAME}TokenFilterFactory

        ${CUSTOM-ANALYZER-NAME}TokenizerFactory

      plugin/analysis/arirang

        Analysis${CUSTOM-ANALYZER-NAME}Plugin

  resources

    plugin-descriptor.propeties


2. Files and classes

  • plugin.xml
      maven assembly plugin을 이용한 패키징을 하기 위한 설정을 구성 합니다.
  • plugin-descriptor.propeties
      plugin authors 정보를 구성 합니다.
      elasticsearch reference) https://www.elastic.co/guide/en/elasticsearch/plugins/5.5/plugin-authors.html
  • ${CUSTOM-ANALYZER-NAME}AnalyzerProvider
      custom analyzer 생성자 제공을 위한 코드를 작성 합니다.
  • ${CUSTOM-ANALYZER-NAME}TokenFilterFactory
      custom filter 생성자 제공을 위한 코드를 작성 합니다.
  • ${CUSTOM-ANALYZER-NAME}TokenizerFactory
      custom tokenizer 생성자 제공을 위한 코드를 작성 합니다.
  • Analysis${CUSTOM-ANALYZER-NAME}Plugin
      custom analyzer plugin 등록을 위한 코드를 작성 합니다.

이와 같은 구조를 이용하여 elasticsearch-analysis-arirang plugin을 만들어 보도록 하겠습니다.

본 plugin에서는 arirang에서 제공하는 dynamic dictionary reload 기능을 사용하기 위한 Rest Handler도 추가해서 만들어 보도록 하겠습니다.


소스코드 참고)

https://github.com/HowookJeong/elasticsearch-analysis-arirang/tree/5.5.0


Step1)

Step2)

  • Plugin project structure를 구성 합니다.

Step3)

  • root path에 lib 폴더를 생성하고 arirang analyzer 관련 jar 파일을 복사해 놓습니다.
  • arirang.lucene-analyzer-VERSION.jar
  • arirang-morph-VERSION.jar

Step4)

  • pom.xml에서 local jar 파일에 대한 dependency 설정을 추가해 줍니다.

    <dependency>

      <groupId>com.argo</groupId>

      <artifactId>morph</artifactId>

      <version>${morph.version}</version>

      <scope>system</scope>

      <systemPath>${project.basedir}/lib/arirang-morph-${morph.version}.jar</systemPath>

      <optional>false</optional>

    </dependency>


    <dependency>

      <groupId>com.argo</groupId>

      <artifactId>arirang.lucene-analyzer-${lucene.version}</artifactId>

      <version>${morph.version}</version>

      <scope>system</scope>

      <systemPath>${project.basedir}/lib/arirang.lucene-analyzer-${lucene.version}-${morph.version}.jar</systemPath>

      <optional>false</optional>

    </dependency>


Step5)

  • analysis plugin 관련 코드를 작성 합니다.

    @Override

    public List<RestHandler> getRestHandlers(Settings settings, RestController restController, ClusterSettings clusterSettings,

      IndexScopedSettings indexScopedSettings, SettingsFilter settingsFilter, IndexNameExpressionResolver indexNameExpressionResolver,

      Supplier<DiscoveryNodes> nodesInCluster) {

        return singletonList(new ArirangAnalyzerRestAction(settings, restController));

    }


    @Override

    public Map<String, AnalysisProvider<TokenFilterFactory>> getTokenFilters() {

        return singletonMap("arirang_filter", ArirangTokenFilterFactory::new);

    }


    @Override

    public Map<String, AnalysisProvider<TokenizerFactory>> getTokenizers() {

        Map<String, AnalysisProvider<TokenizerFactory>> extra = new HashMap<>();

        extra.put("arirang_tokenizer", ArirangTokenizerFactory::new);


        return extra;

    }


    @Override

    public Map<String, AnalysisProvider<AnalyzerProvider<? extends Analyzer>>> getAnalyzers() {

        return singletonMap("arirang_analyzer", ArirangAnalyzerProvider::new);

    }


Step6)

  • analysis 관련 코드를 작성 합니다.

    // ArirangAnalyzerProvider

    private final KoreanAnalyzer analyzer;


    public ArirangAnalyzerProvider(IndexSettings indexSettings, Environment env, String name, Settings settings) throws IOException {

        super(indexSettings, name, settings);


        analyzer = new KoreanAnalyzer();

    }


    @Override

    public KoreanAnalyzer get() {

        return this.analyzer;

    }


    // ArirangTokenFilterFactory

    public ArirangTokenFilterFactory(IndexSettings indexSettings, Environment env, String name, Settings settings) {

        super(indexSettings, name, settings);

    }


    @Override

    public TokenStream create(TokenStream tokenStream) {

        return new KoreanFilter(tokenStream);

    }


    // ArirangTokenizerFactory

    public ArirangTokenizerFactory(IndexSettings indexSettings, Environment env, String name, Settings settings) {

        super(indexSettings, name, settings);

    }


    @Override

    public Tokenizer create() {

        return new KoreanTokenizer();

    }


Step7)

  • rest action 관련 코드를 작성 합니다.

  // ArirangAnalyzerRestAction

  @Inject

  public ArirangAnalyzerRestAction(Settings settings, RestController controller) {

    super(settings);


    controller.registerHandler(RestRequest.Method.GET, "/_arirang_dictionary_reload", this);

  }


  @Override

  protected RestChannelConsumer prepareRequest(RestRequest restRequest, NodeClient client) throws IOException {

    try {

      DictionaryUtil.loadDictionary();

    } catch (MorphException me) {

      return channel -> channel.sendResponse(new BytesRestResponse(RestStatus.NOT_ACCEPTABLE, "Failed which reload arirang analyzer dictionary!!"));

    } finally {

    }


    return channel -> channel.sendResponse(new BytesRestResponse(RestStatus.OK, "Reloaded arirang analyzer dictionary!!"));

  }


  // ArirangAnalyzerRestModule

  @Override

  protected void configure() {

    // TODO Auto-generated method stub

    bind(ArirangAnalyzerRestAction.class).asEagerSingleton();

  }


Step8)

  • plugin-descriptor.properties 관련 코드를 작성 합니다.

  classname=org.elasticsearch.plugin.analysis.arirang.AnalysisArirangPlugin

  name=analysis-arirang

  jvm=true

  java.version=1.8

  site=false

  isolated=true

  description=Arirang plugin

  version=${project.version}

  elasticsearch.version=${elasticsearch.version}

  hash=${buildNumber}

  timestamp=${timestamp}


Step9)

  • 패키징을 하기 위한 plugin.xml 관련 코드를 작성 합니다.

    <file>

      <source>lib/arirang.lucene-analyzer-6.5.1-1.1.0.jar</source>

      <outputDirectory>elasticsearch</outputDirectory>

    </file>

    <file>

      <source>lib/arirang-morph-1.1.0.jar</source>

      <outputDirectory>elasticsearch</outputDirectory>

    </file>

    <file>

      <source>target/elasticsearch-analysis-arirang-5.5.0.jar</source>

      <outputDirectory>elasticsearch</outputDirectory>

    </file>

    <file>

      <source>${basedir}/src/main/resources/plugin-descriptor.properties</source>

      <outputDirectory>elasticsearch</outputDirectory>

      <filtered>true</filtered>

    </file>


Step10)

  • 빌드를 합니다.

  $ mvn clean package -DskipTests=true


여기서는 작성된 코드는 일부만 발췌 했기 때문에 github에 올라간 소스코드를 참고하시기 바랍니다.

또한, 위 단계는 순서가 중요한 것이 아니며 구성과 어떻게 구현을 해야 하는지를 이해 하시는게 중요 합니다.


이제 빌드가 완료 되었으니 설치 및 기능 점검을 수행해 보도록 하겠습니다.


1. 설치

$ bin/elasticsearch-plugin install --verbose file:///path/elasticsearch-analysis-arirang-5.5.0.zip


2. 기능점검

  • 실행

$ bin/elasticsearch

[2017-08-22T18:56:17,223][INFO ][o.e.n.Node               ] [singlenode] initializing ...

[2017-08-22T18:56:17,289][INFO ][o.e.e.NodeEnvironment    ] [singlenode] using [1] data paths, mounts [[/ (/dev/disk1)]], net usable_space [489.3gb], net total_space [930.3gb], spins? [unknown], types [hfs]

[2017-08-22T18:56:17,289][INFO ][o.e.e.NodeEnvironment    ] [singlenode] heap size [1.9gb], compressed ordinary object pointers [true]

[2017-08-22T18:56:17,309][INFO ][o.e.n.Node               ] [singlenode] node name [singlenode], node ID [saCA_25vSxyUwF-RagteLw]

[2017-08-22T18:56:17,309][INFO ][o.e.n.Node               ] [singlenode] version[5.5.0], pid[12613], build[260387d/2017-06-30T23:16:05.735Z], OS[Mac OS X/10.12.5/x86_64], JVM[Oracle Corporation/Java HotSpot(TM) 64-Bit Server VM/1.8.0_72/25.72-b15]

[2017-08-22T18:56:17,309][INFO ][o.e.n.Node               ] [singlenode] JVM arguments [-Xms2g, -Xmx2g, -XX:+UseConcMarkSweepGC, -XX:CMSInitiatingOccupancyFraction=75, -XX:+UseCMSInitiatingOccupancyOnly, -XX:+DisableExplicitGC, -XX:+AlwaysPreTouch, -Xss1m, -Djava.awt.headless=true, -Dfile.encoding=UTF-8, -Djna.nosys=true, -Djdk.io.permissionsUseCanonicalPath=true, -Dio.netty.noUnsafe=true, -Dio.netty.noKeySetOptimization=true, -Dio.netty.recycler.maxCapacityPerThread=0, -Dlog4j.shutdownHookEnabled=false, -Dlog4j2.disable.jmx=true, -Dlog4j.skipJansi=true, -XX:+HeapDumpOnOutOfMemoryError, -Des.path.home=/Users/jeonghoug/dev/server/elastic/elasticsearch-5.5.0]

[2017-08-22T18:56:18,131][INFO ][o.e.p.PluginsService     ] [singlenode] loaded module [aggs-matrix-stats]

[2017-08-22T18:56:18,131][INFO ][o.e.p.PluginsService     ] [singlenode] loaded module [ingest-common]

[2017-08-22T18:56:18,131][INFO ][o.e.p.PluginsService     ] [singlenode] loaded module [lang-expression]

[2017-08-22T18:56:18,131][INFO ][o.e.p.PluginsService     ] [singlenode] loaded module [lang-groovy]

[2017-08-22T18:56:18,131][INFO ][o.e.p.PluginsService     ] [singlenode] loaded module [lang-mustache]

[2017-08-22T18:56:18,131][INFO ][o.e.p.PluginsService     ] [singlenode] loaded module [lang-painless]

[2017-08-22T18:56:18,131][INFO ][o.e.p.PluginsService     ] [singlenode] loaded module [parent-join]

[2017-08-22T18:56:18,131][INFO ][o.e.p.PluginsService     ] [singlenode] loaded module [percolator]

[2017-08-22T18:56:18,131][INFO ][o.e.p.PluginsService     ] [singlenode] loaded module [reindex]

[2017-08-22T18:56:18,132][INFO ][o.e.p.PluginsService     ] [singlenode] loaded module [transport-netty3]

[2017-08-22T18:56:18,132][INFO ][o.e.p.PluginsService     ] [singlenode] loaded module [transport-netty4]

[2017-08-22T18:56:18,132][INFO ][o.e.p.PluginsService     ] [singlenode] loaded plugin [analysis-arirang]

[2017-08-22T18:56:19,195][INFO ][o.e.d.DiscoveryModule    ] [singlenode] using discovery type [zen]

[2017-08-22T18:56:19,686][INFO ][o.e.n.Node               ] [singlenode] initialized

[2017-08-22T18:56:19,687][INFO ][o.e.n.Node               ] [singlenode] starting ...

[2017-08-22T18:56:24,837][INFO ][o.e.t.TransportService   ] [singlenode] publish_address {127.0.0.1:9300}, bound_addresses {[fe80::1]:9300}, {[::1]:9300}, {127.0.0.1:9300}

[2017-08-22T18:56:27,899][INFO ][o.e.c.s.ClusterService   ] [singlenode] new_master {singlenode}{saCA_25vSxyUwF-RagteLw}{_fn1si8zTT6bkZK1q6ilxQ}{127.0.0.1}{127.0.0.1:9300}, reason: zen-disco-elected-as-master ([0] nodes joined)

[2017-08-22T18:56:27,928][INFO ][o.e.h.n.Netty4HttpServerTransport] [singlenode] publish_address {127.0.0.1:9200}, bound_addresses {[fe80::1]:9200}, {[::1]:9200}, {127.0.0.1:9200}

[2017-08-22T18:56:27,928][INFO ][o.e.n.Node               ] [singlenode] started


  • 형태소분석기 확인

http://localhost:9200/_analyze?pretty&analyzer=arirang_analyzer&text=한국 엘라스틱서치 사용자 그룹의 HENRY 입니다.


  • 형태소분석기 결과 확인

{

  "tokens" : [

    {

      "token" : "한국",

      "start_offset" : 0,

      "end_offset" : 2,

      "type" : "korean",

      "position" : 0

    },

    {

      "token" : "엘라스틱서치",

      "start_offset" : 3,

      "end_offset" : 9,

      "type" : "korean",

      "position" : 1

    },

    {

      "token" : "엘라",

      "start_offset" : 3,

      "end_offset" : 5,

      "type" : "korean",

      "position" : 1

    },

    {

      "token" : "스틱",

      "start_offset" : 5,

      "end_offset" : 7,

      "type" : "korean",

      "position" : 2

    },

    {

      "token" : "서치",

      "start_offset" : 7,

      "end_offset" : 9,

      "type" : "korean",

      "position" : 3

    },

    {

      "token" : "사용자",

      "start_offset" : 10,

      "end_offset" : 13,

      "type" : "korean",

      "position" : 4

    },

    {

      "token" : "그룹",

      "start_offset" : 14,

      "end_offset" : 16,

      "type" : "korean",

      "position" : 5

    },

    {

      "token" : "henry",

      "start_offset" : 18,

      "end_offset" : 23,

      "type" : "word",

      "position" : 6

    },

    {

      "token" : "입니다",

      "start_offset" : 24,

      "end_offset" : 27,

      "type" : "korean",

      "position" : 7

    }

  ]

}


  • 형태소분석기 RESTful endpoint 실행 및 결과

  실행)

    http://localhost:9200/_arirang_dictionary_reload


  결과)

    Reloaded arirang analyzer dictionary!!


이제 기본적인 arirang analyzer와 elasticsearch용 plugin 까지 살펴 보았습니다.

마지막으로 arirang analyzer의 사전 데이터 수정과 반영을 살펴 보겠습니다.


 arirang 에서 제공하는 기본 dictionary path 변경을 하지 않고 사전 내용만 변경 하는 것으로 하겠습니다.


1. 사전 파일에 대한 classpath 설정

  • elasticsearch 실행 시 사전 파일에 대한 classpath 등록이 되어 있어야 정상적으로 로딩이 됩니다.
  • elasticsearch.in.sh 파일을 수정해 줍니다.

  ES_CLASSPATH="$ES_HOME/lib/elasticsearch-5.5.0.jar:$ES_HOME/lib/*:$ES_CONF_PATH/dictionary"


  예) 위에서 언급한 사전 관련 path와 파일들이 존재해야 합니다.

    config/dictionary/org/apache/lucene/analysis/ko

    config/dictionary/org/apache/lucene/analysis/ko/dic

  • ES_CONF_PATH는 기본 path.conf 정보와 동일해야 합니다.


2. 사전 정보 수정 및 반영

  • 1번 path에 위치한 사전 파일을 수정합니다.


3. 사전 reload

  • elasticsearch restart 없이 /_arirang_dictionary_reload API를 호출하여 반영 합니다.


여기까지 오셨으면 이제 arirang analyzerelasticseearch-analysis-arirang plugin 그리고 dictionary에 대한 기본 활용을 하실수 있게 되셨다고 생각합니다.

기술된 모든 정보는 모두 오픈소스이기 때문에 출처를 정확히 명시해 주시고 언제든지 오류와 개선에 대해서는 적극적인 참여 부탁 드립니다.


참고 사이트)

http://cafe.naver.com/korlucene

https://www.elastic.co/guide/en/elasticsearch/reference/current/index.html

https://www.elastic.co/guide/en/elasticsearch/plugins/current/index.html

:

[Logstash] input file start_position => "end"

Elastic/Logstash 2017. 8. 17. 11:20

먼저 앞서 기술한 input file 에 대한 내용을 먼저 읽어 보시면 이해 하시는데 도움이 됩니다.


※ [Logstash] input file plugin 에 대해서 알아 봅니다.


이전 글은 데이터 유실 방지를 위한 설정과 input file 의 주요 설정 정보에 대해서 알아 봤습니다.

이번 글에서는 반대로 start_position => "end" 로 했을 때 왜 데이터가 유실 되는지 간략하게 살펴 보겠습니다.


설정)

input {

  file {

    path => "/xxxx/logs/test-file.log"

    start_position => "end"

    stat_interval => 1

  }


  file {

    path => "/xxxx/logs/test-file1.log"

    start_position => "end"

    stat_interval => 10

  }

}


output {

    stdout {

      codec => "rubydebug"

    }

}


첫 번째 실행)

$ bin/logstash -f config/test-file.conf


첫번째 실행 후 sincedb)

189766986 1 4 3675


두 번째 실행)

$ bin/logstash -f config/test-file.conf


두번째 실행 후 sincedb)

189766986 1 4 4065


보시는 것 처럼 start_position => "end"로 했을 경우 해당 파일의 end byte offset 정보를 기록하게 됩니다.

이후 sincedb  정보는 변경이 되지 않게 됩니다.

logstash 를 중지 하고 재실행 합니다.

그 동안 test-file.log 에는 계속 데이터가 누적 되도록 하였습니다.

두 번째 실행 된 후 sincedb 값을 확인해 보면 변경 되어 있는 것을 볼 수 있습니다.


이와 같이 첫 번째 offset 정보와 두 번째 offset 정보의 차이 만큼 데이터가 유실 되게 되는 것입니다.


:

[Elasticsearch] Snapshot and Restore 알아보기

Elastic/Elasticsearch 2017. 8. 3. 11:23

Elasticsearch 에서 제공하는 Snapshot과 Restore 기능에 대해서 정리합니다.


Snapshot과 Restore 기능에 대한 정의와 설명은 아래 본문에 잘 나와 있습니다.


[원본 문서]

https://www.elastic.co/guide/en/elasticsearch/reference/current/modules-snapshots.html

https://www.elastic.co/guide/en/elasticsearch/guide/current/backing-up-your-cluster.html


※ 각 API의 상세 옵션과 설명은 원본 문서 참고 하시면 됩니다.


[발췌]

The snapshot and restore module allows to create snapshots of individual indices or an entire cluster into a remote repository like shared file system, S3, or HDFS. These snapshots are great for backups because they can be restored relatively quickly but they are not archival because they can only be restored to versions of Elasticsearch that can read the index. That means that:


  • A snapshot of an index created in 2.x can be restored to 5.x.
  • A snapshot of an index created in 1.x can be restored to 2.x.
  • A snapshot of an index created in 1.x can not be restored to 5.x.

글에서도 보시는 것 처럼 snapshot type 은 아래와 같이 지원 합니다.
  • fs
  • s3
  • hdfs
  • gcs

각 type을 지정하고 사용하기 위해서는 아래와 같은 추가 작업이 필요 합니다.


fs)

클러스터 내 모든 노드에 path.repo 설정 후 재시작 합니다.

- elasticsearch.yml

반드시 shared file system 적용을 해주셔야 합니다. 


s3)

클러스터 내 모든 노드에 plugin 설치를 해주셔야 합니다.

aws의 s3를 사용하기 위해서는 repository plugin 을 설치해야 합니다.


2.x)

bin/plugin install cloud-aws


5.x)

bin/elasticsearch-pluin install repository-s3


hdfs)

https://github.com/elastic/elasticsearch-hadoop/tree/master/repository-hdfs


클러스터 내 모든 노드에 plugin 설치를 해주셔야 합니다.

hadoop file system을 사용하기 위해서는 repository plugin 을 설치해야 합니다.


2.x)

bin/plugin install elasticsearch-repository-hdfs


5.x)

bin/elasticsearch-pluin install repository-hdfs


gcs)

클러스터 내 모든 노드에 plugin 설치를 해주셔야 합니다.

google cloud storage를 사용하기 위해서는 repository plugin 을 설치해야 합니다.


5.x)

bin/elasticsearch-pluin install repository-gcs


azure)

https://github.com/elastic/elasticsearch-cloud-azure


클러스터 내 모든 노드에 plugin 설치를 해주셔야 합니다.

azure repository를 사용하기 위해서는 repository plugin 을 설치해야 합니다.


2.x)

bin/plugin install elasticsearch/elasticsearch-cloud-azure


5.x)

bin/elasticsearch-pluin install repository-azure


이 중 2.X 클러스터에서 제가 추천 하는 것은 fs, s3 입니다.

이유는 다른건 제가 경험이 없어서 좋은지 나쁜지는 모릅니다.


fs, s3 에 대한 예제를 가지고 snapshot 과정과 restore 과정을 살펴 보겠습니다.


[fs]

step 1)

snapshot 기능을 수행 하기 위한 snapshot 저장소를 생성 합니다.


$ curl -XPUT 'localhost:9200/_snapshot/fs_snapshot?pretty' -d '{

    "type": "fs",

    "settings": {

        "location": "/mount/snapshot",

        "compress": true

    }

}'


step 2)

snapshot 할 대상을 선정하고 실행 합니다.


$ curl -XPUT 'localhost:9200/_snapshot/fs_snapshot/logstash_20170803?pretty' -d '

{

  "indices": "logstash-web-20170803,logstash-app-20170803",

  "ignore_unavailable": true,

  "include_global_state": false

}'


step 3)

이제 restore 해보겠습니다.


$ curl -XPOST 'localhost:9200/_snapshot/fs_snapshot/logstash_20170803/_restore'


[s3]

step 1)

snapshot 기능을 수행 하기 위한 snapshot 저장소를 생성 합니다.


$ curl -XPUT 'localhost:9200/_snapshot/s3_snapshot?pretty' -d '{

    "type": "s3",

    "settings": {

        "bucket": "s3-bucket",

        "region": "ap-northeast-2"

    }

}'


step 2)

snapshot 할 대상을 선정하고 실행 합니다.


$ curl -XPUT 'localhost:9200/_snapshot/s3_snapshot/logstash_20170803?pretty' -d '

{

  "indices": "logstash-web-20170803,logstash-app-20170803",

  "ignore_unavailable": true,

  "include_global_state": false

}'


step 3)

이제 restore 해보겠습니다.


$ curl -XPOST 'localhost:9200/_snapshot/s3_snapshot/logstash_20170803/_restore'


하나의 클러스터 내 여러개의 snapshot repository 를 등록해서 사용 하셔도 되기 때문에 목적에 맞게 사용 하시면 좋을 것 같습니다.


이 과정들은 모두 background 로 동작 하기 때문에 실행 후 바로 acknowledged/accepted 가 전달 됩니다.

그렇기 때문에 실행한 snapshot 의 상태 점검을 하셔야 합니다.


$ curl -XGET 'localhost:9200/_snapshot/s3_snapshot/logstash_20170803/_status'


추가적으로 사용하시면서 약간의 주의점 공유 드립니다.

- 더이상 색인 작업이 발생 하지 않는 index 들에 대해서 snapshot 작업을 수행하시면 좋습니다.

- restore 시는 대상 index 가 없거나 close 되어 있어야 하기 때문에 지속적인 색인 작업이 발생 하는 index에 대한 snapshot은 추천 하지 않지만, 아직 필요한 경우를 찾지는 못했습니다.


:

[Logstash] input file plugin 에 대해서 알아 봅니다.

Elastic/Logstash 2017. 7. 19. 13:25

가장 많이 사용하고 있는 logstash input plugin 중에 하나라고 생각 합니다.

저 역시 현업에서 제일 많이 사용하고 있는 plugin 이기도 합니다.


elastic reference 문서를 보시면 설명이 잘 나와 있습니다.

하지만 신뢰 할 수 없는 기억력으로 인해서 한번 작성해 봅니다.


이미 많은 분들이 input file plugin 에 대해서 많은 자료들을 공유해 주셨기 때문에 구글링 몇 번 해보시면 좋은 정보를 얻으실 수 있습니다.


참고문서)
https://www.elastic.co/guide/en/logstash/current/plugins-inputs-file.html


logstash input file 기본 동작은 ruby-filewatch를 이용한 tail 입니다. 


주요 설정 정보)

1. start_position

이 설정은 logstash 실행 시 읽기 작업에 대한 수행 정보를 정의 합니다.

beginning 과 end 설정은 2번 sincedb 파일이 있고 없고에 따라 동작이 다르다고 생각 하시면 됩니다.

즉, sincedb 에 offset 정보가 있으면 해당 offset 부터 읽게 되고 없으면 beginning, end 설정 동작 방식으로 동작 합니다.

beginning 은 처음(이전) 부터 읽어 들이고, end 는 가장 최근 부터 읽어 들이게 됩니다.


결국, 데이터의 유실 없이 데이터를 읽기 위해서는 beginning 으로 설정 하셔야 합니다.

default value 는 end 입니다.


2. sincedb

이건 설정은 아니고 sincedb 파일에 대한 내용입니다.

logstash input file 을 사용하게 되면 sincedb 파일에 어디까지 읽었는지 정보를 기록하게 됩니다.

reference 문서를 보시면 sincedb 에 기록하는 정보에 대해서 설명이 자세히 나와 있습니다.


Sincedb files are text files with four columns:


The inode number (or equivalent).

The major device number of the file system (or equivalent).

The minor device number of the file system (or equivalent).

The current byte offset within the file.


$ cat .sincedb_8d6238d5255f464e564ecdb307fe0c0c

7341423 0 51713 67247655


sincedb_path 를 설정 하지 않을 셨을 경우는 user home directory 를 확인해 보시거나,

~/logstash-5.5.0/data/plugins/inputs/file/ 을 확인해 보시면 됩니다.


#pick SINCEDB_DIR if available, otherwise use HOME

sincedb_dir = ENV["SINCEDB_DIR"] || ENV["HOME"]

※ .sincedb 작성 시 overwrite 인지 append 인지 확인 후 공유 드리겠습니다. ㅡ.ㅡ;

미쳐 확인을 못했내요.

->

input file 을 여러개 등록 하면 sincedb 가 여러개 생성이 됩니다.

참고 파일은 filewatch 소스코드를 보시면 되시겠습니다.

($ ~elastic/logstash-5.5.0/vendor/bundle/jruby/1.9/gems/filewatch-0.9.0/lib/filewatch)


input file 을 여러개 등록 하면 sincedb 에 inode 가 다른게 여러게 생성 됩니다.

즉, overwrite(update) 이라고 보시면 되겠습니다.

위에 잘못 설명한 부분은 확인 없이 그냥 동작 하고 있는 것만 가지고 작성을 하다 보니 놓친 부분 입니다. 죄송합니다.

기존에 logstash 가 처리 하고 있는 log file 자체의 변경이 발생 하였을 경우 기 생성된 sincedb 에 row가 추가 되면서 변경된 log file 의 inode 값과 offset 정보가 추가 되게 됩니다.

- 파일이 삭제 된 후 다시 생성 된 경우가 대표적인 예가 되겠습니다.


189699226 -rw-r--r--  1 henry  staff  105  7 20 15:03 file.log

$ rm -f file.log

189766986 -rw-r--r--  1 henry  staff  120  7 20 15:04 file.log


$ cat .sincedb_27eb92c828fb885f9741fac9e538c0e1

189699226 1 4 285

189766986 1 4 150


3. sincedb_write_interval

이 설정은 logstash 가 열심히 일을 하고 어디까지 일을 했는지 주기적으로 기록하도록 하는 주기를 작성 하게 됩니다.

설정 주기가 너무 길게 되면 logstash가 비정상 종료 후 재 실행 되었을 때 데이터가 중복으로 입력 될 수도 있으니 적절한 주기를 찾아서 설정 하는게 중요 합니다.


현재 inode 파일의 읽어 들인 offset 정보를 sincedb 에 기록 하게 됩니다.

default value 는 15초로 되어 있습니다.


4. stat_interval

이 설정은 logstash 가 읽어야 하는 로그 파일에 새로운 로그가 추가 되었는지 확인하기 위한 주기를 설정 하게 됩니다.

reference 문서에서는 아래와 같이 설명 하고 있습니다.

How often (in seconds) we stat files to see if they have been modified. Increasing this interval will decrease the number of system calls we make, but increase the time to detect new log lines.


system call 을 줄일 것인지 빠르게 신규 로그 감지 할 것인지 결정을 하셔야 합니다.

default value 는 1초 입니다.


5. discover_interval

이 설정은 filename pattern 을 이용해서 신규 로그 파일이 추가 되었는지 확인 하기 위한 주기를 설정 하게 됩니다.

 default value 는 15초 입니다.


여기까지 알아 두면 좋은 설정들은 이렇습니다.

이를 기반으로 샘플 설정을 작성해 보면 아래와 같습니다.


input {

  file {

    path => "/XXXX/logs/test-file.log"

    start_position => "beginning"

  }

}


결국 기본 설정으로 돌려도 크게 무리는 없습니다.

다만, 생성되는 로그 파일의 크기와 worker, queue 설정 크기에 따라 값들을 최적화 하시면 됩니다.

왜냐면 사용하시는 환경 마다 다 다르기 때문이고, 환경에 맞춰서 튜닝을 할 수 밖에 없기 때문 입니다.


3, 4, 5 번에 대한 테스트는

3번은 설정 변경 하시면서 sincedb 값이 바뀌는 걸 보시면 됩니다.

4번은 설정 변경 하시면서 output  으로 언제 전달 되는지 보시면 됩니다.

5번은 설정 변경 하시면서 log file을 rotate 해보시면 됩니다.


여기서는 그냥 4번 초간단 테스트 예제만 보여 드리겠습니다.


1. log file 을 생성하고 해당 파일에 log를 기록 합니다.

while true;
do

DATE=$(date '+%Y%m%d%H%M%S');

echo $DATE >> /XXXX/logs/test-file.log;

cat test-file.log;

sleep 2;

done

코드 보셔서 아시겠지만 2초 마다 datetime  을 file.log 에 기록하는 스크립트 입니다.


2. logstash 를 실행 시킵니다.

[file.config]

input {

  file {

    path => "/XXXX/logs/test-file.log"

    start_position => "beginning"

    stat_interval => 30

  }

}


output {

  stdout {

    codec => "rubydebug"

  }

}


$ bin/logstash -f ./config/file.conf --config.reload.automatic


이렇게 하시면 30초 마다 file.log 에 기록된 정보를 읽어 오게 됩니다.

참 쉽죠잉.


여기까지 logstash input file 에 대한 설명이였는데요.

도움이 되셨다면 좋겠습니다.


:

[esquery-proxy] Elasticsearch 용 RESTful API Gateway/Proxy

ITWeb/검색일반 2017. 7. 17. 19:01

Elasticsearch 를 서비스 용도로 많은 분들이 사용하고 계시는 것으로 압니다.

저 처럼 Java API를 사용하고 계신 분들도 계실 테고 RESTful API 를 사용하고 계신 분들도 계실 것으로 압니다.

그냥 버전 업그레이도 해야 하고 해서 재미 삼아 가볍게 만들어 보았습니다.

관련해서 

- 단순 기능 동작 유무만 확인했습니다. (잘 됩니다.)

- 성능 테스트 하지 않았습니다.

- 안정성 테스트 하지 않았습니다.

그래서 가져다 막 고쳐서 사용하시면 좋겠습니다. 


일단 만들게 된 동기는

- Search 와 Aggregation 에 대해서 사용할 목적으로 만들었습니다.

- Elasticsearch JAVA API 버전 관리에 대한 유지보수 비용을 절감 해야 했습니다.

- Elasticsearch Cluster 에 대한 Version Upgrade 도 수행 해야 했습니다.

- Multi Cluster 에 대한 Concurrent 처리가 가능 해야 했습니다.


프로젝트 코드를 보시면 아시겠지만 매우 간단 합니다.


사용한 Framework)

- SpringMVC + Maven Project

- pom.xml  내 dependency 참고 하시면 됩니다.


지원 가능한 API)

- Elasticsearch에서 제공하는 거의 모든 RESTful API 를 제공 합니다.

- HTTP POST 만 구현해 놨기 때문에 POST 를 지원하지 않는 API 는 동작 하지 않습니다.

- 조만간 시간 나는데로 추가해 보겠습니다.

- Single Request 뿐만 아니라 Multi Request 도 지원 합니다.

- Single Cluster 뿐만 아니라 Multi Cluster 로 Request 를 보낼 수 있습니다.

-  서로 다른 Version 의 Cluster 라도 상관 없습니다.


Single Request Example)

[WAS Endpoint]

http://localhost:8080/query


[Method]

POST RAW


[Request Body]

{

  "target":"http://{YOUR-CLUSTER}/{YOUR-INDEX}/_search",

  "query":{}

}

- target

-  요청할 Elasticsearch Cluster 의 RESTful Endpoint 를 작성 하시면 됩니다.

- {YOUR-INDEX} 는 alias, single index, multi index  모두 사용 가능 합니다.

- query

- 기존에 사용하시던 QueryDSL 문을 그대로 넣어 주시면 됩니다.

- match_all  query 가 실행 됩니다.


Multi Request Example)

[WAS Endpoint]

http://localhost:8080/mquery


[Method]

POST RAW


[Request Body]

[

{

  "target":"http://{YOUR-CLUSTER1}/{YOUR-INDEX1}/_search",

  "query":{}

},

{

  "target":"http://{YOUR-CLUSTER1}/{YOUR-INDEX2}/_search",

  "query":{}

},

{

  "target":"http://{YOUR-CLUSTER2}/{YOUR-INDEX1}/_search",

  "query":{}

},

{

  "target":"http://{YOUR-CLUSTER2}/{YOUR-INDEX2}/_search",

  "query":{}

}

]


 Multi Request 의 경우 _msearch API 와 비슷 하게 동작은 합니다.

다만, _msearch의 경우 서로 다른 클러스터간에 통신은 지원 하지 않습니다.



추가 Parameters)

- routing

이 기능은 특정 key 를 가지고 문서를 저장 하기 위한 대상 shard 를 지정 하기 위해 사용 합니다.

문서 저장 시 해당 key 에 대한 Grouping 이나 Classify 를 위해 사용 합니다.

자세한 내용은 Elastic 사의 Reference 문서를 참고하세요. (클릭)

- preference

이 기능은 검색 질의 시 아주 유용하게 활용이 가능 합니다.

특정 shard 를 지정 할 수도 있고 질의 하고 싶은 node 를 선택 할 수도 있습니다.

자세한 내용은 Elastic 사의 Reference 문서를 참고하세요. (클릭)


Github Repository)

https://github.com/HowookJeong/esquery-proxy

: