'Elastic/Elasticsearch' 카테고리의 글 목록 (12 Page)

[Elasticsearch] doc, _source, stored_fields, script_fields 간단 정리

Elastic/Elasticsearch 2017. 7. 13. 14:42

§ Elasticsearch Reference 5.5.0

https://www.elastic.co/guide/en/elasticsearch/reference/current/search-request-source-filtering.html

1. doc

가장 빠름

한번 읽힌 정보는 memory에 cache 됨

single term field 또는 not analyzed field 에 대해서

2. _source

매우 느림

매번 파싱하고 읽어 들임

3. stored_fields

field mapping 시 stored 설정이 된 field만 사용이 가능 함

역시 느림

[Elasticsearch] elasticsearch-analysis-arirang-5.5.0 공유

Elastic/Elasticsearch 2017. 7. 10. 14:18

5.5.0 에서 RestActionPlugin 등록하는 코드가 변경이 되어서 수정 반영 했습니다.

elasticsearch-analysis-arirang-5.5.0 공유 합니다.

Lucene 6.6.0

Elasticsearch 5.5.0

기준 입니다.

설치파일 다운로드)

elasticsearch-analysis-arirang-5.5.0.zip

설치 방법)

$ bin/elasticsearch-plugin install --verbose file:///services/apps/elasticsearch-analysis-arirang-5.5.0.zip

아래는 플러그인 구현 시 필요한 내용 몇 가지 정리 했습니다.

1. arirang 관련 프로젝트 두개를 빌드 하셔야 합니다.

- https://github.com/korlucene/arirang-analyzer-6

- https://github.com/korlucene/arirang.morph

arirang.morph 의 경우 수명님이 arirang-analyzer-6 에 포함 시켜 놓았기 때문에 반드시 빌드해서 하실 필요는 없지만 그래도 한번 해보시면 좋습니다.

version 정보등은 맞게 수정해서 사용 하시면 됩니다.

(참고로 arirang 에 있었던 몇 가지 버그들이 수정된 것 같습니다.)

2. elasticsearch arirang plugin 을 만드시면 됩니다.

항상 그렇지만 version 이 올라가고 나면 변경된 내용에 대해서 적용을 해주셔야 합니다.

이번에는 큰 변화는 없었지만 test code 쪽 내용이 좀 변경이 되었내요.

이전 브랜치와 비교해서 보시면 될 것 같습니다.

설치 후 테스트)

http://localhost:9200/_analyze?pretty&analyzer=arirang_analyzer&text=한국 엘라스틱서치 사용자 그룹의 HENRY 입니다.

테스트 결과)

{
  "tokens" : [
    {
      "token" : "한국",
      "start_offset" : 0,
      "end_offset" : 2,
      "type" : "korean",
      "position" : 0
    },
    {
      "token" : "엘라스틱서치",
      "start_offset" : 3,
      "end_offset" : 9,
      "type" : "korean",
      "position" : 1
    },
    {
      "token" : "엘라",
      "start_offset" : 3,
      "end_offset" : 5,
      "type" : "korean",
      "position" : 1
    },
    {
      "token" : "스틱",
      "start_offset" : 5,
      "end_offset" : 7,
      "type" : "korean",
      "position" : 2
    },
    {
      "token" : "서치",
      "start_offset" : 7,
      "end_offset" : 9,
      "type" : "korean",
      "position" : 3
    },
    {
      "token" : "사용자",
      "start_offset" : 10,
      "end_offset" : 13,
      "type" : "korean",
      "position" : 4
    },
    {
      "token" : "그룹",
      "start_offset" : 14,
      "end_offset" : 16,
      "type" : "korean",
      "position" : 5
    },
    {
      "token" : "henry",
      "start_offset" : 18,
      "end_offset" : 23,
      "type" : "word",
      "position" : 6
    },
    {
      "token" : "입니다",
      "start_offset" : 24,
      "end_offset" : 27,
      "type" : "korean",
      "position" : 7
    }
  ]

}

저작자표시 비영리 변경금지

:

[Elasticsearch] 각 노드별 meta 정보 저장 관련.

Elastic/Elasticsearch 2017. 6. 8. 10:12

master, data 노드에는 기본적으로 모든 index 들의 settings, mappings 정보를 가지고 있습니다.

search 노드만 index 에 대한 meta 정보를 가지고 있지 않습니다.

어떻게 보면 당연한 건데 확인 하지 않으면 실수 할 수 있는 내용이라 그냥 기록해 봅니다.

master 노드는 모드 node 와 index 에 대한 관리를 하기 때문에 당연히 정보를 가지고 있어야 합니다.

data 노드는 물리적인 index, shard 를 저장하고 있기 때문에 역시 정보를 가지고 있을 수 밖에 없습니다.

search 노드는 coordinator 역할과 질의 결과에 대한 merge 등의 역할을 하고 있어 물리적으로 정보를 가지고 있지는 않지만 필요 시 master node 로 정보를 요청 할 수는 있습니다.

저작자표시 비영리 변경금지

:

[Elasticsearch] 5.x 용 Arirang 형태소 분석기 사용 시 주의 사항.

Elastic/Elasticsearch 2017. 4. 27. 10:05

Elasticsearch에서 아리랑 형태소분석기 사용 시 주의사항)

사실 주의 사항 이라기 보다 1음절 처리에 대한 고민을 해보시면 좋을 것 같다는 의견 드립니다.

2.x 에서 사용하던 arirang 과 lucene 의 버전은

- morph 1.0.x

- arirang & lucene 5.x

입니다.

5.x 에서 사용하던 arirang 과 lucene 의 버전은

- morph 1.1.0

- arirang & lucene 6.x

입니다.

여기서 arirang morph 쪽 코드가 많이 개선 또는 변경이 되었습니다.

그리고 몇 가지 default 설정 값들에 대한 변화도 있는데요.

제가 발견한 대표적인 문제는 아래와 같습니다.

'울퉁불퉁한' 이라는 source 에 대한 analysis 시 발생을 합니다.

5.x 에서 analyze 한 결과는 아래와 같습니다.

울퉁불퉁한(N)/90:2

울퉁불퉁/Z

한/N

울퉁불퉁(N),하(t),ㄴ(e)/70:2

울퉁/N

불퉁/N

2.x 에서 analyze 한 결과는 아래와 같습니다.

울퉁불퉁(N),하(t),ㄴ(e)/70:2

울퉁/N

불퉁/N

이게 무슨 문제가 되느냐고 할 수 있는데

실제 색인을 실행 하면 position 정보가 5.x 에서 뒤집혀져 색인 되지 않는 문제를 보실 수 있습니다.

5.x 에서 _analyze 한 결과는 아래와 같습니다.

{

"tokens" : [

{

"token" : "울퉁불퉁한",

"start_offset" : 0,

"end_offset" : 5,

"type" : "korean",

"position" : 0

},

{

"token" : "울퉁불퉁",

"start_offset" : 0,

"end_offset" : 4,

"type" : "korean",

"position" : 0

},

{

"token" : "울퉁",

"start_offset" : 0,

"end_offset" : 2,

"type" : "korean",

"position" : 0

},

{

"token" : "한",

"start_offset" : 4,

"end_offset" : 5,

"type" : "korean",

"position" : 1

},

{

"token" : "불퉁",

"start_offset" : 2,

"end_offset" : 4,

"type" : "korean",

"position" : 2

}

]

}

2.x 에서 _analyze 한 결과는 아래와 같습니다.

{

"tokens" : [ {

"token" : "울퉁불통",

"start_offset" : 0,

"end_offset" : 4,

"type" : "korean",

"position" : 0

}, {

"token" : "울퉁",

"start_offset" : 0,

"end_offset" : 2,

"type" : "korean",

"position" : 0

}, {

"token" : "불통",

"start_offset" : 2,

"end_offset" : 4,

"type" : "korean",

"position" : 1

} ]

}

보이시나요?

어디가 다르고 문제가 되는지?

해결 방법은 CompoundNounAnalyzer 의 setDivisibleOne 설정을 false 로 하시면 위와 같은 문제를 해결 하실 수 있습니다.

2.x 에서는 KoreanFilter 쪽에 조건문이 있었는데 5.x 에서는 주석 처리가 되어 있더라구요.

또는 이것 저것 다 귀찮다고 하시면 그냥 '한' 에 대한 불용어 처리를 하셔도 될 것 같습니다.

저작자표시 비영리 변경금지

:

[Elasticsearch] Head plugin에서 Multi Cluster 연결하기

Elastic/Elasticsearch 2017. 3. 27. 15:43

head plugin 을 사용하면서 restful api 를 이용해서 elasticsearch cluster 정보를 얻어 올 수 있습니다.

다만, restful api 를 사용하기 위해서는 아래 설정을 각 노드에 해줘야 합니다.

참고문서)

https://www.elastic.co/guide/en/elasticsearch/reference/current/modules-http.html

https://www.elastic.co/guide/en/elasticsearch/reference/2.4/modules-http.html

http.cors.enabled: true

http.cors.allow-origin: "*"

http.cors.allow-credentials: true

단, 주의 하셔야 하는 점은 해당 노드들이 외부로 노출 되어 있지 않다는 전체 조건이 있을 경우 위와 같이 사용하시기 바랍니다.

저작자표시 비영리 변경금지

:

[Elasticsearch] Java API 5.2 - Maven Dependency Module

Elastic/Elasticsearch 2017. 3. 22. 16:07

5.x 로 업그레이드 되면서 몇 가지 바뀐 것들이 존재 합니다.

그 중 maven dependency 설정을 수정해 줘야 하는 것들이 있어서 그냥 기록해 봅니다.

참고문서)

https://www.elastic.co/guide/en/elasticsearch/client/java-api/current/_maven_repository.html

<groupId>org.elasticsearch.client</groupId>

<artifactId>transport</artifactId>

</dependency>

<groupId>org.apache.logging.log4j</groupId>

</dependency>

<groupId>org.apache.logging.log4j</groupId>

</dependency>

java api 사용하시는 분들은 위 설정을 추가해 주시면 에러 없이 잘 동작 할겁니다.

log4j2 설정 파일도 없으시다면 추가를 해주셔야 합니다.

저작자표시 비영리 변경금지

:

[Elasticsearch] TransportClient on 5.x

Elastic/Elasticsearch 2017. 3. 9. 11:51

elasticsearch 2.4 에서 사용하던 java api 중 TransportClinet 사용 방법이 바뀌어서 작성 합니다.

변경된 내용에 대해서는 elasticsearch 공식 홈페이지에 자세히 나와 있습니다.

[참고문서]

https://www.elastic.co/guide/en/elasticsearch/client/java-api/current/_maven_repository.html

https://www.elastic.co/guide/en/elasticsearch/client/java-api/current/transport-client.html

[코드 변경]

2.x)

settings = settingsBuilder()

.put("cluster.name", cluster)

.put("client.transport.sniff", true)

.put("network.tcp.blocking", false) // tcp non-blocking mode

.put("client.transport.ping_timeout", "10s")

.build();

5.x)

settings = builder()

.put("cluster.name", cluster)

.put("client.transport.sniff", true)

.put("network.tcp.blocking", false) // tcp non-blocking mode

.put("client.transport.ping_timeout", "10s")

.build();

2.x)

TransportClient client = TransportClient.builder().settings(settings).build();

5.x)

TransportClient client = new PreBuiltTransportClient(settings);

여기서 주의 하실 점은 참고문서에 있지만 transport 가 분리 되었기 때문에 별도로 dependency 구성을 해주셔야 합니다.

Maven Dependency 추가)

<groupId>org.elasticsearch.client</groupId>

<artifactId>transport</artifactId>

<version>${elasticsearch.version}</version>

</dependency>

별 내용은 아니지만 혹시라도 삽질 하시는 분들이 계실 수 있어 작성해 봤습니다.

저작자표시 비영리 변경금지

:

[Elasticsearch] 2.4.x to 5.2.x 으로의 elasticsearch.yml

Elastic/Elasticsearch 2017. 2. 21. 13:23

2.x 에서 사용하던 설정을 그대로 5.x 로 올려서 실행을 시키면 몇 가지 볼 수 있는 에러들이 있습니다.

뭐 이런건 breaking changes 를 참고하거나 소스코드를 보면 금방 해결이 되긴 합니다.

그냥 복습하는 차원에서 기록해 봅니다.

[참고문서]

https://www.elastic.co/guide/en/elasticsearch/reference/5.2/breaking-changes-5.2.html

https://www.elastic.co/guide/en/elasticsearch/reference/5.2/breaking-changes-5.1.html

https://www.elastic.co/guide/en/elasticsearch/reference/5.2/breaking-changes-5.0.html

[발생 에러들]

unknown setting [es.default.path.conf] please check that any required plugins are installed, or check the breaking changes documentation for removed settings

node settings must not contain any index level settings

unknown setting [action.disable_shutdown] please check that any required plugins are installed, or check the breaking changes documentation for removed settings

unknown setting [discovery.zen.ping.multicast.enabled] please check that any required plugins are installed, or check the breaking changes documentation for removed settings

unknown setting [resource.reload.interval] did you mean any of [resource.reload.interval.low, resource.reload.interval.high, resource.reload.interval.medium, resource.reload.enabled]?

unknown setting [script.indexed] did you mean any of [script.inline, script.ingest]?

node validation exception

bootstrap checks failed

memory locking requested for elasticsearch process but memory is not locked

max virtual memory areas vm.max_map_count [65530] is too low, increase to at least [262144]

- es.default.path.conf 는 path.conf 로 변경 되었습니다. (-D 가 -E 로 변경 되었구요.)

- index level 설정이 있다면 제거 하시면 됩니다.

- action.disable_shutdown 은 없어 진 것으로 보입니다. (미쳐 확인 하지는 못했구요. 문서를 보면 _shutdown 이 없어 진것으로 미루어 봤을때...)

- multicast 설정도 제거 하시면 됩니다.

- resource 설정은 이름과 방법이 바뀌었으니 삭제 하시거나 변경해 주면 됩니다.

- script.indexed 설정도 제거 하시면 됩니다. (아마도 stored 로 바뀐것 같습니다.)

- bootstrap 설정은 root 권한을 주시거나 limits.conf 인가에서 수정을 해주셔야 할 것 같구요.

- vm.max_map_count 설정은 문서에 잘 나와 있습니다. ($ sudo sysctl -w vm.max_map_count=262144)

저작자표시 비영리 변경금지

:

[Elasticsearch] elasticsearch-analysis-arirang-5.2.1

Elastic/Elasticsearch 2017. 2. 21. 12:41

elasticsearch-analysis-arirang-5.2.1 공유 합니다.

Lucene 6.4.1

Elasticsearch 5.2.1

기준 입니다.

elasticsearch-analysis-arirang-5.2.1.zip

설치 방법)

$ bin/elasticsearch-plugin install --verbose file:///services/apps/elasticsearch-analysis-arirang-5.2.1.zip

저작자표시 비영리 변경금지

:

[검색추천] Apache mahout + Elastic Stack 을 이용한 기본 추천

Elastic/Elasticsearch 2017. 1. 24. 11:47

Elastic Stack 과 Apache mahout 을 이용한 추천 데이터 생성을 다뤄 볼까 합니다.

기본적으로는 Elastic Stack 만 가지고도 cohort 분석을 통해 추천 데이터 마트 구성이 가능 한데요.

추천 데이터에 대한 품질을 좀 더 좋게 하기 위해 Apache mahout 을 활용해 보도록 하겠습니다.

여기서 다루는 내용은 누구나 쉽게 접근 할 수 있도록 Hello World! 수준만 기술 합니다.

[Elastic Stack]

https://www.elastic.co/products

[Apache mahout]

https://mahout.apache.org/

위 두 솔루션은 모두 오픈소스 이며 예제 코드가 해당 소스에 잘 만들어져 있어 누구나 쉽게 활용이 가능합니다.

Step 1)

Elasticsearch + Logstash + Kibana 를 이용해 로그를 수집하고 추천 할 raw data 를 생성 합니다.

User item click log -> Logstash collect -> Elasticsearch store -> Kibana visualize -> CSV download

여기서 수집한 데이터 중 추출 데이터는 user id + item id + click count 입니다.

아래는 Kibana QueryDSL 예제 입니다.

{

"size": 0,

"query": {

"filtered": {

"query": {

"query_string": {

"query": "cp:CLK AND id:[0 TO *]",

"analyze_wildcard": true

}

},

"filter": {

"bool": {

"must": [

{

"range": {

"time": {

"gte": 1485010800000,

"lte": 1485097199999,

"format": "epoch_millis"

}

],

"must_not": []

}

},

"aggs": {

"2": {

"terms": {

"field": "user_id",

"size": 30000,

"order": {

"_count": "desc"

}

},

"aggs": {

"3": {

"terms": {

"field": "item_id",

"size": 10,

"order": {

"_count": "desc"

}

Step 2)

Apache mahout 에서 사용할 recommender 는 UserBasedRecommender 입니다.

샘플 코드에도 나와 있지만 dataset.csv 파일은 아래와 같은 형식 입니다.

- Creating a User-Based Recommender in 5 minutes

1,10,1.0
1,11,2.0
1,12,5.0
1,13,5.0

형식) userId,itemId,ratingValue

Step1 에서 위와 같은 형식을 맞추기 위해 user_id, item_id, click_count 를 생성 하였습니다.

이 데이터를 기반으로 UserBasedRecommender 를 돌려 보도록 하겠습니다.

Step 3)

아래 보시면 샘플 코드가 잘 나와 있습니다.

https://github.com/apache/mahout/tree/master/examples/src/main/java/org/apache/mahout

Main class 하나 만드셔서 Step2 에 나와 있는 코드로 돌려 보시면 됩니다.

저는 UserBasedRecommender 를 implements 해서 별도로 구현했습니다.

이건 누구나 쉽게 하실 수 있는 부분이기 때문에 examples 에 나와 있는 BookCrossingRecommender 클래스등을 참고 하시면 됩니다.

UserBasedRecommenderRunner runner = new UserBasedRecommenderRunner();

Recommender recommender = runner.buildRecommender();

// 710039번 유저에 대한 추천 아이템 3개

List<RecommendedItem> recommendations = recommender.recommend(710039, 3);

for (RecommendedItem recommendation : recommendations) {

LOG.debug("추천 아이템 : {}", recommendation);

}

[실행 로그]

11:39:31.527 [main] INFO o.a.m.c.t.i.model.file.FileDataModel - Creating FileDataModel for file /git/prototype/data/user-to-item.csv

11:39:31.626 [main] INFO o.a.m.c.t.i.model.file.FileDataModel - Reading file info...

11:39:31.765 [main] INFO o.a.m.c.t.i.model.file.FileDataModel - Read lines: 63675

11:39:31.896 [main] INFO o.a.m.c.t.i.model.GenericDataModel - Processed 10000 users

11:39:31.911 [main] INFO o.a.m.c.t.i.model.GenericDataModel - Processed 19124 users

11:39:31.949 [main] DEBUG o.a.m.c.t.i.r.GenericUserBasedRecommender - Recommending items for user ID '710039'

11:39:31.965 [main] DEBUG o.a.m.c.t.i.r.GenericUserBasedRecommender - Recommendations are: [RecommendedItem[item:35222, value:4.0], RecommendedItem[item:12260, value:4.0], RecommendedItem[item:12223, value:1.5]]

11:39:31.966 [main] DEBUG o.h.p.mahout.meme.MemeProductRunner - 추천 아이템 : RecommendedItem[item:35222, value:4.0]

11:39:31.966 [main] DEBUG o.h.p.mahout.meme.MemeProductRunner - 추천 아이템 : RecommendedItem[item:12260, value:4.0]

11:39:31.967 [main] DEBUG o.h.p.mahout.meme.MemeProductRunner - 추천 아이템 : RecommendedItem[item:12223, value:1.5]

[Recommender]

similarity = new PearsonCorrelationSimilarity(dataModel);

// 이웃한 N명의 사용자 데이터로 추천 데이터 생성

// UserNeighborhood neighborhood = new NearestNUserNeighborhood(2, similarity, dataModel, 0.2);

// 특정 값이나 임계치를 넘는 모든 사용자의 데이터로 추천 데이터 생성, samplingrate : user sampling rate 10%

// UserNeighborhood neighborhood = new ThresholdUserNeighborhood(0.1, similarity, dataModel, 0.1);

UserNeighborhood neighborhood = new ThresholdUserNeighborhood(0.2, similarity, dataModel, 1.0);

recommender = new GenericUserBasedRecommender(dataModel, neighborhood, similarity);

- 데이터 크기가 너무 작아 ThresholdUserNeighborhood 를 이용하였습니다.

이와 같이 검색 클릭 로그를 기반으로 CF를 돌려 추천 데이터를 만드는 아주 간단한 방법을 알아봤습니다.

만든 추천 데이터에 대한 평가도 가능 합니다.

역시 examples 에 xxxxxxEvaluator 클래스들을 참고하셔서 구현해 보시면 됩니다.

저작자표시 비영리 변경금지

:

jjeong

'Elastic/Elasticsearch'에 해당되는 글 385건

[Elasticsearch] doc, _source, stored_fields, script_fields 간단 정리

[Elasticsearch] elasticsearch-analysis-arirang-5.5.0 공유

[Elasticsearch] 각 노드별 meta 정보 저장 관련.

[Elasticsearch] 5.x 용 Arirang 형태소 분석기 사용 시 주의 사항.

[Elasticsearch] Head plugin에서 Multi Cluster 연결하기

[Elasticsearch] Java API 5.2 - Maven Dependency Module

[Elasticsearch] TransportClient on 5.x

[Elasticsearch] 2.4.x to 5.2.x 으로의 elasticsearch.yml

[Elasticsearch] elasticsearch-analysis-arirang-5.2.1

[검색추천] Apache mahout + Elastic Stack 을 이용한 기본 추천

티스토리툴바