[검색일반] stop token filter 와 char filter

ITWeb/검색일반 2018.10.05 14:43

가끔 착각하게 되는 내용이라 기술해 봅니다.


우리가 흔히 이야기 하는 불용어라고 하는 것은 추출된 색인어에 대해서 색인어 처리를 하지 않도록 하는 것입니다.

이것이 stopwords 라고 부르는 것이고 stop token filter 하고 합니다.


analyze 과정에서 char filter 이후 tokenizer 단계에서 사용되는 filter 기능이 되는 것입니다.

다시 말해 색인어 추출 후 적용하는 filter 기능이라고 보시면 됩니다.


그럼 char filter 는 언제 동작 하게 될까요?

이 filter 기능은 색인어 추출 전 그러니까 tokenizer 로 text 가 전달 되기 전에 text 내 불필요한 문자들을 제거 하기 위해 사용을 합니다.

이것이 char filter 가 되겠습니다.


그냥 저 혼자 복습 차원에서 기술해 봤습니다.


https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-stop-tokenfilter.html

https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-charfilters.html


Trackback 0 : Comment 0

[Logstash] --config.reload.automatic 사용 경험 공유

Elastic/Logstash 2018.10.04 11:28

Logstash 사용 시 --config.reload.automatic 설정을 통해서 conf 파일에 대한 변경 사항을 데몬 재시작 없이 할 수 있습니다.

하지만 모든 변경 사항에 대해서 반영이 가능 하지 않기 때문에 사용 시 주의 하셔야 합니다.


크게 사용 방법은 두 가지로 나뉩니다.

1. --config.reload.automatic 을 통한 자동 갱신

2. Logstash 재시작을 통한 갱신


2번의 과정을 하고 싶지 않기 때문에 1번을 설정해서 사용을 하는데 문제는 이게 모든 plugins 에서 동작 하지는 않는 다는 것입니다.


만약 아래와 같은 에러를 접하셨다면, 해당 plugin 또는 pipeline 은 auto reload 설정이 동작 하지 않는 것들 이니 참고 하시기 바랍니다.


[에러내용]

[ERROR][logstash.agent           ] Failed to execute action {:id=>:main, :action_type=>LogStash::ConvergeResult::FailedAction, :message=>“Cannot reload pipeline, because the existing pipeline is not reloadable”, :backtrace=>nil}


쉽게는 기본적인 syntax 오류 같은건 바로 바로 반영 됩니다. :)

Trackback 0 : Comment 0

[Elasticsearch] _analyze 예제 - 특수문자 제거

Elastic/Elasticsearch 2018.10.04 08:02

색인 시점에 text 에 포함된 특수 문자를 제거 하기 위한 예시 입니다.


[실행]

curl -X POST \

  http://localhost:9200/_analyze \

  -H 'cache-control: no-cache' \

  -H 'content-type: application/json' \

  -d '{

  "tokenizer": "arirang_tokenizer",

  "filter":[

              "lowercase",

              "trim",

              "arirang_filter"

            ],

  "char_filter" : [{

          "type": "pattern_replace",

          "pattern": "\\p{Punct}|\\d",

          "replacement": " "

        }],

  "text": "애플(&<>,./^!@+=;:%)파이"

}'



[결과]

{

    "tokens": [

        {

            "token": "애플",

            "start_offset": 0,

            "end_offset": 2,

            "type": "korean",

            "position": 0

        },

        {

            "token": "파이",

            "start_offset": 18,

            "end_offset": 20,

            "type": "korean",

            "position": 1

        }

    ]

}


Trackback 0 : Comment 0

[개발일반] Hashing 하기

ITWeb/개발일반 2018.09.28 16:55

$ echo -n 'Helloworld' | shasum -a 256

$ pwgen -N 1 -s 32

$ printf '%s' "Helloworld" | md5sum

$ printf '%s' "Helloworld" | md5


터미널 상에서 hashing 이 필요 할때 쓰면 되겠내요.

tags : hash, 해쉬
Trackback 0 : Comment 0

[Shell] 특정 크기 이상인 파일 찾기

ITWeb/개발일반 2018.08.28 12:43

- 2MB 이상 파일 찾기

$ find * -size +2M -type f | wc -l


- 2MB 이상 파일 삭제 하기

$ find * -size +2M -type f -exec rm -f '{}' \;


args1 = <where to find>
args2 = <find by what, which means it could be -name, -type and here we give -size to mean we wish to find files by size>
args3 = <what size.. +10k would mean above 10 kilo bytes>
args4 = <and one more condition .. -type, which means what type of things should it match>
args5 = <-f means files.. we could have mentioned -d (directory) -b (block), -c (character), -f (regular file), -l (link), -s (socket), -p (pipes) >
args6 = <-exec means what action to perform if all the matches are true, so -exec is for action..>
args7..10 = < the following of -exec is a shell command..
rm -f {} \; this means the results of match is removed (deleted)>

tags : bash, find, Shell, size
Trackback 0 : Comment 0