[Elasticsearch - The Definitive Guide] Finding Associated Words
Elastic/TheDefinitiveGuide 2015. 12. 15. 12:46문서에 대한 relevance를 어떻게 구현해야 비용이 적게 들까? 고민 해보신 적이 있을 실겁니다.
꼭 이 글이 일치 하지는 않지만 match query 사용 시 비싼 비용을 지불하지 말고 indexing time 에 활용을 한번 해보면 어떨까 하는 아이디어에서 나온 글로 보시면 어떨까 합니다.
그런 의미에서 기록해 봤습니다.
원문링크)
https://www.elastic.co/guide/en/elasticsearch/guide/current/shingles.html
https://www.elastic.co/guide/en/elasticsearch/reference/2.1/analysis-shingle-tokenfilter.html
원문 Snippet)
Performanceedit
Not only are shingles more flexible than phrase queries, but they perform better as well. Instead of paying the price of a phrase query every time you search, queries for shingles are just as efficient as a simplematch
query. A small price is paid at index time, because more terms need to be indexed, which also means that fields with shingles use more disk space. However, most applications write once and read many times, so it makes sense to optimize for fast queries.
This is a theme that you will encounter frequently in Elasticsearch: enables you to achieve a lot at search time, without requiring any up-front setup. Once you understand your requirements more clearly, you can achieve better results with better performance by modeling your data correctly at index time.
※ shingles 란? 쉽게 token(term)들에 대한 ngram 이라고 이해 하시면 쉽습니다.
결국 검색 질의 시 slop 이나 position_offset_gap 기능을 이용하는 것 보다 색인 시 shigles analyzed 를 통해 질의 비용을 줄이는 것이라고 보시면 됩니다.
단, 문서에도 있지만 저장 공간이 늘어 나게 됩니다.