'ITWeb/검색일반' 카테고리의 글 목록

[Arirang] 아리랑 사용 시 startOffset, endOffset 역전 현상

ITWeb/검색일반 2021. 11. 10. 14:24

아리랑 형태소 분석기 에서 synonym filter 사용을 하지 않았는데도 offset 역전 현상이 발생 할 경우가 있습니다.
보통은 synonym filter 로 인해서 발생 하는 경우가 있는데요.
total.dic, extension.dic 에 등록된 단어들이 띄어쓰기 없이 복합명사 처럼 작성이 되었을 경우 간혹 발생 할 수 있습니다.

예)

Input Text : 전문의사시대
Dictionary Text : 전문, 전문의, 의사, 사시, 시대
Analyzed Text : 전문, 전문의, 사시, 의사, 시대

복합명사 사전인 compound.txt 에는 등록이 되어 있지 않습니다.
전문의사시대:전문,의사,시대:0000
로 등록을 하면 원하는 결과를 얻을 수 있고 오류도 없어집니다.

에러 유형)

startOffset must be non-negative, and endOffset must be >= startOffset, and offsets must not go backwards ...중략...

:

[Similarity] Universal Sentence Encoder/4 - 링크.

ITWeb/검색일반 2020. 10. 20. 17:32

https://tfhub.dev/google/universal-sentence-encoder/4

https://www.elastic.co/blog/text-similarity-search-with-vectors-in-elasticsearch

Elasticsearch 내 dense_vector type 을 이용한 Similarity 검색을 하기 위해 필요한 거라 링크 걸어 둡니다.

:

[검색일반] stop token filter 와 char filter

ITWeb/검색일반 2018. 10. 5. 14:43

가끔 착각하게 되는 내용이라 기술해 봅니다.

우리가 흔히 이야기 하는 불용어라고 하는 것은 추출된 색인어에 대해서 색인어 처리를 하지 않도록 하는 것입니다.

이것이 stopwords 라고 부르는 것이고 stop token filter 하고 합니다.

analyze 과정에서 char filter 이후 tokenizer 단계에서 사용되는 filter 기능이 되는 것입니다.

다시 말해 색인어 추출 후 적용하는 filter 기능이라고 보시면 됩니다.

그럼 char filter 는 언제 동작 하게 될까요?

이 filter 기능은 색인어 추출 전 그러니까 tokenizer 로 text 가 전달 되기 전에 text 내 불필요한 문자들을 제거 하기 위해 사용을 합니다.

이것이 char filter 가 되겠습니다.

그냥 저 혼자 복습 차원에서 기술해 봤습니다.

https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-stop-tokenfilter.html

https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-charfilters.html

저작자표시 비영리 변경금지 (새창열림)

:

[검색] re-ranking 시 사용하는 함수에 주의 하세요.

ITWeb/검색일반 2018. 1. 31. 11:19

Elasticsearch 나 Solr 나 모두 내장 함수를 제공 하고 있습니다. (Lucene function 이기도 합니다.)

그런데 이 내장 함수를 이용해서 re-ranking 작업을 많이들 하시는 데요.

하는건 문제가 없지만 시스템 리소스에 영향을 주거나 성능적으로 문제가 되는 함수는 사용하지 않도록 주의 하셔야 합니다.

그냥 무심코 사용했다가 왜 성능이 안나오지 하고 맨붕에 빠지실 수 있습니다.

Function Score Query 나 Script 를 이용한 re-ranking 시 꼭 검토하세요.

re-ranking 은 보통 질의 시점에 수행을 하기 때문에 기본적으로 operation cost 가 비쌉니다.

lucene/queries/function/valuesource

TermFreqValueSource.java)

/**
 * Function that returns {@link org.apache.lucene.index.PostingsEnum#freq()} for the
 * supplied term in every document.
 * <p>
 * If the term does not exist in the document, returns 0.
 * If frequencies are omitted, returns 1.
 */
public class TermFreqValueSource extends DocFreqValueSource {
  public TermFreqValueSource(String field, String val, String indexedField, BytesRef indexedBytes) {
    super(field, val, indexedField, indexedBytes);
  }

  @Override
  public String name() {
    return "termfreq";
  }

  @Override
  public FunctionValues getValues(Map context, LeafReaderContext readerContext) throws IOException {
    Fields fields = readerContext.reader().fields();
    final Terms terms = fields.terms(indexedField);

    return new IntDocValues(this) {
      PostingsEnum docs ;
      int atDoc;
      int lastDocRequested = -1;

      { reset(); }

      public void reset() throws IOException {
        // no one should call us for deleted docs?
        
        if (terms != null) {
          final TermsEnum termsEnum = terms.iterator();
          if (termsEnum.seekExact(indexedBytes)) {
            docs = termsEnum.postings(null);
          } else {
            docs = null;
          }
        } else {
          docs = null;
        }

        if (docs == null) {
          docs = new PostingsEnum() {
            @Override
            public int freq() {
              return 0;
            }

            @Override
            public int nextPosition() throws IOException {
              return -1;
            }

            @Override
            public int startOffset() throws IOException {
              return -1;
            }

            @Override
            public int endOffset() throws IOException {
              return -1;
            }

            @Override
            public BytesRef getPayload() throws IOException {
              throw new UnsupportedOperationException();
            }

            @Override
            public int docID() {
              return DocIdSetIterator.NO_MORE_DOCS;
            }

            @Override
            public int nextDoc() {
              return DocIdSetIterator.NO_MORE_DOCS;
            }

            @Override
            public int advance(int target) {
              return DocIdSetIterator.NO_MORE_DOCS;
            }

            @Override
            public long cost() {
              return 0;
            }
          };
        }
        atDoc = -1;
      }

      @Override
      public int intVal(int doc) {
        try {
          if (doc < lastDocRequested) {
            // out-of-order access.... reset
            reset();
          }
          lastDocRequested = doc;

          if (atDoc < doc) {
            atDoc = docs.advance(doc);
          }

          if (atDoc > doc) {
            // term doesn't match this document... either because we hit the
            // end, or because the next doc is after this doc.
            return 0;
          }

          // a match!
          return docs.freq();
        } catch (IOException e) {
          throw new RuntimeException("caught exception in function "+description()+" : doc="+doc, e);
        }
      }
    };
  }
}

저작자표시 비영리 변경금지 (새창열림)

:

[Lucene] LeafReaderContext 는...

ITWeb/검색일반 2017. 12. 19. 18:36

검색 질의가 들어 오게 되면 아래와 같은 Object 들이 생성이 되고 수행을 하게 됩니다.

개념적으로 flow 를 적어 본 것이고 자세한 건 IndexSearcher 클래스를 참고하세요.

Query

IndexSearcher

IndexReader

IndexreaderContext

List<LeafReaderContext>

LeafSlices

1. search(...)

Query, CollectorManager

2. search(...)

LeafReaderContext, Collector

return TopFieldDocs

여기서 가장 중요한건 아래 부분 입니다.

Query -> IndexReader -> LeafReaderContext:LeafReader (One LeafReader per Segment)

저작자표시 비영리 변경금지 (새창열림)

:

[Lucene] Inverted index file - 역인덱스 파일

ITWeb/검색일반 2017. 11. 14. 23:15

루씬에서 검색을 하기 위해 필요한 파일을 살짝 알아보겠습니다.

파일 구조와 목록은 아래 문서를 참고 하시기 바랍니다.

Lucene Index File Formats)

https://lucene.apache.org/core/7_1_0/core/org/apache/lucene/codecs/lucene70/package-summary.html#package.description

그럼 실제 검색을 위해 보셔야 하는 기본이 되는 클래스는

IndexSearcher
IndexReader
CollectionStatistics
TermStatistics

이렇게 4개 정도 보시면 될 것 같습니다.

검색을 위해 필요한 정보는

Documents
Fields
Terms
FieldInvertState

이렇게 4개 정도가 필요 합니다.

딱 봐도 "searchField:elasticsearch" 하면

searchField 라는 field 정보가 필요하고,
elasticsearch 라는 term 관련 정보도 필요하고,
elasticsearch 라는 term 이 있는 document 정보도 필요하고,
해당 field 에서의 term 이 추출 된 offset과 position 정보가

필요합니다.

이걸 정리한 이유는 오늘 누가 custom function score query 를 사용하여 다수의 field 에 대한 ranking term boosting 기능을 사용하고 있는데 성능적으로 개선 할 수 있는 방법이 없는지 물어봐서 간단하게 정리해봤습니다.

Query 튜닝은 한계가 반드시 존재 합니다.

서버의 구조적인 개선과 튜닝을 병행해야 하며 다수의 field 에 대한 다수의 term boosting 은 최적화를 통해 최소화 해서 사용하는걸 추천 드립니다.

그리고 inverted index file 이라는 것은 루씬에서 하나의 파일만 이야기 하는 것이 아니라 lucene 이 가지고 있는 index file 목록들이 inverted index file 을 구성 한다고 보시면 될 것 같습니다.

저작자표시 비영리 변경금지 (새창열림)

:

[Lucene] QueryString Parser 간단 살펴보기

ITWeb/검색일반 2017. 10. 25. 13:11

초간단 기억용으로 막 작성했습니다.

[QueryString Parser]

() - group

(jakarta OR apache) AND website

field:() - field group

title:(+return +"pink panther")

{} - range query - exclusive

[] - range query - inclusive

"" - exact term (non_analyzed)

field:something somthing - match query (analyzed)

? - single character

* - 0 or more chracters

~ - levenshtein distance query (fuzzy query)

""~10 - slop position gap within 10 words (proximity query)

something - boolean query

+something - must have something

-something - must not have something

^ - boosting

OR operator OR or ||

AND operator AND, && or +

NOT operator NOT, ! or -

dismax query parser

https://lucene.apache.org/solr/guide/6_6/the-dismax-query-parser.html

저작자표시 비영리 변경금지 (새창열림)

:

[Lucene] SynonymFilter -> SynonymGraphFilter + FlattenGraphFilter

ITWeb/검색일반 2017. 7. 31. 18:37

오늘 뭐 좀 보다가 그냥 공유해 봅니다.
https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-synonym-tokenfilter.html

lucene 6.6 에서는 SynonymFilter 가 @Deprecated 되어 있습니다.

대체 filter 는 글에도 나와 있지만 SynonymGraphFilter 인데요.

재밌는건 이넘은 search time 에서 동작 하는 거라 index time 에는 여전히 SynonymFilter 또는 FlattenGraphFilter 를 사용해야 한다는 점입니다.

아직 깊게 분석해보지 않아서 ^^;

간만에 lucene 코드 까서 이것 저것 테스트 해보니 재밌내요.

그냥 참고 하시라고 올려봤습니다.

저작자표시 비영리 변경금지 (새창열림)

:

[Arirang] compounds.dic 사전

ITWeb/검색일반 2017. 7. 25. 12:16

또 기억이 나지 않아 기록 합니다.

arirang 에서 많이 사용하는 사전중에 복합명사 사전이 있습니다.

compounds.dic 이라는 사전 인데요.

구조는 이렇습니다.

분해전단어:분해후단어1,분해후단어2,...,분해후단어N:DBXX

분해전단어에 하여(다)동사, 되어(다)동사 가 붙을 수 있는지 확인 하셔야 합니다.

예)

객관화:객관,화:1100

이와 같이 된 이유는

객관화하다

객관화되다

가 되기 때문입니다.

참고)

http://krdic.naver.com/search.nhn?query=%EA%B0%9D%EA%B4%80%ED%99%94&kind=all

저작자표시 비영리 변경금지 (새창열림)

:

[esquery-proxy] Elasticsearch 용 RESTful API Gateway/Proxy

ITWeb/검색일반 2017. 7. 17. 19:01

Elasticsearch 를 서비스 용도로 많은 분들이 사용하고 계시는 것으로 압니다.

저 처럼 Java API를 사용하고 계신 분들도 계실 테고 RESTful API 를 사용하고 계신 분들도 계실 것으로 압니다.

그냥 버전 업그레이도 해야 하고 해서 재미 삼아 가볍게 만들어 보았습니다.

jjeong

'ITWeb/검색일반'에 해당되는 글 28건

[Arirang] 아리랑 사용 시 startOffset, endOffset 역전 현상

[Similarity] Universal Sentence Encoder/4 - 링크.

[검색일반] stop token filter 와 char filter

[검색] re-ranking 시 사용하는 함수에 주의 하세요.

[Lucene] LeafReaderContext 는...

[Lucene] Inverted index file - 역인덱스 파일

[Lucene] QueryString Parser 간단 살펴보기

[Lucene] SynonymFilter -> SynonymGraphFilter + FlattenGraphFilter

[Arirang] compounds.dic 사전

[esquery-proxy] Elasticsearch 용 RESTful API Gateway/Proxy

티스토리툴바