'term extract'에 해당되는 글 1건

  1. 2014.02.25 [lucene] IndexReader/Fields의 term 추출. 1

[lucene] IndexReader/Fields의 term 추출.

Elastic/Elasticsearch 2014. 2. 25. 11:19

Reference :

http://lucene.apache.org/core/4_4_0/core/org/apache/lucene/index/IndexReader.html

https://lucene.apache.org/core/4_4_0/core/org/apache/lucene/index/Fields.html


어느분이 물어 보셔서 공유 합니다.
현재 색인된 파일에서 색인된 term을 추출하고 싶으신 분들이 계신것 같습니다.

용도와 목적은 잘 모르겠지만 뭐 필요 하시니까 찾으시겠죠.


하지만 groupby 같은 기능을 구현하려고 하시는 거라면 그냥 facet을 사용하라고 추천 하고 싶습니다.


위에 링크 걸어 놓은 것 처럼 루씬의 IndexReader 를 이용해서 구현 가능 합니다.

IndexReader.getTermVectors(docID) : 문서 전체 term list

IndexReader.getTermVector(docId, field) : 문서의 특정 field 내 term list

문서에 설명이 잘 나와 있으니 참고하세요.

그리고 elasticsearch 에서는  ShardTermVectorService 에서 관련 기능을 제공하고 있습니다.


아래는 IndexReader 소스코드 입니다.


아래는 Fields 소스코드 입니다.



: