어제 저희 회사 행사에서 "오픈소스 검색엔진 구축 사례"로 발표를 했었는데요.
저에게 질문 주셨던 것중에 나름 재밌는 질문을 주셨던 내용이 있어서 공유 드립니다.
(아마도 질문 주신 분은 elasticsearch 를 사용해 보지 않으셨거나 경험 하신지 얼마 안되신 것 같다는 느낌 이였구요. lucene 은 많이 사용해보신 분 같다는 느낌 이였습니다. ㅎㅎ 제 느낌이니 틀릴수도 있구요.)
질문은 이랬던것 같습니다.
- elasticsearch 에서 색인 시에, IDF 값을 Global 하게 쓰기 어려울 텐데 어떻게 사용되는 지에 대한 질문이었습니다
정답은 아래 링크에 나와 있죠. ^^
(shard 별로 이루어 집니다.)
http://www.elasticsearch.org/guide/en/elasticsearch/guide/current/relevance-intro.html
우선 TF의 경우 뭐 그냥 term frequency 니까 이건 별 문제 없을 거구요.
(기본 per field similarity 입니다.)
IDF의 경우는 그럼 어떻게 할까요 인데요????
IDF는 쉽게말해 index 내 전체 문서에서의 term이 포함된 document frequency 가 되는 건데요.
루씬에서는 뭐 당연히 문제가 안되겠지만 es 에서는 shard 라는 개념이 있죠. 즉 하나의 index를 여러개의 shard 로 나눠서 서로 다른 노드에 가지고 있으니 IDF 를 어떻게 계산 할 수 있을지....
제가 보는 관점은 단순 합니다.
- shard 별 document 의 idf 값만 보면 document 의 relevance가 문제일수 있지만, document 의 score 의 경우 tf + idf + field length norm 등 다양한 요소와 함께 계산되기 떄문에 normalized 되었다고 봅니다. 즉 score 값을 신뢰 할 수 있다 입니다.
ㅎㅎ 간만에 검색 질문을 주셔서 재밌었습니다.