[Algorithm] IDF(Inverse Document Frequency)

Elastic/Elasticsearch 2013. 5. 15. 14:32

참고 URL : http://kaistwebst.blog.me/130166255835


위 문서에 쉽게 설명이 나와 있습니다.

정리 하면, 하나의 문서 묶음(|S|)에서 어떤 단어(Wj) 가 한번 이라도 발생한 문서 수(Å)의 역수를 구하는 것입니다.


idfj  =            |S|

        log2


Term Wj 에 대한 idf 는 위와 같습니다.

그래서 TF-IDF 공식은 아래와 같습니다.



log2(1+fij) * idfj



즉, idf 값이 작게 되면 문서의 중요도가 낮다고 볼 수 있습니다.

TF-IDF 값이 클 수록 검색어에 대한 찾는 문서에 가깝다고 이해 하면 되겠습니다.

: