[Algorithm] IDF(Inverse Document Frequency)
Elastic/Elasticsearch 2013. 5. 15. 14:32참고 URL : http://kaistwebst.blog.me/130166255835
위 문서에 쉽게 설명이 나와 있습니다.
정리 하면, 하나의 문서 묶음(|S|)에서 어떤 단어(Wj) 가 한번 이라도 발생한 문서 수(Å)의 역수를 구하는 것입니다.
idfj = |S|
log2Å
Term Wj 에 대한 idf 는 위와 같습니다.
그래서 TF-IDF 공식은 아래와 같습니다.
log2(1+fij) * idfj
즉, idf 값이 작게 되면 문서의 중요도가 낮다고 볼 수 있습니다.
TF-IDF 값이 클 수록 검색어에 대한 찾는 문서에 가깝다고 이해 하면 되겠습니다.