'recall'에 해당되는 글 2건

  1. 2016.04.27 [검색이론] Recall 과 Precision - wikipedia
  2. 2015.12.16 [Elasticsearch - The Definitive Guide] Dealing with Human Language

[검색이론] Recall 과 Precision - wikipedia

ITWeb/검색일반 2016. 4. 27. 11:15

그냥 복습 차원에서 위키피디아에 있는 내용을 그대로 작성해 본 것입니다.


기본 IR 이론)

recall = Number of relevant documents retrieved / Total number of relevant documents

precision = Number of relevant documents retrieved / Total number of documents retrieved


원문링크)

https://ko.wikipedia.org/wiki/%EC%A0%95%EB%B0%80%EB%8F%84%EC%99%80_%EC%9E%AC%ED%98%84%EC%9C%A8



Precision, 정밀도 라고 되어 있는데 저는 그냥 정확도 라고 부릅니다.

이유는 뭐 별거 없고 말이 이게 더 쉽게 전달 되는것 같아서 이구요.

얼마나 관련(relevant) 있는 문서들이 나왔는지를 보는 지표 라서 그렇게 부릅니다.


Precision =  | {relevant documents} ∩ {retrieved documents} | / | {retrieved documents} |

정확도 = (관련문서 수  ∩  검색된 문서 수) / 검색된 문서 수


Recall, 이건 재현율 이라고 부릅니다.

precision 과는 약간 상충 되는 내용이기도 합니다.

그래서 둘 다 높히기는 참 어려운 것 같습니다.

이것은 관련(relevant) 있는 문서들 중 실제로 검색된 문서들의 비율이 됩니다.


Recall = | {relevant documents} ∩ {retrieved documents} | / | {relevant documents} |


두 개의 차이는 분모 부분이 다르다는 것입니다.

이 정보들은 실제 통계학에서도 동일하게 사용 됩니다.


False Positive/Negative

True Positive/Negative


음... 사실 저는 과거에 스팸 필터 엔진 만들때 사용하던 내용이였는데요.

스팸으로 표현 하면 스팸 문서가 아닌데 스팸 문서라고 하는게 false positive, 서버 장애가 아닌데 장애라고 하는 것도 같은 의미 입니다. 이런건 false alarm 이라고도 합니다.


false negative 는 false positive 와 반대겠죠.

스팸 문서 인데 스팸 문서가 아니라고 하는 것입니다. 실제 서버는 장애가 났는데 장애 알람이 오지 않은 경우가 되겠습니다.


그럼 true positive는 무엇일까요? 이건 그냥 정상 입니다.

스팸 문서를 스팸 문서라고 하는 것이구요. true negative 는 그렇습니다. 스팸 문서가 아닌걸 스팸문서가 아니라고 하는 것이 되겠습니다.


검색으로 풀면 )

 

 관련된 문서를

 관련 안된 문서를

 관련된 문서라고 함

 True Positive (TP)

 False Positive (FP)

 관련 안된 문서라고 함

 False Negative (TN)

 True Negative (TN)


통계적 관점에서의 계산 식은 아래와 같습니다.


Precision(Positive predictive value:PPV) = TP / (TP + FP)


Recall(Sensitivity) = TP / (TP + FN)


True Negative Rate(Specificity) = TN / (TN + FP)


Accuracy = (TP + TN) / (TP + TN + FP + FN)


여기까지 복습 차원에서 정리해 봤습니다.


:

[Elasticsearch - The Definitive Guide] Dealing with Human Language

Elastic/TheDefinitiveGuide 2015. 12. 16. 17:47

글 제목과 비슷할 수도 다를 수도 있습니다.

precision 과 recall 에 대한 설명이 짧게 잘 표현이 되어 있어서 기록해 봅니다.


원문링크)


원문 Snippet)

Full-text search is a battle between precision—returning as few irrelevant documents as possible—andrecall—returning as many relevant documents as possible.


원래 이 문서는 언어에 대한 처리 목적 이였습니다.

그래서 정의한 5가지 title 만 정리해 봤습니다.


- Normalizing Tokens

추출 된 token 에서 필요 없는 character를 제거 합니다.

- Reducing Words To Their Root Form

Word 에 붙은 불필요한 정보를 제거 합니다. (word의 origin을 만든다고 보시면 쉽습니다.)

- Stopwords

불용어 처리를 합니다. (즉, 색인 대상에서 제외 시킵니다.)

- Synonyms

동의어 또는 유의어 처리를 합니다.

- Typoes and Mispelings

오타 처리를 합니다.

: