'IR'에 해당되는 글 2건

  1. 2016.04.27 [검색이론] Recall 과 Precision - wikipedia
  2. 2016.02.16 [IR] 스탠포드대학 IR-book

[검색이론] Recall 과 Precision - wikipedia

ITWeb/검색일반 2016. 4. 27. 11:15

그냥 복습 차원에서 위키피디아에 있는 내용을 그대로 작성해 본 것입니다.


기본 IR 이론)

recall = Number of relevant documents retrieved / Total number of relevant documents

precision = Number of relevant documents retrieved / Total number of documents retrieved


원문링크)

https://ko.wikipedia.org/wiki/%EC%A0%95%EB%B0%80%EB%8F%84%EC%99%80_%EC%9E%AC%ED%98%84%EC%9C%A8



Precision, 정밀도 라고 되어 있는데 저는 그냥 정확도 라고 부릅니다.

이유는 뭐 별거 없고 말이 이게 더 쉽게 전달 되는것 같아서 이구요.

얼마나 관련(relevant) 있는 문서들이 나왔는지를 보는 지표 라서 그렇게 부릅니다.


Precision =  | {relevant documents} ∩ {retrieved documents} | / | {retrieved documents} |

정확도 = (관련문서 수  ∩  검색된 문서 수) / 검색된 문서 수


Recall, 이건 재현율 이라고 부릅니다.

precision 과는 약간 상충 되는 내용이기도 합니다.

그래서 둘 다 높히기는 참 어려운 것 같습니다.

이것은 관련(relevant) 있는 문서들 중 실제로 검색된 문서들의 비율이 됩니다.


Recall = | {relevant documents} ∩ {retrieved documents} | / | {relevant documents} |


두 개의 차이는 분모 부분이 다르다는 것입니다.

이 정보들은 실제 통계학에서도 동일하게 사용 됩니다.


False Positive/Negative

True Positive/Negative


음... 사실 저는 과거에 스팸 필터 엔진 만들때 사용하던 내용이였는데요.

스팸으로 표현 하면 스팸 문서가 아닌데 스팸 문서라고 하는게 false positive, 서버 장애가 아닌데 장애라고 하는 것도 같은 의미 입니다. 이런건 false alarm 이라고도 합니다.


false negative 는 false positive 와 반대겠죠.

스팸 문서 인데 스팸 문서가 아니라고 하는 것입니다. 실제 서버는 장애가 났는데 장애 알람이 오지 않은 경우가 되겠습니다.


그럼 true positive는 무엇일까요? 이건 그냥 정상 입니다.

스팸 문서를 스팸 문서라고 하는 것이구요. true negative 는 그렇습니다. 스팸 문서가 아닌걸 스팸문서가 아니라고 하는 것이 되겠습니다.


검색으로 풀면 )

 

 관련된 문서를

 관련 안된 문서를

 관련된 문서라고 함

 True Positive (TP)

 False Positive (FP)

 관련 안된 문서라고 함

 False Negative (TN)

 True Negative (TN)


통계적 관점에서의 계산 식은 아래와 같습니다.


Precision(Positive predictive value:PPV) = TP / (TP + FP)


Recall(Sensitivity) = TP / (TP + FN)


True Negative Rate(Specificity) = TN / (TN + FP)


Accuracy = (TP + TN) / (TP + TN + FP + FN)


여기까지 복습 차원에서 정리해 봤습니다.


:

[IR] 스탠포드대학 IR-book

ITWeb/검색일반 2016. 2. 16. 09:50

스탠포드 대학에서 제공하고 있는 IR-book 입니다.

참고하기 위해 스크랩 합니다.


원문링크)


원문목차)

Introduction to Information Retrieval: Table of Contents

 chapter     resources
Front matter (incl. table of notations)pdf
01  Boolean retrievalpdf html
02The term vocabulary & postings listspdf html
03Dictionaries and tolerant retrievalpdf html
04Index constructionpdf html
05Index compressionpdf html
06Scoring, term weighting & the vector space modelpdf html
07Computing scores in a complete search systempdf html
08Evaluation in information retrievalpdf html
09Relevance feedback & query expansionpdf html
10XML retrievalpdf html
11Probabilistic information retrievalpdf html
12Language models for information retrievalpdf html
13Text classification & Naive Bayespdf html
14Vector space classificationpdf html
15Support vector machines & machine learning on documentspdf html
16Flat clusteringpdf htmlhtml
17Hierarchical clusteringpdf html
18Matrix decompositions & latent semantic indexingpdf html
19Web search basicspdf html
20Web crawling and indexespdf html
21Link analysispdf html
Bibliography & Indexpdf
bibtex filebib


각 챕터별 요약 원문)


Chap01. Information retrieval! using the Boolean model

-         상용 검색서비스의 대부분이 채택하고 있는 모델인 불리언 검색 모델에 대한 내용

-         AND, OR 등의 연산자를 포스팅 리스트를 통해서 어떻게 처리하고 있는지를 설명

è 현재 우리가 사용하고 있는 검색엔진의 작동 방식을 설명여러 관련 컴포넌트는 어떤것들이 있는지 등등


Chap02. The dictionary and postings lists

-         빠른 검색을 위해 색인 처리를 하는데이를 구성하는 사전과 포스팅 리스트에 대한 내용

-         우리가 사용하고 있는 사전과 포스팅 외에도 다양한 용도의 다른 사전과 텀 포지션 정보들에 대해 설명

è 빠른 검색을 위해 문서의 정보를 검색엔진에 적합하도록 가공하는데 그것에 대한 결과물이죠.


Chap03. Tolerant retrieval! 

-         실데이터를 다룰 때 발생하는질의어 상에 또는 문서나 사전 상에여러 오류를 처리하는 내용

-         부분패턴 검색, k-Gram 처리오타처리동음어 처리 등에 대해 설명

è 검색 서비스를 위해서 꼭 필요한 유틸리티라 할 수 있는데 편의성과 융통성 등을 높여줍니다.


Chap04. Index construction

-         제한된 머신의 리소스 안에서 대용량의 색인을 처리하는 방법에 대한 내용

-         블록병합색인분산색인동적색인포지션 정보를 포함한 색인권한 정보를 포함한 색인

è 서비스 파트에서 열심히 하고 있는 작업이죠대용량의 색인을 할 때 필요한 지식입니다.


Chap05. Index compression

-         색인 데이터를 실제 메모리에 올려 사용해야 하기 때문에 성능을 고려한 압축이 필요그에 대한 내용

-         색인용량 예측방법(사전,포스팅), Dictionary압축블록저장, PostingFile압축γ코드 압축, Zipf의법칙

è 데이터 특성에 따라 더 효율적인 압축도 가능합니다더 빠르게더 작게.. 맨날 하는 색인작업이 1시간 안에 끝난다면 좋겠죠.


Chap06. Term weighting and vector space models

-         단어 가중치 기법을 이용하여 질의어와 문서의 유사성 거리를 벡터 방식으로 풀어내는 검색 모델 소개

-         단어와 문서 구역에 대한 Scoring 및 Weighting, TF, IDF, TF*IDF, 가중치 정규화유사도 함수

è 불리언의 필터링 성격보다 보다 진보한 형태의 검색기법입니다질의와 문서의 유사도에 대한 개념이 시작됩니다.


Chap07. Computing scores in a complete search system

-         단어 가중치 기법 이외의 스코어링과 랭킹 기법에 대한 설명

-         스코어링과 랭킹챔피온 리스트품질 스코어링, Ordering, 스코어링용 Features, 스코어링 디자인

è 랭킹에 대한 가중치는 우리도 많이 사용하고 있죠더 좋은 검색 품질을 위해 끊임없이 개발해야 하는 부분입니다.


Chap08. Eval!uation in information retrieval!

-         검색 모델의 검색 성능 측정 방법에 대한 내용

-         테스트 콜렉션정확도와 재현율랭킹에 대한 평가적합도 판정시스템 품질과 사용성

è 검색 서비스의 오픈할 때 하는 성능측정 외에도 계속적인 평가와 모니터링이 필요합니다쿼리 파라미터의 뭘 수정해야 할까요??


Chap09. Relevance feedback and query expansion

-         사용자 피드백에 의한 재검색 모델과 질의어 확장에 대한 내용

-         최적화된 결과를 내놓기 위한 방법, Rocchio 알고리즘확률적 적합도질의 확장용 사전자동 시소러스 생성

è 쇼핑관련 검색서비스 등에 적용하면 좋은 모델입니다쿼리확장은 공통이지만 모호성이 있는 특히 지식뉴스일반 웹검색 등에 더욱 필요하죠.


Chap10. XML retrieval!

-         일반 텍스트가 아닌 구조적 텍스트인 XML 문서에 대한 검색 방법에 대한 내용

-         XML 문서, XML 검색 개요, XML 검색용 벡터 모델콘텐츠 중심과 구조적 중심의 검색 비교

è 그다지 새로운 개념은 아닙니다전처리파트에서 HTML, PDF, DOC, PPT 파일등을 XML로 가공해서 퍼주면 해야할 일들입니다.


Chap11. Probabilistic information retrieval!

-         확률적 검색 모델에 대한 내용

-         확률이론확률적 랭킹기법이진독립모델확률값(기대치추정다양한 확률 모델

è 불리언 검색의 대안 모델중에 하나인 확률모델입니다. 0/1 대신에 질의어에 대한 문서 적합성을 확률로 계산하죠.


Chap12. Language models for information retrieval!

-         언어적 특징(특정 단어가 실제로 쓰여질 확률)에 기반한 검색 모델 소개

-         Query likelihood model, Ponte & Croft 실험다양한 언어모델 기법

è 많이 쓰이는 단어 많이 쓰이지 않는 단어에 각기 다른 가중치를 두어 질의어를 가공하면 좀 더 주제가 명확한 결과가 나오겠죠.


Chap13. Text classification and Naive Bayes

-        문서 분류와 나이브 베이지안(확률적분류 기법에 대한 내용

-         문서 분류, Naïve Bayes 분류기법, Bernoulli 모델특징 추출상호 정보성(Mutual Information), 카이스퀘어 특징추출분류 평가

è 검색은 대규모의 컬렉션에서 사용자의 의도에 적합한 문서를 필터링하는 작업을 말하는데 이를 분류라고 표현할 수도 있습니다.
 
유사성 혹은 관련성에 의한 분류 기법으로 검색품질을 높일수 있습니다서치 플러그인 등에서 사용하면 좋겠죠.


Chap14. Vector space classification

-         벡터 공간 모델에 의한 분류 기법에 대한 내용

-         Rocchio 분류, k-nearest neighbor(k근접이웃), 선형 및 비선형 분류분류의 tradeoff

è 유사하다는 개념을 어떻게 정의하면 좋을까요뚝딱 반으로 자를까요고려할 요소가 많아 복잡한건 어떻게 자를까요?

 

 

Chap15. Support vector machines and kernel functions

-         14장의 벡터공간모델에 의한 기계학습기법인 SVM에 대한 내용분류 기법에 대한 핵심 함수

-         SVM, 유연한 경계에 의한 분류비선형 SVMs

è 분류를 위한 대표적인 기계학습기법인 SVM입니다수학을 잘하면 재밋는데 못하면 재미없습니다
   
결과가 주어졌을 때 x,y,z 등에 의한 선형분석입니다오류를 최소로 만드는 해를 찾는 기법이죠분류는 다 이런 식입니다.


Chap16. Flat clustering

-         비교사학습인 군집화 기법에 대한 내용 (vs 분류는 정답이 있는 교사학습기법), 평면적인 군집

-         정보검색에서의 군집화군집평가, k평균 알고리즘, EM 클러스터링

è 분류는 검색형태에 대한 의도를 품고서 문서를 솎아내는 방식이라 지속적으로 관리가 필요합니다구체적인 기획이 필요하죠.
   
반면에 군집은 유사성이라는 척도 하나로 알아서 다해줍니다후처리에서 미리 해주면 검색품질이 엄청 좋아집니다.
   
또는 검색엔진을 거친 후 재가공으로서 사후클러스터링을 하면 같은 질의어에 다른 내용의 문서들을 어느정도 모아서 볼여줄 수 있겠죠.


Chap17. Hierarchical clustering

-         구조적인(상향식하향식군집기법에 대한 내용

-         싱글링크&완전링크 군집화그룹핑 방식의 군집화중심축 기반의 군집화군집명명기법

è 앞에 군집기법은 좀 옛날겁니다요즈음은 인간의 군집화 방식을 좀 더 흉내내어 다 부순다음에 하나씩 모아가는 방식이거나
   
또는 하나로 뭉쳐놓은 상태에서 아닌것들을 짤라내는 형식으로 군집화를 합니다제 논문도 이에 관련한거죠재밋습니다.


Chap18. Matrix decompositions and Latent Semantic Indexing

-         행렬분해와 잠재의미인덱싱 기법에 대한 내용 (요인분석과 차원축소를 이용한 인덱싱)

-         선형대수학행렬분해단어-문서 행렬고유값분해저차원 추정과 잠재의미색인(LSI)

è 행렬이 나오는데 아주 골치아프더군요내용인즉슨 단어로 쪼개진 사전 기반의 색인방식을 해결하기 위한 대안으로 단어와 문서의 관계를 통째로 색인하자는거죠통째로 색인하면 콜렉션과 단어의 관계성이 그대로 살아있게됩니다그걸 그냥 쓰려니 너무 커서 줄여서 쓰는 방법을 고안한거죠.


Chap19. Web search basics

-         웹검색에 관련한 다양한 이슈들에 대한 내용

-         웹의 특징웹 그래프스팸웹광고웹검색 경향, fingerprint, 중복문서 해결기술과 Shingling

è 중복문서 제거입니다수집 문서중에서 많게는 70~80%가 중복이라는군요.
   
이를 해결하기 위해 핑거프리트와 Shingling에 대해 소개하고 있습니다구글에 적용된 방식이기도 하구요스팸처리도 있군요.


Chap20. Web crawling and indexes

-         웹문서 수집과 색인에 대한 내용

-         Crawling, 크롤러 구조, DNS 처리방안, URL 프론티어분산색인병렬서버

è 누가 더 많이 수집하고 누가 더 빨리 처리해서 색인기에 집어 넣느냐는 절대적인 성능지표이죠.
   
또 우리나라 검색회사가 글로벌로 성장해서 아시아의 모든 문서를 하나의 검색서비스로 제공한다면 어떻게 해야 할까요구글은 하고 있습니다.

Chap21. Link analysis

-         그래프 구조의 형태를 갖는 웹문서의 특징을 이용한 분석기법에 대한 내용 (구글의 Pagerank)

-         Pagerank, 마코브 체인페이지랭크 계산특정 토픽기반의 Pagerank, Hubs(참조) and Authorities(권위)

è 21세기 히트작이죠구글의 페이지랭크입니다이를 기회로 사회적 네트워크에 대한 관심이 폭발적으로 높아졌습니다.
   
싸이월드도 그 대표적인 사례죠카페가 강점인 우리회사도 이를 충분히 이용할 수 있습니다블로그는 더더욱 그렇구요펌질~
   
우리나라 사람들은 입소문을 잘 내기도 하고 군중심리도 있기 때문에 그래프 분석을 하면 검색에 큰 효과를 가져올 수 있을겁니다제가 궁극적으로 하고 싶은 분야도 이쪽입니다게시판의 글들을 컨셉별로 나눌수도 있고 관련 UCC를 연결할 수도 있겠죠~되면^^

: