'search'에 해당되는 글 42건

  1. 2012.04.27 [solr] Indexing & Searching 맛보기 - solr 기초 마지막..
  2. 2008.09.15 2008 Search Technology Summit 후기

[solr] Indexing & Searching 맛보기 - solr 기초 마지막..

Elastic/Elasticsearch 2012. 4. 27. 12:16

가장 중요한 설정 파일 두가지에 대해서 살펴 보았습니다.
solrconfig.xml 과 schema.xml 
아주 중요한 내용들을 설정 하기 때문에 지속적인 학습과 연구가 필요 합니다.
공부합시다.. ㅎㅎ

기본적으로는 아래 문서 보시면 쉽게 이해를 하실 수 있습니다.

우선 post.jar 를 분석해 보겠습니다.
post.jar 를 풀어 보면 SimplePostTool.class 가 들어가 있습니다.

[SimplePostTool.java]
- 이 파일은 package 내 dependency 가 없습니다.
- 그냥 가져다가 사용을 하셔도 됩니다. 
- 저는 solr + tomcat 구성으로 해서 http://localhost:8080/solrdev/update 로 코드 상에 설정 값을 변경했습니다.
- 그럼 색인할 데이터는 어디서 가져와??? 
- 보통은 DB 에 content 를 저장하고 있죠, DB 에 있는 데이터를 select 해 와서 solr 에서 요구하는 format 으로 파일을 생성 하시면 됩니다. xml 을 많이 사용하니 select 해 온 데이터를 xml 파일로 생성 하시면 됩니다.
- 저는 그냥 java project 하나 생성해서 색인할 url 변경하고 SimplePostTool.java 를 다시 묶었습니다.

- 제가 실행시켜 본 화면 입니다.
- 위에 보시면 Main-Class 어쩌구 에러 보이시죠.. 
- MANIFEST 파일을 만들어서 넣어 주시면 됩니다, 중요한건 보이시죠.. 제일 뒤에 개행을 꼭 해주셔야 합니다.

- 그리고 검색을 해보죠.
- 검색 쿼리는 belkin 입니다.

- 참 색인 데이터를 안봤군요.

[ipod_other.xml]
- solr 설치 하시면 example/exampledocs/ 아래 들어 있습니다.

<!--

 Licensed to the Apache Software Foundation (ASF) under one or more

 contributor license agreements.  See the NOTICE file distributed with

 this work for additional information regarding copyright ownership.

 The ASF licenses this file to You under the Apache License, Version 2.0

 (the "License"); you may not use this file except in compliance with

 the License.  You may obtain a copy of the License at


     http://www.apache.org/licenses/LICENSE-2.0


 Unless required by applicable law or agreed to in writing, software

 distributed under the License is distributed on an "AS IS" BASIS,

 WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.

 See the License for the specific language governing permissions and

 limitations under the License.

-->

<add>

<doc>

  <field name="id">F8V7067-APL-KIT</field>

  <field name="name">Belkin Mobile Power Cord for iPod w/ Dock</field>

  <field name="manu">Belkin</field>

  <field name="cat">electronics</field>

  <field name="cat">connector</field>

  <field name="features">car power adapter, white</field>

  <field name="weight">4</field>

  <field name="price">19.95</field>

  <field name="popularity">1</field>

  <field name="inStock">false</field>

  <!-- Buffalo store -->

  <field name="store">45.17614,-93.87341</field>

  <field name="manufacturedate_dt">2005-08-01T16:30:25Z</field>

</doc>

<doc>

  <field name="id">IW-02</field>

  <field name="name">iPod &amp; iPod Mini USB 2.0 Cable</field>

  <field name="manu">Belkin</field>

  <field name="cat">electronics</field>

  <field name="cat">connector</field>

  <field name="features">car power adapter for iPod, white</field>

  <field name="weight">2</field>

  <field name="price">11.50</field>

  <field name="popularity">1</field>

  <field name="inStock">false</field>

  <!-- San Francisco store -->

  <field name="store">37.7752,-122.4232</field>

  <field name="manufacturedate_dt">2006-02-14T23:55:59Z</field>

</doc>

</add>

- 검색 결과 화면 입니다.


자, 지금까지 solr 설치, 설정, 색인과 검색을 맛보기로 해봤습니다.
이제 부터는 각자 열공하셔서 필요한 만큼 사용하시면 될것 같습니다.


Good luck!!

:

2008 Search Technology Summit 후기

ITWeb/스크랩 2008. 9. 15. 23:12
발표 자료 받은게 있어서 업데이트 했습니다. ^^*





2008년 9월 2일 STS 를 다녀 왔습니다.
리뷰를 이제야 하는 이유는 역시 저의 게으름 때문..ㅡ.ㅡ;

IMG_3131 IMG_3133 IMG_3134 IMG_3135 IMG_3136 IMG_3137 IMG_3138
IMG_3139 IMG_3140 IMG_3141 IMG_3142 IMG_3143

행사장 모습 이랍니다..
이날 참여한 업체들 부스도 보이고.. ㅎㅎ
이벤트 응모함에 응모를 하고 계신 분들은.. 전직 야후코리아 검색팀에 계신 김건우과장님과 홍성학과장님 이랍니다.. 이날 고감자님도 있으셨으나.. ㅋ 사진 촬영에는 실패..
사실 야후코리아 사무실이 삼성동에 있다 보니 많은 검색 엔지니어 분들이 참석하셨었구요.. ㅎㅎ 간만에 친한 전직장 분들을 만나니 그것도 즐거움이더라구요.. ^^*

IMG_3144 IMG_3145 IMG_3146 IMG_3147 IMG_3148 IMG_3149 IMG_3150
IMG_3151 IMG_3153
행사 시작하기 전에 받은 발표 자료랑 저의 명찰.. 이지요.. ㅋ

IMG_3154 IMG_3155 IMG_3155 IMG_3156 IMG_3157 IMG_3158 IMG_3159
IMG_3160 IMG_3161 IMG_3162 IMG_3163 IMG_3164 IMG_3165 IMG_3166
IMG_3167 IMG_3168 IMG_3169 IMG_3170 IMG_3171 IMG_3172 
keynote 발표 ppt 인데요. .흑 제가 자리를 잘못 잡아서 계속 누군가의 머리가 나오고 있다는...

1. Keynote
카이스트 최기선 교수님이 발표를 해주셨습니다.
저는 이분과 아무 관계가 없구요.. ㅋ
음.. 최교수님이 발표해 주신 키노트는 이번 서밋이 검색이다 보니.. 좀 specific 하다고 봐야 하나요..
좀 내용이 딱딱 하고 살짝 졸린수도 있겠다는 느낌 이였습니다..
(이 분의 강의는 어떤지 궁금 하기도 하내요.. ㅎㅎ)
근데 분야가 좀 전문적이다 보니 어쩔수 없다는 생각도 듭니다.. :)

IMG_3173 IMG_3174 IMG_3175 IMG_3177
track 2 와 중간 쉬는 시간의 coffee break ^^*

2. Track2 Vertical Search as the Semantic Web Application
제가 들은 첫번째 track 이였는데요.
내용도 괜찮았고 발표자 분도 괜찮았다고 생각 합니다.
검색 개발 분야를 크게 세가지로 나눈다면 front-end, engine, back-end 정도 나눈다면.. 저는 front-end 쪽이 가까울라나요.. 하지만 engine 쪽이나 back-end 쪽에 대한 knowledge 가 없어서도 실력이 안되서도 아니라는거.. 집고 넣어 가고 싶내요.. ㅋ (하지만 정말 한 쪽 분야에서만 전문 지식을 가지고 계신 분보다는 당연히 ㅎㅎ ^^;)
암튼..
이 분야는 제가 관심을 늘 가지고 있던 분야이다 보니.. 관심 있게 들었내요..

흔히 우리가 알고 있는 포털에서 보여 주고 있는 버티컬 검색과 이번에 보여준 버티컬 검색과는 확연히 내용이 다르다는걸 다시 한번 새기게 되었내요.

이 세션은
Current Searches
Sematic Web
Web Trends
Vertical Searches
를 가지고 발표가 되었습니다.

내용 중 크게 관심이 가는 word 만 뽑아 봤습니다.
관점, 시각화 쿼리, 연관, 시맨틱 웹, 표준화, 객체기반 링크, 상호운영성, 온톨로지, 협업, 모바일, web 3.0, 오픈플랫폼
 
이 세션을 한마디로 표현 하자면.. 웹의 다형성 이라고나 할까요.. 그냥 제 느낌이 그렇다는 거구요..
웹을 보는 여러 사람들의 눈에는 웹이라는 하나의 모습으로 보일 수 있지만 그 내적인 의미는 다양하다고 볼 수 있지 않나 싶내요.
시맨틱도 그렇고 온톨로지도 그렇고 매쉬업도 그렇고.. 보는 사람의 해석과 의미에 따라서 다르게 표현 될 수 있으니까요..
참 재밌어요.. ^^* 그죠...

ref.
http://ko.wikipedia.org/wiki/%EC%8B%9C%EB%A7%A8%ED%8B%B1_%EC%9B%B9
http://en.wikipedia.org/wiki/Semantic_Web
http://www.w3.org/2001/sw/
http://www.w3.org/DesignIssues/Semantic.html
http://semanticweb.org/wiki/Semantic_Web
http://ko.wikipedia.org/wiki/%EC%98%A8%ED%86%A8%EB%A1%9C%EC%A7%80
http://en.wikipedia.org/wiki/Ontology
http://www.dal.kr/blog/archives/001010.html


3. Track2 문서분석을 통한 이슈, 연관, 트렌드 정보 제시
이 세션은 좀 발표 자체가 딱딱 했구요.
준비해 오신 자료만을 가지고 거의 읽어 내려 가듯 해서 내용의 깊이나 뭐 그런건 찾아 보기 좀 힘들었던것 같내요.
거의 내용도 기존에 많이 알려진 것들과 검색에 대해서 전형적인 것들에 대한 내용이 다였다고 보여 지내요..

검색 : 수집 -> 링크분석 -> 키워드 빈도추출 -> 지료분석
뭐 거의 기본이죠..

하지만 이런 검색에서도 앞서 나가는 곳들은 어디에나 있죠..
한국에서만 유독 네이버가 독주를 하고 있고 이날 네이버 검색에 대해서는 인력에 의해 가공된 데이터 구축 이라고 표현을 했던것 같내요..
쉽게 이야기 하면 기술력은 아니라는 거겠죠..
하지만 국내 시장에서 어쨌건 아직 먹히고 있다면 이것도 나쁘다고만 말 할 수 있는건 아니겠죠.. ^^*

특히 한국에서 글로벌 회사들이 맥을 못추는 이유는 쉽게 보면.. 한국어에 대한 분석이 어려워서가 아닐까 싶기도 합니다..

이 세션에서의 word 를 뽑아 보면..
명사, 공기, 연관성, 시간의 흐름성 정도... 랄까요..

여기서 발표 하신분은 명사만을 추출해서 조합을 한다고 하셨는데 글쎄요.. sematic search 가 명사만 가지고 구현이 되는 것인지 잘 모르겠내요...

IMG_3178 IMG_3179 IMG_3180 IMG_3181 IMG_3182 IMG_3183 IMG_3184
IMG_3185
원광대 교수님의 발표 자료가 최신이 아니라서 빠진 ppt 를 사진으로 담았답니다.. ㅎㅎ

4.  Track3 통계적 기법에 의한 의미 기반 검색
흑.. 이 세션은 좀 내용이 어려웠구요.
그냥.. 통계적 수식만 듣고서는 정확히 감이 오질 않더라구요..
사실 이 세션 듣던 도중에 많은 분들이 자리를 뜨는걸 봤는데.. 저 역시 오래 버티지 못하고 자리를 옮겨 다른 세션으로 이동을 했답니다.
Track1 개인화를 통한 모바일 검색 서비스
좀 늦게 이동을 해서 듣다 보니.. 느낀 점은.. 개인 사생활 침해에 대한 고려가 좀 빈약해 보였다는거... 모바일을 통해서 나의 위치와 내가 무엇을 관심 있어 하는지 등등.. 이런게 다 DB 화 되고 정보가 축적 되어 진다면.. 글쎄요.. 저는 이런 서비스는 쓰고 싶지는 않내요.. 뭐.. 지금도 나의 일상들이 기록되어 지고는 있지만.. 이런 것들이 나의 사생활을 침해하기 시작 하면.. 음.. .좀 암울 할 것 같내요.. ㅡ.ㅡ;

5. Track1 의미기반 검색엔진의 동향과 핵심기술
이 세션은 좀 재밌었답니다.. 원광대 한성국 교수님이 발표를 해주셨는데.. ㅎㅎ
발표를 지루하지도 않게 그리고 발표 하시는 억양도 좀 재밌었내요..
꼭 시골 옆집 아저씨 같기도 하고 약장수 같기도 하고.. (절대 비하 하는거 아닙니다.. ^^;)

Rich content  와 Vertical search 앞에서 이야기 되었던 것들과 비슷한 내용 이였구요.. Topic 이라는 말이 자주 나왔답니다.
역시 sematic 을 염두에 둔것이겠지요..

전반적으로 이 세션은 웹의 발전변화와 검색의 진화 그리고 이런 진화에 앞장서는 start-up 서비스들에 대해서 설명 되어 졌습니다.


큰사진 보기 : http://www.flickr.com/photos/26089147@N00/sets/72157607116841848/

전체적으로 내용도 괜찮았고 유익한 시간 이였던것 같습니다.


아래 내용은 그냥 keynote 시간때 막 적어 본거 랍니다.. ㅋ

1. Keynote
 최기선 교수
 Web and *
  web 1.0
   데이터의 기록
 Cons & Prod
  소비자 : crawling, indexing, link, page ranking, clicking behavior, culture
  생산자집단지성, 종합과 추론
 Web *
  web directory
   IR
  web search
   behavior, ranking
  web intelligence
  text, multimedia, mobile, UI, HW
 고객모델
 기술 vs 고객
 Question Types
 단어 간의 "왜"?
 Is it true?
 단어 간의 관련성
 수만은 웹페이지 - Wikipedia
 * 검색의 소비와 생산의 변화 그리고 자동화
 검색결과의 적합성
  문서, 질의, 랭킹
  텍스트에 밀줄
  ontology
  scenario
 웹서버 - 클라이언트 모델
  클라이언트가 더 많은 일을 처리 해야 한다.
 The entire deep Web : 웹에 있지만 못 보는 정보 이슈
 개인 콘텐츠 광고모델
 로드맵
  정보의 분포




: