'검색'에 해당되는 글 41건

  1. 2016.11.08 [미미박스 검색이야기] 인기검색어란?
  2. 2016.11.07 [미미박스 검색이야기] 시작하며
  3. 2016.06.28 [Elasticsearch] This Week in Elasticsearch and Apache Lucene - 2016-06-27
  4. 2016.05.31 [Java] 우편번호 DB text 파일 읽기.
  5. 2016.04.12 [Elasticsearch] This Week in Elasticsearch and Apache Lucene - 2016-04-11
  6. 2012.12.20 검색 관련 짧은 기법 설명.
  7. 2012.11.16 elasticsearch 설치 및 한글형태소분석기 적용 따라하기. 3
  8. 2012.04.27 [solr] Indexing & Searching 맛보기 - solr 기초 마지막..
  9. 2008.09.15 2008 Search Technology Summit 후기
  10. 2008.07.15 야후 블로그 랭킹 검색..

[미미박스 검색이야기] 인기검색어란?

ITWeb/미미박스검색이야기 2016. 11. 8. 13:13

현재 미미박스 인기검색어 (이하 인검 이라고 합니다.)는 이전 인검과 달라진 점이 있습니다.

이전의 미미박스 인검은 하루 전날 인입된 검색 질의 누적 카운트로 상위 20개를 뽑아 보여 주는 형식이었습니다.

하지만 미미박스 서비스 특성상 하루 전날 데이터를 기반으로 생성하는 인검은 거의 변동이 없었으며 늘 보던 인검이 노출 되는 모습이었습니다.


즉, 인기검색어에 대한 정의를 다시 해야 했고 사용자들이 서비스에 들어와서 어떤 검색을 많이 하고 있는지 보여줘야 한다고 생각을 했습니다.


일반적으로 인기검색어는 그때 그때 트렌드를 보여 주는 도구로도 사용을 할 수 있습니다.

네이버의 실시간 인기검색어를 보시면 아실 수 있을 것 같습니다.


미미박스에서 인기검색어란?)

검색 결과를 포함한 검색어로 총 누적 카운트 기준 Top 20개를 인기검색어라고 정의 한다.

인기검색어의 누적 카운트 반영 주기는 실시간성을 반영해 주어야 한다. (최근 10분 단위 로그 반영)

단순 누적 카운트이외 인기검색어에 대한 랭킹을 적용해 주어야 한다.

- 내부 정책에 따른 Query Count와 Click Count 등의 정보를 추가하여 가중치를 별도 부과 하고 있다.


처음 부터 최근 10분단위 인검을 적용하지는 않았습니다.

미미박스의 경우 대형 온라인 쇼핑몰에 비해 상품의 종류나 수, 사용자에 대한 규모가 다르기 때문에 미미박스에 맞는 인검 로직과 주기를 찾아야 했습니다.


초기에 하루 단위 데이터를 분석하고 각 시간별 데이터를 분석하고 어떤 데이터가 트렌드를 반영 할 수 있을지를 판단해서 결정한게 10분 이였고 지금의 인검 데이터가 된 것입니다.


역시나 새벽 시간에는 10분으로 할 경우 Top 20개를 채울수가 없어 새벽 시간에만 1시간 단위로 인검을 반영하고 있긴 합니다.


인검에 대한 개선은 앞으로 더 꾸준히 해야 합니다.

이유는 인검에 대한 사용성이 그다지 높지 않기 때문이기도 하고 누구를 위한 인검인지 그리고 고객에게 어떤 유의미한 인검을 제공해 줘야 하는지 고민이 되어야 할 것 같습니다.


더불어 검색 홈 개발이 들어가게 됩니다. 다양한 검색  콘텐츠를 제공할 예정이니 많이 애용해 주세요. ^^;


※ 본 글은 회사의 입장과는 전혀 상관이 없으며 개인적인 의견으로 작성된 글 임을 알려 드립니다.

:

[미미박스 검색이야기] 시작하며

ITWeb/미미박스검색이야기 2016. 11. 7. 11:36

오늘 부터 미미박스에서 검색 서비스에 대한 이야기를 블로그에 정리해 볼까 합니다.

개인적으로 회사에 소속되어 있으면서 서비스를 하고 싶은 방향에 맞춰서 빠르게 개발하고 적용 할 수 있다는게 얼마나 좋은지 모릅니다.


하지만 저희 팀에서 개발하고 배포하고 하면서 고객들에게 기능에 대한 설명이라던가 사용법에 대해서는 한번도 설명을 해주거나 도움을 주기 위한 채널을 만들지 못하는 것 같아 그냥 서비스에 대한 기능 위주로 어떻게 만들어졌고 어떻게 동작하는지 정리를 하고자 합니다.


생각 보다 잦은 기능 변경도 많고 눈에 띄는 것 그렇지 않은 것 등등 매주 많은 변화가 있지만 사실 사용하는 사람들에게는 뭐가 어떻게 바뀌었고 어떻게 사용해야 좋은지 전혀 전달해 주지 못했습니다.


이제 부터 하나씩 하나씩 미미박스 검색 서비스에 대한 이야기를 풀어 보도록 하겠습니다.

:

[Elasticsearch] This Week in Elasticsearch and Apache Lucene - 2016-06-27

Elastic/Elasticsearch 2016. 6. 28. 09:53

몇 가지 눈에 들어 오는게 있어서 scrap 합니다.


[원문]

https://www.elastic.co/blog/this-week-in-elasticsearch-and-apache-lucene-2016-06-27


[요점]

- low-level Java REST client has landed.

별도의 http client 를 이용해서 만들지 않고 es 에서 제공하는거 사용하면 될 것 같습니다.


- index.store.preload

warmmer 기능이 이걸로 대체 되는 것 같습니다.


- no longer turns red when creating an index

순간 red 나올 때가 있었는데 false alarm 이 줄어 들겠내요.


- default similarity is now BM25

TF/IDF 에서 BM25로 넘어 가는 군요.


- wait for status yellow

yellow 도 간혹 발생을 하는데 앞으로 status 에 대해서 다시 점검을 해야 겠내요.


Elasticsearch Core

Changes in 2.x:


Changes in master:


Ongoing changes:

    Apache Lucene


    :

    [Java] 우편번호 DB text 파일 읽기.

    ITWeb/개발일반 2016. 5. 31. 16:33

    행자부나 우체국에서 도로명 주소를 제공하고 있습니다.

    이 데이터들이 ISO-8859-1 로 인코딩 되어 있기 때문에 파일을 읽을 때 인코딩 타입을 잘 맞춰서 읽으셔야 한글 처리를 하실 수 있습니다.


    아래는 행자부와 우체국의 도로명 주소 DB 제공 링크 입니다.


    [행정자치부]

    http://www.juso.go.kr/support/AddressBuild.do?menu=adrchg


    [우체국]

    http://www.epost.go.kr/search/zipcode/areacdAddressDown.jsp



    아래는 prototype code 입니다.


    [Read jibun_busan.txt]

    String src = "/dump/address/jibun/201604/jibun_busan.txt";
    BufferedReader br;
    String line;

    try {
    br = new BufferedReader(
    new InputStreamReader(
    new FileInputStream(src), "ISO-8859-1"));

    while ((line = br.readLine()) != null) {
    LOG.debug("{}", new String(line.getBytes("ISO-8859-1"), "MS949"));
    }

    br.close();
    } catch (IOException e) {
    e.printStackTrace();
    }


    :

    [Elasticsearch] This Week in Elasticsearch and Apache Lucene - 2016-04-11

    Elastic/Elasticsearch 2016. 4. 12. 09:59

    봐야지 봐야지 하다 이제 봅니다.

    제 눈에 띄는 것은 


    • Now that we have removed the percolator API, we should also remove the percolator type and use percolator fieldsinstead.

    예전에 분리 되어 있던걸 합치더니 다시 분리 하는 것 같습니다.

    task cancelled 기능을 테스트 해봐야 할 것 같습니다.

    이제 field name 작성시 주의해야 겠내요. 좀 더 strict 해졌다고 봐야겠죠. ^^
    - 아래 코드가 true에서 false로 되었습니다. (이 기능이 성능이나 기타 다른 기능적인 오류를 만들어 내는 걸까요?)
    jsonFactory.configure(JsonParser.Feature.ALLOW_UNQUOTED_FIELD_NAMES, true);

    percolator 기능이 fields 로 빠졌내요. 이것도 기능 확인을 해봐야 겠내요.
    등록된 issue 를 보면 ㅎㅎ 직관적이고 사용이 좀 더 편해진것 같습니다.

    core 2.x에 반영된 내용은 거의 v5.0.0 에 적용 될것 같습니다.

    루씬은 일단 6.0.0 이 릴리즈 vote 중이였고 이미 4월 8일에 릴리즈 되었습니다. 이외 다른 내용들은 거의 geo point, locaiton 관련 내용들 입니다.

    루씬 6.0.0 릴리즈 소식으로는
    • Java 8 is the minimum Java version required.

    • Dimensional points, replacing legacy numeric fields, provides fast and space-efficient support for both single- and multi-dimension range and shape filtering. This includes numeric (int, float, long, double), InetAddress, BigInteger and binary range filtering, as well as geo-spatial shape search over indexed 2D LatLonPoints. See this blog post for details. Dependent classes and modules (e.g., MemoryIndex, Spatial Strategies, Join module) have been refactored to use new point types.

    • Lucene classification module now works on Lucene Documents using a KNearestNeighborClassifier or SimpleNaiveBayesClassifier.

    • The spatial module no longer depends on third-party libraries. Previous spatial classes have been moved to a new spatial-extras module.

    • Spatial4j has been updated to a new 0.6 version hosted by locationtech.

    • TermsQuery performance boost by a more aggressive default query caching policy.

    • IndexSearcher's default Similarity is now changed to BM25Similarity.

    • Easier method of defining custom CharTokenizer instances.



    원본링크)

    Elasticsearch Core

    Changes in 2.x:

    Changes in master:

    Ongoing changes:

    Apache Lucene



    :

    검색 관련 짧은 기법 설명.

    Elastic/Elasticsearch 2012. 12. 20. 10:16

    그냥 facet search 보다 얻어 걸린 내용인데요.
    스크랩용으로 ^^;

    http://nandaro.tistory.com/
    요기 가보시면 아래 내용 포함해서 더 좋은 글들이 많이 있습니다.


    (가) 향상된 검색(Search) 방법

         - 전문검색(Full-Text Search)이 아닌 토픽(Topic)에 의한 의미검색(Semantic Search) 실행
            : 온톨로지를 이용한 추론(reasoning) 적용
         - 검색된 토픽의 분류(Classification)에 의한 그룹(Group)화된 검색 결과 표현
            : 온톨로지(Ontology)의 인스턴스(Instance)들로 표현된 검색결과 또는 인스턴스(Ontology Instance)의 자원(Occurrence)들로 표현된 결과
         - 토픽 검색을 위한 추천어(Suggest Topic) 제공
            : 검색을 위한 추천 키워드(주제어 자동완성 기능) 또는 검색 결과에서 연관성을 이용하여 네비게이션이 가능한 검색어 관련 추천어 제공
         - 패싯 분류(Facet Classification) 및 검색(Facet Search) 실행
            : 서로 다른 성질의 데이터중 서로 공통인 부분만으로 분류 또는 검색

       (나) 네비게이션(Navigation) 방법

         - 단방향 계층적(Strict Hierarchy) 네비게이션을 회피(쌍방향 네비게이션)
         - 유용한 의미를 지닌 관련 콘텐츠로 링크(Link)
         - 그룹의 성격을 지닌 콘텐츠는 관련된 그룹으로 연결
         - 제작 과정을 간략화 : 수천개의 수작업 링크는 배제
         - 향상된 링크(연결) 관리 : 연결되지 않은(Broken) 링크 체크 및 배제

       (다) 콘텐츠 통합(Information Integration)

         - 단일화된 뷰(View)에 표현되는 이형질의 콘텐츠를 통합하는 지식 허브(Hub)로서 토픽맵을 제작(분산된 지식도 통합 가능)
         - 사용자 사례 중심의 콘텐츠 표현
           : 온톨로지의 인스턴스와 관련되는 콘텐츠를 사용자 관점에서 표현(어플리케이션 통합도 가능)
         - 토픽맵 기반의 시맨틱웹 사이트에서 표현되는 통합된 정보의 제목 또는 콘텐츠를 사용자 관점에서 적절히 선택

    :

    elasticsearch 설치 및 한글형태소분석기 적용 따라하기.

    Elastic/Elasticsearch 2012. 11. 16. 13:03

    [ElasticSearch 설치하기]

        ※ 참고 URL

        http://www.elasticsearch.org/tutorials/2010/07/01/setting-up-elasticsearch.html

        http://mimul.com/pebble/default/2012/02/23/1329988075236.html

        https://github.com/chanil1218/elasticsearch-analysis-korean

        http://apmlinux.egloos.com/2976457


        ※ 다운로드

        wget --no-check-certificate https://github.com/downloads/elasticsearch/elasticsearch/elasticsearch-0.19.11.tar.gz


        ※ 압축해제

        tar -xvzf elasticsearch-0.19.11.tar.gz


        ※ 링크생성

        ln -s elasticsearch-0.19.11 elasticsearch


        ※ 설정

        cd elasticsearch/config

        vi elasticsearch.yml

            # cluster.name: elasticsearch

            cluster.name: MyCluster


            # network.host: 192.168.0.1

            network.host: 10.101.254.223


            # http.port: 9200

            http.port: 9200


        ※ 실행

        bin/elasticsearch -f

        OR

        bin/elasticsearch -p pidfile


        ※ 기능확인

        curl -X GET http://10.101.254.223:9200/


        ※ 관리툴설치

        bin/plugin -install mobz/elasticsearch-head

        http://10.101.254.223:9200/_plugin/head/


        ※ 한글형태소분석기설치

        bin/plugin -install chanil1218/elasticsearch-analysis-korean/1.1.0


        ※ 한글형태소분석기 설정 (elasticsearch 재실행 후 설정)

        curl -XPUT http://10.101.254.223:9200/test  -d '{

        "settings" : {

            "index": {

                "analysis": {

                    "analyzer": {

                        "kr_analyzer": {

                            "type": "custom"

                                , "tokenizer": "kr_tokenizer"

                                ,"filter" : ["trim","kr_filter"]

                        }

                        , "kr_analyzer": {

                            "type": "custom"

                                , "tokenizer": "kr_tokenizer"

                                ,"filter" : ["trim","kr_filter"]

                        }

                    }

                }

            }

        }

        }'


        ※ 한글형태소분석기 테스트

        curl -XGET 'http://10.101.254.223:9200/test/_analyze?analyzer=kr_analyzer&pretty=true' -d '전주비빔밥'

            ※ 한글형태소분석결과

            {

              "tokens" : [ {

                "token" : "전주비빔밥",

                "start_offset" : 0,

                "end_offset" : 5,

                "type" : "word",

                "position" : 1

              }, {

                "token" : "전주",

                "start_offset" : 0,

                "end_offset" : 2,

                "type" : "word",

                "position" : 2

              }, {

                "token" : "비빔밥",

                "start_offset" : 2,

                "end_offset" : 5,

                "type" : "word",

                "position" : 3

              } ]

            }

    :

    [solr] Indexing & Searching 맛보기 - solr 기초 마지막..

    Elastic/Elasticsearch 2012. 4. 27. 12:16

    가장 중요한 설정 파일 두가지에 대해서 살펴 보았습니다.
    solrconfig.xml 과 schema.xml 
    아주 중요한 내용들을 설정 하기 때문에 지속적인 학습과 연구가 필요 합니다.
    공부합시다.. ㅎㅎ

    기본적으로는 아래 문서 보시면 쉽게 이해를 하실 수 있습니다.

    우선 post.jar 를 분석해 보겠습니다.
    post.jar 를 풀어 보면 SimplePostTool.class 가 들어가 있습니다.

    [SimplePostTool.java]
    - 이 파일은 package 내 dependency 가 없습니다.
    - 그냥 가져다가 사용을 하셔도 됩니다. 
    - 저는 solr + tomcat 구성으로 해서 http://localhost:8080/solrdev/update 로 코드 상에 설정 값을 변경했습니다.
    - 그럼 색인할 데이터는 어디서 가져와??? 
    - 보통은 DB 에 content 를 저장하고 있죠, DB 에 있는 데이터를 select 해 와서 solr 에서 요구하는 format 으로 파일을 생성 하시면 됩니다. xml 을 많이 사용하니 select 해 온 데이터를 xml 파일로 생성 하시면 됩니다.
    - 저는 그냥 java project 하나 생성해서 색인할 url 변경하고 SimplePostTool.java 를 다시 묶었습니다.

    - 제가 실행시켜 본 화면 입니다.
    - 위에 보시면 Main-Class 어쩌구 에러 보이시죠.. 
    - MANIFEST 파일을 만들어서 넣어 주시면 됩니다, 중요한건 보이시죠.. 제일 뒤에 개행을 꼭 해주셔야 합니다.

    - 그리고 검색을 해보죠.
    - 검색 쿼리는 belkin 입니다.

    - 참 색인 데이터를 안봤군요.

    [ipod_other.xml]
    - solr 설치 하시면 example/exampledocs/ 아래 들어 있습니다.

    <!--

     Licensed to the Apache Software Foundation (ASF) under one or more

     contributor license agreements.  See the NOTICE file distributed with

     this work for additional information regarding copyright ownership.

     The ASF licenses this file to You under the Apache License, Version 2.0

     (the "License"); you may not use this file except in compliance with

     the License.  You may obtain a copy of the License at


         http://www.apache.org/licenses/LICENSE-2.0


     Unless required by applicable law or agreed to in writing, software

     distributed under the License is distributed on an "AS IS" BASIS,

     WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.

     See the License for the specific language governing permissions and

     limitations under the License.

    -->

    <add>

    <doc>

      <field name="id">F8V7067-APL-KIT</field>

      <field name="name">Belkin Mobile Power Cord for iPod w/ Dock</field>

      <field name="manu">Belkin</field>

      <field name="cat">electronics</field>

      <field name="cat">connector</field>

      <field name="features">car power adapter, white</field>

      <field name="weight">4</field>

      <field name="price">19.95</field>

      <field name="popularity">1</field>

      <field name="inStock">false</field>

      <!-- Buffalo store -->

      <field name="store">45.17614,-93.87341</field>

      <field name="manufacturedate_dt">2005-08-01T16:30:25Z</field>

    </doc>

    <doc>

      <field name="id">IW-02</field>

      <field name="name">iPod &amp; iPod Mini USB 2.0 Cable</field>

      <field name="manu">Belkin</field>

      <field name="cat">electronics</field>

      <field name="cat">connector</field>

      <field name="features">car power adapter for iPod, white</field>

      <field name="weight">2</field>

      <field name="price">11.50</field>

      <field name="popularity">1</field>

      <field name="inStock">false</field>

      <!-- San Francisco store -->

      <field name="store">37.7752,-122.4232</field>

      <field name="manufacturedate_dt">2006-02-14T23:55:59Z</field>

    </doc>

    </add>

    - 검색 결과 화면 입니다.


    자, 지금까지 solr 설치, 설정, 색인과 검색을 맛보기로 해봤습니다.
    이제 부터는 각자 열공하셔서 필요한 만큼 사용하시면 될것 같습니다.


    Good luck!!

    :

    2008 Search Technology Summit 후기

    ITWeb/스크랩 2008. 9. 15. 23:12
    발표 자료 받은게 있어서 업데이트 했습니다. ^^*





    2008년 9월 2일 STS 를 다녀 왔습니다.
    리뷰를 이제야 하는 이유는 역시 저의 게으름 때문..ㅡ.ㅡ;

    IMG_3131 IMG_3133 IMG_3134 IMG_3135 IMG_3136 IMG_3137 IMG_3138
    IMG_3139 IMG_3140 IMG_3141 IMG_3142 IMG_3143

    행사장 모습 이랍니다..
    이날 참여한 업체들 부스도 보이고.. ㅎㅎ
    이벤트 응모함에 응모를 하고 계신 분들은.. 전직 야후코리아 검색팀에 계신 김건우과장님과 홍성학과장님 이랍니다.. 이날 고감자님도 있으셨으나.. ㅋ 사진 촬영에는 실패..
    사실 야후코리아 사무실이 삼성동에 있다 보니 많은 검색 엔지니어 분들이 참석하셨었구요.. ㅎㅎ 간만에 친한 전직장 분들을 만나니 그것도 즐거움이더라구요.. ^^*

    IMG_3144 IMG_3145 IMG_3146 IMG_3147 IMG_3148 IMG_3149 IMG_3150
    IMG_3151 IMG_3153
    행사 시작하기 전에 받은 발표 자료랑 저의 명찰.. 이지요.. ㅋ

    IMG_3154 IMG_3155 IMG_3155 IMG_3156 IMG_3157 IMG_3158 IMG_3159
    IMG_3160 IMG_3161 IMG_3162 IMG_3163 IMG_3164 IMG_3165 IMG_3166
    IMG_3167 IMG_3168 IMG_3169 IMG_3170 IMG_3171 IMG_3172 
    keynote 발표 ppt 인데요. .흑 제가 자리를 잘못 잡아서 계속 누군가의 머리가 나오고 있다는...

    1. Keynote
    카이스트 최기선 교수님이 발표를 해주셨습니다.
    저는 이분과 아무 관계가 없구요.. ㅋ
    음.. 최교수님이 발표해 주신 키노트는 이번 서밋이 검색이다 보니.. 좀 specific 하다고 봐야 하나요..
    좀 내용이 딱딱 하고 살짝 졸린수도 있겠다는 느낌 이였습니다..
    (이 분의 강의는 어떤지 궁금 하기도 하내요.. ㅎㅎ)
    근데 분야가 좀 전문적이다 보니 어쩔수 없다는 생각도 듭니다.. :)

    IMG_3173 IMG_3174 IMG_3175 IMG_3177
    track 2 와 중간 쉬는 시간의 coffee break ^^*

    2. Track2 Vertical Search as the Semantic Web Application
    제가 들은 첫번째 track 이였는데요.
    내용도 괜찮았고 발표자 분도 괜찮았다고 생각 합니다.
    검색 개발 분야를 크게 세가지로 나눈다면 front-end, engine, back-end 정도 나눈다면.. 저는 front-end 쪽이 가까울라나요.. 하지만 engine 쪽이나 back-end 쪽에 대한 knowledge 가 없어서도 실력이 안되서도 아니라는거.. 집고 넣어 가고 싶내요.. ㅋ (하지만 정말 한 쪽 분야에서만 전문 지식을 가지고 계신 분보다는 당연히 ㅎㅎ ^^;)
    암튼..
    이 분야는 제가 관심을 늘 가지고 있던 분야이다 보니.. 관심 있게 들었내요..

    흔히 우리가 알고 있는 포털에서 보여 주고 있는 버티컬 검색과 이번에 보여준 버티컬 검색과는 확연히 내용이 다르다는걸 다시 한번 새기게 되었내요.

    이 세션은
    Current Searches
    Sematic Web
    Web Trends
    Vertical Searches
    를 가지고 발표가 되었습니다.

    내용 중 크게 관심이 가는 word 만 뽑아 봤습니다.
    관점, 시각화 쿼리, 연관, 시맨틱 웹, 표준화, 객체기반 링크, 상호운영성, 온톨로지, 협업, 모바일, web 3.0, 오픈플랫폼
     
    이 세션을 한마디로 표현 하자면.. 웹의 다형성 이라고나 할까요.. 그냥 제 느낌이 그렇다는 거구요..
    웹을 보는 여러 사람들의 눈에는 웹이라는 하나의 모습으로 보일 수 있지만 그 내적인 의미는 다양하다고 볼 수 있지 않나 싶내요.
    시맨틱도 그렇고 온톨로지도 그렇고 매쉬업도 그렇고.. 보는 사람의 해석과 의미에 따라서 다르게 표현 될 수 있으니까요..
    참 재밌어요.. ^^* 그죠...

    ref.
    http://ko.wikipedia.org/wiki/%EC%8B%9C%EB%A7%A8%ED%8B%B1_%EC%9B%B9
    http://en.wikipedia.org/wiki/Semantic_Web
    http://www.w3.org/2001/sw/
    http://www.w3.org/DesignIssues/Semantic.html
    http://semanticweb.org/wiki/Semantic_Web
    http://ko.wikipedia.org/wiki/%EC%98%A8%ED%86%A8%EB%A1%9C%EC%A7%80
    http://en.wikipedia.org/wiki/Ontology
    http://www.dal.kr/blog/archives/001010.html


    3. Track2 문서분석을 통한 이슈, 연관, 트렌드 정보 제시
    이 세션은 좀 발표 자체가 딱딱 했구요.
    준비해 오신 자료만을 가지고 거의 읽어 내려 가듯 해서 내용의 깊이나 뭐 그런건 찾아 보기 좀 힘들었던것 같내요.
    거의 내용도 기존에 많이 알려진 것들과 검색에 대해서 전형적인 것들에 대한 내용이 다였다고 보여 지내요..

    검색 : 수집 -> 링크분석 -> 키워드 빈도추출 -> 지료분석
    뭐 거의 기본이죠..

    하지만 이런 검색에서도 앞서 나가는 곳들은 어디에나 있죠..
    한국에서만 유독 네이버가 독주를 하고 있고 이날 네이버 검색에 대해서는 인력에 의해 가공된 데이터 구축 이라고 표현을 했던것 같내요..
    쉽게 이야기 하면 기술력은 아니라는 거겠죠..
    하지만 국내 시장에서 어쨌건 아직 먹히고 있다면 이것도 나쁘다고만 말 할 수 있는건 아니겠죠.. ^^*

    특히 한국에서 글로벌 회사들이 맥을 못추는 이유는 쉽게 보면.. 한국어에 대한 분석이 어려워서가 아닐까 싶기도 합니다..

    이 세션에서의 word 를 뽑아 보면..
    명사, 공기, 연관성, 시간의 흐름성 정도... 랄까요..

    여기서 발표 하신분은 명사만을 추출해서 조합을 한다고 하셨는데 글쎄요.. sematic search 가 명사만 가지고 구현이 되는 것인지 잘 모르겠내요...

    IMG_3178 IMG_3179 IMG_3180 IMG_3181 IMG_3182 IMG_3183 IMG_3184
    IMG_3185
    원광대 교수님의 발표 자료가 최신이 아니라서 빠진 ppt 를 사진으로 담았답니다.. ㅎㅎ

    4.  Track3 통계적 기법에 의한 의미 기반 검색
    흑.. 이 세션은 좀 내용이 어려웠구요.
    그냥.. 통계적 수식만 듣고서는 정확히 감이 오질 않더라구요..
    사실 이 세션 듣던 도중에 많은 분들이 자리를 뜨는걸 봤는데.. 저 역시 오래 버티지 못하고 자리를 옮겨 다른 세션으로 이동을 했답니다.
    Track1 개인화를 통한 모바일 검색 서비스
    좀 늦게 이동을 해서 듣다 보니.. 느낀 점은.. 개인 사생활 침해에 대한 고려가 좀 빈약해 보였다는거... 모바일을 통해서 나의 위치와 내가 무엇을 관심 있어 하는지 등등.. 이런게 다 DB 화 되고 정보가 축적 되어 진다면.. 글쎄요.. 저는 이런 서비스는 쓰고 싶지는 않내요.. 뭐.. 지금도 나의 일상들이 기록되어 지고는 있지만.. 이런 것들이 나의 사생활을 침해하기 시작 하면.. 음.. .좀 암울 할 것 같내요.. ㅡ.ㅡ;

    5. Track1 의미기반 검색엔진의 동향과 핵심기술
    이 세션은 좀 재밌었답니다.. 원광대 한성국 교수님이 발표를 해주셨는데.. ㅎㅎ
    발표를 지루하지도 않게 그리고 발표 하시는 억양도 좀 재밌었내요..
    꼭 시골 옆집 아저씨 같기도 하고 약장수 같기도 하고.. (절대 비하 하는거 아닙니다.. ^^;)

    Rich content  와 Vertical search 앞에서 이야기 되었던 것들과 비슷한 내용 이였구요.. Topic 이라는 말이 자주 나왔답니다.
    역시 sematic 을 염두에 둔것이겠지요..

    전반적으로 이 세션은 웹의 발전변화와 검색의 진화 그리고 이런 진화에 앞장서는 start-up 서비스들에 대해서 설명 되어 졌습니다.


    큰사진 보기 : http://www.flickr.com/photos/26089147@N00/sets/72157607116841848/

    전체적으로 내용도 괜찮았고 유익한 시간 이였던것 같습니다.


    아래 내용은 그냥 keynote 시간때 막 적어 본거 랍니다.. ㅋ

    1. Keynote
     최기선 교수
     Web and *
      web 1.0
       데이터의 기록
     Cons & Prod
      소비자 : crawling, indexing, link, page ranking, clicking behavior, culture
      생산자집단지성, 종합과 추론
     Web *
      web directory
       IR
      web search
       behavior, ranking
      web intelligence
      text, multimedia, mobile, UI, HW
     고객모델
     기술 vs 고객
     Question Types
     단어 간의 "왜"?
     Is it true?
     단어 간의 관련성
     수만은 웹페이지 - Wikipedia
     * 검색의 소비와 생산의 변화 그리고 자동화
     검색결과의 적합성
      문서, 질의, 랭킹
      텍스트에 밀줄
      ontology
      scenario
     웹서버 - 클라이언트 모델
      클라이언트가 더 많은 일을 처리 해야 한다.
     The entire deep Web : 웹에 있지만 못 보는 정보 이슈
     개인 콘텐츠 광고모델
     로드맵
      정보의 분포




    :

    야후 블로그 랭킹 검색..

    ITWeb/스크랩 2008. 7. 15. 10:16
    야후코리아에서 블로그 랭킹 검색을 선보였내요.. ^^*
    전직장이라 그런지 뭐든 좋은 기능들이 하나씩 추가 되는걸 보면 저도 기분이 좋답니다.

    저 역시 회사를 나오기 전까지 관심 있게 봤던 부분이 그리드 컴퓨팅 부분 이였는데..
    야후에서는 hadoop 을 가장 잘 쓰고 있는 회사이지요..
    저 역시 검색쪽 일을 많이는 못했지만.. 2년 정도 한것 같내요.
    검색 업무를 하다 보니.. 역시 재밌더라구요..
    알아야 할것도 많고 배워야 할것도 많고.. 야후코리아가 한국에서는 실력발휘를 못하고는 있지만 그 기술적인 부분에서는 역시 라는 생각을 해봅니다..

    야후를 6년 다니고 나왔는데.. 아직 그 향수병에서 벗어나지는 못한것 같내요.. ^^;
    그 만큼 좋은 회사라는 거겠죠..

    앞으로도 야후 화이팅 입니다..

    그럼.. 저는 몇등일까요???
    http://kr.blog.search.yahoo.com/search/comm?p=jjeong&subtype=CommBlogger&x=27&y=15

    블로그명 [총 55 개중 1 - 20]

    jjeong 닉네임 : jjeong

    jjeong.tistory.comrss | 랭킹 182,633위 정보보기

    jjeong♥[박준석.에이시아.가비엔제이] 닉네임 : jjeong

    blog.daum.net/jjeongrss | 랭킹 1,053,635위 정보보기

    jjeong0909 닉네임 : jjeong0909

    blog.daum.net/jjeong0909rss | 랭킹 43,023위 정보보기


    상단에 "블로그명" 검색 라디오 버튼을 선택 하고 검색을 하시거나 오른쪽 중간 쯤에 있는 블로그랭킹 검색을 함 해보심 됩니다..

    관련 뉴스
    - http://itviewpoint.com/64342
    - http://itnews.inews24.com/php/news_view.php?g_serial=342680&g_menu=020300&fm=rs
    - http://www.eetkorea.com/ART_8800534347_839577_NT_d4f5785e.HTM?click_from=RSS

    :