'analyzer'에 해당되는 글 12건

  1. 2017.10.19 [Elasticsearch] Arirang Analyzer + Elasticsearch Analyzer Plugin 사용자 관점 개발리뷰
  2. 2017.07.10 [Elasticsearch] elasticsearch-analysis-arirang-5.5.0 공유
  3. 2017.02.21 [Elasticsearch] elasticsearch-analysis-arirang-5.2.1
  4. 2016.04.22 [Elasticsearch] Analyzer filter 구성 시 순서.
  5. 2016.03.16 [Elasticsearch] Arirang analyzer 버전 올렸습니다.
  6. 2015.11.20 [Elasticsearch] 한글 자모 형태소 분석기 플러그인.
  7. 2015.11.04 [Elasticsearch] lucene arirang analyzer 플러그인 적용 on elasticsearch 2.0
  8. 2014.11.11 [Analyzer] 형태소 분석기.
  9. 2014.11.05 [Lucene] 4.9.0 analyzer & tokenizer....
  10. 2014.04.30 [Elasticsearch] lucene arirang analyzer plugin.

[Elasticsearch] Arirang Analyzer + Elasticsearch Analyzer Plugin 사용자 관점 개발리뷰

Elastic/Elasticsearch 2017.10.19 14:25

사용자 관점에서 어떻게 개발 하는지 정리해 보았습니다.


Elasticsearch를 서비스에 사용하면서 한글 처리를 위해 어떤 analyzer를 사용해야 할지 고민해 보신적이 있을 것입니다.

오늘은 제가 사용하고 있는 Lucene Korean Analyzer와 이를 Elasticsearch에 plugin으로 설치하고 사용하는 방법을 알아 보도록 하겠습니다.


들어 가기에 앞서 lucene에서 제공하는 analyzer의 기본 구성과 동작에 대해서 살펴 보겠습니다.

Lucene에서 제공하는 analyzer 는 하나의 tokenizer와 다수의 filter로 구성이 됩니다.

Filter 는 CharFilter와 TokenFilter 두 가지가 있습니다.

CharFilter는 입력된 문자열에서 불필요한 문자를 normalization 하기 위해 사용되며 TokenFilter는 tokenizer에 의해 분해된 token에 대한 filter 처리를 하게 됩니다.

결과적으로 아래와 같은 순서로 analysis 된다고 이해 하면 됩니다.


Input Text 

Character Filter    Filtered Text        

Tokenizer              Tokens                 →

Token Filter          Filtered Tokens   

Output Tokens


이제 본론으로 들어 가겠습니다.

Lucene Korean Analyzer는 현재 이수명님에 의해 개발 및 유지보수가 되고 있으며 오픈소스로 등록이 되어 있습니다.

관련 소스코드는 아래 두 가지 repository를 통해서 제공 되고 있습니다.


[svn 주소]

https://lucenekorean.svn.sourceforge.net/svnroot/lucenekorean


[github 주소]

https://github.com/korlucene


 Lucene Korean Analyzer 는 지금 Arirang 이라고 부르고 있습니다.


Arirang의 프로젝트 구성은 크게 두 부분으로 나뉩니다.

  • arirang analyzer
  • arirang morph


1. arirang morph

  이 프로젝트는 한글 형태소에 대한 기본 분석과 사전 정보로 구성이 되어 있습니다.

  한글 처리와 사전 정보를 변경 하고 싶을 경우 본 프로젝트의 코드를 분석하고 수정 해서 활용을 하실 수 있습니다.


2. arirang analyzer

  이 프로젝트는 lucene의 analyzer를 상속받아 lucene에서 사용 할 수 있도록 구성이 되어 있습니다.

  Lucene의 analyzer pipeline에 필요한 

    - KoreanAnalyzer

    - KoreanFilter

    - KoreanFilterFactory

    - KoreanToken

    - KoreanTokenizer

    - KoreanTokenizerFactory

  등이 주요 클래스로 구현이 되어 있습니다.


한글 형태소 분석에서 중요한 역할을 하는 부분으로 사전 이라는 것이 있으며, 이를 알아 보도록 하겠습니다.

arirang.morph 프로젝트에 포함이 되어 있으며 언급 한것과 같이 지속적인 업데이트 및 변경이 가능 합니다.


1. Dictionary classpath

  org/apache/lucene/analysis/ko/dic


2. Dictionary files

  org/apache/lucene/analysis/ko

    korean.properties

  org/apache/lucene/analysis/ko/dic

    abbreviation.dic

    cj.dic

    compounds.dic

    eomi.dic

    extension.dic

    josa.dic

    mapHanja.dic

    occurrence.dic

    prefix.dic

    suffix.dic

    syllable.dic

    total.dic

    uncompounds.dic


3. 주요 사전 설명

주요 사전 설명 이라고는 했지만 쉽고 빠르게 활용할 수 있는 사전이라고 이해 하시면 좋을 것 같습니다.

  • total.dic
    이 사전 파일은 arirang analyzer 에서 사용하는 기본 사전으로 그대로 사용을 하시면 됩니다.
    다만, 수정이 필요 하실 경우 아래 extension.dic 파일을 활용 하시면 됩니다.
  • extension.dic
    확장사전이라고 부르며, 사전 데이터를 추가 해야 할 경우 이 파일에 추가해서 운영 및 관리를 하시면 됩니다.
  • compounds.dic
    복합명사 사전으로 하나의 단어가 여러개의 단어로 구성이 되어 있을 경우 이를 분해하기 위한 사전 정보를 관리 하는 파일 입니다.


4. total.dic / extension.dic 파일 구조

체언 용언 기타품사 하여(다)동사 되어(다)동사 '내'가붙을수있는체언 NA NA NA 불규칙변경


예)

  # 엘사는 명사이고 동사, 기타품사, 불규칙이 아니다, 라고 가정하면 아래와 같이 표현이 됩니다.

  엘사,100000000X


  # 노래는 명사이고 하여(다) 동사가 됩니다.

  노래,100100000X


  # 소리는 명사이고 소리내다와 같이 내가 붙을 수 있는 명사 입니다.

  소리,100001000X


불규칙 정보는 아래와 같으며 원문을 참고 하시기 바랍니다.

  B : ㅂ 불규칙

  H : ㅎ 불규칙

  L : 르 불규칙

  U : ㄹ 불규칙

  S : ㅅ 불규칙

  D : ㄷ 불규칙

  R : 러 불규칙

  X : 규칙

 원문 : http://cafe.naver.com/korlucene/135


5. compound.dic 파일 구조

분해전단어:분해후단어1,분해후단어2,...,분해후단어N:DBXX


분해전단어에 하여(다)동사(D), 되어(다)동사(B) 가 붙을 수 있는지 확인 하셔야 합니다.


예)

  객관화:객관,화:1100


  이와 같이 된 이유는

    객관화하다

    객관화되다

  가 되기 때문입니다.


  참고)

  http://krdic.naver.com/search.nhn?query=%EA%B0%9D%EA%B4%80%ED%99%94&kind=all


이제 부터는 소스 코드를 내려 받아서 빌드 후 Elasticsearch plugin을 만드는 방법을 알아 보겠습니다.


1. 프로젝트 clone

기본적으로 master branch 를 받습니다.


$ git clone https://github.com/korlucene/arirang.morph.git

$ git clone https://github.com/korlucene/arirang-analyzer-6.git


2. Maven build

  • 두 프로젝트 모드 maven project로 빌드 장비에 maven 이 설치가 되어 있어야 합니다.
    maven 설치 참고 - https://maven.apache.org/
  • arirang-analyzer-6 프로젝트에 기본적으로 arirang.morph 패키지가 등록이 되어 있기 때문에 별도 arirang.morph를 수정 하지 않았다면 arirang-analyzer-6 만 빌드하시면 됩니다.


arirang.morph $ mvn clean package

arirang-analyzer-6 $ mvn clean package


3. 기능 테스트

  • 기능 테스트는 arirang-analyzer-6 프로젝트에 포함된 test code를 이용해서 확인해 보시면 됩니다.
  • src/test 아래 TestKoreanAnalyzer1 클래스를 참고하시면 됩니다.

 아래는 이해를 돕기 위해 원본 테스트 코드를 추가 하였습니다.

/**

 * Created by SooMyung(soomyung.lee@gmail.com) on 2014. 7. 30.

 */

public class TestKoreanAnalyzer1 extends TestCase {


  public void testKoreanAnalzer() throws Exception {


    String[] sources = new String[]{

      "고려 때 중랑장(中郞將) 이돈수(李敦守)의 12대손이며",

      "이돈수(李敦守)의",

      "K·N의 비극",

      "金靜子敎授",

      "天國의",

      "기술천이",

      "12대손이며",

      "明憲淑敬睿仁正穆弘聖章純貞徽莊昭端禧粹顯懿獻康綏裕寧慈溫恭安孝定王后",

      "홍재룡(洪在龍)의",

      "정식시호는 명헌숙경예인정목홍성장순정휘장소단희수현의헌강수유령자온공안효정왕후(明憲淑敬睿仁正穆弘聖章純貞徽莊昭端禧粹顯懿獻康綏裕寧慈溫恭安孝定王后)이며 돈령부영사(敦寧府領事) 홍재룡(洪在龍)의 딸이다. 1844년, 헌종의 정비(正妃)인 효현왕후가 승하하자 헌종의 계비로써 중궁에 책봉되었으나 5년 뒤인 1849년에 남편 헌종이 승하하고 철종이 즉위하자 19세의 어린 나이로 대비가 되었다. 1857년 시조모 대왕대비 순원왕후가 승하하자 왕대비가 되었다.",

      "노벨상을"

    };


    KoreanAnalyzer analyzer = new KoreanAnalyzer();


    for (String source : sources) {

      TokenStream stream = analyzer.tokenStream("dummy", new StringReader(source));


      CharTermAttribute termAtt = stream.addAttribute(CharTermAttribute.class);

      PositionIncrementAttribute posIncrAtt = stream.addAttribute(PositionIncrementAttribute.class);

      PositionLengthAttribute posLenAtt = stream.addAttribute(PositionLengthAttribute.class);

      TypeAttribute typeAtt = stream.addAttribute(TypeAttribute.class);

      OffsetAttribute offsetAtt = stream.addAttribute(OffsetAttribute.class);

      MorphemeAttribute morphAtt = stream.addAttribute(MorphemeAttribute.class);

      stream.reset();


      while (stream.incrementToken()) {

        System.out.println(termAtt.toString() + ":" + posIncrAtt.getPositionIncrement() + "(" + offsetAtt.startOffset() + "," + offsetAtt.endOffset() + ")");

      }

      stream.close();

    }


  }

}


이제 arirang에 대한 빌드와 기능테스트가 끝났으니 elasticsearch에 설치 하기 위한 plugin 만드는 방법을 알아 보도록 하겠습니다.

먼저, elasticsearch에서 제공하는 plugins 관련 문서를 시간이 된다면 한번 읽어 보시고 아래 내용을 보시길 추천 드립니다.


Elasticsearch Plugins and Integrations : https://www.elastic.co/guide/en/elasticsearch/plugins/5.5/index.html


Elastic에서 공식문서에서 제공해 주고 있는 예제는 아래 링크에 나와 있으니 구현 시 참고하시기 바랍니다.

 https://github.com/elastic/elasticsearch/tree/master/plugins/jvm-example


 제가 추천하는 것은 elasticsearch source code를 다운받아 official하게 작성된 plugin 코드를 참고하여 구현하는 방법 입니다.


그럼 analysis plugin의 기본 프로젝트 구조를 살펴 보겠습니다.


1. Project Directory

  src/main

  assemblies

    plugin.xml

  java

    org/elasticsearch

      index/analysis

        ${CUSTOM-ANALYZER-NAME}AnalyzerProvider

        ${CUSTOM-ANALYZER-NAME}TokenFilterFactory

        ${CUSTOM-ANALYZER-NAME}TokenizerFactory

      plugin/analysis/arirang

        Analysis${CUSTOM-ANALYZER-NAME}Plugin

  resources

    plugin-descriptor.propeties


2. Files and classes

  • plugin.xml
      maven assembly plugin을 이용한 패키징을 하기 위한 설정을 구성 합니다.
  • plugin-descriptor.propeties
      plugin authors 정보를 구성 합니다.
      elasticsearch reference) https://www.elastic.co/guide/en/elasticsearch/plugins/5.5/plugin-authors.html
  • ${CUSTOM-ANALYZER-NAME}AnalyzerProvider
      custom analyzer 생성자 제공을 위한 코드를 작성 합니다.
  • ${CUSTOM-ANALYZER-NAME}TokenFilterFactory
      custom filter 생성자 제공을 위한 코드를 작성 합니다.
  • ${CUSTOM-ANALYZER-NAME}TokenizerFactory
      custom tokenizer 생성자 제공을 위한 코드를 작성 합니다.
  • Analysis${CUSTOM-ANALYZER-NAME}Plugin
      custom analyzer plugin 등록을 위한 코드를 작성 합니다.

이와 같은 구조를 이용하여 elasticsearch-analysis-arirang plugin을 만들어 보도록 하겠습니다.

본 plugin에서는 arirang에서 제공하는 dynamic dictionary reload 기능을 사용하기 위한 Rest Handler도 추가해서 만들어 보도록 하겠습니다.


소스코드 참고)

https://github.com/HowookJeong/elasticsearch-analysis-arirang/tree/5.5.0


Step1)

Step2)

  • Plugin project structure를 구성 합니다.

Step3)

  • root path에 lib 폴더를 생성하고 arirang analyzer 관련 jar 파일을 복사해 놓습니다.
  • arirang.lucene-analyzer-VERSION.jar
  • arirang-morph-VERSION.jar

Step4)

  • pom.xml에서 local jar 파일에 대한 dependency 설정을 추가해 줍니다.

    <dependency>

      <groupId>com.argo</groupId>

      <artifactId>morph</artifactId>

      <version>${morph.version}</version>

      <scope>system</scope>

      <systemPath>${project.basedir}/lib/arirang-morph-${morph.version}.jar</systemPath>

      <optional>false</optional>

    </dependency>


    <dependency>

      <groupId>com.argo</groupId>

      <artifactId>arirang.lucene-analyzer-${lucene.version}</artifactId>

      <version>${morph.version}</version>

      <scope>system</scope>

      <systemPath>${project.basedir}/lib/arirang.lucene-analyzer-${lucene.version}-${morph.version}.jar</systemPath>

      <optional>false</optional>

    </dependency>


Step5)

  • analysis plugin 관련 코드를 작성 합니다.

    @Override

    public List<RestHandler> getRestHandlers(Settings settings, RestController restController, ClusterSettings clusterSettings,

      IndexScopedSettings indexScopedSettings, SettingsFilter settingsFilter, IndexNameExpressionResolver indexNameExpressionResolver,

      Supplier<DiscoveryNodes> nodesInCluster) {

        return singletonList(new ArirangAnalyzerRestAction(settings, restController));

    }


    @Override

    public Map<String, AnalysisProvider<TokenFilterFactory>> getTokenFilters() {

        return singletonMap("arirang_filter", ArirangTokenFilterFactory::new);

    }


    @Override

    public Map<String, AnalysisProvider<TokenizerFactory>> getTokenizers() {

        Map<String, AnalysisProvider<TokenizerFactory>> extra = new HashMap<>();

        extra.put("arirang_tokenizer", ArirangTokenizerFactory::new);


        return extra;

    }


    @Override

    public Map<String, AnalysisProvider<AnalyzerProvider<? extends Analyzer>>> getAnalyzers() {

        return singletonMap("arirang_analyzer", ArirangAnalyzerProvider::new);

    }


Step6)

  • analysis 관련 코드를 작성 합니다.

    // ArirangAnalyzerProvider

    private final KoreanAnalyzer analyzer;


    public ArirangAnalyzerProvider(IndexSettings indexSettings, Environment env, String name, Settings settings) throws IOException {

        super(indexSettings, name, settings);


        analyzer = new KoreanAnalyzer();

    }


    @Override

    public KoreanAnalyzer get() {

        return this.analyzer;

    }


    // ArirangTokenFilterFactory

    public ArirangTokenFilterFactory(IndexSettings indexSettings, Environment env, String name, Settings settings) {

        super(indexSettings, name, settings);

    }


    @Override

    public TokenStream create(TokenStream tokenStream) {

        return new KoreanFilter(tokenStream);

    }


    // ArirangTokenizerFactory

    public ArirangTokenizerFactory(IndexSettings indexSettings, Environment env, String name, Settings settings) {

        super(indexSettings, name, settings);

    }


    @Override

    public Tokenizer create() {

        return new KoreanTokenizer();

    }


Step7)

  • rest action 관련 코드를 작성 합니다.

  // ArirangAnalyzerRestAction

  @Inject

  public ArirangAnalyzerRestAction(Settings settings, RestController controller) {

    super(settings);


    controller.registerHandler(RestRequest.Method.GET, "/_arirang_dictionary_reload", this);

  }


  @Override

  protected RestChannelConsumer prepareRequest(RestRequest restRequest, NodeClient client) throws IOException {

    try {

      DictionaryUtil.loadDictionary();

    } catch (MorphException me) {

      return channel -> channel.sendResponse(new BytesRestResponse(RestStatus.NOT_ACCEPTABLE, "Failed which reload arirang analyzer dictionary!!"));

    } finally {

    }


    return channel -> channel.sendResponse(new BytesRestResponse(RestStatus.OK, "Reloaded arirang analyzer dictionary!!"));

  }


  // ArirangAnalyzerRestModule

  @Override

  protected void configure() {

    // TODO Auto-generated method stub

    bind(ArirangAnalyzerRestAction.class).asEagerSingleton();

  }


Step8)

  • plugin-descriptor.properties 관련 코드를 작성 합니다.

  classname=org.elasticsearch.plugin.analysis.arirang.AnalysisArirangPlugin

  name=analysis-arirang

  jvm=true

  java.version=1.8

  site=false

  isolated=true

  description=Arirang plugin

  version=${project.version}

  elasticsearch.version=${elasticsearch.version}

  hash=${buildNumber}

  timestamp=${timestamp}


Step9)

  • 패키징을 하기 위한 plugin.xml 관련 코드를 작성 합니다.

    <file>

      <source>lib/arirang.lucene-analyzer-6.5.1-1.1.0.jar</source>

      <outputDirectory>elasticsearch</outputDirectory>

    </file>

    <file>

      <source>lib/arirang-morph-1.1.0.jar</source>

      <outputDirectory>elasticsearch</outputDirectory>

    </file>

    <file>

      <source>target/elasticsearch-analysis-arirang-5.5.0.jar</source>

      <outputDirectory>elasticsearch</outputDirectory>

    </file>

    <file>

      <source>${basedir}/src/main/resources/plugin-descriptor.properties</source>

      <outputDirectory>elasticsearch</outputDirectory>

      <filtered>true</filtered>

    </file>


Step10)

  • 빌드를 합니다.

  $ mvn clean package -DskipTests=true


여기서는 작성된 코드는 일부만 발췌 했기 때문에 github에 올라간 소스코드를 참고하시기 바랍니다.

또한, 위 단계는 순서가 중요한 것이 아니며 구성과 어떻게 구현을 해야 하는지를 이해 하시는게 중요 합니다.


이제 빌드가 완료 되었으니 설치 및 기능 점검을 수행해 보도록 하겠습니다.


1. 설치

$ bin/elasticsearch-plugin install --verbose file:///path/elasticsearch-analysis-arirang-5.5.0.zip


2. 기능점검

  • 실행

$ bin/elasticsearch

[2017-08-22T18:56:17,223][INFO ][o.e.n.Node               ] [singlenode] initializing ...

[2017-08-22T18:56:17,289][INFO ][o.e.e.NodeEnvironment    ] [singlenode] using [1] data paths, mounts [[/ (/dev/disk1)]], net usable_space [489.3gb], net total_space [930.3gb], spins? [unknown], types [hfs]

[2017-08-22T18:56:17,289][INFO ][o.e.e.NodeEnvironment    ] [singlenode] heap size [1.9gb], compressed ordinary object pointers [true]

[2017-08-22T18:56:17,309][INFO ][o.e.n.Node               ] [singlenode] node name [singlenode], node ID [saCA_25vSxyUwF-RagteLw]

[2017-08-22T18:56:17,309][INFO ][o.e.n.Node               ] [singlenode] version[5.5.0], pid[12613], build[260387d/2017-06-30T23:16:05.735Z], OS[Mac OS X/10.12.5/x86_64], JVM[Oracle Corporation/Java HotSpot(TM) 64-Bit Server VM/1.8.0_72/25.72-b15]

[2017-08-22T18:56:17,309][INFO ][o.e.n.Node               ] [singlenode] JVM arguments [-Xms2g, -Xmx2g, -XX:+UseConcMarkSweepGC, -XX:CMSInitiatingOccupancyFraction=75, -XX:+UseCMSInitiatingOccupancyOnly, -XX:+DisableExplicitGC, -XX:+AlwaysPreTouch, -Xss1m, -Djava.awt.headless=true, -Dfile.encoding=UTF-8, -Djna.nosys=true, -Djdk.io.permissionsUseCanonicalPath=true, -Dio.netty.noUnsafe=true, -Dio.netty.noKeySetOptimization=true, -Dio.netty.recycler.maxCapacityPerThread=0, -Dlog4j.shutdownHookEnabled=false, -Dlog4j2.disable.jmx=true, -Dlog4j.skipJansi=true, -XX:+HeapDumpOnOutOfMemoryError, -Des.path.home=/Users/jeonghoug/dev/server/elastic/elasticsearch-5.5.0]

[2017-08-22T18:56:18,131][INFO ][o.e.p.PluginsService     ] [singlenode] loaded module [aggs-matrix-stats]

[2017-08-22T18:56:18,131][INFO ][o.e.p.PluginsService     ] [singlenode] loaded module [ingest-common]

[2017-08-22T18:56:18,131][INFO ][o.e.p.PluginsService     ] [singlenode] loaded module [lang-expression]

[2017-08-22T18:56:18,131][INFO ][o.e.p.PluginsService     ] [singlenode] loaded module [lang-groovy]

[2017-08-22T18:56:18,131][INFO ][o.e.p.PluginsService     ] [singlenode] loaded module [lang-mustache]

[2017-08-22T18:56:18,131][INFO ][o.e.p.PluginsService     ] [singlenode] loaded module [lang-painless]

[2017-08-22T18:56:18,131][INFO ][o.e.p.PluginsService     ] [singlenode] loaded module [parent-join]

[2017-08-22T18:56:18,131][INFO ][o.e.p.PluginsService     ] [singlenode] loaded module [percolator]

[2017-08-22T18:56:18,131][INFO ][o.e.p.PluginsService     ] [singlenode] loaded module [reindex]

[2017-08-22T18:56:18,132][INFO ][o.e.p.PluginsService     ] [singlenode] loaded module [transport-netty3]

[2017-08-22T18:56:18,132][INFO ][o.e.p.PluginsService     ] [singlenode] loaded module [transport-netty4]

[2017-08-22T18:56:18,132][INFO ][o.e.p.PluginsService     ] [singlenode] loaded plugin [analysis-arirang]

[2017-08-22T18:56:19,195][INFO ][o.e.d.DiscoveryModule    ] [singlenode] using discovery type [zen]

[2017-08-22T18:56:19,686][INFO ][o.e.n.Node               ] [singlenode] initialized

[2017-08-22T18:56:19,687][INFO ][o.e.n.Node               ] [singlenode] starting ...

[2017-08-22T18:56:24,837][INFO ][o.e.t.TransportService   ] [singlenode] publish_address {127.0.0.1:9300}, bound_addresses {[fe80::1]:9300}, {[::1]:9300}, {127.0.0.1:9300}

[2017-08-22T18:56:27,899][INFO ][o.e.c.s.ClusterService   ] [singlenode] new_master {singlenode}{saCA_25vSxyUwF-RagteLw}{_fn1si8zTT6bkZK1q6ilxQ}{127.0.0.1}{127.0.0.1:9300}, reason: zen-disco-elected-as-master ([0] nodes joined)

[2017-08-22T18:56:27,928][INFO ][o.e.h.n.Netty4HttpServerTransport] [singlenode] publish_address {127.0.0.1:9200}, bound_addresses {[fe80::1]:9200}, {[::1]:9200}, {127.0.0.1:9200}

[2017-08-22T18:56:27,928][INFO ][o.e.n.Node               ] [singlenode] started


  • 형태소분석기 확인

http://localhost:9200/_analyze?pretty&analyzer=arirang_analyzer&text=한국 엘라스틱서치 사용자 그룹의 HENRY 입니다.


  • 형태소분석기 결과 확인

{

  "tokens" : [

    {

      "token" : "한국",

      "start_offset" : 0,

      "end_offset" : 2,

      "type" : "korean",

      "position" : 0

    },

    {

      "token" : "엘라스틱서치",

      "start_offset" : 3,

      "end_offset" : 9,

      "type" : "korean",

      "position" : 1

    },

    {

      "token" : "엘라",

      "start_offset" : 3,

      "end_offset" : 5,

      "type" : "korean",

      "position" : 1

    },

    {

      "token" : "스틱",

      "start_offset" : 5,

      "end_offset" : 7,

      "type" : "korean",

      "position" : 2

    },

    {

      "token" : "서치",

      "start_offset" : 7,

      "end_offset" : 9,

      "type" : "korean",

      "position" : 3

    },

    {

      "token" : "사용자",

      "start_offset" : 10,

      "end_offset" : 13,

      "type" : "korean",

      "position" : 4

    },

    {

      "token" : "그룹",

      "start_offset" : 14,

      "end_offset" : 16,

      "type" : "korean",

      "position" : 5

    },

    {

      "token" : "henry",

      "start_offset" : 18,

      "end_offset" : 23,

      "type" : "word",

      "position" : 6

    },

    {

      "token" : "입니다",

      "start_offset" : 24,

      "end_offset" : 27,

      "type" : "korean",

      "position" : 7

    }

  ]

}


  • 형태소분석기 RESTful endpoint 실행 및 결과

  실행)

    http://localhost:9200/_arirang_dictionary_reload


  결과)

    Reloaded arirang analyzer dictionary!!


이제 기본적인 arirang analyzer와 elasticsearch용 plugin 까지 살펴 보았습니다.

마지막으로 arirang analyzer의 사전 데이터 수정과 반영을 살펴 보겠습니다.


 arirang 에서 제공하는 기본 dictionary path 변경을 하지 않고 사전 내용만 변경 하는 것으로 하겠습니다.


1. 사전 파일에 대한 classpath 설정

  • elasticsearch 실행 시 사전 파일에 대한 classpath 등록이 되어 있어야 정상적으로 로딩이 됩니다.
  • elasticsearch.in.sh 파일을 수정해 줍니다.

  ES_CLASSPATH="$ES_HOME/lib/elasticsearch-5.5.0.jar:$ES_HOME/lib/*:$ES_CONF_PATH/dictionary"


  예) 위에서 언급한 사전 관련 path와 파일들이 존재해야 합니다.

    config/dictionary/org/apache/lucene/analysis/ko

    config/dictionary/org/apache/lucene/analysis/ko/dic

  • ES_CONF_PATH는 기본 path.conf 정보와 동일해야 합니다.


2. 사전 정보 수정 및 반영

  • 1번 path에 위치한 사전 파일을 수정합니다.


3. 사전 reload

  • elasticsearch restart 없이 /_arirang_dictionary_reload API를 호출하여 반영 합니다.


여기까지 오셨으면 이제 arirang analyzerelasticseearch-analysis-arirang plugin 그리고 dictionary에 대한 기본 활용을 하실수 있게 되셨다고 생각합니다.

기술된 모든 정보는 모두 오픈소스이기 때문에 출처를 정확히 명시해 주시고 언제든지 오류와 개선에 대해서는 적극적인 참여 부탁 드립니다.


참고 사이트)

http://cafe.naver.com/korlucene

https://www.elastic.co/guide/en/elasticsearch/reference/current/index.html

https://www.elastic.co/guide/en/elasticsearch/plugins/current/index.html

저작자 표시 비영리 변경 금지
신고
Trackback 0 : Comment 0

[Elasticsearch] elasticsearch-analysis-arirang-5.5.0 공유

Elastic/Elasticsearch 2017.07.10 14:18

5.5.0 에서 RestActionPlugin 등록하는 코드가 변경이 되어서 수정 반영 했습니다.




elasticsearch-analysis-arirang-5.5.0 공유 합니다.


Lucene 6.6.0

Elasticsearch 5.5.0 

기준 입니다.


설치파일 다운로드)

elasticsearch-analysis-arirang-5.5.0.zip



설치 방법)

$ bin/elasticsearch-plugin install --verbose file:///services/apps/elasticsearch-analysis-arirang-5.5.0.zip


아래는 플러그인 구현 시 필요한 내용 몇 가지 정리 했습니다.


1. arirang 관련 프로젝트 두개를 빌드 하셔야 합니다.

https://github.com/korlucene/arirang-analyzer-6

https://github.com/korlucene/arirang.morph


arirang.morph 의 경우 수명님이 arirang-analyzer-6 에 포함 시켜 놓았기 때문에 반드시 빌드해서 하실 필요는 없지만 그래도 한번 해보시면 좋습니다.

version 정보등은 맞게 수정해서 사용 하시면 됩니다.

(참고로 arirang 에 있었던 몇 가지 버그들이 수정된 것 같습니다.)


2. elasticsearch arirang plugin 을 만드시면 됩니다.

항상 그렇지만 version 이 올라가고 나면 변경된 내용에 대해서 적용을 해주셔야 합니다.

이번에는 큰 변화는 없었지만 test code 쪽 내용이 좀 변경이 되었내요.

이전 브랜치와 비교해서 보시면 될 것 같습니다.


설치 후 테스트)

http://localhost:9200/_analyze?pretty&analyzer=arirang_analyzer&text=한국 엘라스틱서치 사용자 그룹의 HENRY 입니다.


테스트 결과)

더보기


저작자 표시 비영리 변경 금지
신고
Trackback 0 : Comment 0

[Elasticsearch] elasticsearch-analysis-arirang-5.2.1

Elastic/Elasticsearch 2017.02.21 12:41

elasticsearch-analysis-arirang-5.2.1 공유 합니다.


Lucene 6.4.1

Elasticsearch 5.2.1 

기준 입니다.


elasticsearch-analysis-arirang-5.2.1.zip


설치 방법)

$ bin/elasticsearch-plugin install --verbose file:///services/apps/elasticsearch-analysis-arirang-5.2.1.zip


저작자 표시 비영리 변경 금지
신고
Trackback 0 : Comment 0

[Elasticsearch] Analyzer filter 구성 시 순서.

Elastic/Elasticsearch 2016.04.22 11:42

아주 기본적인 내용인데 간혹 놓치고 가는 경우가 있어서 기록해 봅니다.

저 같은 경우는 synonyms 적용하면서 당연히 적용된 줄 알고 테스트 하다 삽질한 경우 입니다.


analyzer 구성은 잘 아시겠지만 settings 에서 수행하게 됩니다.

그리고 설정한 analyzer 를 mappings 에서 사용을 하게 되구요.


설정 방법에 대해서는 아래 문서 참고 하시기 바랍니다.


참고문서)

https://www.elastic.co/guide/en/elasticsearch/reference/2.3/analysis.html


참고문서 내 설정 예시)

index : analysis : analyzer : standard : type : standard stopwords : [stop1, stop2] myAnalyzer1 : type : standard stopwords : [stop1, stop2, stop3] max_token_length : 500 # configure a custom analyzer which is # exactly like the default standard analyzer myAnalyzer2 : tokenizer : standard filter : [standard, lowercase, stop] tokenizer : myTokenizer1 : type : standard max_token_length : 900 myTokenizer2 : type : keyword buffer_size : 512 filter : myTokenFilter1 : type : stop stopwords : [stop1, stop2, stop3, stop4] myTokenFilter2 : type : length min : 0 max : 2000



위 예시를 가지고 설명을 드리면, myAnalyzer2 설정에 filter : [standard, lowercase, stop] 으로 정의가 되어 있습니다.

즉, filter 적용 순서가

1. standard

2. lowercase

3. stop

으로 적용이 된다고 보시면 됩니다.


아주 간단하죠.

제가 설정 순서를 잘못해 놓고 왜 안되지 하고 있었습니다. ㅡ.ㅡ;

저작자 표시 비영리 변경 금지
신고
Trackback 0 : Comment 0

[Elasticsearch] Arirang analyzer 버전 올렸습니다.

Elastic/Elasticsearch 2016.03.16 16:38

작업 하는 김에 버전 올렸습니다.


git branch)


루씬 한글 형태소 분석기인 arirang analyzer 버전 올렸습니다.
Elasticsearch 2.2.0
Lucene 5.4.1
arirang.morph 1.0.3

빌드 및 설치 방법)
$ mvn clean package
$ bin/plugin install file:/git/elasticsearch-analysis-arirang/target/elasticsearch-analysis-arirang.zip

인덱스 세팅 방법)
"index": {
"analysis": {
"analyzer": {
"arirang_custom": {
"type": "arirang_analyzer",
"tokenizer": "arirang_tokenizer",
"filter": ["lowercase", "trim", "arirang_filter"]
}
}
}

analyze 테스트 방법)
$ curl -XGET http://localhost:9200/memebox_deal_idx/_analyze?pretty -d '{ "analyzer":"arirang_analyzer", "text":"elasticsearch 한국 사용자 그룹입니다." }' { "tokens" : [ { "token" : "elasticsearch", "start_offset" : 0, "end_offset" : 13, "type" : "word", "position" : 0 }, { "token" : "한국", "start_offset" : 14, "end_offset" : 16, "type" : "korean", "position" : 1 }, { "token" : "사용자", "start_offset" : 17, "end_offset" : 20, "type" : "korean", "position" : 2 }, { "token" : "그룹", "start_offset" : 21, "end_offset" : 23, "type" : "korean", "position" : 3 } ] }


사전 reload 방법)

$ curl -XGET http://localhost:9200/_arirang_dictionary_reload

- 클러스터 재시작 없이 사전 데이터 수정 후 리로드 잘 됩니다. 단, 이미 색인 된 문서들은 재색인 해야 합니다.

저작자 표시 비영리 변경 금지
신고
Trackback 0 : Comment 0

[Elasticsearch] 한글 자모 형태소 분석기 플러그인.

Elastic/Elasticsearch 2015.11.20 00:07

짜집기 코드를 활용해서 플러그인을 만들어 봤습니다.

소스 코드는 아래에서 받아 보실 수 있습니다.


[repository]

https://github.com/HowookJeong/elasticsearch-analysis-hangueljamo


[빌드방법]

$ mvn clean package


  • Elasticsearch Analyze Test URL
http://localhost:9200/test/_analyze?analyzer=hangueljamo_analyzer&text=Henry 노트북&pretty=1
  • Analyzed Result
{
  "tokens" : [ {
    "token" : "henry",
    "start_offset" : 0,
    "end_offset" : 5,
    "type" : "word",
    "position" : 0
  }, {
    "token" : "ㄴㅌㅂ",
    "start_offset" : 6,
    "end_offset" : 9,
    "type" : "word",
    "position" : 1
  } ]
}


저작자 표시 비영리 변경 금지
신고
Trackback 0 : Comment 0

[Elasticsearch] lucene arirang analyzer 플러그인 적용 on elasticsearch 2.0

Elastic/Elasticsearch 2015.11.04 15:37

elasticsearch 2.0 GA 기념으로 수명님의 lucene arirang 한글분석기 적용방법을 알아 보도록 하겠습니다.

이전에 작성된 elasticsearch analyzer arirang 은 아래 글 참고 부탁 드립니다.


http://jjeong.tistory.com/958


[Requirement]

elasticsearch 2.0

jdk 1.7 이상 (elastic 에서 추천 하는 버전은 1.8 이상입니다.)

maven 3.1 이상

arirang.lucene-analyzer-5.0-1.0.0.jar (http://cafe.naver.com/korlucene/1274)

arirang-morph-1.0.0.jar (http://cafe.naver.com/korlucene/1274)


[Analysis Plugins]

https://www.elastic.co/guide/en/elasticsearch/plugins/2.0/analysis.html


[Plugin 작성 시 변경 내용 - 하나]

- es-plugin.properties 파일이 없어 지고 plugin-descriptor.properties 가 생겼습니다.

- plugin-descriptor.properties 내용은 아래와 같습니다.


classname=org.elasticsearch.plugin.analysis.arirang.AnalysisArirangPlugin

name=arirang

jvm=true

java.version=1.7

site=false

isolated=true

description=Arirang plugin

version=${project.version}

elasticsearch.version=${elasticsearch.version}

hash=${buildNumber}

timestamp=${timestamp}


▶ 자세한 설명을 원하시는 분들은 아래 링크 참고 하시면 됩니다.

https://www.elastic.co/guide/en/elasticsearch/plugins/current/plugin-authors.html#_plugin_descriptor_file


[Plugin 작성 시 변경 내용 - 둘]

- 기존에 상속 받았던 AbstractPlugin이 없어지고 Plugin을 상속 받아 구현하도록 변경 되었습니다.

From.

public class AnalysisArirangPlugin extends AbstractPlugin {...}


To.

public class AnalysisArirangPlugin extends Plugin {...}


그 밖에는 변경된 내용은 아래 arirang 에서 바뀐 부분이 적용된 내용이 전부 입니다.


[Arirang 변경 내용]

- KoreanAnalyzer 에서 lucene version 정보를 받았으나 이제는 정보를 받지 않습니다.

From.

analyzer = new KoreanAnalyzer(Lucene.VERSION.LUCENE_47);


To.

analyzer = new KoreanAnalyzer();


- KoreanTokenizer 에서는 기존에 reader 정보를 받았으나 이제는 정보를 받지 않습니다.

From.

return new KoreanTokenizer(reader);


To.

return new KoreanTokenizer();


[2.0 적용 시 바뀐 내용]

- assemblies/plugin.xml을 수정 하였습니다.

plugins 폴더에 zip 파일 올려 두고 압축 풀면 바로 동작 할 수 있도록 구성을 변경 하였습니다.


<?xml version="1.0"?>

<assembly>

  <id>plugin</id>

  <formats>

      <format>zip</format>

  </formats>

  <includeBaseDirectory>false</includeBaseDirectory>


  <files>

    <file>

      <source>lib/arirang.lucene-analyzer-5.0-1.0.0.jar</source>

      <outputDirectory>analysis-arirang</outputDirectory>

    </file>

    <file>

      <source>lib/arirang-morph-1.0.0.jar</source>

      <outputDirectory>analysis-arirang</outputDirectory>

    </file>

    <file>

      <source>target/elasticsearch-analysis-arirang-1.0.0.jar</source>

      <outputDirectory>analysis-arirang</outputDirectory>

    </file>

    <file>

      <source>${basedir}/src/main/resources/plugin-descriptor.properties</source>

      <outputDirectory>analysis-arirang</outputDirectory>

      <filtered>true</filtered>

    </file>

  </files>

</assembly>

코드는 직관적이라서 쉽게 이해 하실 수 있을 거라 생각 합니다.

필요한 jar 파일들과 properties 파일을 analysis-arirang 이라는 폴더로 묶는 것입니다.

<filtered>true</filtered> 옵션은 아래 링크 참고 하세요. (해당 파일이 filtering 되었는지 확인 하는 것입니다.)

https://maven.apache.org/plugins/maven-assembly-plugin/assembly.html#class_file


여기서 plugin-descriptor.properties 파일이 포함이 안되어 있게 되면 elasticsearch 실행 시 에러가 발생하고 실행이 안됩니다.

주의 하셔야 하는 부분(?) 입니다.


- plugin-descriptor.properties 파일 없을 때 에러 메시지


[2015-11-04 12:34:14,522][INFO ][node                     ] [Lady Jacqueline Falsworth Crichton] initializing ...


Exception in thread "main" java.lang.IllegalStateException: Unable to initialize plugins

Likely root cause: java.nio.file.NoSuchFileException: /Users/hwjeong/server/app/elasticsearch/elasticsearch-2.0.0/plugins/analysis-arirang/plugin-descriptor.properties

at sun.nio.fs.UnixException.translateToIOException(UnixException.java:86)

at sun.nio.fs.UnixException.rethrowAsIOException(UnixException.java:102)

at sun.nio.fs.UnixException.rethrowAsIOException(UnixException.java:107)

at sun.nio.fs.UnixFileSystemProvider.newByteChannel(UnixFileSystemProvider.java:214)

at java.nio.file.Files.newByteChannel(Files.java:315)

at java.nio.file.Files.newByteChannel(Files.java:361)

at java.nio.file.spi.FileSystemProvider.newInputStream(FileSystemProvider.java:380)

at java.nio.file.Files.newInputStream(Files.java:106)

at org.elasticsearch.plugins.PluginInfo.readFromProperties(PluginInfo.java:86)

at org.elasticsearch.plugins.PluginsService.getPluginBundles(PluginsService.java:306)

at org.elasticsearch.plugins.PluginsService.<init>(PluginsService.java:112)

at org.elasticsearch.node.Node.<init>(Node.java:144)

at org.elasticsearch.node.NodeBuilder.build(NodeBuilder.java:145)

at org.elasticsearch.bootstrap.Bootstrap.setup(Bootstrap.java:170)

at org.elasticsearch.bootstrap.Bootstrap.init(Bootstrap.java:270)

at org.elasticsearch.bootstrap.Elasticsearch.main(Elasticsearch.java:35)

Refer to the log for complete error details.


- Test Code 추가

뭐가 coverage 를 올리기 위한 그런 테스트 코드는 아닙니다. ;;


▶ ArirangAnalysisTest.java


이 테스트는 elasticsearch에서 실제 작성된 플러그인이 제대로 module 로 등록 되고 등록된 module에 대한 service 를 가져 오는지 보는 것입니다.

elasticsearch 소스코드를 내려 받으시면 plugins 에 들어 있는 코드 그대로 copy & paste 한 것입니다.


▶ ArirangAnalyzerTest.java


이 테스트는 _analyze 에 대한 REST API 와 실제 index.analysis 세팅 사이에 구성이 어떻게 코드로 반영 되는지 상호 맵핑 하기 위해 작성 되었습니다.

analyzer, tokenizer, tokenfilter 에 대해서 어떻게 동작 하는지 그나마 쉽게 이해 하시는데 도움이 될까 싶어 작성된 코드 입니다.


※ Elasticsearch Test Suite 이슈 - 자답(?)

현재 master branch 는 문제 없이 잘 됩니다.

다만 2.0 branch 에서는 아래와 같은 또는 다른 문제가 발생을 합니다.

그냥 master 받아서 테스트 하시길 권장 합니다.


※ Elasticsearch Test Suite 이슈.

이건 제가 잘못해서 발생 한 것일 수도 있기 때문에 혹시 해결 하신 분이 계시면 공유 좀 부탁 드립니다.


▶ 발생 에러

/Library/Java/JavaVirtualMachines/jdk1.7.0_55.jdk/Contents/Home/bin/java -ea -Didea.launcher.port=7533 "-Didea.launcher.bin.path=/Applications/IntelliJ IDEA 14 CE.app/Contents/bin" -Dfile.encoding=UTF-8 -classpath "/Applications/IntelliJ IDEA 14 CE.app/Contents/lib/idea_rt.jar:/Applications/IntelliJ IDEA 14 CE.app/Contents/plugins/junit/lib/junit-rt.jar:/Library/Java/JavaVirtualMachines/jdk1.7.0_55.jdk/Contents/Home/lib/dt.jar:/Library/Java/JavaVirtualMachines/jdk1.7.0_55.jdk/Contents/Home/lib/javafx-doclet.jar:/Library/Java/JavaVirtualMachines/jdk1.7.0_55.jdk/Contents/Home/lib/javafx-mx.jar:/Library/Java/JavaVirtualMachines/jdk1.7.0_55.jdk/Contents/Home/lib/jconsole.jar:/Library/Java/JavaVirtualMachines/jdk1.7.0_55.jdk/Contents/Home/lib/sa-jdi.jar:/Library/Java/JavaVirtualMachines/jdk1.7.0_55.jdk/Contents/Home/lib/tools.jar:/Library/Java/JavaVirtualMachines/jdk1.7.0_55.jdk/Contents/Home/jre/lib/deploy.jar:/Library/Java/JavaVirtualMachines/jdk1.7.0_55.jdk/Contents/Home/jre/lib/htmlconverter.jar:/Library/Java/JavaVirtualMachines/jdk1.7.0_55.jdk/Contents/Home/jre/lib/javaws.jar:/Library/Java/JavaVirtualMachines/jdk1.7.0_55.jdk/Contents/Home/jre/lib/jfxrt.jar:/Library/Java/JavaVirtualMachines/jdk1.7.0_55.jdk/Contents/Home/jre/lib/management-agent.jar:/Library/Java/JavaVirtualMachines/jdk1.7.0_55.jdk/Contents/Home/jre/lib/plugin.jar:/Library/Java/JavaVirtualMachines/jdk1.7.0_55.jdk/Contents/Home/jre/lib/ext/dnsns.jar:/Library/Java/JavaVirtualMachines/jdk1.7.0_55.jdk/Contents/Home/jre/lib/ext/localedata.jar:/Library/Java/JavaVirtualMachines/jdk1.7.0_55.jdk/Contents/Home/jre/lib/ext/sunec.jar:/Library/Java/JavaVirtualMachines/jdk1.7.0_55.jdk/Contents/Home/jre/lib/ext/sunjce_provider.jar:/Library/Java/JavaVirtualMachines/jdk1.7.0_55.jdk/Contents/Home/jre/lib/ext/sunpkcs11.jar:/Library/Java/JavaVirtualMachines/jdk1.7.0_55.jdk/Contents/Home/jre/lib/ext/zipfs.jar:/Library/Java/JavaVirtualMachines/jdk1.7.0_55.jdk/Contents/Home/jre/lib/resources.jar:/Library/Java/JavaVirtualMachines/jdk1.7.0_55.jdk/Contents/Home/lib/ant-javafx.jar:/Library/Java/JavaVirtualMachines/jdk1.7.0_55.jdk/Contents/Home/jre/lib/charsets.jar:/Library/Java/JavaVirtualMachines/jdk1.7.0_55.jdk/Contents/Home/jre/lib/jce.jar:/Library/Java/JavaVirtualMachines/jdk1.7.0_55.jdk/Contents/Home/jre/lib/jfr.jar:/Library/Java/JavaVirtualMachines/jdk1.7.0_55.jdk/Contents/Home/jre/lib/jsse.jar:/Library/Java/JavaVirtualMachines/jdk1.7.0_55.jdk/Contents/Home/jre/lib/rt.jar:/Users/hwjeong/git/elasticsearch-analysis-arirang/target/test-classes:/Users/hwjeong/git/elasticsearch-analysis-arirang/target/classes:/Users/hwjeong/.m2/repository/org/apache/lucene/lucene-core/5.2.1/lucene-core-5.2.1.jar:/Users/hwjeong/.m2/repository/org/elasticsearch/elasticsearch/2.0.0/elasticsearch-2.0.0.jar:/Users/hwjeong/.m2/repository/org/apache/lucene/lucene-backward-codecs/5.2.1/lucene-backward-codecs-5.2.1.jar:/Users/hwjeong/.m2/repository/org/apache/lucene/lucene-analyzers-common/5.2.1/lucene-analyzers-common-5.2.1.jar:/Users/hwjeong/.m2/repository/org/apache/lucene/lucene-queries/5.2.1/lucene-queries-5.2.1.jar:/Users/hwjeong/.m2/repository/org/apache/lucene/lucene-memory/5.2.1/lucene-memory-5.2.1.jar:/Users/hwjeong/.m2/repository/org/apache/lucene/lucene-highlighter/5.2.1/lucene-highlighter-5.2.1.jar:/Users/hwjeong/.m2/repository/org/apache/lucene/lucene-queryparser/5.2.1/lucene-queryparser-5.2.1.jar:/Users/hwjeong/.m2/repository/org/apache/lucene/lucene-sandbox/5.2.1/lucene-sandbox-5.2.1.jar:/Users/hwjeong/.m2/repository/org/apache/lucene/lucene-suggest/5.2.1/lucene-suggest-5.2.1.jar:/Users/hwjeong/.m2/repository/org/apache/lucene/lucene-misc/5.2.1/lucene-misc-5.2.1.jar:/Users/hwjeong/.m2/repository/org/apache/lucene/lucene-join/5.2.1/lucene-join-5.2.1.jar:/Users/hwjeong/.m2/repository/org/apache/lucene/lucene-grouping/5.2.1/lucene-grouping-5.2.1.jar:/Users/hwjeong/.m2/repository/org/apache/lucene/lucene-spatial/5.2.1/lucene-spatial-5.2.1.jar:/Users/hwjeong/.m2/repository/com/spatial4j/spatial4j/0.4.1/spatial4j-0.4.1.jar:/Users/hwjeong/.m2/repository/com/google/guava/guava/18.0/guava-18.0.jar:/Users/hwjeong/.m2/repository/com/carrotsearch/hppc/0.7.1/hppc-0.7.1.jar:/Users/hwjeong/.m2/repository/joda-time/joda-time/2.8.2/joda-time-2.8.2.jar:/Users/hwjeong/.m2/repository/org/joda/joda-convert/1.2/joda-convert-1.2.jar:/Users/hwjeong/.m2/repository/com/fasterxml/jackson/core/jackson-core/2.5.3/jackson-core-2.5.3.jar:/Users/hwjeong/.m2/repository/com/fasterxml/jackson/dataformat/jackson-dataformat-smile/2.5.3/jackson-dataformat-smile-2.5.3.jar:/Users/hwjeong/.m2/repository/com/fasterxml/jackson/dataformat/jackson-dataformat-yaml/2.5.3/jackson-dataformat-yaml-2.5.3.jar:/Users/hwjeong/.m2/repository/org/yaml/snakeyaml/1.12/snakeyaml-1.12.jar:/Users/hwjeong/.m2/repository/com/fasterxml/jackson/dataformat/jackson-dataformat-cbor/2.5.3/jackson-dataformat-cbor-2.5.3.jar:/Users/hwjeong/.m2/repository/io/netty/netty/3.10.5.Final/netty-3.10.5.Final.jar:/Users/hwjeong/.m2/repository/com/ning/compress-lzf/1.0.2/compress-lzf-1.0.2.jar:/Users/hwjeong/.m2/repository/com/tdunning/t-digest/3.0/t-digest-3.0.jar:/Users/hwjeong/.m2/repository/org/hdrhistogram/HdrHistogram/2.1.6/HdrHistogram-2.1.6.jar:/Users/hwjeong/.m2/repository/commons-cli/commons-cli/1.3.1/commons-cli-1.3.1.jar:/Users/hwjeong/.m2/repository/com/twitter/jsr166e/1.1.0/jsr166e-1.1.0.jar:/Users/hwjeong/.m2/repository/log4j/log4j/1.2.16/log4j-1.2.16.jar:/Users/hwjeong/.m2/repository/org/slf4j/slf4j-api/1.6.2/slf4j-api-1.6.2.jar:/Users/hwjeong/.m2/repository/org/slf4j/slf4j-log4j12/1.6.2/slf4j-log4j12-1.6.2.jar:/Users/hwjeong/git/elasticsearch-analysis-arirang/lib/arirang-morph-1.0.0.jar:/Users/hwjeong/git/elasticsearch-analysis-arirang/lib/arirang.lucene-analyzer-5.0-1.0.0.jar:/Users/hwjeong/.m2/repository/junit/junit/4.11/junit-4.11.jar:/Users/hwjeong/.m2/repository/org/hamcrest/hamcrest-core/1.3/hamcrest-core-1.3.jar:/Users/hwjeong/.m2/repository/com/carrotsearch/randomizedtesting/randomizedtesting-runner/2.1.16/randomizedtesting-runner-2.1.16.jar:/Users/hwjeong/.m2/repository/org/hamcrest/hamcrest-all/1.3/hamcrest-all-1.3.jar:/Users/hwjeong/.m2/repository/org/apache/lucene/lucene-test-framework/5.2.1/lucene-test-framework-5.2.1.jar:/Users/hwjeong/.m2/repository/org/apache/lucene/lucene-codecs/5.2.1/lucene-codecs-5.2.1.jar:/Users/hwjeong/.m2/repository/org/apache/ant/ant/1.8.2/ant-1.8.2.jar:/Users/hwjeong/.m2/repository/org/elasticsearch/elasticsearch/2.0.0/elasticsearch-2.0.0-tests.jar:/Users/hwjeong/.m2/repository/net/java/dev/jna/jna/4.1.0/jna-4.1.0.jar" com.intellij.rt.execution.application.AppMain com.intellij.rt.execution.junit.JUnitStarter -ideVersion5 org.elasticsearch.index.analysis.ArirangAnalysisTest,testArirangAnalysis

log4j:WARN No appenders could be found for logger (org.elasticsearch.bootstrap).

log4j:WARN Please initialize the log4j system properly.

log4j:WARN See http://logging.apache.org/log4j/1.2/faq.html#noconfig for more info.


java.lang.RuntimeException: found jar hell in test classpath

at org.elasticsearch.bootstrap.BootstrapForTesting.<clinit>(BootstrapForTesting.java:63)

at org.elasticsearch.test.ESTestCase.<clinit>(ESTestCase.java:106)

at java.lang.Class.forName0(Native Method)

at java.lang.Class.forName(Class.java:270)

at com.carrotsearch.randomizedtesting.RandomizedRunner$1.run(RandomizedRunner.java:573)

Caused by: java.lang.IllegalStateException: jar hell!

class: org.hamcrest.BaseDescription

jar1: /Users/hwjeong/.m2/repository/org/hamcrest/hamcrest-core/1.3/hamcrest-core-1.3.jar

jar2: /Users/hwjeong/.m2/repository/org/hamcrest/hamcrest-all/1.3/hamcrest-all-1.3.jar

at org.elasticsearch.bootstrap.JarHell.checkClass(JarHell.java:267)

at org.elasticsearch.bootstrap.JarHell.checkJarHell(JarHell.java:185)

at org.elasticsearch.bootstrap.JarHell.checkJarHell(JarHell.java:86)

at org.elasticsearch.bootstrap.BootstrapForTesting.<clinit>(BootstrapForTesting.java:61)

... 4 more


저작자 표시 비영리 변경 금지
신고
Trackback 0 : Comment 0

[Analyzer] 형태소 분석기.

Elastic/Elasticsearch 2014.11.11 16:43

[형태소 분석기]

1) 루씬 기본 standard/cjk (source code 제공)

https://lucene.apache.org/core/4_10_0/analyzers-common/org/apache/lucene/analysis/standard/StandardAnalyzer.html


2) 루씬 arirang (source code 제공)

https://lucenekorean.svn.sourceforge.net/svnroot/lucenekorean/


3)  mecab (jar 제공)

https://bitbucket.org/eunjeon/mecab-ko


4) twitter korean text (source code 제공)

https://github.com/twitter/twitter-korean-text


5) komoran (jar 제공)

http://shineware.tistory.com/entry/KOMORAN-ver-23

저작자 표시 비영리 변경 금지
신고
Trackback 0 : Comment 0

[Lucene] 4.9.0 analyzer & tokenizer....

Elastic/Elasticsearch 2014.11.05 13:05

http://lucene.apache.org/core/4_9_0/core/org/apache/lucene/analysis/package-summary.html

https://lucene.apache.org/core/4_9_0/core/org/apache/lucene/analysis/TokenStream.html

Version matchVersion = Version.LUCENE_XY; // Substitute desired Lucene version for XY Analyzer analyzer = new StandardAnalyzer(matchVersion); // or any other analyzer TokenStream ts = analyzer.tokenStream("myfield", new StringReader("some text goes here")); OffsetAttribute offsetAtt = ts.addAttribute(OffsetAttribute.class); try { ts.reset(); // Resets this stream to the beginning. (Required) while (ts.incrementToken()) { // Use AttributeSource.reflectAsString(boolean) // for token stream debugging. System.out.println("token: " + ts.reflectAsString(true)); System.out.println("token start offset: " + offsetAtt.startOffset()); System.out.println(" token end offset: " + offsetAtt.endOffset()); } ts.end(); // Perform end-of-stream operations, e.g. set the final offset. } finally { ts.close(); // Release resources associated with this stream. }


The workflow of the new TokenStream API is as follows:

  1. Instantiation of TokenStream/TokenFilters which add/get attributes to/from the AttributeSource.
  2. The consumer calls reset().
  3. The consumer retrieves attributes from the stream and stores local references to all attributes it wants to access.
  4. The consumer calls incrementToken() until it returns false consuming the attributes after each call.
  5. The consumer calls end() so that any end-of-stream operations can be performed.
  6. The consumer calls close() to release any resource when finished using the TokenStream.



이전 버전이랑 바뀐 내용이 있으니 확인하셔야 합니다. :)

저작자 표시 비영리 변경 금지
신고
Trackback 0 : Comment 0

[Elasticsearch] lucene arirang analyzer plugin.

Elastic/Elasticsearch 2014.04.30 18:37

http://jjeong.tistory.com/957

글에 이은 루씬 한국어 형태소 분석기 플러그인 입니다.

일단 잘되내요.. ^^;


형태소 분석기 플러그인 만드는 방법은 아래 글 참고하세요.

http://jjeong.tistory.com/818


https://github.com/HowookJeong/elasticsearch-analysis-arirang

신고
Trackback 0 : Comment 0