'빅데이터'에 해당되는 글 1건

  1. 2015.03.24 [Elasticsearch] document count 제한 사항.

[Elasticsearch] document count 제한 사항.

Elastic/Elasticsearch 2015. 3. 24. 16:30

Apache Tajo 프로젝트에 external storage 로 elasticsearch 를 사용할 수 있도록 작업 중에 있습니다.

작업을 하다 보니 빅데이터를 처리 하기에 약간의 문제점(?)이 보여서 기록해 봅니다.


우선 빅데이터라고 하면 용량, 크기 말고 row 수로 이야기 하면 몇 십억건이 넘어 가는 경우가 많을 거라고 생각 합니다.

뭐 몇 천만건 가지고 빅데이터라고 요즘 하지는 않으니까요.


암튼 여기서 문제는 이 수십억건에 달하는 문서 수 인데요.

뭐 elasticsearch 를 사용하면서 단일 샤드에 수십억건을 넣어 놓고 사용하는 것 자체가 모델링이나 설계를 잘 못했다고 하는게 맞을 것 같습니다.

그럼에도 불구하고, elasticsearch 에서 질의 시 from 과 size 파라미터가 있습니다.


이것들의 데이터 형이 int 형입니다.

딱 감이 오시죠.


[SearchSourceBuilder.java]

public class SearchSourceBuilder implements ToXContent {

..........

    private int from = -1;

    private int size = -1;

..........

}


코드에 int 형으로 선언된 것을 확인 할 수 있습니다.

꼭 이게 문제라기 보다 apache tajo external storage 로 작업을 하다 보니 약간의 문제 처럼 느껴지기도 해서 기록해 봤습니다.

: