'cloudera'에 해당되는 글 3건

  1. 2013.05.13 Gigaom Report - SQL-on-Hadoop platforms in 2013
  2. 2013.05.09 Cloudera Impala 1.0 has been released.
  3. 2011.09.16 Hadoop World 2011, NYC

Gigaom Report - SQL-on-Hadoop platforms in 2013


색터 로드맵 리포트라고 할 수 있다.

SQL-on-Hadoop 이라고 불리는 빅데이터 실시간 질의 솔루션들의 경쟁사와 제품들을 비교 분석한 리포트라고 보면 된다.


비교 벤더들은 다음과 같다.

  • Cloudera
  • Hadapt
  • Teradata (SQL-H)
  • EMC
  • Greenplum (HAWQ)
  • Citus Data
  • Splice Machine
  • JethroData
  • Concurrent (Lingual)

비교 아파치 프로젝트는

  • Apache Drill
  • Hortonworks Stinger

이다.


자세한 내용은 리포터를 참고. http://www.cloudera.com/content/dam/cloudera/Resources/PDF/GigaOM_Cloudera_Real-time_query_for_Hadoop_democratizes_access_to_big_data_analytics.pdf


리포터를 쓴 사람은 George Gilbert라는 사람인데 하버드 경제학과 나와서 MS와 Lotus Development에서 Product Manager로 일했고, 전 Credit Suisse First Boston 소프트웨어 분석가다.


Product Manager는 우리나라에서는 아직 많이 없는 포지션인데 제품의 형상을 관리하는 업무를 맡는다. (흔히 PM이라고하는 Project Manager와는 다른 개념이고 그렇다고 기획자라고 보기에도 애매하다.) 대부분 SW직군이 미국 MBA를 받으면 오라클이나 Google, IBM 같은데 Product Manager로 채용되기도 한다.


암튼 이 사람의 결론은 뭐냐 어쨌든 결론이 중요하니깐


앞으로 이 시장의 1~2년 예측 :

  • 클라우데라가 적어도 2년 정도 걸릴지라도 가장 유연하고 성공적인 솔루션 구축에 성공할 것
  • 두번째 오픈소스 대안은 Apache Drill 또는 Stinger 둘 중에 먼저 성숙한 프로젝트가 될 것 (클라우데라가 삽질하거나 모멘텀을 잃어버리면, 아파치 프로젝트 중 하나가 리더를 차지할 수 있을 것)
  • Hadapt은 틈새시장에서 이기기 위해 초점을 맞추고 연구할 것
  • EMC(Greenplum) , Teradata는 버그 없는 솔루션을 원하는 대기업의 초이스로 남을 것
  • 더 넓게 데이터베이스 시장에는, newSQL 데이터베이스가 성숙할 것이고 그러면서 사용자는 하둡에서 멀어질 것
  • NewSQL은 Strong structure를 가진 빅데이터에서 사용될 것이고 SQL-on_Hadoop 솔루션들은 semistructured 데이터에 사용될 것이다

마무리로


 모든 데이터베이스 벤더들이 제안하는 중요한 원칙은 모든 처리 포맷과 데이터 타입을 하나의 레파지토리로 통합하고 싶다는 것이다. 그렇게 되면 모든 수준의 사용자는 특별한 레파지토리 사이에 데이터 이동이 없이도 모든 포멧의 데이터를 조작할 수 있다. 예를 들면 하나의 분석 플랫폼은 SQL, Java, 통계 프로그래밍 R, 지리적 함수, 얼굴 인식, 다른 많은 종류의 데이터를 조작할 수 있어야만 한다. 이런 유연성은 야심차지다, 하지만 여전히 시간이 좀 걸릴 것 같다.


---


 마무리가 뭐 이래. 싱겁네. 원래 섹터 로드맵 보고서가 이렇긴 하지만,

어쨌든 SQL-on-Hadoop 시장에서 클라우데라가 Impala로 선전할 것이라는 분석이다. 지금은 Apache 프로젝트 진도가 더딘 면어 있지만 또 하둡 세계는 오픈소스가 강세라 어떻게 될런지 모르겠다. (이게다 지배적인 상용 솔루션이 없기 때문인데 다행이라고 생각한다.. 안그럼 재미가 없잖아.)


Posted by 김민우 julingks

댓글을 달아 주세요

Cloudera Impala 1.0 has been released


지난 4월 30일 클라우데라 임팔라 1.0 GA 버전이 릴리즈했다.

2010년에 구글에서 낸 dremel 논문에서 영감을 받아서 시작했다고 한다.

리서치를 하고 있어서 정리가 되면 dremel과 impala에 대해서 다시 포스팅하기로 하고.

릴리즈 관한 내용은 여기서 확인

추가적인 리소스들

여담이지만 Gigaom 리포트(Sector RoadMap: SQL-on-Hadoop platforms in 2013)에서는 impala가 제일 낫다고.

Posted by 김민우 julingks

댓글을 달아 주세요

Hadoop World 2011, NYC

Hadoop 2011.09.16 23:35

올해도 어김 없이 Cloudera 주최의 Hadoop World 컨퍼런스가 열린다.
11월 8일~9일, 이틀 동안이고 장소는 뉴욕이다.
세션도 대폭 늘어나 40여개나 된다.

비정형 빅데이터 플랫폼 강자로 떠오른 하둡에 대한 관심과 열기를 느낄 수 있는 컨퍼런스라 할 수 있겠다.
앞으로 수년 내로  하둡 시장이 수조원 규모로 성장한다는 이야기도 나오고 있고, JP Mongan Chase 같은 보수적인 금융회사에서 하둡을 도입하고 있다.
가트너에서 내년 BI 시장을 15조원 정도로 예상하고(하드웨어와 하둡을 제외한), 데이터 분석 시장 또한 10~15% 정도 성장할 것으로 내다 보고 있다. 
비정형 빅데이터 분석 시장도 같이 커질 것으로 예상된다.
빅데이터 키워드도 가트너 하이프 싸이클에 추가가 되어 1~2년 사이에 큰 관심을 받는 분야가 될 것이라는 예측이 지배적이다. 
(지금 하이프 싸이클의 정점은 클라우드 컴퓨팅이다)
전통적인 BI 빅 플레이어들 (SAP, Oracle, IBM, Microsoft 등)도 빅데이터 플랫폼의 패권을 차지하기 위한 경쟁에 뛰어 들었다. 
그 중심에 있는 키워드는 단연 하둡이라고 할 수 있겠다. 물론 넥스트 하둡 플랫폼의 대한 경쟁도 이미 막이 올랐다.
하둡은 강력한 오픈소스 커뮤니티의 힘으로 성장했다고 볼 수 있는데, 구글의 GFS 논문의 클론 프로젝트가 이만큼 성정한 것을 보니, 오히려 베일 속에 감춰진 구글의 저력이 궁금하면서 무섭기도 하다.  그런 의미에서 Mapreduce, GFS, BigTable 논문은 CS 학계의 패러다임을 전환시킨 대단한 논문이라고 할 수 있겠다. 이미 MapReduce 논문은 인용 횟수가 수천회가 넘었다. (2004년에 나온 논문이 벌써 3천여회라니.. )

화제를 다시 Hadoop World로 돌리면, 2009년에 이어 올해 우리 회사의 proposal이 통과했다. 
올해는 Jason Han(한재선 대표)이 "Replacing RDB/DW with Hadoop and Hive for Telco Big Data" 주제로 발표한다. 
꾸준히 해외 컨퍼런스에 한 세션을 차지하고 있다는 것은 뿌듯한 일이다. (국내 기업은 유일하다)
Hbase도 페이스북의 Contribution으로 다시 뜨겁게 관심을 받고 있고, 하둡 에코 시스템의 힘이 대단 하다고 볼 수 있겠다.

다가올 빅데이터 시대의 하둡에 대한 관심과 위상을 느낄 수 있는 컨퍼런스임에는 분명하다.
뉴욕에서 열리기 때문에 가는 비용이 만만치 않지만 다양해진 세션과 높아진 관심을 생각하면 빅데이터 대한 관심이 있는 회사라면 올해 만큼은 참가할 만하다. (작년에는 미국에 날아가는 정성에 비해서는 별로 건질게 없었다)

Related Links

Posted by 김민우 julingks

댓글을 달아 주세요