KGC 2014에서 발표한 자료 공유합니다.


Posted by 김민우 julingks

댓글을 달아 주세요

HBaseCon 2013 Wrap up

Bigdata 2013. 7. 8. 14:10

HBaseCon 2013 Wrap up

6월 13일 샌프란시스코에서 열렸던 HBaseCon 2013 후기 발표 자료.
대부분 내용은 말로 때움.

Reference


Posted by 김민우 julingks

댓글을 달아 주세요

Research Cloudera Impala 1.0


클라우데라 임팔라 1.0 이 지난 4월 30일이 릴리즈 했다. 조사 발표자료를 공유. Google Dremel도 간략히 설명함.



References


Posted by 김민우 julingks

댓글을 달아 주세요

Gigaom Report - SQL-on-Hadoop platforms in 2013


색터 로드맵 리포트라고 할 수 있다.

SQL-on-Hadoop 이라고 불리는 빅데이터 실시간 질의 솔루션들의 경쟁사와 제품들을 비교 분석한 리포트라고 보면 된다.


비교 벤더들은 다음과 같다.

  • Cloudera
  • Hadapt
  • Teradata (SQL-H)
  • EMC
  • Greenplum (HAWQ)
  • Citus Data
  • Splice Machine
  • JethroData
  • Concurrent (Lingual)

비교 아파치 프로젝트는

  • Apache Drill
  • Hortonworks Stinger

이다.


자세한 내용은 리포터를 참고. http://www.cloudera.com/content/dam/cloudera/Resources/PDF/GigaOM_Cloudera_Real-time_query_for_Hadoop_democratizes_access_to_big_data_analytics.pdf


리포터를 쓴 사람은 George Gilbert라는 사람인데 하버드 경제학과 나와서 MS와 Lotus Development에서 Product Manager로 일했고, 전 Credit Suisse First Boston 소프트웨어 분석가다.


Product Manager는 우리나라에서는 아직 많이 없는 포지션인데 제품의 형상을 관리하는 업무를 맡는다. (흔히 PM이라고하는 Project Manager와는 다른 개념이고 그렇다고 기획자라고 보기에도 애매하다.) 대부분 SW직군이 미국 MBA를 받으면 오라클이나 Google, IBM 같은데 Product Manager로 채용되기도 한다.


암튼 이 사람의 결론은 뭐냐 어쨌든 결론이 중요하니깐


앞으로 이 시장의 1~2년 예측 :

  • 클라우데라가 적어도 2년 정도 걸릴지라도 가장 유연하고 성공적인 솔루션 구축에 성공할 것
  • 두번째 오픈소스 대안은 Apache Drill 또는 Stinger 둘 중에 먼저 성숙한 프로젝트가 될 것 (클라우데라가 삽질하거나 모멘텀을 잃어버리면, 아파치 프로젝트 중 하나가 리더를 차지할 수 있을 것)
  • Hadapt은 틈새시장에서 이기기 위해 초점을 맞추고 연구할 것
  • EMC(Greenplum) , Teradata는 버그 없는 솔루션을 원하는 대기업의 초이스로 남을 것
  • 더 넓게 데이터베이스 시장에는, newSQL 데이터베이스가 성숙할 것이고 그러면서 사용자는 하둡에서 멀어질 것
  • NewSQL은 Strong structure를 가진 빅데이터에서 사용될 것이고 SQL-on_Hadoop 솔루션들은 semistructured 데이터에 사용될 것이다

마무리로


 모든 데이터베이스 벤더들이 제안하는 중요한 원칙은 모든 처리 포맷과 데이터 타입을 하나의 레파지토리로 통합하고 싶다는 것이다. 그렇게 되면 모든 수준의 사용자는 특별한 레파지토리 사이에 데이터 이동이 없이도 모든 포멧의 데이터를 조작할 수 있다. 예를 들면 하나의 분석 플랫폼은 SQL, Java, 통계 프로그래밍 R, 지리적 함수, 얼굴 인식, 다른 많은 종류의 데이터를 조작할 수 있어야만 한다. 이런 유연성은 야심차지다, 하지만 여전히 시간이 좀 걸릴 것 같다.


---


 마무리가 뭐 이래. 싱겁네. 원래 섹터 로드맵 보고서가 이렇긴 하지만,

어쨌든 SQL-on-Hadoop 시장에서 클라우데라가 Impala로 선전할 것이라는 분석이다. 지금은 Apache 프로젝트 진도가 더딘 면어 있지만 또 하둡 세계는 오픈소스가 강세라 어떻게 될런지 모르겠다. (이게다 지배적인 상용 솔루션이 없기 때문인데 다행이라고 생각한다.. 안그럼 재미가 없잖아.)


Posted by 김민우 julingks

댓글을 달아 주세요

Hcatalog는 하둡 도구들 hive, pig, mapreduce 등의 메타데이터를 관리하는 레이어이다.
소스 분석하기위해서 설치할때 문서를 디테일하게 살펴보려는 스타일이라 설치 섹션을 발번역했다.

Overview

Introduction

HCatalog는 하둡을 위한 테이블과 메터데이터 관리 레이어다. Pig, MapReduce, Hive와 같이 서로 다른 데이터 처리 도구들를 하둡에서 사용할 수 있도록 도와준다. HCatalog는 테이블 추상화를 통해서 사용자에게 HDFS에 있는 데이터의 관계형 뷰 제공한다. 사용자는 더이상 데이터가 어디에 저장되어 있는지, 또 어떤 포맷(RCFile format, text file, sequence file)으로 저장되어 있는지 신경쓰지 않아도 된다. HCatalog는 SerDe로 작성되는 어떤 포맷이든 파일 입출력을 지원한다. 기본적으로 RCFile, CSV, JSON, 시퀀스 파일 포맷을 지원한다. 커스텀 포맷을 사용하기 위해서는 InputFormat, OutputFormat 과 SerDe를 제공한다.

HCatalog Architecture

HCatalog는 하이브의 메타스토어와 Hive DDL의 통합 컴포넌트 기반으로 작성되어 있다. HCatalog는 Pig와 MapReduce를 위한 읽기, 쓰기 인터페이스를 제공하고 하이브 커맨드라인 인터페이스를 사용해서 데이터를 정의하고 메터데이터 탐색한다.

Interfaces

Pig를 위한 HCatalog 인터페이스 HCatLoader 와 HCatStorer 는 Pig의 Load 와 Store interfaces의 구현체다. Pig는 기본적으로 load와 store에 대한 사용자 정의 함수(UDF) 인터페이스를 제공한다. http://pig.apache.org/docs/r0.10.0/udf.html HCatLoader는 데이터를 읽어드릴 테이블을 받아들인다. 사용자는 파티션 필터가 포함된 load 문장으로 어떤 파티션을 스캔해야할지 바로 알 수 있다. HCatStorer는 데이터를 써야할 테이블과 새로운 파티션을 만들기 위한 파티션키들의 스팩을 선택적으로 받아들인다. 사용자는 지정한 파티션 키와 값에 따라서 싱글 파티션에 쓸 수 있다. 이때 STORE 절을 이용한다. 만약 파티션 키들이 저장된 데이터의 컬럼이라면 다중 파티션을 쓸 수 있다 HCatLoader와 HCatStorer는 HCatInputFormat과 HCatOutputFormat 위에 각각 구현되어 있다.

Data Model

HCatalog는 데이터의 관계형 뷰를 제공한다. 데이터는 테이블안에 저장되고 이들 테이블은 데이터베이스에 배치 될 수 있다. 테이블은 또한 하나 이상의 Hash 파티션 될 수 있다. 즉 하나의 키의 값이 주어진다면 모든 row를 포함하는 하나의 파티션이 될 수 있다. 예를 들면, 만약 테이블이 날짜에 대해서 파티션되어 있고 테이블안의 3개의 날짜들의 데이터가 있다면, 테이블에는 3개의 파티션이 있게 된다. 새로운 파티션은 테이블에 추가될 수 있다. 그리고 파티션들은 테이블에서 drop될 수 있다. 파티션된 테이블들은 생성 시점는 파티션이 없다. 파티션 되지 않은 테이블들은 효과적으로 하나의 기본 파티션을 가진다. 이파티션은 테이블 생성 시점에 만들어져야 한다. 파티션이 drop될 때에는 읽기 정합성(read consistency)에 보장은 없다. 파티션은 레코드를 포함한다. 파티션이 한번 생성되면, 레코드은 추가되거나, 지워지거, 업데이터 될 수 없다. 파티션들은 다차원적이고 hierarchical하지 않다. 레코드들은 컬럼으로 나누어 진다. 컬럼들은 이름과 데이터 타입을 가진다. HCatalog는 Hive와 같은 데이터 타입을 지원한다.

Example

다음 간단한 데이터 흐름 예제는 HCatalog가 어떻게 그리드 사용자가 데이터를 공유하고 접근하는 것을 도와주는지 보여줍니다. 첫번째, 데이터 입수 팀에 있는 Joe는 데이터를 그리드로 가져오기 위해서 distcp를 사용합니다.

hadoop distcp file:///file.dat hdfs://data/rawevents/20100819/data

hcat "alter table rawevents add partition (ds='20100819') location 'hdfs://data/rawevents/20100819/data'"

두번째, 데이터 처리 팀에 있는 sally는 데이터를 cleaning하고 준비하기 위해서 Pig를 사용합니다. HCatalog가 없다면, Sally는 데이터가 사용가능할 때 수동으로 Joe가 알려줘야 합니다. 또는 HDFS위에 조사를 해야 합니다.

A = load '/data/rawevents/20100819/data' as (alpha:int, beta:chararray, …);
B = filter A by bot_finder(zeta) = 0;
…
store Z into 'data/processedevents/20100819/data';

HCatalog를 사용한다면, HCatalog는 데이터가 사용 가능해졌다는 JMS 메시지를 보낼 것입니다. Pig 잡은 그리고 나서 시작될 수 있을 것입니다.

A = load 'rawevents' using HCatLoader();
B = filter A by date = '20100819' and by bot_finder(zeta) = 0;
…
store Z into 'processedevents' using HCatStorer("date=20100819");

세번째, 고객 관리 팀의 Robert는 고객들의 결과를 분석하기 위해서 Hive를 사용하빈다. HCatalog가 없다면, Robert는 필요한 파티션을 추가하기 위해서 테이블을 변경해야 합니다.

alter table processedevents add partition 20100819 hdfs://data/processedevents/20100819/data

select advertiser_id, count(clicks)
from processedevents
where date = '20100819'
group by advertiser_id;

HCatalog를 사용한다면,Robert는 테이블 구조를 수정할 필요가 없습니다.

select advertiser_id, count(clicks)
from processedevents
where date = ‘20100819’
group by advertiser_id;

Install

Server Installation from Source

Prerequisites

  • 설치 tar가 빌드할 머신
  • 서버가 설치될 수 있는 머신 - Hadoop 클러스터에 접근 할 수 있어야 하고 당신이 잡들을 실행한 머신으로 부터 접근 할 수 있어야 한다.
  • RDBMS - MySQL을 추천한다.
  • 하둡 클러스터
  • 서버를 실행할 유닉스 사용자 , 그리고 실행 중인 클러스터가 안전 모드라면, Kerberos Service Principal과 keytab과 관련된 사용자.

Building a tarball

만약 Apache 또는 다른 소스 릴리즈 사이트에서 HCatalog를 다운로드 했다면, 당신은 우선 설치를 위해서 tarball을 빌드해야 한다. 당신이 당신이 다운로드 파일의 이름을 보면 소스 빌리즈 버전인지를 확인할 수 있다. 만약 Hcatalog-src-0.4.0-incubating.tar.gz(이름에 src가 들어 있으면)라는 이름이면 소스 릴리즈 버전이다. 만약 Apache Ant가 당신의 머신에 설치되어 있지 않다면, 우선 이것을 얻는 것이 필요하다. Apache Ant Website에서 부터 얻을 수 있다. 다룬로드 했다면, 압축을 푼다. 압축을 푼 디렉토리를 ANT_HOME 환경변수를 설정한다. 만약 당신의 머신에 Apache Forrest가 설치되지 않았으면, 우선 이것을 얻는 것이 필요하다. Apache Forrest website에서 얻을 수 있다. 다운로드를 했다면, 이것을 머신에서 압축을 푼다. 압축을 푼 디렉토리를 FORREST_HOME 환경변수를 설정한다. tarball을 생성하기 위해서 다음을 실시한다. 소스 릴리즈를 확장하기 위한 디렉토리를 만듭니다. 소스 릴리즈를 이 디렉토리로 복사하고 압축을 풉니다.

mkdir /tmp/hcat_source_release

cp hcatalog-src-0.4.0-incubating.tar.gz /tmp/hcat_source_release

cd /tmp/hcat_source_release

tar xzf hcatalog-src-0.4.0-incubating.tar.gz

압축이 풀어진 소스 릴리즈로 디렉토리를 이동하고 설치 tarball을 빌드합니다.

cd hcatalog-src-0.4.0-incubating

ant_home/bin/ant -Dhcatalog.version=0.4.0 -Dforrest.home=forrest_home tar

설치를 위한 tarball은 이제 build/hcatalog-0.4.0.tar.gz에 위치합니다.

Database Setup

만약 당신이 MySQL과 Hive가 설지되어 있지 않다면, 다음은 당신이 어떻게 할지를 알려 줄것입니다. 이미 설치되어 있다면 이 스텝을 스킵할 수 있습니다. 머신에 설치할 데이터베이스를 선택합니다. 이것은 이후에 설치할 Thrift 서버와 마찬가지로 같은 머신에 있을 필요는 없습니다. 대형 클러스터들을 위해서는 우리는 같은 머신에 있지 않기를 추천합니다. 이 지침서의 목적에 따라서 데이터베이스가 설치된 머신을 _hivedb.acme.com_으로 참조하겠습니다. _hivedb.acme.com_에 MySQL서버를 설치합니다. MySQL's download site에서 Mysql 패키지를 얻을 수 있습니다. 우리는 5.1.46과 5.1.48버전으로 개발과 테스트를 해왔습니다. 우리는 이 버전과 이후 버전을 사용하기를 추천합니다. MySQL를 띄우고 실행 시키고 나면, mysql 커맨드 라인 도구를 이용해서 _hive_ 사용자와 _hivemetastoredb_ 데이터베이스를 추가합니다.

mysql -u root

mysql> CREATE USER 'hive'@'hivedb.acme.com' IDENTIFIED BY 'dbpassword';

mysql> CREATE DATABASE hivemetastoredb DEFAULT CHARACTER SET latin1 DEFAULT COLLATE latin1_swedish_ci;

mysql> GRANT ALL PRIVILEGES ON hivemetastoredb.* TO 'hive'@'hivedb.acme.com' WITH GRANT OPTION;

mysql> flush privileges;

mysql> quit;

Hive 패키지에서 찾은 데이터 베이스 설치 스크립트를 이용하여 데이터 베이스를 생성합니다. hive_home은 hive가 설치 된 디렉토리를 참조합니다. 만약 Hive rpms을 사용했다면 hive_home은 /usr/lib/hive가 될 것입니다.

mysql -u hive -D hivemetastoredb -hhivedb.acme.com -p < hive_home/scripts/metastore/upgrade/mysql/hive-schema-0.9.0.mysql.sql

Thrift Server Setup

만약 Thrift를 사용해서 메타스토어 서버를 실행시키는 Hive가 준비되어 있지 않다면, 실생 시키고 설치하기 위한 다음 지침서를 사용하십시오. 만약 Hive 메타스토어 서버를 사용할 수 잇는 준비가 되어 있다면 이 스텝을 넘어가도 됩니다. Thrift 서버를 실행할 머신을 선택합니다. 데이터베이스로서 같은 머신에 있어야 합니다. 이 지침서의 목표를 위해서 우리는 이 머신을 _hcatsvr.acme.com_을 참조할 것입니다. 만약 당신이 이것을 끝냈다면, 이 머신에 Hive 0.9를 설치합니다. Apache Bigtop에서 사용가능한 rpm 또는 Hive가 제공하는 binary distributions 을 사요할 수 있습니다. 당신이 Apache Hive binary distribution을 사용한다면, 디렉토리를 선택합니다. 앞으로 hive_home으로 참조 합니다. 이 distribution을 여기에 압축을 풉니다. 만약 rpm을 사용한다면 hive_home은 /usr/lib/hive가 될 것 입니다. Thrift 서버를 실행할 사용자를 선택합니다. 이 사용자는 실제 사람이 사용하는 사용자가 되서는 안됩니다. 다른 사용자들과의 프록시로 행동 할 수 있어야 합니다. 우리는 _hive_라는 이름의 사용자를 추천합니다. 이 문서의 남은 부분에서는, 우리는 _hive_를 이 사용자로서 참조할 것입니다. 만약 필요하다면 hcatsvr.acme.com에 사용자를 추가합니다. HCatalog의 설치를 위한 _root_ 디렉토리를 선택합니다. 이 디렉토리는 _hive_ 사용자에 의해서 소유(owned)되어야 합니다. 우리는 /usr/local/hive를 추천합니다. 필요하다면, 디렉토리를 생성합니다. 당신이 이 Thrift 서버 설치 섹션의 나머지에서 설명할 작업들을 위한 _hive_ 사용자가 있어야할 필요할 것이다. 임시 디렉토리로 Hcatalog 설치 tarball을 복사하고 압축을 풉니다. 그리고 나서 새로운 distribution과 Hcatalog 서버 설치 스크립트를 실행할 디렉토리로 이동합니다. 당신은 root로 선택한 디렉토리와 MySQL 자바 커넥터 라이브러리가 설치된 디렉토리를 알아야할 필요가 있습니다. 당신은 HADOOP_HOME과 하둡이 설치된 디렉토리, portnum으로 정해진 HCatalog가 운용하기 위한 포트 넘버가 필요하다.

tar zxf hcatalog-0.4.0.tar.gz

cd hcatalog-0.4.0

share/hcatalog/scripts/hcat_server_install.sh -r root -d dbroot -h hadoop_home -p portnum

이제 hive_home/conf/hive-site.xml 파일을 수정할 필요가 있다. 이 파일을 열어라. 다음 테이블은 당신이 필요한 설정들의 값을 보여준다.

ParameterValue to Set it to 
hive.metastore.local false  
javax.jdo.option.ConnectionURL jdbc:mysql://hostname/hivemetastoredb?createDatabaseIfNotExist=true MySQL을 설치한 머신의 hostname
javax.jdo.option.ConnectionDriverName com.mysql.jdbc.Driver  
javax.jdo.option.ConnectionUserName hive  
javax.jdo.option.ConnectionPassword   위에 MySQL 서버의 세팅할 때 사용한 _dbpassword_
hive.semantic.analyzer.factory.impl org.apache.hcatalog.cli.HCatSemanticAnalyzerFactory  
hadoop.clientside.fs.operations true  
hive.metastore.warehouse.dir   디렉토리는 URI 또는 절대 파일 경로가 될 수 있다. 만약 절대 파일 경로라면 메타스토어에 의해 URI로 해결될 것이다;
-- 만약 기본 HDFS가 core-site.xml에 지정되어 있다면, 경로는 HDFS 위치로 해결될 것이다.
-- 그렇지 않다면, 경로는 로컬 파일 URI로 해결된다.
이 세팅은 새로운 테이블을 생성할 때 효과적이 된다. (테이블 생성시점에 기본설정인 DBS.DB_LOCATION_URI를 선행한다.)
만약 당신의 시스템위에서 실행하기 위한 설정된 하이브가 없다면 당신은 오직 이것을 설정하는 것만 필요하다. 
hive.metastore.uris thrift://hostname:portnum Thrift 서버를 호스팅하는 머신의 hostname이다. 그리고 portnum은 위에 설치 스크립에서 사용된 포트 넘버이다.
hive.metastore.execute.setugi true
hive.metastore.sasl.enabled   당신의 하둡 클러스터가 kerberos 보안을 사용한다면 true로 설정하고 그러지 않다면 false로 설정한다.
hive.metastore.kerberos.keytab.file   kerberos keytab 파일의 경로이다. 이것은 메타스토어 thrift 서버의 서비스 principal을 포함한다. 위에 hive.metastore.sasl.enabled를 true로 설정했을 때만 필요하다.
hive.metastore.kerberos.principal   메타스토어 Thrift 서버를 위한 서비스 principal 이다. 당신은 _HOST로 참조되는 당신의 호스트는 실제 hostname으로 교체될 것이다. 위에 hive.metastore.sasl.enabled를 true로 설정했을 때만 필요하다.

이제 당신은 서버 시작하기로 넘어갈 수 있습니다.

Starting the Server

서버를 시작하기 위해서, HCatalog는 Hive가 설치된 곳을 알아야한다. HIVE_HOME 환경 변수를 정하는 것으로 커뮤니케이션한다. sbin/hcat_server.sh stop을 실행한다.

Logging

서버 활동 로그는 root/var/log/hcat_server에 위치한다. 로깅 설정은 root/conf/log4j.properties에 위치한다. 서버 로깅은 DailyRollingFileAppender를 기본으로 사용한다. 이것은 자동으로 오래된 로그 파일을 만기 시키지 않고 매일 하나의 파일을 생성할 것이다.

Stopping the Server

Hcatalog 서버를 엄추기 위해서는, _root_ 디렉토리로 이동한다, sbin/hcat_server.sh stop을 실행한다.

Client Installation

HCatalog client의 설치를 위한 _root_ 디렉토리를 선정한다. /usr/local/hcat을 추천한다. 필요하다면 디렉토리를 생성한다. Hcatalog 설치 tarball을 임시 디렉토리로 복사하고 압축을 푼다. tar zxf hcatalog-0.4.0.tar.gz 이제 당신은 _hive\_home_/conf/hive-site.xml 파일을 수정하는 것이 필요하다. 당신은 javax.jdo.option.ConnectionPassword 값이 제외된 서버에 있는 같은 파일을 사용할 수 있다. 이것은 client가 텍스트로 패스워드를 사용가능하게 하는 것을 피하게 한다. HCatalog 커맨드 라인 인터페이스는 이제 root/bin/hcat으로 실행될 수 있다.

 

References

Posted by 김민우 julingks

댓글을 달아 주세요

야후에서 분사한 하둡 빅데이터 스타트 업

This document is translated from http://www.informationweek.com/news/development/database/231000658

InformationWeek의 2011년 6월 28일자 기사

---

빅데이터 분석을 위한 오픈소스 코드 개발의 속도를 높이기 위해서 Hortonworks 스타트업은 야후에서 개발자와 투자 자본을 가져왔다. 야후의 핵심 개발자 그룹은 하둡의 더 빠른 엔터프라이즈 스타일의 개발을 위해서 벤처캐피탈로 부터 지원을 받고 야후에서 분사했다. 몇 일 안에 하둡 코드에 "20개 이상 커밋한" 핵심 커미터들과 아키텍트는 캘리포니아 Sunnyvale에 있는 야후 캠퍼스에서 독립회사인 Hortonworks 사무실로 옮길 것이라고 하둡 소프트웨어 엔지니어의 야후 VP인 Eric Baldeschwieler가 인터뷰에서 밝혔다.그는 새로운 회사의 CEO가 될 것이다.

리딩 조직들은 그들의 가장 큰 이익을 낼 수 있는 고객들과 잠재적 라이벌들을 식별하기 위해서 비지니스 애널리틱스를 받아들이고 있다.

Hortonworks의 이름은 Dr.Sesuss의 동화책에 나오는 Horton이라는 코끼리에서 따왔다. 하둡은 원래 Dave Cutting의 아이들의 코끼리 장난감의 이름이다.

하둡 상용화를 주력으로 하는 자급자족(self-sufficient) 회사를 만들기 위한 이동은 지난주 LexNexis의 High Performance Computing Cluser(HPCC) 빅데이터 시스템이 공개적으로 오픈소스로서 사용가능하게 될 것임이 공표한 후에 뒤따랐다. HPCC는 빅데이터를 다루는 무대에서 하둡의 미래 경쟁자라고 대변인은 말했다.

야후의 클라우드 플랫폼의 Senior VP인 Jay Rossiter는 Hortonworks는 야후의 축복을 받을 뿐아니라 벤치마크 캐피탈과 마찬가지로 야후가 투자자가 될 것이다.

야후를 떠나는 개발자의 수는 전체 하둡 개발자 수의 일부이다. 두 개의 그룹은 다음 하둡 릴리즈를 함께 협력 개발(co-develop)할 것이라고 인터뷰에서 Rossiter가 말했다

벤치마크에서 파트너인, Rob Bearden은 Hortonworks의  COO가 될 것이다. 그는 자바 개발자를 위한 스프링 프래임웍을 지원하는 회사인 SpringSource의 전 회장이다 SpringSource는 2009년에 VMWare에 $420 밀리언(약 495억)에 인수되었다. 그는 또한 RedHat에 팔린 오픈소스 자바 애플리케이션 서버, JBoos의 전 COO이다. 그는 현재 오픈소스 Business Intelligence 시스템 공급자인 Pentaho의 의장(chairman)이다.

"Hortonworks는 하둡의 핵심 개발을 계속할 것이다. 또 쉬운 설치와 쉬운 사용 기능을 설계할 것이다."라고 인터뷰에서 Bearden은 말했다. 모든 개발자는 아파치 소프트웨어 파운데이션의 하둡 오픈소스 프로젝트에 기여하게 된다.
하둡은  Cutting이 야후에 엔지니어였을 때, 그의 파트너, Mike Cafarella에 의해 2005년에 만들어졌다. 야후는 세계에서 가장 큰 사용자중 한명이다. 야후 개발자들은 하둡 코드의 약 70%를 기여해왔다고 믿고 있다.

Cutting은 2009년에 초기 하둡 스타트업 Cloudera를 위해서 야후를 떠났다. Cloudera는 하둡 패키저와 ease-of-implementation 벤더로서 설립되었다. Hortonworks와 Cloudera는 잠재적인 경쟁자이다. 5월에는  $9.25 밀리언(약 109억) 벤처 펀딩을 받은 또 다른  하둡 스타트업 Datameer가 나타났다. 이 숫자는 Hortonworks 뒤에서 펀딩하기 위한 것임이 드러났다.

앞선 2월에는, 야후는 자신들의 하둡 프로덕션 버전을 테스트를 했다. 테스팅과 패칭의 지식은 대부분 알려졌다. 그들의 프로덕션 버전은 야후에서 사용 가능하도록 했기 때문에 빈번히 다른 회사들에 도입되었다. 이제 아파치로 부터 발산되는 빌드와 업데이트의 가장 믿을 만한 버전들이 사용된다.

Baldeschwieler는 야후가 하둡의 향상과 변경에 대한 중요한 시험장으로 남을 것이라고 말했다. 야후는 18개의 하둡 시스템을 운영 중이다. 총 42,000대의 서버들 위에서 다음 기능등을 수행한다.

  • 웹 컨텐트 인덱싱
  • 야후 싸이트 방문자들에 대한 개인화된 컨텐트 딜리버리
  • 야후의 이메일 서비스 스팸 스크리닝
  • 하둡 검색  사용자에게 광고 제공

Rossiter는 하둡 애플리케이션을 통해 개인의 흥미와 일치되는 내용을 띄우므로서 270%까지 홈페이지 클릭율(Click-through rate)를 높일 수 있었다고 말했다.

Baldeschwieler는 벤치마크 캐피탈이 하둡에 대해서 투자 하고 싶어했고 야후가 리딩 개발자들 팀을 분리하도록 유도했다고 말했다. 야후는 하둡을 떠받치는 활발한 커뮤니티를 보기 원했고, 엔터프라이즈에 넓게 도입되는 것을 원했기 때문에 분사에 동의했다. 엔터프라이즈 소프트웨어를 만드는 노력을 할 회사는 이 목표를 진행시킬 것이다.

야후가 42,000대의 서버들 위에서 하둡을 실행할 지라도, 하나의 시스템을 실행하는 가장 많은 서버는 4,000대이다.하둡은 병렬 파일 분산 시스템이다. 파일이 어느 클러스터에 위치해 있는지 맵핑하고, 정렬과 분석작업을 데이터와 가까운 노드로 보낸다.

Baldeschwieler는 말했다. 수백만개의 작은 이미지 타일을 사용해서 미국의 지도를 만드는 복잡한 문제는 기존 야후 그래픽 처리 시스템으로는 6달이 걸렸다. 하둡을 처리에 추가했을 때 5일이 걸렸다. Hortonworks는 하둡 성능을 향상시키는데 초점을 맞출것이다. 설치하기 쉽게 만들고, 서드 파티들이 모니터링과 관리 시스템을 붙이기 위해서 사용하는 API를 제공할 것이다. 
야후는 또한 하둡 개발 그림안에 남을 것이다. 많은 수의 개발자들이 프로젝트에 커밋하는 것을 유지할 것이다.

"야후는 하둡의 선구자적인 리더쉽을 제공하는 것을 지속할 것이다. 우리는 비길 데 없는 도메인 전문가들이 있다" 라고 Rossiter는 발혔다. 야후는 하둡 변경 사항이 최대로 반영되는 테스팅과 대규모 프로덕션 환경을 제공할 것이다. 하둡은 회사 안에서 1,000명 이상의 사용자를 가지고 있다고 그는 말했다.

"우리는 5년 안에 세상의 데이터의 절반 이상은 아파치 하둡에 저장 될 것임을 고대한다"라고 Baldeshwieler는 Hortonworks 발표에서 말했다.

 

Posted by 김민우 julingks

댓글을 달아 주세요

* Source : http://www.readwriteweb.com/enterprise/2011/08/gartner-adds-big-data-gamifica.php

2011 가트너  "하이프 싸이클"에 작년에는 없던  키워드인 Big Data, Gamification, internet of Things, Consumerization 가 추가 됐다.

가트너의 하이프 싸이클은 시장의 기술 수용 단계(가로)와 관심도(세로)의 그래프라고 할 수 있다.

시장의 기술 관심도는 점점 높아져 Peak of Inflated Expections 지점에 가게 된다.
하지만  기대에 대한 거품이 빠지면 Trough of Disillusionment 단계로 넘어간다.  언론과 시장의 관심이 줄어드는 이 단계에 접어 들었다고 기술이 한 물 갔다고 생각하면 안된다. 그 중에 가능성 있는 기술은 다시 재조명 받게 되고 이전에 이 기술에 투자한 회사들은 매출이 증가하게 된다.
하지만 실상 기술의 관심이 절정일 때에는 관심도의 비해서 도입 비율과 매출은 미비하다. 사람들은 기술이 모든걸 해결 해줄 거라는 기대를 하지만 거품이 껴있다. ( 그래서 사람들은 새로운 기술에 반드시 실망한다. 그렇다고 모두 내팽개치면 안된다.)

올해는 어떠한가 Private Cloud 가 관심의 정점에 있다.  Cloud/Web Platfroms은 환멸의 골(Trough of Disillusionment)을 향하고 있다.

엔지니어라면 하이프 싸이클은 앞으로 어떤 기술이 시장의 관심을 많이 받을 것인가를 보는데 집중하는 것이 좋다.
경험상 한국은 미국에 비해서 경우에 따라 1,2년 정도의 격차가 있지만, 그 간격도 점점 좁혀지고 있다.

이번에 4가지에 키워드가 추가되었는데 그 중에 "빅 데이터"에 주목 하자. 기사에서는 빅데이터가 빠르게 성숙할 것 이라고 예상한다.
빠르게 이동하고 있지만 매우 적은 실망을 보여주고 있다는 것이 고무적이라고 할 수 있다.
지금의 속도라면 1~2년 후에 시장의 큰 관심을 받게 될 것이다.
이미 올해부터 빅데이터에 대한 기사와 시장 조사 기관의 보고서들 나오고 있다.

엔지니어의 기술 포트폴리오는 금융 포트폴리오와 비슷한 면이 많다. (from 실용주의 프로그래머)
경험상 3,4년전 한창 웹 2.0 열풍이 불었을 때 별다른 관심을 받지 않던 클라우드 컴퓨팅과 하둡에  대한 주제를 선점한 사람들은 지금 전문가가 되어 가치가 상승했다.  나의 기술 포트폴리오에 어떤 종목을 추가할 것인가?  누군가 묻는다면 "빅 데이터"를 눈여겨 보라고 하고 싶다.

Reference

Posted by 김민우 julingks

댓글을 달아 주세요