KGC 2014에서 발표한 자료 공유합니다.


Posted by 김민우 julingks

댓글을 달아 주세요

Couchbase Usecase : Mobile Game Cookierun 


At Couchbase 5th meetup in Korea



Posted by 김민우 julingks

댓글을 달아 주세요

이직 알림

분류없음 2013.11.06 21:39

저의 첫 직장이었던 KT NexR에서 6년이라는 시간을 보내고 

모바일 게임 쿠키런을 만드는 데브시스터즈(devsisters)로 이직하게 되었습니다.



Posted by 김민우 julingks

댓글을 달아 주세요

Apache Hive Hook

Hive 2013.08.13 15:37

Apache Hive Hook

하이브 훅(Hook)에 대한 내용이 별로 없어서 하나 만듬. 필요한 사람에게 도움이 되길 바람. 메타스토어 이벤트 리스너에 대한 내용도 조금 들어 갔고 release-0.11 태그를 기반으로 작성되었음.


I couldn't find enough info about Hive hooks. So, I made this. I hope this presentation will be useful when you want to use hooks. This included some infomation about metastore event listeners. This was written based on release-0.11 tag.


Posted by 김민우 julingks

댓글을 달아 주세요

  1. hive 2014.02.11 19:44  댓글주소  수정/삭제  댓글쓰기

    안녕하세요 하이브 관심있는 학생인데
    혹시 질문해도 되나요 ?

  2. 전득진 2014.03.14 11:21  댓글주소  수정/삭제  댓글쓰기

    좀더 범용적인 솔루션으로서 Spring의 AOP 같은 기능을 하는 것으로 보면 될까요?

DEBUG: org.apache.hadoop.conf.Configuration - java.io.IOException: config()

Hadoop 0.20.x 버전의 Configuration 객체를 생성할 때 다음 생성자로 생성하면 


        Configuration conf = new Configuration(false);


디버깅 메시지에 다음 메시지가 나온다.

DEBUG: org.apache.hadoop.conf.Configuration - java.io.IOException: config()

...  stack trace ...



찾아보니 실제 Configuration의 생성자의 코드가 다음과 같아서 나는 메시지란다.

public Configuration(boolean loadDefaults) {
  if (LOG.isDebugEnabled()) {
    LOG.debug(StringUtils.stringifyException(new IOException("config()")));
  }
  // ...
}


누가 위에 현상을  HADOOP-2851 로 등록해서 패치까지 올렸지만 Won't fix로 이슈가 닫혔는데..

하둡 버전을 1.1.2로 올리니 위에 디버깅 메시지가 안나온다. 그 이후에 수정되었나보네 하고 넘기려고 했으나.


찝찝해서 깃헙 가서 코드 찾아봄


디버깅 메시지 출력하는 코드는 없어졌네...

이슈를 찾아보고 싶으나 귀찮아서 패스. (별것도 아닌데 이건 오바 같다)


어쟀든 괜히 식겁했네.


참고


Posted by 김민우 julingks

댓글을 달아 주세요

HBaseCon 2013 Wrap up

Bigdata 2013.07.08 14:10

HBaseCon 2013 Wrap up

6월 13일 샌프란시스코에서 열렸던 HBaseCon 2013 후기 발표 자료.
대부분 내용은 말로 때움.

Reference


Posted by 김민우 julingks

댓글을 달아 주세요

Hive Authorization

Hive 2013.07.02 14:53

Hive Authorization

하이브 권한에 대한 발표 자료.


참고 자료


Posted by 김민우 julingks

댓글을 달아 주세요

Hadoop version 1.2.0 released


약간 뒷북이지만 지난 5월 13일에 하둡 버전 1.2.0 출시되었다.

1.1.2와 비교할때 200여개의 기능 향상과 버스 수정되었음


주요 향상된 기능은 다음

  • DistCp v2 backported
  • Web services for JobTracker
  • WebHDFS enhancements
  • Extensions of task placement and replica placement policy interfaces
  • Offline Image Viewer backported
  • Namenode more robust in case of edit log corruption
  • Add NodeGroups level to NetworkTopology
  • Add “unset” to Configuration API


릴리즈 노트는 여기


다운로드는 여기


1.1.2 버전 이후 3개월만이고 1.1.0 이후 7개월만에 두 번째 자릿수 버전이 올라갔다.

Posted by 김민우 julingks

댓글을 달아 주세요

Apache Hive 0.11.0 Released


아파치 하이브 버전 0.11.0이 출시됐다.


자세한 내용과 다운로드는 여기를 방문

릴리즈 노트는 여기


이번 릴리즈에는 HiveServer2, hcatalog 통함, 윈도우윙과 분석함수, decimal 데이터 타입, 향상된 쿼리 플래닝, 성능 향상과 다양한 버그 수정 등 총 350여개의 이슈가 이번 릴리즈에 포함 되었다.



0.11.0 관련 이전 포스트들


Posted by 김민우 julingks

댓글을 달아 주세요

HBaseCon 2013 : The Session Schedule has been published


2013년 6월 13일, 센프란시스코

자세한 내용은 컨퍼런스 홈페이지를 참조

5월 13일에 스케줄이 공시 되었다


하루짜리 컨퍼런스라서 기대는 안했는데 의외로 건질만한 것들이 보인다.


HBaseCon 2012 내용은 여기 http://hbasecon.com/2012


컨퍼런스 트랙은 다음 세션들을 포함한다

  • Operations
  • Internals
  • Ecosystem
  • Case Studies


HBaseCon 2013 프로그램 커미티는 다음과 같다.

  • Gary Helmling, Twitter
  • Lars Hofhansl, Salesforce
  • Jonathan Hsieh, Cloudera
  • Doug Meil, Explorys
  • Andrew Purtell, Intel
  • Enis Söztutar, Hortonworks
  • Michael Stack, Cloudera (Chair)
  • Liyin Tang, Facebook



HBase는 기술적으로 deep하게 몰라서 동기부여 차원에서 가기로 했다. (점점 얇아지는 지갑..)

혹시 이 컨퍼런스 참석 하시는 분은 메일을 주세요. julingks_at_gmail_dot_com

혼자 들으면 외로울것 같아요.

Posted by 김민우 julingks

댓글을 달아 주세요

Voting Hadoop 1.2.0 RC1

Hadoop 2013.05.16 12:47

Voting Hadoop 1.2.0 RC1


하둡 1.2.0 도 RC1 투표중.

투표 현황을 보아하니 한달 내로 출시할 것 같아 보인다.


하둡은 이슈는 follow-up 못하고 있는데, HDFS라도 하루 날잡아서 쭉 훝어 봐야겠다.

Posted by 김민우 julingks

댓글을 달아 주세요

Research Cloudera Impala 1.0


클라우데라 임팔라 1.0 이 지난 4월 30일이 릴리즈 했다. 조사 발표자료를 공유. Google Dremel도 간략히 설명함.



References


Posted by 김민우 julingks

댓글을 달아 주세요

Gigaom Report - SQL-on-Hadoop platforms in 2013


색터 로드맵 리포트라고 할 수 있다.

SQL-on-Hadoop 이라고 불리는 빅데이터 실시간 질의 솔루션들의 경쟁사와 제품들을 비교 분석한 리포트라고 보면 된다.


비교 벤더들은 다음과 같다.

  • Cloudera
  • Hadapt
  • Teradata (SQL-H)
  • EMC
  • Greenplum (HAWQ)
  • Citus Data
  • Splice Machine
  • JethroData
  • Concurrent (Lingual)

비교 아파치 프로젝트는

  • Apache Drill
  • Hortonworks Stinger

이다.


자세한 내용은 리포터를 참고. http://www.cloudera.com/content/dam/cloudera/Resources/PDF/GigaOM_Cloudera_Real-time_query_for_Hadoop_democratizes_access_to_big_data_analytics.pdf


리포터를 쓴 사람은 George Gilbert라는 사람인데 하버드 경제학과 나와서 MS와 Lotus Development에서 Product Manager로 일했고, 전 Credit Suisse First Boston 소프트웨어 분석가다.


Product Manager는 우리나라에서는 아직 많이 없는 포지션인데 제품의 형상을 관리하는 업무를 맡는다. (흔히 PM이라고하는 Project Manager와는 다른 개념이고 그렇다고 기획자라고 보기에도 애매하다.) 대부분 SW직군이 미국 MBA를 받으면 오라클이나 Google, IBM 같은데 Product Manager로 채용되기도 한다.


암튼 이 사람의 결론은 뭐냐 어쨌든 결론이 중요하니깐


앞으로 이 시장의 1~2년 예측 :

  • 클라우데라가 적어도 2년 정도 걸릴지라도 가장 유연하고 성공적인 솔루션 구축에 성공할 것
  • 두번째 오픈소스 대안은 Apache Drill 또는 Stinger 둘 중에 먼저 성숙한 프로젝트가 될 것 (클라우데라가 삽질하거나 모멘텀을 잃어버리면, 아파치 프로젝트 중 하나가 리더를 차지할 수 있을 것)
  • Hadapt은 틈새시장에서 이기기 위해 초점을 맞추고 연구할 것
  • EMC(Greenplum) , Teradata는 버그 없는 솔루션을 원하는 대기업의 초이스로 남을 것
  • 더 넓게 데이터베이스 시장에는, newSQL 데이터베이스가 성숙할 것이고 그러면서 사용자는 하둡에서 멀어질 것
  • NewSQL은 Strong structure를 가진 빅데이터에서 사용될 것이고 SQL-on_Hadoop 솔루션들은 semistructured 데이터에 사용될 것이다

마무리로


 모든 데이터베이스 벤더들이 제안하는 중요한 원칙은 모든 처리 포맷과 데이터 타입을 하나의 레파지토리로 통합하고 싶다는 것이다. 그렇게 되면 모든 수준의 사용자는 특별한 레파지토리 사이에 데이터 이동이 없이도 모든 포멧의 데이터를 조작할 수 있다. 예를 들면 하나의 분석 플랫폼은 SQL, Java, 통계 프로그래밍 R, 지리적 함수, 얼굴 인식, 다른 많은 종류의 데이터를 조작할 수 있어야만 한다. 이런 유연성은 야심차지다, 하지만 여전히 시간이 좀 걸릴 것 같다.


---


 마무리가 뭐 이래. 싱겁네. 원래 섹터 로드맵 보고서가 이렇긴 하지만,

어쨌든 SQL-on-Hadoop 시장에서 클라우데라가 Impala로 선전할 것이라는 분석이다. 지금은 Apache 프로젝트 진도가 더딘 면어 있지만 또 하둡 세계는 오픈소스가 강세라 어떻게 될런지 모르겠다. (이게다 지배적인 상용 솔루션이 없기 때문인데 다행이라고 생각한다.. 안그럼 재미가 없잖아.)


Posted by 김민우 julingks

댓글을 달아 주세요

Voting Hive 0.11.0 RC 2

Hive 2013.05.13 14:55

Voting Hive 0.11.0 RC 2


다음 7개의 문제를 수정함

  • 릴리즈 노트 오류
  • HIVE-4018 - MapJoin failing with Distributed Cache error
  • HIVE-4421 - Improve memory usage by ORC dictionaries
  • HIVE-4500 - Ensure that HiveServer 2 closes log files.
  • HIVE-4494 - ORC map columns get class cast exception in some contexts
  • HIVE-4498 - Fix TestBeeLineWithArgs failure
  • HIVE-4505 - Hive can’t load transforms with remote scripts
  • HIVE-4527 - Fix the eclipse template


RC2의 소스 태그는 여기.

https://svn.apache.org/repos/asf/hive/tags/release-0.11.0rc2


소스 타르 볼과 바이너리 artifacts는 여기.

http://people.apache.org/~omalley/hive-0.11.0rc2/


이번 리릴즈는 HiveServer2, hcatalog 통함, 윈도우윙과 분석함수들, decimal 데이터 타입, 더 좋은 쿼리 플래닝, 성능 향상과 다양한 버그 수정이 포함되어 있다.

총 350여개의 이슈를 해결했고 수정된 이슈의 모든 리스트는 여기.

http://s.apache.org/8Fr


72시간 동안 PMC(Project Management Committee)가 투표를 진행한다.


우짜든 0.11.0 릴리즈 임박

Posted by 김민우 julingks
TAG 0.11.0, hive, rc2

댓글을 달아 주세요

java.lang.reflect.InvocationTargetException when using UDF in Hive query


하이브 UDF 사용시에 다음과 같은 에러가 나면 (하이브 0.10.0 버전 기준)

java.lang.RuntimeException: Error in configuring object
    at org.apache.hadoop.util.ReflectionUtils.setJobConf(ReflectionUtils.java:93)
    at org.apache.hadoop.util.ReflectionUtils.setConf(ReflectionUtils.java:64)
    at org.apache.hadoop.util.ReflectionUtils.newInstance(ReflectionUtils.java:117)
    at org.apache.hadoop.mapred.MapTask.runOldMapper(MapTask.java:387)
    at org.apache.hadoop.mapred.MapTask.run(MapTask.java:325)
    at org.apache.hadoop.mapred.Child$4.run(Child.java:266)
    at java.security.AccessController.doPrivileged(Native Method)
    at javax.security.auth.Subject.doAs(Subject.java:396)
    at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1278)
    at org.apache.hadoop.mapred.Child.main(Child.java:260)
Caused by: java.lang.reflect.InvocationTargetException
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:39)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java


UDF의 jar파일이 중복으로 classpath에 잡혀 있을 가능성이 있다.

하이브에 jar를 등록하는 방법은 다음과 같다.

  • hive-site.xml 안에 hive.aux.jars.path 값
  • 환경 변수 HIVE_AUX_JARS_PATH
  • .hiverc 파일안에 add jar[s]
  • CLI 실행시 -i 옵션으로 지정한 스크립트에 add jar[s]

참고로 .hiverc는 cli에서만 읽는다. (Thrift 서버 구동시는 초기화 스크립트는 -i 옵션을 이용)


-----


5월 20일 추가


$HIVE_HOME/bin/hive 스크립트는 $HIVE_HOME/bin/ext/util/execHiveCmd.sh를 include한다.

결국 hadoop jar 명령을 통해서 HIve CLI 나 beeline 클래스의 메인 메소드를 실행하게 되어 있다.


그래서 $HADOOP_HOME/lib 이나 하둡 클래스 패스에도 UDF jar파일이 중복으로 잡혀 있다면 리플랙션으로 UDF를 불러올때 위와 같은 에러를 발생시킬 수 있다.


결국 hadoop의 lib과 클래스 패스도 살펴보아야 한다. (원인도 모르고 캐삽질 할 수 있음......;; )

Posted by 김민우 julingks
TAG hive, UDF

댓글을 달아 주세요