Apache pig install

Hadoop 2011.02.24 18:05

Requirements

유닉스 또는 윈도우즈 사용자는 다음이 필요하다

윈도우즈 사용자는 Cygwin과 Perl Package 설치가 필요하다.

Pig를 다운 받는다.

Pig 배포판을 얻기 위해서 아파치 다운로드 미러 중에서 최신의 안저된 버전을 다운로드 한다.
압축을 푼다. Pig 스크립트는 bin 디렉토리에 있다.  (/pig-x.x.x/bin/pig)
/pig-x.x.x/bin 을 path 에 추가한다

$ export PIG_HOME=/path-to-pig/pig-0.8.0
$ export PATH=$PIG_HOME/bin/:$PATH

다음 명령어로 pig 커맨드의 리스트를 보자

$ pig -help

다음 커맨드로 Grunt shell을 시작할 수 있다.

$ pig

 

Run Modes

Pig는 두 가지 실행 모드가 있다

  • 로컬 모드 - 로컬 모드로 pig를 실행하기 위해서는 하나의 머신에 접속이 필요하다.
  • Mapreduce 모드 - mapreduce 모드로 pig를 실행하기 위해서는 하둡 클러스터와 HDFS 설치에 접긴이 필요하다

이제 Grunt shell, Pig 스크립트, 두 모드를 사용하는 임베디드 프로그램을 실행시킬 수 있다.

Grunt Shell

pig 커맨드를 직접 입력하고 싶다면 Pig의 인터렉티브한 쉘 Grunt 를 사용해라.

Local Mode

$ pig -x local

Mapreduce Mode

$ pig
or
$ pig -x mapreduce

두가지 모두에서, Grunt shell 이 실행되면 프롬프트에서 커맨드를 입력할 수 있다. 결과는 터미널 화면(DUMP 사용시)이나 파일(STORE 사용시)에 출력된다.

grunt> A = load ‘passwd’ using PigStorage(‘:’);
grunt> B = foreach A generate $0 as id;
grunt> dump B;
grunt> store B;

Script Files

배치 job들을 pig 커맨드로 실행할 때는 스크립트 파일을 이용해라.

Local mode

$pig -x local id.pig

 

Mapreduce Mode

$ pig id.pig
or
$ pig -x mapreduce id.pig

두가지 모드에서  Pig Latin 문이 실행되고 결과는 터미널 화면(DUMP 사용시)이나 파일(STORE 사용시)로 출력된다.

Reference
Posted by 김민우 julingks
TAG ,