다루는 내용
· S3 버킷 생성하기
· 아마존 관리 콘솔에서 아마존 EMR 실행하기
· Word count 예제 프로그램 실행하기
· 아마존 CludWatch 메트릭으로 클러스터 모니터링하기
· 아마존 S3에서 아마존 EMR 결과 확인하기
실습
아마존 S3 버킷 생성
1. 콘솔에서 S3 클릭
2. Create Bucket 클릭
3. Bucket Name 텍스트박스에 버킷명 입력
· 버킷명은 고유해야한다. (중복될 수 없음)
· 소문자만 가능하다.
· 공백, 밑줄, 마침표를 사용할 수 없다.
4. Region 선택
· EMR과 S3의 리전이 다르면 추가 비용이 발생할 수 있으므로 동일 리전을 선택한다.
5. Create 클릭
MapReduce 클러스터 생성과 실행
1. 콘솔에서 EMR 클릭
2. Create cluster 클릭
3. Configure sample application 클릭
4. Select sample application 드롭다운 리스트에서 Word count 선택
5. Output location 텍스트박스의 을 앞에서 생성한 버킷명으로 수정한다.
6. Logging은 enabled 상태로 둔다.
7. 로그 저장 위치도 적절하게 수정한다.
8. Debugging도 enabled 상태로 둔다.
9. OK 클릭
10. Tags 섹션에서 Key 컬럼에 Owner, Value 컬럼에 Development 입력
11. Software Configure 섹션에서 AMI version을 2.4.2(Hadoop 1.0.3) 선택
12. Hardware Configuration 섹션에서 Master의 인스턴스 타입을 m1.small 으로 변경
13. Core의 인스턴스 타입을 m1.small 으로 변경
14. Core의 Count는 기본값으로 2
15. Task의 Count는 기본값으로 0
· Master 노드는 Core와 Task노드에 하둡 tasks를 할당하고, 상태를 모니터한다. Master 노드는 클러스터당 하나만 존재할 수 있다.
· Core 노드는 Hadoop Distributed File System(HDFS)을 이용하여 하둡 map을 실행하고 tasks를 줄이며 데이터를 저장하는 아마존 EC2 인스턴스이다. Core 노드는 Master 노드가 관리한다.
16. Security and Access 섹션에서 EC2 key pair는 Proceed without an EC2 key pair 상태로 남겨 두어도 상관 없다. (예제를 진행하는데 문제 없다)
· 단, 인스턴스에 SSH 접속할 수는 없으며 접속을 원할 경우 keypair를 선택해주면 된다.
17. 페이지 하단의 Auto-terminate가 Yes로 선택되어 있는지 확인
· 불필요한 비용 발생을 방지하기 위해 클러스터가 마지막 작업을 완료한 후 종료되도록 한다.
18. Create cluster 클릭
클러스터 모니터하기
1. Cluster List 클릭
2. Cluster name 왼쪽의 버튼을 클릭하여 상세 정보 확인
결과 보기
1. 콘솔에서 S3 클릭
2. 버킷명 클릭
3. Output 폴더 클릭
4. 다운로드할 파일을 선택하여 우클릭 후 Download 선택
5. 텍스트 에디터 프로그램에서 다운로드한 파일 오픈하여 확인
참고
- 추가 정보 : http://aws.amazon.com/ko/elasticmapreduce/?nc2=h_l3_al
- EMR이 생성한 노드 인스턴스 확인하기
- EC2 Instances 에서 오른쪽 상단의 클릭
- Owner 태그 선택
- Close 클릭