WiseN

[Reinvent2017] 주요 서비스 업데이트 - 데이터 분석 분야

Nov 30,2017   |   AWS

작성자_김명수

페이스북 공유하기 트위터 공유하기
Blog thumbnail

Reinvent2017 주요 업데이트 - 데이터 분석 분야 Summery


· Amazon S3 
· Amazon Glacier


Amazon S3는 AWS 빅데이터 분석 서비스의 기본 저장소로서 대부분의 데이터 분석은 객체 단위로 이루어지며 Data Lake 역할을 수행하는데 적합한 서비스입니다.

이번 ReInvent 2017에서 손쉽게 S3 및 Glacier 저장소의 데이터를 쿼리 할 수 있도록 select를 제공하여 Data Lake의 성능을 강화해 줄 것 같습니다.

 

Amazon S3






S3 Select (Preview)






1) 주요 특징

  •  단순한 SQL 표현식을 사용하여 해당 객체에서 필요한 바이트만 추출 가능.

  • 응용 프로그램이 간단한 SQL 표현식을 사용하여 객체에서 데이터의 하위 집합만 검색할 수있음 -> 데이터의 양을 줄임으로써 응용 프로그램의 성능 향상.




  • AWS Lambda 로 구축 된 Serverless 응용 프로그램에 유용.

  • Amazon EMR 에 대한 Presto 커넥터를 만들었음. (Presto 커넥터는 S3에서 검색된 데이터의 거의 99 %를 필터링 한 복잡한 쿼리를 실행)

  • Amazon Athena , Amazon Redshift 및 Amazon EMR 은 물론 Cloudera, DataBricks 및 Hortonworks와 같은 파트너 모두 S3 Select 지원 예정.

  • (Preview ) GZIP 압축을 사용하거나 사용하지 않고 CSV 또는 JSON 파일 지원.

  • (Preview) S3 Select에 대한 요금은 부과되지 않음.


 

Amazon Glacier






Glacier Select (Preview)






1) 주요 특징

  • 모든 상업적인 리전에서 수행가능.

  • 표준 SQL 문을 사용하여 Glacier 객체에 대해 직접 필터링 수행. (Cold data를 빠르게 검색)

  • 018 년에 Athena가 Glacier Select를 사용하여 Glacier와 통합될 예정임.


2) 요금

  • 아래 3가지 요인에 따라 비용 책정


- GB of Data Scanned
- GB of Data Returned
- Select Requests




  • 각 측정 기준의 비용은 아래 결과의 속도에 따라 결정됨


- expedited  (1 ~ 5 분)
- standard (3 ~ 5 시간)
- bulk (5 ~ 12 시간)


 

자세한 내용은 여기 참고 바랍니다.