[Reinvent2017] 주요 서비스 업데이트 - 데이터 분석 분야

Nov 30,2017 | AWS

작성자_김명수

Reinvent2017 주요 업데이트 - 데이터 분석 분야 Summery

· Amazon S3
· Amazon Glacier

Amazon S3는 AWS 빅데이터 분석 서비스의 기본 저장소로서 대부분의 데이터 분석은 객체 단위로 이루어지며 Data Lake 역할을 수행하는데 적합한 서비스입니다.

이번 ReInvent 2017에서 손쉽게 S3 및 Glacier 저장소의 데이터를 쿼리 할 수 있도록 select를 제공하여 Data Lake의 성능을 강화해 줄 것 같습니다.

Amazon S3

S3 Select (Preview)

1) 주요 특징

단순한 SQL 표현식을 사용하여 해당 객체에서 필요한 바이트만 추출 가능.

응용 프로그램이 간단한 SQL 표현식을 사용하여 객체에서 데이터의 하위 집합만 검색할 수있음 -> 데이터의 양을 줄임으로써 응용 프로그램의 성능 향상.

AWS Lambda 로 구축 된 Serverless 응용 프로그램에 유용.

Amazon EMR 에 대한 Presto 커넥터를 만들었음. (Presto 커넥터는 S3에서 검색된 데이터의 거의 99 %를 필터링 한 복잡한 쿼리를 실행)

Amazon Athena , Amazon Redshift 및 Amazon EMR 은 물론 Cloudera, DataBricks 및 Hortonworks와 같은 파트너 모두 S3 Select 지원 예정.

(Preview ) GZIP 압축을 사용하거나 사용하지 않고 CSV 또는 JSON 파일 지원.

(Preview) S3 Select에 대한 요금은 부과되지 않음.

Amazon Glacier

Glacier Select (Preview)

1) 주요 특징

모든 상업적인 리전에서 수행가능.

표준 SQL 문을 사용하여 Glacier 객체에 대해 직접 필터링 수행. (Cold data를 빠르게 검색)

018 년에 Athena가 Glacier Select를 사용하여 Glacier와 통합될 예정임.

2) 요금

아래 3가지 요인에 따라 비용 책정

- GB of Data Scanned
- GB of Data Returned
- Select Requests

각 측정 기준의 비용은 아래 결과의 속도에 따라 결정됨

- expedited (1 ~ 5 분)
- standard (3 ~ 5 시간)
- bulk (5 ~ 12 시간)

자세한 내용은 여기 참고 바랍니다.

Contact Us

감사합니다.