すごい広島にエア参加してきました。

great-h-logo

今週もAWS Black Belt Tech Webinarを視聴しました。

今日のテーマは AWS Data Pipeline でした。

Data Pipelineってなに？

S3、Glacier、DynamoDB、Redshift、RDS、EMR、KinesisなどのAWSビッグデータサービス間のデータ統合・処理をスケジュールベースで自動化してくれるサービスです。

どうやって使うの？

下記を定義します

データソースや出力先
処理の内容
処理の依存関係とスケジュール
イベントの通知先

どんな使い方があるの？

DynamoDBからS3に自動export
EMR clusterでjobを定期実行
RDSのMySQLをS3に定期的に増分バックアップ
S3から定期的にRedshiftにロード
などなど、テンプレートも用意してある

そのほか

TaskRunnerはオンプレサーバーでも動く
DataPipelineはスケジュールドリブン
イベントドリブンがやりかったらAWS Lambda

当日の資料

AWS Black Belt Techシリーズ AWS Data Pipeline from Amazon Web Services Japan

ではまた