すごい広島にエア参加してきました。

great-h-logo

今週もAWS Black Belt Tech Webinarを視聴しました。

今日のテーマは AWS Data Pipeline でした。

Data Pipelineってなに?

S3、Glacier、DynamoDB、Redshift、RDS、EMR、KinesisなどのAWSビッグデータサービス間のデータ統合・処理をスケジュールベースで自動化してくれるサービスです。

どうやって使うの?

下記を定義します

  1. データソースや出力先

  2. 処理の内容

  3. 処理の依存関係とスケジュール

  4. イベントの通知先

どんな使い方があるの?

  • DynamoDBからS3に自動export

  • EMR clusterでjobを定期実行

  • RDSのMySQLをS3に定期的に増分バックアップ

  • S3から定期的にRedshiftにロード

  • などなど、テンプレートも用意してある

そのほか

  • TaskRunnerはオンプレサーバーでも動く

  • DataPipelineはスケジュールドリブン

  • イベントドリブンがやりかったらAWS Lambda

当日の資料

ではまた