すごい広島#80にエア参加しました
すごい広島にエア参加してきました。
今週もAWS Black Belt Tech Webinarを視聴しました。
今日のテーマは AWS Data Pipeline でした。
Data Pipelineってなに?
S3、Glacier、DynamoDB、Redshift、RDS、EMR、KinesisなどのAWSビッグデータサービス間のデータ統合・処理をスケジュールベースで自動化してくれるサービスです。
どうやって使うの?
下記を定義します
データソースや出力先
処理の内容
処理の依存関係とスケジュール
イベントの通知先
どんな使い方があるの?
DynamoDBからS3に自動export
EMR clusterでjobを定期実行
RDSのMySQLをS3に定期的に増分バックアップ
S3から定期的にRedshiftにロード
などなど、テンプレートも用意してある
そのほか
TaskRunnerはオンプレサーバーでも動く
DataPipelineはスケジュールドリブン
イベントドリブンがやりかったらAWS Lambda
当日の資料
ではまた