AI

データパイプラインの定番ワークフローエンジン

Apache Airflowは、ワークフローをPythonコードで定義し、スケジュール実行・監視するためのオープンソースプラットフォームで、データパイプライン基盤のデファクトスタンダードです。処理の依存関係をDAG(有向非巡回グラフ)として記述し、Web UIから実行状況の確認、リトライ、ログ閲覧ができます。豊富なプロバイダーパッケージによりAWS、GCP、Snowflake、dbtなど数百のサービスと連携でき、コミュニティとエコシステムの規模は圧倒的です。Airbnb発でApacheソフトウェア財団により運営されています。ETL/ELTやMLパイプラインを安定運用したいデータエンジニアリングチームに向いており、各クラウドのマネージドサービス(MWAA、Cloud Composerなど)も存在するため移行パスも豊富です。

関連トピック

airflowapacheapache-airflowautomationdagdata-engineeringdata-integrationdata-orchestratordata-pipelinesdata-scienceeltetlmachine-learningmlopsorchestrationpythonschedulerworkflowworkflow-engineworkflow-orchestration

airflowの解説記事

コメント(0

コメントするにはログインしてください。

同じカテゴリのOSS

Let's Build Together

OSS導入、自社だけで悩まない。

ツール選定から構築・運用・AI活用まで、オープンソースラボ運営元のClasslessが伴走します。初回のご相談は無料です。