1. TOP
  2. レポート・ライブラリ
  3. データパイプラインとは何か - ETLとの違いとその実現に必要な技術 -


ITR Review

コンテンツ番号:
R-223112
発刊日:
2023年10月25日

データパイプラインとは何か

ETLとの違いとその実現に必要な技術

著者名:
平井 明夫
データパイプラインとは何かのロゴ画像

ETLは、データウェアハウス(DWH)においてデータの抽出・変換・ロードを行う一連の処理を表す用語として定着しているが、近年、ETLをより複雑化した概念である「データパイプライン」が注目されている。本稿では、ETLとデータパイプラインの違いを整理したうえで、その実現に必要な技術とDataOpsとの関連性について解説する。

ETLとデータパイプラインの違い

はじめに、ETLとデータパイプラインの違いを、処理の流れや実行形態、およびソースデータの種類などについて図1にまとめた。

図1.ETLとデータパイプラインの違い

r-223112_01
出典:ITR

ETLでの処理の流れは定型的であり、業務アプリケーションからデータを抽出し、分析用データへの変換処理を経て、DWHにロードしたところで完了する。これに対して、データパイプラインでの処理の流れは定型的ではなく、抽出したソースデータを変換することなくデータベースにロードする、あるいはロードの完了をトリガーにして、データの変換処理や他のデータベースへのデータ転送といった複数の処理が起動される、といったさまざまなパターンが存在する。

ETLはDWHのみをターゲットとするが、データパイプラインはDWH以外にもデータレイク、セルフサービスBIツール、リアルタイム・ダッシュボードといったさまざまなシステムをターゲットとする。また、ETLでの処理は月次や日次といった定期的なバッチ処理として実行されるが、データパイプラインでの処理は、データの特性やユーザー要件に応じて、バッチ処理だけではなく、イベント駆動型やリアルタイムの処理形態が併用される。例えば、OI(オペレーショナル・インテリジェンス)の実現が要求されるシステムにおいては、リアルタイム・ダッシュボードをターゲットとし、リアルタイム型の処理方式が使用される(ITR Review 2023年3月号『OI(オペレーショナル・インテリジェンス)とは何か』#R-223032)。

ETLは、ERPなどの業務アプリケーションから抽出される構造化データがソースデータとなる。データパイプラインのソースデータには、構造化データだけではなく、IoTデバイスなどから転送される非構造化データも含まれる。ETLでの数値データの処理は、SQLなどを使った四則演算に限定されるが、データパイプラインでの処理には、これに加えてR言語などを使った統計解析処理が含まれる。これらの違いは、ETLが主に定型レポートや多次元分析(ピボット分析)環境を提供するDWHをターゲットとするのに対して、データパイプラインはビッグデータを利用した予測・推論を行うシステムもターゲットに含まれるためである。

ITR 著作物の引用について

ITRでは著作物の利用に関してガイドラインを設けています。 ITRの著作物を「社外利用」される場合は、一部のコンテンツを除き、事前にITRの利用許諾が必要となります。 コンテンツごとに利用条件や出典の記載方法が異なりますので、詳細および申請については『ITR著作物の引用ポリシー』をご確認ください。

TOP