1. TOP
  2. レポート・ライブラリ
  3. データレイクにおけるメタデータ管理の重要性 - データカタログの構築/運用における留意点 -


ITR Review

コンテンツ番号:
R-220105
発刊日:
2020年10月1日

データレイクにおけるメタデータ管理の重要性

データカタログの構築/運用における留意点

著者名:
平井 明夫
データレイクにおけるメタデータ管理の重要性のロゴ画像

ビッグデータ解析のためのデータ格納場所として、多くの企業がデータレイクを導入しているが、適切なメタデータ管理を行わないと、必要なデータの特定ができなくなるデータスワンプ状態に陥る。本稿では、データレイクの特性を明確にしたうえで、陥りやすい課題とその解決策について解説する。

データウェアハウスとデータレイクの違い

データウェアハウスとデータレイクは、ともにデータ分析に必要となる多種多様な大量のデータを1ヵ所に蓄積することを目的としているが、蓄積前後でのデータ収集と加工処理を行う順序が大きく異なる(図1)。

図1.スキーマ・オン・ライトとスキーマ・オン・リード

図1.スキーマ・オン・ライトとスキーマ・オン・リード
出典:ITR

データウェアハウスでは、データ分析を行うユーザーの要件をあらかじめ定義したうえで、データモデルを設計し、それに合わせて必要なデータを収集、加工してから蓄積するという順序になる。このやり方は、データの蓄積(書き込み)の時点で、データベースの構造(スキーマ)がすでに決定されているという意味で、スキーマ・オン・ライト(Schema on Write)と呼ばれる。

一方、データレイクでは、ユーザー要件定義を行うことなく、収集可能なデータを全て未加工の状態で蓄積する。その後、データレイクのユーザーが、各自の要件に基づいて必要なデータを抽出し、自ら加工する。このやり方は、蓄積済みのデータをユーザーが抽出(読み込み)した後で、データベースの構造(スキーマ)が決定されるという意味で、スキーマ・オン・リード(Schema on Read)と呼ばれる。

ITR 著作物の引用について

ITRでは著作物の利用に関してガイドラインを設けています。 ITRの著作物を「社外利用」される場合は、一部のコンテンツを除き、事前にITRの利用許諾が必要となります。 コンテンツごとに利用条件や出典の記載方法が異なりますので、詳細および申請については『ITR著作物の引用ポリシー』をご確認ください。

TOP