レポート・ライブラリ|株式会社アイ・ティ・アール

【R-220105_6962473012】データレイクにおけるメタデータ管理の重要性

作成者: 株式会社アイ・ティ・アール|Sep 17, 2023 2:28:10 AM

ビッグデータ解析のためのデータ格納場所として、多くの企業がデータレイクを導入しているが、適切なメタデータ管理を行わないと、必要なデータの特定ができなくなるデータスワンプ状態に陥る。本稿では、データレイクの特性を明確にしたうえで、陥りやすい課題とその解決策について解説する。

データウェアハウスとデータレイクの違い

データウェアハウスとデータレイクは、ともにデータ分析に必要となる多種多様な大量のデータを1ヵ所に蓄積することを目的としているが、蓄積前後でのデータ収集と加工処理を行う順序が大きく異なる(図1)。

図1.スキーマ・オン・ライトとスキーマ・オン・リード

出典:ITR

データウェアハウスでは、データ分析を行うユーザーの要件をあらかじめ定義したうえで、データモデルを設計し、それに合わせて必要なデータを収集、加工してから蓄積するという順序になる。このやり方は、データの蓄積(書き込み)の時点で、データベースの構造(スキーマ)がすでに決定されているという意味で、スキーマ・オン・ライト(Schema on Write)と呼ばれる。

一方、データレイクでは、ユーザー要件定義を行うことなく、収集可能なデータを全て未加工の状態で蓄積する。その後、データレイクのユーザーが、各自の要件に基づいて必要なデータを抽出し、自ら加工する。このやり方は、蓄積済みのデータをユーザーが抽出(読み込み)した後で、データベースの構造(スキーマ)が決定されるという意味で、スキーマ・オン・リード(Schema on Read)と呼ばれる。