データレイクは、機械学習をはじめとするデータサイエンス向けのデータ基盤として定着しているが、データ品質の低さやデータガバナンスの欠如といった課題がある。こうした課題を解決するアプローチとして、データレイクにデータ管理機能を追加した「データレイクハウス」が注目されている。本稿では、従来のデータレイクとの違いを整理するとともに、その実現に必要な技術および機械学習における使い分けについて解説する。
データレイクとデータレイクハウスの主な違いは、データ管理機能の有無と、それに伴うデータ活用の柔軟性および信頼性にある。データレイクハウスは、データレイクがもつ低コストかつ柔軟なデータ保存能力と、DWHが備える高性能な分析機能とデータ管理(ガバナンス)機能を統合した新しいデータアーキテクチャである。主な違いを図1に示す。
データレイクは、従来のDWHが高価で構造化データしか扱えない、という制約を補完する目的で登場した。柔軟で安価である一方、生のデータが無秩序に蓄積されると、以下の問題が発生し、いわゆるデータスワンプ(Data Swamp:データの沼)に陥るリスクがある。
データ品質の低さ:スキーマ定義が必須ではないため、データの所在特定や意味理解、品質評価が困難になる。
ガバナンスの欠如:データに対するアクセス制御や変更管理が難しい。
分析の困難さ:BIツールなど、構造化データを前提とする高性能な分析ツールとの連携が複雑となり、パフォーマンス低下を招きやすい。
データレイクハウスは、データレイクの柔軟なストレージ層の上に、DWHのようなメタデータ層と高性能なクエリエンジンを追加することで、これらの課題を解決する。特に、ACIDトランザクションへの対応は、データレイクハウスの中核的な特徴である。これにより、複数ユーザーによる同時アクセス環境でも、データの整合性を維持でき、信頼性の高いデータ処理が可能になる。