データカタログは、データレイクのデータスワンプ(データの沼化)を防ぐだけではなく、AI-Readyなデータ基盤を構成する重要なコンポーネントとして注目されている。一方、運用では、鮮度と網羅性を維持するための人的リソースの確保が課題となっていたが、AIを使った運用自動化により、負荷の軽減が進みつつある。本稿では、運用自動化の現状とその効果を整理するとともに、自律型へと向かうデータカタログの将来像について考察する。
データカタログの運用における主要なタスクは、メタデータの収集、分類・タグづけ、データ品質管理、ビジネスメタデータの付与、活用・公開の5つ(図1)があげられるが、それらの各タスクでの自動化の現状はどのようなものか、そしてそこで利用されている技術について解説する。
まず、「メタデータ収集」では、社内に点在するデータベース、BIツール、ETLプログラムなどからスキーマ情報やリネージ(データの流れ)を自動的に抽出することが可能となっている。SQLやPythonプログラムを解析し、リネージをテーブルと矢印で表現するデータリネージグラフ(図2)を作成する「コード解析(Parser)」や、異なるシステム間でもデータの統計的な特徴(分布や値の範囲)が一致する場合、同一データである可能性を検知する「データ指紋照合(Data Fingerprinting)」といった技術が使われている。
「分類・タグづけ」では、個人情報や機密情報に該当するデータを自動的に判別し、タグを付与することができるようになっている。機械学習(Random Forestなど)を使うことで、周囲のカラム名やデータのコンテキストから合致するものを確率的に判断できる。また、NLP(自然言語処理)により、カラム名が異なっていても意味的な類似性を計算して同じタグを付与することができる。
「データ品質管理」では、過去の傾向から「正常な状態」を学習し、突発的なデータ欠損や異常な値の混入を検知した際にアラートを通知することができる。機械学習や深層学習による異常検知、時系列予測の技術が用いられる。
「ビジネスメタデータの付与」では、生成AIやLLMがテクニカルメタデータ、サンプルデータ、関連ドキュメントなどを読み込み、説明文を自動的に生成するようになっている。また、企業の用語集(ビジネスグロッサリ)とテクニカルメタデータを照らし合わせ、最適な用語をレコメンドするセマンティック・マッピングという手法も用いられる。
「活用・公開」では、セマンティック検索により曖昧なキーワードから、適切なデータを特定、あるいは候補をレコメンドできるようになっている。また、自然言語による指示に対し、適切なデータの選択からSQLの生成・実行、結果の可視化までを自動的に実行するAIエージェントも登場している。