レポート・ライブラリ|株式会社アイ・ティ・アール

【R-214104_6963063087】ビッグデータ活用の真の課題とは

作成者: 株式会社アイ・ティ・アール|Sep 29, 2023 12:37:01 AM

ビッグデータに対する注目は衰えていないが、実際にビッグデータをうまく活用できている企業はまだ少数にとどまっている。これまではビッグデータ活用の課題として3V(Volume:量、Velocity:更新頻度、Variety:多様性)による処理の難しさがあげられていたが、企業がビッグデータの活用を推進するためには実際に利用する現場の担当者の分析環境の整備に注力すべきである。

ビッグデータ活用における技術の進化

ここ数年、主要なITキーワードとして「ビッグデータ」が注目され、データ活用やデータ分析のための技術や手法、さらに「データサイエンティスト」といった新たな職種などの必要性を訴える記事や書籍を数多く目にする。「ビッグデータ」は、データの量に注目が集まりがちであるが、企業がデータを重視し、意思決定にデータを活用する際、データ量だけが問題となるわけではない。これまで、ITRではビッグデータの説明においては、「従来の技術や手法では処理しきれないような、多量で多様なデータの集まり」または、3V(Volume:量、Velocity:更新頻度、Variety:多様性)といった表現を使い、単なるデータ量の大きさだけを示すものではないという特性を説明してきた(ITR Insight 2013年夏号「ビッグデータの本質と対応策」#I-313072)。

しかし最近は、3Vというデータ処理を困難にしている要因に関しても、技術の進化によって、処理しきれないという状況から脱しつつある。まず、量については、例えば、Oracle社のExadata Database Machine X4-2は単体で、1秒あたり最大266万回のIOPS(ランダム8K読取りI/O操作)をSQLによるデータベース処理で実現している。また日立製作所のHitachi Advanced Data Binderプラットフォームでは世界で初めてTPC-Hベンチマークテストの100TBクラスに登録され、82,678 QphH@100,000GBの性能を発揮した。また、更新頻度については、最新のTPC-Cベンチマークで、Oracle社のSPARC T5-8 Serverは、8,552,523 tpmCという性能を発揮している。つまり、量と更新頻度に関しては、必要となる性能の確保は十分なコストをかければ、すでに困難ではない状況になったといえる。『分析力を武器とする企業』(日経BP社)で知られるトーマス・ダベンポート氏も最新の著書である『データ・アナリティクス3.0』(日経BP社)でビッグデータを定義する3Vにいずれ「Venality(金次第で動くこと)」が追加されるであろうと述べている。

さらに、ビッグデータでは非構造化データの取り扱いの難しさ、つまりデータ多様性が課題にあげられるが、実際には非構造化データをそのままの形でデータ分析することはほとんどない。例えばFacebookなどのソーシャルメディア上でのつぶやきから自社の製品に対する評判を得ようとする場合、膨大なつぶやきという非構造化データは分析ツールによるネガポジ判定処理によって、構造化される。このように、ビッグデータ活用における障害とされてきた3Vは、もはや絶対的な課題ではなくなっている。