データレイクとは?

データレイクとは、あらゆるデータを蓄積できる「湖」のようなデータ貯蔵庫をさし、データをより柔軟に活用するため事前処理を行えます。

企業に蓄積されるデータは、大きく「構造化データ」と「非構造化データ」に分類できますが、データレイクのメリットになっているのが、構造化データだけでなく非構造化データもそのままの形で保存できる点です。

まずは理解の前提として、構造化データと非構造化データの違いについて確認しましょう。

構造化データとは?

構造化データとは、「列」と「行」の概念を持ったデータのこと。ExcelやCSVデータのほか、ERPやCRMなど業務支援ソフトで利用されるRDB(リレーションデータベース)に格納されるデータなどが構造化データに該当します。

構造化データはフォーマットが決まっているため検索・集計・比較しやすく、データの解析・分析にも適しています。

非構造化データとは?

非構造化データとは、用途や形式が様々で、構造化されていないデータのこと。メール文書やOfficeドキュメント、SNSのテキスト、画像、動画、音声などのデータが代表的です。

エッジデバイス・IoTデバイスから収集されるセンサーログやGPSデータなども非構造化データに該当します。

関連記事:エッジAIとは?概要からクラウドAIとの違い、事例まで解説

データレイクの特徴・メリット

データレイクの特徴・メリットとしては、一般的に以下の3点が挙げられます。

様々な形式のデータを一元管理できる

ビッグデータは構造化データ・非構造化データ問わずあらゆるデータを意味しますが、昨今の企業で取り扱われるデータの大部分は非構造化データです。

非構造化データは容量が大きく、データ量の増加にともないデータの一元管理に苦労する企業が増えています。この課題を解決できるのが、様々なデータを同じように保存できるデータレイクです。

本来、構造化データと非構造化データは別々に管理されますが、2つの異なるデータを結合することで、より高度な分析が可能になります。データレイクは異なる構造のデータを同じ場所に収容・一元管理できるため、企業のデータ分析を推進する方法として注目を集めているのです。

データの蓄積と抽出が簡単

データレイクは、ビッグデータを生データ(ローデータ)のまま保存できるのもメリットです。データを格納する際に構造化する必要がなく、未加工のまま蓄積できます。手間・労力をかけることなくリアルタイムに大量のデータを次々と格納できるのは、データレイクの真骨頂だと言えるでしょう。

また蓄積されたデータは、必要に応じて簡単に抽出・参照できます。データレイクでデータ活用のための事前処理を極力削減することで、企業は新しい情報資源を迅速に獲得し、スピード感を持った意思決定が可能になるのです。

データウェアハウス(DWH)とデータマートとの違い

データレイクの特徴を理解するため、データウェアハウスやデータマートとの違いも把握しておきましょう。

データウェアハウス(DWH)とは?

データウェアハウス(DWH)とは、構造化データの格納・分析に最適化された貯蔵庫のこと。あらかじめ決められた指標を分析するためにデータを収集・蓄積します。なお、データウェアハウスと近いものに「BI(ビジネスインテリジェンス)」があります。

データウェアハウスに格納されたデータは構造化されているため、効率的かつスピーディーにデータを抽出・分析できます。一方で、事前に決められた定型的な分析しかできないほか、データそのものが少ないと効果を発揮できないことがあります。

データマートとは?

データウェアハウスが全社的に使われるシステムであるのに対し、データマートは部門単位で利用されるシステムのこと。データウェアハウスのなかから、特定の用途・目的に合わせて必要なデータだけを抽出して利用するのがデータマートです。その意味で、データマートはデータウェアハウスの一部だと言えます。

データレイクとデータウェアハウスの違い

データレイクもデータウェアハウスも、企業内に散在するデータや日々増え続けるデータを統合し、一元管理するためのシステムですが、主に以下の2点で異なります。

非構造化データならデータレイク

データウェアハウスは、非構造化データを蓄積するのには向いていません。データウェアハウスに格納する非構造化データはETL処理をおこなう必要があり、膨大なデータを処理するとなると莫大なコスト・労力を要します。

刻々と生み出されていくビッグデータをリアルタイムに格納するには、ローデータのまま格納できるデータレイクが最適です。

特定の目的があるかどうか

データウェアハウスは、データの分析要件ありきで、特定の目的に沿ったデータだけを社内の各システムから収集・蓄積します。

一方で、データレイクはデータ収集時に目的を定義しません。多種多様なデータをリアルタイムに蓄積し、後に必要なデータを抽出・活用するのが特徴で、「何に使うか分からないけど、使う可能性があるデータは貯めておこう」という思想が根底にあります。

データレイクの課題

データレイクには多種多様かつ膨大なデータを蓄積できますが、やみくもにデータをプールしていくと、後になって「必要なデータの場所が分からない」「データが利用可能な状態か分からない」といった問題が生じます。

この状態は、データ(魚)が見つけやすいレイク(湖)から、データ(魚)を見つけにくいスワンプ(沼)になる様子になぞらえて「データスワンプ」と呼ばれます。

データレイクがデータスワンプ化するのを避けるには、「データカタログ」が欠かせません。データカタログとは、各データのタイトルや概要、出どころ、ファイル形式などのメタデータを付与して整理整頓したものです。

データカタログを作成することで、誰でも容易にデータの状況を把握でき、必要なデータを簡単に発見・抽出できるようになります。

データレイクの構築事例|アプリ開発に役立てる株式会社ジンズ

眼鏡大手の株式会社ジンズは、データレイクを導入してアプリ開発などに役立てています。

同社が開発した「JINS MEME」は、加速度センサーや眼電位センサーなどが付いており、黒目の動きやまばたき、頭部の傾きや揺れなどを測定できます。同社は、JINS MEMEから得られたログデータをデータレイクに蓄積・分析することで、新しいアプリ開発のアイデアとして活用したのです。

結果、2018年以降2つのアプリを開発しリリース。アスリートやランニング愛好者向けに走行フォームの改善点をアドバイスする「JINS MEME RUN NEXT」や、デスクワーク時の集中力を測定する「JINS MEME OFFICE」です。

同社のデータレイク活用は新規サービスの開発にとどまらず、既存アプリの改良にも役立てています。

ビッグデータをより柔軟に、より多元的に活用しよう

目まぐるしく変化する市場において、将来どんなデータが必要になるかは分かりません。今は価値がないように思えるデータから、後に画期的な発見が生まれる可能性は十分にあります。

今後、ビッグデータの活用が激化するデジタル時代において、データレイクの活用は、新しいビジネスやサービスが生まれるアイデアのきっかけとなるでしょう。

本編では、データレイクとデータウェアハウスを比較しましたが、これらは選択的に導入するものではなく共存共栄の関係にあるものです。それぞれの長所を活かした運用ができれば、ビッグデータをより柔軟に、より多元的に活用できるでしょう。

関連記事

ヘルスケア事業に舵 花王、ライオン トイレタリー大手企業

コロナ禍で健康や衛生に対する意識が高まる中、花王やライオンなどトイレタリー(日用的な衛生商品、消費財)大手企業が、ヘルスケア事業の拡大を加速する方針を示している。消費者密着型のビジネスで蓄積したデータを活用し、消費者へのパーソナルサービス提供につなげることまでも視野に入っている。

世界でシェアの高いドローンメーカーは?国内メーカーの展望も解説

ドローンは、世界中の産業、工業など幅広い場面で活躍しています。無人で飛び回りさまざまな業務をこなすドローンは、使い方次第でビジネスを大きく変えられる先進技術です。 ドローンの有用性に注目が集まる中、ドローンのメーカー間のシェア争いも激化しています。ドローン市場はメーカーの新規参入や入れ替わりが激しいのが特徴です。日本のドローンメーカーも、より高度な技術開発を急いでいます。 そこでこの記事では、世界でシェアの高いドローンメーカーを解説。また世界でシェアを伸ばす国内ドローンメーカーについてもご紹介します。

どうして?息の長い「擬人化ブーム」を読み解く

軍艦から動物、細胞にいたるまで、何でもキャラクターにしてしまう「擬人化」ブームが続いている。2013年に軍艦を擬人化したゲーム「艦隊これくしょん」の登場以来、既存の有力IPに頼らず、オリジナルキャラクターを「量産」する手段として「擬人化」は広く認知されるに至った。

ランキング記事

1

「クララが立った!」を英訳せよ

「クララが立った!」の翻訳は容易ではない。『アルプスの少女ハイジ』を知らない国の人に、「Clara stood up !」や「克拉拉站着!」と直訳しても意味を成さない。言葉には様々な意味や記号が埋められている。それは、年代、国、民族、言語で大きく異なるからだ。

2

閉店相次ぐ銀座 コロナ禍で商業施設苦境に

東京の代表的な商業地である銀座で、店舗の閉店が増えつつある。メインストリートの「中央通り」から中に入った通りでは、閉店した店舗が目立ち、中央通りに立地するビルでも空室が散見される。

3

リカーリングビジネスはサブスクリプションとどう違う? 新しい収益モデルを解説

従来の商品やサービスを売ったら終わりの「買い切り型」モデルとは異なるビジネスモデルが目立ちます。 そのなかのひとつが「リカーリング」です。リカーリング型のビジネスには様々なメリットやデメリットがあります。 本記事では、リカーリングのメリット・デメリットや、サブスクリプションとの違いについて、具体例を挙げながら解説します。

4

内部統制報告制度「J-SOX法」とは? なぜできたのか?

企業における内部統制は、様々な業務が適正に行われ、組織が適切にコントロールされているかどうかをチェックすることを指しますが、その中でも事業年度ごとの財務報告の内部統制について定めているのが、J-SOX法(内部統制報告制度)と呼ばれる制度です。 J-SOX法は、事業年度ごとに公認会計士ないしは監査法人の監査を受けた内部統制報告書と有価証券報告書とともに内閣総理大臣へ提出することが義務付けられています。 また違反した場合は、金融商品取引法に「(責任者は)5年以下の懲役または500万円以下の罰金またはその両方(法人の場合は5億円以下の罰金)」と罰則が定められています。 しかし、結果的に企業の内部統制を強化し、不正会計などのリスクを減らすことができるため、J-SOX法は企業にとってもメリットのある制度と言えます。 この記事では、J-SOX法の解説のほか、ITシステムに関する「IT統制」についても解説しています。企業の監査部門や、内部統制に関する部署で働いている方は、ぜひ参考にしてください。

5

パワー半導体の世界シェアは?注目市場の今後の動向を解説

パワー半導体(パワートランジスタ)は、家電や電気自動車をはじめとして、さまざまなデバイスの電源管理に使われています。 多くの分野で需要が伸びており、長期的な成長が期待できるマーケットです。 日本の企業や大学発ベンチャーが競争力を保っている分野でもあり、「パワー半導体強国」として世界市場でのシェアを獲得するべく、積極的に研究開発を行っています。 本記事では、世界規模で成長をつづけるパワー半導体の市場規模や、今後の展望を解説します。

人気のキーワード

海外スタートアップ情報はこちら!  寄稿・執筆者募集中