インターネットブラウザで、運転中に、ソーシャルネットワークで、支払い時に、買物時に、電話中に、人間および機械は、大量のデータを1日中、世界中で生み出しています。「ビッグデータ」という用語は、このような大量のデータを表しています。きわめて大量で、複雑で、一時的な、多数のデータのことであり、また、あまりにも整理されていないために通常のコンピュータで処理できないデータでもあります。そのため、まずデータを収集してから、次にこれを分析して洞察を得ます。
想像できないほど大量のデータが、人間と機械から生み出されています。現在は1年間に16.3ゼタバイト、そして2025年までにはその10倍に増加すると見られています。「ビッグデータ」は、きわめて貴重な資源であり、コミュニケーションの方法を変えつつあります。私たちは、今まで以上に自分自身についての情報を他人に開示しているのです。このことには、メリットもあればデメリットもあります。
昼休みにあなたは、スマートフォンを取り出して、何か見逃しているものはないだろうかと、さまざまなアプリをチェックしています。そして、オンラインショップで、あるものを衝動買いします。気になっていたスキー用ヘルメットが、大幅に値引きされているというメッセージが届いたからです。偶然の一致のように思えることも、実は、高等数学や分析スキル、ターゲットマーケティングなどの成果、すなわち、ビッグデータの応用なのです。
インターネットブラウザやソーシャルネットワーク上で、運転中も、クレジットカードによる支払のときも、オンラインショッピング中も、スマートフォンで電話中にも、その他さまざまな状況で、世界中の人間と機械は、休みなく大量のデータを生み出しています。
それと同時に、カメラが街を監視し、スマートメーターシステムが電力消費量を計測し、コンピューターが株式市場の取引を実行し、医療機器が健康データを記録し、コネクテッドカーがインターネットに接続されています。
「ビッグデータ」という用語は、このような大量のデータを意味しています。より正確には、マスデータという場合もあります。きわめて大量で、複雑で、一時的な、多数のデータのことであり、また、あまりにも整理されていないために通常のコンピューターで処理できないデータでもあります。
そのため、まずデータを収集してから、次にこれを分析して洞察を得ます。情報からベネフィットを得ること、それが実際の目的です。したがって、ビッグデータとは、とくにマーケティングにおいては、ビッグデータ分析と同じ意味です。
ビッグデータは、三つの主要な特性により定義されます。量、多様性、速度です。デジタル化の進展により、データの量は、今までにない速さで増加し続けています。現在は1年間に16.3ゼタバイトのデータを生み出して記録しています。ゼタバイトは、10億テラバイトです。IDCおよびSeagateが実施した研究によれば、2025年までには、この数値は、163ゼタバイトに増加すると見られています。その数字を全部書いてみるとこうなります。163,000,000,000,000,000,000,000バイト。
この膨大な量のデータを確実に保管するためには、サーバーファームが必要です。インフィニオンのエネルギー効率の優れた半導体は、このようなサーバーファームの電源コストの大幅な低減を実現します。
将来、そのデータ量はヨタバイト、すなわちゼロが24個ついた数になるでしょう。この急速な増加は、データの多様性にも関係しています。初期のデジタルデータの大部分は、数値や文書の形式でした。インターネットやデジタルカメラが発明されると、画像、音声、ウェブデータが加わりました。さらにその後、携帯電話、スマートフォン、ユーチューブ、ネットフリックスなどが現れて、ソーシャルメディアやストリーミングサービスから発生するモバイルデータや情報も登場しました。今では、モノのインターネット(IoT)の一部であるデバイス、たとえば、フィットネスバンド、スマートサーモスタット、コネクテッドカーなどが、このデータの大海にデータをさらに供給しています。
もう一つ、デジタル時代の初期と比べて変わったことは、データにアクセスする速度です。初期には、データを蓄積していましたが、次には、定期的に圧縮されるようになり、今は、リアルタイムで取得できます。
しかし、元はといえばこのようなデータは、すべて単なる情報を集めたものにすぎませんでした。データは、迅速に処理し、正確に分析して初めて役に立ちます。そこがビッグデータのメリットでありデメリットでもあります。しかし、それは、そもそも誰にとっての話でしょうか。
ビッグデータは、私たちの日常生活で、ますます重要な役割を果たすようになっています。科学者は、データを使って、気候の変動、地震や伝染病の発生などについて研究しています。政府機関や情報機関は、大量のデータを綿密に調査して、テロリストを発見する手がかりを捜しています。コンテンツデータ、メタデータ、取引データ、行動データ、健康データ、財務データ、計測結果、監視データなどが収集されています。このようなデータは、株式市場、原子物理学、地域交通、電気通信、市場調査、エネルギー供給、保険会社、小売店チェーン、自動車業界、犯罪学、テロ防止、マーケティングなどの分野に活用できると考えられています。
現状から得られるデータは、将来の予測に利用されます。ビッグデータ分析、またはデータマイニングとも呼ばれるものが、そのような場面で効果を発揮します。
オンライン販売業者のアマゾンは、ベルリンにある開発センターで、機械学習および予測分析の研究開発をしています。特別なアルゴリズムを使って、今までの購買動向のほかに、ソーシャルメディアの投稿についても分析します。顧客個人の生活スタイルを把握して、近いうちに流行するものを考慮に入れます。この結果を使って、パーソナライズされたおすすめ商品情報を発信するのです。
人間の知能では全く関連がわからないような大量のデータの中から、相関関係を見つけることが重要になっています。グーグルは、特定の検索ワードを使って、インフルエンザの流行を認識します。その背後にある考え方は、ある人が、またはその家族が、感染した場合には、まずその病気に関する情報を探し始めるということです。検索ワードと病気のデータとを分析すると、実際に、その関連が明らかになっています。グーグルは、保健当局よりも最大で2週間早く、インフルエンザ流行の経過を予測することができました。しかし、この方法は、毎年、同じレベルの精度で予測できるようになったわけではありません。
次は農業からの例をご紹介します。農家では作業がますますデジタル化されています。農地や倉庫を最大限に利用するのに、ビッグデータが役立っています。水の撒き過ぎを防ぐため、センサーで地中の湿度を計測して、単位面積ごとに異なる量の水や肥料を与えます。また、他のシステムでは、乳牛の健康や肥育度をあらわすデータを収集しています。これによって時間を節約でき、農家は、初期の段階で病気を見つけることができます。
自動車メーカーのBMWも、製造オペレーションにビッグデータを活用しています。ボディの部品にIDを割り当てて、プレスを微調整できるようにしています。鉄板の厚さ、剛性、表面特性に応じてプレスを調整することにより、割れを防止します。
ビッグデータは、既存の方法では分析や処理が不可能なほどの膨大な量のデータを含んでいます。これは、たいていリアルタイムで発生します。それに対して、スマートデータは、この概念を超えるものです。一連のビッグデータの中から特定された、検証済みで、有益な高品質のデータを意味します。つまり、ビッグデータはデータベースであり、処理が必要なある種の原材料です。それを精製してスマートデータにすることで、多大な経済力を持つようになります。
この混沌としたデータの洪水に秩序をもたらすためには、インテリジェントなアルゴリズムが必要です。ビッグデータをスマートデータにするためです。ビッグデータは、最初は単なる膨大な量のデータにすぎません。分析しなければ、それは誰にとっても役に立たないものです。分析することによって初めて、高品質のデータになります。アルゴリズムの目的は、パターンと傾向を見つけ出し、アナリストがそれを解釈し評価できるようにすることです。たとえば、企業がこの方法を使って、製造上の弱点を見つけて修正することができます。これにより、競争を乗り越える力を付けることができるでしょう。
企業は、このデータ収集と分析から恩恵を受けられる、とドイツ連邦経済省およびフラウンホーファー研究機構インテリジェント分析・情報システム研究所が述べています。その理由は以下に示すとおりです。
ビッグデータは、消費者にもメリットがあります。フィットネストラッカーやアプリは、近頃とても人気があります。それを使って、スポーツ活動、睡眠パターン、血糖値、血圧、食習慣、その他色々なものを計測しています。ツールは、この情報を分析して、健康な行動のためのヒントを提供します。
消費者は、ビッグデータでお金を節約することもできます。たとえば、スマートメーターで消費電力を記録して、エネルギーの無駄遣いの元を発見できます。あるいは、オンラインショップが、その人の習慣や好みを記録して、パーソナライズされた割引券や特価品を提供できます。スマートシティでは、お金の節約ではありませんが、イライラの節約ができます。交通データをリアルタイムで分析して、渋滞を避けて、乗客や運転手に代替ルートを提案します。コネクテッドカーは、非常時には自分でブレーキをかけたり、自動的に事故を報告したりします。
ビッグデータには必ず二つの側面があります。一つはデータの生成であり、もう一つはデータの分析と利用です。産業界や科学は、ビッグデータから恩恵を受けています。しかし、ユーザーは、自分のデータが分析対象となるにあたって、どのような対価を払っているでしょうか。これには二つの観点があります。第一に、たいていの消費者は、不注意に情報を漏らしていて、それが何に使われるか、あまり気にしていません。第二に、消費者は、データ利用について同意を求められていない場合も多いのです。
居住地と結びつけられた生年月日、スマートフォンのデバイスID、ブラウザーのクッキー、IPアドレス、チャットやメールの内容、ソーシャルネットワークの投稿やプロフィール。スマートなツールは、これらすべての情報を足し合わせて、個人の全体像を作り出します。データ記録が匿名化されていたとしても、容易に元の個人と対応させることが可能です。その結果として得られるのは、きわめて「透明な」ユーザーです。次に、ユーザーはいくつかのカテゴリーに分類されます。たとえば、保険会社や銀行が保険の販売や資金の貸付を行うため、あるいは、雇用主が新しい従業員を探すため、などです。
データ保護運動家、たとえばドイツの「Digitalcourage」協会は、ビッグデータ分析の利用には本質的なリスクがあると考えています。運動家たちは、データが悪用されている、個人の権利が侵害されている、そして、アルゴリズムによってある種のカテゴリーに分類された場合には差別を受ける、と主張しています。つまり、アルゴリズムによる結果が、現実と合致しているという保証はないということです。データは、常に定量的なものであって、前後関係を考慮しなければあまり意味がありません。
それと同時にデータは、機密情報をはじめとして、あらゆるものを含んでいる可能性があります。このことは、分析する側に力を与えることになります。フェイスブックは、ユーザーが自分の世界観に適したものだけを自動的に見られるようなアルゴリズムを作っています。グーグルの検索結果も、検索エンジンのアルゴリズムおよびユーザーの過去の検索ワードが影響し、偏向があります。専門家は、これを「フィルターバブル」と呼んでいます。
少なくとも、欧州のデータ保護法では、データは収集した目的のためにのみ、また収集した提供物に限って利用できる、と定めています。これが目的制限の原則です。たとえば、ピザの注文データをコネクテッドカーのデータと結びつけて、車で近くを通過する顧客に割引情報を送信してはなりません。
多くの消費者は、情報漏洩が何を意味するのか、まだ理解していません。「収集されていないデータだけが、セキュアなデータである」ということに人々が気づかなければならない、とDigitalcourage協会は言っています。
しかし、消費者保護団体は、ビッグデータの搾取にも、それに反対するデータ保護にも、両方について注意を呼びかけています。分析が消費者に多大な利益をもたらすこともあります。たとえば、コネクテッドカーが自動的に事故を報告したり、交通渋滞を回避したりする場合です。その一方で、データを所持する側が、消費者を不正に操作したり支配したりするおそれもあります。 ドイツ消費者センター総連盟は、個人がそれぞれ、どのデータを提供するか、そしてどのように利用しても良いか、を決める権利を持つべきだと提唱しています。
データ保護ガイドラインの有無にかかわらず、ビッグデータは、将来、さらに大きくなるでしょう。データは、将来の金鉱石です。データ分析の効率は、向上し続けるでしょう。そして、ますます多くの企業が、存続のためにデータ分析に依存するようになるでしょう。データを正確に分析して解釈する専門家が、今以上に求められるようになります。
顔の復元に関するアルゴリズムはすでに存在しています。その技術を使って、ソーシャルネットワークで得られたプロフィール画像を、医療用MRT画像と比較することも可能になりそうです。インターネットフォーラムの文章を個人に対応づけるテキストマイニングのアルゴリズムも、近いうちに出現するでしょう。このトレンドは、ビッグデータを人工知能と結合する方向に向かっています。ロボットや機械が独自に学習するようにプログラムされて(「機械学習」)、その機械自身がデータを迅速に処理して反応することができるようになります。コネクテッドカーや自動運転は、その例です。
その他に成長しているが、モバイル機器の「コンテキスト アウェアネス」です。アプリが特定の情報を分析して、ユーザーが次に求めているものがわかるようになります。たとえば、ユーザーが顧客の名前を入力すると、モバイル機器が即座に、そのビジネスパートナーとの今までのeメールやアポイントメントを提示したり、あるいは電話をかけることを提案したりします。
ビッグデータは、多くの便益や新しい可能性をユーザーに提供します。この機会をとらえる際に、リスクを見失わないようにすることが課題になります。そのためには、ユーザーが自分自身のデータを注意深く扱うことが有効です。
ウェブサーバーのログ、ソーシャルメディアでの行動、携帯電話の利用明細書、センサーからの情報などを分析するために、企業は以下のようなプログラムをよく使います。オープンソースソフトウェア フレームワーク(Apache Hadoop、Spark、 NoSQLデータベース、Map Reduce)、データベースシステム(Big Table, Cassandra)、グラフデータベース、分散ファイルシステムなどです。
インターネットブラウザで、運転中に、ソーシャルネットワークで、支払い時に、買物時に、電話中に、人間および機械は、大量のデータを1日中、世界中で生み出しています。「ビッグデータ」という用語は、このような大量のデータを表しています。きわめて大量で、複雑で、一時的な、多数のデータのことであり、また、あまりにも整理されていないために通常のコンピュータで処理できないデータでもあります。そのため、まずデータを収集してから、次にこれを分析して洞察を得ます。
ビッグデータは、科学およびビジネスにおいて、ますます重要な役割を果たしています。気候変動、自然災害、伝染病の発生のような現象は、この大量のデータのおかげで、ますます詳細に調査できるようになっています。また、政府機関や情報機関が、ビッグデータを使ってテロリストを早期に特定したり、オンラインショップが顧客に対してパーソナライズされたおすすめ商品情報を発行したりできます。収集された広範囲にわたるデータに、株式市場、市場調査、農業、工業生産、保険会社も関心を持っています。ビッグデータは、政治にも利用されています。その一例は、2016年の米国大統領選です。ピンポイントの広告を利用して、自分に有利になるように決断させたと言われています。
ビッグデータは、企業だけにメリットがあるわけではありません。消費者にとっても、たとえば、フィットネストラッカーやアプリを使って、睡眠パターン、スポーツ活動、食習慣、血圧をモニターすれば、健康増進に役立てることができます。お金の節約にもなります。スマートメーターが家庭での電力消費を記録して、エネルギーの無駄遣いのもとを発見できます。オンラインショップが、検索データに基づいて、パーソナライズされた割引券や特価品を提供できます。スマートシティでは、時間を節約できます。交通データをリアルタイムで分析して、渋滞を避けることができます。ビッグデータは、セキュリティの強化にもつながります。コネクテッドカーは、非常時には自分でブレーキをかけたり、自動的に緊急電話で通報したりできます。
ビッグデータは大量のデータということですが、スマートデータには、それ以上の意味があります。その目的は、データの集合から、有用で検証済みの高品質な情報を得ることです。アルゴリズムを使ってデータのパターンおよびメッセージを検出し、アナリストがそれを評価して解釈します。企業は、この方式を使って、たとえば、生産における弱点を特定し、生産プロセスを最適化することができます。
大量のデータ、そして何よりも、その組み合わせによって、ある個人の全体像を作り出すことができます。すなわち、人間はますます透明になってきているということです。したがって、データプライバシーの活動家は、人間が特定の計算されたカテゴリーに分類されること、そして、たとえば仕事への応募やローンの申込の際に、その分類によって差別されることを批判しています。また、フィルターバブルに巻き込まれることもあります。これは、検索エンジンを通じて、たとえば、自分の世界観に合ったものだけしか見えなくなることです。消費者保護のために、欧州のデータ保護法のような法律では、データは特定の目的に限って利用できると規定しています。
1つ確実なことがあります。世界中のデータは増加し続けて、それは「未来の黄金」だと見られています。特に企業において、ビッグデータ専門家への需要がより大きくなるということです。ビッグデータと人工知能を結びつけるトレンドもあります。ロボットが独自に学習するようにプログラムされると、周囲の環境に対して、より適切に反応できるようになります。このようなスキルは、たとえば、自動運転車で重要な役割を果たすでしょう。ビッグデータアプリケーションのリスクだけでなく、メリットについても見失わないようにすることが、将来においても常に重要となります。
更新:2017年10月