「全てを保管しきれない」ことが前提――AI研究者の山田誠二教授が語るビッグデータ活用の課題

IoTなどから、多様で膨大なデータを収集し、AIでそれを処理するという時代が目前に迫ってきている。これは、企業が、今まで以上の勢いで増加するデータと格闘しなければならないことを意味する。長年にわたってAIに携わり続けてきた研究者は、これからの時代をどのように捉え、どんな課題を感じているのだろうか。

» 2018年11月16日 10時00分 公開
[PR/ITmedia]
PR

ビジネスの現場で期待される、人間と協調するAI活用

 AI(人工知能)は、コンピュータの発達とともに長年にわたって研究が続けられてきたテーマである。このAI領域で30年以上の研究キャリアを持つ国立情報学研究所の山田誠二教授は、「その間には『AIの冬の時代』もありました」と語る。このような先進テクノロジーには、しばしば世間の期待感が過剰に高まる時代があり、その熱が冷めたとき研究テーマ全体に幻滅されてしまうことがある。AIというテーマは、こうした世間の掌返しを何度か受けてきた。

 「そうした『冬の時代』には、研究者はAIそのものではなく周辺の領域に目を向けます。私自身は、実世界におけるAIの多くが人間とともに存在し、人間とAIとがやり取りしながら一緒に活動していくことになると考え、その協調を目指す方向性の研究を進めてきました」(山田教授)

 山田教授の現在の研究テーマは、HAI(ヒューマンエージェントインタラクション)とIIS(知的インタラクティブシステム)の2つの分野。前者は、擬人化エージェント(画面上のアバターや音声などのUI)や物理的な動作を行うロボットなどを介して、人間とAI、あるいは人間同士が協調作業を行うためのインタラクションデザインを目指す研究で、山田教授は10年ほど前から取り組んでいる。

 一方、人間と機械学習・データマイニングシステムの知的なインタラクションデザインを目指す、新しい研究領域が後者だ。

 「初期のAIは、人間がそばにいて操作や指示をすることが前提でした。今でも、ある段階の判断や分類を人間が行うことで効果や効率が大きく上がることが多いのです。実際のビジネスの現場でAIを活用していくことを考えると、AI単独でなくエンドユーザー(人間)が協調し合うことを想定する方が現実的です。例えば、ここ数年で登場してきたAIスピーカーなどは、その一例です。ようやくAIがエンドユーザーの手元に届くようになり、今後はAI搭載家電も増えてきます。ビジネス現場ではまだこれからですが、HAIはそのような場面で役立つ研究テーマなのです」

データ量を幾何級数的に増加させるAIとIoT ストレージは追いつけるのか?

 一方、AI技術応用製品とともに社会に浸透しつつあるテクノロジーとして、しばしば対になって語られるのがIoT(モノのインターネット)だ。現在のAIの多くがインターネットを前提としているのと同じく、IoTもインターネットを前提としたテクノロジーであり、膨大な量のデータを伴う点でも共通だ。

 「AIは『存在するデータをどう処理するか』という技術であるのに対し、IoTはとにかく『データを生成する』ことだけを意識した技術。その意味では相性が良い組み合わせと言えるでしょう。データ量の多さは統計学的にも有利ですし、AIの中でも機械学習などは基本的に訓練データが多いほど有利となるからです」

 実際、山田教授が取り組むHAIの研究においても、しばしば参加者実験(被験者に参加してもらう実験)が行われているが、その参加者を募る方法も変わり始めているという。

国立情報学研究所 コンテンツ科学研究系教授の山田誠二氏 国立情報学研究所 コンテンツ科学研究系教授の山田誠二氏

 「参加者実験にクラウドソーシングなどを活用すると、集まる被験者は以前より桁違いに多くなります。YouTubeを活用して数千万人もの被験者からデータを得たというケースもあります」

 そのほか、モーションキャプチャのように、人間の動きや位置、向きをデータとして取り込むテクノロジーも拡大している。IoTのみならず、より多くの領域で、読み取れるデータの量と種類が増え続けているのだ。

 「データを生成するテクノロジーが多様化し、適用する範囲が広がっていけば、データの量は相乗的に増え、その増加は指数関数的となります。それに対しストレージは、それを超えるスピードで増えることはないので、全てのデータを保存しきれない時代が遠からず訪れると思います。いずれさまざまな制約から、管理すべきデータの量や範囲を抑えるようにせざるを得なくなるでしょう」

注目は「データの質」や「メタデータ」 AI研究がもたらすヒント

 かつて企業は、その時に必要なデータを作ることに終始していた。やがてテクノロジーが進化、発展し、ビッグデータ活用の広がり、クラウドの浸透もあり、多くの企業は「取れるデータは全て蓄積する」という考え方になっていった。しかし、クラウドのストレージ容量も決して無限ではなく、急激に増えるデータの保存には、すぐに限界が訪れる。

 「全てを蓄積できない」ということは、今後はデータを選別し、整理する必要に迫られることを意味する。この課題に、AI研究が一つのヒントをもたらす。山田教授は、こう説明する。

 「データの量という面から言えば、大きな非構造化データの代表は映像のストリーミングデータです。例えば、監視カメラの映像などをずっと録画し続けたとしても、実際にはストレージ容量による制約があります。4Kなどの高精細化で、その問題はさらに顕著になってきます。一方で人間は、生データをそのまま記憶しているわけではありません。抽象化や構造化を行って記憶しています。同じようなことをAIに行わせる技術の研究はかなり前から行われており、まだAIがあまり得意な分野ではないものの、実現できれば生データを捨てて構造化されたデータだけ残す形で、必要な情報を減らすことなくデータサイズを大幅に減らすことができるでしょう」

 もちろん、この方法でデータサイズを削減することは、生データを破棄することが前提だ。生データを残したまま構造化したデータを付加していけば、むしろデータは増えてしまう。一方、生データを破棄するとなれば、その後の活用に一定の制約ができてしまう。

 「用途によって求められているメタデータは異なります。また、メタデータから元の生データを復元することはできません。ある程度の期間は生データも一緒に保存しておき、使われ方の範囲が見えてきたら、それに合うパターンでのみメタデータを作り、元の生データは破棄する、といった運用が現実的でしょう」

 目的に合ったメタデータを確保できるようになれば、むしろ多くのAIにとっては扱いやすくなり、処理も高速になる。調理の前に食材の下ごしらえをしておくようなものなのだ。

今後重要になるのは、目的に応じたデータクレンジングとデータ管理

 目的に合うメタデータを確保するには、ユーザーがその目的を明確に持っていなければならない。「後で役に立つかも」という考え方は、それと真逆なものだ。データ管理の課題を考える前に、ユーザーは、まずデータ活用戦略を考える必要がありそうだ。

 「今後予想されるデータ量の爆発的な増大を考えると、企業の業務部門でも、何に使うかを意識してデータを選択する必要があるはずです。データを取得する最初の段階やデータ取得後のクレンジングや最適化、そしてその後の効率的データ管理などは特に重要となるでしょう」

 今回話を聞いた山田教授が基調講演を行うイベントが11月30日に東京で開催される。古くからデータ管理に取り組んできたグローバルリーダー企業、ベリタステクノロジーズの「Veritas Vision Solution Day」だ。

 ベリタスは、データ管理全般に先進のテクノロジーをもって多彩なソリューションを提供している。日々の活動に不可欠なデータを失わないように保護するバックアップの技術、活用頻度の低いデータを取り分けて圧縮保管する技術、クラウド、仮想環境の区別なく、データの活用状況を把握する技術、さらにデータの管理作業そのものを自動化、効率化させる技術など、企業のデータ活用戦略に合わせたデータ管理構造の構築を支援するソリューションを取りそろえている。

 山田教授の話にもあったように、今後より大量のデータが生成されていくのは自明の理であり、企業はデータ管理にいっそうの力を注がなくてはならない。クラウドをはじめ多様なプラットフォームにデータが分散、広がっていく中で、いかにしてデータを保護、選別し、管理の自動化を進めるべきなのか。そのヒントが満載のイベントにぜひ足を運んでみてはいかがだろうか。

Copyright © ITmedia, Inc. All Rights Reserved.


提供:ベリタステクノロジーズ合同会社
アイティメディア営業企画/制作:ITmedia ビジネスオンライン編集部/掲載内容有効期限:2018年12月15日