データ資源を押さえろ！機械学習に“食べさせるデータ”の発生源としてのIoT

「IoT」（Internet of Things、モノのインターネット）と「機械学習」というキーワードをよく見てみると、ITトレンドの大きな節目が来ていることがわかります。大量データの分析方法の発達、特に機械学習の発展を背景としてデータの重要性が高まっています。そこでITベンダー各社がデータの入り口としてのIoTに注目するようになりました。データは富を生み出す鉱脈だと考えられるようになり、データという資源を押さえる競争が始まっているのです。

例えば製造業やインフラ管理の現場では、大量のマシンデータをコンピュータで処理して、異常検知、予防保守などに活用する取り組みが急ピッチで進んでいます。流通業では「オムニチャンネル」の掛け声のもと、ECサイトと実店舗の両方にまたがる顧客のデータを集めて需要予測やリコメンデーションなどに活用する動きが進んでいます。顧客の行動を観測するためにBeacon（Bluetooth Low Energy発信機）を活用する取り組みも進んでいます。センサーがデータを生み、データが機械学習を経由してビジネス上の資源となる、そんな構図のもと、多くのプレイヤーが競争を始めているのです。

機械学習が進化すると、プレイヤーの寡占化が進む？

マシンデータを大量に集めて機械学習にかけることで、いったい何ができるのか。人工知能の専門家が何を考えているのかを見てみましょう。

ディープラーニング（深層学習）のインパクトを中心に最新の人工知能の動向を解説した書籍『人工知能は人間を超えるか』（松尾豊、KADOKAWA、2015年）では、「『知識の転移』が産業構造を変える」という一節を設けて、「企業にとってデータが重要となる」シナリオを説明しています。そこには、かなり気になることが書いてあります。

データをたくさん持っている企業が、高いレベルの特徴表現学習（注）の技術も手に入れると、ほかの企業もそこにデータを集めざるを得なくなる。なぜなら、その企業に頼めば「より特徴表現」が得られ、さまざまなアプリケーションをつくりやすくなるからだ。その結果、少数のプレイヤーが市場を席巻することになる。（『人工知能は人間を超えるか』、第6章より）

（注）「特徴表現学習の技術」とは、ざっくり言うと「人の助けを借りずに、データの読み方をデータそのものから得る能力」のことです。この特徴表現学習が可能になったことが、ディープラーニングがもたらした人工知能研究上のブレイクスルー、「アリの一穴」であると著者の松尾氏は位置づけています。

この松尾氏のシナリオでは、ビッグデータと機械学習が当たり前になる時代には「データを大量に持っているかどうか」が決定的な差を生むようになります。大量のデータから良い知見を取り出してビジネスに反映できる企業が競争力をどんどん向上させていき、さらに大量のデータとより良い知見を得ることができる、ポジティブスパイラルが働くからです。

特に複数の産業分野のデータを横断的に持っている企業の競争力はさらに高まると、松尾氏は指摘しています。分野Aから得られた良い知見を他の分野Bに適用する「知識の転移」を進めていけるからです。こうしてデータの寡占化が進むというのです。

ここで松尾氏が予想するシナリオは、前回の当コラムで紹介したPredix Cloudの狙いと驚くほど似ています。松尾氏が予想するシナリオ通りに事が運ぶなら、良いIoT向けサービスを提供して複数の業種の現場から大量のデータを集めた企業は、その競争力をどんどん高めていくことになります。

大手ITベンダーが「IoT」をキーワードとして重視している大きな理由は、IoTがデータのインプットとして非常に重要だからです。ITベンダーとしては「そこに製品／サービスの需要があるから」取り組みを進めることは当たり前ですが、それだけでなく「データ資源をいち早く押さえろ！」という競争が始まっているのです。

データの密度が高まると、コンピュータはより賢くなる

「データの密度が上がれば、予測精度が高まる」ということは、多くの分野ですでに実例があります。

例えば天気予報の専門家は「ゲリラ豪雨」の予測に苦労していました。天気予報のためのデータを収集する「アメダス」のデータの解像度は21km四方ですが、ゲリラ豪雨はもっと狭い範囲で起こる現象だからです。そこで天気ではなく大気汚染の監視用に収集した4km四方の解像度のデータを活用することで、ゲリラ豪雨の予測が可能になったそうです（『第6回ニコニコ学会βシンポジウム』での荒木健太郎氏の発表より）。

これは一例ですが、データの密度や解像度が上がり、それを適切に処理する手段が見つかれば、これまでわからなかった出来事の予測が可能になります。例えば製造業の現場では、それまで処理できなかった種類の大量データをすべて機械学習にかけて分析することで、新たな異常検知や予防保守が可能になると期待されているのです。

「センサーの密度を上げる」と聞いて思い出すのは、「トリリオン・センサー・ユニバース」の考え方です。「毎年1兆個（トリリオン）以上のセンサーを活用する社会」を実現するというかけ声のもと、ヘルスケア、イメージング、“人工五感（味覚、触覚、嗅覚、感情、視覚、生体認証など）”、環境センシング、食品業界向けセンシング（家畜や植物のヘルスモニタリングなど）、電力などの分野に向けた低価格センサーデバイスやその活用手法の研究が進んでいます。3Dプリンタでセンサーデバイスを製造するといった、デバイス製造技術にも踏み込んだ構想です。

現時点でのセンサー活用は、IoTによる製造現場のスマート化など、ある程度の投資対効果が見込める分野に限られています。しかし低コスト化が進めば、活用範囲は広がる可能性があります（以前のコラム「IoTにはざっくりと分けて2つの立場がある。スマートなデバイスをつなぐか、ダムシングをつなぐかだ」を参照）。

学習する機械は、最初の状態では何もできません。学習すべきデータを「食べさせる」ことで機械は賢くなっていきます。しかも、いまの機械学習はデータの読み方を学習して人手を借りずに進化する能力を獲得しつつあります。だからこそ、機械に「食べさせる」ためのデータがより重要になり、データ資源の「鉱脈」となるIoTが重要になってくるのです。