人間と学習機械がより効率良く協力する「能動学習」

LPixel_paper1

注目が高まる能動学習

いま機械学習の応用が猛烈な勢いで進んでいます。大勢のソフトウェアエンジニアが機械学習に取り組んでいて、機械学習への応用を狙ったクラウドサービスも登場してきました。こうした動きの中でジワジワと注目の高まっている技術が、学習効率を高める手法である「能動学習(Active Learning)」です。

ソニーコンピュータサイエンス研究所所長の北野宏明氏は、先日開かれたイベント「THE NEW CONTEXT CONFERENCE 2016」のパネルディスカッションで「能動学習は、メディアではほぼ取り上げられていないが重要だ」と指摘しました。機械学習で一大ブームになっている「深層学習(Deep Learning)」に比べると、能動学習はまだ大きな話題にはなっていませんが、今後重要性が高まってくることは間違いなさそうです。

「どのデータにラベル付けをするか」に注目する

能動学習について説明する前に、機械学習の基本的な考え方を少しだけ。従来のコンピュータプログラミングが人間の考えたロジックを機械に実行させる、いわば「演繹法」であるのに対して、機械学習は大量のデータを判断の手がかりとする「帰納法」に基づく方法と言えます。機械学習では大量のデータを機械に学習させることで、データの背後に潜むパターンを機械の内部に再現します。その用途は、画像認識、文書の自動分類、データ解析、異常検出(セキュリティインシデント検出なども含む)などに広がっています。

機械学習における学習の方法は大きく分けて2通りあります。データの分類の”正解”がデータの「ラベル」として示されている「教師あり学習」と、データの背後に隠された構造を機械学習により見つけ出す「教師なし学習」です。能動学習は、教師あり学習の一種です。

教師あり学習では、データに”ラベル”を付ける作業が必要です。データの量が膨大になってきたとき、そのすべてにラベルを付けるのでは人間の手間がかかりすぎます。そこで能動学習では

データを選んで学習させることで、学習効果をより高める

ことを狙います。すべてのデータにラベル付けをするのではなく、「どのデータにラベルを付ければいいのか」という戦略を立てて、学習効率を高めようとするのです。詳しくはBurr Settles氏によるサーベイ論文に当たってみるのがいいでしょう。

分類が難しい部分だけを人間が助ける

能動学習の“使いどころ”は、データが膨大で、なおかつ人間の知見が求められている分野です。医療もその一つです。

ライフサイエンス研究者向けの画像解析ソフトウェアシステムの研究開発を手がける企業であるエルピクセルでは、医療画像の解析に能動学習を活用しています。前出のイベント「THE NEW CONTEXT CONFERENCE 2016」では、エルピクセル代表取締役の島原佑基氏の講演で能動学習を活用する取り組みを紹介しました。

医療分野ではCT(コンピュータ断層撮影)やMRI(核磁気共鳴画像法)での読影(画像から必要な情報を読み取ること)のニーズが増え続けています。一方で、読影ができる専門家である病理医の育成には長い時間がかかります。医学界には、この機械化を実現しなければやっていけなくなるという危機感があるそうです。

エルピクセルが考えた方法は、例えば「MRIによる画像からガンと正常細胞を見分ける」というタスクについて、見分けるのが簡単な領域については機械が自動的に判断し、

分類が難しい境界領域だけを専門の医師に見てもらう

というやり方です。境界付近にある分類があいまいなデータだけに注目して、人間がラベル付けを行います。これは読影に取り組む医師の負担を減らすことにもつながります。別の角度から見れば、機械に読影の技術を効率良く教えることにもなります。

エルピクセルは能動学習を組み入れた機械学習フレームワークを開発し、MRI データからのガン細胞種別判定に活用した。

エルピクセルは能動学習を組み入れた機械学習フレームワークを開発し、MRI データからのガン細胞種別判定に活用した(関連情報)。図は Kutsuna Net al Active learning framework with iterative clustering for bioimage classification (2012) Nature Commun 3: 1032.doi:10.1038/ncomms2030 より引用。

人間が付けたラベルに基づく教師あり学習は、いわば人間が持っている知識を機械に移転する作業です。能動学習とは、人間の知識をより効率良く機械に移転するやり方として考え出されたという見方ができるでしょう。

人間とコンピュータが協力する未来像

ここでいったん、能動学習から話題を変えて、人間と機械が協調することで良い成果を出せる別の事例を紹介します。

「Advanced Chess」という競技があります。これは、コンピュータと人間が協力してチェスのゲームに臨む競技です。人間とコンピュータが対戦するのではなく、人間とコンピュータが一緒に戦うのです。そのため“サイボーグ・チェス”と呼ぶ場合もあるそうです。

Advanced Chessの創始者はガルリ・カスパロフ氏。1996~1997年にIBMの「Deep Blue」と対戦したことで知られるチェスの元世界チャンピオンです。現役プロ棋士に勝った将棋AI「Ponanza」開発者の山本一成氏は、Advanced Chessについて「駒の取り合いのような細かい戦術レベルでは計算力に優れるコンピュータに人間は勝てないが、より上の戦略的なレベルでは人間がフォローできる部分がまだまだある」と指摘しています(関連記事)。

人間と機械の協調が有効なのは一時的な現象ではないか、との考え方をする人もいます。人間の脳の性能は大きく変化することはありませんが、機械(コンピュータ)の能力は猛烈な速度で進化を続けており、しかも人間の知識を次々と吸収しているからです(この観点からは、能動学習も人間の知識を機械が吸収する方法と言えます)。このような考え方の究極にあるのが、ある時点で機械が人間の能力を超え、人間の手助けを必要とせずに進化を続けるようになると予測する「シンギュラリティ(技術的特異点)」の考え方です。このシンギュラリティの考え方は一部の人々の根強い支持を集めていて、前出のイベント「THE NEW CONTEXT CONFERENCE 2016」でカンファレンスのホスト役を務めた伊藤穰一氏(デジタルガレージ 共同創業者 取締役 MITメディアラボ 所長)に言わせれば、「米国カリフォルニア州の半分の人がシンギュラリティを信じている」そうです。

「機械が人間の手助けを必要としなくなる」との予想は極端すぎるかもしれません。とはいえ、能動学習のように機械と人間が協力して、より良い成果を出していく方法の重要性は増しています。今回例に挙げた医療用の画像情報だけでなく、私たちの目の前に積み上がるデータ量は加速度的に増えています。機械学習のテクノロジーに大勢の人々が取り組んでいる理由、そして人間と機械が協力するより良い方法を探し求めているのは、こうした背景があります。