Teslaに挑戦する自動運転車ベンチャー、AIが人間の運転を見てドライブ技術を学ぶ

June 18th, 2016

今年末までに1000ドルで自動運転キットを販売する。型破りなベンチャー企業が登場した。このキットを搭載すると、普通のクルマが自動運転車になる。開発している技術も革新的で、AIがドライバーの運転スタイルを見るだけで運転技術を学ぶ。Las Vegasで自動運転車の試験走行が公開されたが、波乱含みの展開となった。

vwb_637_car_comma_ai (p01)

Commaというベンチャー企業

これはSan Franciscoに拠点を置く「Comma」というベンチャー企業で、AIを駆使した自動運転キットを開発している (上の写真はComma試験車両)。(第一報は「Googleに挑戦する自動運転ベンチャー、自動車業界の”Apple”が生まれるか」でレポート。) このキットをクルマに搭載すると、普通のクルマが自動運転車になる。高価なTeslaを買わなくても自分のクルマで自動運転を楽しめる。創業者George Hotzは26歳の青年で、Apple iOSをハッキングしたことで有名になった。CommaはLas Vegasを拠点に試験走行を繰り返している。ネバダ州で試験するのは、カリフォルニア州が完全自動運転車の試験走行を認めていないためである。Commaはこの範疇には入らないが、カリフォルニア州政府から試験走行を中止するよう命令を受け、Hotzは不承不承これに従った。

Las Vegasで試験走行

Las Vegasでの試験走行は主要メディアが報道した。Commaはハイウェーだけでなく幹線道路も走ることができる。Hotzが運転席に座り、市街地での自動走行を披露した。自動運転モードに切り替えるとチャイムが鳴り、Commaはレーンの中央をキープし、前の車両に追随して走る。赤信号で停止している車両に近づくと、Commaは徐々に減速しうまく停止した。ただ、Commaはベータ版であり、Hotzはいつでも運転を代われるよう、両手をステアリング近くに構えていた。信号が青に変わり、前方の車両が発進すると、Commaもそれに合わせてスムーズに発進した。

交差点でクルマが止まらないことも

しかし、危ないシーンがあった。信号で停車しているクルマに接近するが、Commaは減速を始める様子はなく、Hotzがハンドルを握りブレーキを踏んで停止した。この事態が生じることを予想していたとはいえ、緊迫したシーンとなった。Hotzによると、Commaが車両の後ろをついて走るのは容易だが、路上で停車しているクルマを認識するのは難しいとしている。Commaはレーダーで前方の車両を捉えるが、停車している車両と路面との区別が難しいためである。開発途上で自動運転車の技量をデモをするのは極めて異例なことである。安全性が求められる自動車開発で、問題点を公表するのは大きなリスクでもある。Commaの型破りな開発手法を表す出来事となった。

vwb_637_car_comma_ai (p02)

クルマが高速に学習する

Commaが高速に学習できる機能も示された。Las Vegasの道路は車線をペイントする代わりに丸鋲が打ち込まれている (上の写真)。CommaはSan Franciscoの道路で試験走行を重ねてきたが、そこでは白線がペイントされている。Commaは車線の境目は白線だと認識しており、Las Vegasではうまく走れない。そこで、HotzはLas Vegasに到着してすぐに、Commaに丸鋲が車線であることを教育した。丸鋲が埋め込まれている道路を数日間走り、Commaはこれが車線であることを学習した。人間のドライバーが異なる道路状態を柔軟に把握できるように、Commaも路面を見て車線を判断する。例えば、車線が消えている道路でも、路面の窪みや色の違いなどをなどを手掛かりに、車線を認識する。Commaは人間が車線を判定する手法を学び、車線がなくても運転できるようになる。

クルマは道路標識を認識できない

一方、開発中のCommaにはできないことが沢山ある。Commaは信号機を認識することができない。また、交差点の一時停止標識を認識できない。同様に、速度制限標識など道路に表示されている標識を認識できない。このため自動運転時にはドライバーが走行速度を設定する。Hotzによるとクルマが道路標識を認識する行為はルールベースの処理で、これらを実装することは容易いとしている。また、Commaは自動で車線変更する機能も備えていない。これに対しCommaのAIは運転の直感的な部分を担い、開発はこの部分に集中している。Hotzによると、Commaは6歳児に相当し、クルマは衝突するのは悪いことだと認識するが、まだ、信号機に従って左折するなどのルールは理解できていないとしている。

Comma = Dropcam + Fitbit

HotzはCommaの自動運転技術を「Dropcam + Fitbit」と説明する。DropcamはNest社が開発したセキュリティーカメラで、屋内外のイメージを撮影する。FitbitはFitbit社が開発したリストバンドで、加速度計で運動量を計測する。つまり、Commaはカメラと加速度計を使い、ドライバーの運転テクニックを学習する。自動運転技術開発にはクルマの走行データが欠かせない。しかし、Commaは2015年9月に設立したばかりの若い会社で、試験車両は一台しかない (先頭の写真)。Commaにとって運転データの収集が最大のネックとなっている。そこで、Commaは走行データ収集アプリ「Chffr」を開発した。

vwb_637_car_comma_ai (p03)

アプリで運転データを収集する

このアプリを一般に配布し利用者の運転データを収集する。Chffrを搭載したスマートフォンをフロントグラス内側に装着し、ドライバーの運転テクニックをモニターする。アプリはスマホカメラで前方のイメージを撮影し、センサーで加速度を測定し、クルマの動きを把握する。収集したデータを使い機械学習の手法でシステムを教育する。これによりクルマは人間のように運転する技術を習得する。利用者としては、アプリで運転データを提供することで、それに応じたポイントを得る。正式な発表は無いが、利用者は獲得したポイントを特典に還元できる。Chffrベータ版は既にリリースされ、100時間分のデータをログした。正式版は2016年6月に一般に公開される。(上の写真:クルマとのインタフェイスは大型タブレット、Hotzは自身のクルマにもこれを搭載している。)

人間をコピーしたDriving Agentを開発

CommaはChffrが捉えた前方イメージと加速度で運転スタイルを把握する。交差点で前に止まっている車両に対し、ドライバーはどの位のレートで減速するのかを学習する。また、カーブを曲がるときは、どのくらいのレートで速度を落とすかを学習する。Chffrが収集したデータを使い、クルマが人間のように運転するDriving Agentを開発する。Commaは2018年末までに10億マイルのデータを収集することを目標としている。

vwb_637_car_comma_ai (p04)

Hotz (上の写真) は人間のように自然な流れで運転する自動運転車を開発する。コンピュータ制御のAutopilotとは異なり、人間をコピーしたDriving Agentを開発する。全米各地の運転データを収集すれば、それぞれの地域に独特な運転スタイルを学ぶことができる。最大のメリットは、詳細マップを制作する必要がなくなること。GoogleやHEREが詳細マップ制作でしのぎを削っているが、Commaは人間のように詳細マップ無しで運転できる。

クラウドソーシングでAIを開発

一方、大衆から運転データを収集する「クラウドソーシング」でAIを開発する手法の是非が議論されている。アプリ利用者は模範的なドライバーだけとは限らない。危険なドライバーの運転データも収集される。タイヤをきしませながらコーナーを抜けるドライビングテクニックをAIが模倣する可能性もある。これに対してHotzは、模範的なドライバーの運転テクニックは画一的であるが、危険なドライバーのスタイルは多様であるとしている。つまり、統計的に処理することで、危険ドライバーのデータが除かれるとの見解を示している。

光学カメラとレーダーだけで自動運転

Commaは非常にシンプルなシステム構成となっている。光学カメラとレーダーだけで自動運転を実現する。光学カメラはフロントグラス内側に搭載される。カメラがクルマの眼となり外部のイメージを捉える。カメラはこれ一台で、人間のドライバーと同じように、前方のイメージだけを見る。Lidarや超音波センサーは搭載していない。

最終製品でLidarを使わないものの、試験走行では周囲のオブジェクトを3Dで認識するためにLidarを搭載する (先頭の写真はLidarを搭載した試験車両)。カメラでとらえたイメージをLidarの3Dイメージと比較して、AIがオブジェクトを正しく認識していることを確認する。Lidarがイメージ認識の先生となり、AIがカメラだけでイメージを認識できるように教育する。

レーダーはフロントグリルに搭載される。レーダーは前方のオブジェクトを把握するために使われる。カメラがクルマ直前のイメージを捉えるのに対し、レーダーは遠距離まで測定できる。トランクの上にはLTEアンテナとGPS受信機を搭載し、トランク内部には処理装置が置かれている。

vwb_637_car_comma_ai (p05)

Tesla Autopilotの対抗製品

Hotzは2016年末までに製品を出荷するとしている。価格は1000ドルとなる。製品形態は未定であるが、プロセッサー類はパン一斤程度の形状にまとめられる。この自動運転キットを消費者がクルマに搭載するが、設置作業はそれほど難しくはないとしている。自動運転キットはドライバーの運転をアシストする機能で、Tesla Autopilotと同じコンセプトとなる。Googleのような完全自動運転ではなく、運転の責任は全てドライバーにある。

Tesla Autopilotに類似した機能であるが、Commaの狙いは市街地での自動運転だ。Tesla Autopilotはハイウェーでしか使えないが、Commaは市街地を含む主要道路での自動運転機能を使うことができる。Commaは通勤時の自動運転が一番需要が高いとみており、この市場をターゲットに製品を開発する。クルマの運転が好きな人でも渋滞した道路を運転して通勤するのは苦痛である。(上の写真はSan Francisco地区の通勤ラッシュ)

Commaのビジネスモデルは流動的で最終形態は今の段階では予測できない。Commaが製品を直接エンドユーザに供給するのか、それとも自動車メーカーに供給するのかなど、販売チャネルは決まっていない。Commaに先立ち自動運転キットを開発するベンチャー企業「Cruise Automation」はGMに10億ドルという破格の金額で買収された。Commaも自動車メーカーに買収されることになるのか、今後の展開は予断を許さない。

ベンチャーとハッキングのはざま

自動運転ベンチャーが数多く登場しているが、Commaは異質の存在で、これらとは同列に議論できない。Hotzは天才ハッカーでその手腕は高く評価されている。一方で、信頼性が求められる自動車会社の経営者の資質とは相いれないものがある。安全であるべき自動運転車デモで、危険と隣り合わせの試験走行を公開する精神は他のベンチャーとは異質のものである。全てが型破りな技術開発である。

同時に、Hotzは技術に自信があり、問題解決は時間の問題であるとの姿勢も感じられる。Hotzが短期間で自動運転技術をこのレベルまで完成させたことは高く評価されている。人間のように運転するDriving Agentに対しても期待が高まっている。大手ベンチャーキャピタルAndreessen Horowitzはシード段階で310万ドル出資し、Hotzの将来性に賭けている。GoogleやTeslaを凌駕する自動運転車が登場するのか、異色のベンチャー企業が開発を加速している。

脳をリバースエンジニアリング!米国の威信をかけたAI開発国家プロジェクト

June 11th, 2016

米国で人工知能”アポロ計画”が始まった。米国政府は脳をリバースエンジニアリングして、そのアルゴリズムをコンピュータに応用する。人間のように思考するコンピュータの開発を目指す。次のフロンティアはインテリジェンスの解明で、本当の意味での人工知能を探求する。

vwb_636_ai_neuroscience_microns (p01)

MICrONSプロジェクト

米国政府は脳をリバースエンジニアリングして、そのアルゴリズムをコンピュータに応用するプロジェクトを開始した。人間のように思考するコンピュータの開発を目指す。このプロジェクトはIntelligence Community (諜報活動を行う連邦政府横断組織) 配下のIARPA (国防関連技術を開発する組織、上の写真) が1億ドルの予算で脳のメカニズムを解明する。IARPAは大学や民間の研究組織と連携しプロジェクトを進める。ちょうど、DARPA (米国国防高等研究計画局) が産学連携で自動運転技術を開発したように、IARPAは同じ手法で脳の構造を解明する。

このプロジェクトは「MICrONS (Machine Intelligence from Cortical Networks)」と呼ばれ、脳がどのように動くのかをニューロン単位で解明する。解明した結果を機械学習や人工知能のアルゴリズムに適用する。MICrONSはオバマ大統領が推進する「BRAIN Initiative (ヒトの脳を解明するプロジェクト)」の重要な部分担い、アメリカが国の威信をかけて人工知能を開発する姿勢が明らかになった。

脳に含まれるすべてのニューロンをマップ

MICrONSは三つのチームから成り、五年計画でそれぞれのテーマを研究する。プロジェクト前半は脳の構造を解明することが目標で、脳に含まれるすべてのニューロンをマップする。ここではネズミの脳が使われ、1平方ミリメータの領域を対象に、そこに含まれる全てのニューロンをマップする。これは人間の脳全体の100万分の1で小さな規模の研究に見えるが、現在の技術からの大きな飛躍となる。今までに解明できた範囲は1500平方マイクメータの領域に留まっている。つまり、このプロジェクトは60万倍の規模に挑戦することになり、ニューロサイエンスの観点から大きな飛躍となる。(下の写真は脳内のシナプスの構造 (左)とセルの位置 (右)。)

vwb_636_ai_neuroscience_microns (p02)

学習する時ニューロンはどう動くのか

プロジェクトは10万個のニューロンを対象とする。ニューロンの構成をマップし、ネズミがものを見たり学習する時に、ニューロンはどう動くのかを観察する。ネズミが学習するメカニズムをニューロンレベルの活動で把握する。現時点ではヒトの脳の活動状況をfMRIを使って観察するのが一般的で、レントゲン写真のように脳をスキャンする。スキャンしたイメージには数百万のニューロンが含まれ、個々の動きは把握できない。個々のニューロンの動きを観察する試みも進んでいるが、現在の技術では、ネズミのニューロン数個を測定できるに留まっている。

脳の構造を高精度で大規模に観察するためのツール

このため、プロジェクトを進めるためには新技法の開発が求められる。ニューロンを観察するには、ナノメーター単位の精度でのイメージング技術が必要となる。ニューロンは折れ曲がり、全長は数ミリになるとされる。脳内の微細構造をマップすることは、地図に例えるとアメリカ全土をインチ単位の精度でマップすることに匹敵する。高度な技術が要求されるが、BRAIN Initiativeが発足して以来、多くのツールが開発され、脳の構造を高精度で大規模に観察できる環境が整いつつある。今が歴史の転換点で、ニューロンやシナプスがどのように繋がっているのか、ネットワーク構造を解明する機運が高まっている。

三つのチームが競い合って研究を進める

プロジェクトでは三つのチームが競い合って独自手法でマップを作成する。Harvard Universityのチームは「two-photon microscopy」という手法で、ネズミの脳の活動を観察する。ネズミはモノを判別できるように教育され、ディスプレイでモノを認識する時の脳の活動を観察する。ここではカルシウムに反応して発光するfluorescent protein (蛍光タンパク質) が使われる。(緑色蛍光タンパク質は下村脩博士らにより発見され2008年にノーベル賞を受賞。) ニューロンが”発火”するとカルシウムがセルに流れ込み光を発する。この光を特殊な装置で観察するとニューロンが発火する様子を掴める。モノを認識するときのニューロンの繋がりが分かる。(下の写真は蛍光タンパク質でニューロンのセルが緑色に発光する様子、三角で示している部分。)

vwb_636_ai_neuroscience_microns (p03)

Baylor Collegeのチームは「three-photon microscopy」という手法でネズミの脳の活動を観察するがより深い層まで観察できるとしている。一方、Carnegie Mellon Universityのチームはアグレッシブな手法を取る。これは「DNA barcoding」と呼ばれ、ニューロンの塩基配列をバーコードとして使い、全てのニューロンを識別する。この手法ではニューロンの位置情報は取れないが、高速で高精度で解析できるという。三チームが異なる手法でニューロンの構成の解明を競い合う。

シナプスの動きを機械学習に応用

ここまでがMICrONSプロジェクトの前半部分で、後半はここで得た情報を機械学習や人工知能に応用する手法を開発する。脳が学習するメカニズムについて、研究者の多くは脳は「Bayesian Engine」であるとの仮説を立てている。Bayesianとは統計学の一つで、ある出来事が発生する確度を数字ではなくBelief (信じていることや意見など) で定義するという考え方。更に、次の事象を推定する際は、明らかになった事実で仮定を更新していく。卑近な例ではスパムフィルターでBayesianが使われる。新しくスパムと思われるメールが現れると、その情報でフィルターを更新する。

ヒトの場合は物を見てそれを判定する時にBayesianの統計手法が使われる。ニューロンはセンサー情報を確率分布として扱い、過去の事例を参照して最も起こりやすい事象を計算する。つまり、ニューロンは網膜に映ったイメージを過去のデータと比較し、確率的に近いものを取り出し、目の前のものを判定する。

脳内に外部世界を構築する

更に、ヒトの脳はコンピュータとは異なり、入力されたデータで独自の世界観を構築しているとみられている。モノを認識する行為は、ある入力をある出力にマップするだけでなく、「analysis by synthesis」というプロセスが存在する。脳は外部世界を脳内部に構築し、入ってくるデータをこのモデルに当てはめて解析する。これにより、入力データに対し、次に起こるイベントを予想する。例えば、網膜は二次元構造であるが、脳はこのモデルを使うことで、入力イメージを三次元に置き換えて把握することができる。

もしこの仮定が正しければ、脳は数学モデルより効率的にオブジェクトを推測する機能を持つ。我々は日常生活で多くのものを見るが、異なる条件下でもそれを判定できる。例えば、バナナについて、それが斜めに置かれていても、離れた位置に置かれていても、また、周囲が薄暗くても、脳はそれをバナナと判定する。我々は異なるアングルからバナナをみて学習している訳でなく、一度バナナをみれば、何処から見てもバナナと分かる。一方、コンピュータ (Convolutional Neural Network) は、異なるアングルや大きさや色彩のバナナをみて学習する。脳が効率的に学習できる仕組みは、脳はオブジェクトから膨大なデータポイントを取り出して、それを分解して、脳内に構築したモデルと比較しているとみられている。(参加チームの一つHarvard UniversityのCoxLabは視覚のリバースエンジニアリングの研究を進めている、下の写真)

vwb_636_ai_neuroscience_microns (p04)

仮説をコードに落とし込む

次に各チームはそれぞれの仮説を実際のコードに落とし込む研究に進む。仮説をモデルに置き換え、脳の構造を試験する作業となる。仮説をコードに落とし込むために多くの技法が使われる。シナプスの繋がり方や動き方からネットワークのパラメータを突き止める。コンピュータ (Deep Learning) では大量の教育データをネットワークに入力しパラメータを最適化するが、プロジェクトでは解を直接シナプスに求める。また、シナプスの繋がり方や動き方からフィーチャーを検出する。フィーチャーとは脳が有している独自の機能で、これらの情報を使うと画期的なアルゴリズムが生まれると期待されている。

人間のように少ないデータで学べるシステム

MICrONSの最終目的は、脳の仕組みをコンピュータに応用することで、アルゴリズムが知的に問題を解決すること。脳のアルゴリズムを機械学習に応用すると、自律的に稼働するマシンができる。例えば、オブジェクト判定において、人間のように少ないデータで学べるシステムを目指す。IARPAは諜報部門を管轄しており、この成果を情報収集に生かしたいとしている。

例えば、一枚の写真でマシンを教育するシステムを開発する。猫の写真を1枚見せると、システムは写真を見て猫を判定する。サイバー攻撃に対する防衛では、事例を一件入力すると、マシンは攻撃の手口を把握して、異なる攻撃も防ぐようになる。リーマンショックや気候変動のデータを入力すると、システムはこれを一般化して問題の解決を探る。システムをスモールデータで教育できることが目的となる。更に、システムは入力したデータから問題を一般化・抽象化して幅広い問題に対応できることを最終目標としている。

今世紀のアポロ計画

このプロジェクトは「Apollo Project of the Brain (脳のアポロ計画)」と呼ばれている。米国政府が次のフロンティアを開拓するという意気込みが込められている。名前のもとになったアポロ計画はNASAによる有人宇宙飛行プログラムで、1961年に始まり1969年に月着陸に成功した。その後もアポロ計画は続いている。最近ではヒトの全遺伝子を解明するプロジェクト「Human Genome Project」が大きな成果を上げた。クリントン政権肝いりの国家プロジェクトで、1990年に始まり13年の歳月をかけてヒトの遺伝子解明に成功した。この成果が遺伝子工学や創薬に多大な影響を与え、今のバイオ産業の基礎を築いた。今回のアポロ計画では、米国政府はヒトの脳をリバースエンジニアリングし、インテリジェンスを解明する。

vwb_636_ai_neuroscience_microns (p05)

BRAIN Initiativeでヒトの脳を解明

このプロジェクトはオバマ政権が推進しているBRAIN Initiativeの一翼を担う。BRAIN Initiativeとは2013年に始まった大規模プロジェクトで、ヒトの脳の機能を解明することを目指す (上の写真)。原因が分かっていないアルツハイマー病、パーキンソン病、うつ病などのメカニズムを解明し治療法を開発する。これによりニューロサイエンスが劇的に進化し、イノベーションが生まれ、新しい産業が誕生することを目標としている。医療技術開発の他に人工知能開発が重要なテーマで、ヒトの脳の機能を解明することで、インテリジェントなシステムを開発する。プロジェクトは二つのフェイズに分かれ、前半は研究のための基礎技術を開発し、後半はその技術を使って脳の機能を解明する。プロジェクトは13年計画で2025年に終了する。Human Genome Projectの成功で米国のバイオ産業が飛躍的に成長したように、BRAIN Initiativeで人工知能を含むニューロサイエンス産業が興隆することを期待している。

今の人工知能は知能を持たない

いま人工知能開発がブームでイノベーションが数多く生まれている。生活が便利になり、健康な生活が送れるようになり、人工知能のメリットは計り知れない。同時に、人工知能に関し間違った解釈も広がっている。人工知能という言葉は人間が作り出した頭脳を連想させるが、実態は機械学習の統計処理ツールであることを今一度確認する必要がある。

また、Artificial Neural Networksという表現は、脳のニューロンを実装しているように聞こえるが、実態はそうではない。このアルゴリズムが登場したのは1980年代で、単一のニューロンの構造を模したPerceptronが原点にある。今ではイメージ解析 (Convolutional Neural Network) に数十万個のニューロンが使われ、数で比較すると昆虫のアリの脳の大きさになる。しかし、ヒトの脳内には1000億個のニューロンがあるとされ、人工知能とは異なる次元で稼働している。

Siriが人間と会話するが、Siriは言葉の意味を理解しているわけではない。機械学習の手法で統計処理をして、過去の事例を回答として示しているに過ぎない。鳥のオウムと話しているのと本質的には変わらないが、それでもSiriは生活を豊かにしてくれる。ここに人工知能のマジックがある。人工知能の特性を把握して社会に役立つよう最大限に活用すべきである。同時に、機械学習という手法だけでは限界があり、次のステップに進むための研究開発が必要であることも認識しておく必要がある。

米国の人工知能開発が一気に進む

米国企業や政府は次のステップに進むための研究開発に着手している。Googleやベンチャー企業Vicariousがヒトの脳の構造を解明し、それをアルゴリズムに展開する研究を推進している。BRAIN Initiativeはこれらより桁違いに大きなプロジェクトで、米国政府が民間企業の人工知能開発を後押しする形となる。ここで解明された脳のメカニズムが、GoogleやVicariousで活用される。今後は、BRAIN Initiativeの成果を活用するAIベンチャーが数多く登場することも予想される。

Googleは「Neocortex Simulator」と呼ばれる、大脳新皮質のシミュレータを開発しているといわれる。研究リーダーのRay KurzweilはBRAIN Initiativeの研究結果を待ち望んでいる一人である。DARPA Grand Challengeで開発された技術がGoogle自動運転車に引き継がれているように、人工知能開発で同じ流れが起きようとしている。米国で本当の意味での人工知能が誕生する可能性を秘めている。

Google DeepMindは人間レベルのAI開発に着手、ヒトの脳の構造と動きをソフトウェアで再現

June 3rd, 2016

Google DeepMindは人間レベルのAIを目指して開発体制を強化している。囲碁ソフト「AlphaGo」が世界チャンピオンを破ったのはチェックポイントに過ぎない。DeepMindが注目するのはコンピュータサイエンスとニューロサイエンスの境界部分だ。AIを人間のようにインテリジェントにするには人間の脳にヒントを得る必要がある。DeepMindはインテリジェンスとは何かを解明することを最終目標に研究を加速している。

vwb_635_ai_google_reinforcement_learning_neuroscience (p01)

ニューロサイエンスをコンピューターに応用する

コンピューター開発とニューロサイエンスの関わりが深くなってきた。ニューロサイエンスとは神経系に関する科学で、生物学の一分野として研究されてきた。しかし近年では、コンピュータサイエンスとの類似点が多く、両分野を跨った研究が進められている。人間の脳がどのように意思決定するのか、そのメカニズムの解明がニューロサイエンスの主要テーマとなる。

脳の多くの部分でドーパミン (神経伝達物質) が意思決定に関与していることが分かっている。神経系がドーパミンを放出する方式がコンピュータサイエンスのReinforcement Learning (強化学習) と関係が深いとされている。ニューロサイエンスの主たる目的は、ヒトの脳のメカニズムを解明し、それをソフトウェアで実装することにある。AIのブレークスルーのヒントを脳のメカニズムに求めている。

思考メカニズムの解明

ニューロサイエンスでfMRI (Functional magnetic resonance imaging、下の写真) を使い、人間の脳における意思決定メカニズムを解明する研究が進んでいる。fMRIは脳内の血流の変異を捉えることで活動状態を把握する。脳内で血液量と神経系の活動量が関連しており、特定部位への血流が増えると、その部分の活動が活発になっていると理解できる。これにより、人間がどのように意思決定するのか、その構造が分かりつつある。本来fMRIは脳組織や血管の損傷を把握したり、行動の異常などを試験する医療機器として使われてきたが、今では健康な脳の研究に応用されている。DeepMindはニューロサイエンスで解明が進んでいる意思決定の構造をコンピュータサイエンスに応用する研究を進めている。人間や動物が意思決定するメカニズムを解明し、これを機械学習に応用する。

vwb_635_ai_google_reinforcement_learning_neuroscience (p02)

なぜニューロサイエンスに向かうのか

コンピュータサイエンスはなぜニューロサイエンスに向かうのか、この背後には今のAIや機械学習の手法が大きな壁に直面している事実がある。Google自動運転車はシリコンバレーで試験走行を繰り返している。Google自動運転車は2009年から2016年3月までに150万マイル試験走行した。これは米国の平均ドライバーの12年半分の走行距離にあたる。しかし、これでも自動運転車の機械学習アルゴリズム教育には不十分で、累計で2.75億マイル走行する必要があるとの意見もある。どうして人間のように短期間で学習できないのかが問われている。

DeepMindが開発したAlphaGoは囲碁チャンピオンに勝利し人間以上の技量を示した。AlphaGoとそのアルゴリズムは高い評価を受けた。しかし、アルゴリズムの学習速度の遅さが指摘されている。AlphaGoは模擬試合を128万回こなし腕をあげた。人間のプロ棋士も数多くの対戦を通して腕を上げていくが、AlphaGoは練習試合の数が破格に多い。なぜ、人間のように少ない試合数で学習できないのかが問われている。つまり、なぜ人間は効率的に意思決定できるのか、その仕組みが分かれば、この壁を乗り越えられるという期待がある。

ロボット開発で直面している壁

これはロボット開発で直面している壁でもある。例えばドアを開けるとき、ロボットはドアのノブを認識し、それを最適な力で掴み回転させ、ドアを引くか押して開ける。この一連の動きでタスクを実行する。しかし、人間は無意識のうちにこの操作をする。子供の頃にドアの開閉を教わり、最初はロボットのようにぎこちないが、すぐに無意識で操作する。日常社会は想定外の出来事で満ち溢れているが、人間は複雑な操作を無意識に行い環境に柔軟に対応する。このメカニズムを機械学習に応用することで高度なAI開発への道が開けるという期待感がある。人間のように汎用的に機能するロボットの開発が可能となる。

DeepMindのニューロサイエンス研究

では、ニューロサイエンスの成果を如何に機械学習のアルゴリズムに応用するのか、DeepMindが発表した最新の論文を読むとその一端が見えてくる。DeepMindはUniversity of OxfordとUniversity College Londonと共同で、人間がある行動を計画するときの脳のメカニズムを研究した。その成果を「Neural Mechanisms of Hierarchical Planning in a Virtual Subway Network」として発表し、人間の脳は階層構造で意思決定する事実を明らかにした。

発表された論文によると、DeepMindなどは、人間が効率的に意思決定できるのは、個別の事象を纏めて、意味のある内容に置き換えているためとしている。人間は個々の行動を束ねて一塊として認識している。日々の生活で何かを計画する際に、State (状態) を階層構造として束ねてContext (コンテクスト、意味のあるもの) にするというものである。この仮説の元、人間が意思決定する際にStateをContextとして束ねるとき、脳の生物的な動きを観察した。具体的には、被験者が仮想の地下鉄路線 (下の写真) で目的地に行く様子をfMRIで観察し、人間の思考メカニズムを脳の挙動で示した。その結果、意思決定するときには脳の二つの領域が関与していることが分かり、脳の中に階層構造が構築されているという事実を突き止めた。

vwb_635_ai_google_reinforcement_learning_neuroscience (p03)

思考方法と脳内の活動

この試験のために仮想地下鉄 (上の写真) によるナビゲーションゲームが使われた。22人の被験者に対し地下鉄路線図を使って目的地に到達する方法が教育なされた。本番の試験では、被験者は路線図をみないで目的地まで到達することが試され、ゲームをしているときの脳をfMRIでスキャンした。試験の後で被験者は、目的地に到達するルートをどう考えたかを問われた。一駅ごとに順番に考えたのか、それとも、地下鉄の路線別に考えたのか、思考方法が問われた。この結果、一駅ごとにルートを考えた場合と、路線ごとに考えた場合では、脳内の動きが異なることが分かった。

意思決定に関わっているのは「dmPFC (dorsomedial prefrontal cortex、下の写真下段の丸で囲った部分、脳を横から見たイメージ)」と「PMC (premotor cortex、下の写真上段の丸で囲った部分、脳を上から見たイメージ)」と呼ばれる部分。脳が活性化している領域は色付けされている。dmPFCは計画などの高度な認識機能を持ち、PMCは動きを実行する機能を持つといわれる。一駅ごと順番に考えたケースではPMCだけが活性化され (下の写真左側)、路線ごとに考えたケースでは両者が活性化した (下の写真右側)。つまり、Contextで考えた場合は脳の二つの領域が使われている。論文は、意思決定に脳の二つの領域が関与していることは、脳の中に階層構造が構築されるということを示していると結論付けている。

vwb_635_ai_google_reinforcement_learning_neuroscience (p04)

コンピューターへの適用

この発見をコンピューターのアルゴリズム開発に応用することが最終目的となる。論文は、スマートなアルゴリズムを生成するためには、脳のような階層構造を構築する必要性に言及している。機械学習において、意思決定のために階層構造を生成することは有益であるとしている。一方で、階層構造を導入することは弊害にもなりえる警告している。一番最初に如何に適切な階層構造を導入できるかによりアルゴリズムの成否が決まるとしている。これはDeepMindの研究活動の一端で、ニューロサイエンスを機械学習のアルゴリズムに応用する研究が進んでいる。

ニューロサイエンス研究者の採用

DeepMindはニューロサイエンス分野の著名な研究者の採用を進めている。Princeton Universityのニューロサイエンス研究部門教授Matthew Botvinickは2015年10月、Google DeepMindに採用された。Botvinickはニューロサイエンス、心理学、コンピュータサイエンスが重なる領域の研究に従事し、人間の挙動をコンピュータ系と神経系から解明することを目指している。fMRIやコンピュータモデルを使い問題を探求している。

Hierarchical Reinforcement Learning

Botvinickは人間がReinforcement Learningという手法で学習することをテーマに研究を進めている。その中でも「Hierarchical Reinforcement Learning」という手法に着目している。これは前述の論文とも関連するが、イベントを階層構造でとらえ、試行錯誤しながら学習する方式を示す。

ここでも共通テーマはなぜ人間は効率的に学習できるかということだ。ロボットがタスクを実行するときは、環境の変化に応じて意思決定をする。この際、フローチャートのようなDecision Tree (決定木) が使われる。研究室などクリーンな環境では規定通り動くが、現実社会は想定外の連続で、これら事象に対応するためには例外事項を数多く定義しておく必要がある。つまり、Decision Treeが巨大になる。これを「Curse of Dimensionality (次元の呪い)」とよび、コンピューターで処理できない計算量となる。ここでも、人間はこの問題をどう解決するのかにヒントを求めている。

タスクを分割しサブタスクを設定

これに対して、多くの研究者は人間は与えられたタスクを分割しサブタスクを設定するとみている。Botvinickらは実際のモデルを使って人間の挙動を測定した。被験者にタスクを与え、これを解く様子を測定した。タスクは迷路を通り抜けるゲームで(下の写真左側)、右上の黄色の丸から迷路を通って左下の赤色の丸まで到達するもの。

vwb_635_ai_google_reinforcement_learning_neuroscience (p05)

ランダムに迷路をたどると、タスクを完了する時間は黒色のグラフとなる (上の写真、右側)。一方で、迷路の中にサブタスクを設定すると (水色の 丸) 到着するまでの時間が大幅に短縮される (上の写真、右側、水色のグラフ)。目的に到着するためのチェックポイントを設定すると、到達時間が短くなることが分かる。しかし、サブタスクを適切に設定しなっかたらタスク完遂までの時間がより長くなる。Botvinickらは正しくサブタスクを設定するとトライアルの回数が減り、早く目的を完遂できることしている。

DeepMindで研究を継続

これが人間のReinforcement Learningの例であるが、我々は日常生活で無意識に実践している。例えば、電車で目的地に向かう際、最短路線を探すときにReinforcement Learningを使っている。品川から霞が関に行く経路を頭の中で考えるとき、乗り換えポイントを東京、有楽町、新橋などに設定して考えると楽になる。Botvinickは、このモデルをコンピュータサイエンスに応用し、アルゴリズムにどう実装するかを研究している。結論はまだ先で、ニューロサイエンスで得た成果を機械学習に落とし込む研究をDeepMindに移籍して継続している。

IT企業に課せられた課題

Hassabisはコンピュータサイエンスで学位を取り、その後大学に戻りニューロサイエンスの研究で博士号を取得した。研究テーマはHippocampus (海馬) における記憶のメカニズムと言われている。この研究成果がDeepMindのアルゴリズム開発に生かされている。これからのAI開発はソフトウェアだけでなく、ニューロサイエンス技術が必要であることを示している。

しかし、Hassabisのような人物は例外で、コンピューター研究者の殆どはニューロサイエンスの学位を持っていない。このため、DeepMindがBotvinickを採用したように、IT企業は大学に人材を求めることとなる。更に、冒頭の論文が示しているように、IT企業と大学との共同研究が決定的に重要になる。Googleはこの流れを加速させ、著名なニューロサイエンス研究者の採用が続くと思われる。AI開発で新しい研究体制が求められている。

“インテリジェンスを解く”

Hasabbisらは人間の脳の構造を解明することで、人間レベルのAI「Artificial General Intelligence」を目指している。人間の脳のメカニズムをソフトウェアに実装し、インテリジェントに意思決定するシステムを開発する。HassabisはDeepMindで開発した技術を自動運転車に提供すると表明している。人間のように短期間で運転技術をマスターするクルマの登場が期待される。

一番注目される分野がロボティックスで、家庭向けのサービスロボットに研究成果を適用する。家庭向けロボットは家事をしたり高齢者を介護することを想定しており、誰でも”お手伝いさん”を雇える時代になる。仮想ロボットChatbot (会話ボット) にも研究成果が適用される。会話ボットが人間のオペレータのように振る舞い、ソフトウェアと人間の境界が希薄になる。

HassabisはDeepMindを科学技術分野へ応用することを最終目的としている。気候変動の研究やがんのメカニズムの解明などで、人工知能が人間の科学者に代わって研究するモデルを想定している。Hassabisはこれを「Solve Intelligence (インテリジェンスを解く)」と表現し (先頭の写真)、本当の意味での人工知能の開発が進んでいる。

Googleは囲碁ソフトAlphaGoの成果をどう生かす?Deep Reinforcement Learningの革新性と次の展開

May 28th, 2016

DeepMindが開発したコンピュータ囲碁プログラム「AlphaGo」が世界最強の棋士Lee Sedolに勝利し世界の注目を集めた。Google最高経営責任者Sundar Pichaiは開発者会議でDeepMindの快挙を紹介するという異例の対応を取った (下の写真)。Googleは対戦成果を携えどこに向かっているのか、AlphaGoのアルゴリズムとその技法を振り返り、Deep Reinforcement Learning (深層強化学習) の革新性とロードマップを考察する。

vwb_634_ai_google_reinforcement_learning_alphago (p01)

ニューラルネットワークで囲碁をプレーする

2015年10月、DeepMindが開発したコンピュータ囲碁プログラム「AlphaGo」が欧州の囲碁チャンピオンFan Huiに勝った。ついにソフトウェアがプロ棋士に勝ったとして、ニュースで大きく報道された。2016年3月には、AlphaGoが世界最強の棋士Lee Sedolに勝利し、DeepMindは再び世界を驚かせた。

DeepMind創設者Demis Hassabisらは2016年1月、「Mastering the game of Go with deep neural networks and tree search」をNatureに発表した。ここでニューラルネットワークで囲碁をプレーする方式を明らかにした。囲碁は検索する場合の数が極めて多く、形成判断が難しく、人工知能にとって最難関のゲームとされる。Hassabisらは二種類のニューラルネットワークを導入し、次の一手をどこに打つべきかを計算した。一つは「Value Network」で盤上の配置から局面を評価する (下の写真右側)。もう一つは「Policy Networks」で次の一手をどこに打つべきかを計算する(下の写真左側)。これら二つのニューラルネットワークを教育して強くするためにDeep Reinforcement Learning (深層強化学習) という手法が使われた。

vwb_634_ai_google_reinforcement_learning_alphago (p02)

Monte Carlo Tree Searchという検索技法

囲碁ソフトでは検索技術の一つである「Monte Carlo Tree Search」という技法が使われる。これは次の手を決定するために木構造で検索する手法で、その実力が実証され囲碁ソフトの標準解法となっている。しかし、囲碁におけるこの技法の問題点は検索範囲 (Search Space) の広さである。囲碁の場合は取りえる手の数が10の360乗で、宇宙に存在する原子の数より多くなる。このため検索範囲を如何に狭くするかが勝敗を握る。

Hassabisらは二つの方式で検索範囲を絞った。一つは、ある局面でこれから先の展開を評価するアルゴリズムで、上述のValue Networksが使われた。Value Networksはある局面の情勢を入力すると、その先の展開を計算する (上の写真右側、勝率を出力する)。もう一つは、ある局面で次にどこに石を打つべきかを評価するためにPolicy Networksが使われた。Policy Networksは石を打つべき場所の確率分布を示し (上の写真左側、打つ場所と勝率を示している)、候補の数を大幅に減らすことができる。これで検索範囲を縮小することに成功した。

二種類のPolicy Network

Policy Networksは二種類あり、教師あり学習 (Supervised Learning) の手法で開発されたものと、強化学習 (Reinforcement Learning) の手法で開発されてものから構成される。前者を教師あり頭文字を取り「SL Policy Network」と呼び (下の写真、左から二番目)、後者を「RL Policy Network」と呼ぶ (下の写真、左から三番目)。Policy Networksはどちらも13階層のConvolutional Neural Network (イメージを低次元に変換するネットワーク) で構成される。システム構成は同じだが、異なる教育で二つのネットワークを作る。最初にSL Policy Networkを作り、それを再教育してRL Policy Networkを作る。更に、RL Policy Networkを別の手法で教育してValue Network (下の写真右端) を構築する。また、既に幅広く使われているアルゴリズムRollout Policy (下の写真左端) も利用する。

vwb_634_ai_google_reinforcement_learning_alphago (p03)

ネットワークの種類が多いので、これらを分かりやすく整理すると次のようになる:

  • Rollout Policy:初級者レベルの実力だが差し手を考える時間が桁違いに短い、本番では打った手の先を読み勝敗を判別する
  • SL Policy Network:中級者レベルの実力だが人間の癖をよくつかんでいる、本番では次にどこに打つべきかを決める
  • RL Policy Network:上級者レベルの実力でAIで到達できる最高峰、本番では使われないが模擬試合を通じ実力を上げた
  • Value Network:実態はRL Policy Networkで本番では情勢判断に使われる

SL Policy Networkを対戦結果で教育

SL Policy Networkは教師あり学習の手法で教育された。教育データとして囲碁エキスパートの対戦結果が使われた。これはKGS Go Serverと呼ばれ、ここから16万ゲーム・2940万のポジションが使われた。ネットワークに入力するデータは碁石の色など合計48面で、ネットワークが出力するのは次に打つ場所とその勝率。ネットワークが出力する次の手を、対戦事例 (模範解答) と比較してパラメータを最適化する。この手法でネットワークを教育して実力を上げていく。これによりSL Policy Networkはエキスパートの手を57.0%の確度で予測できるようになった。

RL Policy Networkは模擬試合で強化

教育されたSL Policy NetworkをベースにRL Policy Networkを作る。強くなったSL Policy NetworkをReinforcement Learningの方式で教育する。具体的には異なる版数のRL Policy Networkが対戦して学習する。RL Policy Networkは任意に選択した古い版数の (弱い) RL Policy Networkと対戦する。ここで報酬 (Reward Functionという関数) を定義し、ネットワークは勝てば+1ポイント、負ければ-1ポイント、それ以外は0ポイントを受け取る。対戦の各ステップで、最終的に受け取る報酬が最大になるようネットワークのパラメータを最適化していく。この教育方法をDeep Reinforcement Learningと呼ぶ。RL Policy Networkは128ゲームを並列で1万回実行し、その結果RL Policy NetworkはSL Policy Networkに対して1.8倍強くなった。SL Policy Networkは、エキスパートの対戦成績を勉強して強くなったが、RL Policy Networkはアルゴリズム同士の対戦で一段と強くなった。Deep Reinforcement Learningの手法が改めて評価されることとなった。

Value Networkをランダムな対戦結果で教育

最後にValue Networkを生成する。Value Networkの実態は強くなったRL Policy Networkで、これを対戦結果を使って再度教育する。教育データは、RL Policy Network間の対戦結果が使われた。3000万局面の中から32局面を選び加工して、5000万回のミニバッチを実行し、Reinforcement Learningの方法で教育された。前述のKGS Go Serverを使って教育すると、Value Networkはこの対戦方法に特化した判断をするようになる (これをOverfittingと呼ぶ)。このため、上述の通り、ランダムな学習データで教育した。Value Networkは対戦結果をRL Policy Networkを使って近似する。RL Policy Networkの出力は確率分布であったが、Value Networkは勝率を出力する。

vwb_634_ai_google_reinforcement_learning_alphago (p04)

ツリー検索をニューラルネットワークで大幅に強化

実際の対戦ではMonte Carlo Tree SearchにRL Policy Network及びValue Networkを組み合わせて次の一手を検索する。Monte Carlo Tree Searchは囲碁ソフトの定番技法であり、これをニューラルネットワークで大幅に強化した構造となる。

Monte Carlo Tree Searchは四つのプロセスから構成される (上の写真、最初の三つのプロセスを示す)。最初はSelectionと呼ばれ (上の写真a)、木構造のノード (グリッドで示されている部分) を辿り、次の手を決めていく。事前にシミュレーションしておき、各ノードの勝率と通過した回数を記録する。しかし囲碁は場合の数が多く、シミュレーションできる範囲が限られる。勝率が高いノードを選び木構造を辿っていくが、これ以上進めないノード (Leaf Node) に到達する。ここで次の一手を打つ場所を決めなくてはならない。このプロセスがExpansionで (上の写真b)、SL Policy Networkが使われる。エキスパートの対戦データから学習を積んだSL Policy Networkが次の一手を決める。

次のステップはEvaluationと呼ばれ(上の写真c)、新しく打った手から先の展開をシミュレーションする。ここでは二つの手法が使われる。一つはValue Networkで、新しい一手から最終結果を評価する。つまり打った手の勝率を計算する。もう一つはRollout Policyを使う。Rollout Policyは統計処理技法の一つSoftmaxで構成され、打った手から勝敗がつくまでシミュレーションし、勝敗を判定する。AlphaGoは両者の結果を重みづけして局面の価値を算定する。Rollout Policyは多くの囲碁ゲームソフトで使われているものの、その精度は高くない。このためAlphaGoはValue Networkと併用して情勢を判断する。最後のステップはBackupと呼ばれ、評価結果をもとに各ノードの勝率などのデータを更新する。このプロセスを繰り返し対戦をすすめる。

vwb_634_ai_google_reinforcement_learning_alphago (p05)

上の写真はAlphaGoがFan Huiと対戦した結果で、Value Networkの計算結果を示している。盤上の数字が計算結果で、その場所に石を打った時の勝率を示している。オレンジ色の円は最高値を示す。ここに石を打つと54%の確率で勝てることを意味する。実際の対戦でAlphaGoはこの場所に石(黒)を打った。

システム構成

実際の対戦ではAlphaGoは並列システム (AlphaGo Distributed) として運用され、1202のCPU と176のGPUが使われた。AlphaGoを構成する要素技術は、前述の通り、SL Policy Network とValue Networkが使われている。SL Policy Networkで次の一手を打つ場所を計算する。Value Networkで、その手を打つと、その局面からの勝率を計算する。この二つのニューラルネットワークがMonte Carlo Tree Searchを大幅に強化し、囲碁チャンピオンを破る結果につながった。

なぜ弱いネットワークを使うのか

しかし、次の一手を打つ位置を計算するのに、なぜ上級者のRL Policy Networkではなく、中級者のSL Policy Networkを使うのか、大きな疑問を抱く。論文はこの疑問に対して、理由ははっきりしないが、人間が打つ次の手は極めた多彩なためとしている。SL Policy Networkは人間の棋士の対戦データで教育されており、人間の癖を把握している。人間と対戦する時は人間の手の内が分かるSL Policy Networkが威力を発揮することになる。理詰めで次の手を考えるRL Policy Networkは、直感が冴える人間との対戦では不向きなのかもしれない。

vwb_634_ai_google_reinforcement_learning_alphago (p06)

更に強化されたアルゴリズム

この論文はFan Hui (二段、世界ランク300位) との対戦したAlphaGoについて述べられている。AlphaGoの実力は単体運用では二段で、並列運用(AlphaGo Distributed)では五段程度とされる。その半年後にLee Sedol (九段、世界ランク1位) に対戦したAlphaGo  (上の写真) は、性能が格段に強化されたことになる。Hassabisらは強化した技法については公開していない。ただ、Lee Sedolの過去の対戦データでネットワークを教育するのはフェアーでないとして、HassabisはAlphaGoは特定個人に特化したアルゴリズムではないと述べている。

Deep Reinforcement Learningの役割

RL Policy Networkは表には現れないが、AlphaGoで決定的に重要な役割を果たしている。上級者であるRL Policy Networkは中級者であるSL Policy Networkから生成された。教育前は、両者はシステム構成もパラメータも同じで、同一なネットワークとしてスタートした。RL Policy Networkは人間のように、自ら考えて次の石を打つ位置を決める。このRL Policy Network同士で練習試合を重ね技術を向上させた。RL Policy Networkは、最初は中級レベルの腕前だが、対戦を重ねるにつれ腕を上げ、上級者に成長した。この成長を支えているのがDeep Reinforcement Learningという技法となる。

上級者に成長したRL Policy NetworkはValue Networkとして使われる。Value Networkは上級者であるRL Policy Networkをベースに再教育された。更に、その教育データはRL Policy Network同士の対戦で生み出した。AlphaGoは様々な技法を組み合わせて構成される複雑なシステムであるが、その中でDeep Reinforcement Learningの技法が決定的に重要な役割を果たしている。

AlphaGoに対する評価

ソフトウェアが最後の砦である囲碁で人間のチャンピオンを破ったことに対し惜しみない称賛が贈られた。また、技術的にはReinforcement Learningという手法で、Atariゲームと囲碁という、全く異なる問題を解いたことに対し、高い評価が寄せられている。AlphaGoはMachine Learningの最高峰を究めたことになる。

一方でAlphaGoに対する問題点も指摘されている。その一つがAlphaGoの学習速度の遅さである。RL Policy Networkは模擬試合で、128ゲームを並列で1万回実行して学習した。合計で128万回の模擬試合をこなしたことになる。人間のプロ棋士も数多くの対戦を通して腕を上げていくが、Reinforcement Learningでは試合数が破格に多い。なぜ、人間のように少ない試合数で学習できないのか課題が指摘されている。つまり、人間のように少ないデータで学習できるアルゴリズムの開発が次のステップとなる。

AlphaGoの成果をどこに生かす

DeepMindはAlphaGoを改良して更に難しいゲームに挑戦するとしている。その一つが「StarCraft」というビデオゲームである。StarCraftは26世紀の宇宙で展開されるSFゲームで、実社会で複雑な環境でミッションを完遂していく。DeepMindはReinforcement LearningでAgentを教育し、宇宙戦争で勝利するモデルを描いている。

しかし、AlphaGoの成果がゲームだけに留まるわけではない。DeepMindは将来計画については何も語っていないが、Hassabisの言動からDeep Reinforcement Learningのロードマップの一端が見えてくる。HassabisはDeepMindで開発したDeep Reinforcement Learningについて、そのアルゴリズムを脳の一部であるHippocampus (海馬) の構造にヒントを得たと述べている。Hippocampusは記憶に関する役割を担い、特に長期記憶に関連するといわれている。これ以上の説明はないが、ブロック崩しや囲碁のように、今のアクションがずっと先で得点に結びつくゲームの攻略で参考にしたのかもしれない。アルゴリズムは人間の脳の思考回路からヒントを得て、汎用的に学習できる能力を示している。

コンピュータサイエンスとニューロサイエンスの境界部分

いまHassabisやGoogleが注目しているのは、コンピュータサイエンスとニューロサイエンスの境界部分である。人工知能のアルゴリズムをヒトのようにインテリジェントにするには、ヒトにヒントを得る必要があるためだ。この背後には、ニューロサイエンスの大きな進化があり、ここ20年で大きな発見が相次いでいる。ヒトの脳のメカニズムを解明し、それをソフトウェアで実装する試みが始まった。その中でもヒトのように、少ない数のデータから学習するアルゴリズムに注目が集まっている。DeepMindは最新のニューロサイエンスの成果をアルゴリズムに応用し、人間のように思考する本当の意味でのAIの開発を始めた。

Googleが会話型AIを投入!スマホから人工知能へ大転換

May 21st, 2016

今年のGoogleは大きく変わった。Googleはシリコンバレーで開催した開発者会議「Google I/O」で仮想アシスタント機能を搭載した新製品を相次いで発表した。仮想アシスタントとは会話型のAIで、コンシェルジュのように対話しながら生活を手助けする。開発の主軸がAndroidから対話型AIに移った。Alphabet中核企業としてのGoogleの新戦略が見えてきた。

vwb_633_ai_google_assistant (p01)

仮想アシスタント製品群

Google最高経営責任者Sundar Pichaiは基調講演で新製品を相次いで発表した (上の写真)。この模様はYouTubeでストリーミングされた。「Google Assistant」はAIベースの仮想アシスタント機能で、対話を通して情報を検索し、タスクを完遂する。「Google Home」はAIスピーカーで、話しかけて音楽を再生し、情報を検索する。Amazonのヒット商品「Amazon Echo」からヒントを得て開発した。「Google Allo」はメッセージングアプリで、ここでGoogle Assistantと対話してタスクを実行する。これはFacebookの仮想アシスタント「M」の対抗製品となる。今年のGoogle新製品は他社のアイディアを踏襲して開発されたことが分かる。

Google Assistantはコンシェルジュ

Assistantは共通技術という位置づけで、HomeとAlloの背後でサービスを支える。Assistantは利用者のコンテクストを把握し、会話を通して実社会でタスクをこなす。この背後には10年以上にわたる、Googleの自然言語解析技術の蓄積がある。Assistantは、Googleコア技術である音声検索を活用した次世代サービスで、人間のアシスタントのように振る舞い日々の生活を助ける。下の写真がAssistantのコンセプトで、ホテルのコンシェルジュのように、お勧めの映画を示し、そのチケットを手配する。

「今夜上映中の映画は?」と質問すると、Assistantは近所の映画館で上映している映画を示す。これに対して「子供を連れていくのだが」と状況を説明すると、Assistantは「家族向けの映画があります」として、家族で楽しめる映画を表示する (下の写真左側)。更に、映画内容や人数について会話を続け、Assistantは「ジャングルブックを四人分手配しました」と述べ、チケットを送信する (下の写真右側)。チケットのQRコードを示して映画館に入館する。このようにAssistantは対話しながら日々のタスクをこなしていく。人間のようにスムーズに対話が進むのは、Assistantが利用者の嗜好や場所など、コンテクストを把握しているため。大量の個人情報を保有しているGoogleにとって、この点が最大のアドバンテージとなる。

vwb_633_ai_google_assistant (p02)

Google HomeはAIスピーカー

Assistantをスピーカーに適用したものがGoogle Homeとなる。Homeはキーボードなどの入力装置はなく、言葉で操作する。Homeは円柱形のデバイスでテーブルに置いて使う (下の写真)。デバイス上部には四色のLEDライトが設置され、利用者の音声に反応して点滅する。点灯の仕方でHomeが意思を表示する。Homeの機能は三つあり、音楽やビデオ再生、家事などのタスクの実行、及び、検索機能となる。

HomeはWiFi搭載スピーカーでクラウドに格納しているコンテンツを再生する。これはヒット商品「Chromecast」のコンセプトを踏襲したもので、Homeを音声で操作し、クラウド上の音楽やアルバムを再生する。Homeをキッチン置き、朝起きた時に「Ok Google、play the morning play list」と指示すると、朝向けの音楽を再生する。Homeは常にオンの状態で周囲の声を聞いている。「Ok Google」という言葉を聞くと、その次に続く言葉に従って機能する。

vwb_633_ai_google_assistant (p03)

今日の予定を確認するためには「Ok Google, I’m listening」と語ると、Homeは「ポートランド行きのフライトは30分遅れです」などと報告する。Homeは家族のスケジュールを把握しているだけでなく、家族の声も識別できる。そこで、Homeに夕食の予約を8時に変更するように指示し、「Text to Louise, dinner is moved to 8」と語るだけで友人にメッセージを送信できる。Homeが優秀な秘書のように振る舞う。

vwb_633_ai_google_assistant (p04)

Google Homeがスマートホームのハブ

Homeは家庭の中のコントロールセンターとなり、音声で電灯やサーモスタット「Nest」を操作できる。朝起きてこない子供を起こすため「Ok Google, turn on the lights in Kevin’s room」と指示すると、Kevinの部屋の電灯を点けることができる。Homeは検索エンジンとして機能する。Kevinが「Ok Google, which star system is the closest?」と質問すると、Homeはそれに対し地球に一番近い星雲は「… Alpha Centauri」と答え、その結果をリビングルームのテレビに表示する (上の写真)。Googleは17年に及ぶ検索技術開発の蓄積があり、ここが他社に比べ大きな優位点となる。将来はパートナー企業と提携し、Homeでレストランを予約し商品を購入することを計画している。

Google AlloはAIメッセージング

Googleはモバイルと機械学習を組み合わせて新世代のコミュニケーションアプリを提供する。これがAlloでAIメッセージングとして自ら学習する能力を持っている。Alloは表現力が豊かで、人間のように振る舞い、プライバシー保護にも配慮している。下の写真がAlloの画面でテキストや写真を送受信し友人と会話する。

vwb_633_ai_google_assistant (p05)

ここまでは通常のメッセージングアプリだが、Alloは返信テキストを自動生成する機能「Smart Reply」を備えている。Smart Replyは既にメール「Inbox」で導入され実績を積んでいる。Smart Replyは受信したテキストを読み、その意味を理解して、返信文を作成する。しかし、AlloのSmart Replyは写真に対しても使える。犬の写真を受信すると、Alloは「Cute dog!」、「Aww!」、「Nice bernese mountain dog」と返信文を生成する (上の写真左側、最下部のボタン)。Alloは犬だけでなく、その種別を判別して返信文を生成する。犬の種別を判定するには高度な技術を要し、この背後にはGoogleのニューラルネットワークが使われている。Alloはコンテント (犬であること) とコンテクスト (可愛いなど) を把握する。また、Alloは学習を重ねることで利用者の表現方法を汲んだ返信文を作成する。つまり、返信文はあたかも利用者個人が表す表現となる。倫理的な問題はあるが、Alloが本人になり代わり代筆する。

会話ボットと話してレストラン予約

Alloの背後ではAssistantが人間のコンシェルジュのように振る舞い、対話形式でアドバイスする。Joyが「Let’s go for Italian food」とメッセージを送ると、Assistantはコンテキスト(場所やレストラン) を把握して近所のイタリア料理店を紹介する。これはKnowledge Graphの機能を使っており、利用者のニーズにズバリ答える。

Alloが推奨するレストランをみて、JoyとAmitがCucina Ventiという店で7時に食事することにすると、Alloはその店の情報を掲示する (上の写真右側)。Amitは「Make a reservation」ボタンをタップし、Assistantと会話しながらレストランを予約する。Assistantは時間や人数を確認しOpenTableで予約する。Assistantがコンシェルジュとして振る舞い、会話を通してタスクを完遂する。

vwb_633_ai_google_assistant (p06)

Assistantに直接問いかけることもできる。AmitがAssistantに対して「Funny cat pics」と入力すると、Assistantは猫のおかしな写真を表示する (上の写真左側)。これらの写真はGoogle Image Searchの結果が使われている。Assistantとの会話でいきなり「Did my team win」と質問すると、AssistantはAmitが贔屓にしているチームがReal Madridであることを理解しており、その試合結果を表示する。また「Next game」と尋ねると、Real Madridの次の試合予定を表示する (上の写真右側)。

また、Alloはプライバシー保護やセキュリティにも配慮している。匿名モード「Incognito Mode」を選択すると、Alloの全てのメッセージは暗号化される。これはChromeブラウザーに実装されている技術をAlloに適用したもの。AlloはAssistantを具現化した最初のサービスで、Googleの戦略製品として位置づけられる。これから全力でFacebook Mを追うことになる。

他社製品のコピーなのか

基調講演で登場した新製品はGoogle独自のアイディアではなく、ヒットしている他社製品にヒントを得ている。Homeは人気商品Amazon Echoに倣ったもので、Pichaiはこれを認めている。Alloは人気急上昇中のFacebook Messengerを追随する。Assistantは野心的なFacebook Mや進化したMicrosoft CortanaをGoogle流に焼き直したものである。今年の基調講演はGoogleが他社を追随するモードで進んだ。Googleからは世界を驚かせる斬新な製品は登場しなかった。

vwb_633_ai_google_assistant (p07)

しかし、Googleが発表した”コピー製品”はとても魅力的であった。筆者の印象だけでなく、会場の聴衆の反応から、新製品は好意的に受け止められたことが分かる。その理由は、これら新商品がオリジナル商品を上回るためだ。Homeでは音声認識技術のレベルの高さが、また、Alloでは画像認識や対話機能が際立った。Assistantは人間の手助けを必要とせず、AIが全てのタスクをこなす。Facebook MはAIと人間が共同してタスクをこなし、まだAIが独り立ちできない。更に、他社を凌駕する高度な検索技術がGoogle新商品を支えている (上の写真、Knowledge Graphの説明)。Googleが得意とするAI技術が随所に生かされており、”コピー商品”であってもオリジナル商品より魅力を感じる。

コーポレートアイデンティティ

特筆すべきはGoogleのコーポレートアイデンティティが大きく変わったことだ。GoogleがAlphabetのもとで再編され、”Pichaiカンパニー”としてその独自色がでてきた。Alphabet子会社との役割分担もはっきりしてきた。Googleはハイテクを駆使して市場を驚かす製品を開発するのではなく、家族で楽しめる優しい製品に比重を移している。オタクな会社からヒューマンタッチの会社にイメージチェンジしている。Googleの使命は情報検索で、対話型AIをユーザーインターフェイスとし、だれでも使える製品を開発する。一方、Alphabet子会社は自動運転車やヒトの寿命を延ばす高度な研究に力を注ぐ。Alphabet子会社がギークなDNAを引き継いでいる。

PichaiはAIに会社の将来をかける

Googleが会話型AIを相次いで投入したことが示しているように、PichaiはGoogleの将来をAIに託している。PichaiはDeepMindのAI技術に感銘を受けたと述べ、これがAIに傾倒する切っ掛けとなった。Pichaiは囲碁ソフト「AlphaGo」が囲碁チャンピオンを破った事例を紹介し、AIが気候変動やがん研究で重要な役割を果たすとの見解を示した。世界を変えるAI技術の開発はDeepMindの役割となる。

Googleは別のアングルからAIを開発する。そのキーワードが「Ambient (背景)」でGoogleはAIを背景技術と位置づける。AIがサービスを支える基盤となるが、あくまで黒子に徹し利用者の眼にはとまらない。具体的な実装方式は会話型AIで、利用者は自然なコミュニケーションで情報にアクセスしタスクをこなす。また、利用者との接点はスマホだけでなく、家電やクルマやウエアラブルやデスクトップなど多岐にわたるが、そのインターフェイスをAIが司る。異なるデバイスの標準インターフェイスが会話型AIで、開発の重点がAIに移った。GoogleがモバイルからAIにピボットした形となった。

ビジネスモデルが変わる

Facebook、Amazon、Microsoftに次いでGoogleが会話型AIの開発に乗り出したことで、米国IT市場は大きな転機を迎えた。今問われているのがビジネスモデルだ。仮想アシスタントを通して情報検索をするが、新しい広告モデルが必要となる。メッセージングでチケットや商品を購入する方式が始まり、会話型コマース「Conversational Commerce」が登場する。ウェブサイトで買い物をするE-CommerceからこのC-Commerceにパラダイムシフトが始まる。会話型AIで先行している日本であるが、Googleを中心とするAI開発の流れは急で、日本市場への影響は必至である。