究極のGoogle Glass、Bluetooth Beaconが情報を目の前に配信

January 23rd, 2015

Google Glassベータ製品 (Explorer Edition) の販売が中止され波紋を呼んでいるが、もう既に、Glass次期製品の憶測が飛び交っている。サンフランシスコの美術館で、Glass次期製品のヒントが見えてきた。展覧会で絵画の前に立つと、操作しなくても、作品ガイドがGlassに表示された。Glassはコンテクストを理解し、必要な情報を目の前に表示する。Googleが目指す理想のGlassに一歩近づいた気がした。

g398_google_glass_beacon_01

サンフランシスコの美術館がGlassを採用

この展覧会はサンフランシスコの人気美術館「de Young Museum」 (上の写真) で開催された。企画展「Keith Haring: The Political Line」で、Glassを使った作品ガイドシステムが導入され、早速、このシステムを体験した。会場に入りGlassをかけて作品の前に立つだけで、ディスプレイに作品ガイドが表示された。指でタップするなどの操作は不要で、必要な情報が必要なタイミングで自律的にGlassにプッシュされた。これが情報アクセスの理想形かもしれないと思いながら、会場内を散策した。

因みに、de Young Museumはアメリカ近代絵画を中心に、幅広いジャンルの作品を取り揃えている。企画展のアーティストKeith Haringは、1980年代に活躍した米国の画家で、街中でグラフィティを描き、活動家として意見を主張してきた。タイトル「The Political Line」が示す通り、政治色が際立った作品が展示された。

g398_google_glass_beacon_02

GuidiGOというアプリを利用

美術館はGuidiGO社が開発した同名のアプリ「GuidiGO」を導入。GuidiGOはパリなどに拠点を置く企業で、ルーブル美術館などにシステムを提供している。このアプリを事前にGlassにダウンロードしておき、会場入り口でそれを起動する。その後は操作は不要で、前述の通り、作品に近づくと、自動で作品ガイドが起動する。上の写真はその事例で、作品のそばに立つと、作品ガイド (右上のウインドウ) がGlassのディスプレイに表示された。これによりタイトルは「With LA II (Angel Ortiz) Statue of Liberty」で、1982年に製作されたことが分かる。この作品ガイドを見たい時は、Glassをタップするとビデオが始まる。作品番号を入力したり、Glassのカメラで作品をスキャンするなどの操作は不要で、自律的に作品ガイドが表示される。

g398_google_glass_beacon_03

作品ガイドを見る

作品ガイドをタップすると、Glassでビデオが再生される。上の写真がその様子で、「無題」という1984年に製作された作品の解説ビデオ (右上のウインドウ) がディスプレイで再生される。絵画の前で、音声だけでなく、グラフィックスを取り込んだガイドを聞きながら、作品の主張を理解できる。これはHaringがコンピューターと人間社会の関係を描いたもの。中央の人物の頭脳がコンピューターで置き換わり、人工知能の脅威を表している。人物が跨っている爆撃機は、人工知能が無制限に拡散することへの危険性を主張している。当時、AppleのSteve Jobs (写真左側の人物) がMcIntoshを発売し、パソコンという概念が社会に広まっていた。Haringはコンピューターを肯定的に受け止め、技術進化に期待を寄せていた。その一方で、コンピューターを悪用することへの警戒感を絵画で表現した。Glassでガイドを見ると、作品の前で一気に理解が深まる。

g398_google_glass_beacon_04

必要なタイミングで情報が表示される

上の写真は1982年に製作された「無題」という作品で、棒を足で折るしぐさが描かれている。これは警察がデモ隊を警棒で威圧することに対し、自らの運命を自分で決定することを描いている。Haringはグラフィティを地下鉄駅構内や路上に描いていた (右上のウインドウ)。このため、作品は単純な線と明確な色彩で構成され、短時間に (10分程度で) 描かれる。時に、警察に検挙されることもあった、とガイドは説明している。展覧会を振り返ると、ディスプレイに作品解説が自動で表示されるので、専属説明員に案内されながら作品を鑑賞した気分だった。欲しい情報が目の前に自律的に表示されると、如何に利便かを実感した。

Bluetooth Beaconを利用

作品の前に立つとGlassにガイドが表示されるのは、会場に設置されているBluetooth Beaconで、デバイスの位置を把握しているためである。BeaconがGlassとBluetoothで交信し、位置情報に応じた、作品ガイドを再生する指示を出す。これはスマートフォンでは馴染みの仕組みだ。Apple Storeに入店すると、iBeaconがiPhoneとBluetoothで交信し、商品情報などがロックスクリーンに表示される。スマートフォンでは、デバイスをポケットから取り出し、メッセージを読まなくてはならないが、Glassでは目の前のディスプレイに直接表示されるので、利便性が格段に向上する。会場内ではBluetooth Beaconが、目立たないように壁の上部に設置されていた。

このシステムは美術館だけでなく、汎用的に利用できる。Glass利用者が増えるという前提だが、小売店舗で採用すると、目の前に特売情報などを表示でき、販売促進に役立つ。また、街中に実装すると、観光案内などで利用できる。名所旧跡などに近づくと、観光案内が目の前に表示される。日本を訪れる観光客向けのガイドなどで利用できるかもしれない。仕組みはシンプルであるが、Glassで活用するとスマートフォンよりその効果が増大する。

g398_google_glass_beacon_05

Glassと人工知能の組み合わせ

Glassを使って一番便利と感じる機能が、必要な時に必要な情報が、目の前に現れる機能である。上述の美術館での作品ガイドの他に、屋外ではGoogle Nowを便利と感じる。Google Nowは、利用者のコンテクストを理解し、最適な情報を配信する機能である。スマートフォンやスマートウォッチで使われている。Glass向けにも実装されており、Glassをかけて通りを歩くと、近隣のお勧めの店舗が表示される。そのカードをタップすると、その詳細情報が表示される。

上の写真がその事例で、お昼時、サンフランシスコ対岸のサウサリトを歩くと、Glassが近くの人気レストランを教えてくれる。この近くに「Poggio Trattoria」というイタリアン・レストランがあると、ディスプレイにカードが示される (写真右上のウインドウ)。こちらの嗜好を把握し、時間と場所に依存した情報をプッシュする。お昼時に近くの人気レストランが表示されると、そちらに足が向く。自分でレストランを探す必要はなく、Glassに気になる情報が表示され、とても便利と感じる。Google NowはApple Siriに匹敵するパーソナル・アシスタント機能で、背後では人工知能の技術が使われている。Googleのコア技術である人工知能とGlassの組み合わせが、キラーアプリへの最短ルートかもしれない。

g398_google_glass_beacon_06

Glass利用者は団体で入場

展覧会会場でちょっと気になる話を聞いた (上の写真)。美術館スタッフにGlassについて尋ねたところ、Glassをかけた入館者の殆どが団体客であるとのこと。Glassをかけた個人の入館者は少ないとのことであった。スタッフはこの理由は分からないとしているが、今のサンフランシスコの雰囲気を端的に象徴している事例かもしれない。Glassのプライバシー問題が大きく報道され、屋外でGlassの使用をためらう人が増えている。個人で使うには勇気がいるが、団体の一員としてなら抵抗感が和らぐ。因みに、著者は個人で入館したが、やはり見えないプレッシャーを感じる。Glassで撮影する時はプライバシー問題に配慮し、スマートフォンの時に比べ、慎重にアングルを選ぶようになった。他人の迷惑にならないようGlassを使っている。

Glassの最終目的地に一歩近づく

Googleは次世代Glassを開発中で、完成したと判断したら発売すると表明している。プライバシー問題の解決やデザインの改良が急務となるが、Glassのキラーアプリについての議論も盛り上がっている。Google X研究所長のAstro Tellerは、Glassの開発目標を、技術を意識しないで日常生活ができること、と述べている。更に、存在が意識されなくなった時が、Glass開発の到着地点とも述べている。展覧会で作品を前に、Glassで作品ガイドを見ながら、Keith Haringの世界に没頭していた。Glassはまだまだ未完の製品であるが、Tellerが述べている目標に一歩近づいた気がした。

消費者の観点からすると、数多くの問題を抱えているが、Glassのような生活を豊かにするウエアラブルは、途中で挫折することなく、開発を継続してほしい。必ずしもGoogleである必要はなく、技術とセンスがある企業が手掛けるのが自然な形だ。その意味で日本企業は、いまが出番かもしれない。米国の消費者は周囲の眼を気にしないで、堂々と使えるスマートグラスの登場を待ち望んでいる。

Facebookの次の10年、人工知能が支えるソーシャルネットワーク

January 9th, 2015

Facebookが事業を開始して10年が経過した。CEOのMark Zuckerbergは次の10年を睨んだ戦略を描いている。ここで重要な役割を担うのが人工知能だ。Facebookは人工知能研究所を開設し、Deep Learning研究第一人者Yan LeCunの指揮の元、研究開発を進めている。ソーシャルネットワークと人工知能はどう関係するのか、また、Zuckerbergは何を目指しているのか、Facebookの人工知能戦略をレポートする。

g397_facebook_ai_research_01

Facebook人工知能研究所

Facebookは2013年9月、人工知能研究所「Facebook AI Research」を開設し、同12月にはYann LeCunが所長に就任したことを発表した。人工知能研究所が活動を始め一年が経過し、研究の一端が見えてきた。LeCunは、先月、ビッグデータのカンファレンス「Data Driven NYC」で、Facebook人工知能研究所について語った。研究概要だけでなく、人工知能でビジネスを興すヒントなどにも言及し、その模様はYouTubeなどで公開された。

上の写真は、このカンファレンスとは別に、モントリオールで開催された人工知能学会のひとこまで、LeCunがFacebookに公開した。人工知能研究のオールスターが勢ぞろいしている。左から二番目がYann LeCun本人。右から、Andrew Ng (Google XからBaiduに移籍)、Yoshua Bengio (モントリオール大学教授)、Geoffrey Hinton (トロント大学教授でGoogleで研究開始)。歴史に名を残す人工知能研究者が、Facebook、Baidu、Googleに引き抜かれていることが分かる。

最適な記事を表示

Facebookはソーシャルネットワークのトップを走っているが、次の10年はSocial Interactionで革新が必要との見解を示した。Social Interactionとは、利用者がデジタルメディアを介して友人と接する方式のことで、これを人工知能がアシストするモデルを描いている。

g397_facebook_ai_research_02

いまFacebookを開くと、多くの友人が投稿した記事が表示される。その数は数千件にも上り、全ての記事に目を通すことはできない。Facebookは人工知能を導入し、この仕組みを改善しようとしている。機械学習の手法Deep Learningを適用し、アクティビティなどを分析し、利用者の嗜好を把握する。更に、Deep Learningで、利用者の友人が投稿した記事の内容を把握する。両者をマッチングすることで、利用者が興味を引く記事だけをフィードに表示する。具体的には、ある利用者が赤色のフェラーリ (上の写真) に興味があるとシステムが判断すると、友人が投稿した赤色フェラーリの写真をフィードに表示するという仕組みとなる。利用者が登録するのではなく、Deep Learningが記事を自然言語解析し、嗜好を把握し学習を続ける。今は数千件の記事がフィードに表示されるが、これを最適な100件程度に絞り込む計画だ。

両親のようにアドバイス

更に、長期的には人工知能研究を推し進め、インテリジェントな機能を提供するとしている。具体的には個人秘書 (Personal Assistant) や質疑応答 (Questions & Answers) の形態で実装する。個人秘書は状況に応じて利用者にアドバイスを行う。例えば、みっともない写真 (泥酔した自撮り写真など) を投稿しようとすると、システムはそれを認識し、再考を促すメッセージを表示する。Facebook利用者は若者が多く、システムが両親に代わって、行き過ぎた行為を戒めることとなる。LeCunは触れなかったが、質疑応答ではシステムが、ファッションなどの相談にのってくれるのかもしれない。ソーシャルネットワークには個人に関する膨大なデータが揃っており、Deep Learningにとっては、またとない実力を発揮できる環境となる。

大学と企業の人工知能研究

LeCunはDeep Learning研究で、大学と企業の役割にも触れた。大学は学生を教育し研究者を育てる他に、独自の視点でDeep Learning研究を進めている。その成果はオープンソースやビデオなどで公開され、コミュニティーの一員として貢献している。企業は大規模なコンピューター資源を使い、積極的にDeep Learning研究を展開している。Google、IBM、Microsoftなどが中心的な役割を担っている。Deep Learning研究では両者の活動が密接に関連しており、それぞれの特徴を生かしながら、補完する関係の構築が必要であるとの見解を示した。上述の事例の通り、人工知能研究では企業と大学間の人の交流が活発で、大学の基礎研究が企業の製品開発に、うまく繋がりつつある。

人工知能ビジネスの戦略

LeCunは人工知能で事業を構築するためのポイントにも言及した。人工知能市場を、水平市場と垂直市場の観点から考察し、何処を攻めるべきかを示した。水平市場はDeep Learning技術を汎用的に提供するモデルで、垂直市場は業種ソリューションに統合して展開するモデルを指す。水平市場では、現行モデル (Convolutional Neural Networksなど) を凌ぐアルゴリズムが求められ競争は極めて厳しい。

これに対し垂直市場では、業種ソリューションをDeep Learningで強化する方式で、ビジネスとして成立しやすい。LeCunが注目している垂直市場は医療で、メディカル・イメージングがDeep Learningと親和性が高く、ここに大きなチャンスがあるとしている。この市場はSiemensやGEが大きなシェアを占めているが、イメージ解析では参入のチャンスがあるとの見解を示した。Deep Learningで自社の業種ソリューションを強化することが、企業が進むべき道であると理解できる。

Zuckerbergは個人で人工知能ベンチャーに出資

Facebookは企業として人工知能研究を進めているが、Zuckerbergは個人としても、人工知能に大きな将来性を感じている。Zuckerbergは人工知能ベンチャー「Vicarious」に個人として投資している。Vicariousはサンフランシスコに拠点を置き、人間のように考えて学習するソフトウエアを開発している。Vicariousは、Zuckerbergの他に、Elon Musk (TeslaやSpaceX創業者)、 Peter Thiel (PayPal創業者)、Ashton Kutcher (人気俳優)、Jeff Bezos (Amazon創業者) など著名人から出資を受けたことで、一気に話題となった。

g397_facebook_ai_research_03

イマジネーションを使って高速学習

しかしVicariousは秘密裏に開発を進めており、その内容は分からない。色々な情報を総合すると、Vicariousは高速で学習する次世代Deep Learningを目指しているようだ。現在のDeep Learningは大量のデータを読み込み学習する必要がある。これに対してVicariousは、人間のように、”イマジネーション”を使って高速に学習すると言われている。上の写真はその事例で、一頭の牛の写真を示すと、Vicariousは牛とは何かを理解し、イマジネーションで多くの牛を描くことができる。馬や山羊に見える図形も交じっているが、Vicariousは牛の特徴を掴んでいることが分かる。

g397_facebook_ai_research_04

Captchaを解読

Vicariousはこの技術を使い、Captchaを解読したことで話題を集めた。Captchaはチャレンジ・レスポンス型のテストで、数字や文字が不規則に並び、これを読み説いてログインの認証を受ける。マシンには解読できなくて、サイトにログインするのは人であることを確認するために利用される。上の写真はYahooサイトのCaptchaで、文字が重なっていて、人間でも読み違えることがしばしばある。

g397_facebook_ai_research_05

上の写真はこれをVicariousが解読したものである。文字が重なっているが、見えない部分を”イマジネーション”で補完し、正しく回答した。Vicariousを使うと、マシンがYahooサイトにログインできることとなる。

高精度のターゲット広告や写真分類

勿論、Captchの解読が目的ではなく、Vicariousはソーシャルネットワークや検索エンジンの飛躍的な強化を目標にしている。また、X線検査から腫瘍を検出し、製造ラインで規格外製品を検出し、また、ロボットが家庭内で移動するモデルも計画されている。VicariousはFacebookでの応用分野については触れていないが、高精度のターゲット広告や写真分類で利用されると言われている。

シリコンバレーでAIベンチャー買収が続く

Facebookは、今月、人の言葉を理解する技術を開発しているベンチャー「Wit.AI」を買収した。これは人工知能の中で自然言語解析と呼ばれる分野で、ロボットやウエアラブルに頭脳を持たせる技術として注目されている。これに先立ち、Zuckerbergは、驚異的な速度で学習する人工知能「DeepMind」の買収を目論んでいた。結局、Larry Pageが直接交渉し、Googleが買収することで決着した。シリコンバレーの主要企業は、人工知能ベンチャーの買収で、熱い戦いを繰り返している。人工知能技術への期待と投資が過熱気味であるが、各企業はここに大きなビジネスチャンスを描いている。今年は人工知能を要素技術としたユニークな製品が数多く登場することが期待される。

Deep Learningを実装した自動運転技術、Nvidiaが開発しAudiなどに提供

January 2nd, 2015

自動車はスーパーコンピューターを搭載し人工知能で制御する。Nvidiaはラスベガスで開催中のCES 2015で、最新の自動運転技術を発表し、人工知能を採用した制御方式を示した。このシステムを自動車に搭載すると、カメラで捉えたオブジェクトを高精度で把握し、周囲の状況を理解する。Audiはこのシステムの採用を表明し、自動運転技術開発が加速しそうだ。

g396_nvidia_drive_px_01

カメラがセンサーを置き換える

Nvidia CEOのJen-Hsun Huang (上の写真) は1月4日、自動運転開発プラットフォーム「Nvidia Drive PX」を発表した。記者会見の模様はストリーミングで中継された。Huangは、車載センサーのトレンドとして、レーダーなどがカメラにより置き換えられていることを指摘。スマホなどのモバイル技術により、カメラの解像度、ダイナミックレンジ、夜間撮影機能などが著しく向上したためである。これからは複数の車載カメラを統合する方法で、運転支援システム (Advanced Driver Assistance Systems) や、自動運転車 (Auto-Pilot Car) 開発が可能となるとの見解を示した。

g396_nvidia_drive_px_02

車載スーパーコンピューター

自動運転技術を支えるのがNvidia Drive PX (上の写真) だ。Drive PXは最新プロセッサー「Tegra X1」を二台搭載し、並列処理に、また、二多重に利用できる。Tegra X1はTegra K1の後継機で、テラフロップス (毎秒1兆回の浮動小数点演算) を超える性能を提供する。NvidiaはTegra X1をスパコンチップ (Mobile Super Chip) と呼んでいる。Drive PXは12台のHDカメラ (60Hz) と接続でき、毎秒1.3ギガピクセルを処理する。自動車の前後左右や車内に搭載される、最大12台のカメラで捉えたイメージを、同時に処理できるパワーを持っている。

コンピュータービジョンにDeep Neural Network

Drive PXはコンピュータービジョンに「Deep Neural Network」を採用した。Deep Neural Networkとは機械学習のアルゴリズムで、脳の構造を模したネットワークで、データから高次の意味を抽出することができる。Deep Neural Networkを自動車に応用すると、単にオブジェクトを認識するだけでなく、置かれた状況を理解することができる。

g396_nvidia_drive_px_03

上の写真がその事例で、道路を横断している歩行者を認識するデモである。左手の歩行者は、全身が見えていて、従来モデルで把握できる。一方、右手の歩行者は、一部が自動車に隠れ、従来モデルでは歩行者と認識しない。Deep Neural Networkを使うと、頭部や脚部を認識し、このオブジェクトは歩行者であると判断する。

街中を走行して撮影したビデオを解析

Nvidiaは、実際に市街地を走行しビデオ撮影を行い、そのイメージをDrive PXで処理した結果を公開した。リアルタイムでの処理ではないが、Drive PXでDeep Neural Networkを使うと、どんな利点があるかを理解できる。

g396_nvidia_drive_px_04

上の写真は自転車に乗っている人 (右端の緑色の箱) の事例で、一部がパトカーや消火栓の陰で見えなくても、システムは正しくサイクリスト (Cyclist) と判定した。上述のデモを実際のビデオ画像で証明したもので、Deep Neural Networkの威力が分かる。

g396_nvidia_drive_px_05

夜間ドライブでも正しく判定できる

上の写真はイギリスにおける夜間ドライブの様子。夜間走行はコンピュータービジョンにとって、オブジェクトの認識が難しい。街路灯などで対象物の判定が難しいなか、システムはスピードカメラを検出 (右端の緑色の箱)。更に、速度標識を認識 (中央部の緑色の箱)。速度標識は50Hzで点灯している。一方、カメラの撮影サイクルは30Hzで、イメージを上手く取り込めないこともある。しかしDeep Neural Networkを使うと正しく認識できたとしている。左端の緑の箱はメッセー表示で「Queue」という文字を認識した。これはこの先渋滞という意味で、少し走ると渋滞に差し掛かり、前の車がブレーキを踏むと、それを正しく検知した。このように、Deep Neural Networkは複数のクラスを同時に認識できる点に特徴がある。

g396_nvidia_drive_px_06

ラスベガス市街地で車種を認識

上の写真はラスベガス市街地の事例で、システムは自動車の車種を認識する。上の事例では、乗用車 (Passenger Car) や多目的スポーツ車 (SUV) を検知している。従来モデルでは、車種ごとにフィルター (Feature Detector) を開発する必要があった。しかしDeep Neural Networkでは、システムが自動車を認識し、そのサブクラス (Passenger CarやVanなど) を教育するだけで、分別が圧倒的に効率的になった。この事例では40時間分のビデオを入力し、16時間の教育を行うことで、区別ができるようになった。この写真は、左側の乗用車が高速で追い越しているシーンである。従来方式では、フレームごとにイメージ認識を行い、高速で動くオブジェクトのイメージは歪むので、上手く認識できない。一方、Deep Neural Networkでは、特徴を掴み高速で処理ができるため、上の写真の通り正しく認識できる。Deep Neural Networkでコンピュータービジョンの性能が格段に向上したのが分かる。

g396_nvidia_drive_px_07

アーキテクチャー

このシステムのアーキテクチャーは上の写真の通り。Deep Neural Networkは、事前に、GPU搭載のスーパーコンピューターで学習を重ねる。具体的には、大量のイメージをDeep Neural Networkに読み込ませ、パラメーターの最適化を行う。読み込んだイメージが何かを教育するのであるが、実際にはこの大量のパラメーターを最適化する作業となる。教育されたDeep Neural Networkが出来上がると、これを車載Drive PXにロードし、システムが完成する。運転中に車載カメラから読み込んだイメージを、Drive PX上のDeep Neural Networkに入力して、オブジェクトの分類を行う。Drive PXは同時に150のオブジェクトを認識できる。

一方、システムがオブジェクトを上手く認識できないケースでは、再度、そのイメージをスーパーコンピューターに戻し、データサイエンティストがマニュアルでタグ付けをし、再教育する。Deep Neural Networkがアップデートされると、更新されたソフトウェアを他の自動車にダウンロードする仕組みとなる。Nvidiaは、ネットワーク接続の自動車 (Connected Car) が、スパコンチップ (Mobile Super Chip) を搭載し、Deep Learningでオブジェクトを認識し、自動運転を行うモデルを描いている。

g396_nvidia_drive_px_08

Deep Neural Networkとは

NvidiaはDeep Learningの技法をDeep Neural Networkと一般的な用語で説明しているが、具体的には、「AlexNet」を利用している。AlexNetとは、トロント大学のAlex Krizhevskyらにより開発された方式で、「Convolutional Neural Networks (CNN)」という技法を使っている。CNNは多層ネットワークで、入力イメージから、特徴を抽出し、オブジェクトの分類を行う。上の写真はAudiのイメージをCNNで解析するプロセスを示している。左から右に向って処理が進む。左側は入力イメージから、Audiの低次元の特徴 (単純な形状など) を抽出し、処理が進むにつれ、高次元の特徴 (タイヤなど) を抽出し、自動車全体を把握する。低次元の特徴を抽出することで、Audiを形成する不変の要素を把握できる。更に、CNNに教育を行うと、その後は自動でオブジェクトを区分でき、コンピュータービジョンの定番技法となっている。

このケースではNeuron (計算素子、写真の丸の部分) の数は65000 (ロブスターの脳の半分程度)で、パラメーターの数は6000万となる。このプロセスでは大規模な演算量が必要となり、NvidoaのGPUが威力を発揮することとなる。因みに、市場には様々なDeep Learning開発フレームワークがあるが、Nvidiaはその中でUC Berkeleyが開発した「Caffe」をサポートしている。

g396_nvidia_drive_px_09

CNNが注目された理由

CNNが一躍注目を集めたのは、2012年に行われたコンテスト「Large Scale Visual Recognition Challenge」である。このコンテストは、120万のイメージに何が写っているかを、1000のクラスに区分けする競技である。イメージ認識精度は毎年数%程度しか向上していないが、2012年は10%と大幅に向上した (上の写真)。これはNvidia GPUでAlexNetを稼働した成果で、CNNの実力が世界に認められた年となった。因みに2014年は、Googleが「GoogLeNet」で圧勝した。

Audiとの共同開発

NvidiaはAudiと10年にわたり共同開発を続けており、Audi上級副社長Ricky Hudiは、Drive PXを採用する計画であることを明らかにした。Audiは、既に、イメージ認識システムを開発しており、そのプラットフォームとしてNvidiaを使っている。超並列システムとMachine Learningで、インテリジェントな自動車を開発しており、Audi自動運転車が市場に登場するのはそう遠くないとしている。

g396_nvidia_drive_px_10

事実、Audiは自動運転車RS7コンセプトカー「Bobby」をドイツのホッケンハイムレース場で試験走行し、時速200キロで走行することに成功した (上の写真)。自動車にはドライバーは搭乗しておらず、Bobbyは自律走行でレース場を駆け抜けた。ここはF1レースが行われる名門コースで、Bobbyは人間のトップレーサーの技術に相当すると評価され話題を集めた。また、Audi A7ベースの自動運転車「Jack」は、CES開催に合わせ、シリコンバレーからラスベガスまで、自動運転で走行するデモを実施した。1月4日現在、ほぼ中間点のBakersfieldに到達した。AudiはNvidiaプロセッサーとDeep Learningで、急速に自動運転技術を向上している。

Software-define Car

Nvidiaの最新プロセッサーTegra X1はテラフロップスを超え、かつてのスーパーコンピューターと同等の演算能力を持つ。スマホやタブレットでは使いきれない性能で、Nvidiaは自動車市場に注目している。これからの自動車はスーパーコンピューターを搭載し、ソフトウェアが走行を制御する仕組みとなる。Nvidiaはこの構成を「Software-define Car」と呼び、ソフトウェアが自動車の機能を決定するとしている。自動車メーカーは独自に自動運転技術を開発しているが、Nvidiaがプラットフォームを提供することで、開発速度が上がると思われる。Googleが先行している自動運転技術であるが、自動車メーカーの巻き返しに注目が集まっている。

コンピューターの”視覚”が劇的に進化! Deep Learningを使ったニュービジネス

December 19th, 2014

人工知能の最新トレンドであるDeep Learningを取り入れたビジネスが拡大している。その中で、「Convolutional Neural Networks」という技法はイメージ解析に最適であることが、様々なベンチマークで証明されてきた。コンピューターの“視覚”が劇的に進化し、ここに大きなビジネスチャンスが生まれている。

人工知能ソリューション

この分野で注目を集めているベンチャーは、シリコンバレーに拠点を置く「MetaMind」で、企業向けに人工知能ソリューションを提供する。人工知能は「AI Platform」として提供され、テキストやイメージを高精度で認識・解析する。MetaMindが提供する主要機能は「Language」と「Vision」。前者は自然言語解析エンジンで、財務諸表などを理解し、リスクを査定する。後者はイメージ認識 (Image Prediction) エンジンで、イメージからそこに写っているオブジェクトを22000の区分に分類する。

g395_metamind_01

高度なイメージ認識機能

上の写真がVisionの機能で、写真に写っているオブジェクトを分類する。左側は入力したイメージで、右側がその解析結果である。イメージ認識機能は、写真はTabby Cat (トラネコ) と正しく認識している。解答には解答候補と自信度が表示される。Tabby Catの自信度は25%で、Egyptian Cat (エジプシャンマウ) は23%で、判定の難しさもうかがい知れる。動物や植物の種類を言い当てるのは、人が行っても専門知識が必要で、判定が難しい。

g395_metamind_02

写真が何を意味しているか

利用者が写真をアップロードしてイメージ認識機能を試験できる。上の事例はケーブルカーの写真をアップロードしたものであるが、解析結果はMoving Van (動いているバン) と回答した。解答候補にはスクールバスや自動車などが並ぶが、ケーブルカーはでてこない。但し、ケーブルカーを横から撮影した写真では正しく認識する。更に、Moving (動いている) の部分は正しく認識している。単に、オブジェクトを言い当てるだけでなく、どんなシーンであるかも理解する。これを「scene understanding」と呼び、写真が何を意味しているのかを、ある程度理解できるようになった。

g395_metamind_03

食品に対する認識機能が強化された

Visionの特徴は料理など、食品に対する認識機能が強化された点である。上の事例はスパゲッティの写真をアップロードしたものでるが、Visionは「Spaghetti Bolognese」(スパゲッティ・ボロネーゼ) と正しく答えている。単に、スパゲッティというのではなく、料理の各パーツを認識し、その種類も特定できる。更に、皿に乗っているサラダで一部が隠れているが、正しく回答した。

イメージ認識の応用分野

食品の写真からその種類を特定する機能は、健康管理アプリで使われている。スマートフォンで食事を撮影すると、システムがイメージを分類し、食事内容を把握し、カロリー量を計算する。今までは、マニュアルで食事の内容を入力していたが、MetaMindを使うと、この面倒な作業を自動化でき、健康管理アプリの使い勝手が大きく向上する。この他に、病院で乳がんの検査を受けると、MetaMindが撮影イメージを解析し、その結果を判定する。このような機能はMachine Visionと呼ばれ、自動車に搭載すると、周囲の歩行者や自転車を認識し、自動で停止するなど、安全性向上に大きく寄与する。

g395_metamind_08

イメージ認識機能を教育する

Visionが高精度でイメージを判定できる背景には、システムを効率的に教育する環境が整っているためである。この教育システムは「IcMe」(Image Classification Made Easy) と呼ばれ、イメージをドラッグ&ドロップするだけで、簡単に利用できる。上の写真はIcMeを使ってクロワッサンの教育を行っているところ。ここではイメージ判定モジュール (Image Classifier) にプレイン・クロワッサンとアーモンド・クロワッサンの違いを教えている。それぞれのサンプルイメージをシステムにアップロードして教育する。上の写真はプレイン・クロワッサンの写真をアップロードしているところ。

g395_metamind_05

教育が終わると、その成果を試験できる。上の写真がベンチマーク結果で、アーモンド・クロワッサンのサンプルイメージをアップロードすると、イメージ判定モジュールは正しく認識した。更に、自信度は99%と高く、自信を持って回答した。人が見てもアングルやアーモンドスライスのつき方により、両者を見間違うことがあるが、MetaMindは食料品に対しては高精度で判定を下す。

ビジネスモデル

上の事例の通り、MetaMindはIcMeを公開しており、だれでも無償で自由に利用できる。MetaMindのビジネスモデルはシステムインテグレーションやカスタマイゼーションで、企業向けに、ミッションクリティカルなシステムを構築する。具体的には、業務に特化したデータを大量に使い、イメージ判定モジュールを教育し、判定精度を上げる。(上述ケーブルカーの事例では、教育が十分にできていなかった。) また、MetaMindは企業向けに教育やテスト環境をインテグレーションするサービスも提供している。人工知能専門家が少ないなかで、企業はMetaMindを活用することで、限られた知識で人工知能ソリューションを構築できる。

g395_metamind_06

Deep Learningを活用

MetaMindの特徴はDeep Learningをイメージ判定に応用していること。この手法を使うことで、イメージのピクセルを読み込み、特性 (アーモンド・クロワッサンなど) を特定できる。こちらが指定した名称 (「Almond Croissant」など) を元に、IcMeは読み込んだイメージの種類を学習していく。IcMeは既に基本学習を終えており、新しいカテゴリーを素早く学習できる。基本学習ではイメージデータベース「ImageNet」が定義するカテゴリーを利用している。ImageNetは、英単語のデータベース「WordNet」に対応するイメージを格納したもので、イメージ解析の“教材”として利用されている。上の写真はその事例で、「Dasiy」(デイジー、キク科植物) の分類と対応する写真を示している。IcMcはこれを学習しており、「Daisy」を見分けることができる。MetaMindはその将来性を高く評価され、Salesforce.com創設者Marc Benioffなどが投資している。

Convolutional Neural Networks

IcMeはDeep Learningの中で、「Convolutional Neural Networks (CNN)」という技法を利用している。CNNとは、スタンフォード大学が公開しているチュートリアルを参照すると、複数階層の「Neural Network」で「Convolutional Layers」から構成される。CNNは2D構造(イメージやスピーチシグナル) の入力を解析するために利用される。「Pooling」などの処理を通して、不変な特徴を抽出すると定義される。

これが公式の定義であるが、平たく書くと、CNNは脳の構造を模したネットワーク (Neural Network) で、写真を読み込み、そこに何が写っているか、その特徴を抽出 (Convolutional Layersでの演算) する。この特徴からそのままイメージ判定を行うと、計算量が膨大になるため、特徴量を統計処理し小さく纏める (Pooling)。この処理を繰り返し、この小さくまとまった特徴を判定し、写真に写っているオブジェクトを把握する。CNNの特徴はパラメターの数が少なく、教育が簡単なことで、今ではイメージ解析の定番ツールとなっている。

コンピューターの視覚が劇的に進化

CNNは生物の脳がイメージ処理する方式にヒントを得て開発された。コンピューターが視覚系を模したものであるが、今までは計算能力に制限があり、適用は限定的であった。今では、GPUを含め高速計算を低価格で行えるようになり、アルゴリズムの進化と共に、この技術が一気に開花した。コンピューターの視覚が劇的に進化している。

犯罪者の社会復帰を後押しするインキュベーター、刑務所は人材の宝庫!

December 12th, 2014

米国で犯罪者の社会復帰を支援する事業が話題を集めている。インキュベーターのモデルで、罪を犯した人が起業するのを支援する。犯罪者の中には優秀な人材が埋もれており、これを社会に役立てようという試みである。実際に、刑務所内でプログラミング教育が始まり、その成果に注目が集まっている。刑務所を舞台に新たな取り組みが始まった。

g394_defy_ventures_01

犯罪歴のある人の事業を支援

この事業を推進してるのが「Defy Ventures」というニューヨークに拠点を置く非営利団体で、刑期を終え出所した人を対象に、事業のスタートアップを支援し出資する。創設者でCEOのCatherine Hoke (上の写真、右側の女性) が、シリコンバレーで開催されたカンファレンス「DEMO Fall 2014」で、事業の狙いを自らの体験を交えて紹介した。また、出所して起業家の道を歩んでいる二人 (上の写真、男性二人) が、事業を起こす経緯を語った。

Defy Venturesは犯罪歴のある人を対象としたインキュベーターで、教育プログラムと起業資金を提供し、事業のスタートアップを支援する。このプログラムは10万ドルのファンドを用意し、成績優秀な受講者複数に振り分ける。コンペティションの形でプログラムが進行する。

g394_defy_ventures_02

プログラムの内容

受講者は、まず、導入プログラム「Introductory Training Program」で三週間の教育を受ける。このプログラムを通過した人は「Defy Academy」に進む (上の写真)。これは七か月の集中教育で、受講者はリーダーシップやビジネスの基礎を学習する。今年からオンライン教育を開始し、七つの州から参加している。受講者は「Entrepreneurs-in-Training」 (教育中の起業家) と呼ばれる。講師陣には著名ベンチャーキャピタル「Draper Fisher Jurvetson」のTim Draperなどが含まれている。受講生はプログラムの中で起業について学ぶだけでなく、実際に起業しビジネスを始める。

Defy Venturesは受講者に対し、前述の10万ドルのファンドから、起業のために一人当たり最大2万ドルを出資する。Defy Venturesが出資先を選定する際は、ビジネスの将来性、ビジネスピッチ、プログラムの成績などが考慮される。出資対象ビジネスは精査され、Defy Venturesが認めているビジネスタイプに限定される。

プログラムの実績とビジネスモデル

このプログラムを終了し、実際に起業した件数は71社に上る。ベンチャーキャピタルと異なり、Defy Venturesは出資した資金を回収するのが目的ではない。Defy Venturesは篤志家からの寄付で運用している。一方、今年から授業料を徴収するモデルに変更し、中期的には授業料収入で事業を運営することを目指している。

米国では毎年200万人を超える人が収監され、世界の中で単位人口当たりの受刑者数が一番多い。Hokeによると、これら犯罪者にはHustler (やり手) が多く、犯罪者が巨大な人材プールを形成している。Defy Venturesは、ここから優秀な人を発掘することを目指している。このプログラムへの参加者は2012-13年は115人で、2014年は172人に増えている。2015年は大幅に増え1000人となり、このうち500人はサンフランシスコ地区で教育を受ける計画である。

プログラムを受講した感想

ステージ上で二人の受講者が起業に至る経験を紹介した。一人はドラッグディーラーで (先頭の写真、左側の人物)、刑務内で雑誌を読みDefy Venturesを知り、出所してすぐに応募した。今ではスポーツ用品販売の事業を立ち上げている。もう一人 (先頭の写真、中央の人物) は脱税で収監された。服役中に食品ビジネスを立ち上げ、今はそれを拡大し「Inside Out Bars」というブランドでグラノラバーの販売を行う計画だ。話し方はソフトで素敵な笑顔でグラノラバーは売れそうだと感じた。Hokeは28歳の時に、テキサス州で受刑者を起業家に育ているプログラムに参加し衝撃を受けたと述べた。刑務所には優秀な人材が眠っていることを発見し、このビジネスを始めたとしている。Hokeの持論は、受刑者から学ぶことが多いということで、犯罪者は間違った方向に進んでいるものの、ビジネスセンスに長けた人が少なくないという解釈だ。

g394_defy_ventures_03

刑務所内でプログラミング教育

既に刑務所内で受刑者に対する教育が始まっている。「The Last Mile」はサンフランシスコに拠点を置く非営利団体で、受刑者にプログラミングを教育することで、社会復帰を支援している。手に職を付けると、刑期を終えた受刑者が再び犯罪を起こす確率が下がり、刑務所維持費を大幅に削減できるとしている。これは「Prison Programs」と呼ばれ、受刑者に起業のための教育とプログラミング教育を実施する。サンフランシスコ近郊の刑務所「San Quentin State Prison」で10月から18人の受刑者を対象に始まった。これは「Code 7370」と命名され、六か月にわたり、HTML、CSS、JavaScriptなどのプログラミング言語を学ぶ (上の写真)。

教育はプログラミング教育ベンチャー「Hack Reactor」が務める。講師はGoogle Hangoutsを使って受刑者にリモートで講義を行う。受刑者はパソコンを使い、実際にプログラムをコーディングする。受刑者はインターネットにアクセスすることが禁じられており、オフラインで学習する。インターネットにアクセスする際は、刑務所の専任スタッフが受刑者に代わり、検索などを行う。受刑者がプログラミング技術を習得することで、社会復帰を後押しする。収監中はカリフォルニア州政府向けにプログラムの開発を行う。

The Last Mileはプログラミングを社会復帰の手段に利用しているが、長く収監されている受刑者は、キーボードやマウスに触ったことが無い人も少なくない。iPhoneはテレビのコマーシャル知ったという人も多い。解決すべき課題は少なくないが、ITを社会復帰に利用する取り組みが始まった。

g394_defy_ventures_04

大手ベンチャーキャピタルが注目する理由

上述のTim Draper (上の写真、前列中央の人物、受講生との集合写真) はDefy Venturesの講師を務め、プログラム運用に深くかかわっている。Draperは、受刑者はある意味で起業家であり、社会復帰のためには自らがビジネスを興すことが最適の選択肢であると述べている。投資家の眼からすると、受刑者たちは起業に向いていると見ている点は興味深い。また、Hokeの話しを聞くと、犯罪者に対して同じ目線で接し、家族の一員のように対応しているのを感じる。米国は失敗しても再度挑戦できる社会であるが、犯罪者は多くの企業から敬遠されているのも事実である。DraperやHokeは、事業の観点からは、ここに大きなチャンスがあることを感じ取っている。米国という“犯罪大国”だけで成立するモデルかもしれないが、受刑者から革新的なビジネスが登場するのも、そう遠くはないとの印象を受けた。