Samsungが”おサイフケータイ”事業開始!Apple Pay追撃の奥の手を公開

February 27th, 2015

Samsungは最新モデルGalaxy 6Sの発表イベントで、モバイル決済機能「Samsung Pay」を公表した。Samsungが”おサーフケータイ”事業へ参入することが明らかになった。Samsung Payは、Apple Payを上回る機能を打ち出し、コピーではなくその独創性を強調した。この発表は、SamsungはGoogle Wallet路線には乗らず、独自サービスを展開する道を選んだことを意味する。急成長しているモバイル決済市場で、仁義なき争いが始まった。

g402_samsung_pay_01

磁気カードリーダーで使えるおサイフケータイ

Samsungは3月2日、バルセロナで開催されたMobile World Congressで、モバイル決済サービス「Samsung Pay」を発表。一連の発表イベントはYouTubeで公開された。Samsung Payは、日本で普及しているおサイフケータイで、スマホをリーダーにかざすだけで、カード決済ができる。Samsung PayはこのNFC (Near Field Communication) 方式に加え、MST (Magnetic Secure Transmission) という新方式をサポートすることを明らかにした (上の写真)。

MST方式とは、磁気カードリーダーでおサイフケータイを使う技術を指す。スマホはカード情報を磁気カードリーダーに送信し、決済処理を開始する。スマホが磁場を生成し、あたかも磁気ストライプカードのように振る舞い、カード情報をリーダーに送る。リーダーは情報を受け取ると、カードをスワイプしたと思い、決済処理を起動する。

g402_samsung_pay_02

使い方はおサイフケータイと同じ

Samsung Payの使い方は、基本的におサイフケータイと同じ。ディスプレイを上側にスワイプしてSamsung Payを起動。(Apple Payと異なり、アプリは自動で起動しない。) 次に指をホームボタンにあて、指紋認証で本人を確認する。今までは、指紋認証で指をスワイプしていたが、これからはiPhoneと同じように、指をあてる方式に変更された。MST方式では、スマホをカードリーダーの側面にかざして交信する (上の写真)。MST方式はSamsungが買収したLoopPayの技術を使っている。

g402_samsung_pay_03

LoopPayの技術概要

Samsungは2015年2月、LoopPay買収を発表し、Samsung Payはこの技術を導入した。LoopPayはボストンに拠点を置く企業で、モバイル決済技術を開発し、今でも事業を継続している。「LoopPay CardCase」という名称で製品が提供され、iPhone 6やiPhone 5に装着するジャケット形状となっている (上の写真)。ジャケットに装着されているスライド式のカード (手前の写真)が、磁気カードリーダーと交信する。LoopPayとスマホはBluetoothで交信する。LoopPayを使うには専用アプリ「LoopPay」をダウンロードし、カードを登録する。店舗で支払いする際は、アプリを起動し、PINを入力し、使うカードを選択し、スマホをリーダーにかざす。若干操作手順は異なるが、決済処理技術はSamsung Payと同じ仕組みである。上の写真のように、ジャケットの中に運転免許証を入れておけば、財布を持たないで行動できる。

カード会社や大手銀行がサポート

Samsung Payは既に幅広いエコシステムを築いている。対応しているカードはMasterCard、Visa、American Express。カード発行銀行はJP Morgan Chase、Bank of America、Citi、US Bankなどが名前を連ねている。Samsung Payの強みは、上述の通り、幅広いリーダーに対応していることに加え、主要銀行が発行しているカードを使えること。Samsung Payは、Galaxy 6sとGalaxy 6s Edgeで利用でき、米国と韓国で今年夏からサービスが開始される。

モバイル決済向けセキュリティー技術

カード決済システムの観点からすると、Samsung PayはApple Pay向けに構築されたインフラをそのまま流用している。MasterCardは、Apple Payに対応するため、モバイル決済システム「MasterCard Digital Enablement Service(MDES)」を運用している。Samsung Payはこのネットワークに乗る形で展開される。MasterCardとしては、開発したモバイル決済システムを多くの企業が利用することは大歓迎である。

米国でモバイル決済が普及してきた背後には、不正防止のためのセキュリティー技術がある。利用者がスマホにクレジットカードを登録すると、カード番号に対応したトークンが生成される。これは16ビットの番号で、スマホに格納されているカードを特定するために使われる。店舗で買い物をすると、トランザクションコード (処理毎に固有な番号) が生成され、トークンと伴に暗号化され、決済ネットワークに送信される。カード会社とカード発行銀行で、認証と決済処理が行われる。Samsung Payもこのネットワークで稼働しており、カードリーダーや経路上での、カード情報の盗聴や窃取による犯罪を防止できる。

Samsung Payの優位性

Samsungは発表イベントで、Apple Payに対する優位はMST技術であることを繰り返し強調した。Samsungは、モバイル決済の問題点をNFCリーダーの普及率だとし、米国では90%のリーダーがNFCをサポートしていないと指摘。Samsung Payはこれらリーダーに対応し、利用できる店舗が広がる。MST方式とは奇抜なアイディアで、モバイル決済への敷居が一気に下がりそうだ。

g402_samsung_pay_04

この優位性を保てるか

一方、米国ではカード決済技術が大きく変化している。大規模なカード情報盗用事件が相次ぎ、オバマ政権はカード会社などに対し、磁気カードをEMVカード (ICカード) にアップグレードするよう指導している。これを受け、Visaなどは、今年10月としていたアップグレード期限を前倒しで実施している。米国の小売店舗はEMVリーダーの導入を急ピッチで進めている。EMVリーダーの多くはNFCリーダーも搭載しており、NFC方式でのモバイル決済環境が整ってきた。上の写真は大手ドラッグストアーの決済端末で、磁気カードリーダー (右端のスロット)、EMVカードリーダー (手前のスロット)、NFCリーダー (奥の楕円形の部分) を備えている。これが標準リーダーとなりつつある。このような環境でSamsung Payがどれだけ優位性を維持できるのか、今後の成り行きが注目されている。

技術面とは別に、Samsung Payを普及させるためには、啓蒙活動が必要かもしれない。買い物をしてカード決済する時に、いきなりスマホを磁気カードリーダーに近づけると、店員さんは驚くかもしれない。カードをスワイプすると思っていると、顧客がスマホをかざすと決済が完了する。新たな詐欺行為と疑われる可能性があり、サービスを展開する前に、MST方式をPRする必要がありそうだ。

Googleとの関係が微妙になる

GoogleはApple Payに対抗するため、Android陣営のリーダーとして、モバイル決済で巻き返しを狙っている。Googleは、敵対関係にあったモバイル決済サービス「Softcard」 (Verizon、AT&T、T-Mobileのジョイントベンチャー) の技術買収で合意に至り、Google Wallet再構築を進めている。この流れの中で、SamsungはGoogle Walletには乗らないで、独自サービスを投入した。Googleと袂を分かつだけでなく、モバイル決済事業でGoogleと正面から競合する。Samsungとしは、スマホ事業の低迷を関連サービスで補うのは、順当な戦略である。SamsungとGoogleの関係が一層微妙になっている。

日本はモバイル決済維新?

Apple Payと同様、Samsung Payも世界市場進出を視野に入れている。Google Walletは、モバイル決済事業をゼロベースで見直し、雪辱を果たそうとしている。おサイフケータイ先進国の日本であるが、これからはApple PayやSamsung Payの上陸を意識する必要がありそうだ。Google Walletも秘策を練っていると思われる。日本ではリーダーの無線通信規格が、国際標準(Type A/B) に対応してきたとも聞こえてくる。新サービスに対応する環境が整いつつあり、今はおサイフケータイ事業が大きく変わる、モバイル決済維新かもしれない。

ロボットが司法試験に合格!?人工知能が知的労働者の職を奪う日が迫る

February 20th, 2015

Googleなどが開発している自動運転車の販売が始まると、タクシーや長距離トラック運転手が職を失い、米国社会に危機感が忍び寄っている。人工知能が急速に進化しており、運転手の次は、弁護士のような知的労働者がロボットに置き換わると危惧されている。人工知能やロボットの進化は、米国社会をどう変えるのか、最新事情をレポートする。

ロボットと雇用についての議論

米国で議論を呼んでいるビデオがある。「Humans Need Not Apply (人間は採用しない) 」という題名で、ロボットによるオートメーションが進むと、どんな世界が待っているかのを描いている。かつては、自動車の登場で馬が”職”を失ったが、今度は、人工知能の進化で人間の職が危機にさらされている。このビデオは、来るべき社会にどう備えるべきか、多くの問題を提起している。センセーショナルなタッチで、ロボットと職に関する議論に火をつけた。

g401_ai_humans_need_not_apply_01

インテリジェントなロボット

ビデオが示すロボットとは、自動車工場の製造ロボットではなく、インテリジェントなロボットを指す。製造ロボットは極めて複雑な動きをするが、自動車製造という限られた領域で、限定した作業をするため、ここではダム・ロボット (Dumb Robot)と呼ばれている。これに対し、新世代のロボットの代表を「Baxter」としている。Baxterとは、ボストンに拠点を置くRethink Robotics社が開発したロボットで、製造作業で使われる (上の写真)。

Baxterは視覚があり、手本を見てそれを学ぶことができる。事実、YouTubeで料理番組を見て、調理法を学習するインテリジェンスを持っている。特定のタスクをプログラムする必要はなく、ロボットが自律的に学習する。Baxterの価格は2万ドルで、維持費の電気代を加えても、人間より安く働くことができる。

汎用ロボットの時代

ビデオは、Baxterを汎用ロボットと定義し、ロボットブームのさきがけと位置付けている。コンピューターと比較するとその意味が分かり易い。コンピューターは、当初、特定処理を行うマシンとして開発され、価格も高価であった。その代表が「Eniac」で、米国国防省が第二次世界大戦中に、兵器の弾道計算をするために開発した。時を経て、Appleに代表されるパソコンが登場し、汎用コンピューターを誰でもが使える時代となった。コンピューターはゲームだけでなく、フライトの予約や株式の取引ができる。Baxterは1980年代の汎用コンピューターに相当すると述べている。Baxterは製造作業だけでなく、料理や洗濯もでき、汎用的に使えるという意味である。Baxterでロボット文化が開花しようとしている。

自動車の登場で馬の数が激減

ビデオは馬と自動車の関係に言及している。かつては馬が労働を担い畑を耕した。馬の速達「Pony Express」が、ニューヨークからサンフランシスコまでを、10日間で結んだ。馬が物の移動を担ってきたが、自動車の登場で1915年をピークに、頭数が減り始めた。馬は自動車に取って代わられたが、別の仕事があると思っていた。しかし、この予測は外れ、馬の数は激減した。ロボットの登場で、これが人間に起ころうとしている。人間がこれに備えをしないと、馬の二の前になると警告している。

g401_ai_humans_need_not_apply_02

自動運転車が失業者を生む

ビデオは、自動運転車は将来の話しではなく、もう存在していると述べている。自動運転車が自動車を置き換えるか否かではなく、どれだけ早く置き換えるかが議論となっている。ビデオは自動運転車は完璧である必要はないとも述べている。米国では年間4万人が交通事故で亡くなる。自動運転車が人間の運転より安全であれば、多くの人命が救われるとしている。自動運転車は人間を運ぶものだけでなく、倉庫で荷物を運ぶロボットや、工事現場で作業する車両も含まれる。ロボットで最初に人間の職を置き換えるのは自動運転車で、安全な社会がやって来ると同時に、大量の失業者を生み出すこととなる。

既にGoogleがシリコンバレーで走行試験を繰り返し、自動運転車は完成の域に近づきつつある。Mercedes-Benzは、ラスベガスで開催されたCESで、コンセプトカー「Mercedes F 015」を発表し、自動運転技術開発レースでトップ集団に加わった。自動車部品メーカーBoschは、自動運転技術開発を加速させ、Lidar (レーザーセンサー) を搭載した車両で試験運転を繰り返している (上の写真)。雇用対策を含めた社会インフラを整備する時期に差し掛かっている。

g401_ai_humans_need_not_apply_04

ロボットがプログラムや新聞記事を書く

ロボットが高度なスキルを持っているホワイトカラーを置き換えると、ビデオは予測している。プログラマーの仕事が危うい。今は人間がロボットの技量を上回るが、これからは、ロボットが自ら学習する能力を備え、技量が逆転すると見ている。株式取引で、もはや人間が関与する余地は無い。ニューヨーク証券取引所では、取引される株式の70%がアルゴリズム・トレーディングという統計もある。ロボットは自ら学び、また、他のロボットから学び、スキルを上げていく。

新聞記事もロボットが書いている。米国で新聞を買うと、ロボットが書いた記事を読んでいる可能性が高い。特にスポーツ記事や決算レポートは、ロボットの得意分野である。上の写真はForbesの記事で、企業業績を予測している。この記事はNarrative Science社のソフトウェアで書かれたもので、背後に人工知能技術が使われている。事務処理、意思決定、執筆などは人間にしかできない仕事と思われてきたが、これらホワイトカラーの職がロボットに置き換わる。いまこうして書いている記事も、将来はロボットが執筆するのかと思うと、心中穏やかでない。

ロボットが弁護士や医師となる

更にビデオは、弁護士や医師など専門職の仕事に言及している。弁護士といえば裁判を連想するが、実際には、裁判に備え、書類を作成する仕事が中心となる。このプロセスはディスカバリーと呼ばれ、大量の資料を読み、新たな事実関係を見つけ出すことが目的。ロボットは、電子メール、メモ、書類など大量の資料を過去に遡って読み進め、事実関係を明らかにする。既にロボットは人間をコストや時間だけでなく正確性で凌駕している。

g401_ai_humans_need_not_apply_03

IBMの人工知能「Watson」は、医師が患者に診断を下すために利用されている (上の写真、Watsonがガン患者に対する治療方針を推奨)。米国では医師の誤診により、毎月15000人が亡くなっており、ロボットの役割に期待が寄せられている。医師は患者の処方箋服用履歴を見るが、膨大な数の薬の副作用をすべて把握できる訳ではない。ロボットは医学書を学び、他のロボットの知識を学び、多角的な情報から判断を下す。弁護士や医師がロボットに職を奪われる可能性が高いと指摘している。

ビデオでは触れていないが、ロボットが高度な職業をこなすためには、どのような資格が必要かの議論も起こっている。人間と同じように、ライセンスの取得が前提条件という意見が聞かれる。具体的には、ロボットが弁護士の仕事をするためには、司法試験に合格する必要がある。自動運転車が公道を走るためには、州政府が発行する運転免許証の取得が必要となる。ロボットや人工知能が高度に進化することで、関連法令の整備が重要な課題となっている。

ロボットが作曲をする?

最後にビデオは、芸術家のように特別な才能を持つ人について触れている。創造力は人間だけに備わった特別な才能で、ロボットに置き換わることは無いと思われてきた。しかし、ビデオで流れている音楽は、ロボットが作曲したものだ。この音楽は、「Emily Howell」というソフトウェアが作曲したもので、ロボットは芸術でも威力を発揮している。

g401_ai_humans_need_not_apply_05

このソフトウェアはカリフォルニア大学サンタクルーズ校教授David Copeが開発した。Emily Howellは、別の作曲ロボット (Music Intelligence) が創った音楽から、パーツを寄せ集め、全体を構成する。Emily Howellは開発者や視聴者からの感想を理解し、機械学習の手法で進化する。Emily Howellが作曲した音楽は、AmazonやApple iTunes Store (上の写真) で販売されている。これらは、Emily Howellが作曲した曲を、人間のアーティストが演奏したものである。ただ、有名オーケストラはロボットが作曲した音楽を演奏することに抵抗感を示しており、Emily Howellは音楽界で物議をかもしている。

実際にこれらの音楽を聞くと、人間が作曲したものか、ロボットによるものか、判別できない。バロックから現代音楽まで、幅広いジャンルが統合された形式で、今までに聞いたことの無い音楽だ。単独で聴くのもいいが、映画音楽として利用価値がありそうだ。Emily Howellが作曲する音楽の完成度は、視聴者のフィードバックに大きく依存する。フィードバックの質がEmily Howellが成長するカギを握る。

結論:失業率は25%に達する

ビデオは、ロボットが人間の職を奪うと結論付け、失業率は25%に達すると予測している。馬が自動車の登場で職を失ったように、大学を好成績で卒業し企業に就職しても、これからはロボットに職を奪われると警告している。自動化が悪いのではなく、これは必然の成り行きで、どう備えるかが問われていると結んでいる。

ロボットが労働者不足を補う

挑発的な内容と暗い結末に対し、様々な議論が起こっている。反対意見は、Rethink Robotics社 (上述Baxterを作っている会社) 創設者で、MIT教授のRodney Brooksからも上がっている。このビデオに対するものでは無いが、Brooksは、ロボットの社会における影響をポジティブに評価している。Harvard Business Reviewに論文を投稿し、ロボットは人間の職を奪うものではないとの議論を展開している。40年後は、世界規模で労働人口が減り、生産性が低下する。生産性を上げるためには、ロボットが必須である、というのがその主張である。ロボット製造会社の会長だから当然の主張というよりは、社会問題を解決するためにロボットを開発しているというポジションが窺える。

日本が世界で最初にこの状況に遭遇するのかもしれない。日本は最速で高齢化社会に向い、労働人口不足が喫緊の課題となっている。退職者の年金を少ない数の労働者が支えることになる。国民総生産を伸ばすためにも、ロボットが労働力の不足を補う必要がある。同時に、ロボットの登場で多くの人が職を失うのは事実であろう。五年後には、自動運転車の登場で職業ドライバーが職を失い、失業問題が発生する。来る問題にきちんと対処しながら、人工知能やロボット開発を進めるのが、正しい筋道のように思える。米国より先に、日本が解決策を示す時かもしれない。

米国で一番幸せな場所は何処?人工知能がInstagramを解析し教えてくれる

February 13th, 2015

ベンチャー企業が人工知能の技法をアプリに取り入れている。経費精算アプリ「AppZen」は、領収書をカメラで撮影すると、内容を理解し費目を区分けし、経費精算レポートを作成する。同時に、システムは経費精算の間違いや不正を検出し、経理部にアラートをあげる。観光ガイドアプリ「Jetpac」は、Instagramに掲載されている写真を分析し、米国で一番幸せな場所を教えてくれる。これらアプリの背後では人工知能の最新技術が使われている。

g400_ai_app_jetpac_07

簡単に経費精算できるアプリ

AppZenはシリコンバレーに拠点を置くベンチャー企業で、人工知能を活用した経費精算システムを開発している。著名アクセラレーター「500 Startups」の製品発表会「Demo Day」で、AppZen CEOのAnant Kaleが、製品概要とその背後で動いている人工知能について解説した。上の写真はイベント終了後の記念写真撮影の様子で、今期の開発者全員がステージ上に勢揃いしている。

g400_ai_app_jetpac_02

後日、Kaleがスマホやパソコンのデモを交えて、AppZenについて説明してくれた。企業の社員は専用アプリ「Expense Reports from AppZen」を使って、簡単に経費精算レポートを作成できる。アプリにクレジットカードを登録しておけば、経費精算レポート作成時に、立て替えた項目が自動で表示される。一方、現金で立て替え払いした際には、領収書をカメラで撮影して精算手続きをする。上の写真は食事代金の精算手続きをしているところ。領収書を撮影すると (左側)、アプリは印刷されている文字や日付を読み取る。更に、内容を理解し、費目を「クライアントとの食事」と区分し、会食日を「1月16日」と認識する (右側)。但し、金額は利用者が入力する。アプリは精算手続きの規定に従って、顧客接待であれば、顧客氏名の入力を要求する。

g400_ai_app_jetpac_03

この他に、航空運賃の精算も同様な方式で行う。ウェブサイトでチケットを購入した際は、その領収書 (電子メールやPDFファイル) をAppZenサイトに転送する。そうすると、システムが内容を読み取り、自動で航空運賃の費目に区分けする(上の写真左側)。

一連の経費精算の入力が終わると、次に、レポートを作成する。アプリと対話しながら、タイトル、日付、目的などを入力していく。上の写真右側は、ラスベガス出張の経費精算レポートの事例で、ホテル、レンタカー、食事代金の入力が終わったところ。最後にSubmitボタンを押してレポートを提出する。アプリは人工知能のなかの自然言語処理機能を持ち、入力された言葉を理解できる。上述の通り、領収書の写真からテキストを読み込み、その意味を理解し、費目を区分けし、必要に応じて追加情報の入力を求める。アプリがインテリジェントに経費精算レポートを作成する。

g400_ai_app_jetpac_08

人工知能が不正を検知

AppZenは社員から入力された経費精算レポートをチェックし、会社やIRS (米国内国歳入庁、日本の国税庁に相当) の規定に則しているかを解析する。AppZenはレポートを統計処理し、不正処理のリスクの度合いを数値化する。このプロセスで人工知能のMachine Learning (機械学習) が使われている。システムの運用を始める前に、AppZenを三か月程度教育する。レポートを読み込ませ、解析結果を人間が監査した結果と比較し、システムを最適化する。

この作業が終わると本番稼働に移る。間違いや不正の疑いのあるレポートについては、システムが警告メッセージを示し (上の写真、監査部門向け画面)、人がマニュアルで監査するプロセスとなる。今までは、最初から人手でレポートをチェックしていたため、十分に監査できなかった。これからは、AppZenがフラグを立てたレポートだけを監査すればよく、プロセスが効率化さる。

g400_ai_app_jetpac_04

上の写真はAppZenが精算レポートを解析した結果を示している。赤色の部分が問題と思われる項目で、「社内規則違反」の疑いがあるとしている。その理由として、「クライアントとの会食」で、使用された店舗は成人向け施設で、参加者氏名を確認できなかったとしている。この背後でシステムは、レストランガイド「Yelp」で会食の場所を確認し、社内データベースで参加者との関係を把握する。AppZenは、精算レポートのパターンを学習し、経験則で不正を検出する。会社としては会計基準に則した処理ができる。社員としては、人工知能が目を光らせているので、今以上に厳格な精算手続きが求められる。

g400_ai_app_jetpac_05

人工知能の観光ガイド

観光ガイドでも人工知能が使われている。Jetpacはサンフランシスコに拠点を置くベンチャー企業で、観光案内アプリ「Jetpac City Guide」を開発。Jetpacは、昨年8月、Googleに買収された。Jetpacは写真共有サイト「Instagram」に公開されている大量の写真を解析し、観光ガイドを制作する。写真に写っているオブジェクトから場所の特徴を把握し、写真の人気度からその場所のランク付けを行う。上の写真が解析結果で、観光ガイドとして公開している。左側は、サンディエゴにおける一番幸せな場所として、「The Shout House」というピアノバーを示している。Jetpacは、写真に写っている人物の笑い顔の度合いを幸福の指標としている。微笑んでいる人や笑っている人で重みづけし、この場所が笑い顔の絶えない幸福な場所と判定した。因みに、米国の都市で一番幸せな場所はセントルイスと判定している。

反対に、Jetpacは敬遠すべき場所も表示している。右側がその事例で、敬遠すべきヒップホップな場所のランキングを示している。Jetpacはヒップホップな場所を、写真に写っている人物から判定する。髭をはやしたり、帽子をかぶっていることなどが判定の手がかりとなる。敬遠すべきとした理由は公表していないが、上半身が裸な人や、マナー違反のシーンなどから判断しているように思える。

g400_ai_app_jetpac_06

サンフランシスコ観光ガイド

同様の手法で、サンフランシスコ地区の観光ガイドを公開している。上の写真左側は、最もきれいなハイキングコースの案内で、トップに「Fillmore Stairs」がランキングされている。ここは急斜面に作られた長い階段で、街並みと湾を一望でき、印象的な散歩コースである。右側はバークレー観光ガイドで、週末を過ごすトップ6が掲載されている。トップにはカリフォルニア大学バークレー校の「Sather Tower」がランクされている。Jetpacは写真を解析し、綺麗なシーンの特徴を把握し、写真が共有された数をベースに、ランキングを算定している。

Artificial Neural Networksの技法を利用

Jetpacは大量の写真を読み込み、そこに写っている特徴 (髭をはやしたり帽子をかぶっている人物など) を把握する時に、Deep Learningの手法であるArtificial Neural Networksを利用している。Jetpacは、利用者が記載している評価を読むのではなく、写真に写っている特徴を解析し、その場所を特定し、評価する点に特徴がある。画像解析技術が進み、写真を解析するだけで、多くのことを読み取れるようになった。但し、場所の基本情報 (レストラン名、住所、電話番号など) は写真に添付されているテキストから読み取る。Jetpacが写真に写っている特徴を解析し、「骨董屋」、「フードトラック」、「屋外アドベンチャー」などに区分していく。Facebookのように友人のコメントに頼るのではなく、写真を客観的に判定する。この結果、上述の写真から分かるように、アプリは詳細情報は示さず、写真とタイトルだけで構成される。このため、手早く観光スポットを学びたい人に適している。

Googleが買収した意図

Jetpacは、Googleに買収された後は、サービスを停止している。市場ではGoogleがJetpacを買収した目的について、噂が飛び交っている。この買収は人工知能エンジニアを確保するのが目的との声も聞かれる。また、GoogleはJetpacをベースとした観光サービスを展開するとの噂もある。Googleは、DeepMindを筆頭に、人工知能ベンチャーを集中的に買収しており、今年もこの流れが続くものと思われる。

ロボットがビデオを見て調理法を学び料理を作る、Deep Learningで高速学習し人間に近づく

February 6th, 2015

シェフに代わって調理するロボットは早くから開発されてきたが、調理ビデオを見るだけで自ら学習するロボットが登場した。調理法をプログラムしマシンを調整する必要はなく、ロボットはYouTubeビデオやシェフの仕草を見て料理ができるようになる。調理だけでなく、将来は、自動車製造ラインの組み立てロボットを目指している。更に、福島原子力発電所の廃炉作業も視野に入れている。ロボットがDeep Learningで高速学習し、人間にまた一歩近づいてきた。

g399_robotics_deep_learning_01

調理方法を自律的に学習

このロボットは、メリーランド大学 (University of Maryland) のYiannis Aloimonos教授 (上の写真、左側の人物) のグループが開発した。ロボットは、人が調理をしている様子や、それを撮影したビデオを見るだけで調理法を学ぶ。調理プロセスである、物を掴んだり、調理器具を操作することを学習し、調理できるようになる。ただ、ロボットは人の仕草をコピーするのではなく、道具の使い方や動かし方を、自分流儀で行う。この研究ではRethink Robotics社の人気ロボット「Baxter」が使われている (上の写真、手前のロボット)。Baxterは工業用ロボットで、パッケージの積み下ろしや仕分け作業などに利用されている。

g399_robotics_deep_learning_02

ロボットが人の仕草を学習

メリーランド大学はロボットで何ができるのかについて、デモビデオを公開した。ロボットが人の仕草を見て学び、それを実行する様子が示されている。ビデオは家庭のキッチンを想定し、人がカップを掴む様子をロボットが観察している (上の写真)。

g399_robotics_deep_learning_03

上の写真がロボットが見ているイメージで、人がカップを掴むイメージを読み込んでいる。ロボットは人の動作を観察し、カップの何処をどの程度の力で掴めば、入っている液体をこぼさないで持ち上げられるかなどを観察している。

g399_robotics_deep_learning_04

上の写真は学習したことを実践している様子。これはロボットがボトルからカップに水を注いでいるところで、人の仕草を見て学習した成果を実践している。水は透明の液体で、ロボットにとっては認識するのが難しいオブジェクト。ロボットは水面を正しく把握し、水が出る角度までボトルを倒し、うまく注いでいる。水が既定の量に達するとそれを認識し、ロボットはボトルを立て、水を注ぐのを終えた。これらはロボットが自ら学習し動作を学んでいる点がポイントとなる。

ロボットがシェフになる

ロボットはキッチンで調理器具や食器を使って料理することを目指している。ロボットは人が調理器具を使って調理するのを観察し、その仕草を学んでいく。例えば、キュウリを切る時には、ロボットは包丁を手に取り、キュウリをまな板に置き、スライスしていく。切り終わると綺麗にスライスできているかを確認する。ロボットは調理に必要な個々のステップを学習し、最終的には全ての工程を実行し、調理を完成することを目標としている。ロボットが人に代わり家庭で料理を作るシナリオを描いている。

g399_robotics_deep_learning_05

Deep Learningの技法で教育

このプロジェクトは人工知能を多分野で適用している。ロボットが調理法を学習するプロセスではDeep Learningという人工知能の手法を使っている。上述の通り、ロボットに調理法を教育する際に、YouTubeビデオを使う。ロボットはビデオを見て、人がどのように調理するのかを学習する。オブジェクトの掴み方や動かし方を学習し、どうすれば目的を完遂できるか、自らが考えて最適の方法を選択する。

ロボットの教育方法は「Robot Learning Manipulation Action Plans by “Watching” Unconstrained Videos from the World Wide Web」という論文で公開された。これによると、ロボットは二系統のConvolutional Neural Network (CNN) を使っている (上の写真)。CNNは多層ネットワークで、入力イメージから、特徴を抽出し、オブジェクトの分類を行う。

調理ビデオ (写真左上のディスプレイ) を入力とし、二系統のCNNがオブジェクトとグラスプタイプ(掴み方)を把握する。上の事例では、オブジェクトは「ナイフ」と「トマト」と認識している。グラスプタイプは「左手でナイフを強く持ち」、「右手でトマトを優しく持ち」と認識。その結果、人が取っているアクションは、トマトをナイフで「スライスしている」と判断した。この推量はビデオ解析ではなく、言語モデル (言葉の並びから次の行動を予測) を使っている。 これらを元に、ロボットが処理を実行できるよう、アクションツリー (写真左下のグラフ) を生成し、一連の処理が完了する。ロボットはアクションツリーに従って料理をすることとなる。

g399_robotics_deep_learning_06

教育の成果

ロボットは調理ビデオを見て様々な調理法を学んでいく。上の写真はロボットがスイートコーンのつくり方を学習している様子。上段がロボットが見ているビデオイメージで、オブジェクトとグラスプタイプを把握する。左側の棒グラフは時間ごとのオブジェクトとグラスプタイプの遷移を示している。(ビデオシーンが変わるごとに異なるオブジェクトが登場し、握り方も変わる。)ここでロボットは、「コーン」と「ブラシ」を認識し、「左手でブラシをしっかり持ち」、「右手でトウモロコシを優しく持ち」、「何かを塗っている」と判断した。この他に、ステーキの焼き方、レモンのスライスの仕方などを学習している。論文は学習成果についても言及している。ロボットはオブジェクトを79%の確度で認識した。またグラスプタイプは91%でアクションは83%と、高い認識率を示している。今後はボキャブラリーを増やすことを計画しており、認識できるオブジェクト、グラスプタイプ、アクションの数を増やすとしている。

g399_robotics_deep_learning_07

ロードマップ

ロボット (上の写真) は家庭で調理するのが最終目的ではなく、幅広く社会へ適用することを目指している。Aloimonos教授は、ロボットは次世代のオートメーションを目指すと述べている。現在、自動車製造ラインのロボットは複雑なタスクを実行するが、そのシステム構成も複雑である。ロボットは各プロセスを実行するために詳細にプログラムされ、エンジニアがマシンのキャリブレーションを行う。職人技が要求される分野である。ここにこのロボットを適用するモデルを描いている。ロボットが自律的に製造する「Smart Manufacturing」を目指している。またウエアハウスで完全自動の配送システム「Automated Warehouse」も想定している。更に、福島原子力発電所の廃炉作業のような、人が近づけない危険な処理を行うことも視野に入っている。ロボットがDeep Learningで高速に学習し、自然言語解析で人と言葉でコミュニケーションを取り、自律的に判断しタスクを遂行するモデルを目指している。

ロボットをどう教育するか

ロボットが調理法を高速で学習し、実際に料理を作るとはSFの世界であった。人は調理から解放され、ロボットが用意する食事を食べるストーリーが現実味を帯びてきた。ロボットが作る料理は美味しいのかも気になる。これらの事例が示しているのは、ロボットはどれだけ”経験を積み”、”ノウハウ”があるかが利用価値を決定する。ロボットの”賢さ”が問われる時代になってきた。消費者は調理ロボットが美味しい料理を作ることを期待している。ロボット開発は、ロボットを賢くするため、如何に効率的に教育するかが重要なテーマとなってきた。

同時通訳「Skype Translator」は意外とイケそう、Microsoftの人工知能研究が実を結ぶ

January 30th, 2015

Skypeは音声通訳機能「Skype Translator」を公開し、SFの世界が現実になったと話題を呼んでいる。Skype Translatorは、人間の同時通訳のように、発言をほぼリアルタイムで相手の言語に翻訳する。国際会議のように、異なる言語間でコミュニケーションが可能となった。この背景には、Microsoftの人工知能基礎研究がある。Microsoftは、音声認識に人工知能を適用することで、認識率を大幅に向上することに成功した。Skype Translatorのリリースは、Microsoftの長年にわたる機械翻訳開発が結実したことを意味する。

g398_microsoft_translate_01

Skype Translatorベータ版を公開

Microsoftは2014年12月、Skype Translatorのベータ版 (preview program) を公開した。これはSkypeへのアドオンで、異なる言語間での会話を翻訳する。MicrosoftはSkype Translatorデモビデオを公開し、どのように利用するかを説明した (上の写真)。このデモはメキシコとアメリカの生徒がSkype Translatorで会話しているシーンで、スペイン語と英語でコミュニケーションが成立することを示している。

g398_microsoft_translate_02

アメリカ人の生徒が話し終えると、システムはそれをスペイン語に翻訳し音声で伝える。同時に、会話の内容がテキストでも表示される (上の写真)。同時通訳を介して討議するように、会話が進行する。ただし、同時通訳は、話し手の会話が終わる前に、翻訳が同時進行するが、Skype Translatorは、発言が終わってから、システムが翻訳を行う。Skype Translatorは異なる言語間で自由に会話でき、地球上でコミュニケーションの範囲が広がると期待されている。

g398_microsoft_translate_07

Skype Translatorを使ってみると

利用方法はシンプルで、アプリの「Translator」ボタンをオンにして、翻訳機能を起動する。次に、相手の話し言葉と書き言葉を選ぶ。現在、英語とスペイン語間での翻訳機能があり、こちらの言語を英語とし、相手の言語をスペイン語と指定。会話を始めると、喋ったことが相手の言語に翻訳され、音声で流れる (上の写真、CNNニュース・スペイン語版を読んでもらっている様子)。喋った後に若干間を置いて、翻訳された音声が送られる。一区切り喋ると、システムはポーズを発言の終わりと捉え、翻訳を開始する。発言を聞いたのちに、翻訳を聞くという流れとなる。同時に、パネルには会話が両国の言語でテキスト表示される (上の写真右側のペイン)。

使い始めた当初は、音声認識の精度が悪く、また、翻訳が会話の途中から始まったりして、かなり戸惑った。パソコン内蔵マイクの代わりに、ヘッドセットを使ったら、音声認識精度が大幅に良くなった。(後で説明を読むとヘッドセットを使うよう書いてあった。) また、少し早口にしゃべると、会話の途中で翻訳が始まらず、発言が終わった時点で開始され、スムーズに会話できる。

慣れるまでに少し時間がかかったが、相手の言っていることが理解できるようになった。音声認識精度はいいが、改善の余地はある。Skype Translatorの成功は、如何に正確に音声認識できるかにかかっている。Microsoftがベータ版としているように、システムは実戦を通して学習中だが、意外と使えそうとの印象を持った。

g398_microsoft_translate_04

Skype Translatorの仕組み

Skype Translatorは人工知能をフルに活用したシステムだ。音声認識と機械翻訳機能を搭載し、機械学習プラットフォーム上に展開される (上の写真)。利用者が発言すると、Skype Translatorがそれをテキストに変換 (Speech Recognition、音声認識) する。システムは変換されたテキストから、「あー」とか「うー」など翻訳に障害となる言葉 (Speech Disfluencies) を取り除く。クリーンアップされたテキストを相手の言語に翻訳 (Machine Translation、機械翻訳) し、それを音声に変換 (Speech Synthesis、音声合成) することで一連のプロセスが完結する。

音声認識のプロセスで人工知能を適用し、認識率が格段に向上した。システムは機械学習で入力した教育データから、会話に関する言葉の統計モデルを構築する。利用者が言葉を発すると、それを統計モデルと比較して、類似のケースを見つける。具体的には、発言者の音声を細分し音声要素 (Senoneと呼ぶ、Phoneme(音素)より更に細かい単位) で定義する。これを事前に学習したデータと比較し、最も出現確度が高いテキストに変換する。

音声認識では学習教材から言語に関することを学び、精度を上げることがカギとなる。教育データとして、翻訳されたウェブページ、ビデオのキャプション、1対1の会話の翻訳などが使われている。しかし、Skype Translatorはまだまだ教育中で、ベータ利用者の会話を保存し、教育データとして利用される。このため、Microsoftは利用上の注意として、製品改良のために利用者の会話が保存されるとしている。

Deep Neural Networksを適用

Skype Translatorは音声認識でDeep Neural Networks (DNNs) を適用している。DNNsを音声認識に適用することで、認識率が格段に向上した。Microsoft ResearchのFrank Seideらは、これを学術論文「Conversational Speech Transcription Using Context-Dependent Deep Neural Networks」として公表した。DNNsは従来の手法 (Gaussian Mixture Model) に比べて、難しいタスクのベンチマークで、エラー率が33%減少した。これが音声認識技術のブレークスルーとなり、Microsoftが新しい時代を切り開いた。

g398_microsoft_translate_05

Microsoftの機械翻訳研究で、トロント大学Geoffrey Hinton教授との出会いが、成功への決定的な切っ掛けとなった。Hinton教授はDNNsを機械学習に応用し、「Fast Learning Algorithm for Deep Belief Nets」など、歴史に残る論文を発表した。Microsoftは2009年12月、カナダでワークショップを開催し、ここでHinton教授がDNNsについて講演した。発表内容は公開されているので (上の写真)、今でも読むことができる。これがMicrosoftが音声認識技術にDNNsを採用する切っ掛けとなった。

機械翻訳の歴史

Microsoftは音声認識や機械翻訳技術研究の歴史について公開した。Skype Translator登場の背後には、10年を超える基礎研究がある。

そもそも機械翻訳技術開発は第二次世界大戦を切っ掛けに始まった。英国諜報機関がドイツ軍の暗号解読に成功したことで、言語を他の言語に変換することへの期待が高まった。暗号解析ではAlan Turingの功績が大きく、人工知能の生みの親と評価されている。映画「The Imitation Game」で描かれ、「Turing Test」(人工知能であることの試験) などで名が残っている。

期待された機械翻訳であるが、IBMなどが開発を進めたが、成果は限定的であった。米国国防省などは、自動翻訳システムの開発に疑問を呈し、機械翻訳研究は停止に追い込まれた。一方、1970年から1980年代は、機械翻訳のベースとなる基礎技術の開発が進んだ。Lalit Bahlらは、後に「Hidden Markov Models」と呼ばれる、音声認識アルゴリズムを開発。(Skype Translatorの音声認識はHidden Markov ModelsとDeep Neural Networksを組み合わせた構造。) Bahl は、後に、IBM Watson Research Centerで自動翻訳技術開発を始める。一方、人工知能技術では、Deep Neural Networks研究が行われ、Yann LeCunなどにより、ネットワークが改良され機能が向上した。機械翻訳の研究は停滞したが、そのベースとなる技術の研究が進んだ。

1997年には、Dragon SystemsとIBMから、音声認識技術を使った消費者向けの製品が登場。キーボードでタイプする代わりに、音声で入力できるようになった。Dragon Systemsは「Dragon NaturallySpeaking」をリリースし、音声認識ソフトウェアの代名詞となった。同社はその後Nuance Communicationsに買収された。IBMは「ViaVoice」という音声認識ソフトウェアをリリースし、業務などでも使われた。

g398_microsoft_translate_06

Microsoftの功績

Microsoftは2005年から機械翻訳の研究を開始するが、上述の通り、2009年から音声認識で人工知能技術を適用した。2013年には、向上した音声認識技術をBing Voice Search for Windows Phoneに適用。上の写真はiPhone向けのBing Searchであるが、音声認識精度は極めて高い。また、機械翻訳の研究成果はBing、Office、SharePoint、Yammerなどにも応用された。昨年は、パーソナル・アシスタント「Cortana」にDeep Neural Networksモデルが適用され、音声認識率が大幅に向上した。Microsoftが音声認識に人工知能を適用する手法を示し、業界で幅広く使われるようになった。因みに、Skype Translatorの機械翻訳では、「Microsoft Translate」が使われている。

機械翻訳の難しさとビッグデータ

言語はしばしば猛獣に例えられる。言語は一定ではなく常に移り変わり、様々な種類が存在するため、扱いにくいという意味である。また、話し言葉と書き言葉の間には大きな差異がある。更に、言葉はその使われ方で、地方、国、文化など、利用者のアイデンティティを反映する。この多様な言葉を理解するため、ソーシャルネットワークが有効な学習教材となってきた。MicrosoftはFacebookなどのソーシャルネットワークで、言語の多様性を把握し、翻訳の研究を重ねてきた。この研究がSkype Translatorの日常用語や語彙の翻訳で役立っている。Microsoftが出資しているFacebookが、翻訳技術開発で大いに役立ったことを示している。

g398_microsoft_translate_03

情報処理技術の最大の誤算

情報処理技術の最大の誤算は機械翻訳であると言われている。開発当初は、コンピューター技術の進化と共に、翻訳技術が完成するのは時間の問題と思われていた。これが予想外に難航し、開発が始まり70年経った今も、機械翻訳は完成しているとはいいがたい。しかし、Deep Neural Networksという武器を手にし、音声認識技術などが格段に向上し、完成に向けて大きく前進している。Google音声検索で認識率が格段に向上したのも、Deep Neural Networksの採用によるところが大きい。Skype Translatorの発表で (上の写真)、Microsoftが音声認識技術向上に多大な貢献をしたことも明らかになった。