Archive for January, 2015

同時通訳「Skype Translator」は意外とイケそう、Microsoftの人工知能研究が実を結ぶ

Friday, January 30th, 2015

Skypeは音声通訳機能「Skype Translator」を公開し、SFの世界が現実になったと話題を呼んでいる。Skype Translatorは、人間の同時通訳のように、発言をほぼリアルタイムで相手の言語に翻訳する。国際会議のように、異なる言語間でコミュニケーションが可能となった。この背景には、Microsoftの人工知能基礎研究がある。Microsoftは、音声認識に人工知能を適用することで、認識率を大幅に向上することに成功した。Skype Translatorのリリースは、Microsoftの長年にわたる機械翻訳開発が結実したことを意味する。

g398_microsoft_translate_01

Skype Translatorベータ版を公開

Microsoftは2014年12月、Skype Translatorのベータ版 (preview program) を公開した。これはSkypeへのアドオンで、異なる言語間での会話を翻訳する。MicrosoftはSkype Translatorデモビデオを公開し、どのように利用するかを説明した (上の写真)。このデモはメキシコとアメリカの生徒がSkype Translatorで会話しているシーンで、スペイン語と英語でコミュニケーションが成立することを示している。

g398_microsoft_translate_02

アメリカ人の生徒が話し終えると、システムはそれをスペイン語に翻訳し音声で伝える。同時に、会話の内容がテキストでも表示される (上の写真)。同時通訳を介して討議するように、会話が進行する。ただし、同時通訳は、話し手の会話が終わる前に、翻訳が同時進行するが、Skype Translatorは、発言が終わってから、システムが翻訳を行う。Skype Translatorは異なる言語間で自由に会話でき、地球上でコミュニケーションの範囲が広がると期待されている。

g398_microsoft_translate_07

Skype Translatorを使ってみると

利用方法はシンプルで、アプリの「Translator」ボタンをオンにして、翻訳機能を起動する。次に、相手の話し言葉と書き言葉を選ぶ。現在、英語とスペイン語間での翻訳機能があり、こちらの言語を英語とし、相手の言語をスペイン語と指定。会話を始めると、喋ったことが相手の言語に翻訳され、音声で流れる (上の写真、CNNニュース・スペイン語版を読んでもらっている様子)。喋った後に若干間を置いて、翻訳された音声が送られる。一区切り喋ると、システムはポーズを発言の終わりと捉え、翻訳を開始する。発言を聞いたのちに、翻訳を聞くという流れとなる。同時に、パネルには会話が両国の言語でテキスト表示される (上の写真右側のペイン)。

使い始めた当初は、音声認識の精度が悪く、また、翻訳が会話の途中から始まったりして、かなり戸惑った。パソコン内蔵マイクの代わりに、ヘッドセットを使ったら、音声認識精度が大幅に良くなった。(後で説明を読むとヘッドセットを使うよう書いてあった。) また、少し早口にしゃべると、会話の途中で翻訳が始まらず、発言が終わった時点で開始され、スムーズに会話できる。

慣れるまでに少し時間がかかったが、相手の言っていることが理解できるようになった。音声認識精度はいいが、改善の余地はある。Skype Translatorの成功は、如何に正確に音声認識できるかにかかっている。Microsoftがベータ版としているように、システムは実戦を通して学習中だが、意外と使えそうとの印象を持った。

g398_microsoft_translate_04

Skype Translatorの仕組み

Skype Translatorは人工知能をフルに活用したシステムだ。音声認識と機械翻訳機能を搭載し、機械学習プラットフォーム上に展開される (上の写真)。利用者が発言すると、Skype Translatorがそれをテキストに変換 (Speech Recognition、音声認識) する。システムは変換されたテキストから、「あー」とか「うー」など翻訳に障害となる言葉 (Speech Disfluencies) を取り除く。クリーンアップされたテキストを相手の言語に翻訳 (Machine Translation、機械翻訳) し、それを音声に変換 (Speech Synthesis、音声合成) することで一連のプロセスが完結する。

音声認識のプロセスで人工知能を適用し、認識率が格段に向上した。システムは機械学習で入力した教育データから、会話に関する言葉の統計モデルを構築する。利用者が言葉を発すると、それを統計モデルと比較して、類似のケースを見つける。具体的には、発言者の音声を細分し音声要素 (Senoneと呼ぶ、Phoneme(音素)より更に細かい単位) で定義する。これを事前に学習したデータと比較し、最も出現確度が高いテキストに変換する。

音声認識では学習教材から言語に関することを学び、精度を上げることがカギとなる。教育データとして、翻訳されたウェブページ、ビデオのキャプション、1対1の会話の翻訳などが使われている。しかし、Skype Translatorはまだまだ教育中で、ベータ利用者の会話を保存し、教育データとして利用される。このため、Microsoftは利用上の注意として、製品改良のために利用者の会話が保存されるとしている。

Deep Neural Networksを適用

Skype Translatorは音声認識でDeep Neural Networks (DNNs) を適用している。DNNsを音声認識に適用することで、認識率が格段に向上した。Microsoft ResearchのFrank Seideらは、これを学術論文「Conversational Speech Transcription Using Context-Dependent Deep Neural Networks」として公表した。DNNsは従来の手法 (Gaussian Mixture Model) に比べて、難しいタスクのベンチマークで、エラー率が33%減少した。これが音声認識技術のブレークスルーとなり、Microsoftが新しい時代を切り開いた。

g398_microsoft_translate_05

Microsoftの機械翻訳研究で、トロント大学Geoffrey Hinton教授との出会いが、成功への決定的な切っ掛けとなった。Hinton教授はDNNsを機械学習に応用し、「Fast Learning Algorithm for Deep Belief Nets」など、歴史に残る論文を発表した。Microsoftは2009年12月、カナダでワークショップを開催し、ここでHinton教授がDNNsについて講演した。発表内容は公開されているので (上の写真)、今でも読むことができる。これがMicrosoftが音声認識技術にDNNsを採用する切っ掛けとなった。

機械翻訳の歴史

Microsoftは音声認識や機械翻訳技術研究の歴史について公開した。Skype Translator登場の背後には、10年を超える基礎研究がある。

そもそも機械翻訳技術開発は第二次世界大戦を切っ掛けに始まった。英国諜報機関がドイツ軍の暗号解読に成功したことで、言語を他の言語に変換することへの期待が高まった。暗号解析ではAlan Turingの功績が大きく、人工知能の生みの親と評価されている。映画「The Imitation Game」で描かれ、「Turing Test」(人工知能であることの試験) などで名が残っている。

期待された機械翻訳であるが、IBMなどが開発を進めたが、成果は限定的であった。米国国防省などは、自動翻訳システムの開発に疑問を呈し、機械翻訳研究は停止に追い込まれた。一方、1970年から1980年代は、機械翻訳のベースとなる基礎技術の開発が進んだ。Lalit Bahlらは、後に「Hidden Markov Models」と呼ばれる、音声認識アルゴリズムを開発。(Skype Translatorの音声認識はHidden Markov ModelsとDeep Neural Networksを組み合わせた構造。) Bahl は、後に、IBM Watson Research Centerで自動翻訳技術開発を始める。一方、人工知能技術では、Deep Neural Networks研究が行われ、Yann LeCunなどにより、ネットワークが改良され機能が向上した。機械翻訳の研究は停滞したが、そのベースとなる技術の研究が進んだ。

1997年には、Dragon SystemsとIBMから、音声認識技術を使った消費者向けの製品が登場。キーボードでタイプする代わりに、音声で入力できるようになった。Dragon Systemsは「Dragon NaturallySpeaking」をリリースし、音声認識ソフトウェアの代名詞となった。同社はその後Nuance Communicationsに買収された。IBMは「ViaVoice」という音声認識ソフトウェアをリリースし、業務などでも使われた。

g398_microsoft_translate_06

Microsoftの功績

Microsoftは2005年から機械翻訳の研究を開始するが、上述の通り、2009年から音声認識で人工知能技術を適用した。2013年には、向上した音声認識技術をBing Voice Search for Windows Phoneに適用。上の写真はiPhone向けのBing Searchであるが、音声認識精度は極めて高い。また、機械翻訳の研究成果はBing、Office、SharePoint、Yammerなどにも応用された。昨年は、パーソナル・アシスタント「Cortana」にDeep Neural Networksモデルが適用され、音声認識率が大幅に向上した。Microsoftが音声認識に人工知能を適用する手法を示し、業界で幅広く使われるようになった。因みに、Skype Translatorの機械翻訳では、「Microsoft Translate」が使われている。

機械翻訳の難しさとビッグデータ

言語はしばしば猛獣に例えられる。言語は一定ではなく常に移り変わり、様々な種類が存在するため、扱いにくいという意味である。また、話し言葉と書き言葉の間には大きな差異がある。更に、言葉はその使われ方で、地方、国、文化など、利用者のアイデンティティを反映する。この多様な言葉を理解するため、ソーシャルネットワークが有効な学習教材となってきた。MicrosoftはFacebookなどのソーシャルネットワークで、言語の多様性を把握し、翻訳の研究を重ねてきた。この研究がSkype Translatorの日常用語や語彙の翻訳で役立っている。Microsoftが出資しているFacebookが、翻訳技術開発で大いに役立ったことを示している。

g398_microsoft_translate_03

情報処理技術の最大の誤算

情報処理技術の最大の誤算は機械翻訳であると言われている。開発当初は、コンピューター技術の進化と共に、翻訳技術が完成するのは時間の問題と思われていた。これが予想外に難航し、開発が始まり70年経った今も、機械翻訳は完成しているとはいいがたい。しかし、Deep Neural Networksという武器を手にし、音声認識技術などが格段に向上し、完成に向けて大きく前進している。Google音声検索で認識率が格段に向上したのも、Deep Neural Networksの採用によるところが大きい。Skype Translatorの発表で (上の写真)、Microsoftが音声認識技術向上に多大な貢献をしたことも明らかになった。

Google Glass次期製品のヒント、究極のグラスアプリを体験

Friday, January 23rd, 2015

Google Glassベータ製品 (Explorer Edition) の販売が中止され波紋を呼んでいるが、もう既に、Glass次期製品の憶測が飛び交っている。New York Timesは、販売中止に至った経緯を詳細に検証し、その上で、次期製品はゼロから設計が見直されるとの見解を示している。GoogleはGlass開発を継続しており、最終製品はExplorer Editionとは大きく異なると分析している。

記事とは別に、サンフランシスコの美術館を訪問した際に、Glass次期製品のヒントが見えてきた。展覧会で絵画の前に立つと、操作しなくても、作品ガイドがGlassに表示された。Glassはコンテクストを理解し、必要な情報を目の前に表示する。Googleが目指す理想のGlassに一歩近づいた気がした。

g398_google_glass_beacon_01

サンフランシスコの美術館がGlassを採用

この展覧会はサンフランシスコの人気美術館「de Young Museum」 (上の写真) で開催された。企画展「Keith Haring: The Political Line」で、Glassを使った作品ガイドシステムが導入され、早速、このシステムを体験した。会場に入りGlassをかけて作品の前に立つだけで、ディスプレイに作品ガイドが表示された。指でタップするなどの操作は不要で、必要な情報が必要なタイミングで自律的にGlassにプッシュされた。これが情報アクセスの理想形かもしれないと思いながら、会場内を散策した。

因みに、de Young Museumはアメリカ近代絵画を中心に、幅広いジャンルの作品を取り揃えている。企画展のアーティストKeith Haringは、1980年代に活躍した米国の画家で、街中でグラフィティを描き、活動家として意見を主張してきた。タイトル「The Political Line」が示す通り、政治色が際立った作品が展示された。

g398_google_glass_beacon_02

GuidiGOというアプリを利用

美術館はGuidiGO社が開発した同名のアプリ「GuidiGO」を導入。GuidiGOはパリなどに拠点を置く企業で、ルーブル美術館などにシステムを提供している。このアプリを事前にGlassにダウンロードしておき、会場入り口でそれを起動する。その後は操作は不要で、前述の通り、作品に近づくと、自動で作品ガイドが起動する。上の写真はその事例で、作品のそばに立つと、作品ガイド (右上のウインドウ) がGlassのディスプレイに表示された。これによりタイトルは「With LA II (Angel Ortiz) Statue of Liberty」で、1982年に製作されたことが分かる。この作品ガイドを見たい時は、Glassをタップするとビデオが始まる。作品番号を入力したり、Glassのカメラで作品をスキャンするなどの操作は不要で、自律的に作品ガイドが表示される。

g398_google_glass_beacon_03

作品ガイドを見る

作品ガイドをタップすると、Glassでビデオが再生される。上の写真がその様子で、「無題」という1984年に製作された作品の解説ビデオ (右上のウインドウ) がディスプレイで再生される。絵画の前で、音声だけでなく、グラフィックスを取り込んだガイドを聞きながら、作品の主張を理解できる。これはHaringがコンピューターと人間社会の関係を描いたもの。中央の人物の頭脳がコンピューターで置き換わり、人工知能の脅威を表している。人物が跨っている爆撃機は、人工知能が無制限に拡散することへの危険性を主張している。当時、AppleのSteve Jobs (写真左側の人物) がMcIntoshを発売し、パソコンという概念が社会に広まっていた。Haringはコンピューターを肯定的に受け止め、技術進化に期待を寄せていた。その一方で、コンピューターを悪用することへの警戒感を絵画で表現した。Glassでガイドを見ると、作品の前で一気に理解が深まる。

g398_google_glass_beacon_04

必要なタイミングで情報が表示される

上の写真は1982年に製作された「無題」という作品で、棒を足で折るしぐさが描かれている。これは警察がデモ隊を警棒で威圧することに対し、自らの運命を自分で決定することを描いている。Haringはグラフィティを地下鉄駅構内や路上に描いていた (右上のウインドウ)。このため、作品は単純な線と明確な色彩で構成され、短時間に (10分程度で) 描かれる。時に、警察に検挙されることもあった、とガイドは説明している。展覧会を振り返ると、ディスプレイに作品解説が自動で表示されるので、専属説明員に案内されながら作品を鑑賞した気分だった。欲しい情報が目の前に自律的に表示されると、如何に利便かを実感した。

Bluetooth Beaconを利用

作品の前に立つとGlassにガイドが表示されるのは、会場に設置されているBluetooth Beaconで、デバイスの位置を把握しているためである。BeaconがGlassとBluetoothで交信し、位置情報に応じた、作品ガイドを再生する指示を出す。これはスマートフォンでは馴染みの仕組みである。Apple Storeに入店すると、iBeaconがiPhoneとBluetoothで交信し、商品情報などがロックスクリーンに表示される。スマートフォンでは、デバイスをポケットから取り出し、メッセージを読まなくてはならないが、Glassでは目の前のディスプレイに直接表示されるので、利便性が格段に向上する。会場内ではBluetooth Beaconが、目立たないように壁の上部に設置されていた。

このシステムは美術館だけでなく、汎用的に利用できる。Glass利用者が増えるという前提だが、小売店舗で採用すると、目の前に特売情報などを表示でき、販売促進に役立つ。また、街中に実装すると、観光案内などで利用できる。名所旧跡などに近づくと、観光案内が目の前に表示される。日本を訪れる観光客向けのガイドなどで利用できるかもしれない。仕組みはシンプルであるが、Glassで活用するとスマートフォンよりその効果が増大する。

g398_google_glass_beacon_05

Glassと人工知能の組み合わせ

Glassを使って一番便利と感じる機能が、必要な時に必要な情報が、目の前に現れる機能である。上述の美術館での作品ガイドの他に、屋外ではGoogle Nowを便利と感じる。Google Nowは、利用者のコンテクストを理解し、最適な情報を配信する機能である。スマートフォンやスマートウォッチで使われている。Glass向けにも実装されており、Glassをかけて通りを歩くと、近隣のお勧めの店舗が表示される。そのカードをタップすると、その詳細情報が表示される。

上の写真がその事例で、お昼時、サンフランシスコ対岸のサウサリトを歩くと、Glassが近くの人気レストランを教えてくれる。この近くに「Poggio Trattoria」というイタリアン・レストランがあると、ディスプレイにカードが示される (写真右上のウインドウ)。こちらの嗜好を把握し、時間と場所に依存した情報をプッシュする。お昼時に近くの人気レストランが表示されると、そちらに足が向く。自分でレストランを探す必要はなく、Glassに気になる情報が表示され、とても便利と感じる。Google NowはApple Siriに匹敵するパーソナル・アシスタント機能で、背後では人工知能の技術が使われている。Googleのコア技術である人工知能とGlassの組み合わせが、キラーアプリへの最短ルートかもしれない。

g398_google_glass_beacon_06

Glass利用者は団体で入場

展覧会会場でちょっと気になる話を聞いた (上の写真)。美術館スタッフにGlassについて尋ねたところ、Glassをかけた入館者の殆どが団体客であるとのこと。Glassをかけた個人の入館者は少ないとのことであった。スタッフはこの理由は分からないとしているが、今のサンフランシスコの雰囲気を端的に象徴している事例かもしれない。Glassのプライバシー問題が大きく報道され、屋外でGlassの使用をためらう人が増えている。個人で使うには勇気がいるが、団体の一員としてなら抵抗感が和らぐ。因みに、著者は個人で入館したが、やはり見えないプレッシャーを感じる。Glassで撮影する時はプライバシー問題に配慮し、スマートフォンの時に比べ、慎重にアングルを選ぶようになった。他人の迷惑にならないようGlassを使っている。

Glassの最終目的地に一歩近づく

Googleは次世代Glassを開発中で、完成したと判断したら発売すると表明している。プライバシー問題の解決やデザインの改良が急務となるが、Glassのキラーアプリについての議論も盛り上がっている。Google X研究所長のAstro Tellerは、Glassの開発目標を、技術を意識しないで日常生活ができること、と述べている。更に、存在が意識されなくなった時が、Glass開発の到着地点とも述べている。展覧会で作品を前に、Glassで作品ガイドを見ながら、Keith Haringの世界に没頭していた。Glassはまだまだ未完の製品であるが、Tellerが述べている目標に一歩近づいた気がした。

消費者の観点からすると、数多くの問題を抱えているが、Glassのような生活を豊かにするウエアラブルは、途中で挫折することなく、開発を継続してほしい。必ずしもGoogleである必要はなく、技術とセンスがある企業が手掛けるのが自然な形だ。その意味で日本企業は、いまが出番かもしれない。米国の消費者は周囲の眼を気にしないで、堂々と使えるスマートグラスの登場を待ち望んでいる。

Facebookの次の10年、人工知能が支えるソーシャルネットワーク

Friday, January 9th, 2015

Facebookが事業を開始して10年が経過した。CEOのMark Zuckerbergは次の10年を睨んだ戦略を描いている。ここで重要な役割を担うのが人工知能だ。Facebookは人工知能研究所を開設し、Deep Learning研究第一人者Yan LeCunの指揮の元、研究開発を進めている。ソーシャルネットワークと人工知能はどう関係するのか、また、Zuckerbergは何を目指しているのか、Facebookの人工知能戦略をレポートする。

g397_facebook_ai_research_01

Facebook人工知能研究所

Facebookは2013年9月、人工知能研究所「Facebook AI Research」を開設し、同12月にはYann LeCunが所長に就任したことを発表した。人工知能研究所が活動を始め一年が経過し、研究の一端が見えてきた。LeCunは、先月、ビッグデータのカンファレンス「Data Driven NYC」で、Facebook人工知能研究所について語った。研究概要だけでなく、人工知能でビジネスを興すヒントなどにも言及し、その模様はYouTubeなどで公開された。

上の写真は、このカンファレンスとは別に、モントリオールで開催された人工知能学会のひとこまで、LeCunがFacebookに公開した。人工知能研究のオールスターが勢ぞろいしている。左から二番目がYann LeCun本人。右から、Andrew Ng (Google XからBaiduに移籍)、Yoshua Bengio (モントリオール大学教授)、Geoffrey Hinton (トロント大学教授でGoogleで研究開始)。歴史に名を残す人工知能研究者が、Facebook、Baidu、Googleに引き抜かれていることが分かる。

最適な記事を表示

Facebookはソーシャルネットワークのトップを走っているが、次の10年はSocial Interactionで革新が必要との見解を示した。Social Interactionとは、利用者がデジタルメディアを介して友人と接する方式のことで、これを人工知能がアシストするモデルを描いている。

g397_facebook_ai_research_02

いまFacebookを開くと、多くの友人が投稿した記事が表示される。その数は数千件にも上り、全ての記事に目を通すことはできない。Facebookは人工知能を導入し、この仕組みを改善しようとしている。機械学習の手法Deep Learningを適用し、アクティビティなどを分析し、利用者の嗜好を把握する。更に、Deep Learningで、利用者の友人が投稿した記事の内容を把握する。両者をマッチングすることで、利用者が興味を引く記事だけをフィードに表示する。具体的には、ある利用者が赤色のフェラーリ (上の写真) に興味があるとシステムが判断すると、友人が投稿した赤色フェラーリの写真をフィードに表示するという仕組みとなる。利用者が登録するのではなく、Deep Learningが記事を自然言語解析し、嗜好を把握し学習を続ける。今は数千件の記事がフィードに表示されるが、これを最適な100件程度に絞り込む計画だ。

両親のようにアドバイス

更に、長期的には人工知能研究を推し進め、インテリジェントな機能を提供するとしている。具体的には個人秘書 (Personal Assistant) や質疑応答 (Questions & Answers) の形態で実装する。個人秘書は状況に応じて利用者にアドバイスを行う。例えば、みっともない写真 (泥酔した自撮り写真など) を投稿しようとすると、システムはそれを認識し、再考を促すメッセージを表示する。Facebook利用者は若者が多く、システムが両親に代わって、行き過ぎた行為を戒めることとなる。LeCunは触れなかったが、質疑応答ではシステムが、ファッションなどの相談にのってくれるのかもしれない。ソーシャルネットワークには個人に関する膨大なデータが揃っており、Deep Learningにとっては、またとない実力を発揮できる環境となる。

大学と企業の人工知能研究

LeCunはDeep Learning研究で、大学と企業の役割にも触れた。大学は学生を教育し研究者を育てる他に、独自の視点でDeep Learning研究を進めている。その成果はオープンソースやビデオなどで公開され、コミュニティーの一員として貢献している。企業は大規模なコンピューター資源を使い、積極的にDeep Learning研究を展開している。Google、IBM、Microsoftなどが中心的な役割を担っている。Deep Learning研究では両者の活動が密接に関連しており、それぞれの特徴を生かしながら、補完する関係の構築が必要であるとの見解を示した。上述の事例の通り、人工知能研究では企業と大学間の人の交流が活発で、大学の基礎研究が企業の製品開発に、うまく繋がりつつある。

人工知能ビジネスの戦略

LeCunは人工知能で事業を構築するためのポイントにも言及した。人工知能市場を、水平市場と垂直市場の観点から考察し、何処を攻めるべきかを示した。水平市場はDeep Learning技術を汎用的に提供するモデルで、垂直市場は業種ソリューションに統合して展開するモデルを指す。水平市場では、現行モデル (Convolutional Neural Networksなど) を凌ぐアルゴリズムが求められ競争は極めて厳しい。

これに対し垂直市場では、業種ソリューションをDeep Learningで強化する方式で、ビジネスとして成立しやすい。LeCunが注目している垂直市場は医療で、メディカル・イメージングがDeep Learningと親和性が高く、ここに大きなチャンスがあるとしている。この市場はSiemensやGEが大きなシェアを占めているが、イメージ解析では参入のチャンスがあるとの見解を示した。Deep Learningで自社の業種ソリューションを強化することが、企業が進むべき道であると理解できる。

Zuckerbergは個人で人工知能ベンチャーに出資

Facebookは企業として人工知能研究を進めているが、Zuckerbergは個人としても、人工知能に大きな将来性を感じている。Zuckerbergは人工知能ベンチャー「Vicarious」に個人として投資している。Vicariousはサンフランシスコに拠点を置き、人間のように考えて学習するソフトウエアを開発している。Vicariousは、Zuckerbergの他に、Elon Musk (TeslaやSpaceX創業者)、 Peter Thiel (PayPal創業者)、Ashton Kutcher (人気俳優)、Jeff Bezos (Amazon創業者) など著名人から出資を受けたことで、一気に話題となった。

g397_facebook_ai_research_03

イマジネーションを使って高速学習

しかしVicariousは秘密裏に開発を進めており、その内容は分からない。色々な情報を総合すると、Vicariousは高速で学習する次世代Deep Learningを目指しているようだ。現在のDeep Learningは大量のデータを読み込み学習する必要がある。これに対してVicariousは、人間のように、”イマジネーション”を使って高速に学習すると言われている。上の写真はその事例で、一頭の牛の写真を示すと、Vicariousは牛とは何かを理解し、イマジネーションで多くの牛を描くことができる。馬や山羊に見える図形も交じっているが、Vicariousは牛の特徴を掴んでいることが分かる。

g397_facebook_ai_research_04

Captchaを解読

Vicariousはこの技術を使い、Captchaを解読したことで話題を集めた。Captchaはチャレンジ・レスポンス型のテストで、数字や文字が不規則に並び、これを読み説いてログインの認証を受ける。マシンには解読できなくて、サイトにログインするのは人であることを確認するために利用される。上の写真はYahooサイトのCaptchaで、文字が重なっていて、人間でも読み違えることがしばしばある。

g397_facebook_ai_research_05

上の写真はこれをVicariousが解読したものである。文字が重なっているが、見えない部分を”イマジネーション”で補完し、正しく回答した。Vicariousを使うと、マシンがYahooサイトにログインできることとなる。

高精度のターゲット広告や写真分類

勿論、Captchの解読が目的ではなく、Vicariousはソーシャルネットワークや検索エンジンの飛躍的な強化を目標にしている。また、X線検査から腫瘍を検出し、製造ラインで規格外製品を検出し、また、ロボットが家庭内で移動するモデルも計画されている。VicariousはFacebookでの応用分野については触れていないが、高精度のターゲット広告や写真分類で利用されると言われている。

シリコンバレーでAIベンチャー買収が続く

Facebookは、今月、人の言葉を理解する技術を開発しているベンチャー「Wit.AI」を買収した。これは人工知能の中で自然言語解析と呼ばれる分野で、ロボットやウエアラブルに頭脳を持たせる技術として注目されている。これに先立ち、Zuckerbergは、驚異的な速度で学習する人工知能「DeepMind」の買収を目論んでいた。結局、Larry Pageが直接交渉し、Googleが買収することで決着した。シリコンバレーの主要企業は、人工知能ベンチャーの買収で、熱い戦いを繰り返している。人工知能技術への期待と投資が過熱気味であるが、各企業はここに大きなビジネスチャンスを描いている。今年は人工知能を要素技術としたユニークな製品が数多く登場することが期待される。

Deep Learningを実装した自動運転技術、Nvidiaが開発しAudiなどに提供

Friday, January 2nd, 2015

自動車はスーパーコンピューターを搭載し人工知能で制御する。Nvidiaはラスベガスで開催中のCES 2015で、最新の自動運転技術を発表し、人工知能を採用した制御方式を示した。このシステムを自動車に搭載すると、カメラで捉えたオブジェクトを高精度で把握し、周囲の状況を理解する。Audiはこのシステムの採用を表明し、自動運転技術開発が加速しそうだ。

g396_nvidia_drive_px_01

カメラがセンサーを置き換える

Nvidia CEOのJen-Hsun Huang (上の写真) は1月4日、自動運転開発プラットフォーム「Nvidia Drive PX」を発表した。記者会見の模様はストリーミングで中継された。Huangは、車載センサーのトレンドとして、レーダーなどがカメラにより置き換えられていることを指摘。スマホなどのモバイル技術により、カメラの解像度、ダイナミックレンジ、夜間撮影機能などが著しく向上したためである。これからは複数の車載カメラを統合する方法で、運転支援システム (Advanced Driver Assistance Systems) や、自動運転車 (Auto-Pilot Car) 開発が可能となるとの見解を示した。

g396_nvidia_drive_px_02

車載スーパーコンピューター

自動運転技術を支えるのがNvidia Drive PX (上の写真) だ。Drive PXは最新プロセッサー「Tegra X1」を二台搭載し、並列処理に、また、二多重に利用できる。Tegra X1はTegra K1の後継機で、テラフロップス (毎秒1兆回の浮動小数点演算) を超える性能を提供する。NvidiaはTegra X1をスパコンチップ (Mobile Super Chip) と呼んでいる。Drive PXは12台のHDカメラ (60Hz) と接続でき、毎秒1.3ギガピクセルを処理する。自動車の前後左右や車内に搭載される、最大12台のカメラで捉えたイメージを、同時に処理できるパワーを持っている。

コンピュータービジョンにDeep Neural Network

Drive PXはコンピュータービジョンに「Deep Neural Network」を採用した。Deep Neural Networkとは機械学習のアルゴリズムで、脳の構造を模したネットワークで、データから高次の意味を抽出することができる。Deep Neural Networkを自動車に応用すると、単にオブジェクトを認識するだけでなく、置かれた状況を理解することができる。

g396_nvidia_drive_px_03

上の写真がその事例で、道路を横断している歩行者を認識するデモである。左手の歩行者は、全身が見えていて、従来モデルで把握できる。一方、右手の歩行者は、一部が自動車に隠れ、従来モデルでは歩行者と認識しない。Deep Neural Networkを使うと、頭部や脚部を認識し、このオブジェクトは歩行者であると判断する。

街中を走行して撮影したビデオを解析

Nvidiaは、実際に市街地を走行しビデオ撮影を行い、そのイメージをDrive PXで処理した結果を公開した。リアルタイムでの処理ではないが、Drive PXでDeep Neural Networkを使うと、どんな利点があるかを理解できる。

g396_nvidia_drive_px_04

上の写真は自転車に乗っている人 (右端の緑色の箱) の事例で、一部がパトカーや消火栓の陰で見えなくても、システムは正しくサイクリスト (Cyclist) と判定した。上述のデモを実際のビデオ画像で証明したもので、Deep Neural Networkの威力が分かる。

g396_nvidia_drive_px_05

夜間ドライブでも正しく判定できる

上の写真はイギリスにおける夜間ドライブの様子。夜間走行はコンピュータービジョンにとって、オブジェクトの認識が難しい。街路灯などで対象物の判定が難しいなか、システムはスピードカメラを検出 (右端の緑色の箱)。更に、速度標識を認識 (中央部の緑色の箱)。速度標識は50Hzで点灯している。一方、カメラの撮影サイクルは30Hzで、イメージを上手く取り込めないこともある。しかしDeep Neural Networkを使うと正しく認識できたとしている。左端の緑の箱はメッセー表示で「Queue」という文字を認識した。これはこの先渋滞という意味で、少し走ると渋滞に差し掛かり、前の車がブレーキを踏むと、それを正しく検知した。このように、Deep Neural Networkは複数のクラスを同時に認識できる点に特徴がある。

g396_nvidia_drive_px_06

ラスベガス市街地で車種を認識

上の写真はラスベガス市街地の事例で、システムは自動車の車種を認識する。上の事例では、乗用車 (Passenger Car) や多目的スポーツ車 (SUV) を検知している。従来モデルでは、車種ごとにフィルター (Feature Detector) を開発する必要があった。しかしDeep Neural Networkでは、システムが自動車を認識し、そのサブクラス (Passenger CarやVanなど) を教育するだけで、分別が圧倒的に効率的になった。この事例では40時間分のビデオを入力し、16時間の教育を行うことで、区別ができるようになった。この写真は、左側の乗用車が高速で追い越しているシーンである。従来方式では、フレームごとにイメージ認識を行い、高速で動くオブジェクトのイメージは歪むので、上手く認識できない。一方、Deep Neural Networkでは、特徴を掴み高速で処理ができるため、上の写真の通り正しく認識できる。Deep Neural Networkでコンピュータービジョンの性能が格段に向上したのが分かる。

g396_nvidia_drive_px_07

アーキテクチャー

このシステムのアーキテクチャーは上の写真の通り。Deep Neural Networkは、事前に、GPU搭載のスーパーコンピューターで学習を重ねる。具体的には、大量のイメージをDeep Neural Networkに読み込ませ、パラメーターの最適化を行う。読み込んだイメージが何かを教育するのであるが、実際にはこの大量のパラメーターを最適化する作業となる。教育されたDeep Neural Networkが出来上がると、これを車載Drive PXにロードし、システムが完成する。運転中に車載カメラから読み込んだイメージを、Drive PX上のDeep Neural Networkに入力して、オブジェクトの分類を行う。Drive PXは同時に150のオブジェクトを認識できる。

一方、システムがオブジェクトを上手く認識できないケースでは、再度、そのイメージをスーパーコンピューターに戻し、データサイエンティストがマニュアルでタグ付けをし、再教育する。Deep Neural Networkがアップデートされると、更新されたソフトウェアを他の自動車にダウンロードする仕組みとなる。Nvidiaは、ネットワーク接続の自動車 (Connected Car) が、スパコンチップ (Mobile Super Chip) を搭載し、Deep Learningでオブジェクトを認識し、自動運転を行うモデルを描いている。

g396_nvidia_drive_px_08

Deep Neural Networkとは

NvidiaはDeep Learningの技法をDeep Neural Networkと一般的な用語で説明しているが、具体的には、「AlexNet」を利用している。AlexNetとは、トロント大学のAlex Krizhevskyらにより開発された方式で、「Convolutional Neural Networks (CNN)」という技法を使っている。CNNは多層ネットワークで、入力イメージから、特徴を抽出し、オブジェクトの分類を行う。上の写真はAudiのイメージをCNNで解析するプロセスを示している。左から右に向って処理が進む。左側は入力イメージから、Audiの低次元の特徴 (単純な形状など) を抽出し、処理が進むにつれ、高次元の特徴 (タイヤなど) を抽出し、自動車全体を把握する。低次元の特徴を抽出することで、Audiを形成する不変の要素を把握できる。更に、CNNに教育を行うと、その後は自動でオブジェクトを区分でき、コンピュータービジョンの定番技法となっている。

このケースではNeuron (計算素子、写真の丸の部分) の数は65000 (ロブスターの脳の半分程度)で、パラメーターの数は6000万となる。このプロセスでは大規模な演算量が必要となり、NvidoaのGPUが威力を発揮することとなる。因みに、市場には様々なDeep Learning開発フレームワークがあるが、Nvidiaはその中でUC Berkeleyが開発した「Caffe」をサポートしている。

g396_nvidia_drive_px_09

CNNが注目された理由

CNNが一躍注目を集めたのは、2012年に行われたコンテスト「Large Scale Visual Recognition Challenge」である。このコンテストは、120万のイメージに何が写っているかを、1000のクラスに区分けする競技である。イメージ認識精度は毎年数%程度しか向上していないが、2012年は10%と大幅に向上した (上の写真)。これはNvidia GPUでAlexNetを稼働した成果で、CNNの実力が世界に認められた年となった。因みに2014年は、Googleが「GoogLeNet」で圧勝した。

Audiとの共同開発

NvidiaはAudiと10年にわたり共同開発を続けており、Audi上級副社長Ricky Hudiは、Drive PXを採用する計画であることを明らかにした。Audiは、既に、イメージ認識システムを開発しており、そのプラットフォームとしてNvidiaを使っている。超並列システムとMachine Learningで、インテリジェントな自動車を開発しており、Audi自動運転車が市場に登場するのはそう遠くないとしている。

g396_nvidia_drive_px_10

事実、Audiは自動運転車RS7コンセプトカー「Bobby」をドイツのホッケンハイムレース場で試験走行し、時速200キロで走行することに成功した (上の写真)。自動車にはドライバーは搭乗しておらず、Bobbyは自律走行でレース場を駆け抜けた。ここはF1レースが行われる名門コースで、Bobbyは人間のトップレーサーの技術に相当すると評価され話題を集めた。また、Audi A7ベースの自動運転車「Jack」は、CES開催に合わせ、シリコンバレーからラスベガスまで、自動運転で走行するデモを実施した。1月4日現在、ほぼ中間点のBakersfieldに到達した。AudiはNvidiaプロセッサーとDeep Learningで、急速に自動運転技術を向上している。

Software-define Car

Nvidiaの最新プロセッサーTegra X1はテラフロップスを超え、かつてのスーパーコンピューターと同等の演算能力を持つ。スマホやタブレットでは使いきれない性能で、Nvidiaは自動車市場に注目している。これからの自動車はスーパーコンピューターを搭載し、ソフトウェアが走行を制御する仕組みとなる。Nvidiaはこの構成を「Software-define Car」と呼び、ソフトウェアが自動車の機能を決定するとしている。自動車メーカーは独自に自動運転技術を開発しているが、Nvidiaがプラットフォームを提供することで、開発速度が上がると思われる。Googleが先行している自動運転技術であるが、自動車メーカーの巻き返しに注目が集まっている。