Archive for the ‘google’ Category

DeepMindは最強の囲碁ソフト「AlphaGo Zero」を公開、人間の知識や教育データは不要!AIが自ら学習しシンギュラリティに近づく

Monday, October 23rd, 2017

DeepMindはAIが自律的に知識を習得する囲碁ソフト「AlphaGo Zero」を公開した。AlphaGo Zeroは人間の知識や教育データは不要で、AI同士の対戦で技量を上げる。AlphaGo Zeroは人間のような学習能力を身に付け、汎用人工知能への道筋を示した。シンギュラリティに一歩近づいたとも解釈できる。

出典: DeepMind

Tabula Rasa:ゼロから学ぶ

AlphaGo Zeroの技術詳細は科学雑誌Natureに「Mastering the game of Go without human knowledge」として公開された。DeepMindのAI研究最終目的は人間を超越する学習能力を持つアルゴリズムを開発することにある。ゼロの状態から知識を習得する手法は「Tabula Rasa (空白のページ)」とも呼ばれる。人間は生まれた時は空白の状態で、学習を通じ知識を増やし、判断するルールを獲得する。これと同様に、生成されたばかりのAIは空白であるが、自律学習を通じ知識やルールを学ぶアルゴリズムが最終ゴールとなる。AlphaGo Zeroは囲碁の領域でこれを達成し究極の目標に一歩近づいた。

DeepMindのマイルストーン

DeepMindは一貫してこの目標に向かってAI開発を進めている。2013年12月、AIがビデオゲームを見るだけでルールを学習し、人間を遥かに上回る技量でプレーするアルゴリズム (DQNと呼ばれる) を公開し世界を驚かせた。2015年10月、高度に複雑な技量を必要する囲碁で、AlphaGoが欧州チャンピオンFan Huiを破った。2016年3月、改良されたAlphaGoが世界最強の棋士Lee Sedolを破り再び世界に衝撃を与えた。

AIが自律的に学習

今回発表されたAlphaGo Zeroは上記のAlphaGoから機能が格段に進化した。AlphaGo Zeroは自分自身との対戦を通じ技量を習得していく。最初は初心者の状態でランダムにプレーするが、対戦を重ね技量を上げていく。この過程で人間がアルゴリズムを教育する必要はない。プロ棋士の棋譜などを入力する必要はなくAIが独自で学習する。AlphaGo ZeroはReinforcement Learning (強化学習、下の写真はその構造を示す) という技法を搭載しており、アルゴリズムが人間のように試行錯誤しながら囲碁を学んでいく。

出典: Stanford University

単一のネットワーク

アーキテクチャの観点からは、AlphaGo Zeroは単一のネットワークで構成され構造がシンプルになった。従来のAlphaGoは二つのネットワーク (policy network (次の一手を決定) とvalue network (局面を評価))で構成されていた。AlphaGo Zeroではこれらを一つにまとめ、単一ネットワークが次の手を探しその局面を評価する。また、AlphaGo Zeroは次の手を探すためにTree Searchという方式を使っている。

短期間で腕を上げた

AlphaGo Zeroはセルフプレイを通じてReinforcement Learningアルゴリズムを教育した。アルゴリズムは振動したり過去の対戦成果を忘れることなく順調に技量を増していった。下のグラフは教育に要した日数 (横軸) と技量 (縦軸) を示している。3日でAlphaGo Lee (Lee Sedolに勝ったバージョン) の性能を上回った。一方、AlphaGo Leeの教育には数か月を要した。21日でAlphaGo Master (世界チャンピオンKe Jieに勝ったバージョン) の性能を上回った。40日経過したところでAlphaGo Zeroは全てのバージョンの性能を凌駕した。

出典: DeepMind

人間の教育は不完全

AlphaGo Zeroは40日の教育で2900万回対戦し世界最高の性能に到達した。下のグラフはAlphaGoのそれぞれのバージョンの性能を示している。興味深いのはAlphaGo Masterとの性能比である。AlphaGo MasterはAlphaGo Zeroと同じネットワーク構成であるが、Masterは人間が教育したアルゴリズムである。このグラフは人間が教育すると技量が伸びないことを示している。つまり、人間が教育するよりAIが独自で学習するほうが技量が伸びることが証明された。人間の教育は不完全であることの立証ともなり、AIが自律学習することの必要性を示した結果となった。

出典: DeepMind

プロセッサ構成

AlphaGo Zeroはアーキテクチャがシンプルになり計算量が大幅に減少した。AlphaGo Zeroは4台のTPU (tensor processing units) を使いシングルコピーで稼働する。これに対し、AlphaGo Leeは48台のTPUを使い複数コピーを稼働させていた。AlphaGo Zeroは機能が向上したことに加え、効率的に稼働するシステムとなった。TPUとはGoogleが開発した機械学習に特化したプロセッサで、ASIC (専用回路を持つ半導体チップ) でTensorFlow向けに最適化されている。

定石を次ぎ次に発見

AlphaGo Zeroは教育の過程で囲碁の「定石」を次々に発見した。定石とは最善とされる決まった打ち方で、人間が数千年かけて生み出してきた。AlphaGo Zeroはこれら定石を72時間の教育で発見た。更に、AlphaGo Zeroは人間がまだ生み出していない「定石」を発見した。新しい定石は人間の試合では使われていないが、AlphaGo Zeroはこの定石を対戦の中で頻繁に利用し技量を上げた。

Reinforcement Learningの改良

AlphaGo ZeroはReinforcement Learningアルゴリズムが大きな成果をもたらすことを実証した。DeepMindが開発したReinforcement Learningは人間をはるかに上回る技能を獲得し、更に、人間が教育する必要はないことを証明した。人類は数千年かけて囲碁の知識を獲得したが、Reinforcement Learningは数日でこれを習得し、更に、人間が到達していない新たな知識をも獲得した。

汎用AIの開発が始まる

AlphaGo Zeroの最大の功績は自律的に学習する能力を獲得したことにあり、汎用的なAI (General AI) へ道が大きく開けた。汎用的なAIとは狭義のAI (Narrow AI) に対比して使われ、AIが特定タスクだけでなく広範にタスクを実行できる能力を指す。AlphaGo ZeroのケースではAIが囲碁をプレーするだけでなく、科学研究のタスクを実行することが次のステップとなる。ルールが明確でゴールが設定されている分野でAlphaGo Zeroの技法を展開する研究が始まった。

新薬開発などに応用

短期的には、DeepMindはAlphaGo Zeroを新薬開発に不可欠な技術であるProtein Foldingに応用する。Protein Foldingとはタンパク質が特定の立体形状に折りたたまれる現象を指す。ポリペプチド (polypeptide) がコイル状の形態から重なり合って三次元の形状を構成するプロセスで、このメカニズムを解明することが新薬開発につながる。しかしProtein Foldingに関するデータは限られており機械学習の手法では解決できない。このためReinforcement Learningの手法ででこれを解明することに期待が寄せられている。

自らルールを学ぶAIが次の目標

長期的には量子化学 (Quantum Chemistry)、新素材の開発、ロボティックスへの応用が期待される。Reinforcement Learningを実社会に適用するためにはアルゴリズムが自らルールを学習する技能が必要になる。DQNがテレビゲームを見るだけでルールを学んだように、AlphaGo Zeroが自らルールを学ぶ能力が求められる。DeepMindはこの目標に向かって開発を進めていることを明らかにしている。AlphaGo Zeroの次はもっとインテリジェントなAIが登場することになる。

GoogleのAIスマホ「Pixel 2」は世界最高水準のカメラ、Deep Learningが鮮やかな画像を生成する

Friday, October 6th, 2017

Googleは2017年10月4日、第二世代のAIスマホ「Pixel 2」(下の写真、左側) と「Pixel 2 XL」(下の写真、右側) を発表した。Pixel 2はカメラ性能が大きく進化し、ベンチマークで世界最高位をマークした。高い評価を受けた理由はDeep Learning技法の強化で、AIが高品質の画像を生成する。

出典: Google

AIで構成されるスマートフォン

Pixel 2は音声アシスタント「Google Assistant」、ビジュアル検索機能「Google Lens」、及びイメージ生成技法「Computing Photography」とAI機能をフルに実装している。Pixel 2はイメージ生成機能が格段に強化され、世界最高のスマホカメラと評価されている。カメラの世界標準ベンチマーク「DxOMark」でPixel 2は98ポイントと評価されトップとなった。前モデルのPixelは89ポイントで、Pixel 2のカメラ性能が大きく向上したことが分かる。

人物写真専用モード「Portrait Mode」

Pixel 2は人物を撮影するための機能「Portrait Mode」を導入した。これは人物をシャープに、また、背景をぼかして撮影する機能である (下の写真)。一眼レフカメラでは望遠レンズの絞りを開き被写界深度を浅くして撮影する。Apple iPhone 8では搭載されている二つのカメラで被写体と背景を3Dで捉えてこれを表現する。これに対しPixel 2は一つのカメラでPortrait Modeの撮影ができる。撮影されたイメージをMachine Learningの手法で解析しPortrait Modeに変換する。

出典: Google

特殊なセンサーを搭載

Pixel 2はメインカメラ (12.2MP, f/1.8) に「Dual-Pixel Sensor」という特殊なイメージセンサーを搭載している。撮影した写真はこのセンサーで二つに分解される。右と左の二つのカメラで撮影したように、二枚のイメージとして把握する。つまり、左右二台のカメラで撮影したように、イメージを3Dで捉えることができる。

Machine Learningの手法で画像を生成

次に、このイメージをDeep Learningの手法で解析し被写体と背景を明確に区分けする。アルゴリズムは百万枚の写真を使い教育され様々なシーンに対応できる。アルゴリズムは前面と背景を区別できるようになり、カメラは人物のパーツ部分をシャープにフォーカスし、それ以外の部分はボケ(Bokeh)の効果を与える。人物だけでなくモノに対してもPortrait Modeで撮影できる。このモードを使うとプロカメラマンのように被写体が背景に浮き上がる写真を取ることができる。

自撮りでも使える

Portrait Modeはフロントカメラ (8MP, f/2.4) でも使うことができる。フロントカメラはDual-Pixel Sensorを搭載していないがDeep Learningの手法でPortrait Modeを生成する。アルゴリズムは画像の中で顔を認識し、顔に繋がっている身体パーツや髪などを把握する。つまり、アルゴリズムが人物の形状を認識しそこにフォーカスを当てる。このため、自撮り (Selfie) でPortrait Modeを使うことができる (下の写真、左側)。もし画面に顔が映っていなければPortrait Modeはオフとなる。

出典: Google

イメージを生成する機能「HDR+」

Pixel 2は暗い環境でも細部にわたり精密に表現できる (下の写真)。また、光のコントラストが厳しい状況でもバランスよくイメージを生成する。これは「HDR+」というイメージ合成手法により実現される。そもそも、HDR (High Dynamic Range) イメージングという手法は異なる露出の複数枚の写真を組み合わせて一枚の写真を生成する技術を指し、多くのスマホで幅広く使われている。これに対しHDR+は同じ露出の写真を多数枚組み合わせて一枚の写真を生成する手法である。

出典: Google

Computation Photography

Pixel 2はカメラアプリを開いた時から撮影を始め、シャッターが押されたポイントを撮りたいシーンと理解する。HDR+は数多くの写真を重ねるが、同じ露出で撮影するので暗い部分はノイズが乗る。しかし、暗い部分の写真を数多く重ね合わせることで数学的にノイズを減らす。この手法により、光の条件が厳しいところでも綺麗な写真が撮れ、また、Portrait Modeでは肌が滑らかに仕上がる。HRD+はアルゴリズムがイメージを生成する方式で「Computation Photography」とも呼ばれる。カメラはAIを含むソフトウエアが機能や性能を決定する。

高度な手ぶれ補正機構

Pixel 2のメインカメラはビデオや写真撮影向けに高度な手ぶれ補正機構を搭載している。これは「EIS (electrical image stabilization) 」と「OIS (optical image stabilization)」とMachine Learningで構成される。EISはハードウェア機能でセンサーが画像のブレを補正する。OISはソフトウェア機能でフレームごとのブレをアルゴリズムが補正する。Pixel 2はOISをジャイロと連携し手の物理的な振動を検知する。これらの情報をMachine Learningで解析し安定したイメージを生成する。具体的にはMachine Learningは撮影した各フレームから主要な動き(例えばオートバイの動き)を検知し、これに沿って撮影したフレームからブレを補正する。

ビジュアル検索機能「Google Lens」

Pixel 2はビジュアル検索機能「Google Lens」を搭載した。Google Lensとはカメラが捉えたオブジェクトに関する情報を画面に表示する機能である。Google LensはMachine Vision (画像認識機能) とMachine LearningとKnowledge Graph (知識データベース) で構成される。名所旧跡や本や音楽アルバムや映画などの情報を表示することができる。例えば、建物をGoogle Lensで見るとこれは1236年に建立された東福寺であることが分かる (一つ上の写真、右側)。

AIカメラ「Google Clips」

Googleは小型軽量のカメラ「Google Clips」 (下の写真) を発表した。これはハンズフリーカメラでClipsが自動でビデオを撮影する。Clipsをテーブルの上に立てて置いたり、椅子に挟んで使う。Clipsは興味あるシーンを認識し自動でシャッターを切る。また、専用アプリで利用者がシャッターボタンを押して撮影することもできる。

出典: Google

人物を識別する

Clipsはインテリジェントな機能を持ちAIが人物を識別する。このためClipsは親しい人物を中心に撮影する。また、Clipsは撮影のタイミングも自律的に判断する。被写体の動きが止まったタイミングを見て撮影を始める。また、被写体の一部が隠れているようなときは撮影しない。このため事前にClipsに家族関係者などを教えておく。また、Clipsを使うにつれ搭載されているMachine Learningは親しくしている人物を学びその人を中心に撮影するようになる。Clipsは屋内で家族やペットなどを撮影することを想定してデザインされている。

専用AIプロセッサを搭載

Clipsは専用AIプロセッサを内蔵している。このプロセッサはMovidius社の「Myriad 2」で、Computer Vision機能を司る。ここで人物の顔を認識しAI機能はデバイス上で実行される。この方式は「On-Device AI」と呼ばれる。クラウドと接続する必要はなく、顔情報をデバイスに格納し個人のプライバシーを守ることができる。

カメラとAIは相性がいい

Googleはハードウェア製品にAIをフルに実装し機能強化を推し進めている。Pixel 2ではAIがプロの写真家の役割を担い高品質なイメージを生成する。Clipsではもはや写真を撮影する行為は必要が無くAIが最適なシーンを撮影する。カメラはコンピュータとなり機能や特性はDeep Learningが決定する。カメラとAIは相性が良く技術革新が急速に進むことになる。

GoogleはAIスピーカー「Home」を大幅強化、高度なDeep Learningが製品の価値を決める

Wednesday, October 4th, 2017

Googleは2017年10月4日、ハードウェア新製品を一挙に発表した (下の写真)。製品はハードウェアがソフトウェアとAIに融合した形式となっている。AIが製品を差別化する決定的な要因になっていることが分かる。

出典: Google

新製品ラインアップ

発表された製品は次の通り。「Pixel 2」はスマホ最新モデルでAIを使ったイメージング技術でカメラの性能が格段に向上。AIスピーカーGoogle Homeの小型モデル「Mini」と最上位モデル「Max」が登場。「Google Clips」はAIカメラでアルゴリズムが最適なシーンを識別し自動で撮影する。「Google Pixel Buds」はBluetoothヘッドセットで音楽を再生し異なる言語を翻訳する。この他に「Pixelbook」と「Daydream View」の新製品が登場した。

ドーナツ型の「Mini」

発表の主要テーマはAIで全ての製品がAIで強化された。その中でもGoogle HomeのAI機能が大きく進化した。Google Home製品ラインが拡充され「Mini」と「Max」が登場した。これらは「Home」と同様にAIアシスタント「Google Assistant」が搭載され、ヒトの言葉を理解し音声で操作する。Miniはドーナツサイズの形状で (下の写真)、上部にはLEDライトが搭載されデバイスの状況が表示される。各部屋に一台備えることを前提としたデザインで、家庭空間がAIで埋め尽くされる。

出典: Google

音質を重視した「Max」

Maxは音質を重視したモデルでハードウェアとAIでこれを達成する (下の写真)。Maxは4.5インチのウーファーを2基搭載しディープなサウンドを生成する。「Smart Sound」機能を搭載し、AIが置かれた環境やコンテクストに合わせ音楽を再生する。AIが部屋の形状を把握しそれに最適なサウンドを再生する。また、朝はボリュームを控えて再生するが、食器洗い機が回っている時はボリュームを上げる。

出典: Google

Google Assistantがベース

HomeにはAIアシスタント「Google Assistant」が組み込まれ製品の中核機能となる。Google Assistantはこの他に、スマートフォン (AndroidとiOS)、スマートウォッチ (Android Ware) 及びテレビ (Android TV)にも対応し、製品インターフェイスは急速に音声に向かっている。Google Assistantはエコシステムを広げ、スマートホーム関連ではNest、Philips Hue、SmartThingsなど1000製品とリンクしている。

Google Assistant新機能

Google Assistantは質問に応え、音楽を再生し、家電を制御するハブとなる。また、六人の声を聞き分け (Voice Matchという機能)、利用者に沿った対応ができる。発表イベントではGoogle Assistantの新機能が紹介された。「Everyday Routines」は一言で複数のコマンドを実行する機能。例えば、「Good Morning」というと、Homeは一日のスケジュールを確認し、道路渋滞情報を知らせ、主要ニュースを読み上げる。「Let’s Play a Game」と指示すると子供向けのゲームが始まる。Homeは子供に人気のデバイスで、子供たちが安全に使える機能が登場した。

スマートホーム連携が強化された

Google HomeはAlphabet配下のスマートホーム企業Nestとの連携を強化した。Nestのセキュリティカメラ「Nest Cam」をGoogle Homeから操作できるようになった。例えば、玄関で物音がしたときに「Show me the entryway on my TV」と語ると玄関の様子がテレビに映し出される (下の写真)。

出典: Google

ドアベル「Nest Hello」をGoogle Homeから操作できる。Nest Helloは顔認識機能を備え来訪者を識別できる (Familiar Facesという機能)。来訪者がドアベルを押すとHelloはその人物を認識し、Google Homeは「Anti Susie is at the front door」と訪問者の名前を知らせてくれる。Nestと連携することで家屋のセキュリティをGoogle Homeで集中管理できる。

出典: Google

DeepMindの音声合成技術

Google Homeの音声が高度なAIを適用することでとても滑らかになった。DeepMindは昨年、音声合成(Speech Synthesis)に関する新技術を発表した。これは「WaveNet」と呼ばれDeep Neural Networkを使い人間のような自然な発声ができる技法を開発した。一般に音声合成は言葉をごく小さなパーツに分けてこれを繋ぎ合わせる方式 (Concatenative TTS)でスピーチを生成する。このため機械的でぎこちないトーンとなる。

滑らかなスピーチを生成する仕組み

これに対してDeepMindは従来方式と全くことなるアプローチを取る。WaveNetは多くの音声サンプルを学び、音声の波形(Audio Waveform)をゼロから丸ごと生成する。具体的にはネットワーク (Convolutional Neural Network、下の写真) はスピーチの構成を学習し、どの音色(Tone)の後にどの音色が続くか、また、どんな波形(Waveform)が自然であるかを学ぶ。このため、非常に滑らかな音声を合成できるようになった。

出典: Aaron van den Oord et al.

WaveNetをGoogle Homeに適用

しかし、昨年の時点では音声合成を短時間で実行することができなかった。0.02秒のオーディオを生成するために1秒を要した。DeepMindはこのアルゴリズムを改良し、高速で音声合成ができるようにした。1秒のオーディオを50ミリ秒で生成できリアルタイムで使えるようになった。Google Homeで使われている音声は改良されたWaveNetで生成されたものである。WaveNetは英語と日本語を対象としており、日本で発売されるGoogle Homeの音声はWaveNetで生成されたものである。

AIが差別化の要因

このようにGoogle Homeはシステムの背後で最新のAI技法が幅広く使われている。利用者の音声を認識するだけでなく、音声合成でもAI無しでは実現できない。ハードウェア製品の主要機能は各社とも横並びの状態になり、これからはAIが差別化の要因となり製品価値を決定する。

AIがAIを開発し、AIが病気を検知する、Googleは全製品をAIで強化する

Friday, May 19th, 2017

Googleは2017年5月、開発者会議「Google I/O 2017」を開催し (下の写真) AIの最新技術を公表した。GoogleはAI First企業として全社でAI化戦略「Google.ai」を進めていることを明らかにした。CEOであるSundar Pichaiが基調講演で明らかにし、その後研究詳細がリリースされた。

出典: Google

Google.aiは三つの軸から成る

Google.aiはGoogleの社内プロジェクトで、高度なAIを開発しこれを全ての製品の基盤技術とする開発戦略を指す。Google.aiは「基礎研究」、「ツール」、「応用技術」の三つの分野で構成されプロジェクトが進んでいる。基礎研究とは高度なAI技法の開発で、ツールとはAIを実行するプロセッサなどを指し、AIデータセンタとして提供される。応用技術ではAIでGoogleサービスを機能強化した事例が紹介された。

AIがAIを生成する技術

「基礎研究」でGoogleが注目しているテーマは「AutoML」である。これはMachine Learningを自動生成する研究で、アルゴリズムが別のアルゴリズムを生成する技法の開発を進めている。AIがAIを生成する技術を意味する。下の写真がその事例でAIが生成したDeep Learningアルゴリズム (右側) を示している。これはRecurrent構造 (処理結果を次のステップにループさせる構造) のネットワークで時間に依存する言語処理などで使われる。このケースではネットワークに言葉を入力すると次の言葉を予測する。

出典: Google

アルゴリズム生成方式

アルゴリズム開発は研究者の経験と勘が大きく寄与する。確立されている手法をベースに改良が加えられ新しいモデルを生成する。一方、AIは数多くのアルゴリズムを生成し、これらを実際に教育し実行し精度を把握する。これらのフィードバックをもとに、精度の高いアルゴリズムの作り方を学習する。人間は定石を積み重ねるが、AIは時として常識を覆す方式を生成する。因みにこのケースではAIが生成したアルゴリズム (上の写真右側) が人間が開発したアルゴリズム(同左側)の精度を上回った。

AIがAI研究者となる

AutoMLはGoogle Brainが研究しているテーマで、AIが最適なネットワーク構成を自動で設計することを目指す。つまりDeep Learningアルゴリズム設計に携わる研究者をAIが置き換えることを意味する。AI研究者自身もAIの進化で職を失うことになる。しかし、現実はAI研究者の数は決定的に不足しており、これをAutoMLで補う構造となる。GoogleとしてはAIに置き換えられた研究者をクラウド開発に振り向け事業を強化するとしている。

AI専用プロセッサ

二番目の区分「ツール」に関しては「Cloud TPU」が発表された (下の写真)。Cloud TPUは二代目のTPU (Tensor Processing Unit、Machine Learning計算専用プロセッサ) で大規模計算用にスケーラビリティを重視した設計になっている。Cloud TPUの性能は180Tflopsで64GBの高速メモリを搭載する。

出典: Google

AI First Datacenter

Cloud TPUは64個がボードに搭載され「TPU Pods」を構成する。ボードの最大性能は11.5 Petaflopsとスパコン並みの性能となる。TPU Podはラックに搭載され (下の写真)「Google Compute Engine」として提供される。Cloud TPUでAI処理専用のデータセンタを構築し、Googleはこれを「AI First Datacenter」と呼んでいる。同時に、Googleは「TensorFlow Research Cloud」を発表した。これは研究者向けのクラウドでCloud TPUを1000個連結し、先進AI技術開発のために無償で提供される。

出典: Google

AIをカメラに応用した「Google Lens」

三番目の区分「応用技術」については、GoogleはAIをカメラに応用した「Google Lens」を発表した。これはカメラのレンズをAIで構成するもので、カメラの機能と性能はソフトウェアが決定する。写真撮影するとカメラがAIを使ってイメージを再構築する。夜間撮影では画像にノイズが乗るがAIがこれを補正する (下の写真上段)。シャッターを押すとカメラが自動で複数回 (例えば32回) 露光し、これを重ねてノイズを取り除く。ネット裏からの写真はAIがメッシュを取り除く (下の写真下段)。

出典: Google

カメラの映像を判定

Google Lensはカメラに映ったオブジェクトを判定する機能がある。花の写真を撮影しGoogle Lens機能をオンにすると花の種類 (Milk and Wine Lily) を特定する (下の写真)。また店舗の写真を撮影するとその名称を認識し関連情報を表示する。カメラがイメージ検索の入力装置となる。Google Goggles(グーグルゴーグル)などで提供された機能であるが、AIを使って機能と精度が強化された。

出典: Google

AIが返信メールを作成

AIはGoogle製品を幅広く支えている。話題の機能が「Smart Reply」でGmailに搭載された。AIが受信したメールの題目と内容を読み最適な返信文を生成する (下の写真)。利用者は提示された三つの返信文から最適なものをクリックするだけで返信できる。Smart Replyが登場して1年以上たつが、今では複雑な内容のメールにも返信文を生成できるようになった。

出典: Google

Street ViewとGoogle Mapsを強化

Street ViewやGoogle MapsでもAIが使われている。Street Viewで撮影したイメージから建物に掲示されている数字をAIが読み番地を特定する。今では数字だけでなく通りの名称をAIが読み場所を把握する。表札が鮮明に写っていなくてもサンプルが四つあれば (下の写真) AIが正確に判定する。この技術をStreet Viewで撮影した800億枚のイメージに適用し位置を把握する。これによりGoogle Mapsの精度が大幅に向上した。利用者から見えないところでAIがサービスを支えている。

出典: Google

AIを医療に適用する

GoogleはAIを医療に適用することを明示した。Googleは既にAIを使ってDiabetic Retinopathy (糖尿病網膜症、下の写真右側、左側は健康な眼底イメージ) を判定するシステムを発表している 。Diabetic Retinopathyとは糖尿病に起因する眼の疾患で失明する可能性が高いとされる。AIが医師より高精度でこの病気を検知することに成功した。AIをメディカルイメージングに活用できることが分かり、GoogleはDeepMindと共に医療分野での研究開発を重点的に進めている。

出典: Google

AIをどう製品に結び付けるのか

Googleはこの他にAIを音声認識に応用している。高度な自然言語処理機能を使いAIスピーカー「Google Home」やAIアシスタント「Google Assistant」を商品化している。Googleは全領域にAIを適用しAI First企業としてその成果をアピールした。ただ、今回の開発者会議では驚くような製品は登場しなかった。世界最高水準のAI技術を持つGoogleであるが、消費者としてはその恩恵を感じにくいのも事実であった。高度なAIをどう製品に結び付けるのかが問われており、これはGoogleだけでなくIT業界が共通に抱えている課題でもある。

Google自動運転技術が格段に進化、高機能Lidarを開発し自動車部品メーカーを脅かす

Tuesday, March 7th, 2017

Alphabetの自動運転車開発会社Waymoは独自でLidar (レーザーセンサー) 技術の開発を進め、機能が大幅に向上したと発表した。また、WaymoはUberの子会社OttoがLidar技術を盗用したとして提訴した。自動運転車開発競争の中心はLidarで、Waymoの特許を参考に最新技術をレビューする。

出典: Waymo

Automobili-Dカンファレンス

Waymo最高経営責任者John Krafcikは2017年1月、デトロイトで開催されたNAIAS Automobili-D カンファレンスで最新の自動運転技術を発表した。この模様はビデオで公開された。WaymoはChrysler Pacifica Hybridベースの自動運転車 (上の写真) を開発しているが、KrafcikはLidarなどのセンサーを中心に最新技術を説明した。

クライスラーと共同開発

WaymoとFiat Chrysler Automobilesは2016年5月、自動運転車を共同開発することで合意し、100台の自動運転ミニバン「Waymo Self-Driving Pacifica」を製造している。ミニバンはWaymoが開発したハードウェア (Hardware Suit) を搭載し、最高レベルの自動運転車として位置づけられる。

Lidarを自社開発する

初期のGoogle自動運転車は他社製センサーやプロセッサを利用していた。LidarはVelodyne社製のハイエンドモデル「HDL-64E」を採用した (下の写真、屋根の上の円筒状装置)。しかし、この製品は機能的な制約があり、価格は75,000ドルと高価で車両価格を上回った。このため、WymoはLidarを含むセンサー群を自社で開発することとした。

GoogleのAIとWaymoのセンサーを統合

センサーは自動運転車の頭脳であるAIと密接に統合された。センサーを構成する各コンポーネントがAIにより制御され、単一のモジュールのように機能する。Googleがスマートフォン「Pixel」でAndroid OSだけでなくデバイスも自社開発しているように、Waymoもソフトウェアだけでなくハードウェアも開発する方針とした。Googleが得意とするAIとWaymoの高精度センサーが結びつき自動運転技術が一気に進化した。

出典: VentureClef

センサーの種類と搭載位置

WaymoのセンサーはLidar、Vision System、Radarから構成される (下の写真)。ミニバンの屋根には小型ドームが搭載され、ここにLidar、Vision System、Radarが格納される。クルマの四隅にはRadarが設置される。別のタイプのLidarは前後と前方左右四か所に搭載される。

出典: Waymo

Lidarがクルマの眼となる

センサー群の中で中心となるのがLidarだ。Lidarはレーザースキャナーでクルマ周囲のオブジェクトを3Dで把握する。つまり、Lidarは歩行者と人の写真を区別できる。更に、Lidarは静止しているオブジェクトを把握し、距離を精密に測定する。クルマは複雑な市街地を走行し、様々なオブジェクトを検知する必要がある。WaymoのLidarはブラインドスポットが無く、クルマ周囲の歩行者全員を検知できる。また、解像度が高く、歩行者がどちらを向いているかも判定できる。これにより歩行者の行動予測精度が大幅に向上した。

出典: Waymo

Short Range Lidar

Waymoは三種類のLidarを搭載している。一つは「Short Range Lidar」でクルマの前後左右四か所に設置され、周囲のオブジェクトを認識する (上の写真、後部バンパーと右側前方の円筒状の装置)。クルマのすぐ近くにいる小さな子供などを把握する。解像度は高く、自転車に乗っている人のハンドシグナルを読み取ることができる。

Long Range Lidar

もう一つは「Long Range Lidar」 (上の写真、屋根の上のドームの内部に搭載) で遠方にあるオブジェクトにズームインすることができる。フットボール二面先のヘルメットを識別できる精度となる。これ以上の説明はないがWaymoが申請した特許 (下の写真、資料の一部) を読むとLong Range Lidarはユニークな構造となっている。

特許資料によるLong Range Lidarの構造

Long Range Lidarは通常のLidarと可変式のLidarの二つのモジュールから構成される。通常のLidarは固定式で設定された範囲をスキャンする。可変式のLidarはFOV (視野、レーザービームがスキャンする角度) を変えることができる。ズームレンズで特定部分をクローズアップするように、可変式Lidarは発光するレーザービームを狭い範囲に絞り込み、遠方の小さなオブジェクトも判定できるようにする。ただ、この特許が実際の製品にどのように実装されているかは、Waymoの説明を待つ必要がある。

出典: Waymo

Vision Systemはカメラの集合体

Waymoは独自のVision Systemを開発した (一つ前の写真、屋根の上のドームに搭載される)。Vision Systemとはダイナミックレンジの広いカメラの集合体で、8つのVision Moduleから構成され、クルマの周囲360度をカバーする。信号機や道路標識を読むために使われる。Vision Moduleは複数の高精度センサーから成り、ロードコーンのような小さなオブジェクトを遠方から検知できる。

暗いところから明るいところまで見える

Vision Systemはダイナミックレンジが広く、暗いところから明るいところまでイメージを認識できる。暗がりの駐車場から直射日光を受けるまぶしい場面まで幅広く使える。通常のカメラは人間と同じように光の状態により見えにくい状態が発生する。Vision Systemはこの問題を解決するために開発され、太陽光が直接カメラに入る状態でもオブジェクトを把握できる。

Radarを大幅に改良

Waymoは20年にわたり技術進化がないRadarを大幅に改良した。通常のRadarは前方の狭い範囲をカバーするが、WaymoのRadarはクルマの周囲360度を連続してカバーする (一つ前の写真、前方側面と屋根後部のウイング状のデバイス)。雨や霧や雪の時に、Radarは他のセンサーを補完する。また、通常のRadarは車両の動きを把握するために使われるが、WaymoのRadarは車両以外に歩行者や自転車も検知する。移動速度が遅いオブジェクトについても高精度で検知できる。

走行距離とVirtual Miles

Waymoの自動運転車は累積で250万マイル走行した。市街地を中心に走行試験を重ねており、今年5月には300万マイルに達する。路上試験に加えWaymoはシミュレータで走行試験を重ね、2016年だけで10億マイルを走行した。シミュレータでは様々な走行状態を再現できる。ここでクルマにとって難しい状態や稀にしか発生しない事態をシミュレータで生成する。シミュレータでの走行がソフトウェアの改良に寄与している。

安全性が格段に向上

自動運転車の性能はどれだけの距離をドライバーの関与なしに自動走行できたかで決まる。試験走行中にドライバーが自動モードを解除することをDisengageと呼ぶ。Disengageの回数が少ないほど安全性が高いという関係になり、1000マイル走行して何回Disengageが発生したかという指標で評価される。2015年は0.80回で2016年は0.20回と大幅に改善しており、安全性が順調に改善されているのが分かる。ただ、2016年の数字は5000マイルごとに問題が発生しているとも解釈でき、製品として出荷するには更なる改良が求められる。

Lidarの価格が劇的に下がる

WaymoはLidarのコストを大幅に下げることに成功したと発表した。前述Velodyne社製のLidarより90%安い価格で提供する。Velodyne製Lidarの価格が75,000ドルであるが、Waymo製Lidarの価格は7,500ドルと大幅に安くなる。これにより自動運転車開発でセンサーの選択肢が大きく変わる。Lidar価格が高いためカメラを代用している企業も少なくない。Lidarの価格破壊で自動運転技術方式が大きく変わる可能性もある。

WaymoがUberを提訴

Waymoは2017年2月、Ottoとその親会社であるUberに対して訴訟を起こした。Waymoは同社が開発したLidar技術をOttoが不正に入手したとしている。Uberは昨年、誕生して間もないOttoを6億8千万ドルで買収し、創設者であるAnthony Levandowskiを自動運転開発部門責任者に任命した。UberがOttoを買収した理由はLidar技術にあるといわれていた。LevandowskiはGoogle自動運転車開発のコアメンバーであった。Uberはこれに対しWaymoの訴訟は開発を遅らせるための手段であると述べ、全面的に対決する姿勢を見せている。自動運転車でカギを握る技術はLidarであり、訴訟の進展が市場形勢に大きな影響を及ぼす。