Archive for the ‘google’ Category

Googleは画像認識を誤作動させるステッカーを発表、AIを悪用した攻撃への備えが求められる

Friday, January 12th, 2018

社会の安全を担保するためにAIが活躍している。市街地や空港の監視カメラの映像をAIが解析しテロリストや犯罪者を特定する。一方、今年はAIを悪用した攻撃が広まると予想される。守る側だけでなく攻める側もAIを使い、社会生活が脅かされるリスクが高まると懸念される。

出典: Google

Googleの研究成果

Googleの研究グループはAIを誤作動させるステッカー(上の写真) を論文の中で公開した。このステッカーは「Adversarial Patch (攻撃ステッカー)」と呼ばれ、これを貼っておくと画像認識アルゴリズムが正しく機能しなくなる。ステッカーは円形で抽象画のようなデザインが施されている。これをバナナの隣に置くと、画像認識アプリはバナナをトースターと誤認識する。ステッカーを街中に貼っておくと、自動運転車が正しく走行できなくなる。

ステッカーを使ってみると

実際にステッカーを使ってみると画像認識アプリが誤作動を起こした。先頭のステッカーを印刷して、円形に切りぬき、バナナの隣に置いて画像認識アプリを起動した。そうすると画像認識アプリはバナナを「トースター」と誤認識した (下の写真、右側)。アプリにはこの他に「ライター」や「薬瓶」などの候補を示すが、バナナの名前はどこにも出てこない。バナナだけを撮影すると、画像認識アプリは「バナナ」と正しく認識する (下の写真、左側)。ステッカーは抽象画のようで、人間の眼では特定のオブジェクトが描かれているとは認識できない。

出典: VentureClef

画像認識アプリ

画像認識アプリとしてiPhone向けの「Demitasse – Image Recognition Cam」を利用した。これはDenso IT Laboratoryが開発したもので、画像認識アルゴリズムとして「VGG」を採用している。このケースではその中の「VGG-CNN」で試験した。VGGとはオックスフォード大学のVisual Geometry Groupが開発したソフトウェアで、写真に写っているオブジェクトを把握し、それが何かを判定する機能がある。VGG-CNNの他に、ネットワーク階層が深い「VGG-16」などがあり、画像認識標準アルゴリズムとして使われている。

ステッカーの危険性

画像認識機能を構成するニューラルネットワークは簡単に騙されることが問題となっている。多くの論文で画像認識アルゴリズムを騙す手法やネットワークの脆弱性が議論されている。Googleが公開した論文もその一つであるが、今までと大きく異なるのは、この手法を悪用すると社会生活に被害が及ぶ可能性があることだ。先頭のステッカーを印刷して貼るだけでAIが誤作動する。

自動運転車の運行に影響

その一つが自動運転車の運行を妨害する危険性である。自動運転車はカメラで捉えたイメージを画像認識アルゴリズムが解析し、車両周囲のオブジェクトを把握する。もし、道路標識にこのステッカーが貼られると、自動運転車はこれをトースターと誤認識する可能性がある。つまり、自動運転車は道路標識を認識できなくなる。Tesla Autopilotは道路標識を読み取り制限速度を把握する。このステッカーが貼られるとAutopilotの機能に支障が出る。当然であるが、道路標識にステッカーを貼ることは犯罪行為で処罰の対象となる。

Street Viewで番地が読めなくなる

自宅にこのステッカーを貼っておくとGoogle Street Viewによる道路地図作成で問題が発生する。Street Viewは位置情報をピンポイントに把握するため、建物に印字されている通りの番号をカメラで撮影し、画像解析を通し番地を把握する。番地プレートの隣にステッカーを貼っておくと、画像解析アルゴリズムはこれをトースターと誤認識する。ステッカーをお守り代わりに使い、自宅に貼っておくことでプライバシーを守ることができる。

ステッカーの作り方

Google研究チームは論文でステッカー「Adversarial Patch」の作り方を公開している。ステッカーは複数の画像認識アルゴリズムを誤作動させるようにデザインされる。ステッカーの効力は、デザインだけでなく、オブジェクトの中での位置、ステッカーの向き、ステッカーの大きさなどに依存する。(ステッカーの向きを変えると認識率が変わる。先頭の写真の方向が最大の効果を生む。ステッカーのサイズを大きくすると効果が増す。最小の大きさで最大の効果を生むポイントがカギとなる。オブジェクト全体の10%位の大きさで90%の効果を発揮する。)

ステッカーを生成するアルゴリズム

ステッカーは特別なアルゴリズム (Expectation Over Transformationと呼ばれる) で生成される。上述の条件を勘案して、ステッカーの効果が最大になるよう、ステッカー生成アルゴリズムを教育する。効果を検証するために代表的な画像認識アルゴリズム (Inceptionv3, Resnet50, Xception, VGG16, VGG19) が使われた。先頭のステッカーは「Whitebox – Ensemble」という方式で生成され、これら五つの画像認識アルゴリズムを誤作動させる構造となっている。この事例では「トースター」を対照としたが、任意のオブジェクトでステッカーを作成できる。

出典: Google

画像認識アルゴリズムの改良が求められる

社会でAIを悪用した攻撃が始まるが、これを防御するには画像認識アルゴリズムの精度を改良することに尽きる。既に、画像認識クラウドサービスは高度なアルゴリズムを取り入れ、先頭のステッカーで騙されることはない。事実、Googleの画像認識クラウド「Cloud Vision」でステッカーを貼った写真を入力しても誤認識することはない (上の写真)。犬の写真に先頭のステッカーを貼っているが、アルゴリズムは「犬」と正しく判定する。回答候補にトースターの名前は出てこない。

エッジ側での処理

自動運転車だけでなく、ドローンやロボットも生活の中に入り、ステッカーを使った攻撃の対象となる。更に、農場ではトラクターが自動走行し、工事現場ではブルドーザーが無人で作業をする。これらは、画像認識アルゴリズムはクラウドではなく、車両やデバイス側で稼働している。これらエッジ側には大規模な計算環境を搭載できないため、限られたコンピュータ資源で稼働する画像認識アルゴリズムが必要となる。リアルタイムで高精度な判定ができる画像認識アルゴリズムと、これを支える高度なAI専用プロセッサの開発が必要となる。

AIを使った攻撃と防御

GoogleがAdversarial Patchに関する論文を公開した理由はAIを使った攻撃の危険性を警告する意味もある。AIを悪用した攻撃が現実の問題となり、我々はその危険性を把握し、対策を講じることが求められる。具体的には、画像認識アルゴリズムの精度を改良していくことが喫緊の課題となる。ただ、Adversarial Patchの技術も向上するので、それに応じた改良が求められる。スパムとスパムフィルターの戦いで経験しているように、いたちごっこでレースが続くことになる。これからは守る側だけでなく攻める側もAIを使うので、セキュリティ対策に高度な技能が求められる。

グーグルスマホ「Pixel 2」でAIチップが稼働、ARでスターウォーズをリアルに生成でき現実と仮想の境界が消滅

Tuesday, January 2nd, 2018

映画「スターウォーズ」がGoogleスマホ「Pixel 2」にやってきた。極めて精巧なキャラクターをビデオの中に取り込むことができる (下の写真)。街の中を銀河帝国軍の機動歩兵が歩き、上空をXウイング戦闘機が飛び交うビデオを撮影できる。今までのARとは比べ物にならない精度で、リアルなキャラクターがスマホで生成される。これを可能にしたのがスマホ向けAIプロセッサで、大規模な計算を瞬時にこなす。このプロセッサはAIエンジンとしても使われ、スマホはAIマシンであることが鮮明になった。

出典: Google

拡張現実アプリ

Googleは2017年12月、拡張現実アプリ「AR Stickers」を投入した。このアプリを使うと、ビデオや写真にオブジェクトやテキストをAR (Augmented Reality、拡張現実) として組み込むことができる。多くのスマホでARアプリを使えるが、AR Stickersの特長は高精度でARを実装していることだ。もはや現実と仮想の区別ができない。

銀河帝国軍の機動歩兵が動き出す

AR Stickersは様々なセットを提供しているが、一番人気は映画スターウォーズ最新作「Star Wars: The Last Jedi」のキャラクターである。このセットを選ぶと、映画に登場するキャラクターをビデオの中に取り込める。例えば、銀河帝国軍の機動歩兵「Stormtrooper」を選ぶと、ビデオの中に配置できる。撮影を始めるとビデオの中でStormtrooperが動き喋り出す(下の写真)。一人だけでなく複数のStormtrooperを配置でき、それぞれが独自に動く。これらの機動歩兵は極めてリアルに描写され、動きは滑らかで、現実のキャラクターと見分けがつかない。

出典: VentureClef

反乱同盟軍の戦闘機

反乱同盟軍の戦闘機「X-wing Fighter」を選ぶと、可変翼をX状に広げ空中をホバリングする。戦闘機は背景の明るさに調和し、地上にはその影を落とす。戦闘機を前から撮影するだけでなく、周囲をぐるっと一周して360度のアングルから撮影できる。戦闘機は背景に溶け込み、仮想イメージであるとは思えない。

出典: VentureClef

可愛いロボットBB-8

異なるキャラクターを組み合わせて使うこともできる。雪だるまのようなかわいいロボット「BB-8」を選ぶと、画面の中をころころと動き回る。ここにStormtrooperを加えると、二つのキャラクターがそれぞれ独自の動きをする。時に、二つのキャラクターが鉢合わせして、コミュニケーションが始まる (下の写真)。StormtrooperがBB-8に「向こうに行け」と指示しているようにも見える。

出典: VentureClef

宇宙戦闘機は極めてリアル

「TIE Fighter」を選ぶと、二つのイオンエンジン (Twin Ion Engines) で飛行する宇宙戦闘機が登場する。宇宙戦闘機はイオンエンジン特有の音を出して飛行し、時々レーザーキャノンで攻撃する。TIE Fighterに近寄ってアップで撮影すると、細部まで克明に描写されていることが分かる。機体についた傷や角の摩耗などが極めてリアルに描かれている (下の写真)。モックアップで撮影したとしか思えず、これが仮想のオブジェクトであるとは驚きだ。

出典: VentureClef

開発環境「ARCore」

これらはARアプリ開発プラットフォーム「ARCore」で開発された。GoogleはARCoreを公開しており、パートナー企業もこの環境でARアプリを作ることができる。ARCoreがサポートしているデバイスはGoogle Pixel、Google Pixel 2、及びSamsung Galaxy S8である。AR基礎技術はGoogleの特別プロジェクト「Tango」で開発された。今般、ARCoreが公開されたことで、Tangoはここに集約されることになる。

ARの仕組み

ARとは仮想コンテンツ (スターウォーズのキャラクターなど) を現実社会 (ビデオや写真) に組み込む技術を指し、ARCoreは三つのモジュールから構成される。「Motion Tracking」はARコンテンツの現実社会における位置を把握し、スマホでコンテンツをトラックする技術 (キャラクターの位置決め技術)。「Environmental Understanding」は現実社会でフラットな箇所を検知し、その場所と大きさを把握する技術 (平らな場所を検知する技術)。「Light Estimate」は現実社会における光の状態を把握する技術 (明るさを把握する技術)。

Motion Tracking

カメラが動くにつれ、ARCoreはConcurrent Odometry and Mapping (COM) というプロセスを実行し、カメラの位置関係を把握する。イメージの中の特徴的なポイント (Feature Point、下の写真で○印の個所) を把握し、それらがどのように変化するかをトラックし、空間の中でカメラの位置を把握する。ARCoreはこの動きとスマホの加速度計のデータを組み合わせ、カメラの位置とカメラの向き 「Pose」を把握する。GPSなどの位置情報が無くてもARCoreはピンポイントで位置を把握できる。

出典: Google

Environmental Understanding

ARCoreは現実社会の中で平らな場所を検知する (下の写真でドットで示されたマトリックスの部分)。平らな場所とはFeature Pointが共通した水平面を持っているところで、これを「Planes」と呼ぶ。テーブルや床などの平らな部分がPlanesとなる。また、ARCoreはPlanesの境界を把握する。これらの情報がアプリに渡され、キャラクターが立つことのできる場所とその範囲を把握する。

出典: Google

Light Estimate

ARCoreは現実社会の光の状態を把握する。具体的には、カメラで捉えたオブジェクトの平均的な光の強さを把握する。この情報をアプリに渡し、生成するオブジェクトをこれと同じ明るさにする (下の写真、明るい場所の猫は明るく描かれる)。これにより、生成したオブジェクトがリアルさを増し、背景のイメージに溶け込めるようになる。

出典: Google

Anchors and Trackables

現実社会が理解できると、ARCoreはオブジェクトを生成しその中に置くこととなる。オブジェクトは現実社会に馴染み、自然な形で配置される。ARCoreは周囲の状況を把握しており、利用者はPosesを変えることができる。つまり、カメラを動かしオブジェクトの周囲を周回し、異なる方向から撮影できる。X-wingを周回し背後からも撮影できる (下の写真)。オブジェクトの周りを移動してもX-wingはホバリングを続け、アンカーで固定されているようにその場所に留まる。

出典: VentureClef

AI専用プロセッサ

高度なAR処理をPixel 2で実行できるのはAI専用プロセッサによる。Pixel 2は画像処理と機械学習のための専用プロセッサ「Pixel Visual Core」を搭載している。ARCoreはPixel Visual Coreで処理され、毎秒60フレームを生成し高精度な画像を創り出す。その結果、細部まで詳細に描かれたキャラクターが、画像処理の遅延時間はなくビデオの中を滑らかに動き、本物と見分けがつかなくなる。

ARアプリに先立ち、Pixel Visual Coreは写真撮影やAIで使われている。Pixel 2のカメラアプリは「HDR+」という機能を持ち、ダイナミックレンジの広い写真を撮影する。画像処理では大量の演算が発生するが、これらをPixel Visual Coreで高速実行する。

(下の写真、教会の中で薄暗い祭壇をHDR+で撮影すると、照明が当たっているように鮮明に描き出される。今まではHDR+処理に時間がかかり多くの電力を消費したが、Pixel Visual Coreでこの処理を瞬時に実行する。)

出典: VentureClef

画像処理と機械学習実行

Pixel Visual CoreはGoogleが設計したプロセッサでPixel 2のアクセラレータとして位置づけられる。Pixel 2のメインプロセッサはSnapdragon 835で、画像処理と機械学習実行がPixel Visual Coreにオフロードされる。開発環境としては、画像処理で「Halide」が、機械学習では「TensorFlow Lite」をサポートする。Pixel Visual CoreはAndroid 8.1 Oreoから使うことができる。つまり、Pixel 2にはPixel Visual Coreが搭載されているが、Android 8.1が公開された今月からこのプロセッサを使えるようになった。これに併せて、AR Stickersでスターウォーズのセットが提供された。

Neural Networks API

GoogleはAndroid 8.1で機械学習向けAPI「Neural Networks API」を公開した。エンジニアはこのAPIを使い機械学習機能をアプリに組み込むことができる (下のダイアグラム、Androidスマホやデバイス向けAI開発環境)。Neural Networks APIはPixel Visual Coreの他にGPUなどのプロセッサにも対応している。TensorFlow Liteは軽量のAI開発環境で、教育済みのAIアプリをスマホで実行 (Inference処理) するために使われる。パートナー企業もAndroid向けにAIアプリ開発ができ、スマホ上でリアルタイムに稼働するAIの登場が期待される。

出典: Google

少し危険な香りのするアプリ

GoogleはスターウォーズをモチーフにしたAR Stickersをテレビ放送でPRしており、全米で話題となっている。AR Stickersのインパクトは大きく、これ程リアルな仮想オブジェクトをスマホで生成できるとは驚きである。今まではプロの世界に限られていた特撮をPixel 2でできるようになった。ワクワクするアプリであるとともに、現実と虚構の世界の垣根がなくなり、少し危険な香りのするアプリでもある。

無人タクシーに乗るためのマニュアル、Waymoは乗客を乗せて自動運転車の実証実験を開始 (2/2)

Thursday, November 30th, 2017

【無人タクシー事業とは】

販売ではなく共有モデル

WaymoはPhoenix (アリゾナ州) とその近郊で、無人タクシー (下の写真) の実証実験を始めた。無人タクシーは「Driverless Service」と呼ばれ、ドライバーが搭乗しないで輸送業務を遂行する。Waymoは今後、エリアを拡大し、無人タクシーサービスを展開する。無人タクシーが当面のビジネス形態であるが、この他に、貨物輸送、公共交通サービス、個人向け専用車両 (無人ハイヤー) などの事業を計画している。

出典: Waymo

Shared Mobility

このようにWaymoは、個人がクルマを所有するのではなく、共有するモデル「Shared Mobility」を事業の中核に据える。Waymoは、個人に自動運転車を販売するのではなく、ライドサービスを提供する。

一方、TeslaやVolvoは、個人に自動運転車を販売するモデルを計画している。GM、BMW、VWなどは、個人に自動運転車を販売し、同時に、ライドサービスを提供するハイブリッドな事業形態を計画している。

ライドシェア技術

Waymoは2017年5月、ライドシェア企業Lyftと提携することを明らかにした。両社は共同で、無人タクシーの運行試験や技術開発を進める。ライドシェア市場ではUberが大きくリードしているが、両社は自動運転技術開発で厳しく対立している。Waymoは機密情報を盗用したとして、Uberを訴訟している。このような経緯があり、WaymoはLyftに急接近した。

車両メンテナンス

Waymoは2017年11月、車両メンテナンスに関しAutoNationと提携することを発表した。AutoNationとは全米最大の自動車販売会社で、16の州に361の店舗を持ち、35のメーカーのクルマを販売している。販売だけでなく自動車のメンテナンス事業も展開している。

予防保守が中心となる

自動運転車は無人で走行するため、車両保守が極めて重要な役割を担う。問題が発生したり、警告ランプが点灯してから修理するのではなく、障害が発生する前に部品交換を実施する。自動運転車では予防保守が中心となる。(下の写真はガレージに並んでいるWaymo自動運転車。)

出典: Waymo

自動運転車は高度なセンサーやソフトウェアを搭載しており、それに対応できる保守技術が要求される。自動運転車は高価な器機を原価償却するため、24時間連続で運転するモデルが基本となる。これを支えるためにも自動運転車の保守技術が重要になる。AutoNationは既に、カリフォルニア州とアリゾナ州で、Waymoの保守サービスを実施している。

【自動運転アルゴリズム開発と試験】

Waymoの安全性を検証するには

Waymo無人タクシーを利用する時に気がかりなことは、クルマの安全性である。この疑問に答えるためには、Waymoは自動運転車をどのように開発し、安全性をどう検証しているのかを理解する必要がある。

安全性検証の大きな流れ

安全性を決定するのはソフトウェアで、バーチャルとリアルな環境で試験される。開発された自動運転ソフトウェアは、シミュレータでアルゴリズムを教育し、学習した機能を検証する。条件を様々に変えて実行し、ソフトウェアの完成度を上げていく。(下の写真はシミュレータでクルマを稼働させている様子。)

出典: Waymo

シミュレーションを通過したソフトウェアは、実際にクルマに搭載され、専用サーキットで走行試験が実施される。専用サーキットは街並みを再現した試験コースとなっている。この試験に合格したソフトウェアは試験車両に搭載され、市街地を走行して機能や安全性が検証される。実地試験に合格したソフトウェアが最終製品となり出荷される。

シミュレーション

Waymoはクルマのアルゴリズム教育を、高度なシミュレーション環境で実施する。シミュレータで25,000台のWaymoを稼働させ、毎日800万マイル走行する。シミュレータを使うことで、試験走行距離を増やすことができる。更に、実社会では稀にしか起こらないイベントを、シミュレータで構築できる。例えば、交差点で左折信号がフラッシュするなど、極めてまれな信号機を創り出すことができる。

街並みをソフトウェアで再現

シミュレータは、実際の街並みを、ソフトウェアで再現している。仮想の街並みは、市街地をスキャンして構築される。専用車両に搭載されたLidar (レーザーセンサー) で、街並みをスキャンし、高精度な3Dマップを制作する (下の写真)。マップには、レーン、路肩、信号機などが表示され、ここには走行に関する情報 (車線の幅や路肩の高さなど) が埋め込まれている。ここに、前述の左折信号が点滅する交差点を構築できる。

出典: Waymo

仮想の走行試験

次に、この仮想の街並みをクルマで走行する。例えば、左折信号が点滅する交差点を曲がる練習ができる (下の写真)。クルマは交差点にゆっくり進入し、対向車がいないのを確認して左折する。アルゴリズムが改良されていくが、その都度、同じ条件で走行試験を繰り返す。このプロセスを繰り返し、習得した技術 (左折信号が点滅する交差点を曲がる技術など) の完成度を上げる。

環境を変化させる

シミュレータは環境に変化を加える(Fuzzingと呼ばれる)ことができる。左折信号のケースでは、対向車の速度を変えたり、信号機のタイミングを変えることができる。新しい条件でクルマが安全に左折できることを確認する。また、実際にはありえない条件を付加できる。オートバイがレーンの白線の上を走行したり、人がレーンをジグザグに走るケースなどを生成できる。異常な行動に対して、クルマがどう反応するかを検証する。

出典: Waymo

シミュレーションの成果

自動運転車は、主要技術をシミュレータで学び、練習を重ね、完成度を上げた。2016年には、Waymoはシミュレータで25億マイルを走行した。これは地球10万周分の距離に当たる。シミュレーション環境が優れている点は、危険な出来事を頻繁に再生できることにある。歩行者が垣根の陰から路上に飛び出すなど、事故となるシーンでも試験を重ねた。

試験サーキット「Castle」

シミュレータを通過したソフトウェアは試験車両に搭載され、試験サーキット「Castle」で試験される。これは空軍基地跡地を利用したもので、ここに街並みが再現されている (下の写真、左下の部分)。ここで、新規に開発されたソフトウェアが試験される。また、改版されたソフトウェアが検証される。更に、ここでは、稀にしか発生しない事象を試験する。これらを「Structured Tests」呼び、2万のシナリオを検証する。検証が済んだソフトウェアは公道での実地試験に進む。

出典: Google Earth

公道での路上試験

Waymoは試験車両を公道で走らせ試験を展開している。過去8年間にわたり、全米20都市で350万マイルを走行した。アリゾナ州では砂漠の環境で、ワシントン州では雨が降る環境で、ミシガン州では雪の中で試験が進められている。それぞれ異なる気象条件で安全に走行できることを検証する。また、路上試験は啓もう活動を兼ねている。地域住民が自動運転車に接し、理解を深めることも目標としている。

【自動運転車は安全か】

安全性の指標は確立されていない

自動運転車の安全性に関する指標は確立されておらず、どこまで試験をすればいいのか、議論が続いている。カリフォルニア州は、州内で実施されている自動運転車試験の内容を公表することを義務付けている。この中に、自動運転機能を停止する措置 「Disengagement」の項がある。Disengagement (自動運転機能解除措置) を実行することは、自動運転車が危険な状態にあることを意味する。自動運転車が設計通り作動していない状況で、不具合の件数とも解釈できる。

WaymoのDisengagementの回数 (1000マイル毎) は、2015年には0.80回であったが、2016年には0.20回に減少している (下のグラフ)。2017年度のレポートはまだ公開されていないが、このペースで進むと、更に大きく減少することになる。

出典: Department of Motor Vehicles

Waymoの安全対策を纏めると

Waymoは安全性に関し、複数の視点からプローチしている。徹底した走行試験を繰り返し、自動運転モードで350万マイルを走行した。車両ハードウェアを重複構造とし、重要システム (ステアリングやブレーキなど) を二重化している。運用面では、走行できる領域をOperational Design Domainとして定義し、クルマが走れる条件を明確に把握している。乗客とのインターフェイスも重要で、無人タクシーで乗客が不安にならないよう設計されている。

安全性を最優先した製品コンセプト

開発プロセスや試験結果から、Waymo無人タクシーは安全な乗り物であると評価できる。また、運行できる範囲を限定し、安全に走行できる環境に限ってサービスを提供している。更に、無人で走行するものの、運行は監視室で遠隔モニターされており、非常事態に対応できる。

技術的には、WaymoはLidarとカメラを併用し、慎重なアプローチを取る (詳細は下記の補足情報を参照)。ステアリングのないクルマを走らせるなど、革新技術を追求するWaymoであるが、商用モデルは意外なほど手堅い造りになっている。

次の目標

他社に先駆けて、無人タクシーの運行に漕ぎつけたことは、大きな成果である。Phoenixで運行を始めたばかりであるが、次のサービス都市は何処かが話題になっている。高度な技術が要求されるSan Franciscoで運行するには、もう少し時間がかかる。Operational Design Domainの拡大がWaymoの次の目標となる。

———————————————————————

補足情報:Waymo自動運転技術まとめ

【自動運転車のセンサー】

多種類のセンサーを併用

安全性を評価するためにはWaymoの自動運転技術を把握する必要がある。WaymoのセンサーはLidar System (レーザーセンサー)、Vision System (光学カメラ)、Radar System (ミリ波センサー)、Supplemental Sensors (オーディオセンサーやGPS) から構成される (下の写真)。

出典: Waymo

ミニバンの屋根に小型ドームが搭載され、ここにLidar SystemとVision Systemが格納される。別タイプのLidarはクルマの前後と前方左右にも搭載される。クルマ四隅にはRadarが設置される。Lidarとカメラを併用する方式はSensor Fusionと呼ばれる。(これに対しTeslaは、Lidarを搭載せず、カメラだけで自動走行する技術に取り組んでいる。)

Lidar System

Waymoは独自技術でLidarを開発している。クルマは三種類のLidarを搭載している。「Short-Range Lidar」はクルマの前後左右四か所に設置され、周囲のオブジェクトを認識する (上の写真、バンパー中央と左側面の円筒状の装置)。クルマのすぐ近くにいる小さな子供などを把握する。解像度は高く、自転車に乗っている人のハンドシグナルを読み取ることができる。

出典: Waymo

「Mid-Range Lidar」と「Long-Range Lidar」は屋根の上のドームの内部に搭載される。前者は高解像度のLidarで、中距離をカバーする。後者は可変式Lidarで、FOV (視野、レーザービームがスキャンする角度) を変えることができ、特定部分にズームインする。レーザービームを狭い範囲に絞り込み、遠方の小さなオブジェクトを判定できる。フットボールコート二面先のヘルメットを識別できる精度となる。

Vision System

Vision Systemはダイナミックレンジの広いカメラの集合体。8つのモジュール (Vision Module) から構成され、クルマの周囲360度をカバーする。信号機や道路標識を読むために使われる。モジュールは複数の高精度センサーから成り、ロードコーンのような小さなオブジェクトを遠方から検知できる。Vision Systemはダイナミックレンジが広く、暗いところから明るいところまでイメージを認識できる。

【自動運転の仕組み】

位置決定:Localization

Waymoが自動走行するためには3D高精度マップが必要となる。マップには道路の形状が3Dで詳細に表示され、セマンティック情報 (道路、路肩、歩道、車線、道路標識などの情報) が埋め込まれている。クルマは搭載しているセンサーが捉えた情報と、3D高精度マップを比較して、現在地をピンポイントに特定する。この位置決めをLocalizationと呼ぶ。

周囲のオブジェクトの意味を理解:Perception

クルマのセンサーは常時、周囲をスキャンして、オブジェクト (歩行者、自転車、クルマ、道路工事など) を把握する (下の写真)。オブジェクトは色違いの箱で表示される。クルマは緑色または紫色、歩行者は赤色、自転車は黄色で示される。

出典: Waymo

ソフトウェアは、これらオブジェクトが移動している方向、速度、加速度などを推定する。また、信号機、踏切標識、仮設の停止サインなどを読み込む。ソフトウェアは、オブジェクトの意味 (信号機の色の意味など) を理解する。

動くオブジェクトの挙動予測:Behavior Prediction

ソフトウェアは路上のオブジェクトの動きを予想し (下の写真、実線と円の部分)、その意図を理解する。ソフトウェアはオブジェクトの種類 (クルマや人など) により、動きが異なる (クルマの動きは早く人の動きは遅い) ことを理解している。また、人、自転車、オートバイは形状が似ているが、その動きは大きく異なることも理解している。

出典: Waymo

更に、クルマは道路状況 (工事など) により、これらの動きが影響される (工事でクルマが車線をはみ出すなど) ことを理解している。これらは試験走行でアルゴリズムが学習したもので、ここにAI (Machine Learning) の技法が使われている。

最適な経路を計算:Planning

ソフトウェアはオブジェクトの動き予想を元に、最適なルートを決める (下の写真、幅広い緑の実線)。ソフトウェアは進行方向、速度、走るレーン、ハンドル操作を決定する。ソフトウェアは「Defensive Driving」としてプログラムされている。これは安全サイドのプログラミングを意味し、自転車と十分間隔を取るなど、慎重な運転スタイルに設定されている。クルマは周囲のオブジェクトの動きを常にモニターしており、それらの動きに対してルートを変更する。

出典: Waymo

AIではなく人間が経路を決める

重要なポイントはPlanningのプロセスにAIは適用されていないことだ。Planningのロジックはコーディングされており、クルマの動きは人間がプログラムで指定する。人間が自動運転アルゴリズムを把握できる構造になっている。このため膨大なルールが定義されており、それを検証するためには、大規模な試験走行が必要となる。

AI Carというアプローチ

一方、NvidiaはPlanningのプロセスをAIが司る「AI Car」を開発している。AIが人間の運転を見てドライブテクニックを学ぶ先進技術に取り組んでいる。AI Carは道路というコンセプトを理解し、車線が無くても人間のように運転できる。膨大なルールの定義は不要でアルゴリズムがシンプルになる。しかし、AIの意思決定のメカニズムは人間には分からない。信頼性の高いクルマを作るため、Nvidiaはこのブラックボックスを解明する研究を進めている。

Waymoは安全なアプローチ

WaymoはLidarとカメラを併用 (Sensor Fusion) する、手堅い手法を取っている。アルゴリズムの観点からは、AIが周囲のオブジェクトを把握するが、ハンドル操作は人間がコーディングして決定する。Waymoは極めて安全な技法で開発されたクルマといえる。

無人タクシーに乗るためのマニュアル、Waymoは乗客を乗せて自動運転車の実証実験を開始 (1/2)

Wednesday, November 22nd, 2017

Waymoは開発している自動運転車を無人タクシーとして運行することを発表した。ドライバーが搭乗しない完全自動運転車が市街地を走行する。無人タクシーを利用できる時代が到来した。無人タクシーが移動手段となるが、どう利用すればいいのか分からない。少し気が早いが、自分の街にWaymoがやってきた時に備え、無人タクシー利用手順をマニュアルとして纏める。また、Waymo無人タクシーに乗って大丈夫なのか安全性を評価する。

出典: Waymo

無人タクシーの運行が始まる

Waymoは2017年11月、自動運転車に乗客を乗せ公道で運行すると発表した。運転席にドライバーが乗らない無人タクシーが市街地を運行する。この実証試験は「Early Ride Program」と呼ばれ、Phoenix (アリゾナ州) とそれに隣接する地域で展開される。このプログラムは2017年4月に開始されたが、今月からセーフティドライバーが搭乗しない無人タクシーとして運行される。

Waymo無人タクシー利用法】

スマホアプリで無人タクシーに乗る

車両は「Chrysler Pacific Hybrid」 ミニバンを改造したものが使われる (上の写真)。利用者はスマホアプリを使って無人タクシーを利用する。Uberを使うときと同じ要領で、現在地と目的地を入力して配車をリクエストする。

クルマに搭乗する

クルマが到着すると利用者は後部座席に座ることとなる。セイフティドライバーやエンジニアは搭乗しないため、運転席と助手席は空席となる。ただし当面の間、セイフティドライバーは最後部座席に搭乗し、運行を監視するとしている。

車内に設置されている機器

車内にはクルマを利用するための機器が設置されている。座席の前にはディスプレイ (In-Car Display) が備え付けられている (下の写真)。ディスプレイにはクルマの走行状態が表示される。

天井部分には操作ボタンが設置されている (下の写真、最上部)。ボタンは四つあり、右から「Start Ride (発進)」ボタン、「Pull Over (非常停止)」ボタン、「Lock/Unlock (ドアの施錠・開錠) 」ボタン、「Help (オペレータとの通話)」ボタンとなる。シートベルトを締め、ドアをロックして、Start Rideボタンを押すとクルマが発進する。

出典: Waymo

ディスプレイに運行状態を表示

走行中は座席前のディスプレイに運行状態が表示される。画面にマップが表示され、現在地がアイコンで示され、走行ルートが実線で表示される。周囲のオブジェクト (他の車両や自転車など) も表示される。クルマは何を見て、どのような判断を下したかが分かり、安心して運転を任せることができる。この他に、到着予定時間と経過時間なども表示される。

クルマの運行状態を監視室でモニター

Waymoはドライバー無しで走行するが、クルマの運行状態は監視室 (Waymo Operations Center) で遠隔モニターされている。非常事態が発生すると、乗客は「Pull Over」ボタンを押してクルマを停める。「Help」ボタンを押すとWaymo監視室に繋がり、専任スタッフと通話できる。またスマホアプリからも通話できる。クルマの運行状態は監視室で人間がモニターしており、安心感が格段に向上する。

料金はアプリに課金される

クルマは全行程を自動で走行し、目的地に着いたらそこで停止し、乗客は降車する。料金は利用者のアプリに課金される。ただし、Early Ride Programでは料金は無料となっている。利用者はコメントなどをアプリに投稿できる。この手順もUberと同じで戸惑うことはない。

Waymo無人タクシーはどこを走れるか】

Phoenixで運行する

当初Waymo無人タクシーは運行できる範囲が限られている。現在はPhoenixを中心に運行している。ここは砂漠地帯に作られた街で、天気は良く、雨や雪はほとんど降らない。比較的新しい街で、道路は整備され、自転車や歩行者は少ない。自動運転車にとって走りやすい環境である。

アリゾナ州はハイテク企業を誘致

アリゾナ州知事のDoug Duceyは州知事令 (Executive Order) に署名し、自動運転車の運行を認可した。アリゾナ州は規制を緩和して、ハイテク企業の誘致を進めている。アリゾナ州は地理的な条件だでなく、法令面でも自動運転車にとって走りやすい場所である。(カリフォルニア州は2018年から自動運転車の走行を認める予定。)

Waymoが走れる地域

Waymoはクルマが走れる地域を「Operational Design Domain (ODD)」と定義する。クルマは、地形、道路の種別、気候、昼間・夜間、法令などの条件により、走れる場所が決まる。これら条件を満たす場所がODDとなる。(ODDは携帯電話の圏内に相当する。) 下の写真はそのイメージで、青色で示された部分がODDで、Waymoはこの地域だけを走ることができる。シェイドの部分は整備中の地域で、準備が整い次第走れるようになる。

出典: Waymo

走行できる気象条件

WaymoはODD域内を運行していても、走行できない事象が発生すると、安全に停止するよう設計されている。この状態をMinimum Risk Conditionと呼ぶ。

走行できない事象とは、吹雪や激しい雨などである。例えば、激しい夕立に出会うと、クルマは安全な場所で停止する。この事象が終わると (夕立が止むと) 、クルマは再び運行を始める。

夕立で止まるクルマは商品とは言えず、Waymoは雨や雪が降っても走行できるよう、アルゴリズムの教育を続けている。雨の中の走行試験はワシントン州で、雪の中の走行試験はミシガン州で進めている (下の写真)。

出典: Waymo

道路交通法に準拠

Waymoは道路交通法に従って運行する。道路法規が変わると、それにあわせてソフトウェアを更新する。米国では州により道路交通法が異なるため、Waymoは運行する州の法令に従う。例えば、自転車レーンのある交差点で右折するルールは、カリフォルニア州とテキサス州で異なる。Waymoはこれらの違いをアルゴリズムに盛り込んでいる。更に、Waymoは法令だけでなく、その地域独特の慣習や運転スタイルも取り入れている。

【もし事故を起こしたら】

車両の信頼性

Waymoはドライバーなしで走行するため、車両の信頼性を強化している。クルマの主要システムは二重化され、故障しても、もう一方のシステムで走行を続ける。コンピュータ、ブレーキ、ステアリング、バッテリーなどが二重化されている。

ソフトウェアはドライバーに代わりシステムを常時監視する。ソフトウェアが問題を検出すると、クルマを一旦停車したり、運用を中止する措置を取る。

走行中にデータを収集

クルマは走行中に運行に関するデータを収集する。運行中に遭遇した様々な状況を記録し、それらを解析する。これにより定常的にアルゴリズムを改良し、ソフトウェアが更新される。事故などの問題が発生した際は、記録したデータが原因究明に役立つ。

個人のプライバシーが侵害される事態が起こるとは考えにくいが、搭乗者はクルマの運行が記録されていることを認識しておく必要がある。

事故に遭遇すると

クルマが事故に遭遇すると、ソフトウェアが衝突を検知し、安全に停止する設計となっている。更に、クルマは監視室に問題を連絡する手順となる。

連絡を受けた専任スタッフは、警察や消防と連絡を取り、事故対応 (Post-Crash Procedures) に当たる。更に、その地域のWaymoスタッフが現場に急行する。搭乗者はWaymo車内に設置してあるHelpボタンを押し、専任スタッフと通話することができる。

事故原因の解析

Waymoは収集したデータを解析し、事故の原因を究明する。カメラで撮影されたビデオや、センサーが収集したデータが使われ、事故を引き起こした原因を究明する。Waymoに問題があるときはソフトウェアがアップデートされる。車両ハードウェアは修理され、試験走行を実施し、安全を確認してから運行に戻される。

事故を防ぐためのアルゴリズム

Waymoは事故を防ぐため、また、事故になっても被害を最小にするためのアルゴリズムを搭載している。米国運輸省 (NHTSA) は、国内で発生した交通事故を分析し、事故原因やその頻度を一般に公開している。事故の殆どが、追突事故、交差点内での事故、道路から逸脱した事故、車線変更での事故で発生している。Waymoはこれら四つのシナリオを対象に、事故を防ぐアルゴリズムを開発した。

アルゴリズムの公開と検証

自動運転車ではTrolley Problem (トロッコ問題) が常に話題になるが、Waymoは被害を最小限にするアルゴリズムの詳細は公表していない。(Trolley Problemとは、事故の被害を最小限にするために、特定の人物を犠牲にすることは道義的か、という思考実験。) Waymoを含め自動運転車ベンダーは、事故回避アルゴリズムを公開し、公の機関で検証することが求められる。

Waymo無人タクシーの運転技能】

自動運転車に必要な運転技能

人間が自動車学校で、運転に必要な技能を学ぶように、Waymoも必要な運転技能を学ぶ必要がある。NHTSAは自動運転車に必要な運転機能を「Behavioral Competencies」として28の項目を定義している。自動運転車として運行するためには、これらの機能を搭載していることが求められる。更に、Waymoは独自に必要な機能を定義し、それらを実装している。Waymoは両者を合わせたドライブテクニックを搭載した車両となっている。

NHTSAが定めている自動運転機能

NHTSAが定義する機能は、自動運転の基本操作である。制限速度標識を認識し、これに従う機能を持つことが求められる。フリーウェーで高速で走行車線に行流できることや、緊急車両を検知し、適切な措置を取ることも規定している。

緊急車両の認識とアクション

Waymoは車両の点滅するライトやサイレンを認識し、その意味 (消防車であること) を理解する (下の写真)。これに従いWaymoは、道を譲ったり、路肩に停止する機能を持っている。更にWaymoは、路上の警察官や消防士を認識し、手信号による指示に従うことができる。(一般人が手信号で指示しても、Waymoはこれに従うことはない。)

出典: Waymo

スピード違反で警察に捕まったら

自動運転車が道路交通法違反などで、警察官に停止を命じられる事態への対応も必要になる。Waymoは運行する地域の警察との連携を密にし、無人タクシーへの応対方法などを警察官に教育している。Waymoはドライバー無しで走行できることや、非常事態における連絡方法について説明した。無人タクシーが営業運転を始めると、その地域の警察や消防などとの連携が、極めて重要となる。

Waymoが独自に定めた自動運転機能

Waymoは独自に自動運転に必要な機能を定め、これを実装している。Waymoはスクールバスを認識し、その地域の法令に従い、停止などの措置を取る。Waymoは路上の自転車や動物を検知し、必要な措置を取る。自転車であれば、通常より広めに間隔をとり、また、動物を認識すると、それを避ける動作をする。クルマが運転テクニックをどこまでマスターしているかで、自動運転車の安全性が決まる。これが自動運転車の差別化の要因となる。

(2/2へ続く)

Generative Adversarial Networks (GAN) とは何か、どんなブレークスルーが期待でき如何なる危険性があるか

Friday, November 10th, 2017

Generative Adversarial Networks (GAN) とはGoogle Brain (AI研究部門) のIan Goodfellowが開発したニューラルネットワークで、その潜在能力に期待が高まり研究開発が進んでいる。GANは様々なバリエーションがあり多彩な機能を持っている。GANはDeep Learningが抱える問題を解決する糸口になると見られている。同時に、GANは大きな危険性を内在し注意を要する技法でもある。

出典: Karras et al. (2017)

DCGAN:現実そっくりのイメージをリアルに生成

GANはニューラルネットワークの技法で二つの対峙する (Adversarial) ネットワークがコンテンツ (イメージや音声など) を生成する。GANは技法の総称で多くのバリエーションがある。その代表がDCGAN (Deep Convolutional Generative Adversarial Networks) で、ネットワークが写真そっくりの偽のイメージを生成する。Nvidiaはニューラルネットワークでセレブ画像を生成する技術を公開した。画像は実在の人物ではなくアルゴリズムがセレブというコンセプトを理解して想像でリアルに描く。このネットワークがDCGANにあたる。

DCGANはセレブ以外に様々なオブジェクトを描くことができる。上の写真はDCGANが寝室を描いたものである。これらのイメージは写真ではなく、教育されたデータをもとにDCGANが寝室のあるべき姿を出力したものである。寝室にはベッドがあり、窓があり、テーブルがあり、ランプがあることを把握している。リアルな寝室であるがこれはDCGANが想像したもので、このような寝室は実在しない。DCGANは写真撮影したように架空のセレブやオブジェクトをリアルに描き出す。

DCGANのネットワーク構造

DCGANはGenerator (制作者) とDiscriminator (判定者) から構成される (下の写真)。GeneratorはDe-convolution Network (上段、パラメータから元のイメージを探す処理) で構成され、入力されたノイズ (ランダムなシグナル) からイメージ (例えば寝室) を生成する。

DiscriminatorはConvolution Network (下段、イメージをパラメータに凝縮する処理) で構成され、ここに偽造イメージ (Fake) 又は本物イメージ (Real) を入力する。Discriminatorは入力されたイメージを処理し、それがFakeかRealかを判定 (Logistic Regression) する。このプロセスでDiscriminatorが誤差逆伝播法 (Backpropagation) で教育され勾配 (Gradient、本物と偽物の差異) を得る。

この勾配をGeneratorに入力し本物そっくりの偽物を生成する技術を上げる。両者が揃って成長する仕組みで、このプロセスを何回も繰り返しDiscriminatorが見分けがつかないリアルなフェイクイメージ (先頭の写真) を生成する。

出典: Amazon

DCGANでイメージを演算する

Generatorはフェイクイメージを生成するだけでなく、生成したイメージを演算操作する機能を持っている。例えば、「眼鏡をかけた男性」ー「眼鏡をかけていない男性」+「眼鏡をかけていない女性」=「眼鏡をかけた女性」となる (下の写真)。演算の結果「眼鏡をかけた女性」が九つ生成される (右端) がその中央が求める解となる。その周囲八つのイメージから外挿 (Extrapolation) して中央のイメージが生成された。この技法を使うとイメージを操作して金髪の女性を黒髪の女性に変えることができる。

出典: Radford et al. (2016)

SRGAN:イメージ解像度をアップ

SRGAN (Super-Resolution Generative Adversarial Networks) とは低解像度のイメージを高解像度のイメージに変換する技法 (下の写真) である。右端がオリジナルイメージで、この解像度を様々な手法で上げる (このケースでは解像度を4倍にする)。多くの技法が使われており、bicubic (左端、二次元のExtrapolation) やSRResNet (左から二番目、Mean Squared Errorで最適化したDeep Residual Network) などがある。左から三番目がSRGANが生成したイメージ。物理的にはノイズ比 (peak signal-to-noise ratio) が高いが (ノイズが乗っているが) 見た目 (Structural SIMilarity) にはオリジナルに一番近い。この技法はImage Super-Resolution (SR) と呼ばれ、低解像度イメージを高解像度ディスプレイ (8Kモニターなど) に表示する技術として注目されている。

出典: Ledig et al. (2016)

StackGAN:テキストをイメージに変換

StackGAN (Stacked Generative Adversarial Networks) とは入力された言葉からイメージを生成する技法 (下の写真) を指す。例えば、「この鳥は青色に白色が混ざり短いくちばしを持つ」というテキストを入力すると、StackGANはこのイメージを生成する (下の写真、左側)。StackGANは二段階構成のネットワークで、Stage-Iは低解像度のイメージ (上段) を、Stage-IIで高解像度のイメージ (下段) を生成する。DCGANと同様に生成されたイメージは実在の鳥ではなくStackGANが想像で生成したもの。リアルそっくりのフェイクの鳥でこのような鳥は世の中に存在しない。言葉で意のままにフェイクイメージを生成できる技術で、応用範囲は広いものの不気味さを感じる技術でもある。

出典: Zhang et al. (2016)

D-GAN:写真から三次元モデルを生成

MITのAI研究チームは三次元モデルを生成するネットワーク3D-GAN (3D Generative Adversarial Networks) を公開した。例えば、家具の写真で教育すると3D-GANは家具を三次元で描くことができるようになる。ここではIkeaの家具の写真が使われ、それを3D-GANに入力するとその家具を3Dで描写する (下の写真、上段)。入力された写真は不完全なもので家具の全体像が見えていないが、3D-GANはこれを想像で補って3Dイメージを生成する。

3D-GANは3Dモデルイメージを演算操作できる (下の写真、下段)。例えば、「棚付きの低いテーブル」ー「棚無しの高いテーブル」+「高いテーブル」=「棚付きの高いテーブル」となる (一番下の事例)。これは3D-GANが学習した成果を可視化するために出力されたもの。GANは学習した成果をパラメータとしてネットワークに格納するが、これを直接見ることはできない。この研究の目的は隠れた領域 (Latent Spaceと呼ばれる) のパラメータを出力し3D-GANが学習するメカニズムを検証することにある。

出典: Wu et al. (2017)

CycleGAN:イメージのスタイルを変換

入力イメージのスタイルを別のスタイルに変換する手法は一般にStyle Transferと呼ばれる。イメージ間のスタイルをマッピングすることが目的でDeep Neural Networkが使われる。ネットワークが画家のスタイルを習得し、そのタッチで絵を描く技術が発表されている。例えば、写真を入力するとネットワークはそれをモネ・スタイルの油絵に変換する。しかし、画家の作品とその風景写真を対にしたデータは殆どなく、ネットワーク教育 (Paired Trainingと呼ばれる) が大きな課題となっている。

出典: Zhang et al. (2016)

これに対しCycleGAN (Cycle-Consistent Adversarial Networks) という方式では対になった教育データ (モネの油絵とその元になった風景写真など) は不要で、それぞれのデータを単独 (モネの油絵と任意の風景写真など) で使いネットワークを教育 (Unpaired Trainingと呼ばれる) できる。教育されたCycleGANは、例えば、モネの作品を入力するとそれを写真に変換する (上の写真、左側上段)。反対に、写真を入力するとモネの油絵に変換する (上の写真、左側下段)。また、シマウマの写真を馬の写真に、馬の写真をシマウマの写真に変換する (上の写真右側、object transfigurationと呼ばれる)。更に、富士山の夏の写真を入力すると、雪の積もった冬の富士山の写真に変換できる (season transferと呼ばれる)。CycleGANはネットワークが自律的に学習するアーキテクチャで教師無し学習 (Unsupervised Learning) につながる技法として期待されている。

DiscoGAN:イメージグループの属性を把握

人間は一つのグループ (例えばバッグ) と別のグループ (例えばシューズ) の関係を把握できる。ニューラルネットワークがこの関係を把握するためにはタグ付きのイメージを大量に入力してアルゴリズムを教育する必要がある。DiscoGANという技法はアルゴリズムが両者の関係を自律的に理解する。最初、DiscoGANに二つのグループのイメージ (例えばバッグとシューズ) をそれぞれ入力しそれぞれの属性を教える。イメージにはタグ (バッグとかシューズなどの名前) はついてないがアルゴリズムが両者の関係を把握する。

出典: Kim et al. (2017)

教育したDiscoGANに、例えば、バッグのイメージを入力するとシューズのイメージを生成する (上の写真)。青色のバッグからは青色のシューズを生成する (左端の事例)。これ以外に、男性の写真を入力すると女性のイメージを生成することもできる。DiscoGANも両者の関係 (バッグとシューズの関係など) を自律的に学習する。両者の関係を定義したデータ (Paired Data) は不要で、それぞれの属性のイメージ (バッグやシューズの写真集など) だけで教育できる。DiscoGANもネットワークが自律的に学習する構造で教師無し学習への道が開ける技法として注目されている。

GANがファッションデザイナー

GANは基礎研究だけでなくビジネスへの応用も始まっている。AmazonはGANを利用したファッション事業の構想を明らかにした。Amazonは自社の研究所Lab126でGANの開発を進めている。GANは流行りのファッションからそのスタイルを学習し、独自のファッションを生成する。GANがファッションデザイナーとなり、人間に代わって新しいデザインを創り出す。

ファッショントレンドはFacebookやInstagramなどに投稿されている写真から学習する。これらの写真をGANに入力すると、GANがトレンドを学び独自の洋服などをデザインする。また、AmazonはEcho Look (下の写真、カメラ付き小型版Echo) で利用者を撮影しファッションのアドバイスをするサービスを展開している。Echo Lookを通して利用者のファッションの好みを理解し、GANはその個人に特化したデザインを生成することが計画されている。GANが生成したデザインはオンデマンドで洋服に縫製され (On-Demand Clothing) 利用者に配送される仕組みとなる。

出典: Amazon

GANに注目が集まっている理由

このようにGANのバリエーションは数多く研究が幅広く進んでいる。GANに注目が集まっている理由はGANが現行Deep Learningが抱えている問題の多くを解決する切り札になる可能性があると期待されているからだ。特に、教師無し学習 (Unsupervised Learning) とタグ無しデータ (Unlabeled Data) 教育の分野で研究が大きく進む手掛かりになると見られている。上述のCycleGANやDiscoGANがこれらのヒントを示している。また、Nvidiaの研究チームはDCGANという技法で、写真撮影したように鮮明な架空のセレブイメージを生成したが、教育にはタグの付いていないセレブの写真が使われた。アルゴリズムが自律的に学ぶ技術が進化している。

GANの危険性も考慮する必要あり

FacebookのAI研究所所長のYan LeCunは「GANとその派生技術はここ10年におけるMachine Learning研究で最も優れた成果」であると高く評価している。一方、GANに寄せる期待が高まる中でその危険性も指摘されている。今までもフェイク写真が問題となってきたがGANの登場でその危険性が加速される。ニュースに掲載されている写真やビデオを信用できるかという問いが投げかけられている。(GANでフェイクビデオを生成できるのは数年先と見られている。) ソーシャルメディアに掲載されたイメージが証拠写真として使われることが多いが、これからは何が真実か分からない時代となる。AIがそうであるようにGANも諸刃の剣で、先進技術は生活を豊かにするとともに、使い方を間違えるとその危険性も甚大である。