Archive for the ‘モバイル’ Category

Googleはイメージ検索機能「Google Lens」をAIで大幅強化、スマホカメラがモノの名前を教えてくれる

Friday, June 1st, 2018

Googleはイメージ検索機能「Google Lens」の最新版をリリースした。Google Lensはスマホカメラに写ったオブジェクトの名前を表示する。カメラ越しに花を見ると、Google Lensはその名前を教えてくれる (下の写真、左側)。お洒落なハンドバッグに視線を移すと、Google Lensはそれに似ている商品を示す (下の写真、右側)。カメラでイメージ検索をする技術は早くから登場しており、アイディアとしては目新しいものではない。しかし、Google Lensは高度なAIを実装し、イメージ検索機能と精度が大幅に強化され、使ってみると予想外に便利で、いまでは生活の必須アイテムとなった。

出典: VentureClef

スマホ向け拡張現実

Google Lensは2017年11月に登場し、2018年5月に機能が大幅に強化された。Google Lensの実態は拡張現実 (Augmented Reality) で、カメラが捉えたオブジェクトに情報を付加する構造となる。Google Lensはスマホ「Google Pixel 2」などに実装され、AIアシスタント「Google Assistant」と連携して稼働する。Google Lensを起動するには、Google Assistant画面でLensアイコンにタッチする。また、Google Lensはカメラアプリに組み込まれ、撮影画面からホームボタンを長押しして駆動することもできる。

名刺を住所録に登録

Google Lensはテキストを認識し、それを文字に変換し、それらの意味を理解する。名刺を読み込むと、そのまま住所録に登録できる (下の写真、左側)。名刺に記載されている電話番号を認識し、そのまま電話を発信できる。更に、住所を認識し、Google Mapsにリンクして、その場所までナビゲーションする。街中のポスターで気になるコンサートの案内があると、それをGoogle Lensで見ると、プログラムや連絡先を抽出する (下の写真、右側)。Google Lensは所謂OCR(光学文字認識)として機能するが、コンテンツの意味まで理解するので、その利用価値は高い。

出典: VentureClef


美術館の案内

Google Lensは絵画や彫刻など芸術作品を理解しその内容を解説する。美術館で音声ガイドを借りる代わりに、Google Lensが案内役を務める。Google Lens越しに絵画を見ると、作品の題名と概要を表示し、示されたリンクを辿ると作品の詳細を読むことができる。(下の写真、左側、この絵はセザンヌ作の「Chateau Noir」と表示)。撮影した写真を後日、Google Lensで見ると、同様な説明が表示される。(下の写真、右側、この彫像はロダン作の「Les Bourgeois de Calais」(カレーの市民)で、その概要が示される。) Google Lensの絵画に対する認識精度は極めて高く、美術鑑賞のスタイルが変わる。

出典: VentureClef


観光ガイド

Google Lensはランドマークを認識し観光ガイドとして利用できる。周囲のビルやモニュメントにカメラを向けると、Google Lensがそれらの名前を表示する。Google Lens越しにGoogle本社ビルを見ると「Googleplex (Googleキャンパス)」と表示され、リンク情報が提示される (下の写真、左側)。また、撮影した写真を後日、Google Lensで見ると、観光した場所の名前と概要を教えてくれる (下の写真、右側、スタンフォード大学内の「Memorial Church」とその概要を表示)。ただ、数多く存在するランドマークを認識するには高度な技術を要する。更に、見る角度や影の方向でイメージの判定が難しい。このため、Google Lensが認識できるランドマークの数は限られ、認識精度も完全ではなく、更なる技術改良が必要となる。

出典: VentureClef


植物図鑑

Google Lensを植物に向けるとその名前を教えてくれ、植物図鑑として使うことができる。カメラで白い花を見ると、Google Lensはこれは「Jasmine」(ジャスミン)と教えてくれる (下の写真、左側)。写真撮影した草花の種類をGoogle Lensで調べることができる。よく見かけるオレンジ色の花の写真をGoogle Lensで調べると、これは「California Poppy」(ハナビシソウ)であることが分かった。植物の判定は難しく高度なニューラルネットワークが必要であるが、Google Lensを花に向けると敏感に反応し正解率は悪くない。一方、樹木や木の葉にについてはアルゴリズムの教育ができていないのか、認識力が大きく落ちる。制限事項はあるものの、Google Lensで身の回りの植物の種類を知ることができ、コンピュータビジョンの進化を肌身で感じる。

出典: VentureClef


Smart Text Selection

Google Lensの機能が強化され、「Smart Text Selection」、「Style Match」、「Real-Time Results」が追加された。Smart Text Selectionは、Google Lensが認識したテキストの中から、特定部分を選択する機能。例えば、レストランメニューのなかから、気になる料理を選択すると、Google Lensはその内容を説明する。イタリア語で書かれていて読めない時は、Translateボタンにタッチすると翻訳してくれる (下の写真)。この料理はマグロのスライスにオレンジサラダが付いているのだと分かる。

出典: VentureClef


Style Match

Style Matchはファッションや家具などをアドバイスする機能。Google Lensでお洒落な洋服を見ると、その洋服と同じデザインの別の製品を表示する (下の写真、左側)。気に入ればそのまま購入できる。その他にGoogle Lensでシューズやバッグを見ると、同じ趣向の商品を表示する (下の写真、右側)。家の中では、Google Lensで家具を見ると、類似の商品を示す。Amazonなどショッピングサイトで同様な機能があるが、Google Lensはカメラで捉えたライブイメージが対象で、リアルタイムで画像解析を実行し、デザインが似ている商品を検索するので、高度な技術が必要となる。

出典: Vogue / VentureClef


Real-Time Results

このように、Google Lensの最大の特長は、リアルタイムでオブジェクトを把握できるようになったこと。カメラを通して周囲を見渡すと、Google Lensは写っているオブジェクトをリアルタイムで把握し、それに関連する情報を表示する (下の写真、画面上の白いドットはAIが解析している領域を示す)。Google Lensは連続してイメージ解析を実行する構造で、究極のコンピュータビジョンといえる。ただ、プロセッサへの負荷は高く、持っているスマホが熱くなり、20分程度でバッテリーがなくなる。

出典: VentureClef

システム概要

Google Lensは、エッジでAIによる画像解析を実行し、そのメタ情報をクラウドに送信し、バックエンドで検索プロセスを実行する構造となる。この際、スマホの限られた計算資源でニューラルネットワークを稼働させ画像解析を実行する。光の条件や撮影するアングルでイメージは大きく変わり、スマホでのオブジェクト認識は難しい。このプロセスでGoogleのAIプロセッサ「Pixel Visual Core」が使われる。一方、クラウド側のAI処理では「Cloud TPU」が使われる。Google Lensは、場所 (ランドマークなど)やモノ (植物、ファッション、家具、絵画など) のなかからオブジェクトをリアルタイムで特定する。

Googleの狙いは

Google Lensは拡張現実によるイメージ検索で、Googleのコア事業である検索サービスを強化した形となる。Googleは2010年に、イメージ検索スマホアプリ「Google Goggles」を投入し、このコンセプトを追求したが、幅広く普及することはなかった。Google Lensはこの後継モデルとなるが、高度なAIを実装し、検索精度が格段に向上した。Google Assistantは言葉による検索クエリーだけでなく、ビデオ画像による検索を実行することができ、検索の幅が大きく広がった。更に、Google Lensの機能強化とともに、このシステムはLGなど他社メーカーに公開され、イメージ検索クエリの件数が大きく増えることになる。

グーグルスマホ「Pixel 2」でAIチップが稼働、ARでスターウォーズをリアルに生成でき現実と仮想の境界が消滅

Tuesday, January 2nd, 2018

映画「スターウォーズ」がGoogleスマホ「Pixel 2」にやってきた。極めて精巧なキャラクターをビデオの中に取り込むことができる (下の写真)。街の中を銀河帝国軍の機動歩兵が歩き、上空をXウイング戦闘機が飛び交うビデオを撮影できる。今までのARとは比べ物にならない精度で、リアルなキャラクターがスマホで生成される。これを可能にしたのがスマホ向けAIプロセッサで、大規模な計算を瞬時にこなす。このプロセッサはAIエンジンとしても使われ、スマホはAIマシンであることが鮮明になった。

出典: Google

拡張現実アプリ

Googleは2017年12月、拡張現実アプリ「AR Stickers」を投入した。このアプリを使うと、ビデオや写真にオブジェクトやテキストをAR (Augmented Reality、拡張現実) として組み込むことができる。多くのスマホでARアプリを使えるが、AR Stickersの特長は高精度でARを実装していることだ。もはや現実と仮想の区別ができない。

銀河帝国軍の機動歩兵が動き出す

AR Stickersは様々なセットを提供しているが、一番人気は映画スターウォーズ最新作「Star Wars: The Last Jedi」のキャラクターである。このセットを選ぶと、映画に登場するキャラクターをビデオの中に取り込める。例えば、銀河帝国軍の機動歩兵「Stormtrooper」を選ぶと、ビデオの中に配置できる。撮影を始めるとビデオの中でStormtrooperが動き喋り出す(下の写真)。一人だけでなく複数のStormtrooperを配置でき、それぞれが独自に動く。これらの機動歩兵は極めてリアルに描写され、動きは滑らかで、現実のキャラクターと見分けがつかない。

出典: VentureClef

反乱同盟軍の戦闘機

反乱同盟軍の戦闘機「X-wing Fighter」を選ぶと、可変翼をX状に広げ空中をホバリングする。戦闘機は背景の明るさに調和し、地上にはその影を落とす。戦闘機を前から撮影するだけでなく、周囲をぐるっと一周して360度のアングルから撮影できる。戦闘機は背景に溶け込み、仮想イメージであるとは思えない。

出典: VentureClef

可愛いロボットBB-8

異なるキャラクターを組み合わせて使うこともできる。雪だるまのようなかわいいロボット「BB-8」を選ぶと、画面の中をころころと動き回る。ここにStormtrooperを加えると、二つのキャラクターがそれぞれ独自の動きをする。時に、二つのキャラクターが鉢合わせして、コミュニケーションが始まる (下の写真)。StormtrooperがBB-8に「向こうに行け」と指示しているようにも見える。

出典: VentureClef

宇宙戦闘機は極めてリアル

「TIE Fighter」を選ぶと、二つのイオンエンジン (Twin Ion Engines) で飛行する宇宙戦闘機が登場する。宇宙戦闘機はイオンエンジン特有の音を出して飛行し、時々レーザーキャノンで攻撃する。TIE Fighterに近寄ってアップで撮影すると、細部まで克明に描写されていることが分かる。機体についた傷や角の摩耗などが極めてリアルに描かれている (下の写真)。モックアップで撮影したとしか思えず、これが仮想のオブジェクトであるとは驚きだ。

出典: VentureClef

開発環境「ARCore」

これらはARアプリ開発プラットフォーム「ARCore」で開発された。GoogleはARCoreを公開しており、パートナー企業もこの環境でARアプリを作ることができる。ARCoreがサポートしているデバイスはGoogle Pixel、Google Pixel 2、及びSamsung Galaxy S8である。AR基礎技術はGoogleの特別プロジェクト「Tango」で開発された。今般、ARCoreが公開されたことで、Tangoはここに集約されることになる。

ARの仕組み

ARとは仮想コンテンツ (スターウォーズのキャラクターなど) を現実社会 (ビデオや写真) に組み込む技術を指し、ARCoreは三つのモジュールから構成される。「Motion Tracking」はARコンテンツの現実社会における位置を把握し、スマホでコンテンツをトラックする技術 (キャラクターの位置決め技術)。「Environmental Understanding」は現実社会でフラットな箇所を検知し、その場所と大きさを把握する技術 (平らな場所を検知する技術)。「Light Estimate」は現実社会における光の状態を把握する技術 (明るさを把握する技術)。

Motion Tracking

カメラが動くにつれ、ARCoreはConcurrent Odometry and Mapping (COM) というプロセスを実行し、カメラの位置関係を把握する。イメージの中の特徴的なポイント (Feature Point、下の写真で○印の個所) を把握し、それらがどのように変化するかをトラックし、空間の中でカメラの位置を把握する。ARCoreはこの動きとスマホの加速度計のデータを組み合わせ、カメラの位置とカメラの向き 「Pose」を把握する。GPSなどの位置情報が無くてもARCoreはピンポイントで位置を把握できる。

出典: Google

Environmental Understanding

ARCoreは現実社会の中で平らな場所を検知する (下の写真でドットで示されたマトリックスの部分)。平らな場所とはFeature Pointが共通した水平面を持っているところで、これを「Planes」と呼ぶ。テーブルや床などの平らな部分がPlanesとなる。また、ARCoreはPlanesの境界を把握する。これらの情報がアプリに渡され、キャラクターが立つことのできる場所とその範囲を把握する。

出典: Google

Light Estimate

ARCoreは現実社会の光の状態を把握する。具体的には、カメラで捉えたオブジェクトの平均的な光の強さを把握する。この情報をアプリに渡し、生成するオブジェクトをこれと同じ明るさにする (下の写真、明るい場所の猫は明るく描かれる)。これにより、生成したオブジェクトがリアルさを増し、背景のイメージに溶け込めるようになる。

出典: Google

Anchors and Trackables

現実社会が理解できると、ARCoreはオブジェクトを生成しその中に置くこととなる。オブジェクトは現実社会に馴染み、自然な形で配置される。ARCoreは周囲の状況を把握しており、利用者はPosesを変えることができる。つまり、カメラを動かしオブジェクトの周囲を周回し、異なる方向から撮影できる。X-wingを周回し背後からも撮影できる (下の写真)。オブジェクトの周りを移動してもX-wingはホバリングを続け、アンカーで固定されているようにその場所に留まる。

出典: VentureClef

AI専用プロセッサ

高度なAR処理をPixel 2で実行できるのはAI専用プロセッサによる。Pixel 2は画像処理と機械学習のための専用プロセッサ「Pixel Visual Core」を搭載している。ARCoreはPixel Visual Coreで処理され、毎秒60フレームを生成し高精度な画像を創り出す。その結果、細部まで詳細に描かれたキャラクターが、画像処理の遅延時間はなくビデオの中を滑らかに動き、本物と見分けがつかなくなる。

ARアプリに先立ち、Pixel Visual Coreは写真撮影やAIで使われている。Pixel 2のカメラアプリは「HDR+」という機能を持ち、ダイナミックレンジの広い写真を撮影する。画像処理では大量の演算が発生するが、これらをPixel Visual Coreで高速実行する。

(下の写真、教会の中で薄暗い祭壇をHDR+で撮影すると、照明が当たっているように鮮明に描き出される。今まではHDR+処理に時間がかかり多くの電力を消費したが、Pixel Visual Coreでこの処理を瞬時に実行する。)

出典: VentureClef

画像処理と機械学習実行

Pixel Visual CoreはGoogleが設計したプロセッサでPixel 2のアクセラレータとして位置づけられる。Pixel 2のメインプロセッサはSnapdragon 835で、画像処理と機械学習実行がPixel Visual Coreにオフロードされる。開発環境としては、画像処理で「Halide」が、機械学習では「TensorFlow Lite」をサポートする。Pixel Visual CoreはAndroid 8.1 Oreoから使うことができる。つまり、Pixel 2にはPixel Visual Coreが搭載されているが、Android 8.1が公開された今月からこのプロセッサを使えるようになった。これに併せて、AR Stickersでスターウォーズのセットが提供された。

Neural Networks API

GoogleはAndroid 8.1で機械学習向けAPI「Neural Networks API」を公開した。エンジニアはこのAPIを使い機械学習機能をアプリに組み込むことができる (下のダイアグラム、Androidスマホやデバイス向けAI開発環境)。Neural Networks APIはPixel Visual Coreの他にGPUなどのプロセッサにも対応している。TensorFlow Liteは軽量のAI開発環境で、教育済みのAIアプリをスマホで実行 (Inference処理) するために使われる。パートナー企業もAndroid向けにAIアプリ開発ができ、スマホ上でリアルタイムに稼働するAIの登場が期待される。

出典: Google

少し危険な香りのするアプリ

GoogleはスターウォーズをモチーフにしたAR Stickersをテレビ放送でPRしており、全米で話題となっている。AR Stickersのインパクトは大きく、これ程リアルな仮想オブジェクトをスマホで生成できるとは驚きである。今まではプロの世界に限られていた特撮をPixel 2でできるようになった。ワクワクするアプリであるとともに、現実と虚構の世界の垣根がなくなり、少し危険な香りのするアプリでもある。

GoogleのAIスマホ「Pixel 2」は世界最高水準のカメラ、Deep Learningが鮮やかな画像を生成する

Friday, October 6th, 2017

Googleは2017年10月4日、第二世代のAIスマホ「Pixel 2」(下の写真、左側) と「Pixel 2 XL」(下の写真、右側) を発表した。Pixel 2はカメラ性能が大きく進化し、ベンチマークで世界最高位をマークした。高い評価を受けた理由はDeep Learning技法の強化で、AIが高品質の画像を生成する。

出典: Google

AIで構成されるスマートフォン

Pixel 2は音声アシスタント「Google Assistant」、ビジュアル検索機能「Google Lens」、及びイメージ生成技法「Computing Photography」とAI機能をフルに実装している。Pixel 2はイメージ生成機能が格段に強化され、世界最高のスマホカメラと評価されている。カメラの世界標準ベンチマーク「DxOMark」でPixel 2は98ポイントと評価されトップとなった。前モデルのPixelは89ポイントで、Pixel 2のカメラ性能が大きく向上したことが分かる。

人物写真専用モード「Portrait Mode」

Pixel 2は人物を撮影するための機能「Portrait Mode」を導入した。これは人物をシャープに、また、背景をぼかして撮影する機能である (下の写真)。一眼レフカメラでは望遠レンズの絞りを開き被写界深度を浅くして撮影する。Apple iPhone 8では搭載されている二つのカメラで被写体と背景を3Dで捉えてこれを表現する。これに対しPixel 2は一つのカメラでPortrait Modeの撮影ができる。撮影されたイメージをMachine Learningの手法で解析しPortrait Modeに変換する。

出典: Google

特殊なセンサーを搭載

Pixel 2はメインカメラ (12.2MP, f/1.8) に「Dual-Pixel Sensor」という特殊なイメージセンサーを搭載している。撮影した写真はこのセンサーで二つに分解される。右と左の二つのカメラで撮影したように、二枚のイメージとして把握する。つまり、左右二台のカメラで撮影したように、イメージを3Dで捉えることができる。

Machine Learningの手法で画像を生成

次に、このイメージをDeep Learningの手法で解析し被写体と背景を明確に区分けする。アルゴリズムは百万枚の写真を使い教育され様々なシーンに対応できる。アルゴリズムは前面と背景を区別できるようになり、カメラは人物のパーツ部分をシャープにフォーカスし、それ以外の部分はボケ(Bokeh)の効果を与える。人物だけでなくモノに対してもPortrait Modeで撮影できる。このモードを使うとプロカメラマンのように被写体が背景に浮き上がる写真を取ることができる。

自撮りでも使える

Portrait Modeはフロントカメラ (8MP, f/2.4) でも使うことができる。フロントカメラはDual-Pixel Sensorを搭載していないがDeep Learningの手法でPortrait Modeを生成する。アルゴリズムは画像の中で顔を認識し、顔に繋がっている身体パーツや髪などを把握する。つまり、アルゴリズムが人物の形状を認識しそこにフォーカスを当てる。このため、自撮り (Selfie) でPortrait Modeを使うことができる (下の写真、左側)。もし画面に顔が映っていなければPortrait Modeはオフとなる。

出典: Google

イメージを生成する機能「HDR+」

Pixel 2は暗い環境でも細部にわたり精密に表現できる (下の写真)。また、光のコントラストが厳しい状況でもバランスよくイメージを生成する。これは「HDR+」というイメージ合成手法により実現される。そもそも、HDR (High Dynamic Range) イメージングという手法は異なる露出の複数枚の写真を組み合わせて一枚の写真を生成する技術を指し、多くのスマホで幅広く使われている。これに対しHDR+は同じ露出の写真を多数枚組み合わせて一枚の写真を生成する手法である。

出典: Google

Computation Photography

Pixel 2はカメラアプリを開いた時から撮影を始め、シャッターが押されたポイントを撮りたいシーンと理解する。HDR+は数多くの写真を重ねるが、同じ露出で撮影するので暗い部分はノイズが乗る。しかし、暗い部分の写真を数多く重ね合わせることで数学的にノイズを減らす。この手法により、光の条件が厳しいところでも綺麗な写真が撮れ、また、Portrait Modeでは肌が滑らかに仕上がる。HRD+はアルゴリズムがイメージを生成する方式で「Computation Photography」とも呼ばれる。カメラはAIを含むソフトウエアが機能や性能を決定する。

高度な手ぶれ補正機構

Pixel 2のメインカメラはビデオや写真撮影向けに高度な手ぶれ補正機構を搭載している。これは「EIS (electrical image stabilization) 」と「OIS (optical image stabilization)」とMachine Learningで構成される。EISはハードウェア機能でセンサーが画像のブレを補正する。OISはソフトウェア機能でフレームごとのブレをアルゴリズムが補正する。Pixel 2はOISをジャイロと連携し手の物理的な振動を検知する。これらの情報をMachine Learningで解析し安定したイメージを生成する。具体的にはMachine Learningは撮影した各フレームから主要な動き(例えばオートバイの動き)を検知し、これに沿って撮影したフレームからブレを補正する。

ビジュアル検索機能「Google Lens」

Pixel 2はビジュアル検索機能「Google Lens」を搭載した。Google Lensとはカメラが捉えたオブジェクトに関する情報を画面に表示する機能である。Google LensはMachine Vision (画像認識機能) とMachine LearningとKnowledge Graph (知識データベース) で構成される。名所旧跡や本や音楽アルバムや映画などの情報を表示することができる。例えば、建物をGoogle Lensで見るとこれは1236年に建立された東福寺であることが分かる (一つ上の写真、右側)。

AIカメラ「Google Clips」

Googleは小型軽量のカメラ「Google Clips」 (下の写真) を発表した。これはハンズフリーカメラでClipsが自動でビデオを撮影する。Clipsをテーブルの上に立てて置いたり、椅子に挟んで使う。Clipsは興味あるシーンを認識し自動でシャッターを切る。また、専用アプリで利用者がシャッターボタンを押して撮影することもできる。

出典: Google

人物を識別する

Clipsはインテリジェントな機能を持ちAIが人物を識別する。このためClipsは親しい人物を中心に撮影する。また、Clipsは撮影のタイミングも自律的に判断する。被写体の動きが止まったタイミングを見て撮影を始める。また、被写体の一部が隠れているようなときは撮影しない。このため事前にClipsに家族関係者などを教えておく。また、Clipsを使うにつれ搭載されているMachine Learningは親しくしている人物を学びその人を中心に撮影するようになる。Clipsは屋内で家族やペットなどを撮影することを想定してデザインされている。

専用AIプロセッサを搭載

Clipsは専用AIプロセッサを内蔵している。このプロセッサはMovidius社の「Myriad 2」で、Computer Vision機能を司る。ここで人物の顔を認識しAI機能はデバイス上で実行される。この方式は「On-Device AI」と呼ばれる。クラウドと接続する必要はなく、顔情報をデバイスに格納し個人のプライバシーを守ることができる。

カメラとAIは相性がいい

Googleはハードウェア製品にAIをフルに実装し機能強化を推し進めている。Pixel 2ではAIがプロの写真家の役割を担い高品質なイメージを生成する。Clipsではもはや写真を撮影する行為は必要が無くAIが最適なシーンを撮影する。カメラはコンピュータとなり機能や特性はDeep Learningが決定する。カメラとAIは相性が良く技術革新が急速に進むことになる。

Apple iPhone Xは顔認証を導入、写真はドラマチックに仕上がる、AIチップで画像認識を強化

Wednesday, September 13th, 2017

Appleは新本社で次世代ハイエンドモデル「iPhone X」を発表した。iPhone Xは顔認証方式「Face ID」を導入し、カメラに顔を向けるだけで認証ができる。顔認証は指紋認証より安全性が高く、Appleが導入したことで一気に普及が進む可能性を秘めている。

出典: Apple

次世代モデル三機種を発表

AppleはiPhone次世代モデル三機種を発表した。最上位機種はiPhone X (上の写真、左端) で、デバイスの前面が全てディスプレイ (Super Retina HD Display) となりホームボタンが無くなった。iPhone 7の後継モデルとしてiPhone 8 (上の写真、右端) とiPhone 8 Plus (上の写真、中央) が発表された。三機種とも新型プロセッサ「A11 Bionic」を搭載しAIとグラフィック機能を強化している。

Face IDとは

iPhone Xは顔認証機能「Face ID」を備えており、デバイスのロックを解除するには顔をカメラにかざすだけ (下の写真)。顔がパスワードになりデバイスをオープンできる。また、Apple Payで支払いをする際も顔をカメラに向けるだけで認証が完了する。指をホームボタンに押し付ける操作は不要で、安全なだけでなく使いやすくなった。

出典: Apple

顔認証のメカニズム

Face IDを使うためには事前に顔を登録する必要がある。システムの指示に従って顔をカメラに向け、ディスプレイに示された円に沿って顔を回す (下の写真)。iPhone Xは「TrueDepth Camera」と呼ばれる特殊なカメラを搭載している (先頭の写真左側、ディスプレイ最上部の黒いバーの部分)。顔を登録する時はTrueDepth Cameraのプロジェクター (Dot Projector) から3万個のドットが顔に照射され、これを赤外線カメラ (Infrared Camera) で読み込み顔の3Dマップを作成する。

出典: Apple

この情報がプロセッサのストレージ (Secure Enclave) に暗号化して格納される。Face IDを使うときは光源 (Flood Illuminator) から赤外線が照射されこれを赤外線カメラで読み込み、登録した顔のマップと比較して認証を実行する。

利用者の風貌が変わると

顔認証では利用者の状態が変わるという課題を抱えている。髪を伸ばしたり眼鏡をかけると登録した顔のイメージと異なり本人確認が難しくなる。このためAppleは機械学習 (Machine Learning) の手法を使って両者のイメージを比較する方式を採用した。アルゴリズムは登録した顔が髪を伸ばし眼鏡をかけるとどう変化するかを機械学習の手法で学習する。様々な条件を事前に学習しておき利用者の外観が変わっても高精度に判定できる。また、顔を3Dで比較するので写真を使って不正に認証を受けることはできない。

カメラの特殊効果

TrueDepth Cameraは自撮り (Selfie) する際に特殊効果を出すために使われる。これは「Portrait Lighting」という機能でスタジオで撮影する時のように、あたかも光を調整したかのように特殊効果を出す。Natural Lightというオプションを選択すると自然光のもとで撮影したように写る (下の写真、左側)。Studio Lightを選択するとスタジオの明るい環境で撮影した効果が出る。Contour Lightは顔の凹凸を際立たせ (下の写真、中央) ドラマチックな仕上がりとなる。Stage Lightは背景を黒色にして顔を浮き上がらせる (下の写真、右側)。

出典: Apple

カメラの性能はAIで決まる

TrueDepth Cameraはステレオカメラでオブジェクトを3Dで把握する。カメラが人物と背景を区別し、更に、AIが人物の顔を把握しここに光を当てて特殊効果を生み出す。メインカメラにもPortrait Lighting機能が搭載されており上述の機能を使うことができる。カメラは光学センサーが差別化の要因になっていたが、今ではキャプチャしたイメージをAIで如何に綺麗に処理できるかが問われている。iPhoneカメラはSoftware-Defined Cameraと呼ばれソフトウェアが機能を決定する。

絵文字を動画にしてメッセージを送る

TrueDepth Cameraを使うと絵文字の動画「Animoji」を生成して送信できる。カメラは顔の50のポイントの動きを把握し、これを絵文字キャラクターにマッピングする。笑顔を作るとキャラクターも笑顔になる (下の写真)。ビデオメッセージを作る要領で録画すると、キャラクターがその表情を作り出し音声と共にiMessageで相手に送信される。猫の他にブタやニワトリなど12のキャラクターが揃っている。

出典: Apple

AIプロセッサ

これら機械学習や画像処理を支えているのがAIチップA11 Bionicだ。名前が示しているようにAI処理に特化したエンジン「Neural Engine」を搭載している。Neural Engineは機械学習処理専用のエンジンで人や物や場所などを高速で把握する機能を持つ。このエンジンがFace IDやAnimojiの処理を支えている。またAR (拡張現実) における画像処理もこのエンジンにより高速化されている。

価格と出荷時期 (米国)

ハイエンドのiPhone Xの価格は999ドルからで11月3日から出荷が始まる。また、iPhone 8 Plusの価格は799ドルからでiPhone 8は699ドルからとなっている。両モデルとも9月22日から出荷が始まる。

iPhone発売から10周年

発表イベントは新設されたApple本社 (下の写真、左奥) に隣接するSteve Jobs Theater (下の写真、中央) で開催された。イベントの模様はライブでストリーミングされた。これはSteve Jobsを記念して建設されたシアターで円形のアーキテクチャになっている。一階部分は円盤状のロビーで、シアターは地階部分に設けられている。今年はiPhone発売から10周年の区切りの年になり、これを象徴してiPhone X (10) が登場した。

出典: Apple

Google PixelはApple iPhoneを超えた!スマホがAIで構成される

Friday, October 28th, 2016

Googleは独自に開発したスマホ「Pixel」を投入した。ハードウェア機能が格段に向上しただけでなく、AIが利用者とのインターフェイスとなる。PixelはGoogleが運営するMVNO (仮想モバイルネットワーク) で利用できる。Googleモバイル事業はAndroidとハードウェアとネットワークを垂直に統合したモデルに進化した。Pixelを使ってみると先進的な機能に感銘を受け、これが近未来のスマホの姿を示していると実感した。

出典: Google

独自ブランドのスマートフォン

Googleは2016年10月、Googleブランドのスマートフォン「Pixel」 (上の写真) の販売を開始した。手に取ってみるとPixelはiPhoneと見間違うほど似ている。よく見るとPixelの表面にはホームボタンはなく、背後に円形の指紋センサー (Pixel Imprint) が搭載されている。ここに指をあててデバイスをアンロックする。PixelはGoogleがゼロから開発したスマホで、台湾HTCが製造する。AppleのようにGoogleがスマホ全体を開発して製品を販売する。

PixelはAIスマートフォン

Pixelは最新基本ソフト「Android 7.1」を搭載し、そこには会話型AI「Assistant」が組み込まれている。AssistantはApple Siriに相当する機能で、言葉で指示するとコンシェルジュのように応えてくれる。AIがスマホ機能の中心となり、Pixelはソフトウェアと人工知能の交点として位置づけられる。

ハードウェアの完成度が格段に向上

Pixelはハードウェアとしての完成度が格段に向上した。iPhoneのような形状となり、薄くて軽くて快適に使える。Nexusシリーズと比較すると数世代分を一気に成長した感がある。ディスプレはAMOLEDでカメラは12.3MPの解像度とf/2.0の口径を持つ。Pixelカメラは「Software-Defined Camera」と呼ばれ、ソフトウェアが驚くほどきれいな画像を創りだす。Pixelカメラの性能はiPhone 7を超えたと評価されている。

Assistantが会話を通して生活をサポート

PixelはAIスマホとして位置づけられ、Assistantはコンシェルジュのように会話を通して生活をサポートする。Pixelに対し「Ok Google」と語り掛けるとAssistantが立ち上がり、これに続く言葉を認識する。「When does the San Francisco Moma close」と質問すると、「Moma is open now, it closes at 5 pm」と答える。美術館は5時に閉館するのでまだ開いていることが分かる (下の写真左側)。Assistantは声を聞き分ける生体認証機能があり、筆者のPixelに対して他人が「Ok Google」と呼びかけれも反応しない。

出典: VentureClef

Assistantで撮影した写真を探す

Assistantは写真検索で威力を発揮する。「Show me my photos in the rain」と指示すれば、雨の日に撮影した写真を表示する (上の写真右側上段)。「Show me my pictures taken at Google campus」と指示すると、Googoleキャンパスで撮影した写真を表示する (上の写真右側下段)。音声で操作できるのでスマホでサクサク検索できる。Pixelで撮影した写真はオリジナルサイズで写真アルバム「Google Photos」に格納される。ストレージ容量の制限は無く何枚でも格納できる。

Assistantでレストランを予約する

Assistantは情報検索だけでなく指示されたタスクを実行する。レストランを予約する時はAssistantと対話しながら場所や時間などを決めていく。最後に確認画面が表示され、Yesと答えるとレストランアプリ「OpenTable」で予約が完了する。電話で話すように驚くほど簡単にレストランの予約ができる。また、Assistantは一日のスケジュールを管理する。「What’s next on my calendar」と質問するとAssistantは次の予定を回答する。ここでは予約したレストランの概要が示された (下の写真左側)。

出典: VentureClef

Assistantでアプリを操作する

AssistantはPixelアプリを操作できる。つまり、搭載しているアプリを音声で利用できる。Assistantに「Katy Perry on Instagram」と指示すると、インスタグラムのPerryのページを開く (上の写真右側)。また、「Open Snapchat」と指示すると、スナップチャットが起動してメッセージを読むことができる (下の写真左側)。Assistantに「Play music by Beyoncé」と指示すると、音楽アプリ「Google Music」が起動しビヨンセの音楽を再生する (下の写真右側)。Assistantの音声認識精度は高く、言葉でスマホを操作できるのはとても便利だ。

出典: VentureClef

カメラの性能が業界トップ

Pixelの最大の特長はカメラの性能が業界トップであることだ。カメラの性能は「DxOMark」のベンチマーク指標が使われる。これによるとPixelカメラは89ポイントをマークし、Apple iPhone 7の86ポイントを上回った。今までのトップはSamsung Galaxy S7 Edgeなどで88ポイントをマークしているがPixelがこれを追い越した。DxOMarkはカメラ、レンズ、スマホカメラの性能を評価するサイトでDxO Labs.が運営している。同社は光学関連のソフトウェアやデバイスを開発するフランス企業。

イメージング処理ソフトウェアの威力

Pixelカメラの性能がトップとなった理由はイメージング処理ソフトウェアのアルゴリズムにある。カメラはGoogle独自のハイダイナミックレンジイメージング機能「HDR+」を搭載する。この機能によりダイナミックレンジが広がり、明るい箇所から暗い箇所までバランスよく撮影できる。下の写真はその事例で、厳しい逆光のもとGoogle本社ビルを撮影したもの。肉眼では真っ黒に見えたガラス張りのビルが内部まで写っている。同時に、背後の青空とまぶしい雲がちゃんと写っている。HDR+の威力を感じる一枚となった。

出典: VentureClef

HDRとは

HDR (High Dynamic Range) イメージングとは、異なる露出の複数枚の写真を組み合わせて一枚の写真を生成する技術を指す。一般にHDRは被写体に対して三枚の写真を使う。Underexposure (露出アンダー)、Overexposure (露出オーバー)、及びBalanced (適正露出) の三枚の写真を撮影し、ここから最適な部分を抽出し、これをつなぎ合わせて一枚の写真を生成する。

HDR+とは

これに対してPixelのHDR+は同じ露出の写真を多数枚組み合わせて一枚の写真を生成する。Pixelはカメラアプリを開いた時から撮影を始め、シャッターが押されたポイントを撮りたいシーンと理解する。露出を上げないので暗い部分はノイズが乗ることになる。しかし、暗い部分の写真を数多く重ね合わせることで数学的にノイズを減らす。この手法により、重ね合わせがシンプルになり、ゴーストが発生しないという特徴がある。下の写真はまぶしい雲を背景に星条旗が風にたなびいているが、ゴーストは発生していなく細部まで写っている。

出典: VentureClef

Software-Defined Camera

Pixelカメラは特殊なハードウェア機構は備えていない。Googleはコモディティカメラを使いソフトウェアでイメージング技術を向上させるアプローチを取る。これは「Software-Defined Camera」と呼ばれソフトウェアがカメラの性能や特性を決定する。一眼レフカメラは高価なハードウェアで1枚だけ撮影する。これに対しGoogleは安価なカメラで大量の写真を撮影してソフトウェアで最適化する。イメージング技術はAIを含むアルゴリズムが勝敗を決める。

音声で写真撮影

Pixelカメラは音声で写真を撮影できる。これはAssistantの一部で、フロントカメラで自撮りする時は、「Ok Google, take a selfie」と語るとシャッターが下りる。腕を伸ばして難しい姿勢でシャッターを押す必要はない。メインカメラで写真撮影をするときも、「Ok Google, take a picture」と言えばシャッターが下りる。タイマーを使う代わりに音声で集合写真を撮影できる。メインカメラからフロントカメラに切り替えるときは、Pixelを縦に持ち二回ひねる。

指紋センサー

Pixelをアンロックする時には指紋認証を使う。上述の通りPixelにはホームボタンはなく、背後の指紋センサーに指をかざす。片手で操作でき、かつ、スリープ状態から直接アンロックできるのでとても便利。Pixelは指紋認証の認識率が非常に高く、殆どのケースで1~2回程度でアンロックできる。指紋で認証できないときはPINなど従来方式の認証を行う。

Googleが独自のネットワークを運営

Pixelは米国最大のキャリアVerizonが販売している。また、Google独自のネットワーク「Fi Network」を使うこともできる。Fi NetworkはMVNO (仮想モバイルネットワーク) 方式のネットワークで、背後でSprintとT-Mobile USの4G LTEが使われている。Fi Networkを利用する時は専用のSIM Cardを挿入する。PixelはGoogleオリジナルのスマホをGoogleネットワークで運用する構造となっている。

Fi Networkの特徴

Fi Networkは単に通信網を提供するだけでなく、両者のうち電波強度の強いネットワークに自動で接続する。また、LTEやWiFiなど異なるネットワーク間で最適な通信網を選択し、サービスを途切れなく利用できる。屋内では通話やテキストメッセージはWiFi経由で交信する。屋外に出るとGoogleの移動体ネットワークFi Networkに接続される。

出典: VentureClef

ネットワーク間での自動切換え

このためネットワーク間で途切れなくサービスを利用できる。自宅でWiFi経由で電話している時、屋外に出るとネットワークがLTEに切り替わる (上の写真左側)。通話は途切れることなくシームレスにハンドオーバーされる。通話だけでなくデータ通信でも自動でネットワークが切り替わる。自宅のWiFiでGoogleの音楽ストリーミングを聞きながらクルマで屋外に出るとFi Networkに切り替わる (上の写真右側)。

出典: VentureClef

クルマの中でAssistantが大活躍

クルマの中では言葉でAssistantに指示して好みの音楽を聴ける。電話やメッセージもAssistantに言葉で指示して発信する。ナビゲーションもAssistantに言葉で語り掛けて使う。少し大きめの声で語り掛ける必要はあるが、Assistantは運転中に絶大な威力を発揮する。今ではPixelはドライブに必須のインフォテイメントデバイスとなった。

シンプルで良心的な料金体系

Fi Networkの料金体系はシンプルで基本料金とデータ料金の組み合わせで構成される。基本料金は月額20ドルで、ここに通話、テキストなどが含まれる。データ通信は月額10ドル/GBで、例えば2GBで契約すると月額20ドルとなる。制限量まで使っていない場合は、翌月分の料金から差し引かれる、良心的な料金体系となっている (上の写真左側)。またデータ通信料はグラフで示され (上の写真右側) 使用量を明確に把握できる。(ロックスクリーン左上にFi Networkと表示される、下の写真左側。アイコンは小さめの円形になりホームスクリーンのデザインがすっきりした、下の写真右側。)

出典: VentureClef

Samsungとの関係は微妙

Googleのモバイル事業はAndroidを開発しこれをパートナー企業に提供することで成り立っている。SamsungなどがAndroidを利用してスマホを販売している。このためスマホ事業はSamsungなどに依存しているだけでなく、Googleの収益構造が問われてきた。事業が拡大するのはSamsungでGoogleは大きな収益を上げることが難しい状態が続いている。GoogleがPixelでスマホ事業に乗り出すことで、Appleのような垂直統合型となり、収益構造も改善すると期待される。一方、Android陣営内でGalaxy顧客がPixelに乗り換えることも予想され、Samsungなどパートナー企業との関係が難しくなる。

ソフトウェア+デバイス+ネットワーク

Googleは基本ソフト (Android) とデバイス (Pixel) だけでなく、ネットワーク (Fi Network) を含めた垂直統合システムでモバイル事業を始めた。Appleのようにスマホを販売するだけでなく、それを運用するネットワークも提供する。キャリアが提供するネットワーク単体では技術進化が停滞している。Googleはデバイスとそれをつなぐネットワークを統合することでイノベーションを起こせるとしている。AIスマホを独自のネットワークで結び、Googleはスマホ事業の近未来の姿を示している。