GoogleはAIスピーカー「Home」を大幅強化、高度なDeep Learningが製品の価値を決める

Googleは2017年10月4日、ハードウェア新製品を一挙に発表した (下の写真)。製品はハードウェアがソフトウェアとAIに融合した形式となっている。AIが製品を差別化する決定的な要因になっていることが分かる。

出典: Google

新製品ラインアップ

発表された製品は次の通り。「Pixel 2」はスマホ最新モデルでAIを使ったイメージング技術でカメラの性能が格段に向上。AIスピーカーGoogle Homeの小型モデル「Mini」と最上位モデル「Max」が登場。「Google Clips」はAIカメラでアルゴリズムが最適なシーンを識別し自動で撮影する。「Google Pixel Buds」はBluetoothヘッドセットで音楽を再生し異なる言語を翻訳する。この他に「Pixelbook」と「Daydream View」の新製品が登場した。

ドーナツ型の「Mini」

発表の主要テーマはAIで全ての製品がAIで強化された。その中でもGoogle HomeのAI機能が大きく進化した。Google Home製品ラインが拡充され「Mini」と「Max」が登場した。これらは「Home」と同様にAIアシスタント「Google Assistant」が搭載され、ヒトの言葉を理解し音声で操作する。Miniはドーナツサイズの形状で (下の写真)、上部にはLEDライトが搭載されデバイスの状況が表示される。各部屋に一台備えることを前提としたデザインで、家庭空間がAIで埋め尽くされる。

出典: Google

音質を重視した「Max」

Maxは音質を重視したモデルでハードウェアとAIでこれを達成する (下の写真)。Maxは4.5インチのウーファーを2基搭載しディープなサウンドを生成する。「Smart Sound」機能を搭載し、AIが置かれた環境やコンテクストに合わせ音楽を再生する。AIが部屋の形状を把握しそれに最適なサウンドを再生する。また、朝はボリュームを控えて再生するが、食器洗い機が回っている時はボリュームを上げる。

出典: Google

Google Assistantがベース

HomeにはAIアシスタント「Google Assistant」が組み込まれ製品の中核機能となる。Google Assistantはこの他に、スマートフォン (AndroidとiOS)、スマートウォッチ (Android Ware) 及びテレビ (Android TV)にも対応し、製品インターフェイスは急速に音声に向かっている。Google Assistantはエコシステムを広げ、スマートホーム関連ではNest、Philips Hue、SmartThingsなど1000製品とリンクしている。

Google Assistant新機能

Google Assistantは質問に応え、音楽を再生し、家電を制御するハブとなる。また、六人の声を聞き分け (Voice Matchという機能)、利用者に沿った対応ができる。発表イベントではGoogle Assistantの新機能が紹介された。「Everyday Routines」は一言で複数のコマンドを実行する機能。例えば、「Good Morning」というと、Homeは一日のスケジュールを確認し、道路渋滞情報を知らせ、主要ニュースを読み上げる。「Let’s Play a Game」と指示すると子供向けのゲームが始まる。Homeは子供に人気のデバイスで、子供たちが安全に使える機能が登場した。

スマートホーム連携が強化された

Google HomeはAlphabet配下のスマートホーム企業Nestとの連携を強化した。Nestのセキュリティカメラ「Nest Cam」をGoogle Homeから操作できるようになった。例えば、玄関で物音がしたときに「Show me the entryway on my TV」と語ると玄関の様子がテレビに映し出される (下の写真)。

出典: Google

ドアベル「Nest Hello」をGoogle Homeから操作できる。Nest Helloは顔認識機能を備え来訪者を識別できる (Familiar Facesという機能)。来訪者がドアベルを押すとHelloはその人物を認識し、Google Homeは「Anti Susie is at the front door」と訪問者の名前を知らせてくれる。Nestと連携することで家屋のセキュリティをGoogle Homeで集中管理できる。

出典: Google

DeepMindの音声合成技術

Google Homeの音声が高度なAIを適用することでとても滑らかになった。DeepMindは昨年、音声合成(Speech Synthesis)に関する新技術を発表した。これは「WaveNet」と呼ばれDeep Neural Networkを使い人間のような自然な発声ができる技法を開発した。一般に音声合成は言葉をごく小さなパーツに分けてこれを繋ぎ合わせる方式 (Concatenative TTS)でスピーチを生成する。このため機械的でぎこちないトーンとなる。

滑らかなスピーチを生成する仕組み

これに対してDeepMindは従来方式と全くことなるアプローチを取る。WaveNetは多くの音声サンプルを学び、音声の波形(Audio Waveform)をゼロから丸ごと生成する。具体的にはネットワーク (Convolutional Neural Network、下の写真) はスピーチの構成を学習し、どの音色(Tone)の後にどの音色が続くか、また、どんな波形(Waveform)が自然であるかを学ぶ。このため、非常に滑らかな音声を合成できるようになった。

出典: Aaron van den Oord et al.

WaveNetをGoogle Homeに適用

しかし、昨年の時点では音声合成を短時間で実行することができなかった。0.02秒のオーディオを生成するために1秒を要した。DeepMindはこのアルゴリズムを改良し、高速で音声合成ができるようにした。1秒のオーディオを50ミリ秒で生成できリアルタイムで使えるようになった。Google Homeで使われている音声は改良されたWaveNetで生成されたものである。WaveNetは英語と日本語を対象としており、日本で発売されるGoogle Homeの音声はWaveNetで生成されたものである。

AIが差別化の要因

このようにGoogle Homeはシステムの背後で最新のAI技法が幅広く使われている。利用者の音声を認識するだけでなく、音声合成でもAI無しでは実現できない。ハードウェア製品の主要機能は各社とも横並びの状態になり、これからはAIが差別化の要因となり製品価値を決定する。

Leave a Reply

You must be logged in to post a comment.