Archive for July, 2018

GoogleはAIコールセンターを発表、人間に近づきすぎたAIが顧客のクレームを処理

Friday, July 27th, 2018

GoogleはコールセンターにAIを統合したサービス「Contact Center AI」を発表した。Google Cloud Nextで科学研究責任者のFei-Fei Liが基調講演の中で明らかにした(下の写真)。Contact Center AIはコールセンターのオペレーター業務をAIで代行するもので、顧客からの問い合わせに、人間のようにインテリジェントに対応する。

出典: Google

AIが消費者の苦情を処理

講演の中でContact Center AIのデモビデオが紹介された。消費者が、購買した商品を返品するため、eBayのコールセンターに電話したという設定で、Contact Center AIの機能が紹介された。消費者がコールセンターに電話するとAIに繋がり、AIは人間のように自然な会話で対話する。AIが消費者の苦情を聞き、その内容を理解して、事務処理を完結した。

AIと人間の共同作業

具体的には、消費者はテニスシューズを買いたかったが、間違えてランニングシューズを購買したので、これを返品したいと申し出た。AIは会話を通して、消費者の意図を理解し、商品返品のプロセスを実行した。更にAIは、消費者はテニスシューズを買いたいという意図を掴み、電話をファッション担当オペレーターに転送した。消費者はオペレーターと会話して、目的のシューズを購買することができた。インテリジェントなAIが示されたことに加え、人間と協調してコールセンターのタスクを実践する仕組みも明らかになった。

消費者とAIとの会話

消費者とAIの会話は次の通り進行した:

AIは冒頭でマシンであることを明らかにし、人間そっくりの口調で消費者と対話を始めた。ここにGoogle Duplex(人間過ぎる仮想アシスタント)の技法が使われている。オープンエンド形式の会話モデルで、AIはHelloと挨拶してから要件を確認した。オープンエンド形式とは、テンプレートが無い会話モデルで、消費者の発言にAIが臨機応変に対応する。多くのコールセンターはツリー形式の会話モデルで、質問に答えながらガイダンスが進む。

AI:Hello Mala, I am an automated agent.  Welcome back to eBay.  It looks like we delivered six running shoes on June 26the.  Are you calling about this order?

出典: Google

消費者は購買したシューズが合わないので返品したいと告げる(上の写真)。AIはこれを理解して、返品のプロセスを起動し、その確認書をメールで送信したと告げる。

消費者:Unfortunately, they don’t fit.  So I need to return them.

AI: I can help you that.  I am starting a return for you.  You will be receiving an email with the details of your return.

AIは消費者の意図を把握し、更に、会話した情報を記録する。AIは、消費者は返品だけでなく、目的のシューズを探していることを推測する。AIは消費者にファッション担当オペレーターに電話を転送しましょうかと提案。消費者はイエスと答え、AIはオペレーターに電話を転送した。

AI:One more thing.  Would you like me to connect to an eBay fashion expert to find the right shoes?

オペレーター向けの情報

電話が転送されると、オペレーターのデスクトップには消費者とAIの会話が表示され、今までの経緯を理解することができる。更に、オペレーターが消費者と会話を進めると、AIは対話をリアルタイムで解析し、消費者の意図を把握し、最適な商品を推奨する。このケースでは、AIはハードコート用のテニスシューズを推奨し(下の写真)、消費者はこれを購入して一連のトランザクションが終了した。

出典: Google

システム構成

このケースではGoogle Cloudで稼働するGenesysのコールセンターシステムが使われた (下の写真、中央部)。消費者(左側)はAI(AI Virtual Agent、中央上部)と対話し、AIが自然言語でクレーム処理のタスクを実行する。次に、AIはオペレーター(右側)に電話を転送する。オペレーターが消費者と会話する際に、別のAI(Agent Assist、中央下部)が会話をリアルタイムで解析し、推奨製品などをディスプレイに表示する。

出典: Google

インテグレーション

Contact Center AIは既存のコールセンターシステムに統合して利用される。Contact Center AIがインテリジェントな音声対応機能(Interactive Voice Response)を司り、コールセンターの頭脳として機能する。このデモではGenesysが使われたが、この他に、Mitel、Cisco、TwilioなどのシステムでContact Center AIを使うことができる。企業はコールセンター業務をContact Center AIで実行し、人間のオペレーターを知的な業務に振り向けることができる。

Google Duplex

Googleはこれに先立ち、会話型AI「Google Duplex」を公開している。Duplexは人間のように会話するAIで、レストランの店員と話してテーブルを予約する(下の写真)。話し方が人間そっくりで、市場からは驚嘆の声が上がっている。同時に、なぜAIをここまで人間に近づける必要があるのか、議論となっている。Google Duplexは消費者向けのサービスとして登場したが、Contact Center AIに組み込まれ、適用範囲が企業向けに拡大した。

出典: Google

人間の能力を開花させる

Googleは先進的なAIを投入し社会で波紋が広がっているが、企業向けのソリューションであるContact Center AIでは、人間との協調を重視している。Fei-Fei Liは事務的な作業はAIに任せることで、人間は知的な仕事に専念できると説明した。これを「Elevating Human Talent」と呼び、Contact Center AIはオペレーターの職を奪うのではなく、人間の能力を開花させる存在であることを強調した。

AIコールセンター市場

AIコールセンターではIBM Watsonなどが先行しているが、Googleは強みであるAIを全面に押し出して、インテリジェントな機能で先行他社に挑戦する。今回の発表では、各社が独自のAIを開発するためのツールも公開された。業務形態に合わせてAIコールセンターを開発することができる。多様なキャラクターのエージェントが開発され、人間より対応が上手なAIが登場するのか、期待が膨らむ技術である。

フェイスブックは知的なAIを開発、AIがニューヨークで観光案内をしながら人間の言葉を学ぶ

Friday, July 20th, 2018

AIの自然言語機能が向上し、クールな仮想アシスタントの登場が相次いでいる。しかし、本当に役に立つ仮想アシスタントを開発するためには、AIはインテリジェントになり、人間のように言葉の意味を理解する必要がある。フェイスブックはこのテーマに取り組み、AIが実社会に接して一般常識を身に付け、人間のように言葉を理解する研究を進めている。

出典: Facebook AI Research

Talk the Walk

フェイスブックAI研究所 (Facebook AI Research)はこのテーマに関し、論文「Talk the Walk: Navigating New York City through Grounded Dialogue」を発表した。AIが街に出て、実社会とのインタラクションを通し、インテリジェンスを習得する技法を示している。二つのAI (Agent) が生成され、ガイドのAgentが観光客のAgentに言葉で道案内をする。このタスクは「Talk the Walk」と呼ばれ、会話を通し、ガイドのAgentが道に迷った観光客のAgentを目的地まで案内する (上の写真、右側は両者の会話で、左側は観光客が見ている風景)。

自然言語解析技法の進化

AIの登場で自然言語解析技法が飛躍的に進化した。特に、機械翻訳(Machine Translation)と言葉の理解(Natural Language Understanding)に関し、AIは飛躍的な進化を遂げ、我々の暮らしを支えている。しかし、AIは翻訳や会話ができるようになったが、アルゴリズムは言葉の意味を理解しているわけではない。AIは言葉の意味を理解しないまま、人間を模倣して会話しているに過ぎない。

教育手法が間違っている

AIが知的になれない理由は教育手法にあり、アルゴリズムは大量のテキストデータで教育され、統計手法に基づき翻訳や対話をするためである。フェイスブックは知的なAIを開発するには、社会の中で環境や他の人と交わりながら言葉を学習することで、アルゴリズムは言葉の意味を理解し、言葉を話せるようになると主張する。

道案内のタスク

フェイスブックAI研究所は、言葉を環境と結びつける手法でAIを教育する研究を進めている。Talk the Walkが教育モデルとなり、ニューヨーク市街地で、二つのAgent (ガイドと観光客)が会話しながら、目的地を目指すタスクを実行する。ガイドはマップを見て目的地を把握できるが、観光客の場所は分からない (下の写真右側)。一方、観光客はマップを見ることはできないが、周囲360度の風景を見ることができる (下の写真左側)。ガイドは観光客と会話しながら目的地まで誘導する (下の写真中央部の吹き出し)。つまり、道に迷った観光客が案内所に電話して、目的地までの道順を聞いている状態を再現した形となる。

出典: Dhruv Batra et al.

マップを作成

研究チームはこのタスクを実行するために、ニューヨークの五つの地区を選び、それらのマップを生成した。マップには360度カメラで撮影した映像 (ストリートビュー) が組み込まれ、観光客は交差点の四隅で周囲の風景を見ることができる (上の写真左側、矢印にタッチするとその方向の風景を見ることができる)。更に、写真に写っているランドマーク (バーや銀行や店舗など) には、それが何であるかがタグされている。一方、ガイド向けには2Dのマップが用意され、ここに道路とランドマークが記載されている (上の写真右側)。

ガイドが目的地まで誘導

タスクはシンプルで、マップの中の観光客と対話しながら、ガイドが目的地まで誘導する。観光客はストリートビューを見て、目の前にあるランドマークをガイドに報告する。ガイドはこの情報を手掛かりに、観光客の現在地を把握し、目的地まで道案内をする。ガイドが観光客は目的地に着いたと確信した時点で道案内が終了する。システムは観光客が本当に目的地に到着したのかを検証し、一連のタスクが終了する。

ガイドと観光客の会話

ガイドと観光客は次のような会話を交わしながら目的地を目指す:

ガイド:近くに何がある?

観光客:正面にBrooks Brothers

ガイド:交差点の北西の角に行け

観光客:背後に銀行がある

ガイド:左に曲がり道を直進

観光客:左側にRadio Cityが見える

・・・

観光客が目的地に到達するまでこのような会話が続く。

位置決定モデル

ガイドが観光客を案内するためには、まず観光客の位置を把握する必要がある。観光客は目の前の風景を言葉でガイドに伝え、対話を通じてガイドは観光客の位置を把握する。このタスクを実行するために位置決定モデル「Masked Attention for Spatial Convolutions (MASC)」が開発された。MASCは風景の描写を言葉で受け取り、それを位置情報に変換する機能を持つ。

判定精度の評価

ニューヨーク市街地でMASCを試験してその性能を評価した。MASCの判定精度は高く、88.33%をマークし(下のテーブル三段目)、人間の判定精度76.74%を上回った(下のテーブル二段目、実際に人間同士がこのタスクを実行した)。但し、AIのケースでは人間の言葉は使わないで、特別な言語モデル(Emergent Communication)が使われた。この方式ではAIが生成する生データでAI同士が会話した。

一方、AIが人間の言葉を使って会話すると判定精度は50.00%に低下した(下のテーブル最下段)。この評価結果から、人間の言語は情報を正確に伝えるためには適した構造とはなっていないことも分かる。

出典: Dhruv Batra et al.

この研究の意義

Talk the WalkはAIが言語を学習するためのフレームワークを提供する。この方式は「Virtual Embodiment」とも呼ばれる。これは、複数のAgentが、生成された環境の中で、体験を通し、言葉の意味を学習する手法を指す。Talk the Walkはこのコンセプトに基づくもので、知覚(Perception)、行動(Action)、会話(Interactive Communication)機能を、AIが社会とのインタラクションを通して学習する。

AIに課された命題

上述の通り、AIが人間の言葉を使ってコミュニケーションすると、意思疎通の精度が大きく低下することも明らかになった。人間が使う言葉は曖昧さが多く、コミュニケーションツールとしては不完全であることが改めて示された。つまり、AIに課された命題は、言語という不完全なコミュニケーションツールから、厳密に意味を把握することにある。このためには、人間がそうしてきたように、AIも環境に接し言語を学ぶ努力が必要になる。Talk the Walkはオープンソースとして公開されており、AIが言語を学習するための環境を提供する。

フェイスブックは家庭向けロボットを開発!?ロボットの頭脳に人間の常識を教える

Friday, July 13th, 2018

ロボティックスに関するカンファレンス「RE•WORK Deep Learning in Robotics Summit」がサンフランシスコで開催された (下の写真)。ロボットの頭脳であるDeep Learningにフォーカスしたもので、OpenAIやGoogle Brainなど主要プレーヤーが参加し、基礎技術から応用技術まで幅広く議論された。

出典: VentureClef

Embodied Vision

フェイスブックAI研究所 (Facebook AI Research) のGeorgia Gkioxariは「Embodied Vision」と題して最新のAI技術を紹介した。Embodied Visionとは聞きなれない言葉であるが、Computer Visionに対比して使われる。Computer Visionがロボット (Agent) の視覚を意味することに対し、Embodied Visionはロボットの認知能力を指す。ロボットが周囲のオブジェクトを把握するだけでなく、人間のようにその意味を理解することに重点が置かれている。

Learning from Interaction

フェイスブックAI研究所はこの命題にユニークな視点から取り込んでいる。Gkioxariは、AIを人間のようにインテリジェントにするためには、「Learning from Interaction」が必要だと主張する。これは文字通り、インタラクションを通じて学習する手法を意味する。いままでにAIはデータセットからComputer Vision習得した。例えば、写真データセット「ImageNet」から猫や犬を判定できるようになった。これに加え、AIは環境 (Environment) のなかで、モノに触れて、その意味を学習することが次のステップとなる。Gkioxariは、赤ちゃんが手で触ってモノの意味を学ぶように、AIもインタラクションを通じ基礎知識を学習する必要があると説明した。

仮想環境を構築

このため、フェイスブックAI研究所は、AI教育のために仮想環境「House3D」を開発した。これは住宅内部を3Dで表現したもので、ロボットがこの中を移動しながら常識を学んでいく。ロボットが移動すると、目の前のシーンが変わっていくだけでなく、シーンの中に登場するオブジェクトには名前が付けられている。つまり、ロボットは仮想環境の中を動き回り、オブジェクトに接し、これらの意味を学習する。ロボットは異なるタイプの部屋からキッチンの意味を把握し、そこに設置されているオーブンや食器洗い機などを学んでいく (下の写真)。

出典: Georgia Gkioxari

学習方法

フェイスブックAI研究所は三つの視点からロボットを教育する。ロボットが仮想環境の中で、モノを見て言葉の意味を学習する。これは「Language Grounding」と呼ばれ、ロボットは環境の中でモノと名前を結び付ける (部屋の中で長い緑色のロウソクをみつけることができる)。二番目は、ロボットは家の中で指定された場所に移動する。これは、「Visual Navigation」と呼ばれ、ロボットは家の中の通路を辿りドアを開け、指定された場所まで移動する (寝室に行くように指示を受けるとロボットはそこまで移動する)。

EmbodiedQA

三つめは、ロボットは質問を受けると、家の中を移動してその解を見つけ出す。これは「EmbodiedQA」と呼ばれ、ロボットは回答を見つけるために仮想環境の中を移動する。従来のロボットはインターネット上で答えを見つけるが、EmbodiedQAは物理社会の中を移動して解を求める。例えば、「自動車は何色?」という質問を受けると (下の写真左側)、ロボットは質問の意味を理解し、家の中で自動車を探し始める。自動車はガレージに駐車されているという常識を働かせ、家の中でガレージに向かって進む。ロボットはその場所が分からないが、ここでも常識を働かせ、ガレージは屋外にあると推測する。このため、ロボットは玄関から屋外に出て、庭を移動し、ガレージにたどり着く。そこでロボットは自動車を発見し、その色が「オレンジ色」であることを把握する (下の写真右側)。

出典: Georgia Gkioxari

必要な機能

このタスクを実行するためには、ロボットの頭脳に広範なAI技法が求められる。具体的には、視覚(Perception)、言葉の理解(Language Understanding)、移動能力(Navigation)、常識(Commonsense Reasoning)、及び言葉と行動の結びつき(Grounding)が必要になる。Gkioxariの研究チームは、前述の3D仮想環境「House3D」でEmbodiedQAのモデルを構築しタスクを実行することに成功した。

ロボットの頭脳

このモデルでロボットの頭脳はPlannerとControllerから構成され (下の写真)、Deep Reinforcement Learning (深層強化学習) の手法で教育された。Plannerは指揮官で、進行方向(前後左右)を決定し、Controllerは実行者で、指示に従って進行速度(ステップ数)を決定する。PlannerはLong Short-Term Memory (LSTM) というタイプのネットワークで構成され、上述の通り、これをDeep Reinforcement Learningの手法で教育する。Plannerは人間のように試行錯誤を繰り返しながら常識を習得する。

出典: Georgia Gkioxari

知的なAIの開発は停滞

フェイスブックAI研究所は、これらの研究を通して、インテリジェントなロボットの開発を進めている。AIが急速に進化し、イメージ判定では人間の能力を上回り、囲碁の世界ではAIが人間のチャンピオンを破り世界を驚かせた。AIの計り知れない能力に圧倒されるが、AIは知的というにはほど遠い。AIはオブジェクト(例えば猫)の意味を理解しているわけではなく、また、囲碁という限られたタスクしか実行できない (例えばAlphaGOはクルマを運転できない)。いまのロボットは人間のように家の中を移動することさえできない。つまり、人間のようにインテリジェントに思考できるAIの開発はブレークスルーがなく滞ったままである。

精巧な仮想環境

このため、フェイスブックAI研究所は、全く異なるアプローチでAIを開発している。実社会を模した3D仮想環境の中でAIを教育し、この中でAIが複雑なタスクを自ら学んでいくことを目指している。AIが実社会の中で学習することで、人間のような視覚を持ち、自然な会話ができ、次の計画を立て、知的な思考ができるアルゴリズムを開発する。このためには、実社会そっくりな仮想環境が必要で、家の中を写真撮影したように忠実に描写した3D環境を開発している。同様にOpenAIやGoogle DeepMindもこのアプローチを取っており、精巧な仮想環境でDeep Reinforcement Learningの開発競争が激化している。

フェイスブックがロボット開発

ロボットの頭脳が知的になることで、人間の暮らしが根本的に変わる。フェイスブックは仮想アシスタント「M」を開発してきたが、製品としてリリースすることを中止した。Mはホテルのコンシェルジュのように、どんな質問にも答えてくれる仕様であったが、人間との会話トピックスは余りにも幅が広く、AIはこれに対応できなかった。また、フェイスブックはAIスピーカーを開発しているとも噂されている。Embodied Visionは仮想アシスタントやAIスピーカーを支える重要な基礎技術となる。更に、この研究が上手く進むと、家庭向けロボット開発のロードマップが見えてくる。フェイスブックがインテリジェントな家庭向けロボットを開発するのか、市場の注目が集まっている。