Archive for November, 2014

IBMの機軸事業は人工知能へ、Watsonで知的アプリが続々誕生

Wednesday, November 26th, 2014

IBM 「Watson」は米国クイズ番組「Jeopardy」で歴代チャンピオン二人を破り社会を驚かせた。クイズには強いWatsonだが、IBMはビジネスへの応用に苦戦している。今年初頭、「Watson Group」が設立され、IBMの人工知能ビジネスの流れが変わった。ベンチャー企業からWatsonを活用した知的なアプリの登場が相次いでいる。WatsonはApple Siriのように身近な存在になり、IBMの人工知能ビジネスへの遷移が鮮明となった。

g392_ibm_watson_apps_01

知能イノベーションを起こす

人工知能ビジネスの中核を担うのがWatson Groupで、「Cognitive Innovations」 (知能イノベーション) を目指している。Watsonを核にインテリジェントなシステムやアプリを開発する。IBMはこのプロジェクトに10億ドルの予算を当て、このうち1億ドルをベンチャー企業への投資に振り向ける。Watson Groupはニューヨークのシリコンアレーに建設されたビル (上の写真) を拠点とし、2000人の体制で臨む。Watson Groupは上級副社長Michael Rhodinが指揮を取る。

g392_ibm_watson_apps_02

Watsonの作戦本部

このビルはWatson Groupの本社として機能し、三つの部門から構成される。「Incubator」はインキュベーターとして機能し、新興企業のアプリ開発を支援する。「Client Experience Center」は顧客向けショールームで、Watsonを使うことができる (上の写真)。「Design Studio」は顧客やパートナー向けの開発スタジオで、デザインや設計を中心にシステム開発を行う。Watsonの機能は、買収したSoftLayerを使って、クラウドとして提供される。Watsonは人工知能クラウドと位置付けられる。

Watsonとは

IBMはWatsonを「Cognitive Computing」 と呼び、自ら学習し、ヒトと会話できるコンピューターと定義している。Cognitiveとは認知できるという意味で、人工知能の中でも、データから意味を把握するという側面に焦点を当てている。具体的には、「Natural Language Processing」(自然言語解析) で言葉を理解し会話する。膨大な非定型データに対し、「Analytics」(解析) を行い知見を得る。過去に行った解析を経験に、学習を重ねていく。Watsonはヒトの言葉をを理解し、証拠に基づき仮説を立て、自ら学習していくマシンということができる。

知的アプリの開発が始まる

IBMは前述のベンチャーファンドで、新興企業に投資を始め、Watsonを活用した知的アプリの開発を急いでいる。2月には最初の投資先として「Welltok」を選定。同社はインテリジェントな健康管理アプリを手掛けている。二番目は「Fluid」で、デジタルショッピング技術を開発中。11月には「Pathway Genomics」への投資を発表した。同社は遺伝子解析結果を医師に代わり被験者に説明するアプリを開発する。今後は農業、娯楽、製造などの分野での知的アプリの開発を目指す。

g392_ibm_watson_apps_03

店員のようにふるまう「Fluid

投資先企業が開発している知的アプリの一端が見えてきた。Fluidはサンフランシスコに拠点を置くベンチャー企業で、Watsonを利用したアプリ「Fluid Expert Personal Shopper」を開発している。このアプリはアウトドア用品店「North Face」向けに提供される (上の写真は現行のショッピングアプリ)。オンラインストアー利用者は、小売店でスタッフに質問する要領でアプリに問いかけると、アプリが最適な商品を探し出す。アプリが店舗スタッフとなり、探しているものをズバリ提示する。

消費者は特定の商品 (例えばテント) を探すとき、Googleなどで検索し、Amazonで商品を絞り込んでいく。これに対しFluid Expert Personal Shopperは、言葉で質問するとズバリ回答してくれる。例えば、「10月にニューヨーク州北部に家族でキャンピングに行くのだが何が必要か?」と尋ねると、アプリは質問を理解し、最適なテントを提示する。更に、キャンプで必要なアイテムを推奨する。アプリが店舗スタッフの役割を担い、要領よく対応する。このシステムではアプリに、製品カタログ、教育マニュアル、専門家のアドバイス、利用者の評価など、数多くのデータを入力しておく。Watsonは膨大なデータを解析し、消費者の質問に回答する準備をしておく。更に、アプリは消費者との対話を通して学習し、知識を蓄えていく。

g392_ibm_watson_apps_04

医師の代わりをする「Pathway Panorama

Pathway Genomicsはサンディエゴに拠点を置くベンチャー企業で、個人向けに遺伝子解析サービスを提供している。同社はWatsonを利用し、インテリジェントな健康管理アプリ「Pathway Panorama」を開発中。アプリに話し言葉で質問すると、利用者の遺伝子情報などをベースに、健康維持のためのヒントを回答する。アプリはまるで病院の医師のように利用者の質問に的確に応対する (上の写真、イメージ)。

g392_ibm_watson_apps_05

Pathway Panoramaは、前準備として、利用者の健康に関するデータを収集しておく。ここには利用者の生活習慣、健康診断結果、遺伝子、バイタルサイン、電子カルテなど広範囲の情報が含まれる。バイタルサインについては利用者がウエアラブルを着装して収集する。これら個人情報をベースに、Watsonは医学論文や臨床試験結果など医学情報を参照し、個人に特化した解析を行う。具体的には、「今日はどれだけ運動すべき?」とか、「月曜日は何杯コーヒーを飲んでもいい?」と質問すると、アプリは質問に回答していく (上の写真、イメージ)。病院の医師に相談するように、自然言語でアプリに質問する。対象はPathway Genomicsで遺伝子解析を受けた利用者で、将来は病院での適用も計画している。

人工知能でサイバー攻撃を防ぐ

Watson Groupはパートナー企業とも知的アプリの開発を進めている。SparkCognitionはテキサス州オースティンに拠点を置くベンチャー企業で、セキュリティー技術を開発。同社はWatsonの人工知能を利用し、サイバー攻撃対応アプリ「Cognitive Security Insights」を開発中。このアプリは知的なセキュリティー機能を持ち、既存のSIEM (セキュリティー情報イベントシステム) 製品を強化する目的で使われる。アプリは知能ベースのアルゴリズムで、サイバー攻撃を検知し、内容を解析し、対応処置を行う。

g392_ibm_watson_apps_06

上の写真がその事例で、アプリはログファイルから攻撃エージェント「ZmEu」を検出したと警告メッセージを表示。下段には、ZmEuの概要と、このエージェントが攻撃ベクトルである確率 (95%) を表示している。アプリは攻撃エージェントを検出すると、ソーシャルメディ、チャット、ウェブサイトなどの情報から、その内容を把握する。次にWatsonは、攻撃エージェントへの対処法を示す。利用者のウェブサーバーが「Apache」であれば、Watsonは、「Apacheで特定エージェントをブロックする方法」を提示する。

g392_ibm_watson_apps_07

システム管理者はWatsonに対処法を尋ねることもできる。例えば、「どうやってIPアドレスをブロックするのか?」と質問すると、Watsonは知識ベースを検索し、回答を提示する (上の写真)。音声を入力して検索することも可能で、スマホから利用する際は便利だ。運用を始める前、Watsonにユーザマニュアル、製品資料、学術論文などを入力し、ナレッジベースを構築しておく。Watsonはナレッジベースから問題解決法を見つけ出し、システム構成変更など対処方法をアドバイスする。

g392_ibm_watson_apps_08

Jeopardyでの対戦を振り返る

Watsonがクイズ番組「Jeopardy」で歴代チャンピオンを破ったことは記憶に新しい。この対戦は、2011年2月14日から三日間、ニューヨーク州のIBM研究所で行なわれた。ここに特設スタジオが作られ、テレビ中継された (上の写真)。クイズ司会者はAlex Trebekで、回答者はWatsonの他に、Ken Jennings (連続優勝記録保持者) とBrad Rutter (最多賞金獲得者) の三人。この対戦ではコンピュータが人間の知識を上回ることができるかに注目が集まった。

g392_ibm_watson_apps_09

Jeopardyの人気と難しさ

Jeopardyはアメリカの人気クイズ番組で、1964年に始まり、いまだに人気は衰えていない。質問は六つのジャンルに分かれ、歴史、文学、科学、言語、カルチャーなど幅広いトピックスがカバーされる。人気の秘密は質問形式にある。質問は疑問文ではなく肯定文で表示され、ウィットに富んだ表現で、質問の意味を理解するために幅広い知識を必要とする。上の写真は質問例で、「空を飛べ、時に、未成熟な少年を指すこの名前」と問われている。答えは「ピーターパン」であるが、質問を聞き、意味を理解するのに一呼吸かかる。

g392_ibm_watson_apps_10

Watsonのシステム概要

Watsonはスタジオ施設内 (上の写真) に設置され、サーバーはラック10台に搭載された。プロセッサーはPower7で、2,880コアを並列稼動させた。対戦中はWatsonはインターネット接続は禁止され、オフラインで処理を実行。Watsonは事前に、インターネットでWikipediaなど主要サイトの情報をダウンロードしておき、このデータに対して検索処理を実行した。従来の手法は質問文でキーワード検索するが、この方法ではJeopardyの機知に富んだ質問に対応できないことが判明した。事実、上述の質問文で検索すると、結果には医学書などが示され、ピーターパンは登場しない。

DeepQAというインテリジェントな検索

そこでIBMは人工知能の技法を取り入れ、「DeepQA」というインテリジェントな検索方式を開発した。DeepQAは、質問に回答するため、四つのプロセスを経る。最初は「Question Analysis」で、何が問われているかを解析。次は「Hypothesis Generation」で回答候補を生成する。「Hypothesis & Evidence Scoring」では、解答候補が正しいかどうかを検証し、その確度を算定する。最後は「Final Merging & Ranking」で、過去のJeopardyの質問の解析から経験的に正解率を算定する。

つまり、Watsonは解答候補を見つけ、独自の手法で解答候補を評価する。解答候補は百件を超え、これをプロセッサー上で並列処理する。Watsonが参照するデータは200GB程度であるが、10TBのメモリー上で並列処理を実行する。Watsonが参照しているWikipediaなどのデータ量が200GB程度と、意外に小さいのに驚かされる。同時に、3秒以内に解答するため、大容量メモリー上に展開している点も興味深い。

g392_ibm_watson_apps_11

実際の対戦を見て

この対戦をテレビで見ていたが、Watsonが逆転優勝したのは余りにも印象的だった。実は、Watsonの強さを実感したのは、この後に行われた、シリコンバレーでの模擬対戦であった。コンピューター歴史博物館「Computer History Museum」で、Watson説明会が開催された。Watson生みの親であるDave Ferrucciが、システム概要や誕生の裏話を披露した。講演の後で、会場にセットされたJeopardyスタジオで、Watsonとの対戦が行なわれた (上の写真)。挑戦者はStacey Higginbotham (ハイテク記者)と、Robert Walker (ベンチャーキャピタル)で、司会はIBMのEric Brownが務めた。

Watsonはニューヨーク州のIBM施設にあり、リモートでの対戦となった。最初からWatsonの圧倒的な強さで試合が展開した。Watsonの一方的な強さで試合とはならず、途中から両氏は会場参加者を総動員して、ゲームに臨んだ。質問の答えを会場から叫び手助けしたが、それでも結果はWatsonの圧勝に終わった。因みに”獲得金額”は、Watsonが164,000ドル、Walkerが20,005ドル、 Higginbothamが45,789ドルとなった。Watsonは数百人との対戦を征し、その強さを身に染みて感じた。

g392_ibm_watson_apps_12

Computer History MuseumにはJeopardyスタジオが設けられており、ここに立ってWatsonと対戦する気分を味わえる (上の写真)。

ゲームには強いがビジネスで苦戦

Watsonは、Jeopardyで優勝したものの、この技術をビジネスに展開する面で苦戦している。Ferrucciは、WatsonのDeepQA技術を医療、法律、金融の分野に適用し、人間が意思決定する際に、それを裏付けるデータを提示するビジネスモデルを描いていた。IBMは大学病院と共同で、医師が患者への治療法を決定するためのシステムを開発してきたが、ビジネスとしての成功は限定的であった。

人工知能事業に本格参入

IBMは、前述の通り、Watson Centerを開設し、人工知能をクラウドとして提供することで、ビジネス拡大を目指している。いつの時代も斬新なアイディアはベンチャー企業から生み出され、知的なアプリの登場が始まった。IBMはWatsonで10年以内に100億ドルの売り上げを目指している。全社売り上げの1割程度となり、次世代ビジネスの中核を担うこととなる。IBMは1981年にIBM PCでパソコン事業に参入したが、Watson Groupはこれと同等のインパクトがある。人工知能事業が独立したビジネスユニットで展開される。Jeopardy優勝から三年を経て、Watsonがビジネスで活躍できるステージが整った。

Apple Siriに負けるな!ロボットやウエアラブルに頭脳を持たせる技術が登場

Friday, November 14th, 2014

音声アシスタント機能「Siri」はは、ヒトの言葉を理解し、指示に従ってタスクを完遂する。Siriがスマホの頭脳となり、自動車への展開も始まっている。ベンチャー企業も”Siri”を開発している。この技術をロボットやウエアラブルに応用すると、音声で操作できる。人工知能は大企業だけの技術ではなく、ベンチャー企業も開発を急いでいる。

g391_witai_01

キーボードを持たないデバイスの操作

この技術を開発しているのは「Wit.AI」というベンチャー企業だ。Wit.AIは、ヒトの言葉を解釈し、意図を把握する技術を開発している。いわゆる自然言語解析で、Apple Siriに代表されるように、スマホやタブレットを話し言葉で操作できる。Wit.AIはキーボードを持たないデバイスに特化して技術開発を進めている。これらデバイスは音声が唯一の入力モードで、ウエアラブル、自動車、スマート家電、ロボット (上の写真、音声指示に従って立ち上がっている様子)、ドローンなどへの展開を目指している。

音声操作の仕組み

Wit.AIは人工知能クラウドで、「音声認識」 (Speech Recognition) と「自然言語解析」 (Natural Language Processing) から構成され、利用者の音声指示から意図を解読する。音声認識とは、音声をテキストに変換する技術で、Wit.AIはオープンソース・ソフトウェア「CMU Sphinx」を利用している。これはカーネギーメロン大学が開発したシステムで、解析の前処理として利用している。自然言語解析とは、非定型な話し言葉を解析し、そこに含まれる命令を把握し、それをマシンが解釈できる形に置き換えるプロセスを指す。

g391_witai_02

発言内容を三種類に区分

具体的には上の写真のようなステップとなる。この事例では、利用者がスマートグラスに対し、「撮影した写真の最新三枚をGoogle+に掲載して」と音声で指示したところ。自然言語解析は、発言内容を三種類に区分する。「Intent」は利用者の意図で、ここでは「掲載する」ことを指す。「Expression」は表現方法で、音声での指示そのものを指す。「Entities」は表現方法の中の変数で、ここでは「撮影順序 (最新)」、「枚数 (三枚)」、「対象物 (写真)」、「ソーシャルメディア (Google+)」を指す。Wit.AIで解析したこれらデータをアプリに入力し、アプリは指示された内容を実行するという構造となる。

g391_witai_03

Wit.AIクラウドを利用する

ウエアラブルやロボット開発者は、Wit.AIクラウドを使って命令を定義する。上の写真がその事例で、「明日朝6時に起こして」という命令を定義しているところ。先頭のボックスに「wake me up tomorrow at 6」と「Expression」を入力し、「Intent」を「alarm (目覚ましを鳴らす)」と設定する。更に、「Entity」を「wit/datetime (日時)」と設定する。これで利用者が「明日朝6時に起こして」と口頭で指示すると、インテリジェント家電が6時に目覚ましを鳴らす仕組みとなる。更に、異なる言い回しの命令多数を追加していくことで、目覚まし時計はヒトの言葉を理解できるように成長していく。

g391_witai_04

スマートウォッチで利用されている

Wit.AIは既に3000社で利用されている。SamsungやPebble (上の写真) はスマートウォッチでWit.AIを利用している。スマートウォッチはキーボードを搭載しておらず、音声でデバイスを操作する。このため、Wit.AIのような機能が必須となる。因みに、Wit.AIはPebbleのオフィスに同居しており、両社は密接に技術開発を進めている。

g391_witai_05

ロボットを音声で操作

Wit.AIはAldebaran Roboticsの小型ロボット「Nao」で利用されている。Aldebaran Roboticsはフランスのロボット開発企業で、ソフトバンクに「Pepper」を供給していることで有名となった。ロボットを音声で操作する時もWit.AIが利用されている。上の写真はそのデモで、開発者 (Roland Meertens) がNaoに「Please shake my hand」と語りかけ、握手をしている様子である。Naoは命令を受けると、それをWit.AIに送信し、クラウド側で解析を行う。その結果がNaoに返され、利用者の意図に従ったアクションを取る仕組みとなる。この他にNaoは「1メートル前進」や「ダンスを踊りなさい」など、多くの命令を理解し、アクションを取ることができる。

スマホアプリを音声で操作

Wit.AIはスマホアプリでも利用されている。これは「M.A.R.A. Running Assistant」というランニングアシスタントで、音声でアプリを操作できる。ランニング中にスマホを取り出さないで、音声で操作できる。ベンチャー企業はSiri同等機能を使ったアプリを開発できるようになった。

g391_witai_06

上の写真はアプリを使って40分のウォーキングを行っているところ。アプリを起動するとマップが表示され、画面をタップして話しかける。「We are going to do a 40 minute walk」と指示し (左側) 測定を開始する。ウォーキングの途中で「How am I doing?」と質問すると、アプリは走行距離、残り時間、ペースを音声で回答する(右側)。「どこまで来た?」というように、異なる聞き方をしてもアプリは正しく回答する。ウォーキングの途中で天気、気温、時刻、場所などを尋ねると、アプリはそれに音声で答える。ウォーキング中に音楽の再生もできる。まるでApple Siriを使っている感覚だ。入力した音声はWit.AIクラウドで解析され、スマホに回答が戻ってくる。クラウドでの処理に多少時間がかかるが、問題なく利用できる。

ベンチャー企業が人工知能に向う

自然言語解析ではApple SiriやGoogle Nowが市場をリードしているが、Wit.AIのようなベンチャー企業から製品が登場している。Wit.AIは両社と比較すると製品完成度はもう一歩であるが、多くの製品で実績を積み改良を重ねている。人工知能はAppleやGoogleだけの技術ではなく、Wit.AIにより、新興企業が幅広く利用できるようになった。ロボットやウエアラブルで大きなブレークスルーが起こる環境が整った。

Amazonは”Siri”搭載スピーカー「Echo」を発表、狙いはスマートホーム!?

Friday, November 7th, 2014

Amazonは音声アシスタント機能を搭載したスピーカー「Amazon Echo」を発表した。Amazon Echoはインテリジェントな家電で、音声で操作する。質問すると人間の秘書のように音声で回答する。Amazon版”Siri”をスマホではなく、家電に搭載している点に特徴がある。家電が頭脳を持ち、Amazonのスマートホーム戦略の一端が見えてきた。

g390_amazon_echo_01

音楽を再生しニュースを聞く

Amazon Echoは円筒形スピーカーで、家の中に置いて利用する (上の写真)。Amazon Echoに語りかけ、音楽を再生し、最新ニュースを聞く。検索機能もあり、質問するとWikipediaなどを参照し回答する。Amazon Echoは常にオンの状態で、「Alexa」と呼びかけ、これらの機能を使う。

g390_amazon_echo_02

Amazon Echoをリビングルームに置くと、家族全員で利用できる (上の写真)。「Alexa, play rock music」と話しかけると、Amazon Echoはロックを演奏する。Amazon Echoは7台のマイクを搭載しており、全方向からの音声を聞くことができる。音楽再生中でも、ノイズ・キャンセレーション機能で、指示を聞くことができる。Amazon Echoはスピーカー二基を下向けに搭載しており、360度の方向に音が出て、部屋全体に音楽が流れる仕組みだ。

g390_amazon_echo_03

ショッピングリストに追加

お母さんは料理をしながらAmazon Echoを利用する (上の写真)。「Alexa, how many teaspoons are in a tablespoon?」と質問すると、Amazon Echoはテーブルスプーンはティースプーン三倍分と回答。更に、お母さんは「Alexa, set timer for eight minutes」と八分経ったら教えてと指示する。料理で両手がふさがっている時は音声インターフェイスのAmazon Echoは便利だ。

Amazon Echoはショッピングリスト機能もある。お母さんが「Alexa, add wrapping paper to shopping list」と指示すると、Amazon Echoは包装紙をショッピングリストに追加する。後日、タブレットで更新されたショッピングリストを見ながら買い物ができる。便利な機能であるが、Amazonとしてはこの機能で、オンラインストアーの販売が増えることを期待している。

g390_amazon_echo_04

家族の一員

Amazon Echoは目覚まし時計の機能もある。起床時間になるとサウンドで知らせる (上の写真)。これに対し「Alexa, alarm off」と語りかけ目覚ましを止める。起き上がり「Alexa, give me my flash news briefing」と指示すると、Amazon Echoはニュース (NPR News) を読み上げる。AmazonはAmazon Echoが家族の一員となるストーリーを提示している。

g390_amazon_echo_05

専用アプリから操作

Amazon EchoはスマホやタブレットとBluetoothでペアリングして利用する。Fire OS (上の写真)、Android、iOSブラウザー向けに専用アプリが提供されている。このアプリでアラームのセット、音楽再生、ショッピングリストへのアイテム追加などができる。Amazon EchoはWiFiでインターネットと接続し、家庭のコンセントから給電する。価格は199ドル (Prime会員向けには99ドル) で、販売開始は数週間以内としている。但し、購入にはAmazonからの招待状が必要。

自然言語解析が鍵となる

Amazon Echoはモノがインターネットに繋がれたInternet of Things (IoT) とも捉えることができる。利用者とのインターフェイスは自然言語で、人間の秘書のような役割を担う。この自然言語解析技術が鍵を握る。AppleはSiriを、GoogleはGoogle Nowを、MicrosoftはCortanaを展開している。Amazonはアシスタント機能ではやや出遅れた感がある。Amazonは、2012年10月、「Evi」というイギリス企業を買収した。Amazonからのコメントは無いが、Amazon Echoのアシスタント機能はEviが中心となっていると思われる。Eviは知識ベースとセマンティック検索技術をベースとしたアプリで、音声で質問すると、答えをズバリ音声で返す。Siriのように利用者の場所や時間などを把握し、インテリジェントな回答をする。

g390_amazon_echo_06

EviはiOSやAndroid向けアプリとして提供されている。上の写真はiOS向けアプリの事例で、明日の天気 (左側) と東京時間 (右側) を質問したもので、正しく回答している。Eviはインターネット上で公開されている信頼できる情報を収集し、知識データベースを構築。更に、Eviは自然言語解析で質問の意味を理解し、最適な形式で回答する。因みに「Amazon Echoとは?」と質問すると、「音声で操作するデバイス」であるとして、製品概要を回答した。サイトへのリンクも示し、製品PRも忘れなかった。

スマートホーム事業へのステップか?

Amazon Echoはスピーカーとして機能するが、家庭内の家電と連携すると、新たな展開が生まれる。Amazon Echoからエアコンの温度調整を行い、電燈のオンオフが可能となる。つまり、スマートホームのハブとして機能する。この市場では、Appleは「HomeKit」を発表し、スマートホーム事業を始動した。Googleは傘下の「Nest Labs」でインテリジェントなサーモスタットを開発中。更にNest Labsはスマートホーム新興企業「Revolv」を買収し、開発を加速している。RevolveはGoogle Glassから音声で家電を操作するコンセプトを発表しており、インテリジェントな家電操作がトレンドとなっている。音声アシスタントや人工知能では出遅れた感があるAmazonであるが、Amazon Echoで巻き返しを図っている。