Archive for the ‘検索’ Category

IBMの機軸事業は人工知能へ、Watsonで知的アプリが続々誕生

Wednesday, November 26th, 2014

IBM 「Watson」は米国クイズ番組「Jeopardy」で歴代チャンピオン二人を破り社会を驚かせた。クイズには強いWatsonだが、IBMはビジネスへの応用に苦戦している。今年初頭、「Watson Group」が設立され、IBMの人工知能ビジネスの流れが変わった。ベンチャー企業からWatsonを活用した知的なアプリの登場が相次いでいる。WatsonはApple Siriのように身近な存在になり、IBMの人工知能ビジネスへの遷移が鮮明となった。

g392_ibm_watson_apps_01

知能イノベーションを起こす

人工知能ビジネスの中核を担うのがWatson Groupで、「Cognitive Innovations」 (知能イノベーション) を目指している。Watsonを核にインテリジェントなシステムやアプリを開発する。IBMはこのプロジェクトに10億ドルの予算を当て、このうち1億ドルをベンチャー企業への投資に振り向ける。Watson Groupはニューヨークのシリコンアレーに建設されたビル (上の写真) を拠点とし、2000人の体制で臨む。Watson Groupは上級副社長Michael Rhodinが指揮を取る。

g392_ibm_watson_apps_02

Watsonの作戦本部

このビルはWatson Groupの本社として機能し、三つの部門から構成される。「Incubator」はインキュベーターとして機能し、新興企業のアプリ開発を支援する。「Client Experience Center」は顧客向けショールームで、Watsonを使うことができる (上の写真)。「Design Studio」は顧客やパートナー向けの開発スタジオで、デザインや設計を中心にシステム開発を行う。Watsonの機能は、買収したSoftLayerを使って、クラウドとして提供される。Watsonは人工知能クラウドと位置付けられる。

Watsonとは

IBMはWatsonを「Cognitive Computing」 と呼び、自ら学習し、ヒトと会話できるコンピューターと定義している。Cognitiveとは認知できるという意味で、人工知能の中でも、データから意味を把握するという側面に焦点を当てている。具体的には、「Natural Language Processing」(自然言語解析) で言葉を理解し会話する。膨大な非定型データに対し、「Analytics」(解析) を行い知見を得る。過去に行った解析を経験に、学習を重ねていく。Watsonはヒトの言葉をを理解し、証拠に基づき仮説を立て、自ら学習していくマシンということができる。

知的アプリの開発が始まる

IBMは前述のベンチャーファンドで、新興企業に投資を始め、Watsonを活用した知的アプリの開発を急いでいる。2月には最初の投資先として「Welltok」を選定。同社はインテリジェントな健康管理アプリを手掛けている。二番目は「Fluid」で、デジタルショッピング技術を開発中。11月には「Pathway Genomics」への投資を発表した。同社は遺伝子解析結果を医師に代わり被験者に説明するアプリを開発する。今後は農業、娯楽、製造などの分野での知的アプリの開発を目指す。

g392_ibm_watson_apps_03

店員のようにふるまう「Fluid

投資先企業が開発している知的アプリの一端が見えてきた。Fluidはサンフランシスコに拠点を置くベンチャー企業で、Watsonを利用したアプリ「Fluid Expert Personal Shopper」を開発している。このアプリはアウトドア用品店「North Face」向けに提供される (上の写真は現行のショッピングアプリ)。オンラインストアー利用者は、小売店でスタッフに質問する要領でアプリに問いかけると、アプリが最適な商品を探し出す。アプリが店舗スタッフとなり、探しているものをズバリ提示する。

消費者は特定の商品 (例えばテント) を探すとき、Googleなどで検索し、Amazonで商品を絞り込んでいく。これに対しFluid Expert Personal Shopperは、言葉で質問するとズバリ回答してくれる。例えば、「10月にニューヨーク州北部に家族でキャンピングに行くのだが何が必要か?」と尋ねると、アプリは質問を理解し、最適なテントを提示する。更に、キャンプで必要なアイテムを推奨する。アプリが店舗スタッフの役割を担い、要領よく対応する。このシステムではアプリに、製品カタログ、教育マニュアル、専門家のアドバイス、利用者の評価など、数多くのデータを入力しておく。Watsonは膨大なデータを解析し、消費者の質問に回答する準備をしておく。更に、アプリは消費者との対話を通して学習し、知識を蓄えていく。

g392_ibm_watson_apps_04

医師の代わりをする「Pathway Panorama

Pathway Genomicsはサンディエゴに拠点を置くベンチャー企業で、個人向けに遺伝子解析サービスを提供している。同社はWatsonを利用し、インテリジェントな健康管理アプリ「Pathway Panorama」を開発中。アプリに話し言葉で質問すると、利用者の遺伝子情報などをベースに、健康維持のためのヒントを回答する。アプリはまるで病院の医師のように利用者の質問に的確に応対する (上の写真、イメージ)。

g392_ibm_watson_apps_05

Pathway Panoramaは、前準備として、利用者の健康に関するデータを収集しておく。ここには利用者の生活習慣、健康診断結果、遺伝子、バイタルサイン、電子カルテなど広範囲の情報が含まれる。バイタルサインについては利用者がウエアラブルを着装して収集する。これら個人情報をベースに、Watsonは医学論文や臨床試験結果など医学情報を参照し、個人に特化した解析を行う。具体的には、「今日はどれだけ運動すべき?」とか、「月曜日は何杯コーヒーを飲んでもいい?」と質問すると、アプリは質問に回答していく (上の写真、イメージ)。病院の医師に相談するように、自然言語でアプリに質問する。対象はPathway Genomicsで遺伝子解析を受けた利用者で、将来は病院での適用も計画している。

人工知能でサイバー攻撃を防ぐ

Watson Groupはパートナー企業とも知的アプリの開発を進めている。SparkCognitionはテキサス州オースティンに拠点を置くベンチャー企業で、セキュリティー技術を開発。同社はWatsonの人工知能を利用し、サイバー攻撃対応アプリ「Cognitive Security Insights」を開発中。このアプリは知的なセキュリティー機能を持ち、既存のSIEM (セキュリティー情報イベントシステム) 製品を強化する目的で使われる。アプリは知能ベースのアルゴリズムで、サイバー攻撃を検知し、内容を解析し、対応処置を行う。

g392_ibm_watson_apps_06

上の写真がその事例で、アプリはログファイルから攻撃エージェント「ZmEu」を検出したと警告メッセージを表示。下段には、ZmEuの概要と、このエージェントが攻撃ベクトルである確率 (95%) を表示している。アプリは攻撃エージェントを検出すると、ソーシャルメディ、チャット、ウェブサイトなどの情報から、その内容を把握する。次にWatsonは、攻撃エージェントへの対処法を示す。利用者のウェブサーバーが「Apache」であれば、Watsonは、「Apacheで特定エージェントをブロックする方法」を提示する。

g392_ibm_watson_apps_07

システム管理者はWatsonに対処法を尋ねることもできる。例えば、「どうやってIPアドレスをブロックするのか?」と質問すると、Watsonは知識ベースを検索し、回答を提示する (上の写真)。音声を入力して検索することも可能で、スマホから利用する際は便利だ。運用を始める前、Watsonにユーザマニュアル、製品資料、学術論文などを入力し、ナレッジベースを構築しておく。Watsonはナレッジベースから問題解決法を見つけ出し、システム構成変更など対処方法をアドバイスする。

g392_ibm_watson_apps_08

Jeopardyでの対戦を振り返る

Watsonがクイズ番組「Jeopardy」で歴代チャンピオンを破ったことは記憶に新しい。この対戦は、2011年2月14日から三日間、ニューヨーク州のIBM研究所で行なわれた。ここに特設スタジオが作られ、テレビ中継された (上の写真)。クイズ司会者はAlex Trebekで、回答者はWatsonの他に、Ken Jennings (連続優勝記録保持者) とBrad Rutter (最多賞金獲得者) の三人。この対戦ではコンピュータが人間の知識を上回ることができるかに注目が集まった。

g392_ibm_watson_apps_09

Jeopardyの人気と難しさ

Jeopardyはアメリカの人気クイズ番組で、1964年に始まり、いまだに人気は衰えていない。質問は六つのジャンルに分かれ、歴史、文学、科学、言語、カルチャーなど幅広いトピックスがカバーされる。人気の秘密は質問形式にある。質問は疑問文ではなく肯定文で表示され、ウィットに富んだ表現で、質問の意味を理解するために幅広い知識を必要とする。上の写真は質問例で、「空を飛べ、時に、未成熟な少年を指すこの名前」と問われている。答えは「ピーターパン」であるが、質問を聞き、意味を理解するのに一呼吸かかる。

g392_ibm_watson_apps_10

Watsonのシステム概要

Watsonはスタジオ施設内 (上の写真) に設置され、サーバーはラック10台に搭載された。プロセッサーはPower7で、2,880コアを並列稼動させた。対戦中はWatsonはインターネット接続は禁止され、オフラインで処理を実行。Watsonは事前に、インターネットでWikipediaなど主要サイトの情報をダウンロードしておき、このデータに対して検索処理を実行した。従来の手法は質問文でキーワード検索するが、この方法ではJeopardyの機知に富んだ質問に対応できないことが判明した。事実、上述の質問文で検索すると、結果には医学書などが示され、ピーターパンは登場しない。

DeepQAというインテリジェントな検索

そこでIBMは人工知能の技法を取り入れ、「DeepQA」というインテリジェントな検索方式を開発した。DeepQAは、質問に回答するため、四つのプロセスを経る。最初は「Question Analysis」で、何が問われているかを解析。次は「Hypothesis Generation」で回答候補を生成する。「Hypothesis & Evidence Scoring」では、解答候補が正しいかどうかを検証し、その確度を算定する。最後は「Final Merging & Ranking」で、過去のJeopardyの質問の解析から経験的に正解率を算定する。

つまり、Watsonは解答候補を見つけ、独自の手法で解答候補を評価する。解答候補は百件を超え、これをプロセッサー上で並列処理する。Watsonが参照するデータは200GB程度であるが、10TBのメモリー上で並列処理を実行する。Watsonが参照しているWikipediaなどのデータ量が200GB程度と、意外に小さいのに驚かされる。同時に、3秒以内に解答するため、大容量メモリー上に展開している点も興味深い。

g392_ibm_watson_apps_11

実際の対戦を見て

この対戦をテレビで見ていたが、Watsonが逆転優勝したのは余りにも印象的だった。実は、Watsonの強さを実感したのは、この後に行われた、シリコンバレーでの模擬対戦であった。コンピューター歴史博物館「Computer History Museum」で、Watson説明会が開催された。Watson生みの親であるDave Ferrucciが、システム概要や誕生の裏話を披露した。講演の後で、会場にセットされたJeopardyスタジオで、Watsonとの対戦が行なわれた (上の写真)。挑戦者はStacey Higginbotham (ハイテク記者)と、Robert Walker (ベンチャーキャピタル)で、司会はIBMのEric Brownが務めた。

Watsonはニューヨーク州のIBM施設にあり、リモートでの対戦となった。最初からWatsonの圧倒的な強さで試合が展開した。Watsonの一方的な強さで試合とはならず、途中から両氏は会場参加者を総動員して、ゲームに臨んだ。質問の答えを会場から叫び手助けしたが、それでも結果はWatsonの圧勝に終わった。因みに”獲得金額”は、Watsonが164,000ドル、Walkerが20,005ドル、 Higginbothamが45,789ドルとなった。Watsonは数百人との対戦を征し、その強さを身に染みて感じた。

g392_ibm_watson_apps_12

Computer History MuseumにはJeopardyスタジオが設けられており、ここに立ってWatsonと対戦する気分を味わえる (上の写真)。

ゲームには強いがビジネスで苦戦

Watsonは、Jeopardyで優勝したものの、この技術をビジネスに展開する面で苦戦している。Ferrucciは、WatsonのDeepQA技術を医療、法律、金融の分野に適用し、人間が意思決定する際に、それを裏付けるデータを提示するビジネスモデルを描いていた。IBMは大学病院と共同で、医師が患者への治療法を決定するためのシステムを開発してきたが、ビジネスとしての成功は限定的であった。

人工知能事業に本格参入

IBMは、前述の通り、Watson Centerを開設し、人工知能をクラウドとして提供することで、ビジネス拡大を目指している。いつの時代も斬新なアイディアはベンチャー企業から生み出され、知的なアプリの登場が始まった。IBMはWatsonで10年以内に100億ドルの売り上げを目指している。全社売り上げの1割程度となり、次世代ビジネスの中核を担うこととなる。IBMは1981年にIBM PCでパソコン事業に参入したが、Watson Groupはこれと同等のインパクトがある。人工知能事業が独立したビジネスユニットで展開される。Jeopardy優勝から三年を経て、Watsonがビジネスで活躍できるステージが整った。

Googleが描くモバイル社会

Friday, June 29th, 2012

Googleは開発者向けのカンファレンスであるGoogle I/O (下の写真、出展はいずれもGoogle) を、2012年6月27日から三日間、San FranciscoのMoscone Centerで開催した。今年で五年目を迎えるカンファレンスでは、Googleの最新技術が、デモを交えて披露された。カンファレンの基調講演は、YouTubeでストリーミングされた。

g273_google_io_01

Googleが披露した最新技術は、新OSからタブレットまで、モバイル技術に集中している。新技術のハイライトは、Jelly Bean (Android最新版)、Nexus 7 (タブレット)、Nexus Q (音楽ビデオ・ストリーミング)、Google+ (ソーシャル・ネットワーク機能強化)、Google Glass (ウェアラブル・コンピュータ) である。GoogleブランドのタブレットであるNexus 7を軸に、クラウド・サービスが提供されるという構図が示された。

Jelly Beanで操作性が向上

Jelly Bean (ジェリー・ビーン) はAndroid 4.1の愛称で、性能や操作性が大きく改善された。Project Butterというプロジェクトにより、グラフィックスが高速で反応し、ユーザ・インターフェイスがバターのように滑らかになった。操作性の面では、Offline Voice Typingで、音声入力をオフラインで行なえるようになった。また、カメラで撮影したイメージを、超高速で再生する機能も搭載された。

g273_google_io_02

Notificationsの機能が大幅に強化された。Notificationsとは、上の写真左側画面で、利用者への通知事項が表示される機能。最上段には、Hiroshiから電話があったことが記されている。Jelly Beanでは、メッセージ下の電話アイコンにタッチすれば、そのままHiroshiに電話を発信 (同右側) できる。

g273_google_io_03

検索機能ではGoogle Nowがデビューした。Google Nowとは、検索エンジンが利用者に、場所や時間に依存した、有益な情報を提示する機能である。例えば、Google Nowは、利用者はこの地域は不案内であると認識すると、近辺のレストランを提示 (上の写真左側) する。利用者は提示されたレストランをレビューして、気に入った店にタッチすると、その詳細情報が表示 (同右側) される。利用者は特別な設定を行なう必要はなく、検索エンジンが類推を行い、有益な情報を自動で提示する。Apple Passbookに対抗した機能であるが、Google Nowは設定が不要であるという点に特徴がある。

g273_google_io_04

Nexus 7のコンセプト

GoogleはGoogleブランドのタブレット、Nexus 7 (上の写真) を発表した。製造はAsusが行なっている。スクリーン・サイズは7インチで、小ぶりのタブレットである。OSはJelly Beanを搭載。スペックは1280 x 800HD、Tegra 3 (クワッド・コア)、フロント・カメラ、無線通信機構 (WiFi、Bluetooth、NFC) を搭載し、340グラムの重さ。Nexus 7はGoogle Playで、ビデオ、ゲーム、書籍、音楽などを楽しむためのタブレットとして位置づけられている。価格は199ドルから。Nexus 7は、Amazon Kindle Fireと類似のコンセプトで、価格も同じに設定してある。Nexus 7はクラウド上のコンテンツにアクセスするデバイスとして位置づけられ、タブレット自体はコモディティに向かっている。

g273_google_io_05

Google Mapsは従来機能に加え、目的地に到着する前に、その様子を閲覧できる機能を搭載した。上の写真左側は、Nexus 7でDistrictというレストランを閲覧している様子である。See Insideのサムネールにタッチすると、レストラン内部の様子が表示される(同右側)。利用者は矢印にタッチしながら、レストランの内部を歩くことができる。Compass Modeに切替えると、タブレットを向けた方向のイメージが表示される。

g273_google_io_06

Nexus Qという家電製品

Nexus Q (上の写真) はメディア・ストリーミング・デバイスで、家庭内のオーディオ・ビデオ装置に接続して利用する。Nexus QはGoogle Playから音楽やビデオを、オーディオ・ビデオ装置にストリーミングして再生する製品である。スマートフォンやタブレットから操作する。Nexus Qは、プロセッサーにOMAP 4460を、OSにはAndroidを搭載している。

g273_google_io_07

上の写真は、Nexus 7からNexus Qを操作している様子である。Nexus 7でGoogle Musicを起動し、音楽アルバム一覧を表示し、好みの曲を選択する。次に音楽の出力先を選択する。出力先をLiving Roomとすると、Nexus Q経由でリビング・ルームのオーディオ装置で音楽が再生される。プレー・ボタンにタッチすると、Google Playから音楽がストリーミングされ曲が始まる。Nexus Qのリングの色は音楽に合わせて変化する。Nexus Qが示しているのは、家電製品はハードウェア単体ではなく、ハードウェアとソフトウェアとクラウドが統合された複合体であるということ。Nexus QはProject Tungstenを製品化したものである。価格は299ドル。

g273_google_io_08

Google+への機能追加

Google+はGoogleのソーシャル・ネットワークで、利用者数は1.5億人で、一年間で大きく成長した。今ではGoogle+のモバイル利用者がデスクトップ利用者を上回っており、時代は確実にモバイルに向かっている。Google+の進行方向はモバイルで、AndroidやiOSスマートフォンにアプリを提供している。更に、Nexus 7を含むタブレット向けに、アプリの提供を開始した。Google+の新機能はEventsで、パーティーを開催するためのツール。Eventsでパーティー参加者への案内を作成する。上のスクリーンショットがその様子で、パーティーの日時・場所などを設定して、参加者に配信する。出席者はパーティーに参加しているとき、カメラをParty Modeに設定しておくと、撮影した写真はGoogle+のEventsに纏めて掲示される。下のスクリーンショットがその様子で、主催者や参加者が撮影した写真が、パーティーのページに纏めて掲載され、写真アルバムが出来上がる。モバイル時代のソーシャル・ネットワークは、写真がキーワードになることを再認識させられる機能である。

g273_google_io_09

Google Glassでスカイダイブ

Sergey Brinがデモを交えてGoogle Glass (下の写真) を紹介した。デモではSan Francisco上空の飛行船から、スカイダイバーがジャンプし、Google I/O会場であるMoscone Center屋上に着地する様子をGoogle Glassで撮影し、Google+ Hangoutでビデオ中継した。Google Glassはメガネの右側にカメラとモニターを装着し、搭載しているプロセッサーでデータの処理を行なう構造である。他に、マイク、センサー、データ通信機構を備えている。手に汗握るデモであったが、新たな技術は登場しなかった。一方Googleは、Glass Explorer Edition (価格は1500ドル) を開発者向けに発表し、このデバイス上でハッキングが進むことを狙っている。

g273_google_io_10

今年のGoogle新技術の中心はNexus 7で、検索エンジン企業がハードウェアの販売に乗り出した。Googleはモバイル技術開発の速度を速め、Nexus 7、Android、Google Playという、タブレット・OS・クラウドを統合した複合サービスが鍵となることを示している。

Linked Data (SemTech 11より)

Thursday, June 23rd, 2011

セマンティック技術最大のカンファレンスである、Semantic Technology Conference 2011では、Linked Dataに関する事例が、数多く登場した。Linked Dataとは、前回のレポートで触れたFreebaseなどを指し、インターネット上では、Linked Dataのサイト数が急増している。このレポートでは、Juan Sequeda (ワン・セケダ、University of Texas at Austinの研究者) の「Creating, Publishing and Consuming Linked Data」と題するセッションを参考にした。

Linked Dataの概要

Linked Dataとは、ざっくり表現すると、データベース化されたウェブサイトである。マイクロソフト・エクセルで作られたテーブルのように、Linked Dataも、ウェブサイトが表形式で定義される。人物や場所やモノが、セマンティック技術を使って定義されて、ウェブページに記載される。

g215a_semantic_linked_data

上のスクリーンショット (出展:New York Times) は、New York Timesが開発しているLinked Dataの事例である。このサイトは、Linked Open Dataという名称で、一般に公開されている。New York Timesは、過去150年間の記事について、アーカイブを作成し、インデクシングを行なってきた。このプロセスで、新聞記事のタイトルで使用された用語 (News Vocabularies) の編集も行なわれた。New York Timesは、2009年から、これらの用語をLinked Open Dataとして、公開するプロジェクトを進めてきた。現在公開されている用語は、人名、組織名、地名などで、総数は一万件を超えている。上のスクリーンショットは、Hillary Clinton (ヒラリー・クリントン) の事例で、同氏に関する情報が、テーブル形式で記載されている。Linked Open Dataは、この様に、人間が読むことができるだけでなく、RDFファイルで公開されており、ソフトウェアから読める形式となっている。RDFとは、Resource Description Frameworkの略で、データ定義の方式である。RDFでは、Triple Data Model (主語、述語、目的語) という方式で、データを記述していく。このように、Linked Open Dataは、アプリケーションからデータにアクセスすることを主眼に公開されている。

g215b_semantic_linked_data

Linked Open Dataの目的

New York Timesは、過去の記事に対して、検索機能を提供しており、「Hillary Clinton」をキーワードに検索を行なうと、同氏が登場する記事の一覧が表示される。Linked Open Dataでは、単純なキーワード検索ではなく、ウェブサイトから意味を抽出することを目的としている。上のスクリーンショット (出展:New York Times) がその事例を示している。これはNew York Timesが提供しているAlumni In The News というアプリケーションで、大学の同窓生が、New York Timesに登場している記事を検索するツールである。検索ボックスに、大学名を入力すると、検索結果には、New York Timesに登場している同窓生の氏名が表示される。因みに検索キーワードに、「Santa Clara University」と入力すると、検索結果には、国防省長官に就任する「Leon Panetta」などの名前と記事タイトルが表示される。記事タイトルをクリックすると、記事が表示される。また、名前の下には、Wikipedia、DBpadia、Freebaseへのリンクが表示される。これらのリンクを辿ると、人物についての詳細情報を閲覧することができる。このように、Linked Open Dataは、アプリケーションから、名前、組織名、地名などを、有機的に検索できることを目標としている。

g215c_semantic_linked_data

GoogleLinked Dataへの取り組み

前回レポートしたMetaweb社は、FreebaseというオープンなLinked Dataを開発し、2007年から一般に公開している。Metawebは、2010年7月に、Googleにより買収された。Googleはこのように、Linked Dataに着目し、システム開発を進めている。Freebaseは、コミュニティにより開発されたナレッジベースで、Wikipediaのセマンティック版と位置づけられ、多くのコンテンツをWikipediaから引用している。

Googleは、Freebaseのコンテンツを、Google News Timelineで利用している。Google News Timelineとは、Google Labsの研究プロジェクトで、ニュースや出来事などを、時系列に表示する検索エンジンである。上のスクリーンショット (出展:Google) が、Google News Timelineで、記事が年代ごとに表示されている。この画面は、「Jack Nicholson」というキーワードで検索した結果で、同氏が出演した映画のタイトルと解説が、時系列に表示されている。これらのデータソースはFreebaseで、リンクをクリックすると元の記事にジャンプする。Googleは、様々な方法で、検索結果の質の向上を目指しているが、Google News Timelineは、この取り組みの一つである。

g215d_semantic_linked_data

Googleは、既に、検索エンジンにセマンティック技術を応用している。これは、Google Squaredと呼ばれる技術で、セマンティック・ウェブから情報を抽出し、検索結果をテーブル形式で表示するものである。上のスクリーンショット (出展:Google) がその事例で、検索キーワードに「barack obama date of birth」と入力すると、上の通り、「オバマ大統領の誕生日は、1961年8月4日である」と、ストレートに回答する。そして、参照したデータソースの一覧が表示される。

トレンド

Linked Dataは、ここ最近、多くのサイトで開発が進んでいる。ウェブ技術が登場した頃には、HTMLを使って、多くのウェブサイトが開発されたように、今では、RDFを使って、Linked Dataを含むセマンティック・ウェブの開発が進んでいる。今後、如何に魅力的なアプリケーションが登場するかが、セマンティック・ウェブ進展の鍵となる。

イメージ・インテリジェンス (DEMO Fall 10より)

Thursday, October 28th, 2010

IQ Engines (アイキュー・エンジンズ) は、Berkeley (カリフォルニア州) に拠点を置くベンチャー企業で、iPhoneで撮影した写真が、何であるかを教えてくれる技術を開発している。DEMO Fall 2010において、同社のブースにて、ソフトウェア開発責任者であるHuy Nguyen (ヒュイ・ヌエン) が、iPhoneを使ってIQ Enginesのデモをしながら、製品を紹介してくれた。

IQ Engines概要

IQ Enginesを製品化したものは、oMoby (オモビー) というiPhoneアプリケーションとして公開されている。利用者は、iPhoneでoMobyを起動し、写真撮影したイメージを、サーバに送信すると、oMobyは、写真撮影されたイメージが何であるかを答えてくれる。下の画面 (出展:IQ Engines) がその事例で、iPhoneで写真撮影した清涼飲料容器のイメージ (左側) に対して、oMobyはそれがDiet Cokeであると回答 (右側) している。

g180a_iq_engines

更に、Diet Cokeのアイテムをクリックすると、その詳細情報が表示される。併せて、Office Depotにて、Diet Coke Classic四ケースを13.59ドルで販売していると、広告メッセージが表示される。Nguyenは、この仕組みについて、「IQ Enginesは、撮影したイメージを、ライブラリーに格納しているイメージと比較して、それが何であるか認識する。もしイメージが、ライブラリーに無い場合は、クラウドソーシングを利用する。」と、動作概要を解説してくれた。クラウドソーシングとは、撮影されたイメージに対して、人間がマニュアルでその属性を判定する作業である。マニュアルでタギングされたイメージは、ライブラリーに追加され、IQ Enginesは学習を重ね知識を増やしていく。

g180b_iq_engines

Nguyenは、iPhoneを使って、oMobyのデモを実演しながら、その仕組みを解説してくれた。ブースでスタッフが食べていたスナック菓子Doritosのパッケージ (上の写真左側、出展:Frito Lay) を写真撮影して、IQ Enginesに送信した。IQ Enginesは、即座に、「Doritos」であると、検索結果を表示した。この処理は、パッケージに印字されている名前を読み取っているのかと質問すると、Nguyenは、パッケージに書かれている名前を手で覆って写真撮影したが、IQ Enginesは、正解を返してきた。IQ Enginesは、OCR (Optical Character Recognition) ではなく、イメージ検索をしていることが分かった。次に、Nguyenは、その場で名刺の裏に、手書きで顔の絵 (上の写真右側、出展:VentureClef) を描き、それをIQ Enginesに送信した。IQ Enginesは、イメージを認識できず、上述のクラウドソーシングで、「Face Drawing」と回答した。このイメージは、IQ Enginesのライブラリーにはなく、人がマニュアルで判定する作業を経て回答された。

IQ Enginesのビジネスモデル

IQ Enginesは、oMobyというアプリケーションを無償で提供しており、誰でも自由に使え、IQ Enginesの機能をベンチマークできる。また、前述の通り、oMobyは主要ブランドのマーケッティング媒体としても利用されている。この他に、IQ Enginesは、IQ EnginesのAPI (Application Program Interface) を有償で公開している。

g180c_iq_engines

IQ EnginesのAPIを使うには、まず、利用者登録をして、サイトにログインする。次に、検索する写真をIQ Enginesのサーバに送信する。因みに、私が撮影した写真の中から、上のイメージ (サンフランシスコ駅に停車しているCaltrain) を、IQ Enginesのサーバに送信すると、サーバから写真下段のレスポンスが返ってきた。ここに、「”labels”: “Train”」との記述があり、この写真は「列車」であると正しく判定した。企業はこのAPIを使って、様々なアプリケーションを開発することができる。例えば、会社のウェブサイトに掲載されている写真に、このAPIを使って、ラベルをつけることができる。写真に正しくタギングしておけば、検索エンジンがこれらイメージを正しくインデクシングできる。これにより、検索エンジン最適化を行なうことができ、また、Google AdSenseを使って広告を掲載する際には、最適な広告メッセージが配信されることになる。因みに、API使用料金は、100イメージ/日までは無料で、これを超えると7セント/イメージとなる。

トレンド

IQ Enginesは、University of California at DavisとUniversity of California at Berkeleyの、共同研究プロジェクトとしてスタートした。両校の神経科学者とコンピュータ科学者が、共同で、人間が物を見て、イメージを覚え、後日、それを思い出す過程を、コンピュータで再現することを目標に研究を開始した。08年に会社を設立し、National Science Foundation (アメリカ国立科学財団) やNational Institute of Health (アメリカ国立衛生研究所) などから$1Mの基金を得ている。

この分野では多くの企業が研究開発を行なっている。Googleの研究部門であるGoogle Mobile Labsは、スマートフォンで撮影した写真イメージを検索するサービスを提供している。このサービスはGoogle Gogglesと呼ばれ、利用者は、スマートフォンで撮影した写真イメージを、検索エンジンに送信し、検索エンジンは、撮影されたオブジェクトが何であるかを回答する。利用者は、美術館で絵画の写真撮影を行い、Google Gogglesはその絵について解説したり、名所旧跡の写真からその場所についての説明をするサービスである。大変便利な機能であるが、正解率は三割程度と、精度に大きな課題を抱えている。写真を正しく認識する技術はまだまだ未開の領域で、Googleやベンチャー企業で技術開発が続けられている。

グーグル・リッチ・スニペッツ (SemTech 10より)

Friday, July 30th, 2010

今週のレポートは、最新のセマンティック技術を議論するカンファレンスであるSemantic Technology Conferenceから、Googleのセマンティック・ウェブ技術について考察する。レポート作成では、GoogleのKavi GoelとPravir Guptaが行った講演「Google Rich Snippets」を参考にした。

Google Rich Snippets概要

Googleは、昨年のSearchology (サーチオロジー、検索技術の発表会) で、Google Rich Snippets (グーグル・リッチ・スニペッツ) という、セマンティック技術を発表した。Rich Snippetsとは、ウェブサイトを記述するHTMLなどのマークアップに、セマンティックな情報を付加するツールで、検索結果の表示を構造化するために用いる。ウェブサイ運営者は、Rich Snippetsを使って、ウェブページがどんな内容を表しているかという、セマンティックな情報を付加する。

g167a_google_rich_snippets

Google検索エンジンで、「xanh restaurant」というキーワードで検索した結果が、上のスクリーンショット (出展:Google Inc.) である。これは、Xahn (ザン) というベトナム料理レストランの検索結果を示しているもので、通常の検索結果の表示に加えて、星印でレストランの評価を示している。また評価 (Review) の件数が652と表示されている。この星印や評価件数が、Rich Snippetで付加したセマンティック情報である。検索結果のリンクをたどり、Yelp (イェルプ、店舗紹介サイト) のページを開くと、下のスクリーンショット (出展:Yelp) の通りである。Yelpのサイトにおいて、Xahnの評価は星四つで、評価件数は652となっている。

g167b_google_rich_snippets

更に、このウェブページのソースコードを見ると、次頁の通りである。(出展:Google Inc.)ソースコードは、「hReview-aggregate」というタグから始まっており、この一塊がRich Snippetsである。Rich Snippetsで、色々な記述ができるが、この事例は、Review (評価) に関する記述である。ソースコードの中の「fn = Xahn Restaurant」は店舗の名前を、「rating value = …. 4.0」で四星を、「count = 652」がレビューの数を示している。

検索結果の最適化

Yelpのウェブサイトは、上の事例の通り、ウェブページにRich Snippetsを組み込み、レストランの評価が四星などと、レストランに関する情報を追加している。Google検索エンジンは、この追加情報を解釈して、検索結果に、四星を表示している。また合わせて、レストラン評価件数が652あり、価格帯が$$であることも表示している。利用者は、数多く表示される検索結果の中で、星印が付いたYelpのサイトが目に留まり、このリンクをクリックする。Rich Snippetsにより、Yelpサイトへの訪問者が増えることになる。Googleによると、Rich Snippetsを導入しても、検索順位は変わらないとしている。しかし、上述の通り、Rich Snippetsによる付加情報が、検索結果で際立っており、SEM (Search Engine Marketing) で有効な手段となる。これからのウェブサイト運営者は、検索結果順位の向上だけでなく、Rich Snippetsによる最適化も導入する時期に差し掛かっている。Google Rich Snippetsは、上述のReviewsのほかに、People (人物)、Business and Organizations (会社や組織)、Events (イベント)、Video (ビデオ) のタグをサポートしている。レストラン以外にも、コンサート・チケット販売やDVDの販売のプロモーションなどで、幅広く使用できる。

g167c_google_rich_snippets

Goelらが行った講演で、Google Rich Snippetsの普及状況を公開した。それによると、米国においては、Google Rich Snippetsを実装しているページが、09年10月時点と比較して二倍に増え、全世界では四倍に増えているとしている。一般利用者にとってセマンティック技術はまだ敷居が高いが、Googleの参入などでその普及が広がりつつある。またYahooは、SearchMonkey (サーチ・モンキー) という同様なサービスを展開している。セマンティック・ウェブを使った検索エンジン・マーケッティングの機が熟してきた。

GoogleFacebookの構図

Google Rich Snippetsは、前回紹介したFacebook Open Graphに似ており、どちらもウェブページにセマンティックな情報を付加するためのツールである。セマンティック技術を含め、GoogleとFacebookの争いが、鮮明になりつつある。7月28日のWall Street Journal電子版は、Googleはソーシャル・ゲームのプラットフォームとして、Google Meというサービスを開発中であると報道している。Google Meとは、ソーシャル・ゲームを実行するためのウェブ基盤である。ソーシャル・ゲームとは、ソーシャル・グラフを活用したゲームで、ゲームの進展状況を友人と共有したり、友人と共同でゲームを展開することができる。更に、Wall Street Journal電子版は、Googleはソーシャル・ゲーム開発企業であるPlaydom (プレイダム)、Playfish (プレイフィッシュ)、Zynga (ジンガ) と交渉中であると報じている。

Facebookがソーシャル・ゲームを独占しており、Zyngaが開発したFarmVille (ファームビル) では、6,000万人の利用者がある。日本で先行しているソーシャル・ゲームが、いまアメリカで大きく動いている。Electronic Artsは、昨年11月に、上述のPlayfishを$400Mで買収している。Walt Disneyは7月27日に、上述のPlaydomを、$563.2M+$200Mで買収することを発表した。また日本のSoftBankは、昨日、Zyngaとの提携を発表し、Zyngaを日本で展開するとしている。このような背景で、Googleがソーシャル・ゲームに進出しようとしている。一方でFacebookは、広告ネットワークをFacebookから外部のサイトに展開する動きを見せている。FacebookがGoogle AdSenseの事業に進出しようとしている。GoogleとFacebookのテリトリーが重なり始め、暑い夏となっている。