Archive for January, 2012

ソーシャル・メディアBig Data解析

Friday, January 27th, 2012

スマートフォンからTwitterやFacebookを利用する方式が定着し、位置情報を包含したソーシャル・メディアが大量に生成されている。モバイルとソーシャルが融合した領域で、Big Data解析の手法を用いて、ソーシャル・メディアをリアルタイムで解析する技術の開発が進んでいる。TwitterやFacebookへの投稿記事を解析し、これを販売店舗など、リアル社会で活用する事例が登場している。

g247_datasift_01

ソーシャル・メディア解析技術

大量に生成されるソーシャル・メディアをリアルタイムで解析する技術を開発している企業がDataSift (データシフト) である。DataSiftは、サンフランシスコを拠点に事業を展開しているベンチャー企業で、TwitterやFacebookへの投稿記事をリアルタイムで解析する機能を提供している。利用者は、自社製品や販売店が、ソーシャル・メディアでどのように評価されているのか、リアルタイムで把握することができる。DataSiftの利用法は様々で、企業が新製品を発表した際に、ソーシャル・メディアにおける製品評価について解析を行なうことができる。例えば、企業が「iPhone 4S」という製品を発表した際に、その製品に関するソーシャル・メディアの記事を検索し、リアルタイムで表示 (上のスクリーンショット、出展はいずれもVentureClef) する。記事左横のアイコンは情報ソースを示しており、この事例では、FacebookとTwitterから記事を抽出している。

g247_datasift_02

その下の「+」アイコンは、この記事の属性情報で、記事の指向や記事を投稿した人物のプロフィールなどを表示している。記事の指向では、記事の内容がポジティブかネガティブかが表示され、別のページにそれをグラフで表示する。上段のグラフがそれを示しており、オレンジ色のグラフで横軸 (時間軸) の上側がポジティブな度合いで、下側がネガティブな度合いを示している。折れ線グラフは記事の件数を示している。投稿者のプロフィールでは、性別やその人物のソーシャル・メディアでの影響度が表示される。影響度はKlout (クラウト) という企業の指標を利用しており、下段のオレンジ色のグラフがそれを示している。更に、記事の参照先URLや、別のページには、位置情報が表示される。

g247_datasift_03

解析結果をどう活用するか

DataSiftのサービスは、2011年11月から始まったばかりで、実際の適用事例はまだ報告されていないが、DataSiftは、このサービスを活用するヒントを示している。それによると、小売店舗がソーシャル・メディアで議論されている内容を抽出するために利用する方法を示している。実際にBank of Americaについて解析してみると、その結果は上のグラフの通りである。これは記事の指向を解析した結果で、Bank of Americaに対してネガティブな評価をしているコメントが多いのが分かる。これらの記事を読んでみると、Twitterの中で、Bank of Americaが嫌いと記述している人が多いのが目立つ。金融危機で公的資金を投入したことへの反発が多いことが読み取れる。

下のスクリーンショットはStarbucksについて解析した結果である。Twitterの中から、利用者がStarbucksに来店している記事を抽出し、地図上にマップしたものである。利用者は投稿記事の中に「I’m at Starbucks coffee」や「@ Starbucks」などと記載して、いま店舗に来ていることを発信している。これらの情報を収集することで、どの店舗が人気があるか把握することができる。この他にブランド評価では、AppleやDellがラップトップ製品に対する利用者の評判を把握するために利用できる。また、アメリカ大統領選挙では、共和党指名争いにおいて、候補者が議論される頻度を解析し、各候補者の人気度を推定できる。株価動向解析では、特定の銘柄に対して株価を変動させる事象を検出し、株式売買の判断材料とできる。

g247_datasift_04

考察

DataSiftは、有償と無償のサービスを提供している。有償版は一ヶ月1,000ドルから利用できる。無償版はDataSiftのウェブサイトから利用でき、同時に、広告が掲載される予定である。上述の事例はいずれもウェブサイトで、解析ストリームを作成・実行したものである。このサイトで専用言語 (Curated Stream Definition Language) を使って簡単なコーディング行い解析ストリームを作成し、実行する手順となる。DataSiftはTwitterとの協定でTwitterに投稿される全てのTweetを読み込むことが認められている。そのため、解析ソースの殆どがTwitterである。一日2億5千万件のTweetが生成されるが、DataSiftは、これらをストリーミングで入力し、Big Data解析を行なっている。DataSiftは投稿記事をキーワード検索するだけでなく、そこに含まれている情報を抽出し、それらを分かり易い形式で提供している。

ソーシャル・メディアと小売店舗

Monday, January 9th, 2012

世界最大規模の小売チェーンであるWalmart (ウォルマート) は、シリコンバレーに@WalmartLabsという研究所をオープン (下のスクリーンショット、活動を始めた@WalmartLabsのホームページ) した。研究所の使命は、大量に生成されるソーシャル・メディアを解析し、店舗での売り上げを伸ばし、消費者の動向を把握することである。

g246_walmartlabs_01

Walmartの抱える問題

Walmartは1962年にSam Waltonにより創設された小売チェーンで、Bentonville (アーカンソー州) を拠点に事業を展開している。2011年度の売り上げ金額は4,218億ドルで、従業員数は210万人と、世界最大規模の小売チェーンである。Walmartは15カ国で、8,500店舗を運営している。米国においては4,400店舗を、WalmartやSam’s Clubのブランドで運営している。Walmartは、サンフランシスコ地区では、イーストベイを中心に店舗を展開している。Walmartは世界最大規模の小売チェーンであるものの、オンライン・ストアーでは、Amazon.comに大きく遅れを取っている。2010年度のオンライン・ストアーの売上高は、Amazon.comが340億ドルであるが、Walmartのオンライン・ストアーであるWalmart.comの売り上げは60億ドルである。Amazon.comは最新技術を駆使して売り上げを伸ばしているが、Walmartは技術トレンドに乗り遅れていることは否定できない。Walmartは商品販売において、先端技術を活用するために、2011年に、Mountain View (カリフォルニア州) に、@WalmartLabsという名称の研究拠点を構え、オンライン・ストアーに最新技術を取り入れようとしている。下の写真は@WalmartLabsが入居しているビル (出展:VentureClef) で、他にもRed Hatなどハイテク企業がオフィスを構えている。

g246_walmartlabs_02

ソーシャル・メディアのリアルタイム解析

Walmartは、2011年4月に、Kosmix (コズミックス) というベンチャー企業を、3億ドルで買収し、@WalmartLabsに統合し、研究開発を開始した。従って、@WalmartLabsの組織基盤はKosmixから構成されている。@WalmartLabsの研究テーマは、Social Genome (ソーシャル・ジノム) と呼ばれている。Social Genomeとは、ソーシャル・メディアを収集し、リアルタイムで解析を行い、そこで抽出した情報を利用して、商品販売を促進しようというものである。大規模データをリアルタイムに解析する手法に、Kosmixの技術が使われている。

@WalmartLabsは、Social GenomeをTwitterに応用した事例を紹介している。Hannaという女性が、Twitterで「I love salt!」 (saltが好き!) というTweetを発信すると、@WalmartLabsはリアルタイムでこれを収集し、セマンティックな解析を行なう。その結果、@WalmartLabsは、HannaはAngelina Jolie主演の映画「Salt」が好きであると把握する。そして@WalmartLabsは、Hannaの友人であるJulianaに、Hannaの誕生日の贈り物の推奨リストをメールで送信する。推奨リストには、映画Saltに関する商品などが記載されている。Julianaは@WalmartLabsからの推奨リストを見て、Walmartで誕生日プレゼントを買い物をするという仕組みである。

g246_walmartlabs_03

Social Genomeのシステム構成

この解析の背後で動いているのが、Social Genomeというシステムである。Social Genomeは、Twitter、Facebook、ブログなどのソーシャル・メディアをリアルタイムで収集・解析し、その結果を格納している、巨大なナレッジ・ベースである。Social Genome は、TwitterのTweetやFacebookのFeedなどを解析し、EntityとそのRelationshipを抽出 (上のグラフィックス、出展:@WalmartLabs) する。Entityとはソーシャル・メディアに含まれているオブジェクトで、人物、出来事、場所、製品、組織などである。Relationshipとは、これらオブジェクト間の関係である。

先の事例では、Social Genomeは、Hannaは人物であり、Saltは調味料や映画であることを把握する。Hannaは、しばしば映画に関するTweetを投稿しており、「I love salt!」のSaltは、映画を指していると結論付ける。Social Genomeは文章の意味を解し、情報を抽出し、機械学習を行なうなど、人工知能の技術を実装している。この処理を可能とするため、大規模なTaxonomy (オブジェクトを分類するための辞書) を構築している。

Big DataFast Data

Social Genomeは、リアルタイムで大規模データを処理するため、Fast DataとBig Dataの問題に対応している。Big Data解析は、Hadoopを並列で運用する方式が一般的であるが、リアルタイムのデータ解析には充分に対応できていない。そのため@WalmartLabsは、Fast Data解析のために、Muppet (マペット) という独自システムを開発した。Muppetは、クラスター上で、大規模データをリアルタイムで解析する機能を持っている。このMuppet上で、セマンティック解析アプリケーションが稼動する構成となっている。Social Genomeはプライバシーの問題を含んでいるので、利用者の了解の下に実施されるサービスである。Social Genomeのサービスは、開発が終わった段階から順次、Walmart.comで実装されている。Walmartは店舗においても、ソーシャル・メディア、位置情報、モバイルを活用した商品の拡販策を計画している。Walmartは旧体質な店舗から、ソーシャル・メディア時代の会社に脱皮を図ろうとしている。