Archive for the ‘人工知能’ Category

GmailはAIがメールの書き方を習得、文章を書き始めると次のフレーズを教えてくれる

Friday, June 8th, 2018

GoogleはGmailを大幅にアップグレードし、AIがメール文書を作成する機能をリリースした。これは「Smart Compose」と呼ばれ、メールを書き始めると、AIがそれに続くフレーズを生成する。書き始めるだけで文章が完結するので、メールを書く時間が大幅に短縮される。

出典: VentureClef

使い方はシンプル

Smart Composeは一般公開に先立ち、試験バージョンとしてリリースされた。使い方はシンプルで、Gmailのメール作成画面で、文字をタイプすると、AIがそれに続くフレーズを提示する (上の写真)。「How」とタイプすると、AIは「How are you doing?」という文章を生成する。AIが提示するフレーズ  (「are you doing?」の部分) は灰色で示され、タブを押すとこの文章が確定する。また、Smart Composeは受信したメールに返信するときも、AIがフレーズを生成する。


実際にメールを書いて見ると

実際に使ってみると想像していた以上に便利だ。冒頭の言葉をタイプすると、AIがそれを完結する。下の写真がその事例で、AIが生成した部分を赤字で示している。文章の殆どをAIが生成していることが分かる。あて名はAIがメールアドレスを見て生成する。また、AIは筆者の住所も把握しており、自動で挿入する。AIが個人情報を把握しており、少し気味悪いところもあるが、便利さとのトレードオフになる。

出典: VentureClef


挨拶文のバリエーション

メールの冒頭で挨拶分を書くときに、様々な表現があるが、AIは多彩な書式を学習している (下の写真、AIが生成した部分を赤字で示している)。「Hope」と入力すると、AIはそれに続き「all is well with you」と出力する (下の写真、一行目)。このフレーズではなく、別の表現を意図しているときは、タイプを続け、「Hope e」まで綴ると、AIは意図を察して、「everything is going well with you」と出力する (下の写真、二行目)。今度は、「Hope w」と綴ると、AIはこれに続き、「work is going well」と出力する (下の写真、三行目)。つまり、書きたい文章をタイプし始めると、AIがその文章を完結する。挨拶文のバリエーションは幅広いが、AIはこの多様性に対応できている。

出典: VentureClef


少し複雑なメール

AIは冒頭のあいさつや、最後の決まり文句だけでなく、中間部分のフレーズも生成する。文章を書き始めるとAIが意味を察して、それに続く単語を生成する。ただ、少し複雑なメールになると、AIが補完する部分が少なくなる (下の写真、AIが生成した部分を赤字で示している)。AIが文章の最後の部分だけを生成するケースが増える。Smart Composeの機能はまだ限定的で、補完できる範囲を広げることが、次の目標となる。

出典: VentureClef

言語生成モデル

興味深いのはSmart Composeを支えているAIで、アルゴリズムが学習を重ね、メールを生成する能力を習得する。このAIは言語生成モデル (Language Generation Model) と呼ばれ、入力された文字列から、次の文字を予測する。このため、一般的に、Sequence to Sequence (Seq2Seq) モデルに区分される。Gmailは言語生成モデルの中で、Recurrent Neural Network-Language Model (RNN-LM) とNeural Bag of Words (BoW) を使っている。

Recurrent Neural Network-Language Model

RNN-LMはRNNベース (時間に依存するニューラルネットワーク) の言語モデルで、言語生成の定番技法である。Googleは翻訳サービス「Google Neural Machine Translation」でRNN-LMを使っている。RNN-LMはEncoder (言葉を符合に凝縮) とDecoder (符号から言葉を生成) から成る。翻訳モデルでは、言葉をEncoderに入力すると、Decoderが別の言語に翻訳する (下の写真、中国語を英語に翻訳する事例)。

出典: Google

RNN-LMを使いたいが

GmailにRNN-LMを応用すると、アルゴリズムがメールの文章を生成する。この場合、Encoderに入力するのは、メール題名と受信メール(返信文を書くとき)で、Decoderは利用者がメールを書くにつれ、それに続くフレーズを生成する。しかし、RNN-LMは予測精度は高いものの、大規模な計算量が発生し、答えが出るまでに時間がかかる。メール生成ではタイプするごとに、次のフレーズを生成する必要があり (遅延時間は0.1秒以内)、RNN-LMを使うことができない。

RNN-LMとBoWの組み合わせ

このため、GmailはRNN-LMとBoWを組み合わせて使っている。BoWとは言語モデルの一つで、言葉の並びから、次に現れる単語を予測する。単語は位置情報を含んだベクトルとして表現される (Word Embeddingと呼ばれる)。Gmailはメール題名と受信メールをEncodeするとき、このWord Embeddingを使う。RNN-LMのDecodingの各ステップにWord Embeddingを入力し、Decoderがテキストを生成する。「How」とタイプすると、RNN-LMは「are you doing?」と文章を生成する (下の写真、実例は先頭の写真)。つまり、RNN-LMのEncoding部分に軽量なBoWを使い、遅延時間を短くすることに成功した。

出典: Google

計算環境

Gmailの言語モデルが決定すると、ネットワークのハイパーパラメータ最適化や教育 (文字通りTrainingと呼ばれる) のために、TPUv2 Podが使われた。TPUv2は第二世代のTPUで、Podとはこれを64枚搭載した構成。教育された言語モデルを実行 (Inferenceと呼ばれる) する際に、CPUが使われたが、処理時間がかかり遅延時間の制約を満たすことができなかった。そのため、言語モデルの実行もTPUが使われている。

ロードマップ

Microsoft Outlookでメールを作成したり、Wordで文章を書くときも、ウインドウにフレーズ候補が示される (日本語入力変換のケース)。これを上手く使うと、文章を効率的に書くことができる。しかし、これは文字変換機能に留まり、利用範囲は限定される。何よりも、変換の精度が悪くイライラすることも少なくない。これに対しSmart Composeは、タイプされた文字や単語に反応し、それに続くフレーズを生成し、インテリジェントであると感じる。Smart Composeは登場したばかりであるが、次は、利用者のライティングスタイルで文章を生成するアルゴリズムが開発されている。

Googleはイメージ検索機能「Google Lens」をAIで大幅強化、スマホカメラがモノの名前を教えてくれる

Friday, June 1st, 2018

Googleはイメージ検索機能「Google Lens」の最新版をリリースした。Google Lensはスマホカメラに写ったオブジェクトの名前を表示する。カメラ越しに花を見ると、Google Lensはその名前を教えてくれる (下の写真、左側)。お洒落なハンドバッグに視線を移すと、Google Lensはそれに似ている商品を示す (下の写真、右側)。カメラでイメージ検索をする技術は早くから登場しており、アイディアとしては目新しいものではない。しかし、Google Lensは高度なAIを実装し、イメージ検索機能と精度が大幅に強化され、使ってみると予想外に便利で、いまでは生活の必須アイテムとなった。

出典: VentureClef

スマホ向け拡張現実

Google Lensは2017年11月に登場し、2018年5月に機能が大幅に強化された。Google Lensの実態は拡張現実 (Augmented Reality) で、カメラが捉えたオブジェクトに情報を付加する構造となる。Google Lensはスマホ「Google Pixel 2」などに実装され、AIアシスタント「Google Assistant」と連携して稼働する。Google Lensを起動するには、Google Assistant画面でLensアイコンにタッチする。また、Google Lensはカメラアプリに組み込まれ、撮影画面からホームボタンを長押しして駆動することもできる。

名刺を住所録に登録

Google Lensはテキストを認識し、それを文字に変換し、それらの意味を理解する。名刺を読み込むと、そのまま住所録に登録できる (下の写真、左側)。名刺に記載されている電話番号を認識し、そのまま電話を発信できる。更に、住所を認識し、Google Mapsにリンクして、その場所までナビゲーションする。街中のポスターで気になるコンサートの案内があると、それをGoogle Lensで見ると、プログラムや連絡先を抽出する (下の写真、右側)。Google Lensは所謂OCR(光学文字認識)として機能するが、コンテンツの意味まで理解するので、その利用価値は高い。

出典: VentureClef


美術館の案内

Google Lensは絵画や彫刻など芸術作品を理解しその内容を解説する。美術館で音声ガイドを借りる代わりに、Google Lensが案内役を務める。Google Lens越しに絵画を見ると、作品の題名と概要を表示し、示されたリンクを辿ると作品の詳細を読むことができる。(下の写真、左側、この絵はセザンヌ作の「Chateau Noir」と表示)。撮影した写真を後日、Google Lensで見ると、同様な説明が表示される。(下の写真、右側、この彫像はロダン作の「Les Bourgeois de Calais」(カレーの市民)で、その概要が示される。) Google Lensの絵画に対する認識精度は極めて高く、美術鑑賞のスタイルが変わる。

出典: VentureClef


観光ガイド

Google Lensはランドマークを認識し観光ガイドとして利用できる。周囲のビルやモニュメントにカメラを向けると、Google Lensがそれらの名前を表示する。Google Lens越しにGoogle本社ビルを見ると「Googleplex (Googleキャンパス)」と表示され、リンク情報が提示される (下の写真、左側)。また、撮影した写真を後日、Google Lensで見ると、観光した場所の名前と概要を教えてくれる (下の写真、右側、スタンフォード大学内の「Memorial Church」とその概要を表示)。ただ、数多く存在するランドマークを認識するには高度な技術を要する。更に、見る角度や影の方向でイメージの判定が難しい。このため、Google Lensが認識できるランドマークの数は限られ、認識精度も完全ではなく、更なる技術改良が必要となる。

出典: VentureClef


植物図鑑

Google Lensを植物に向けるとその名前を教えてくれ、植物図鑑として使うことができる。カメラで白い花を見ると、Google Lensはこれは「Jasmine」(ジャスミン)と教えてくれる (下の写真、左側)。写真撮影した草花の種類をGoogle Lensで調べることができる。よく見かけるオレンジ色の花の写真をGoogle Lensで調べると、これは「California Poppy」(ハナビシソウ)であることが分かった。植物の判定は難しく高度なニューラルネットワークが必要であるが、Google Lensを花に向けると敏感に反応し正解率は悪くない。一方、樹木や木の葉にについてはアルゴリズムの教育ができていないのか、認識力が大きく落ちる。制限事項はあるものの、Google Lensで身の回りの植物の種類を知ることができ、コンピュータビジョンの進化を肌身で感じる。

出典: VentureClef


Smart Text Selection

Google Lensの機能が強化され、「Smart Text Selection」、「Style Match」、「Real-Time Results」が追加された。Smart Text Selectionは、Google Lensが認識したテキストの中から、特定部分を選択する機能。例えば、レストランメニューのなかから、気になる料理を選択すると、Google Lensはその内容を説明する。イタリア語で書かれていて読めない時は、Translateボタンにタッチすると翻訳してくれる (下の写真)。この料理はマグロのスライスにオレンジサラダが付いているのだと分かる。

出典: VentureClef


Style Match

Style Matchはファッションや家具などをアドバイスする機能。Google Lensでお洒落な洋服を見ると、その洋服と同じデザインの別の製品を表示する (下の写真、左側)。気に入ればそのまま購入できる。その他にGoogle Lensでシューズやバッグを見ると、同じ趣向の商品を表示する (下の写真、右側)。家の中では、Google Lensで家具を見ると、類似の商品を示す。Amazonなどショッピングサイトで同様な機能があるが、Google Lensはカメラで捉えたライブイメージが対象で、リアルタイムで画像解析を実行し、デザインが似ている商品を検索するので、高度な技術が必要となる。

出典: Vogue / VentureClef


Real-Time Results

このように、Google Lensの最大の特長は、リアルタイムでオブジェクトを把握できるようになったこと。カメラを通して周囲を見渡すと、Google Lensは写っているオブジェクトをリアルタイムで把握し、それに関連する情報を表示する (下の写真、画面上の白いドットはAIが解析している領域を示す)。Google Lensは連続してイメージ解析を実行する構造で、究極のコンピュータビジョンといえる。ただ、プロセッサへの負荷は高く、持っているスマホが熱くなり、20分程度でバッテリーがなくなる。

出典: VentureClef

システム概要

Google Lensは、エッジでAIによる画像解析を実行し、そのメタ情報をクラウドに送信し、バックエンドで検索プロセスを実行する構造となる。この際、スマホの限られた計算資源でニューラルネットワークを稼働させ画像解析を実行する。光の条件や撮影するアングルでイメージは大きく変わり、スマホでのオブジェクト認識は難しい。このプロセスでGoogleのAIプロセッサ「Pixel Visual Core」が使われる。一方、クラウド側のAI処理では「Cloud TPU」が使われる。Google Lensは、場所 (ランドマークなど)やモノ (植物、ファッション、家具、絵画など) のなかからオブジェクトをリアルタイムで特定する。

Googleの狙いは

Google Lensは拡張現実によるイメージ検索で、Googleのコア事業である検索サービスを強化した形となる。Googleは2010年に、イメージ検索スマホアプリ「Google Goggles」を投入し、このコンセプトを追求したが、幅広く普及することはなかった。Google Lensはこの後継モデルとなるが、高度なAIを実装し、検索精度が格段に向上した。Google Assistantは言葉による検索クエリーだけでなく、ビデオ画像による検索を実行することができ、検索の幅が大きく広がった。更に、Google Lensの機能強化とともに、このシステムはLGなど他社メーカーに公開され、イメージ検索クエリの件数が大きく増えることになる。

Googleは米国国防省にAI技術を供与、TensorFlowがイスラム国監視で使われAIの軍事利用が問われている

Friday, May 18th, 2018

米国国防省はドローンを使った偵察ミッションを展開しているが (下の写真)、AIを導入しプロセスを自動化した。イスラム国やシリアで、ドローンが撮影するビデオに写っている車両や人物などをAIが判別する。ここにGoogleのAI技術が使われていることが判明し、Google社員はプロジェクトからの撤退を求めている。社外のAI研究者からも批判の声があがり、Googleは利益追求と社会責任のバランスが問われている。

出典: U.S. Navy

Google社員の抗議

このシステムは「Project Maven」と呼ばれ、ドローンを使ったAI偵察ミッションで、コンピュータビジョンがオブジェクトを判定する。GoogleがこのプロジェクトにAI技術を提供していることが明らかになり、社員は公開書簡をCEOのSundar Pichai送り、契約を解約するよう要求している (下の写真、一部)。更に、Googleは軍事産業にどうかかわるのか、会社の指針を明らかにすることも求めている。この書簡に4000人のGoogle社員が署名し、12人のエンジニアはこれに抗議して会社を辞職した。

出典: Google

Googleの対応

これに対して、Googleのクラウド事業部責任者Diane Greeneは、Project Mavenへの技術供与について説明した。それによると、Googleが提供するAI技術は、ドローンを飛行させたり、兵器を起動するためには使われない。戦力を行使する戦闘行為に適用されるのではなく、あくまで通常のミッションで使われると説明。具体的には、GoogleはオープンソースのTensorFlow APIを提供し、ドローンで撮影したイメージを解析し、オブジェクトを把握するために使われていることを明らかにした。

自律兵器へ繋がる

Googleは提供した技術が自律兵器 (Autonomous Weapons) で使われることはなく、攻撃を伴わない監視活動だけで使われることを強調した。自律兵器とは、AIが攻撃目標を把握し、AIがトリガーを起動する兵器を指す。人間の判断を経ないでAIが目標を選び攻撃するため、殺人ロボットとも呼ばれる。Project Mavenは敵の行動を把握するためだけにAIを使うが、これを応用すると自律兵器に繋がるため、Google社員は技術供与に反対している。

オープンソース

GoogleはTensorFlowをオープンソースとして公開しており、だれでも自由に使うことができる。かりにGoogleが契約を解約しても、オープンソースであるため、Project MavenはTensorFlowを使い続けることができる。市場には数多くのAIオープンソースが公開されており、これらが軍事目的で使われている可能性は否定できない。Google社員による問題提起は、AIオープンソースを如何に管理すべきか、本質的な問題を含んでいる。

Project Mavenの位置づけ

Project Mavenについては、国防省がその概要をニュースリリースの形で公開している。それによると、「Algorithmic Warfare Cross-Functional Team」と呼ばれる部門が新設され、このプロジェクトを管轄しシステムを開発した。この部門は国防省内の組織を跨り、AIとMachine Learningを導入することを使命とし、Project Mavenがその最初のプロジェクトとなった。

偵察活動を自動化

国防省はイスラム国が支配している地域とシリアでドローンを飛行させ、偵察活動を展開している。ドローンに搭載されたカメラで地上を撮影し、アナリストがビデオや写真をみて、そこに写っているオブジェクトの種類を判定してきた (下の写真、イメージ、空軍諜報部門)。撮影されるイメージは大量で、アナリストの手作業には限界があり、このプロセスをAIで自動化することを目的にプロジェクトが始まった。アルゴリズムはオブジェクトを38のクラス (車両、人物、行動など) に特定し、問題と思われる情報を抽出し、それらをアナリストが解析する。このミッションでは戦略ドローン「ScanEagle」(先頭の写真) と戦術ドローン「MQ-1C Gray Eagle」及び「MQ-9 Reaper」が使われている。

出典: US Air Force

AmazonやMicrosoftも

国防省にAI技術を供与しているのはGoogleだけでなく、AmazonやMicrosoftもクラウドサービスでイメージ解析技術などを提供している。これらの企業ではAIが軍事目的で使われることに対して、反対運動は起こっていない。更に、データサイエンスでトップを走るPalantirは軍需企業として国防省に情報サービスを提供し続けている。Googleの場合は社員が理想的な世界を追いすぎるのではとの意見も聞かれる。

AI研究者の反応

一方、世界最先端のAI技術を持つGoogleがその技術を軍事システムに提供したことに対し、市場からも反対の声が上がっている。大学教授を中心とするAI研究者1000人は、Alphabet CEOのLarry Pageらに、Project Mavenから離脱し、今後はAIを軍事目的で使わないことを求めている。

AIの軍事利用の指針

AIの軍事利用については、早くからその危険性が指摘され、世界レベルでの運用ガイドラインの制定が求められてきた。既に、軍事システムには高度なAIが導入され、統一ルールがないまま開発が先行している。ここに、GoogleというAI企業が加わったことで、そのインパクトは大きく、市場の懸念が一気に高まった。ハイテク企業はAIの軍事利用に関し、明確なポリシーを設立することが求められている。

Googleは人間に近づき過ぎたAIを公開し波紋が広がる、仮想アシスタントが電話してヘアサロンを予約

Friday, May 11th, 2018

Googleは仮想アシスタントが電話して実社会のタスクを実行する技術「Google Duplex」を公開した。Duplexは人間のように会話できるAIで、例えば、ヘアサロンの店員さんと話してヘアカットの予約をする。話し方があまりにも人間的で、マシンとは到底区別がつかない。Duplexは究極の仮想アシスタントと評価される一方で、人間的過ぎるAIは社会で許容されるのか、波紋が広がっている。

出典: Google

Google開発者会議

Googleは2018年5月8日、開発者会議Google I/OでAIやAndroidの最新技術を発表した。「Google AI」というブランドのもとAI企業に舵を切り、仮想アシスタント「Google Assistant」やAIスピーカー「Google Home」の最新技術を公開した (上の写真)。この中で、人間に代わり仮想アシスタントが電話で会話して実社会のタスクを実行する技術Google Duplexを公開した。

Duplexがヘアカットを予約

Google CEOのSundar PichaiがDuplexのデモを行った。Duplexがヘアサロンに電話して、ヘアカットを予約するというストーリーで、会話は次の通り進んだ。

Duplex:(ヘアサロンに電話を発信)

ヘアサロン店員:Hello, may I help you?

Duplex:I’m calling to book a women’s haircut for a client.  Umm, I am looking for something on May 3rd. (若い女性のテンポよい会話で到底AIとは思えない)

ヘアサロン店員: Just give me one second.  (店員は予約表を見ている様子)

Duplex: Mm-hmm。(Yesと言わないで”ふふーん”という繋ぎ言葉(Disfluencies)が入り、ますます人間の雰囲気を醸し出す)

出典: Google

Duplexが予約時間をネゴ

しかし、リクエストした時間が空いてなく、両者の間で協議が始まる。

ヘアサロン店員: Depending on what service she would like.  What service is she looking for?

Duplex: Just a women’s haircut for now.

ヘアサロン店員: Okay, we have a 10 o’clock.

Duplex: 10am is fine.

どんなメニューを希望しているかの問いに対して、Duplexは女性のヘアカットと回答。カットだけなら10時が空いているとのことで予約が完了した。Duplexはヘアサロン店員と予約時間を調整するという複雑なタスクを完遂した。

Duplexを人間と感じる理由

Duplexを人間と感じる理由は、人間の悪い癖であるDisfluencies (“えーと”など意味のない繋ぎ言葉) を取り入れていることと、会話の間合いが絶妙であること。更に、Duplexは想定外の事態に対応して複雑なタスクを実行でき、人間と全く変わらない。Duplexデモの部分は基調講演ビデオ (https://youtu.be/ogfYd705cRs?t=2174)で見ることができる。

Duplexのシステム構成

DuplexはGoogle Assistantのバックエンド機能として実装される。Google Assistantにヘアサロンの予約を指示すると、その背後でDuplexがこれを実行する (下の写真)。実際に、Duplexが店舗に電話を発信し、相手と対話しながらヘアカットの予約を入れる。予約が済むとその内容はGoogle Assistantから利用者に示される (最後の写真)。予約時間が近づくと、Google Assistantはスマホにリマインダーを表示する。

出典: Google

コンセプト

Duplexは自然な会話を通してタスクを実行するようデザインされている。Duplexの会話は人間と同じレベルで、自然で滑らかなトーンで進み、AIであることを感じさせない。従って、利用者は人間と会話するように、自然な言葉づかいで会話する。AIスピーカーに語り掛けるときは、分かりやすくゆっくりと喋るが、早口で言い直しながら話してもDuplexはちゃんと理解する。つまり、Duplexは人間と同じ位置づけで、普段通りの言葉で会話ができる。

出典: Google

市場の反応は割れる

Duplexの会話は人間そのもので、マシンとは全く判別できない。デモを実施した会場からは驚きのどよめきが上がった。一方、市場の反応は分かれ、技術進化を評価するものの、Duplexに対して懸念の声も上がっている。Duplexは社会のモラルから逸脱しているとの意見も少なくない。電話を受けたヘアサロン店員は、人間と思い丁寧に対応したが、実は相手はAIであり、欺かれた感覚を覚える。

電話詐欺や選挙運動

更に、Duplexが悪用されると犯罪の手助けをするのではと懸念されている。米国で電話詐欺により高齢者が被害にあう事件が後を絶たない。電話詐欺でDuplexが悪用されると、大量の被害者が出ることが懸念される。日本語対応のDuplexが登場すると、オレオレ詐欺で悪用される可能性も生まれる。更に、次期大統領選挙でDuplexが悪用されると、再び世論が操作される心配が募る。

Googleの対応策

Googleはこれらの懸念に対して明確な対策は公表していないが、「Transparency」な方針で開発を進めるとしている。Duplexが電話を発信するときは、最初に素性を明らかにし、「自分はDuplexで○○○さんのために電話している」などのコメントが付加されるものと思われる。また、Duplexとの会話を録音する時は、事前に相手の了承を取ることも必要となる。

究極の仮想アシスタント

市場では仮想アシスタントをここまで人間に近づける必要があるのか、議論が始まった。AIが人間ではないことを明らかにするために、機械的な会話に留まるべきだという意見もある。一方、Duplexのデモを見た後で、Google Assistantのいつもの声を聞くと、なぜかモノトーンでフラットに感じる。Duplexのほうに親近感を覚える。AIだと分かっていても、人間臭く感情をこめて語ってくれると、会話がしっくりする。これが究極の仮想アシスタントで、話しぶりに惹かれてしまうが、危険と隣り合わせの状態でもあることも認識しておく必要がある。

FacebookはAIでフェイクニュースを取り締まる、(トランプ大統領誕生の悲劇を繰り返さないために)

Friday, May 4th, 2018

米国大統領選挙でFacebookを介してフェイクニュースが拡散し世論が操作された。発信元はロシアで、この結果トランプ氏が当選したとも言われている。Facebookは対策が不備であったことを認め、AIを駆使したフェイクニュース対策を発表した。米国だけでなく欧州やアジアでも、フェイクニュースによる世論操作が顕著になっている。

出典: Facebook

Facebook開発者会議

Facebook CEOのMark Zuckerbergは2018年5月1日、開発者会議F8で選挙対策、フェイクニュース対策、データプライバシー対策など、プラットフォームの安全性を強化するための基本指針を発表した (上の写真)。2016年の米国大統領選挙では対応が不十分で、ロシアによるフェイクニュースが拡散し、これが選挙結果に大きく影響したことを認めた。この教訓を踏まえ、AIやMachine Learning (機械学習) やComputer Vision (画像解析) を活用し、不適切な記事を検知し、拡散する前に取り除く対策を発表した。

既に対策が進んでいる

既に対策が実施されており、フランス大統領選挙、ドイツ連邦議会選挙、米アラバマ州上院補選では、AIツールが使われ数十万の不正アカウント (Fake Account) が削除された。また、米大統領選挙の追跡調査で、不正アカウントを辿るとロシアが関与していることが分かり、これらを閉鎖したと公表した。今年は米国で中間選挙が、この他に、メキシコ、ブラジル、インド、パキスタンなどで重要な選挙が予定されており、Facebookが悪用されないために万全の対策を講じることを宣言した。

ヌードと暴力シーン

FacebookはZuckerbergの講演に続き、不適切な投稿を削除するための具体的な対策を発表した。不適切コンテンツは幅が広く、それを検知する技法も異なる。不適切コンテンツの代表はヌード写真や暴力シーンであるが、これらはComputer Visionを使って検知する。AIの進化でComputer Visionの性能が向上し、これらを高精度で判定する。システムがほぼ全自動で削除するが、判定が難しいものについては専任スタッフが対応する。

ヘイトスピーチ

反対に、AIにとって一番難易度が高いのがヘイトスピーチの検知である。ヘイトスピーチとは、人種や宗教や性的指向などに対して誹謗中傷する行為を指す。攻撃は投稿されるメッセージで行われ、AIはテキストの内容を理解する必要がある。記事は相手を中傷しているのか、それとも、別のことを意図しているのか、コンテクストの理解が必須となる。

検知が難しい理由

例えば、「I’m going to beat you!」というメッセージを受け取ると、これは自分を中傷してるかどうかの判断は文脈による。「あなたを叩く」という意味だと攻撃で、「あなたに勝つよ」という意味だと、お互いに切磋琢磨しようというポジティブな意味にもなる (下の写真、「Look at that pig!」も解釈が難しい)。

出典: Facebook

AI技法を開発中

人間でも判断に迷うことがあるが、AIにとっては最難関の分野で、今の技術では正しい判定はできない。この理由の一つが教育データの不足で、アルゴリズムを教育するためヘイトスピーチの事例を集めることが喫緊の課題となっている。このため、Facebookは別のAIでヘイトスピーチを自動生成する技術を開発しており、二つのAIでヘイトスピーチを検知する技法を目指している。

フェイクニュース

大統領選挙で問題となったフェイクニュースについて、Facebookは重点課題として対策を進めている (下の写真)。AIがこれを直接検知する技術は確立されていないため、フェイクニュースを発信している不正アカウントを突き止め、これらを閉鎖することで情報拡散を防止する。

出典: Facebook

不正アカウントはフェイクニュースだけでなく、スパムや悪質な広告を発信する目的でも使われている。このため、詐欺被害が相次ぎ、Facebookは対策を進めている。不正アカウントは特異な挙動を示し、AIがこのパターンを検知する。例えば、スパムを発信する不正アカウントは、記事を高頻度で投稿するなど特異な挙動を示し、このシグナルをMachine Learningの手法で検知する。

テロリズム

ソーシャルメディアが過激派組織の広告塔として使われ、深刻な社会問題を引き起こしている。FacebookはAIを導入し、イスラム国やアルカイダなどのプロパガンダを特定し、これらを削除している。2018年第一四半期にはイスラム国とアルカイダに関連するコンテンツ190万件を削除し大きな効果をあげている。

過激派組織が投稿するコンテンツはAIが検知する。写真については、AIが既に削除した写真やビデオと比較し、これらを特定する。テキストについては、AIがテロリズムを奨励するテキストを理解する。アルゴリズムが、既に削除されたテキストを学習し、文字ベースのシグナルを把握する。AIがテロリズムに関連するコンテンツを検知するとともに、専任スタッフや専門家がマニュアルでこれらの作業を並行して行う。

AIの限界

Facebookはこれらの対策でAI、Machine Learning、Computer Visionを使っているが、上述の通り、全ての問題を解決できる訳ではない。このため、Facebook利用者のフィードバックが重要な情報源となる。Facebookは不適切なコンテンツがある場合はレポート (下の写真) してほしいと利用者に呼び掛けている。同時に、Facebookは専任スタッフを2万人に増員し、手作業による不適切コンテンツの摘発を進める。

出典: Facebook

プラットフォームの責任

先の大統領選挙では、Zuckerbergはオバマ政権からFacebookを使った情報操作が行われているとの警告を受けたが、その対策は講じなかった。この理由は、Facebookはニュース配信社ではなく“掲示板”であり、恣意的に特定記事を削除することは妥当でないとの解釈による。しかし、Cambridge Analyticaの個人データ流出問題を受け、Facebookが社会に与えた影響は甚大であることが明らかになり、Zuckerbergは会社の方針を大きく転換した。掲示板であるが不適切な記事は掲載させないことがプラットフォームの責務であるとの指針のもと、AIツールを駆使して再び世論が操作されることを阻止している。