Archive for the ‘人工知能’ Category

Amazon Goがサンフランシスコにオープン、レジ無し店舗が全米に広がる

Friday, November 9th, 2018

Amazonは2018年10月、サンフランシスコでレジ無し店舗「Amazon Go」をオープンした(下の写真)。Amazon Goはシアトルで3店舗とシカゴで2店舗が運営されており、サンフランシスコ店は6番目の店舗となる。Amazonは2021年までに3000店舗を開設すると報道されており、全米で急速にレジ無し店舗が普及する勢いだ。

出典: VentureClef

近未来のショッピング

オープンしたばかりのAmazon Goで買い物をしたが、近未来のショッピングを体験できる。店舗内は高級コンビニという嗜好で、食料品を中心に品ぞろえされていた。Amazon Goにはレジはなく、取り上げた商品を持ってそのまま店を出ることができる。店舗を出てしばらくすると、購入した商品の代金が登録しているクレジットカードから引き落とされた。

QRコードで入店する

Amazon Goは専用アプリで利用する。店舗に入る際にアプリを起動し、表示されたQRコードをリーダーにかざすとゲートのバーが開く(下の写真)。友人や家族と来店した際にも同じ手順であるが、QRコードをかざして同伴者を先に入店させる。(天井に設置されているカメラが利用者だけでなく同伴者も把握する。)

出典: VentureClef

買いたいものを手に取る

店舗内では、商品を手に取り、買いたいものを自分のバッグに入れたり、手に持って買い物をする(下の写真)。品物を取り上げた時点で利用者の「Virtual Cart(仮想カート)」に商品が入る。気が変わり、取り上げた商品を棚に戻すと、Virtual Cartから取り出される。同伴者も同じ方式で買い物ができる。しかし、商品を取り上げて同伴者に手渡すことは禁止されている。(AIアルゴリズムの教育ができていないためか。)

出典: VentureClef

買い物が終わると

店舗にはレジはなく、買い物が終わると出口専用のゲートを通るだけで支払い処理が完了する(下の写真)。購入した商品の代金は登録しているクレジットカードから引き落とされる。ゲートの横でAmazon Goスタッフが顧客の質問に答えていたが、万引きなどの不正をチェックしている様子はなかった。(万引きすると売り上げ処理されるので不正行為はできない仕組み。)

出典: VentureClef

品揃えに特徴あり

Amazon Goはコンビニのように食料品や飲料水を中心に品ぞろえをしている。デリのコーナーもあり、サラダやサンドイッチなどが並んでいる。入口近くの棚には様々な種類のランチボックスが陳列されていた(下の写真)。ランチボックスは日本のお弁当のように、調理された食材が綺麗に配置されている。他に、フルーツやスープやデザートなどもそろっている。出口そばにはテーブルと椅子が用意されており、買ったものをその場で食べることができる。

出典: VentureClef

ロケーション

Amazon GoはサンフランシスコのFinancial Districtと言われる金融街にオープンした(下の写真、正面ビルの角)。ここに大企業のオフィスが集中しており、周辺にはレストランやデリなどが立ち並ぶ。Amazon Goは忙しい社員のために、食料品やランチボックスを販売する。短い昼休みであるが、レジ待ちの時間が無くなり、ゆっくり食事をすることができる。一方、周囲のデリやファーストフードは売り上げが減る可能性がある。

出典: VentureClef

大規模に展開

AmazonはAmazon Goを2018年末までに10店舗開設する。2019年までに50店舗を、2021年までに3000店舗を開設すると報道されている。当初、Amazonはレジ無し店舗の技術を他社にライセンスすると噂されていたが、自ら店舗を運営する戦略であることが明らかになった。この市場ではAmazon Goに刺激され競争が激しくなっている。ベンチャー企業からAIを駆使したレジ無し店舗技術が登場し、店舗での実証実験が進んでいる。

Amazonが小売店舗をつぶしたのか

Amazon.comの登場で多くの小売店舗が売り上げを減らし、また、廃業に追い込まれている。先月、全米で最大規模のデパートであったSearsが130年の歴史に幕を閉じ、会社更生法の適用を受けた。AmazonがSearsを殺したという解釈があるが、小売店舗は進化の努力をしていないとの意見もある。Amazonは小売店舗をテクノロジーで改良し、消費者に快適な買い物環境を提供する戦略を取る。その一つがAmazon Goで消費者はレジ待ちの苦痛から解放される。Amazon Goは小売店舗が成長できる方向を示しているとみることもできる。

Amazon Goの仕組み】

カメラで顧客と商品を認識

天井には数多くのボックスが設置され、ここにカメラが実装されている(下の写真)。ボックスはプロセッサーで、カメラが捉えたイメージの基礎的な解析を実行する。具体的には、人の存在の認識、顧客の特定と追跡、顧客の動作の意味の把握を実行する。顧客が移動すると、別のカメラがこれをフォローする。更に、カメラは棚の商品を認識し、取り上げられた商品の名前を特定する。

出典: VentureClef

センサーの情報

商品棚には重量計が搭載されている。重量計が棚の重さを計測し、重量が減ると商品が取り上げられたと認識する。カメラが捉えたデータと重量計のデータから、取り上げられた商品を特定する。Amazonはこの方式をSensor Fusionと呼んでいる。

Deep Learningで意味を把握

これら一連のデータはサーバーに送信され、Deep Learningが売り上げを推定する。天井のカメラは顧客の位置を追跡し、特定の商品棚の前にいることを認識し、その挙動 (手を伸ばすなど) を捉える。その棚の商品が取り上げられたことをカメラと重量計で認識する。これら一連の情報をDeep Learningで解析し、特定の顧客が特定の商品を取り上げたことを判定する。

Googleは家庭向けロボットを開発!? 先行するAmazonを追随する

Friday, October 5th, 2018

Amazonは家庭向けロボットを開発していると噂されている。Googleはこれに対抗して、同じく、家庭向けロボットの開発に乗り出した。Googleは五年前、ベンチャー企業を買収してロボット開発を始めたが、このプロジェクトは頓挫した。GoogleはAmazonに刺激され、ロボット開発を再開し、高度なAIを武器にインテリジェントなシステムを開発している。

出典: Dmitry Kalashnikov et al.

ロボット開発の経緯

Googleは2013年、プロジェクト「Replicant」を発足し、ロボット開発に乗り出した。ロボット開発は「X」(当時のGoogle X)が担い、Andy Rubinが指揮を取っていた。Rubinは「Android Inc.」創業者で、2005年にGoogleが買収し、スマホ事業の基礎を築いた。Rubinはインテリジェント・マシンに興味を持っており、ドイツの製造会社でロボットエンジニアとして働いていた。

ベンチャー企業買収

Googleはロボット企業8社を相次いで買収した。最大規模の買収はBoston Dynamicsで、同社は、軍事支援ロボットとヒューマノイドを開発していた。日本企業でヒューマノイドを開発しているSchaftも買収された。また、コンピュータビジョンをロボットに応用したIndustrial Perceptionや次世代ロボットアームを開発していたRedwood Roboticsも含まれ、Googleはロボット市場に本格的に参入すると見られていた。

開発を中止

しかし、Googleは突然ロボット開発を中止した。Andy Rubinは2014年にGoogleを離れ、その直後、Replicantは活動を停止した。Googleは買収したBoston Dynamicsの買い手を探していたが、2017年、SoftBankが同社を買収することで合意した。これに先立ち、SoftBankは2012年にAldebaran Roboticsを買収し、ロボット事業を開始した。

中止の理由

Googleがロボット開発を中止した理由はロボットを事業化するのが難しいと判断したため。ロボットは配送センターや組み立て工場使われる工業ロボットが中心で、一般社会で使われるサービスロボットの開発には時間がかかる。Rubinは2020年頃に製品を投入する予定でいたが、Google幹部は短期間で成果を求めており、この意識の相違が中止に繋がった。

ロボット基礎研究

Replicant中止の後も、Googleは高度なAIをロボットに適用する研究を進めてきた。Googleはコモディティハードウェアに最新のAI技法を取り込み、インテリジェントなロボットを開発している。具体的には、Deep LearningとReinforcement Learningをロボットの頭脳として使う。Googleのロボット研究施設は「Arm Farm」と呼ばれ(先頭の写真)、10台超のロボットアームが並列に稼働しスキルを学ぶ。

AI研究内容

研究ではロボットアームでドアのノブを回し、それを手間に引いてドアを開けるタスクが実行された (下の写真)。それぞれのロボットはニューラルネットワークのコピーを搭載し、Reinforcement Learningの手法で教育された。行動(Action)を実行するとき、与えられた環境(Sate)で値(Value)を算定し、ロボットはValueを最大にする方向でActionを決定する。ロボットがタスクを実行するときにノイズを加え、それぞれのロボットは異なる環境でタスクを実行する環境を構築する。

出典: Google

ロボットクラウド

これらのデータはクラウドに収集されネットワークを最適化する。アルゴリズムは収集されたデータからうまく処理できたケースとそうでないケースを検証し、Actionとタスク完遂の関係を把握し、ネットワークを改良していく。このサイクルを繰り返し、ロボットの性能を向上する。ロボットは数時間の教育でドアを開けることができるようになった。

最新のAI研究

Googleは最新のAI技法「QT-Opt(Q-function Targets via Optimization)」を開発した。Arm FarmにQT-Optを搭載するとオブジェクトをつかむ(Grasp)精度が飛躍的に向上する。QT-Optとは分散型Q-Learning(Reinforcement Learningの一つのモデル)で、連続したアクション(Continuous Action)を安定的に処理できる点に特徴がある。

ロボットでモノをつかむ

ロボットはカメラのRGB画像からオブジェクトを把握し、アーム先端のグリップを開きそれをつかむ。ロボットが複雑な形状のオブジェクトを正確につかむためには高度な技法が要求される。これは「Picking Challenge」と呼ばれ、多くの企業や研究機関がこのテーマに挑戦している。いかに正確にかつ高速にモノをつかめるかがロボットの商品価値を決める。

アルゴリズム教育

アルゴリズムはカメラの画像を読み込み、ロボットアームの動きと、グリッパーの開閉を出力する(下の写真、左側)。最初にオフラインでアルゴリズムを教育し、次に、ロボットを稼働させオンラインで教育する。オフライン教育では1000種類のオブジェクトが使われ(下の写真、右側)、ロボットはこれらを580,000回つかむ試験が実施された。完成したアルゴリズムを使い、ロボットの性能を検証したところ、オブジェクトをつかむ成功率は96%と好成績をマークした。

出典: Dmitry Kalashnikov et al.

研究の意義

アルゴリズムはオブジェクトを正確に掴むことができるほか、操作をインテリジェントに理解する。アルゴリズムは上手く掴めなかったときには、異なる掴み方を自動で学習する。また、オブジェクトを掴む手法を長期レンジで把握する。(下の写真上段:オブジェクトが纏まっているときはそれを崩す(Singulation)ことを自律的に学習する。中段:立っているローソクはつかみにくいのでそれを倒して実行する。下段:軽くてつかみにくいボールはトレイの端に寄せてつかむ。上の写真右側:煩雑な環境でもオブジェクトをつかむことができる。)

出典: Dmitry Kalashnikov et al.

実社会への応用

Googleのロボット開発はGoogle BrainとXで進められている。GoogleのArm Farmで開発された技術は、ロボットアームだけでなく、ロボットの基礎技術として応用される。実社会には様々な形状のオブジェクトがあり、それに触れた時、オブジェクトの物理挙動も異なる。ロボットを実社会で使うためには多くの課題を解決する必要があるが、これらの研究がその手掛かりとなる。

家庭向けのロボット

Googleは家庭向けロボットの開発を進めていると噂されている。AIスピーカー「Google Home」は人気商品で、多くの家庭で使われている。GoogleはAIスピーカーを駆動型にしたロボットを開発しているとみられている。ロボットは家の中を自律的に走行し、タスクを実行することとなる。

Amazonに対抗

Amazonは「Vesta」という名前でロボットを開発している。これはAmazonの人気商品Amazon Echoを駆動型にしたモデルである。GoogleはVestaに刺激を受け、ロボット開発を再開したとみられる。AIスピーカー市場ではAmazon EchoとGoogle Homeが競い合っているが、今度はロボットで両社が鎬を削る。両社ともロボット技術はまだまだ未成熟であるが、商品化に向けての開発が進み、大きなブレークスルーが期待される。

AIがeスポーツにデビュー、5台のAIが5人の人間と戦闘ゲームで対戦

Friday, September 21st, 2018

AIは囲碁のチャンピオンを破り、次の目標をeスポーツに定め、開発が進んでいる。eスポーツとはビデオゲームを使った対戦で、スポーツのように試合が実況中継される。いまeスポーツファンの数が急増し、日本のプロ野球に匹敵する規模のビジネスとなっている。OpenAIは「Five」というAIを開発し、eスポーツのトップチームと対戦した。

出典: OpenAI

OpenAIとは

OpenAIとはAI研究の非営利団体で、Elon Muskらにより2015年に設立された。Muskらが10億ドルを拠出し、最初の数年間でその一部が使われる。OpenAIは他の研究機関と連携し、特許や研究結果を公開し、オープンな手法でAI開発を進めている。高度なAIが社会及ぼす危険性を回避するため、安全なAIを開発する。研究テーマの中心は深層強化学習(Deep Reinforcement Learning)で、安全なインテリジェンスの開発を目指す。

ゲームをプレーする「Five」

OpenAIはビデオゲーム「Dota 2」をプレーするAI「Five」を開発した。Dota 2とは、五人のチームが森の中で戦闘を繰り返し、陣取り争いをするゲーム (上の写真)。Fiveは五人の人間を五セットのAIで置き換え、AI同士が連携しながらプレーする。Fiveは国際ゲームイベントで人間のトップチームと対戦し好成績を収めた。

Dota2とは

Dota 2は米国Valve社が開発したビデオゲームで、MOBA(Multiplayer Online Battle Arena)に区分される。MOBAとは、チームメンバーがキャラクターを操作し、相手のチームと対戦する形式を指す。Dota2では、二つのチーム(「Radiant」と「Dire」)が対戦し、相手のタワー「Ancient」を崩壊させたほうが勝ちとなる。チームは五人で構成され、それぞれがキャラクター(Heroと呼ばれる、下の写真、その一部)を操作し、相手のキャラクターを攻撃する。対戦では戦略やチームプレーが求められ、AIにとって極めて複雑なゲームとなる。

eスポーツとは

Dota 2はeスポーツ(eSports)で最も人気のあるゲーム。eスポーツとはビデオゲームを使った対戦で、有名チームの試合が放映され、ファンがそれを観戦する構造となる。eスポーツファンの数が急増し、2018年には2億人を超え、2021年には3億人になると予想されている。eスポーツの収入は2018年は$905.6Mと予想され、巨大ビジネスとなっている。(ゲームの対戦をスポーツと呼ぶには違和感を感じる人も多いが、実際にプレーを見ると激しい格闘技で、デジタル時代のプロレスと言える。)

出典: Dota2 Wiki

The International

eスポーツの最高峰がDota 2のワールドカップともいえる「The International」(下の写真)。今年はカナダ・バンクーバーで開催され、18チームがトーナメント形式で対戦した。特設会場のステージで競技が行われ、ゲーム画面が大型モニターに映し出される。今年は、欧州チーム「OG」が中国チーム「PSG.LGD」を3対2で破り優勝。対戦の模様はYouTubeなどで中継され、観戦者数は6679万人に上った。これはゴルフ「Masters」の観戦者数に匹敵し、世界中で人気が広まっている。

Fiveの対戦結果

The Internationalという晴れの舞台で、Fiveはエグジビションゲームとして、プロチームと対戦した。Fiveはブラジルチーム「paiN Gaming」及び中国チーム「rOtK」と対戦したが、どちらも1対0で敗戦した。paiN Gamingとの対戦で、序盤は人間チームが優勢であったが、中盤はAIチームが形勢を逆転した。しかし、終盤で人間チームの戦略的な攻撃をうけ敗戦を期した。人間の技には及ばなかったが、対戦時間は51分と長く(平均は45分)、接戦の末の敗戦となった。

出典: Dota2 Wiki

Fiveの概要

Fiveはニューラルネットワーク(Long Short Term Memory、LSTM)で構成され、深層強化学習の手法で教育された。LSTMはRecurrent Neural Network方式のネットワークで、記憶機能があり、長期間にわたる相関関係を処理するのに適している。アルゴリズムはAI同士の対戦を通じて、Dota2のプレーの仕方を学習した。

ゲームをプレーする理由

OpenAIがDota 2をプレーするAIを開発する理由は、ゲーム環境が実社会によく似ているため。Dota 2は、森林の中で敵味方が入り乱れ、攻撃と防御を繰り返す。勝つためには作戦を立て、AI同士のチームワークが要求される。Fiveはゲームという仮想社会で技術を習得するが、ここで培った技法は実社会に応用できる。ロボットや自動運転車が家庭や街中で稼働するとき、Fiveで習得した技術が役に立つ。

囲碁の次はeスポーツ

Google DeepMindはAlphaGoで囲碁のチャンピオンを破り世界を驚かせた。囲碁は複雑なゲームであるが、Dota 2はそれよりはるかに複雑なゲームとなる。囲碁は150手ほどで勝敗が決まるが、Dota 2は2万手と長い。また、囲碁は正規化された空間でプレーするが、Dota2は人間社会を模したカオスな環境で実行される。囲碁を制したAIは、次はeスポーツでトップチームと対戦し、勝利することを目標に据えている。

Google Assistantがバイリンガルに進化、AI家電は多言語対応が必須機能となる

Friday, August 31st, 2018

Googleの仮想アシスタント「Google Assistant」がバイリンガルとなった。今までは単一言語しか使えなかったが、これからは二か国の言語で話しかけることができる。Google Homeに、日本語で問いかければ日本語で答え、イタリア語で質問するとイタリア語で答える(下の写真)。世界でバイリンガル家族が増える中、Google Homeはバイリンガルに進化した。

出典: Google

スマホで利用する

バイリンガルのGoogle AssistantはスマートフォンPixel 2で利用できる。この機能を使うには、専用アプリ「Home」で使う言語のペアを設定する(下の写真左側、英語と日本語を選定)。この設定で、東京時間を英語で尋ねると、Google Assistantは英語で答える(下の写真、右側上段)。また、日本語で尋ねるとGoogle Assistantは日本語で答える(右側下段)。英語と日本語の他に、フランス語、イタリア語、スペイン語、オランダ語の六か国語をサポートしており、この中から二つの言語を選びバイリンガル機能として利用する。

出典: VentureClef

Google Homeで利用する

Google Assistantを搭載しているGoogle Homeでバイリンガル機能が威力を発揮する。筆者宅ではGoogle Homeを家電を制御するハブとして使っており、家の中のLEDライトをオン・オフするときに、英語と日本語で指示できる(下の写真左側)。また、テレビを操作するときも、英語と日本語で指示できる(下の写真右側)。

出典: VentureClef

バイリンガル世帯

Googleが二か国語機能を投入した理由は、米国や世界でバイリンガル家族が増えているためである。米国では全世帯の二割がバイリンガルと言われている。カリフォルニア州では五割を超えると思われる。バイリンガル世帯では家の中で二つの母国語が使われる。例えば、メキシコからの移住が多い米国では、家庭内で英語の他にスペイン語が使われる。今までは、使う言語によりGoogle Homeの設定を変更していたが、これからは一回の設定で二か国語を使うことができる。

バイリンガル技法

Google Assistantは既に多言語に対応しているが、バイリンガル処理に進むには大きな課題をクリアーする必要がある。課題は二つあり、指示された音声の言語を特定することと、リアルタイムで指示内容を把握しアクションを取ること。

音声の言語を特定

Googleは話しことばの言語を特定する技術を2013年から開発している。これは「Language Identification (LangID)」 と呼ばれ、ニューラルネットワークで話しことばの言語を推定する。話しことばを前処理し、それをRecurrent Neural Networkに入力すると、言語の種類を判定する。 (下の写真、「hey thank you for calling me」という話し言葉をLandIDに入力すると、ネットワークは8か国語のうち、どの言語が話されたかを推定する。ネットワークはフレームごとに推定処理を続け、ここでは英語(濃い青色の部分)が話されたと推定。)

出典: Javier Gonzalez-Dominguez et al.

リアルタイム処理

Google AssistantはLangIDで言語を特定すると、次に、その言葉の意味を把握し、指示されたタスクを実行する。このプロセスは大規模な演算が必要となり、それをリアルタイムで実行することはできない。このため、Googleは二つの言語処理を並列で実行しておき、言語の判定結果がでると、その言語の処理だけを実行する。具体的には、言葉が語られると、二組のLangID処理と言語解析を並列で走らせ、その結果をアルゴリズム(Ranking Algorithm)で評価し(下の写真、下段)、どちらの言語が語られたかを判定する。言語が確定すると、その言語だけを処理し、もう一方の処理は中止する。対象言語の処理は既に途中まで進んでおり、この技法でリアルタイムに応答できるようになった。

出典: Google

GoogleがAmazonを抜く

GoogleはAmazon Echoのアイディアを借用してGoogle Homeを開発した。Amazonが先行しているAIスピーカー市場で、Googleは高度なAIを武器にGoogle Homeの売り上げを伸ばしてきた。ついに形成が逆転し、GoogleがAmazonを抜き首位の座を奪った。2018年第二四半期、Google Homeの出荷台数は540万台で、Amazonは410万台にとどまった。三位と四位にはAlibabaとXiaomiが入り、中国企業が急速にシェアを伸ばしている。AIスピーカー市場ではGoogleが首位を奪うものの、これからは中国企業との戦いとなる。

多言語対応に向かう

Googleはバイリンガルの次にはトライリンガル機能を投入するとしている。更に、対応する言葉の種類を順次増やし、最終的には主要言語の殆どをカバーすることになる。つまり、Google Assistantは言語の制約がなくなり、どの言語で話されてもそれに対応できるよう進化する。これからのAIスピーカーやAI家電はマルチリンガル対応が必須の機能となることを示している。

出典: E&T Magazine

マルチリンガルな案内ロボット

マルチリンガル機能の応用分野は幅広く、ロボットの対話能力を大きく押し上げる。観光案内ロボットが数多く登場し、ツーリストは対話しながら情報を得ることができる。このプロセスでは、まず、会話する言語を入力する必要がある(上の写真、ピョンチャン冬季五輪の案内ロボットで英語か韓国語を選択する)。LangID技法を応用すると、案内ロボットにいきなり話しかけても、AIが言語の種類を把握し、質問された言語で案内する。東京オリンピックではマルチリンガルな案内ロボットが登場し、世界各国からの旅行者のコンシェルジュとなりそうだ。

AIによる世論操作は国家安全保障の危機、米国国防省はニューラルネットワークでフェイクビデオの検知に成功

Friday, August 24th, 2018

AIが現実と見分けのつかない偽のビデオを生成し、社会を混乱させている。これはフェイクビデオと呼ばれ、世論操作のために使われ、米国中間選挙への影響が懸念されている。米国国防省はAIを悪用した情報操作を安全保障への挑戦と捉え、フェイクビデオを検知する技術の開発を急いでいる。

出典: BuzzFeed

フェイクビデオとは

フェイクビデオとは悪意を持って改造されたビデオで、AIが現実に存在しない映像をリアルに描き出す。オバマ前大統領が演説しているフェイクビデオが登場した(上の写真)。これはAIが生成した映像で、どこから見ても本物そっくりで、もう仮想と現実の区別がつかない。これらフェイクビデオがFacebookやYouTubeなどに掲載され、偽の情報を拡散し、有権者の心を揺さぶる。

Adobe Photoshopを悪用しても

フェイクビデオ製作は今に始まった事ではなく、早くから登場している。編集ツールAdobe Photoshopなどを使うと、写真を改造したり、巧妙な偽ビデオを制作できる。しかし、編集は手作業で、精巧なフェイクビデオを作るには技量を必要とする。更に、10秒の短いビデオを制作するにも250枚のイメージを処理する必要があり、膨大な作業が発生する。このため、偽ビデオが大量に制作されることはなかった。

DeepFakeを使うと

しかし、AIを駆使したフェイクビデオ作製ツールが登場し、偽ビデオを作る作業が格段に簡素化された。このツールは「DeepFake」と呼ばれ、ビデオの中に登場する人物の顔を、別の顔と置き換える。このツールを使うと誰でも簡単に、顔をスワップした偽のビデオを制作できる。例えば、女優Jennifer Aniston (下の写真左側、オリジナル写真)の顔を、男優Nicolas Cage(中央)や歌手Taylor Swift(右側)で置き換えることができる。このツールの登場でフェイクビデオが大量に生成され、深刻な社会問題を引き起こした。

出典: Iryna Korshunova et al.

検知技術が追い付かない

フェイクイメージを検知するには、写真をピクセルレベルで解析し、ノイズやイメージセンサー特性などを手掛かりに、偽物を見つける。また、光の当たり具合や影のでき方など、物理的な条件を手掛かりに偽造を検知してきた。しかし、AIが生成するフェイクイメージは精巧で、これら従来の検知手法では偽造を見抜くことができない。

AIを使った検知技術

このため、米国国防省が主導してフェイクビデオを検知する研究が進められてきた。先月、最初の研究成果が登場し、その概要が論文「Exposing AI Generated Fake Face Videos by Detecting Eye Blinking」として公開された。この技術は「In Ictu Oculi (瞬きの間に)」と呼ばれ、瞬きからフェイクビデオを検知する。この技法はニューヨーク州立大学のSiwei Lyu教授らにより開発された。DeepFakeで生成された人物は殆ど瞬きをしないという特性を掴み、これをAIで解析して偽物を検知する。AIを悪用して生成されたフェイクビデオをAIで見抜く手法である。

検知方法

開発されたAI(ニューラルネットワーク)は、ビデオを解析し、ある時間内に人物が瞬きしたかどうかを判定する。ニューラルネットワークを試験するために、実際にフェイクビデオを生成し、その機能を検証した(下の写真)。上段はオリジナルビデオで、ニュース解説者Tucker Karlsonが喋っているシーンで、下段はこれを男優Nicolas Cageの顔で置き換えたフェイクビデオ。これら二つのビデオをニューラルネットワークに入力すると、上段ビデオは6秒のうち1回瞬きをしたと判定。一方、下段ビデオはまったく瞬きをしなかったと判定。人は平均で3.5秒おきに瞬きする。瞬きの回数からアルゴリズムは下段をフェイクビデオと判定した。

出典: Siwei Lyu et al.

その他のシグナル

検知技術は瞬きだけでなく、人間の生理学特性に着目し、不自然な動きを検知する。瞬きの他に、呼吸、心拍、眼の動きなどを解析し、フェイクビデオを検知する。人間は無意識のうちに呼吸し、これが体の動きとして現れる。AIはこのような身体特性を把握してフェイクビデオを特定する。この研究はその一端を公開したもので、フェイクビデオ開発者に手掛かりを掴まれることを避けるため、その他の手法は秘密裏に開発されている。DeepFakeはこれら人間固有の動作を取り入れることができず、ここがリアルとフェイクを見分けるポイントとなる。

国家プロジェクト

この研究はアメリカ国防高等研究計画局 (DARPA)配下で実施された。DARPAはイメージやビデオの信ぴょう性を解析する研究を進めている。これはMedia Forensics (MediFor)と呼ばれ、2016年にスタートした。市場でスマホが普及し、写真やビデオの量が増え、それに伴いイメージ改造技術が向上した。精巧な偽造イメージが登場し、何が本物なのかを判定できなくなった。更に、DeepFakeの登場でフェイクビデオ技術が格段に向上し、国家安全保障を揺るがす事態となった。

AI同士の知恵比べ

DARPAの最初の成果がIn Ictu Oculiで、瞬きの回数を手掛かりに、フェイクビデオを見抜くことができた。防衛技術がDeepFakeに勝利したこととなる。一方、DeepFakeなど攻撃側は、瞬きの回数を取り込み、より精巧なフェイクビデオを生成することは間違いない。これからは、検知技術のAIとフェイクビデオを生成するAIの知恵比べとなる。今回の研究成果はその第一歩で、これからフェイクビデオ対策の長い戦いが始まる。