Archive for June, 2016

IBMが自動運転車事業に参入、Watsonが無人小型バスの”車掌”になる

Saturday, June 25th, 2016

IBMは知的コンピュータWatsonで自動運転車市場に参入した。IBMが自動運転技術そのものを開発するのではなく、乗客とクルマのインターフェイスを司る。IBMは自動運転車の課題は運転技術そのものではなく、搭乗者のユーザーエクスペリエンスであると指摘する。IBMの自動運転車事業へのアプローチを分析する。

vwb_638_car_ibm_watson (p01)

自動運転小型バス

IBMはハイテク自動車メーカー「Local Motors」と共同で自動運転車「Olli」を開発した (上の写真)。Olliは小型バスで車体はLocal Motorsが3Dプリント技法で製造した。Olliは遊園地の乗り物を思わせる可愛い形状で12人を収容する。バッテリーで稼働し、走行距離は58キロメートル。Olliは屋根の前と後ろにLidar (レーザー光センサー) を、また、前方にカメラを搭載する。これらセンサーの情報を元に自律走行する。更に、Olliは車内に設置したカメラやマイクで搭乗者を把握し、乗客とコミュニケーションを取る。(下の写真はOlli車内の様子。)

Watsonと搭乗者が会話

IBMはWatsonのCognitive Computing (データから意味を把握する技法) を自動運転車に適用する。WatsonはOlliに搭載しているセンサーが収集する大量のデータを解析して乗客と会話する。IBMはこれをビデオで公開し、Local Motors創設者John RogersがOlli車内でWatsonと会話する様子を示した。

Watsonが観光案内

Rogersが挨拶すると、Watsonはそれに応じて挨拶を交わす。Watsonのテレビコマーシャルで登場する男性の声で、聴きなれた声で会話が進む。Watsonは社内に設置されたカメラでRogersを認識する。Rogersがお腹がすいたので食事したいと話すと、Watsonはここはシーフードが美味しいと説明し、Crab Cake Caféというレストランを推奨した。Rogersがそのレストランに行くと告げると、Watsonは今夜は雷雨の予報で傘を持っていくよう注意を促した。Watsonは観光タクシーの運転手のように、街の観光スポットや人気レストランを教えてくれる。

vwb_638_car_ibm_watson (p02)

WatsonはOlliの運行状況についても説明する。乗客がOlliはどうして自動で走れるのかと質問すると、Watsonはその仕組みを説明する。また、Olliが一時停止したとき、乗客がなぜここで止まるのかと聞くと、Watsonはその理由 (例えば歩行者が横断歩道を横切ろうとしているなど) を答える。乗客は管理者が搭乗していない無人バスで、問題なく走っているのかが気になるが、Watsonと会話することで不安が取り除かれる。安心感が格段に向上する。

地方自治体での試験が始まる

2016年の夏からNational Harbor市 (メリーランド州) で数か月にわたりOlliの試験走行が始まる。ここでOlliの機能や利用者の反応などが評価される。その後年末までに30台のOlliが投入され、生活の足として利用される。Olliは観光スポットを結ぶだけでなく、住民が買い物や通勤でOlliを利用する。Local Motorsの名前が示すように、Olliは地域住民の交通網となりエコシステムを構成する。この他に、Miami-Dade County郡 (マイアミ州) は複数台のOlliを導入し、評価を始める。Las Vegas市 (ネバダ州) も導入を計画している。海外では、2016年末までにCopenhagen (デンマーク) に導入される。

各地で試験運行が始まるが、Olliの運用形態は大きく二つに分類される。一つは無人の路線バスで、定められたルートを運行する (下の写真、イメージ)。これは上述のNational Harborのケースで、無人乗り合いバスとして利用される。もう一つは無人タクシーでオンデマンドで利用する。配車サービスUberのように、無人バスを呼び目的地まで移動する。両方式ともスマホ専用アプリでOlliを利用する。またOlliをチャーターする方式も検討されている。貸し切りバスのように、企業や個人がOlliを借り切り、移動式会議室や走るカフェなどの構想も浮かんでいる。

vwb_638_car_ibm_watson (p03)

Watsonが会話する仕組み

OlliはIBM Watsonの四つのAPIを使って乗客と会話する。これらはSpeech to Text (音声認識)、Natural Language Classifier (言葉の意図を抽出)、Entity Extraction (言葉に含まれる情報を抽出)、Text to Speech (音声に変換) で、一連の自然言語解析機能をクラウドで提供する。Olliはこれらの機能を使い乗客と本格的な会話をする。

一連の技術は「Watson Internet of Things」として提供される。Olliには30を超えるセンサーが搭載され、運行に関するデータと乗客に関するデータが収集される。これをリアルタイムで解析し、Watsonが運行状況を把握し、乗客の質問に答える。これにより、Watsonは何処に向かっているのか、また、なぜこのような運転をするのかを説明できる。IBMはこのシステムを自動運転車を構成要素とするIoTとして位置づける。クルマの走行データをWatsonでリアルタイムに解析し、学習を重ねシステムがインテリジェントになっていく。

Dプリントの手法で製造

Olliのもう一つの特徴は車体が3Dプリントの手法で製造されていることだ。車両の組み立てに要する時間は11時間と言われ、短時間でOlliを製造できる。IBMとの共同開発で、Olliの計画段階から試験運転までに要した期間は三か月としている。高速に製造できることに加え、Olliの車体構成を柔軟に変更できる。この手法は「open vehicle development process」と言われ、利用形態に応じセンサーを追加または削減することで、利用ニーズにあった車体を提供する。

この背後にはLocal Motorsの3Dプリント技術を使った車両製造技術がある。この技術は「LM3D」と呼ばれ、車体パネルとシャシを3Dプリントの技法で製造する。素材はABSプラスチックとカーボンファイバーの組み合わせで、法令で定められた強度を持つクルマを製造できる。Local Motorsは新世代の自動車メーカーでスマートで環境に優しいクルマを製造する。(下の写真はLocal Motorsの展示室に設置されている3Dプリント装置。)

vwb_638_car_ibm_watson (p04)

搭乗者のユーザーエクスペリエンス

IBMは自動運転車の最大の課題は搭乗者のユーザーエクスペリエンスであると指摘する。ヒトと自動運転車のインターフェイスが問われている。搭乗者とクルマが会話できることで、初めて自動運転車が完成し社会に溶け込むことができる。これを可能にするのがWatsonの技術で、クルマからストリーミングされるデータを解析し、学習し、知見を引き出し、乗客と会話する。

クルマのインターフェイスといえばAppleのCarPlayやGoogleのAndroid Autoが普及している。一方、自動運転車ではクルマが人間のように、音声で会話する機能が求められる。自動車メーカーは自動運転技術の開発は得意とするが、会話型インターフェイスの開発は大きな障壁となる。会話型インターフェイスは高度なAI技術が必要で、ベンチャー企業を中心に開発が進んでいる。IBMはこの需要に着眼しWatson IoTで会話型インターフェイスを提供し、自動車メーカーがこれを採用することを狙っている。

Teslaに挑戦する自動運転車ベンチャー、AIが人間の運転を見てドライブ技術を学ぶ

Saturday, June 18th, 2016

今年末までに1000ドルで自動運転キットを販売する。型破りなベンチャー企業が登場した。このキットを搭載すると、普通のクルマが自動運転車になる。開発している技術も革新的で、AIがドライバーの運転スタイルを見るだけで運転技術を学ぶ。Las Vegasで自動運転車の試験走行が公開されたが、波乱含みの展開となった。

vwb_637_car_comma_ai (p01)

Commaというベンチャー企業

これはSan Franciscoに拠点を置く「Comma」というベンチャー企業で、AIを駆使した自動運転キットを開発している (上の写真はComma試験車両)。(第一報は「Googleに挑戦する自動運転ベンチャー、自動車業界の”Apple”が生まれるか」でレポート。) このキットをクルマに搭載すると、普通のクルマが自動運転車になる。高価なTeslaを買わなくても自分のクルマで自動運転を楽しめる。創業者George Hotzは26歳の青年で、Apple iOSをハッキングしたことで有名になった。CommaはLas Vegasを拠点に試験走行を繰り返している。ネバダ州で試験するのは、カリフォルニア州が完全自動運転車の試験走行を認めていないためである。Commaはこの範疇には入らないが、カリフォルニア州政府から試験走行を中止するよう命令を受け、Hotzは不承不承これに従った。

Las Vegasで試験走行

Las Vegasでの試験走行は主要メディアが報道した。Commaはハイウェーだけでなく幹線道路も走ることができる。Hotzが運転席に座り、市街地での自動走行を披露した。自動運転モードに切り替えるとチャイムが鳴り、Commaはレーンの中央をキープし、前の車両に追随して走る。赤信号で停止している車両に近づくと、Commaは徐々に減速しうまく停止した。ただ、Commaはベータ版であり、Hotzはいつでも運転を代われるよう、両手をステアリング近くに構えていた。信号が青に変わり、前方の車両が発進すると、Commaもそれに合わせてスムーズに発進した。

交差点でクルマが止まらないことも

しかし、危ないシーンがあった。信号で停車しているクルマに接近するが、Commaは減速を始める様子はなく、Hotzがハンドルを握りブレーキを踏んで停止した。この事態が生じることを予想していたとはいえ、緊迫したシーンとなった。Hotzによると、Commaが車両の後ろをついて走るのは容易だが、路上で停車しているクルマを認識するのは難しいとしている。Commaはレーダーで前方の車両を捉えるが、停車している車両と路面との区別が難しいためである。開発途上で自動運転車の技量をデモをするのは極めて異例なことである。安全性が求められる自動車開発で、問題点を公表するのは大きなリスクでもある。Commaの型破りな開発手法を表す出来事となった。

vwb_637_car_comma_ai (p02)

クルマが高速に学習する

Commaが高速に学習できる機能も示された。Las Vegasの道路は車線をペイントする代わりに丸鋲が打ち込まれている (上の写真)。CommaはSan Franciscoの道路で試験走行を重ねてきたが、そこでは白線がペイントされている。Commaは車線の境目は白線だと認識しており、Las Vegasではうまく走れない。そこで、HotzはLas Vegasに到着してすぐに、Commaに丸鋲が車線であることを教育した。丸鋲が埋め込まれている道路を数日間走り、Commaはこれが車線であることを学習した。人間のドライバーが異なる道路状態を柔軟に把握できるように、Commaも路面を見て車線を判断する。例えば、車線が消えている道路でも、路面の窪みや色の違いなどをなどを手掛かりに、車線を認識する。Commaは人間が車線を判定する手法を学び、車線がなくても運転できるようになる。

クルマは道路標識を認識できない

一方、開発中のCommaにはできないことが沢山ある。Commaは信号機を認識することができない。また、交差点の一時停止標識を認識できない。同様に、速度制限標識など道路に表示されている標識を認識できない。このため自動運転時にはドライバーが走行速度を設定する。Hotzによるとクルマが道路標識を認識する行為はルールベースの処理で、これらを実装することは容易いとしている。また、Commaは自動で車線変更する機能も備えていない。これに対しCommaのAIは運転の直感的な部分を担い、開発はこの部分に集中している。Hotzによると、Commaは6歳児に相当し、クルマは衝突するのは悪いことだと認識するが、まだ、信号機に従って左折するなどのルールは理解できていないとしている。

Comma = Dropcam + Fitbit

HotzはCommaの自動運転技術を「Dropcam + Fitbit」と説明する。DropcamはNest社が開発したセキュリティーカメラで、屋内外のイメージを撮影する。FitbitはFitbit社が開発したリストバンドで、加速度計で運動量を計測する。つまり、Commaはカメラと加速度計を使い、ドライバーの運転テクニックを学習する。自動運転技術開発にはクルマの走行データが欠かせない。しかし、Commaは2015年9月に設立したばかりの若い会社で、試験車両は一台しかない (先頭の写真)。Commaにとって運転データの収集が最大のネックとなっている。そこで、Commaは走行データ収集アプリ「Chffr」を開発した。

vwb_637_car_comma_ai (p03)

アプリで運転データを収集する

このアプリを一般に配布し利用者の運転データを収集する。Chffrを搭載したスマートフォンをフロントグラス内側に装着し、ドライバーの運転テクニックをモニターする。アプリはスマホカメラで前方のイメージを撮影し、センサーで加速度を測定し、クルマの動きを把握する。収集したデータを使い機械学習の手法でシステムを教育する。これによりクルマは人間のように運転する技術を習得する。利用者としては、アプリで運転データを提供することで、それに応じたポイントを得る。正式な発表は無いが、利用者は獲得したポイントを特典に還元できる。Chffrベータ版は既にリリースされ、100時間分のデータをログした。正式版は2016年6月に一般に公開される。(上の写真:クルマとのインタフェイスは大型タブレット、Hotzは自身のクルマにもこれを搭載している。)

人間をコピーしたDriving Agentを開発

CommaはChffrが捉えた前方イメージと加速度で運転スタイルを把握する。交差点で前に止まっている車両に対し、ドライバーはどの位のレートで減速するのかを学習する。また、カーブを曲がるときは、どのくらいのレートで速度を落とすかを学習する。Chffrが収集したデータを使い、クルマが人間のように運転するDriving Agentを開発する。Commaは2018年末までに10億マイルのデータを収集することを目標としている。

vwb_637_car_comma_ai (p04)

Hotz (上の写真) は人間のように自然な流れで運転する自動運転車を開発する。コンピュータ制御のAutopilotとは異なり、人間をコピーしたDriving Agentを開発する。全米各地の運転データを収集すれば、それぞれの地域に独特な運転スタイルを学ぶことができる。最大のメリットは、詳細マップを制作する必要がなくなること。GoogleやHEREが詳細マップ制作でしのぎを削っているが、Commaは人間のように詳細マップ無しで運転できる。

クラウドソーシングでAIを開発

一方、大衆から運転データを収集する「クラウドソーシング」でAIを開発する手法の是非が議論されている。アプリ利用者は模範的なドライバーだけとは限らない。危険なドライバーの運転データも収集される。タイヤをきしませながらコーナーを抜けるドライビングテクニックをAIが模倣する可能性もある。これに対してHotzは、模範的なドライバーの運転テクニックは画一的であるが、危険なドライバーのスタイルは多様であるとしている。つまり、統計的に処理することで、危険ドライバーのデータが除かれるとの見解を示している。

光学カメラとレーダーだけで自動運転

Commaは非常にシンプルなシステム構成となっている。光学カメラとレーダーだけで自動運転を実現する。光学カメラはフロントグラス内側に搭載される。カメラがクルマの眼となり外部のイメージを捉える。カメラはこれ一台で、人間のドライバーと同じように、前方のイメージだけを見る。Lidarや超音波センサーは搭載していない。

最終製品でLidarを使わないものの、試験走行では周囲のオブジェクトを3Dで認識するためにLidarを搭載する (先頭の写真はLidarを搭載した試験車両)。カメラでとらえたイメージをLidarの3Dイメージと比較して、AIがオブジェクトを正しく認識していることを確認する。Lidarがイメージ認識の先生となり、AIがカメラだけでイメージを認識できるように教育する。

レーダーはフロントグリルに搭載される。レーダーは前方のオブジェクトを把握するために使われる。カメラがクルマ直前のイメージを捉えるのに対し、レーダーは遠距離まで測定できる。トランクの上にはLTEアンテナとGPS受信機を搭載し、トランク内部には処理装置が置かれている。

vwb_637_car_comma_ai (p05)

Tesla Autopilotの対抗製品

Hotzは2016年末までに製品を出荷するとしている。価格は1000ドルとなる。製品形態は未定であるが、プロセッサー類はパン一斤程度の形状にまとめられる。この自動運転キットを消費者がクルマに搭載するが、設置作業はそれほど難しくはないとしている。自動運転キットはドライバーの運転をアシストする機能で、Tesla Autopilotと同じコンセプトとなる。Googleのような完全自動運転ではなく、運転の責任は全てドライバーにある。

Tesla Autopilotに類似した機能であるが、Commaの狙いは市街地での自動運転だ。Tesla Autopilotはハイウェーでしか使えないが、Commaは市街地を含む主要道路での自動運転機能を使うことができる。Commaは通勤時の自動運転が一番需要が高いとみており、この市場をターゲットに製品を開発する。クルマの運転が好きな人でも渋滞した道路を運転して通勤するのは苦痛である。(上の写真はSan Francisco地区の通勤ラッシュ)

Commaのビジネスモデルは流動的で最終形態は今の段階では予測できない。Commaが製品を直接エンドユーザに供給するのか、それとも自動車メーカーに供給するのかなど、販売チャネルは決まっていない。Commaに先立ち自動運転キットを開発するベンチャー企業「Cruise Automation」はGMに10億ドルという破格の金額で買収された。Commaも自動車メーカーに買収されることになるのか、今後の展開は予断を許さない。

ベンチャーとハッキングのはざま

自動運転ベンチャーが数多く登場しているが、Commaは異質の存在で、これらとは同列に議論できない。Hotzは天才ハッカーでその手腕は高く評価されている。一方で、信頼性が求められる自動車会社の経営者の資質とは相いれないものがある。安全であるべき自動運転車デモで、危険と隣り合わせの試験走行を公開する精神は他のベンチャーとは異質のものである。全てが型破りな技術開発である。

同時に、Hotzは技術に自信があり、問題解決は時間の問題であるとの姿勢も感じられる。Hotzが短期間で自動運転技術をこのレベルまで完成させたことは高く評価されている。人間のように運転するDriving Agentに対しても期待が高まっている。大手ベンチャーキャピタルAndreessen Horowitzはシード段階で310万ドル出資し、Hotzの将来性に賭けている。GoogleやTeslaを凌駕する自動運転車が登場するのか、異色のベンチャー企業が開発を加速している。

脳をリバースエンジニアリング!米国の威信をかけたAI開発国家プロジェクト

Saturday, June 11th, 2016

米国で人工知能”アポロ計画”が始まった。米国政府は脳をリバースエンジニアリングして、そのアルゴリズムをコンピュータに応用する。人間のように思考するコンピュータの開発を目指す。次のフロンティアはインテリジェンスの解明で、本当の意味での人工知能を探求する。

vwb_636_ai_neuroscience_microns (p01)

MICrONSプロジェクト

米国政府は脳をリバースエンジニアリングして、そのアルゴリズムをコンピュータに応用するプロジェクトを開始した。人間のように思考するコンピュータの開発を目指す。このプロジェクトはIntelligence Community (諜報活動を行う連邦政府横断組織) 配下のIARPA (国防関連技術を開発する組織、上の写真) が1億ドルの予算で脳のメカニズムを解明する。IARPAは大学や民間の研究組織と連携しプロジェクトを進める。ちょうど、DARPA (米国国防高等研究計画局) が産学連携で自動運転技術を開発したように、IARPAは同じ手法で脳の構造を解明する。

このプロジェクトは「MICrONS (Machine Intelligence from Cortical Networks)」と呼ばれ、脳がどのように動くのかをニューロン単位で解明する。解明した結果を機械学習や人工知能のアルゴリズムに適用する。MICrONSはオバマ大統領が推進する「BRAIN Initiative (ヒトの脳を解明するプロジェクト)」の重要な部分担い、アメリカが国の威信をかけて人工知能を開発する姿勢が明らかになった。

脳に含まれるすべてのニューロンをマップ

MICrONSは三つのチームから成り、五年計画でそれぞれのテーマを研究する。プロジェクト前半は脳の構造を解明することが目標で、脳に含まれるすべてのニューロンをマップする。ここではネズミの脳が使われ、1平方ミリメータの領域を対象に、そこに含まれる全てのニューロンをマップする。これは人間の脳全体の100万分の1で小さな規模の研究に見えるが、現在の技術からの大きな飛躍となる。今までに解明できた範囲は1500平方マイクメータの領域に留まっている。つまり、このプロジェクトは60万倍の規模に挑戦することになり、ニューロサイエンスの観点から大きな飛躍となる。(下の写真は脳内のシナプスの構造 (左)とセルの位置 (右)。)

vwb_636_ai_neuroscience_microns (p02)

学習する時ニューロンはどう動くのか

プロジェクトは10万個のニューロンを対象とする。ニューロンの構成をマップし、ネズミがものを見たり学習する時に、ニューロンはどう動くのかを観察する。ネズミが学習するメカニズムをニューロンレベルの活動で把握する。現時点ではヒトの脳の活動状況をfMRIを使って観察するのが一般的で、レントゲン写真のように脳をスキャンする。スキャンしたイメージには数百万のニューロンが含まれ、個々の動きは把握できない。個々のニューロンの動きを観察する試みも進んでいるが、現在の技術では、ネズミのニューロン数個を測定できるに留まっている。

脳の構造を高精度で大規模に観察するためのツール

このため、プロジェクトを進めるためには新技法の開発が求められる。ニューロンを観察するには、ナノメーター単位の精度でのイメージング技術が必要となる。ニューロンは折れ曲がり、全長は数ミリになるとされる。脳内の微細構造をマップすることは、地図に例えるとアメリカ全土をインチ単位の精度でマップすることに匹敵する。高度な技術が要求されるが、BRAIN Initiativeが発足して以来、多くのツールが開発され、脳の構造を高精度で大規模に観察できる環境が整いつつある。今が歴史の転換点で、ニューロンやシナプスがどのように繋がっているのか、ネットワーク構造を解明する機運が高まっている。

三つのチームが競い合って研究を進める

プロジェクトでは三つのチームが競い合って独自手法でマップを作成する。Harvard Universityのチームは「two-photon microscopy」という手法で、ネズミの脳の活動を観察する。ネズミはモノを判別できるように教育され、ディスプレイでモノを認識する時の脳の活動を観察する。ここではカルシウムに反応して発光するfluorescent protein (蛍光タンパク質) が使われる。(緑色蛍光タンパク質は下村脩博士らにより発見され2008年にノーベル賞を受賞。) ニューロンが”発火”するとカルシウムがセルに流れ込み光を発する。この光を特殊な装置で観察するとニューロンが発火する様子を掴める。モノを認識するときのニューロンの繋がりが分かる。(下の写真は蛍光タンパク質でニューロンのセルが緑色に発光する様子、三角で示している部分。)

vwb_636_ai_neuroscience_microns (p03)

Baylor Collegeのチームは「three-photon microscopy」という手法でネズミの脳の活動を観察するがより深い層まで観察できるとしている。一方、Carnegie Mellon Universityのチームはアグレッシブな手法を取る。これは「DNA barcoding」と呼ばれ、ニューロンの塩基配列をバーコードとして使い、全てのニューロンを識別する。この手法ではニューロンの位置情報は取れないが、高速で高精度で解析できるという。三チームが異なる手法でニューロンの構成の解明を競い合う。

シナプスの動きを機械学習に応用

ここまでがMICrONSプロジェクトの前半部分で、後半はここで得た情報を機械学習や人工知能に応用する手法を開発する。脳が学習するメカニズムについて、研究者の多くは脳は「Bayesian Engine」であるとの仮説を立てている。Bayesianとは統計学の一つで、ある出来事が発生する確度を数字ではなくBelief (信じていることや意見など) で定義するという考え方。更に、次の事象を推定する際は、明らかになった事実で仮定を更新していく。卑近な例ではスパムフィルターでBayesianが使われる。新しくスパムと思われるメールが現れると、その情報でフィルターを更新する。

ヒトの場合は物を見てそれを判定する時にBayesianの統計手法が使われる。ニューロンはセンサー情報を確率分布として扱い、過去の事例を参照して最も起こりやすい事象を計算する。つまり、ニューロンは網膜に映ったイメージを過去のデータと比較し、確率的に近いものを取り出し、目の前のものを判定する。

脳内に外部世界を構築する

更に、ヒトの脳はコンピュータとは異なり、入力されたデータで独自の世界観を構築しているとみられている。モノを認識する行為は、ある入力をある出力にマップするだけでなく、「analysis by synthesis」というプロセスが存在する。脳は外部世界を脳内部に構築し、入ってくるデータをこのモデルに当てはめて解析する。これにより、入力データに対し、次に起こるイベントを予想する。例えば、網膜は二次元構造であるが、脳はこのモデルを使うことで、入力イメージを三次元に置き換えて把握することができる。

もしこの仮定が正しければ、脳は数学モデルより効率的にオブジェクトを推測する機能を持つ。我々は日常生活で多くのものを見るが、異なる条件下でもそれを判定できる。例えば、バナナについて、それが斜めに置かれていても、離れた位置に置かれていても、また、周囲が薄暗くても、脳はそれをバナナと判定する。我々は異なるアングルからバナナをみて学習している訳でなく、一度バナナをみれば、何処から見てもバナナと分かる。一方、コンピュータ (Convolutional Neural Network) は、異なるアングルや大きさや色彩のバナナをみて学習する。脳が効率的に学習できる仕組みは、脳はオブジェクトから膨大なデータポイントを取り出して、それを分解して、脳内に構築したモデルと比較しているとみられている。(参加チームの一つHarvard UniversityのCoxLabは視覚のリバースエンジニアリングの研究を進めている、下の写真)

vwb_636_ai_neuroscience_microns (p04)

仮説をコードに落とし込む

次に各チームはそれぞれの仮説を実際のコードに落とし込む研究に進む。仮説をモデルに置き換え、脳の構造を試験する作業となる。仮説をコードに落とし込むために多くの技法が使われる。シナプスの繋がり方や動き方からネットワークのパラメータを突き止める。コンピュータ (Deep Learning) では大量の教育データをネットワークに入力しパラメータを最適化するが、プロジェクトでは解を直接シナプスに求める。また、シナプスの繋がり方や動き方からフィーチャーを検出する。フィーチャーとは脳が有している独自の機能で、これらの情報を使うと画期的なアルゴリズムが生まれると期待されている。

人間のように少ないデータで学べるシステム

MICrONSの最終目的は、脳の仕組みをコンピュータに応用することで、アルゴリズムが知的に問題を解決すること。脳のアルゴリズムを機械学習に応用すると、自律的に稼働するマシンができる。例えば、オブジェクト判定において、人間のように少ないデータで学べるシステムを目指す。IARPAは諜報部門を管轄しており、この成果を情報収集に生かしたいとしている。

例えば、一枚の写真でマシンを教育するシステムを開発する。猫の写真を1枚見せると、システムは写真を見て猫を判定する。サイバー攻撃に対する防衛では、事例を一件入力すると、マシンは攻撃の手口を把握して、異なる攻撃も防ぐようになる。リーマンショックや気候変動のデータを入力すると、システムはこれを一般化して問題の解決を探る。システムをスモールデータで教育できることが目的となる。更に、システムは入力したデータから問題を一般化・抽象化して幅広い問題に対応できることを最終目標としている。

今世紀のアポロ計画

このプロジェクトは「Apollo Project of the Brain (脳のアポロ計画)」と呼ばれている。米国政府が次のフロンティアを開拓するという意気込みが込められている。名前のもとになったアポロ計画はNASAによる有人宇宙飛行プログラムで、1961年に始まり1969年に月着陸に成功した。その後もアポロ計画は続いている。最近ではヒトの全遺伝子を解明するプロジェクト「Human Genome Project」が大きな成果を上げた。クリントン政権肝いりの国家プロジェクトで、1990年に始まり13年の歳月をかけてヒトの遺伝子解明に成功した。この成果が遺伝子工学や創薬に多大な影響を与え、今のバイオ産業の基礎を築いた。今回のアポロ計画では、米国政府はヒトの脳をリバースエンジニアリングし、インテリジェンスを解明する。

vwb_636_ai_neuroscience_microns (p05)

BRAIN Initiativeでヒトの脳を解明

このプロジェクトはオバマ政権が推進しているBRAIN Initiativeの一翼を担う。BRAIN Initiativeとは2013年に始まった大規模プロジェクトで、ヒトの脳の機能を解明することを目指す (上の写真)。原因が分かっていないアルツハイマー病、パーキンソン病、うつ病などのメカニズムを解明し治療法を開発する。これによりニューロサイエンスが劇的に進化し、イノベーションが生まれ、新しい産業が誕生することを目標としている。医療技術開発の他に人工知能開発が重要なテーマで、ヒトの脳の機能を解明することで、インテリジェントなシステムを開発する。プロジェクトは二つのフェイズに分かれ、前半は研究のための基礎技術を開発し、後半はその技術を使って脳の機能を解明する。プロジェクトは13年計画で2025年に終了する。Human Genome Projectの成功で米国のバイオ産業が飛躍的に成長したように、BRAIN Initiativeで人工知能を含むニューロサイエンス産業が興隆することを期待している。

今の人工知能は知能を持たない

いま人工知能開発がブームでイノベーションが数多く生まれている。生活が便利になり、健康な生活が送れるようになり、人工知能のメリットは計り知れない。同時に、人工知能に関し間違った解釈も広がっている。人工知能という言葉は人間が作り出した頭脳を連想させるが、実態は機械学習の統計処理ツールであることを今一度確認する必要がある。

また、Artificial Neural Networksという表現は、脳のニューロンを実装しているように聞こえるが、実態はそうではない。このアルゴリズムが登場したのは1980年代で、単一のニューロンの構造を模したPerceptronが原点にある。今ではイメージ解析 (Convolutional Neural Network) に数十万個のニューロンが使われ、数で比較すると昆虫のアリの脳の大きさになる。しかし、ヒトの脳内には1000億個のニューロンがあるとされ、人工知能とは異なる次元で稼働している。

Siriが人間と会話するが、Siriは言葉の意味を理解しているわけではない。機械学習の手法で統計処理をして、過去の事例を回答として示しているに過ぎない。鳥のオウムと話しているのと本質的には変わらないが、それでもSiriは生活を豊かにしてくれる。ここに人工知能のマジックがある。人工知能の特性を把握して社会に役立つよう最大限に活用すべきである。同時に、機械学習という手法だけでは限界があり、次のステップに進むための研究開発が必要であることも認識しておく必要がある。

米国の人工知能開発が一気に進む

米国企業や政府は次のステップに進むための研究開発に着手している。Googleやベンチャー企業Vicariousがヒトの脳の構造を解明し、それをアルゴリズムに展開する研究を推進している。BRAIN Initiativeはこれらより桁違いに大きなプロジェクトで、米国政府が民間企業の人工知能開発を後押しする形となる。ここで解明された脳のメカニズムが、GoogleやVicariousで活用される。今後は、BRAIN Initiativeの成果を活用するAIベンチャーが数多く登場することも予想される。

Googleは「Neocortex Simulator」と呼ばれる、大脳新皮質のシミュレータを開発しているといわれる。研究リーダーのRay KurzweilはBRAIN Initiativeの研究結果を待ち望んでいる一人である。DARPA Grand Challengeで開発された技術がGoogle自動運転車に引き継がれているように、人工知能開発で同じ流れが起きようとしている。米国で本当の意味での人工知能が誕生する可能性を秘めている。

Google DeepMindは人間レベルのAI開発に着手、ヒトの脳の構造と動きをソフトウェアで再現

Friday, June 3rd, 2016

Google DeepMindは人間レベルのAIを目指して開発体制を強化している。囲碁ソフト「AlphaGo」が世界チャンピオンを破ったのはチェックポイントに過ぎない。DeepMindが注目するのはコンピュータサイエンスとニューロサイエンスの境界部分だ。AIを人間のようにインテリジェントにするには人間の脳にヒントを得る必要がある。DeepMindはインテリジェンスとは何かを解明することを最終目標に研究を加速している。

vwb_635_ai_google_reinforcement_learning_neuroscience (p01)

ニューロサイエンスをコンピューターに応用する

コンピューター開発とニューロサイエンスの関わりが深くなってきた。ニューロサイエンスとは神経系に関する科学で、生物学の一分野として研究されてきた。しかし近年では、コンピュータサイエンスとの類似点が多く、両分野を跨った研究が進められている。人間の脳がどのように意思決定するのか、そのメカニズムの解明がニューロサイエンスの主要テーマとなる。

脳の多くの部分でドーパミン (神経伝達物質) が意思決定に関与していることが分かっている。神経系がドーパミンを放出する方式がコンピュータサイエンスのReinforcement Learning (強化学習) と関係が深いとされている。ニューロサイエンスの主たる目的は、ヒトの脳のメカニズムを解明し、それをソフトウェアで実装することにある。AIのブレークスルーのヒントを脳のメカニズムに求めている。

思考メカニズムの解明

ニューロサイエンスでfMRI (Functional magnetic resonance imaging、下の写真) を使い、人間の脳における意思決定メカニズムを解明する研究が進んでいる。fMRIは脳内の血流の変異を捉えることで活動状態を把握する。脳内で血液量と神経系の活動量が関連しており、特定部位への血流が増えると、その部分の活動が活発になっていると理解できる。これにより、人間がどのように意思決定するのか、その構造が分かりつつある。本来fMRIは脳組織や血管の損傷を把握したり、行動の異常などを試験する医療機器として使われてきたが、今では健康な脳の研究に応用されている。DeepMindはニューロサイエンスで解明が進んでいる意思決定の構造をコンピュータサイエンスに応用する研究を進めている。人間や動物が意思決定するメカニズムを解明し、これを機械学習に応用する。

vwb_635_ai_google_reinforcement_learning_neuroscience (p02)

なぜニューロサイエンスに向かうのか

コンピュータサイエンスはなぜニューロサイエンスに向かうのか、この背後には今のAIや機械学習の手法が大きな壁に直面している事実がある。Google自動運転車はシリコンバレーで試験走行を繰り返している。Google自動運転車は2009年から2016年3月までに150万マイル試験走行した。これは米国の平均ドライバーの12年半分の走行距離にあたる。しかし、これでも自動運転車の機械学習アルゴリズム教育には不十分で、累計で2.75億マイル走行する必要があるとの意見もある。どうして人間のように短期間で学習できないのかが問われている。

DeepMindが開発したAlphaGoは囲碁チャンピオンに勝利し人間以上の技量を示した。AlphaGoとそのアルゴリズムは高い評価を受けた。しかし、アルゴリズムの学習速度の遅さが指摘されている。AlphaGoは模擬試合を128万回こなし腕をあげた。人間のプロ棋士も数多くの対戦を通して腕を上げていくが、AlphaGoは練習試合の数が破格に多い。なぜ、人間のように少ない試合数で学習できないのかが問われている。つまり、なぜ人間は効率的に意思決定できるのか、その仕組みが分かれば、この壁を乗り越えられるという期待がある。

ロボット開発で直面している壁

これはロボット開発で直面している壁でもある。例えばドアを開けるとき、ロボットはドアのノブを認識し、それを最適な力で掴み回転させ、ドアを引くか押して開ける。この一連の動きでタスクを実行する。しかし、人間は無意識のうちにこの操作をする。子供の頃にドアの開閉を教わり、最初はロボットのようにぎこちないが、すぐに無意識で操作する。日常社会は想定外の出来事で満ち溢れているが、人間は複雑な操作を無意識に行い環境に柔軟に対応する。このメカニズムを機械学習に応用することで高度なAI開発への道が開けるという期待感がある。人間のように汎用的に機能するロボットの開発が可能となる。

DeepMindのニューロサイエンス研究

では、ニューロサイエンスの成果を如何に機械学習のアルゴリズムに応用するのか、DeepMindが発表した最新の論文を読むとその一端が見えてくる。DeepMindはUniversity of OxfordとUniversity College Londonと共同で、人間がある行動を計画するときの脳のメカニズムを研究した。その成果を「Neural Mechanisms of Hierarchical Planning in a Virtual Subway Network」として発表し、人間の脳は階層構造で意思決定する事実を明らかにした。

発表された論文によると、DeepMindなどは、人間が効率的に意思決定できるのは、個別の事象を纏めて、意味のある内容に置き換えているためとしている。人間は個々の行動を束ねて一塊として認識している。日々の生活で何かを計画する際に、State (状態) を階層構造として束ねてContext (コンテクスト、意味のあるもの) にするというものである。この仮説の元、人間が意思決定する際にStateをContextとして束ねるとき、脳の生物的な動きを観察した。具体的には、被験者が仮想の地下鉄路線 (下の写真) で目的地に行く様子をfMRIで観察し、人間の思考メカニズムを脳の挙動で示した。その結果、意思決定するときには脳の二つの領域が関与していることが分かり、脳の中に階層構造が構築されているという事実を突き止めた。

vwb_635_ai_google_reinforcement_learning_neuroscience (p03)

思考方法と脳内の活動

この試験のために仮想地下鉄 (上の写真) によるナビゲーションゲームが使われた。22人の被験者に対し地下鉄路線図を使って目的地に到達する方法が教育なされた。本番の試験では、被験者は路線図をみないで目的地まで到達することが試され、ゲームをしているときの脳をfMRIでスキャンした。試験の後で被験者は、目的地に到達するルートをどう考えたかを問われた。一駅ごとに順番に考えたのか、それとも、地下鉄の路線別に考えたのか、思考方法が問われた。この結果、一駅ごとにルートを考えた場合と、路線ごとに考えた場合では、脳内の動きが異なることが分かった。

意思決定に関わっているのは「dmPFC (dorsomedial prefrontal cortex、下の写真下段の丸で囲った部分、脳を横から見たイメージ)」と「PMC (premotor cortex、下の写真上段の丸で囲った部分、脳を上から見たイメージ)」と呼ばれる部分。脳が活性化している領域は色付けされている。dmPFCは計画などの高度な認識機能を持ち、PMCは動きを実行する機能を持つといわれる。一駅ごと順番に考えたケースではPMCだけが活性化され (下の写真左側)、路線ごとに考えたケースでは両者が活性化した (下の写真右側)。つまり、Contextで考えた場合は脳の二つの領域が使われている。論文は、意思決定に脳の二つの領域が関与していることは、脳の中に階層構造が構築されるということを示していると結論付けている。

vwb_635_ai_google_reinforcement_learning_neuroscience (p04)

コンピューターへの適用

この発見をコンピューターのアルゴリズム開発に応用することが最終目的となる。論文は、スマートなアルゴリズムを生成するためには、脳のような階層構造を構築する必要性に言及している。機械学習において、意思決定のために階層構造を生成することは有益であるとしている。一方で、階層構造を導入することは弊害にもなりえる警告している。一番最初に如何に適切な階層構造を導入できるかによりアルゴリズムの成否が決まるとしている。これはDeepMindの研究活動の一端で、ニューロサイエンスを機械学習のアルゴリズムに応用する研究が進んでいる。

ニューロサイエンス研究者の採用

DeepMindはニューロサイエンス分野の著名な研究者の採用を進めている。Princeton Universityのニューロサイエンス研究部門教授Matthew Botvinickは2015年10月、Google DeepMindに採用された。Botvinickはニューロサイエンス、心理学、コンピュータサイエンスが重なる領域の研究に従事し、人間の挙動をコンピュータ系と神経系から解明することを目指している。fMRIやコンピュータモデルを使い問題を探求している。

Hierarchical Reinforcement Learning

Botvinickは人間がReinforcement Learningという手法で学習することをテーマに研究を進めている。その中でも「Hierarchical Reinforcement Learning」という手法に着目している。これは前述の論文とも関連するが、イベントを階層構造でとらえ、試行錯誤しながら学習する方式を示す。

ここでも共通テーマはなぜ人間は効率的に学習できるかということだ。ロボットがタスクを実行するときは、環境の変化に応じて意思決定をする。この際、フローチャートのようなDecision Tree (決定木) が使われる。研究室などクリーンな環境では規定通り動くが、現実社会は想定外の連続で、これら事象に対応するためには例外事項を数多く定義しておく必要がある。つまり、Decision Treeが巨大になる。これを「Curse of Dimensionality (次元の呪い)」とよび、コンピューターで処理できない計算量となる。ここでも、人間はこの問題をどう解決するのかにヒントを求めている。

タスクを分割しサブタスクを設定

これに対して、多くの研究者は人間は与えられたタスクを分割しサブタスクを設定するとみている。Botvinickらは実際のモデルを使って人間の挙動を測定した。被験者にタスクを与え、これを解く様子を測定した。タスクは迷路を通り抜けるゲームで(下の写真左側)、右上の黄色の丸から迷路を通って左下の赤色の丸まで到達するもの。

vwb_635_ai_google_reinforcement_learning_neuroscience (p05)

ランダムに迷路をたどると、タスクを完了する時間は黒色のグラフとなる (上の写真、右側)。一方で、迷路の中にサブタスクを設定すると (水色の 丸) 到着するまでの時間が大幅に短縮される (上の写真、右側、水色のグラフ)。目的に到着するためのチェックポイントを設定すると、到達時間が短くなることが分かる。しかし、サブタスクを適切に設定しなっかたらタスク完遂までの時間がより長くなる。Botvinickらは正しくサブタスクを設定するとトライアルの回数が減り、早く目的を完遂できることしている。

DeepMindで研究を継続

これが人間のReinforcement Learningの例であるが、我々は日常生活で無意識に実践している。例えば、電車で目的地に向かう際、最短路線を探すときにReinforcement Learningを使っている。品川から霞が関に行く経路を頭の中で考えるとき、乗り換えポイントを東京、有楽町、新橋などに設定して考えると楽になる。Botvinickは、このモデルをコンピュータサイエンスに応用し、アルゴリズムにどう実装するかを研究している。結論はまだ先で、ニューロサイエンスで得た成果を機械学習に落とし込む研究をDeepMindに移籍して継続している。

IT企業に課せられた課題

Hassabisはコンピュータサイエンスで学位を取り、その後大学に戻りニューロサイエンスの研究で博士号を取得した。研究テーマはHippocampus (海馬) における記憶のメカニズムと言われている。この研究成果がDeepMindのアルゴリズム開発に生かされている。これからのAI開発はソフトウェアだけでなく、ニューロサイエンス技術が必要であることを示している。

しかし、Hassabisのような人物は例外で、コンピューター研究者の殆どはニューロサイエンスの学位を持っていない。このため、DeepMindがBotvinickを採用したように、IT企業は大学に人材を求めることとなる。更に、冒頭の論文が示しているように、IT企業と大学との共同研究が決定的に重要になる。Googleはこの流れを加速させ、著名なニューロサイエンス研究者の採用が続くと思われる。AI開発で新しい研究体制が求められている。

“インテリジェンスを解く”

Hasabbisらは人間の脳の構造を解明することで、人間レベルのAI「Artificial General Intelligence」を目指している。人間の脳のメカニズムをソフトウェアに実装し、インテリジェントに意思決定するシステムを開発する。HassabisはDeepMindで開発した技術を自動運転車に提供すると表明している。人間のように短期間で運転技術をマスターするクルマの登場が期待される。

一番注目される分野がロボティックスで、家庭向けのサービスロボットに研究成果を適用する。家庭向けロボットは家事をしたり高齢者を介護することを想定しており、誰でも”お手伝いさん”を雇える時代になる。仮想ロボットChatbot (会話ボット) にも研究成果が適用される。会話ボットが人間のオペレータのように振る舞い、ソフトウェアと人間の境界が希薄になる。

HassabisはDeepMindを科学技術分野へ応用することを最終目的としている。気候変動の研究やがんのメカニズムの解明などで、人工知能が人間の科学者に代わって研究するモデルを想定している。Hassabisはこれを「Solve Intelligence (インテリジェンスを解く)」と表現し (先頭の写真)、本当の意味での人工知能の開発が進んでいる。