Archive for July, 2015

人工知能の作曲で音楽ビジネスが変わる、個人好みの曲をリアルタイムで生成

Friday, July 31st, 2015

コンピューターで作曲する手法は早くから実践されているが、人工知能の応用で、その流れが加速している。コンピューターで作曲された音楽は、映画やゲームなどのバックグランドミュージックとして使われている。視聴者に特化した音楽の開発も進んでいる。人工知能が作曲することで、ヒット曲の誕生も期待されている。人工知能が新たな収益源を生みだし、音楽産業の衰退を食い止めることができるのか、最新の音楽ビジネスをレポートする。

g422_ai_music_composition_01

人工知能で開発された音楽が生活に入ってきた

人工知能の技法で作曲された音楽が、我々の気づかないうちに、生活に入っている。スペインのシリコンバレーと呼ばれるマラガ (Málaga) で、AI音楽が開発されている。University of Málagaは「Algorithmic Composition (アルゴリズム作曲法)」研究で世界のトップを走っている。これはソフトウェアのアルゴリズムで作曲する手法で、「Melomics」というシステムを開発した。生物が進化するように、Melomicsは自動で音楽を作曲し、進化を繰り返し音楽が成長する。具体的には、Melomicsは大規模な音楽データベースから、メロディーの遺伝子 (Genomics of Melodies、これが名前の由来) を抽出し、新曲を構成する。構成された音楽は進化を繰り返し完成度を上げる。プログラミングが完了すると、Melomicsは人間の手を借ることなく、自動で音楽を生成する。

g422_ai_music_composition_02

AI音楽最初のコンサート

Melomicsが作曲した音楽のコンサートが2011年10月、スペイン領カナリア諸島で行われた。この曲はピアノ、バイオリン、クラリネットの三重奏で、「Hello World!」と命名された。 (先頭の写真はMelomicsが生成したスコア。) アルゴリズムで作曲した音楽をプロの音楽家が演奏した (上の写真)。演奏の模様はYouTubeで公開されている。この曲は現代音楽に区分され、不協和音が多用され、先進的な印象を受ける。これとは対照的に、綺麗な旋律が随所に現れ、聞きごたえのある作品に仕上がっている。コンサートを聞くと、これは人間が作曲したのか、ソフトウェアなのか判別できない。その意味で、Turing Test (ソフトウェアが人間のようなインテリジェンスを持っているかを判定する試験) に合格している。

g422_ai_music_composition_03

Melomicsで作曲された音楽はApple iTunesやAmazonで販売されている。二つのアルバムがリリースされており、どちらも「Iamus」のタイトルで販売されている (上の写真)。これらはMelomicsが作曲した音楽をプロの音楽家が演奏しているもので、オーケストラやアンサンブルや声楽など、幅広い曲が収納されている。ここに「Hello World!」も収められている。

g422_ai_music_composition_04

音楽を医療に応用する

Melomicsは従来型ビジネスだけでなく、AI音楽で新しい事業に挑戦している。その一つが音楽を医療に応用する試みで、専用アプリ「Melomics App」をリリースした。この中で「Chronic Pain Free」というアプリを聴くと、痛みを和らげる効果がある (上の写真左側)。アプリをオープンして、痛みの度合いを設定すると、それに応じた音楽が流れる。痛みの度合いが低い時は、スローで空間を漂うような、リラックスした音楽が流れる。痛みの度合いが高い時は、テンポが早くなり、メロディーラインがはっきりした、インパクトの強い音楽となる。早送りボタンを押すと次の音楽にジャンプする。

この手法は「Melomics Music Medicine (音楽療法)」と呼ばれ、子供を対象に適用される。実際のベンチマークでは、被験者の71.0%が音楽により痛みが無くなったとしている。通常の方法に比べ4倍の効果があることが分かった。子供を対象としたアプリであるが、実際に使ってみると、確かに痛みが和らいだように感じ、その効果を確認できる。

この他に、子供を寝つかせる音楽や、運転中にリラックスできる音楽などが用意されている (上の写真右側)。これら音楽は全てMelomicsで生成されたもので、クラウドからスマートフォンにストリーミングする構成となっている。

g422_ai_music_composition_05

音楽を生活シーンで使う

Melomicsは音楽療法の他に、生活シーンに合わせた音楽配信を計画している (上の写真)。スマートフォン向けのアプリで、利用者の行動を把握し、それに合わせた音楽を配信する。これを「Empathetic Streaming (雰囲気にあったストリーミング)」と呼び、通常のストリーミングと区別している。出勤で駅に向かって歩くときは、ちょっと重い気分だがしっかりとした足取りの音楽が流れる。昼休みのランチ時間には、スローテンポの落ち着いた音楽をストリーミングする。これらの音楽もMelomicsが作曲したたもので、生活シーンに合わせて配信される。

好みに合った音楽をリアルタイムで作曲

アルゴリズムを使うと個人の嗜好に沿った音楽を作曲できる。人間の作曲家に依頼するとコストや時間がかかり、手軽に利用する訳にはいかない。ソフトウェアであれば、個人が好む音楽をリアルタイムに作曲し、それを配信することが可能となる。これを「Personalized Music」と呼び、新たな事業として注目されている。消費者が既製服ではなくスーツを仕立てるように、これからはオンリーワンの音楽を持てる時代となる。

米国でも研究が進む

米国でもAlgorithmic Compositionの研究が進んでいる。カリフォルニア大学サンタクルーズ校教授David Copeは、作曲ソフトウェア「Emily Howell」を開発している。Emily Howellは、別の作曲ソフトウェア「Experiments in Musical Intelligence (EMI)」と連携して動く。EMIが音楽の短いフレーズを作曲し、Emily Howellがこれら音楽ピースからパーツを寄せ集め、全体を構成する。

音楽フレーズ作曲とその組み合わせ

EMIが音楽ピースを作曲するために、まず音楽ルールをコーディングする。EMIがこのルールに従って作曲するが、これだけでは”正しい音楽”ができても、無味乾燥で情熱などは感じられない。このため、EMIは他の音楽を解析し、その特徴を抽出し、それらを再構成するプロセスを採用する。つまり、名曲から人気のエッセンスを借用する構造である。もちろん盗用する訳ではなく、アイディアを理解し、それを昇華するプロセスとなる。

Emily HowellはEMIの音楽ピースを再構成して、新しい音楽を創っていく。単純につなぎ合わせるだけでは音楽は生まれなく、再構成の方式に多大なスキルを必要とし、ここにノウハウが詰まっている。Emily Howellは機械学習の手法を取り入れており、開発した音楽を改良する。開発者や視聴者からのフィードバックを理解し、Emily Howellはこれらのインプットを元に完成度を増し、特徴を際立たせていく。

g422_ai_music_composition_06

Emily Howellが作曲した音楽は、AmazonやApple iTunes Store で販売されている。これらは、Emily Howellが作曲した曲を、人間のアーティストが演奏したもので、ピアノからアンサンブルまで、比較的シンプルな音楽が収めらえている。上の写真は「Breathless」というアルバムで、神秘的な空間を彷彿させる音楽が収納されている。

アルゴリズムで作曲するのはルール違反

ただ、有名オーケストラはソフトウェアが作曲した音楽を演奏することに抵抗感を示しており、Emily Howellは音楽界で物議をかもしているのも事実である。作曲にハイテクツールを用いることに対して否定的な意見を持つ人は少なくない。アルゴリズムの手法で音楽を作曲するのはルール違反だという意見も聞かれる。

しかし、歴史を紐解くと、芸術はハイテクと共に進化しているのが分かる。ベートーベンはハイテクを音楽に取りいれた一人である。オーケストラを一台の装置に実装した「Panharmonicon」を使った音楽を作曲している。これはいまでいうシンセサイザーで、巨大なオルガンが異なる音色を出し、オーケストラをエミュレーションする。このシンセサイザーでナポレオンが戦いに敗れたシーンを”The Battle Symphony”という交響曲で再現している。

人工知能がヒット曲を生む

人工知能も同様に、作曲家の創作ツールとして利用される。市場には人工知能を導入した編曲システムが登場するなど、AI化が加速している。作曲家はアルゴリズムで創った音楽をベースラインとし、そこに自身のインスピレーションを重ね、新曲を創作する。新しいアイディアやテーマをアルゴリズムで試作することが可能となる。ここから名作が誕生するのか、AI音楽の可能性に期待が寄せられている。

中期的には、人工知能が人間を凌駕する技量を発揮し、ヒット曲を生むのかという議論もある。更に、ヒット曲の著作権は人工知能を開発したエンジニアに帰属するのか、それとも自律的に学習を重ねた人工知能にあるのかという議論に発展する。議論は尽きないが、我々の気づかないうちに、音楽産業が人工知能で大きく変わろうとしている。

21世紀のBeatlesはDeep Learning、人工知能が音楽産業を救う

Friday, July 24th, 2015

音楽産業が衰退している。音楽配信がCDからiTunesのようなデジタルに変わり、今ではSpotifyなどストリーミングが主流となった。これに伴い業界全体の売上金額が大きく減少した。音楽制作もIT化が進み、コンピューターに楽譜を入力し音を創る。出来上がった音楽は、フォトショップで修正するように、いか様にも手を加えることができる。コスト削減のためであるが、The Beatlesのような歴史に残る名作も生まれない。このような中で、人工知能が音楽特性を正確に把握できることが分かった。この研究結果が業界に衝撃を与え、人工知能が音楽業界再生の切り札となるのか、様々な試みがなされている。

g421_ai_music_cnn_01

Convolutional Neural Networkで音楽特性を把握

音楽のような二次元データは人工知能が得意とする分野である。新しい可能性を求め、多くの研究者が挑んできたが、目立った成果はあがっていない。ところが、Deep Learningの技法である「Convolutional Neural Network」(CNN、特徴量を高精度で把握するセンサー) を音楽に適用することで、飛躍的な進展があった。この技法は、ベルギーの大学「Ghent University」のSander Dielemanらが、学術論文「Deep content-based music recommendation」として発表した。人工知能の手法で音楽の特性を把握し、推奨精度を大幅に向上できるという内容である。

現在はCollaborative Filteringが使われる

現在は「Collaborative Filtering」という方式で音楽や書籍を推奨するのが一般的。Amazonで買い物をすると、○○を購入した人はXXを購入していると表示されるが、これがCollaborative Filteringである。購入パターンが類似している消費者を比較し、商品を推奨する方式である。Amazonはこの方式で大きな成果を上げてきたが、リリースされたばかりの商品や、人気の無い商品には適用できないという問題を含んでいる。推奨できるまでには、購買データを集め、下準備に時間がかかる。

音楽の隠れた特性を把握できる

論文はCNNを適用すると、音楽の隠れた特性を把握でき、消費者にぴったりの曲を推奨できるとしている。CNNが音楽を聞くだけで、誰に何を推奨すべきかを判定する。論文には検証結果も報告され、高精度で音楽の特性を把握できるとしている。具体的には、音楽の大規模データベース「Million Song Dataset」を使って、音楽を解析し、スタイルごとに分類した。先頭の写真がその結果で、CNNで区分けした結果を色付けして示している。ヒップホップは赤色、ロックは緑色、ポップスは黄色、エレクトリックは水色で示されている。各グループは一か所にまとまり、この方式での区分け精度は、現行方式を大きく上回ると結論付けている。

SpotifyがCNNに強い関心を示す

音楽ストリーミング企業Spotifyがこの技法に大きな関心を示した。Spotifyは論文著者のSander Dielemanらを会社に招き、数か月間共同開発を行った。その結果をDielemanがブログで公開し、音楽界に衝撃を与えた。CNNを音楽に適用することで、曲の特徴量を学習できることが実証されたのだ。

g421_ai_music_cnn_02

音楽フレーズをCNNで解析する

このブログによると、CNNは4階層で、ここに音楽の短いフレーズを入力する。CNNの第一階層で低次元の音楽特性を学習する。具体的には、フレーズの中にビブラートをかけた発声、長三度の和音、バスドラムなど、音楽構成要素を識別できる。これをもう一歩進めると、CNNはギターのディストーション (意図的に音を歪ませる手段でエレキギターなどで使われる) の特性を把握する。同じ特性を示す音楽を取集すると、ディストーションが多用される音楽のプレーリストができる (上の写真左側)。ここにはLed Zeppelinの「Dazed and Confused」などがリストされ、いずれの曲もエレキギターのメタリックな歪んだサウンドを楽しめる。

同様に、CNNはピッチ (基準音) を学習する。CNNは基準音が「A」の音程に対して反応し、同様な反応をする曲を集めると、上の写真右側の通りとなる。(ここには基準音が「B♭」の音程の音楽も含まれている。これは入力フレーズの周波数精度が充分でなく、CNNはAとB♭を判別できないことを示している。)

g421_ai_music_cnn_03

CNNが音を感じる様子

興味深いのは、ブログはCNNが音をどう”感じいているか”を示している。上の写真がそれで、左端のカラムが、CNN第一階層がディストーションに反応する様子である。横軸が時間で、縦軸が周波数で、下に行くほど高くなる。(全体は256ステップあるが、写真では上部50ステップ程を表示。) 赤色は数字がマイナスで、水色はプラスで、白色はゼロを示す。これにより、ディストーションに対し、CNNが反応するパターンが視覚的に理解できる。因みに、左から二列目は上述の基準音「A」と「B♭」で、三列目はドローン (曲の背後で流れる連続した単音)で、四列目は和音「A」を示す。CNNは音楽要素に対して際立った特性を示すことが直観的に理解できる。

CNNで高次元の特性を把握する

CNNのネットワーク階層を増やすと高次元の音楽特性を把握できる。4階層のネットワークの最終階層を使うと、音楽をジャンルごとに把握できる。具体的には、入力されたフレーズから、音楽をクリスチャンロック (キリスト教に関連するロック)、スムーズジャズとアカペラ、ゴスペル、中国ポップなどを把握する。

g421_ai_music_cnn_04

上の写真はこの結果で、スムーズジャズとアカペラの特性を持っている音楽を集約したプレーリストを表示している。(この解析ではCNNはスムーズジャズとアカペラの区別ができなくて、同じジャンルに区分けされている。)  これで分かるように、CNN第一階層は、音楽構成要素という低次元の特性を把握し、第四階層は音楽のジャンルという高次元の特性を把握する。イメージ解析すると、CNNは低次元の特性 (例えば自動車のタイヤ) を把握し、階層が上がるにつれ高次元の特性 (例えば自動車の車種) を把握する。音楽でもこの構図が当てはまり、CNNを音楽に適用することで、画期的なシステムが登場すると期待される。

g421_ai_music_cnn_05

Spotifyの音楽推奨方式

CNNを教育すると、音楽をジャンル別に区分けし、プレーリストを作製できることが分かった。SpotifyはCNNを導入し、類似の特性を持った音楽群を纏めてプレーリストを作り、利用者に音楽を高精度で推奨することを目指している。この方式であれば、前述の通り、リリースされたばかりの音楽や、余り人気のないインディー音楽にも適用でき、音楽配信のチャンスが広がる (上の写真はSpotifyの音楽推奨リスト)。

Spotifyは「Echo Nest」という企業を買収し、その技術を使い音楽を推奨している。Echo Nestはインターネットの評価と、音響解析「Acoustic Analysis」を併用して音楽の特性を評価する。前者はインターネット上での口コミをベースに音楽を評価する。後者は音楽をシグナルレベルで分析し、ピッチ、音量、音色などの特性を把握し、音楽の特徴を比較する。この方式は、音楽に関する専門知識を必要とするため、取り扱いが難しいとも言われる。SpotifyはEcho Nest方式をCNNで置き換えるのではなく、両者を併用して運用するといわれている。ただ、CNNを導入することで、機能や精度が大幅に向上すると期待されている。

g421_ai_music_cnn_06

PandoraやGoogleもCNNを導入

PandoraはOaklandに拠点を置くベンチャー企業で、音楽ストリーミングサービスを提供する (上の写真)。音楽の特性を把握し、視聴者に最適な曲を配信する手法を始めた最初の企業である。Pandoraは曲を分析し、その特性を400の要素で定義する。これは「Music Genome Project」と呼ばれ、”音楽遺伝子”を解析してきた。この音楽特性に基づいて曲を配信し、視聴者から高い評価を受けている。ただ、この解析はプロの音楽家が耳で聴いて行うため、時間とコストがかかる。PandoraはCNNを導入し、このプロセスを機械化するといわれている。

Googleは世界最高レベルの人工知能技術を有しており、同社の音楽ストリーミングサービス「Play Music」でCNNを適用しているのはほぼ間違いない。今後もこの機能を大規模に展開すると思われる。因みに、上述の論文著者Sander Dielemanは、Googleに採用され、いまではDeepMindのロンドンオフィスで働いている。

人工知能が音楽ビジネスを活性化

Dielemanの論文とブログは音楽界に衝撃を与えた。音楽ストリーミング会社は一斉にCNNを活用した音楽推奨機能を急ピッチで開発している。CNNによる音楽推奨精度が向上すると、ここに大きなビジネスチャンスが生まれる。音楽業界は典型的なロングテールで、購入される音楽は一部のヒット曲に限られる。テール部分には視聴者の好みの音楽が数多く眠っているが、知る由もない。CNNでテール部分に埋もれている名作を掘り起こすことで、音楽ビジネスの活性化につながる。人工知能の果たす役割に、音楽業界は大きな期待を寄せている。

Googleが通信キャリア事業をスタート、LTEとWiFiを統合し生活空間が単一の通信網となる

Friday, July 17th, 2015

Googleが通信キャリア事業に乗り出した。このサービスは「Project Fi」と呼ばれ、MVNO (仮想移動体通信事業者) 方式でネットワーク・インフラを提供する。低価格でサービスを提供するだけでなく、通信キャリアが提供する機能を根本から改良する。スマホの理想形「Nexus」を開発したように、ネットワークのあるべき姿を探求する。米国でProject Fiがスタートし、通信キャリア市場を揺さぶっている。

g420_google_project_fi_01

近未来の通信網

Googleは2015年6月から、米国で「Project Fi」を始動した。Googleはこのプロジェクトを試験的に展開するとし、地域ごとに人数を限定してサービスを始めた。このため、プロジェクトへの参加は、Googleから招待状が必要となる。筆者も申し込みをしていたが、やっと招待状を受け取り、Project Fiを使い始めた。サポート対象デバイスはNexus 6で、Project Fi専用SIMカード (上の写真) を挿入して利用する。SIMカードはクリップ止めされており、これを使ってスロットを開ける。

g420_google_project_fi_02

実際に使ってみると、Project Fiは近未来の通信網と言っても過言ではない。LTEやWiFiなど、異なるネットワーク間で、最適な通信網を選択し、サービスを途切れなく利用できる。屋内では、通話やテキストメッセージは、WiFi経由でやり取りする。屋外に出ると、Googleの移動体ネットワーク「Fi Network」に接続される。

ロックスクリーン左上にFi Networkと表示され、Project Fiのネットワークを利用していることを確認できる (上の写真左側)。また、ネットワークの設定や使用状況などは専用アプリ「Project Fi」を使う (上の写真右側)。Network FiはSprintとT-Mobile USの4G LTEを利用している。この意味でMVNOであるが、単に通信網を利用するだけでなく、Fi Networkは両者のうち電波強度の強いネットワークに接続する。

g420_google_project_fi_03

WiFiとLETでシームレスな通信

印象的なのは、ネットワーク間で途切れなくサービスを利用できることだ。自宅でWiFi経由で電話している時、屋外に出るとネットワークがLTEに切り替わる。通話は途切れることなく、シームレスにハンドオーバーされる (上の写真左側)。屋内でWiFiを使って通話している時は「Calling via Home-7392」と表示される (Home-7392は筆者宅のWiFi)。屋外では「Fi Network」と表示され、Googleの通信網を利用していることが分かる。(上の写真の事例では表示されていない。) Fi Networkと表示されるだけで、背後でSprintとT-Mobileのうち、どちらのネットワークが使われているかは示されない。屋外でWiFiホットスポットがあれば、自動的にここに接続される。

通話だけでなく、データ通信でも自動でネットワークが切り替わる。自宅のWiFiでGoogleの音楽ストリーミング「Play Music」を聞きながら、自動車で屋外に出るとFi Networkに切り替わる。音楽は途切れることなくシームレスに続き、ドライブしながら好みの曲を楽しめる。今まではWiFi域外に出ると、エラーメッセージが表示され、再度接続する必要があった。WiFiとLTEの壁が取り払われ、生活空間全てが単一のネットワークになった感覚だ。どこでも継続して電話やインターネットを使え、生活が格段に便利になったと感じる。

g420_google_project_fi_04

消費者に優しい料金体系

もう一つの魅力は消費者に優しい料金だ。料金体系はシンプルで、基本料金とデータ料金の組み合わせで構成される。基本料金は月額20ドルで、ここに、通話、テキストなどが含まれる (上の写真、The Fi basicsの部分)。データ通信は月額10ドル/GBとなる。例えば2GBで契約すると月額20ドルとなる(上の写真)。制限量まで使っていない場合は、翌月分の料金から差し引かれる、良心的な料金体系となっている。Project Fiを使い始め、電話料金が半額になった。

ネットワークでイノベーションを興す

革新的なネットワークを低価格で提供するが、Googleの狙いはどこにあるのか、興味深い発言がある。Android部門などの責任者Sundar Pichaiは、Project Fiについての見解を表明した。Googleは基本ソフト (Android) とデバイス (Nexus) だけでなく、ネットワークを含めた統合システムで、技術開発を進める必要がある。個々のネットワークでは技術進化が停滞しているが、包括的なネットワーク環境ではイノベーションが起こると期待を寄せている。

通信キャリアとの関係にも言及した。Project Fiは限定的なプロジェクトで、VerizonやAT&Tなど、既存キャリアと競合することは無い。SprintとT-Mobileはネットワーク回線をGoogleに卸し、空回線を有効利用できる。これにより、ユーザ数が減少し収入は減るかもしれないが、利益率が改善し、収益は増えると期待している。

既存キャリアへの圧力

米国の消費者は低価格で先進的なサービスを使うことができるとして、一様にProject Fiを評価している。つまり、Project Fiが新しい基準となり、VerizonやAT&Tを値下げや新サービス開発に向かわせる可能性を秘めている。Project Fiが黒船となり、米国のキャリア市場が大きく変わろうとしている。

g420_google_project_fi_05

既に米国キャリアの中で、Project Fi方式を模したサービスが登場した。ノースカロライナ州に拠点を置くRepublic Wirelessは、MVNO方式のキャリアでProject Fiと類似のサービスを導入した。通信はWiFi経由で行い、WiFi環境がない場合は携帯電話回線を利用する。両者の間でシームレスな移行はできないが、有料サービスを最小限に留める仕組みとなる。料金体系でProject Fiの方式を模している。基本料金 (通話とテキストとWiFi) は月額10ドルで、データ通信 (1GB) は月額15ドルとなる (上の写真)。未使用の部分は翌月に払い戻しを受ける仕組みとなっている。Project Fi方式が米国市場で普及し始めた。

g420_google_project_fi_06

Googleの狙い

モバイル環境でイノベーションが起こり、便利な機能が登場し、通信価格が下がれば、利用者数の増加につながる。これは消費者にとってのメリットであり、同時に、これがGoogleの狙いでもある。より多くの人がインターネットにアクセスすれば、Googleサービス利用者が増え、広告収入などが増える。

Googleは一貫してこの手法を展開しており、Project Fi以外に、高速ブロードバンド「Google Fiber」の前例がある。Google Fiberの最大転送速度は1Gbpsで、主要都市で施設が進んでいる。大手ケーブル会社Comcastはこれに対抗するため、Google Fiberの二倍の性能を持つ「Gigabit Pro」の施設を始める。15年以上無風状態であった米国のブロードバンド市場が、Google Fiberの登場で一気に動き出した。

地球規模では、Googleは気球インターネット「Project Loon」の開発を急いでいる (上の写真)。アフリカや南米など、インターネット環境が整っていない地域に、気球からブロードバンドサービスを展開する。地域住民の社会インフラを提供するとともに、インタネット利用者を増やし、Googleサービスの利用者を増やす狙いがある。

Project Fiの日本への影響

前述の通り、Project Fiの背後では、SprintとT-Mobileの通信網が使われている。T-Mobile最高経営責任者John Legereは、Project Fi向けにネットワークを供給し、新技術が展開されることにを全面的にサポートしている。

一方、Sprint親会社SoftBankの孫正義社長は、Project Fiへの参加に躊躇したとも言われている。Sprintは多くのMVNOに回線を卸しているが、Googleに対しては懐疑的なポジションを取っている。この理由は明らかにされていないが、Googleが通信キャリア事業に参入し、Sprintと競合することを避けたいという思惑があったと推察される。

しかし、Google向けに通信網を提供したのは、Project Fiの手法を学び、日本で類似サービスを展開する意図があるのかもしれない。SoftBankが直接手掛けないとしても、日本のMVNOはProject Fiから学ぶところは少なくない。モバイルサービスは完成形ではなく、まだまだ大きく進化できる余地があることをProject Fiは示している。

がん検診は人工知能で!Deep Learningが悪性腫瘍を見逃さない

Friday, July 10th, 2015

がん検診を受けるなら人工知能を導入した病院に行くべきだ。人工知能をがん検診に応用することで、悪性腫瘍を高精度で見つけ出す技術の開発が進んでいる。メディカルイメージをDeep Learningの手法で解析すると、熟練した医師より正確にがん組織などの病変を見つけ出す。人工知能の進化が多くの人命を救うと期待されている。

g419_ai_medical_enlitic_01

イメージデータから病気を判定

Deep Learningでイメージ解析精度が飛躍的に進化している。サンフランシスコに拠点を置くベンチャー企業「Enlitic」は、Deep Learningを医療データに応用したシステムを開発している。イメージデータをDeep Learningの手法で解析し、病気を判定する (上の写真)。イメージデータにはレントゲン写真、MRI、CTスキャン、顕微鏡写真などが使われる。検査結果に悪性腫瘍などがあるかどうかを高速にかつ正確に判定する。

g419_ai_medical_enlitic_02

腫瘍を見つけるプロセス

Enliticはイメージ解析の技法については、事業の根幹にかかわるためとして公開していない。TEDでの講演資料などを基に概要を纏めると、その輪郭が浮かび上がる。まず解析を行う前に、大量のイメージデータを使ってシステムを教育する。上の写真がそのプロセスで、ここでは5年生存率 (5年経過後に生存している患者の比率) を予測するシステムを教育している。システムに、5年経過後に存在している患者のデータと、5年以内に死亡した患者のデータを入力する。

ここで使われているデータは病理標本 (人体から採取した検体) で、組織の顕微鏡写真を示している。システムは入力イメージから様々な特性を学習する。Enliticが定義する特性とは、組織構造の特徴を示す。具体的には、組織表面と細胞の関係や、細胞とそれを取り巻く部分の関係など、検体の組織構造を指す。システムはDeep Learningの手法でこれら構造特性を学ぶ。学習が完了したシステムに、被験者の組織イメージを入力すると、5年生存率を算定する (上の写真、グラフの部分)。

g419_ai_medical_enlitic_03

また、数多くの被験者の組織イメージの中から、悪性腫瘍など問題の個所を特定する (上の写真、矢印で示している個所)。つまり、システムは組織構造の特性から、悪性腫瘍などを探し出すことができる。今までは専門医が目視で探していたが、ソフトウェアが高精度でこれらの個所を特定する。

人工知能の技法を医療に応用する

Enlitic創設者でCEOのJeremy Howardは、TEDでの講演やインタビューで、人工知能について見解を述べている。HowardはEnliticを創設する前には、Kaggleで社長を歴任した。Kaggleとはデータサイエンスのベンチャー企業で、企業向けに競合分析などのサービスを提供する。Howardは2014年にEnliticを創設し、データサイエンスの技法を医療に応用する研究を進めている。

g419_ai_medical_enlitic_04

Deep Learningのイメージパターンを把握する高い能力が証明されてきた。これを医療に応用することで、三つの領域で研究が進んでいる。Radiology (放射線医学) ではレントゲン写真やMRIやCTスキャンで体内の組織を把握する。上の写真はCTスキャンの事例で、イメージデータから腫瘍特性を解析し、遺伝子情報と組み合わせ診断する。Pathology (病理学) では人体組織を観察する。冒頭の事例がこれに相当し、組織の顕微鏡写真のイメージを解析する。Dermatology (皮膚科学) では、皮膚の写真から症状を判定する。これら三つの分野でDeep Learningを応用したシステムの開発が進んでいる。人間が正しく判定ができるまでには時間がかかるが、コンピューターは短時間でこれを学習する。

g419_ai_medical_enlitic_05

この技法はスタンフォード大学で開発された

この手法は源流をたどると、2011年にStanford Medicine (スタンフォード大学医学部) で開発された。Computational Pathologist (C-Path) と呼ばれ、機械学習の手法でマシンががん組織を識別する。乳がんの識別に適用され、C-Pathは細胞特性を6642種類に分析する。C-Pathを教育して、被験者の組織イメージを入力すると、がん細胞を検出する。上の写真は組織イメージ (紫色の部分) とそれをC-Pathで解析した結果 (その下の緑色の部分) を示している。コンピューターが人間より正確にがん細胞を判定でき、医学界に衝撃を与えた。同時に、がん細胞だけでなく、それを取り巻く細胞との関係が患者生存率に大きく依存することも発見した。これらの研究成果がEnliticに生かされている。

メディカルイメージ処理の問題

一方、メディカルイメージをDeep Learningで解析するには、解決すべき問題も少なくない。その一つが患者のイメージデータを如何に収集するかである。医療データは各病院が保存しており、データは共有されることはない。各医療機関が独立に保管し、再利用されることなく眠っているケースが多い。これらデータを如何に有効活用するかが課題となる。Enliticは医療機関と共同研究を推進することで、これらデータを利用する手法を取っている。

更に、医療機関を規制する関連法令が医療データの利用を妨げている。米国では医療関連法令「HIPAA」の要請で、患者の医療データに対するプライバシー保護が求められる。患者のプライバシーを守ることは必要不可欠だが、医療データを再利用するには障害となる。現行法令は人工知能が医療データを活用することは想定しておらず、データへのアクセスが大きな課題となる。

g419_ai_medical_enlitic_06

IBM Watsonとは異なるアプローチ

IBM Watsonは人工知能を医療分野に応用し成果を上げているが、Enliticのアプローチとは大きく異なる。WatsonはCognitive Computingと呼ばれ、大量のデータから意味を引き出すことを目的とする。Watsonは医学論文や臨床試験結果など、大量のドキュメントを読み込み、そこから治療に関する知見を得る。医師が治療方針を決定する際に利用する (上の写真)。一方、EnliticはDeep Learningの手法でメディカルイメージを解析し症状を判定する。イメージ解析ツールとして位置づけられ、医師の視覚として活躍している。更に、Deep Learningの特性とし、高速で学習する能力を備えている。Enliticは短時間で熟練医師を超える能力を獲得する。両者は人工知能を医療分野に適用したものであるが、そのアーキテクチャーは大きく異なる。

病院を選ぶときに人工知能が決め手となる

米国ではがん検診を受信し問題なしと判定されたケースの7%でがんを発症したというレポートがある。スキャンイメージからがんを見落としているケースが報告されている。これは熟練医師が診察しても人間としての限界があることを示している。Enliticは正確なコンピュータービジョンとして機能し、この見落としを無くすことを目指している。

前述の通り、高精度なイメージ解析システムを開発するためには、大領の医療データを必要とする。つまり、患者数の多い病院がDeep Learning教育で圧倒的に有利になる。これからは利用者側としては、病院でがん検診を受ける際には、熟練医師がいることだけでなく、人工知能が導入されている大病院が選択肢となる。病院における人工知能の役割が大きくなってきた。

人工知能がヒトの視覚に近づく、広告からロボットまで応用範囲が一挙に広がる

Friday, July 3rd, 2015

人工知能の進化は急で、写真だけでなくビデオに何が写っているかを理解できる。ライブで配信されるビデオをリアルタイムで解析し、内容に応じて区分けする。この技術は既に大手企業の広告事業で使われている。ビデオ解析の究極の目的はロボットの視覚となることで、その応用範囲は広大だ。ヒトの目に近づきつつある最新のコンピュータービジョンをレポートする。

g418_ai_computer_vision_dextro_01

写真からビデオ解析へ

コンピュータービジョンでトップを走っているのは、ニューヨークに拠点を置く「Clarifai」というベンチャー企業だ。人工知能の技法を使いイメージ解析技術を開発している。同社は2013年、イメージコンテスト「Large Scale Visual Recognition Challenge」でトップ5に入賞し注目を集めた。イメージコンテストでは写真に写っているオブジェクトを識別するが、今ではこの技術をベースに、ビデオ解析技術を開発している。ビデオに写っているオブジェクトを1万のカテゴリーに分類することができる。

上の写真がその事例で、自動車から撮影したビデオを解析し、そこに何が写っているのかをグラフで表示している。上段は入力したビデオで、ゴールデンゲートブリッジを自動車で走行している様子である。下段が解析結果で、時間ごとに登場するオブジェクトをグラフで表示している。Clarifaiはビデオに登場するオブジェクトを把握し、それを区分けして、出現頻度を時間ごとにプロットする。

g418_ai_computer_vision_dextro_02

ビデオの内容をグラフで表示

グラフの一部を拡大したのが上の写真である。下段にはClarifaiが把握したオブジェクトを示し、上段にその出現頻度をプロットしている。グラフ最上部が「Vehicle」で、「自動車」の出現頻度を示す。グラフは常に高い値を示しており、自動車が定常的に登場していると判定した。実際に走行した時は道路は込んでいて、常に他車と一緒に走行した。最下部の黄色い線は「Suspension Bridge」を示す。Clarifaiはゴールデンゲートブリッジは、橋の中でも「吊り橋」というタイプであると認識している。ゲートの下を通過するときは、これが見えなくなり、中央部でグラフが大きく下がっている。

Clarifaiが認識したオブジェクトは下段左側に示される。このケースでは110件程度のオブジェクトを認識した。ここからグラフ化したいオブジェクトを選ぶと、下段右側に表示される。ここでは他に、「Road」や「Sky」などのオブジェクトを選択した。更に、抽象的な表現である「Travel」も選択した。上から三番目のグラフがそれで、具体的な定義は公表されていないが、乗用車や観光バスや歩行者などを「旅行」と定義しているようにも思える。

ビデオ解析の利用方法

Clarifaiはビデオの中で特定シーンを検索する時に利用される。グラフから見たいシーンを簡単に探し出せる。例えば上述グラフで「City」の最大値の部分を選ぶと、サンフランシスコ市街が写っているシーンを見ることができる。更に、出版社のようなビデオ所有者は、コンテンツを体系だって整理できる。ジャンルごとに区分けするだけでなく、ビデオへのタグ付けを効率的に行える。これらビデオを配信する際に、最適な広告を挿入・付加することで、コンバージョン率の向上が期待できる。例えば上述のケースでは「Travel」の値が高いので、このビデオの隣に旅行関係の広告を配信するなどの利用法が考えられる。

このサービスはクラウドから提供され、企業はClarifai APIをシステムに組み込んで利用する。サービスはフリーミアムと有料サービスがあり、無償サービスでは解析するデータ量に制限がある。一方、有償サービスでは制限なしに利用できる。

g418_ai_computer_vision_dextro_03

ライブビデオストリームを解析するサービス

コンピュータービジョン開発会社「Dextro」が注目を集めている。ニューヨークに拠点を置き、ビデオ認識技術を開発している。人工知能の技法を使ってビデオを解析し、その内容を把握する。Dextroは2015年5月、ライブビデオストリームを解析するサービス「Stream」を公開し話題を集めている。

これは人気ライブストリーミングアプリ「Periscope」で放送されるビデオを解析するサービスで、若者を中心に利用が広がっている。Periscopeとはサンフランシスコに拠点を置くベンチャー企業で、手軽にビデオ放送できる機能を提供している。スマホカメラからライブでビデオを発信し、視聴者はこれらの放送をアプリで閲覧する。2015年3月にTwitterが買収し、米国だけでなく世界各国で利用されている。いま一番ホットなアプリで、日本の人気アプリ「ツイキャス」(TwitCasting) に相当する。

膨大なビデオの中から好みのコンテンツを探す

Periscopeでは興味深いビデオがライブで放送されるが、ストリームの数が膨大でその選択に苦慮する。そこでStreamはPeriscopeのライブストリームを分析し、ビデオを区分けする機能を公開した。上の写真がその事例で、ストリームは「Talking Heads」、「Cats & Dogs」、「Green Fields」などに分類される。バブルの大きさはストリームの数を示す。バブルをクリックすると、そのカテゴリーのビデオを見ることができる。Periscopeが発信する大量のビデオの中から、面白いビデオに容易に辿りつける。

g418_ai_computer_vision_dextro_04

上の写真がStreamを使ってPeriscopeを見ている様子である。左側は「Nightclubs & Concerts」を選択したところで、コンサートのライブ演奏を楽しめる。このバブルを選ぶと、自宅にいながらライブでコンサートを楽しめる。右側は「Rooftops」を選択したところで、屋上からニューヨークの景色を楽しめる。誰かのパーティーにリモートで参加して、その雰囲気を味わえる。知人同士はリアルタイムでメッセージを交換し、バーチャルに出席する。ビデオ区分はこの他に、「Morning」、「Afternoon」、「Night」などがあり、膨大なビデオの中から好みのコンテンツを探すことができる。

g418_ai_computer_vision_dextro_05

システムをどう教育するのか

StreamはDeep Learningの手法でビデオに写っているオブジェクトを学習する。事前に撮影した大量のビデオとタグ (オブジェクト名などを記入) をStreamに入力し、システムを教育する。具体的な手法は公開していないが、上の写真のようなビデオストリームを入力し、例えば「Buildings at Sunset」などと教育するものと思われる。「Buildings」や「Sunset」など、単一オブジェクトだけでなく、その関係を示しシーンを理解させる。

Periscopeを解析することの難しさは、記入されているテキストがビデオの内容と異なるためと言われる。製作者がタグ付けに注意を払っていないことの他に、ライブビデオ特有の難しさがある。タグを入力して撮影を始めると、意図した内容と異なる方向に進むことが多々ある。このため、Streamはテキストや音声データは参照せず、イメージデータだけを利用する。

g418_ai_computer_vision_dextro_06

Dextroの本当の目的は何か

Streamが話題になっているが、Dextroの狙いは別のところにある。Dextroは既に大手企業と事業を展開している。大手ブランドはこの技術を使い、自社商品が市場でどう受け止められているかを把握する。商品はPinterestやInstagramのビデオの中に数多く登場する (上の写真、Pinterestのケース)。Dextroはこれらビデオを解析し、商品がどこに登場しているかを把握する。ロゴだけでなく、オブジェクトの形状から商品を特定する。更に、消費者が商品をどう使っているのかまでを把握する。写真と異なりビデオでは、消費者と商品のインタラクションまで理解できる。

市場ではDeep Learningの手法を使った広告技術が登場している。具体的な手法は企業秘密で殆ど明らかになっていないが、GoogleとBaiduが既にシステムを運用しているといわれる。消費者のプロフィールを把握するだけでなく、Deep Learningの手法でコンテンツを解析し、ターゲッティング広告の精度を上げている。Baiduは人工知能を広告配信に適用し、売り上げを伸ばしている。広告配信で人工知能の効果が数字として表れてきた。

究極の目的はロボットの視覚

Dextroは将来を見据えた開発に取り組んでいる。ビデオの中で何が起きているのかを把握し、そのサマリーを書き起こす技術を開発している。今まではマニュアルでビデオ概要を制作していたが、これからはソフトウェアの仕事となる。Dextroの究極の目的はロボティックスと言われている。ビデオ解析はロボットの基本技術で、ロボットの視覚として移動やアーム操作でオブジェクトを認識する。災害救助ロボットが屋内に入る時、扉を認識し、ノブを掴み、それを回して開ける。この背後ではコンピュータービジョンが使われ、ここでの開発競争が激化している。