Archive for the ‘microsoft’ Category

同時通訳「Skype Translator」は意外とイケそう、Microsoftの人工知能研究が実を結ぶ

Friday, January 30th, 2015

Skypeは音声通訳機能「Skype Translator」を公開し、SFの世界が現実になったと話題を呼んでいる。Skype Translatorは、人間の同時通訳のように、発言をほぼリアルタイムで相手の言語に翻訳する。国際会議のように、異なる言語間でコミュニケーションが可能となった。この背景には、Microsoftの人工知能基礎研究がある。Microsoftは、音声認識に人工知能を適用することで、認識率を大幅に向上することに成功した。Skype Translatorのリリースは、Microsoftの長年にわたる機械翻訳開発が結実したことを意味する。

g398_microsoft_translate_01

Skype Translatorベータ版を公開

Microsoftは2014年12月、Skype Translatorのベータ版 (preview program) を公開した。これはSkypeへのアドオンで、異なる言語間での会話を翻訳する。MicrosoftはSkype Translatorデモビデオを公開し、どのように利用するかを説明した (上の写真)。このデモはメキシコとアメリカの生徒がSkype Translatorで会話しているシーンで、スペイン語と英語でコミュニケーションが成立することを示している。

g398_microsoft_translate_02

アメリカ人の生徒が話し終えると、システムはそれをスペイン語に翻訳し音声で伝える。同時に、会話の内容がテキストでも表示される (上の写真)。同時通訳を介して討議するように、会話が進行する。ただし、同時通訳は、話し手の会話が終わる前に、翻訳が同時進行するが、Skype Translatorは、発言が終わってから、システムが翻訳を行う。Skype Translatorは異なる言語間で自由に会話でき、地球上でコミュニケーションの範囲が広がると期待されている。

g398_microsoft_translate_07

Skype Translatorを使ってみると

利用方法はシンプルで、アプリの「Translator」ボタンをオンにして、翻訳機能を起動する。次に、相手の話し言葉と書き言葉を選ぶ。現在、英語とスペイン語間での翻訳機能があり、こちらの言語を英語とし、相手の言語をスペイン語と指定。会話を始めると、喋ったことが相手の言語に翻訳され、音声で流れる (上の写真、CNNニュース・スペイン語版を読んでもらっている様子)。喋った後に若干間を置いて、翻訳された音声が送られる。一区切り喋ると、システムはポーズを発言の終わりと捉え、翻訳を開始する。発言を聞いたのちに、翻訳を聞くという流れとなる。同時に、パネルには会話が両国の言語でテキスト表示される (上の写真右側のペイン)。

使い始めた当初は、音声認識の精度が悪く、また、翻訳が会話の途中から始まったりして、かなり戸惑った。パソコン内蔵マイクの代わりに、ヘッドセットを使ったら、音声認識精度が大幅に良くなった。(後で説明を読むとヘッドセットを使うよう書いてあった。) また、少し早口にしゃべると、会話の途中で翻訳が始まらず、発言が終わった時点で開始され、スムーズに会話できる。

慣れるまでに少し時間がかかったが、相手の言っていることが理解できるようになった。音声認識精度はいいが、改善の余地はある。Skype Translatorの成功は、如何に正確に音声認識できるかにかかっている。Microsoftがベータ版としているように、システムは実戦を通して学習中だが、意外と使えそうとの印象を持った。

g398_microsoft_translate_04

Skype Translatorの仕組み

Skype Translatorは人工知能をフルに活用したシステムだ。音声認識と機械翻訳機能を搭載し、機械学習プラットフォーム上に展開される (上の写真)。利用者が発言すると、Skype Translatorがそれをテキストに変換 (Speech Recognition、音声認識) する。システムは変換されたテキストから、「あー」とか「うー」など翻訳に障害となる言葉 (Speech Disfluencies) を取り除く。クリーンアップされたテキストを相手の言語に翻訳 (Machine Translation、機械翻訳) し、それを音声に変換 (Speech Synthesis、音声合成) することで一連のプロセスが完結する。

音声認識のプロセスで人工知能を適用し、認識率が格段に向上した。システムは機械学習で入力した教育データから、会話に関する言葉の統計モデルを構築する。利用者が言葉を発すると、それを統計モデルと比較して、類似のケースを見つける。具体的には、発言者の音声を細分し音声要素 (Senoneと呼ぶ、Phoneme(音素)より更に細かい単位) で定義する。これを事前に学習したデータと比較し、最も出現確度が高いテキストに変換する。

音声認識では学習教材から言語に関することを学び、精度を上げることがカギとなる。教育データとして、翻訳されたウェブページ、ビデオのキャプション、1対1の会話の翻訳などが使われている。しかし、Skype Translatorはまだまだ教育中で、ベータ利用者の会話を保存し、教育データとして利用される。このため、Microsoftは利用上の注意として、製品改良のために利用者の会話が保存されるとしている。

Deep Neural Networksを適用

Skype Translatorは音声認識でDeep Neural Networks (DNNs) を適用している。DNNsを音声認識に適用することで、認識率が格段に向上した。Microsoft ResearchのFrank Seideらは、これを学術論文「Conversational Speech Transcription Using Context-Dependent Deep Neural Networks」として公表した。DNNsは従来の手法 (Gaussian Mixture Model) に比べて、難しいタスクのベンチマークで、エラー率が33%減少した。これが音声認識技術のブレークスルーとなり、Microsoftが新しい時代を切り開いた。

g398_microsoft_translate_05

Microsoftの機械翻訳研究で、トロント大学Geoffrey Hinton教授との出会いが、成功への決定的な切っ掛けとなった。Hinton教授はDNNsを機械学習に応用し、「Fast Learning Algorithm for Deep Belief Nets」など、歴史に残る論文を発表した。Microsoftは2009年12月、カナダでワークショップを開催し、ここでHinton教授がDNNsについて講演した。発表内容は公開されているので (上の写真)、今でも読むことができる。これがMicrosoftが音声認識技術にDNNsを採用する切っ掛けとなった。

機械翻訳の歴史

Microsoftは音声認識や機械翻訳技術研究の歴史について公開した。Skype Translator登場の背後には、10年を超える基礎研究がある。

そもそも機械翻訳技術開発は第二次世界大戦を切っ掛けに始まった。英国諜報機関がドイツ軍の暗号解読に成功したことで、言語を他の言語に変換することへの期待が高まった。暗号解析ではAlan Turingの功績が大きく、人工知能の生みの親と評価されている。映画「The Imitation Game」で描かれ、「Turing Test」(人工知能であることの試験) などで名が残っている。

期待された機械翻訳であるが、IBMなどが開発を進めたが、成果は限定的であった。米国国防省などは、自動翻訳システムの開発に疑問を呈し、機械翻訳研究は停止に追い込まれた。一方、1970年から1980年代は、機械翻訳のベースとなる基礎技術の開発が進んだ。Lalit Bahlらは、後に「Hidden Markov Models」と呼ばれる、音声認識アルゴリズムを開発。(Skype Translatorの音声認識はHidden Markov ModelsとDeep Neural Networksを組み合わせた構造。) Bahl は、後に、IBM Watson Research Centerで自動翻訳技術開発を始める。一方、人工知能技術では、Deep Neural Networks研究が行われ、Yann LeCunなどにより、ネットワークが改良され機能が向上した。機械翻訳の研究は停滞したが、そのベースとなる技術の研究が進んだ。

1997年には、Dragon SystemsとIBMから、音声認識技術を使った消費者向けの製品が登場。キーボードでタイプする代わりに、音声で入力できるようになった。Dragon Systemsは「Dragon NaturallySpeaking」をリリースし、音声認識ソフトウェアの代名詞となった。同社はその後Nuance Communicationsに買収された。IBMは「ViaVoice」という音声認識ソフトウェアをリリースし、業務などでも使われた。

g398_microsoft_translate_06

Microsoftの功績

Microsoftは2005年から機械翻訳の研究を開始するが、上述の通り、2009年から音声認識で人工知能技術を適用した。2013年には、向上した音声認識技術をBing Voice Search for Windows Phoneに適用。上の写真はiPhone向けのBing Searchであるが、音声認識精度は極めて高い。また、機械翻訳の研究成果はBing、Office、SharePoint、Yammerなどにも応用された。昨年は、パーソナル・アシスタント「Cortana」にDeep Neural Networksモデルが適用され、音声認識率が大幅に向上した。Microsoftが音声認識に人工知能を適用する手法を示し、業界で幅広く使われるようになった。因みに、Skype Translatorの機械翻訳では、「Microsoft Translate」が使われている。

機械翻訳の難しさとビッグデータ

言語はしばしば猛獣に例えられる。言語は一定ではなく常に移り変わり、様々な種類が存在するため、扱いにくいという意味である。また、話し言葉と書き言葉の間には大きな差異がある。更に、言葉はその使われ方で、地方、国、文化など、利用者のアイデンティティを反映する。この多様な言葉を理解するため、ソーシャルネットワークが有効な学習教材となってきた。MicrosoftはFacebookなどのソーシャルネットワークで、言語の多様性を把握し、翻訳の研究を重ねてきた。この研究がSkype Translatorの日常用語や語彙の翻訳で役立っている。Microsoftが出資しているFacebookが、翻訳技術開発で大いに役立ったことを示している。

g398_microsoft_translate_03

情報処理技術の最大の誤算

情報処理技術の最大の誤算は機械翻訳であると言われている。開発当初は、コンピューター技術の進化と共に、翻訳技術が完成するのは時間の問題と思われていた。これが予想外に難航し、開発が始まり70年経った今も、機械翻訳は完成しているとはいいがたい。しかし、Deep Neural Networksという武器を手にし、音声認識技術などが格段に向上し、完成に向けて大きく前進している。Google音声検索で認識率が格段に向上したのも、Deep Neural Networksの採用によるところが大きい。Skype Translatorの発表で (上の写真)、Microsoftが音声認識技術向上に多大な貢献をしたことも明らかになった。

タッチ・インターフェイスに統一されたWindows 8

Wednesday, October 31st, 2012

Microsoftは、2012年10月25日、New YorkにおいてWindows 8と関連製品の発表を行った。Windows 8とSurfaceは、翌日の10月26日から、販売が開始された。Windows 8とSurfaceを使ってみて、統合されたインターフェイスの機能性をレポートする。

g290_microsoft_windows_8_01

デスクトップでWindows 8を使ってみると

Windows 8は早くからPublic Betaとして公開されており、様々な検証が行われている。Windows 8はタッチスクリーンを意識したインターフェイスで、デスクトップでは使いにくい、という評価が目につく。実際に、デスクトップのWindows 7をWindows 8にアップグレードして使ってみると、市場の評価とは異なり、快適に操作できる。Windows 8のStart Screen (上のスクリーン・ショット、出展はいずれもVentureClef) はTileから構成され、Tileはアプリやコンテンツとリンクしている。Tile表面にはニュースや写真などライブ・データが表示される。これをLive Tileと呼んでいる。画面左半分はWindows 8に組み込まれているアプリが、中央部にはWindows 7で使っていたアプリケーションが、画面右側にはWindows Storeからダウンロードしたアプリが配置される。これがデフォルトの構成であるが、Tileの配置や大きさを自由に変更できる。画面右下にカーソルを合わせると右端のバーが表示される。このバーにはSearch、Share、Start、Devices、Settingsボタンが配置されており、これらをCharmと呼んでいる。Startボタンをクリックすると上のHome Screenが表示される。

g290_microsoft_windows_8_02

Home ScreenのMusic Tileをクリックすると、Musicアプリが起動し、Xbox Music (上のスクリーンショット) が表示される。Xbox Musicは、Microsoftの音楽ストアーで、ここで音楽を購入し、ストリーミングで音楽を聴くことができる。このアプリから、デバイスに格納している音楽を聴くこともできる。Apple iTunes Music Storeに相当する機能である。

g290_microsoft_windows_8_03

Windows 8にはMail、Calendar、People、Messages、Weather、Desktop、Store、Maps、SkyDrive、Photos、Music、Videoなどのアプリがプレ・インストールされている。この他に、利用者はWindows Store (上のスクリーンショット) でアプリを購入することができる。ここには有償・無償のアプリが揃っており、希望のアプリをダウンロードして利用できる。アプリはカテゴリー別に区分されており、希望のアプリを選択する。Apple App Storeに相当する機能である。

g290_microsoft_windows_8_04

Windows 8にはSkyDriveアプリがプレ・インストールされ、クラウド・ストレージ機能を提供している。上のスクリーンショットは、SkyDriveを起動したところで、フォルダーが表示されている。フォルダー内のファイルをクリックすると内容を参照・編集できる。タブレットやスマートフォンから同じファイルにアクセスできる。業務においては社員間でデータを共有しコラボレーションできる。

g290_microsoft_windows_8_05

Home ScreenのDesktopアプリをクリックすると、見慣れたデスクトップ (上のスクリーンショット) が表示される。ここでPowerPointなどを使って仕事をする。仕事中はこのスペースに留まり、別のアプリケーションを起動する際に、Home Screenに戻るというパターンである。デスクトップからStartボタンが無くなり、Home Screenに戻ってアプリケーションを起動する必要がある。仕事が終わるとHome Screenに戻り、音楽を聴き、ビデオを見て、今日のニュースを読むというパターンである。タイル形式のインターフェイスはすっきりしており、新鮮な印象を受ける。マウスで充分操作できる。市場の評価とは異なり、デスクトップでのWindows 8は、Windows 7より機能が増え、格段に使いやすくなったと感じる。

Surfaceを使ってみると

MicrosoftはWindows 8と同時にSurfaceの販売を開始した。SurfaceはMicrosoftブランドのタブレットで、今回発売するモデルはARM (NVIDIA Tegra 3) を搭載しWindows RTが稼働する。Windows RTとはWindows 8をARMプロセッサー向けに最適化した基本ソフトである。Windows RTはMicrosoft Office 2013をサポートし、Windows Storeからアプリをダウンロードして使用する。Surfaceは丸一日バッテリーで稼働し、既存の周辺機器とUSBケーブルなどで接続して利用する。

g290_microsoft_windows_8_06

Microsoft Storeにおいて、Surfaceを使いその操作性を試してみた。タッチパネルは敏感で、指での操作は滑らかである。Tileにタッチすると、アプリが起動する。iPadのように小さなアイコンが密集しているのではなく、大型のLive Tileが配置され、少し気分が楽になる。Live Tileの上には、最新ニュースのタイトルや写真が、電光掲示板のように、フラッシュする。Mailアプリにタッチすると、Hotmailが起動した。Mailアプリには、Gmailなど、自分が利用しているメールを登録できる。メール作成画面では、ソフト・キーボードから入力できる。メールのような短い文章はソフト・キーボードから行える。

g290_microsoft_windows_8_08

次に、Home Screenで、Microsoft Excelを使ってみたが、この時はTouch Cover (上の写真の赤色の部分) から入力した。Touch Coverはタブレットのカバーにキーボードが印字されている構成で、タイプしても指への反応はなく、ソフト・キーボードを使っている感覚に近い。慣れてくると通常のキーボードのように速くタイプできる。ExcelやWordなど長い文章を入力する際はTouch Coverで行うのが楽である。Touch Coverは簡単に取り外しでき、Touch Coverを裏返すと、タブレットとして使える。Desktopで仕事を行う際はTouch Coverから入力を行い、それ以外のアプリを使うときはタッチスクリーンから入力を行うという切り分けができる。Windows 8のタッチ・インターフェイスは、やはりタブレットで威力を発揮する。

g290_microsoft_windows_8_07

Microsoft Storeの盛況

Microsoftは2009年10月から全米に小売店舗を展開してきたが2012年4月には、Palo Alto (カリフォルニア州) のStanford Shopping CenterにMicrosoft Storeをオープンした。店舗入り口の隣には、Windows 8ロゴとLive Tileが掲載されていた (上の写真)。Microsoft StoreにはWindows 8を搭載した主要パソコンやタブレットが展示され、Surfaceは入口正面の一番目立つところに配置されていた。店舗内はAcer、Dell、Lenovo、Sonyなど主要ベンダーからの製品が展示され、自由に試してみることができた。Windows 8でデバイスのバリエーションが格段に増えた。タブレットはSurface以外にASUS Vivo Tab RTなどが販売されていた。Acer Aspire S7-391はUltrabookでMacBook Airのようにスタイリッシュなデザインである。Lenovo IdeaCentre A720はAll-in-Oneで、iMacが太った構成である。店舗内は大盛況で、新製品を試している客で混雑し、Surfaceの前では待ち行列ができていた。店舗スタッフがSurfaceのデモ機を持ち歩き、使い方を解説するというサービスも行われていた。

g290_microsoft_windows_8_09

考察

Windows 8のコンセプトは、タッチとマウス操作両方に対応し、娯楽と仕事の両方で使えることである。インターフェイスの概念は、MicrosoftとAppleで大きく異なる。MicrosoftはWindows 8という単一の基本ソフトでモバイルとデスクトップをカバーするというアグレッシブな方式である。一方Appleは、モバイルはiOS6でデスクトップはMountain Lionという二つの基本ソフトを使い分けている。Mountain LionにはiOS機能の流入が続き、Macが徐々にiPhone/iPadに近づいているが、二つの基本ソフトを運用している。市場では、Windows 8は中途半端で、モバイルとデスクトップのどちらにも対応できていない、という意見も聞かれる。これに対して、消費者はWindows 8をどのように評価するのか、見定める必要がある。一つの基本ソフトが、モバイルとデスクトップの架け橋になれるのか、壮大な社会実験が始まった。