ロボットがビデオを見て調理法を学び料理を作る、Deep Learningで高速学習し人間に近づく

シェフに代わって調理するロボットは早くから開発されてきたが、調理ビデオを見るだけで自ら学習するロボットが登場した。調理法をプログラムしマシンを調整する必要はなく、ロボットはYouTubeビデオやシェフの仕草を見て料理ができるようになる。調理だけでなく、将来は、自動車製造ラインの組み立てロボットを目指している。更に、福島原子力発電所の廃炉作業も視野に入れている。ロボットがDeep Learningで高速学習し、人間にまた一歩近づいてきた。

g399_robotics_deep_learning_01

調理方法を自律的に学習

このロボットは、メリーランド大学 (University of Maryland) のYiannis Aloimonos教授 (上の写真、左側の人物) のグループが開発した。ロボットは、人が調理をしている様子や、それを撮影したビデオを見るだけで調理法を学ぶ。調理プロセスである、物を掴んだり、調理器具を操作することを学習し、調理できるようになる。ただ、ロボットは人の仕草をコピーするのではなく、道具の使い方や動かし方を、自分流儀で行う。この研究ではRethink Robotics社の人気ロボット「Baxter」が使われている (上の写真、手前のロボット)。Baxterは工業用ロボットで、パッケージの積み下ろしや仕分け作業などに利用されている。

g399_robotics_deep_learning_02

ロボットが人の仕草を学習

メリーランド大学はロボットで何ができるのかについて、デモビデオを公開した。ロボットが人の仕草を見て学び、それを実行する様子が示されている。ビデオは家庭のキッチンを想定し、人がカップを掴む様子をロボットが観察している (上の写真)。

g399_robotics_deep_learning_03

上の写真がロボットが見ているイメージで、人がカップを掴むイメージを読み込んでいる。ロボットは人の動作を観察し、カップの何処をどの程度の力で掴めば、入っている液体をこぼさないで持ち上げられるかなどを観察している。

g399_robotics_deep_learning_04

上の写真は学習したことを実践している様子。これはロボットがボトルからカップに水を注いでいるところで、人の仕草を見て学習した成果を実践している。水は透明の液体で、ロボットにとっては認識するのが難しいオブジェクト。ロボットは水面を正しく把握し、水が出る角度までボトルを倒し、うまく注いでいる。水が既定の量に達するとそれを認識し、ロボットはボトルを立て、水を注ぐのを終えた。これらはロボットが自ら学習し動作を学んでいる点がポイントとなる。

ロボットがシェフになる

ロボットはキッチンで調理器具や食器を使って料理することを目指している。ロボットは人が調理器具を使って調理するのを観察し、その仕草を学んでいく。例えば、キュウリを切る時には、ロボットは包丁を手に取り、キュウリをまな板に置き、スライスしていく。切り終わると綺麗にスライスできているかを確認する。ロボットは調理に必要な個々のステップを学習し、最終的には全ての工程を実行し、調理を完成することを目標としている。ロボットが人に代わり家庭で料理を作るシナリオを描いている。

g399_robotics_deep_learning_05

Deep Learningの技法で教育

このプロジェクトは人工知能を多分野で適用している。ロボットが調理法を学習するプロセスではDeep Learningという人工知能の手法を使っている。上述の通り、ロボットに調理法を教育する際に、YouTubeビデオを使う。ロボットはビデオを見て、人がどのように調理するのかを学習する。オブジェクトの掴み方や動かし方を学習し、どうすれば目的を完遂できるか、自らが考えて最適の方法を選択する。

ロボットの教育方法は「Robot Learning Manipulation Action Plans by “Watching” Unconstrained Videos from the World Wide Web」という論文で公開された。これによると、ロボットは二系統のConvolutional Neural Network (CNN) を使っている (上の写真)。CNNは多層ネットワークで、入力イメージから、特徴を抽出し、オブジェクトの分類を行う。

調理ビデオ (写真左上のディスプレイ) を入力とし、二系統のCNNがオブジェクトとグラスプタイプ(掴み方)を把握する。上の事例では、オブジェクトは「ナイフ」と「トマト」と認識している。グラスプタイプは「左手でナイフを強く持ち」、「右手でトマトを優しく持ち」と認識。その結果、人が取っているアクションは、トマトをナイフで「スライスしている」と判断した。この推量はビデオ解析ではなく、言語モデル (言葉の並びから次の行動を予測) を使っている。 これらを元に、ロボットが処理を実行できるよう、アクションツリー (写真左下のグラフ) を生成し、一連の処理が完了する。ロボットはアクションツリーに従って料理をすることとなる。

g399_robotics_deep_learning_06

教育の成果

ロボットは調理ビデオを見て様々な調理法を学んでいく。上の写真はロボットがスイートコーンのつくり方を学習している様子。上段がロボットが見ているビデオイメージで、オブジェクトとグラスプタイプを把握する。左側の棒グラフは時間ごとのオブジェクトとグラスプタイプの遷移を示している。(ビデオシーンが変わるごとに異なるオブジェクトが登場し、握り方も変わる。)ここでロボットは、「コーン」と「ブラシ」を認識し、「左手でブラシをしっかり持ち」、「右手でトウモロコシを優しく持ち」、「何かを塗っている」と判断した。この他に、ステーキの焼き方、レモンのスライスの仕方などを学習している。論文は学習成果についても言及している。ロボットはオブジェクトを79%の確度で認識した。またグラスプタイプは91%でアクションは83%と、高い認識率を示している。今後はボキャブラリーを増やすことを計画しており、認識できるオブジェクト、グラスプタイプ、アクションの数を増やすとしている。

g399_robotics_deep_learning_07

ロードマップ

ロボット (上の写真) は家庭で調理するのが最終目的ではなく、幅広く社会へ適用することを目指している。Aloimonos教授は、ロボットは次世代のオートメーションを目指すと述べている。現在、自動車製造ラインのロボットは複雑なタスクを実行するが、そのシステム構成も複雑である。ロボットは各プロセスを実行するために詳細にプログラムされ、エンジニアがマシンのキャリブレーションを行う。職人技が要求される分野である。ここにこのロボットを適用するモデルを描いている。ロボットが自律的に製造する「Smart Manufacturing」を目指している。またウエアハウスで完全自動の配送システム「Automated Warehouse」も想定している。更に、福島原子力発電所の廃炉作業のような、人が近づけない危険な処理を行うことも視野に入っている。ロボットがDeep Learningで高速に学習し、自然言語解析で人と言葉でコミュニケーションを取り、自律的に判断しタスクを遂行するモデルを目指している。

ロボットをどう教育するか

ロボットが調理法を高速で学習し、実際に料理を作るとはSFの世界であった。人は調理から解放され、ロボットが用意する食事を食べるストーリーが現実味を帯びてきた。ロボットが作る料理は美味しいのかも気になる。これらの事例が示しているのは、ロボットはどれだけ”経験を積み”、”ノウハウ”があるかが利用価値を決定する。ロボットの”賢さ”が問われる時代になってきた。消費者は調理ロボットが美味しい料理を作ることを期待している。ロボット開発は、ロボットを賢くするため、如何に効率的に教育するかが重要なテーマとなってきた。

Leave a Reply

You must be logged in to post a comment.