2019/07/31

【森山和道の「未来の断片」】行動を学習するロボットの知能をどうやって設計するか

フリーランスのサイエンスライター。1970年生。愛媛県宇和島市出身。1993年に広島大学理学部地質学科卒業。同年、NHKにディレクターとして入局。教育番組、芸能系生放送番組、ポップな科学番組等の制作に従事する。1997年8月末日退職。フリーライターになる。現在、科学技術分野全般を対象に取材執筆を行う。特に脳科学、ロボティクス、インターフェースデザイン分野。研究者インタビューを得意とする。

Kittipong Jirasukhanont © 123RF.com

未知の環境でも自分で動けるロボットは実現できるか

ロボットとはどんな機械か。一般的には、ロボットは自分で考えて体を動かして、何かしらの仕事を巧みにこなしてくれるものだと思われていることが少なくない。だが実際のロボットは動作を正確に繰り返す機械に過ぎない。どのように各関節のモーターを動かすかといった詳細は、基本的に人間のプログラマーが事前に組んでやらないといけない。

だが、それではロボットが広く使えるような時代はなかなか来ない。研究ではロボットの自律性を上げる試みが続けられている。理想的には、「あれやって」とか「こんなふうにやるんだよ」と示すだけでその仕事をこなしてくれるロボットを実現することが目標だ。もちろん一足飛びにそこまで行くわけはないので、いまはまだ扱えるモノの種類が増え、移動能力が上がり、できるタスクが徐々に増えている段階だ。

今後のロボットには、自ら賢くなることが求められている。その方法の一つが機械学習だ。産業技術総合研究所人工知能研究センターが主催した「人工知能セミナー」で紹介された研究を元に、ロボットのラーニング研究の一端をのぞいてみよう。

確率的生成モデルを基盤としたロボットの統合認知モデル

moriyama_05_image01
大阪大学大学院 基礎工学研究科教授 長井隆行氏

大阪大学大学院 基礎工学研究科教授の長井隆行氏は「確率的生成モデルに基づくロボット学習」について紹介した。長井氏らのグループは、機械学習の一種である「確率的生成モデル」を使って、表現学習、強化学習、時系列学習などを統合し、ロボットが自ら「概念」や行動、言語などを同時に学習する枠組みを提案している。そして実物のロボットを用い、実際の物理環境や周囲のエージェントとのインタラクションによる学習を行わせている。

長井氏たちは実際に組み上げてモノの仕組みを知る「構成論的アプローチ」を取っている。人間の子どもはデータとラベルを元に学習するのではなく、周囲とあれやこれややりとりするなかで、物事の仕組みや言語を獲得していく。いったん言語を獲得すると、それがまた学習を促進させる。そのような仕組みをロボットに与えてみようというのが長井氏や立命館大学教授の谷口忠大氏らの考え方・アプローチで、彼らはこれを「記号創発ロボティクス」と呼んでいる。身体的経験に基づく周囲との環境とのインタラクションが知能の本質であり、それを数式で表してロボットに搭載しようというわけだ。

ロボティクス的な見方では、ロボットが情報入力Xを受けたときに、どのような関節トルクYを出すかということになる。ニューラルネットワークは直接的に入力Xと出力Yの関係を学習する。そのためには入力Xと出力Yの対応関係の情報、つまり教師データが必要だ。だが現実世界ではいつもそのような教師データが得られるとは限らない。事前に与えられる教師データなしにデータの特徴のみから学習を行う「教師なし学習」を行って、絶えず学び続けるようなロボットでないと、実際の環境では行動し続けることができない。

長井氏らが採用している「確率的生成モデル」では、入力されるデータを確率で表現される「確率変数」とし、そのデータ同士の関係をモデル化して、未知のパラメーターを推測しながら機械学習を行うことができる。入力データは、ロボットが自分の身体のセンサーで獲得したものであっても、設計した人が与えたラベル付きデータであっても区別されない。そのため、オープンな実環境で動作しながら自ら世界を区分けして理解していくロボットに向いている。さらに最近は深層学習(ディープラーニング)と組み合わせた学習が注目されている。

moriyama_05_image02
確率的生成モデルによる統合認知モデル

長井氏がいうところのロボットが獲得する「概念」とは、一言でいうと「予測」のことだ。物体が持つ情報は視覚、聴覚、硬たさなどさまざまな感覚(モダリティ)情報から構成されている。それをロボットは自らのセンサー入力信号をカテゴライズしながら、似ているものと似ていないものを分けて情報圧縮する。同時に、あるセンサー情報が入ってきたときに、実際にはそれ以外のモダリティ情報が入ってこなくても、それを自分が持っている情報から予測する。平たく言い直すと、音を聞いただけで見た目を想像したり、ぬいぐるみを見たときに同時に柔らかさを予測する。それが「概念」を持っていることだと見なすのだ。つまり概念とは「マルチモーダル情報のカテゴリー」だという。

ロボットの場合は、観測されたさまざまなセンサー情報から隠れた変数を推定しながら自分でクラスタリングしていく。やがては特定モダリティの情報を入れるだけで別のモダリティ情報も予測することができるようになる。さらに時系列情報も潜在空間で表現できるようにすると、たとえばペットボトルを見ると、触る前から、触ったあとに自分の身体に入力されるだろう感触の情報だけでなく、自分自身のモーター出力の時系列、つまり身体の動かし方も予測できるようになる。

長井氏らの研究では、100時間の学習でおよそ60単語くらいを学習することができたという。これはだいたい人間と同じくらいだ。面白いのは、人間が小さい子ども相手に言葉を教えるときに使う幼児語、たとえば車のことを「ブーブーだよ」といった、同じ音韻を繰り返すような言葉を使うと、学習効率が上がったという。これは、同じ音韻列を繰り返す幼児向けの言葉のほうが確実に認識される可能性が高いため、より早く言語に頼って学習するようになるからではないかと考えられるという。

このような技術を使って、長井研究室では、ロボットが部屋のなかのものを片付けるといったデモに成功している。最初は人間が遠隔操作でロボットハードウェアを操作する。その情報を使ってロボットは模倣学習を行って、周囲の環境情報を手がかりにして自分の身体を操作することができるようになる。

moriyama_05_image03
片付けを行うロボット

このようにロボットを教師なし学習で実世界で動かすことがじわじわとできるようになりつつある。長井氏や谷口氏らのグループでは確率的生成モデルとディープラーニングを組み合わせた「深層確率コンピューティング」と呼び、認知アーキテクチャの研究を促進するための枠組みとして「SERKET」というプロジェクトを立ち上げている。派手さはないが、筆者個人は、「みんなが欲しいロボット」を実現するための、もっとも王道に近いアプローチだと思って注目している。

十分な情報が入手できない環境でも動けるロボットへ

moriyama_05_image04
奈良先端科学技術大学 システム情報学分野 特任准教授 松原崇充氏

奈良先端科学技術大学 システム情報学分野 特任准教授の松原崇充氏はガウス過程とベイズ推論を使ってロボットが収集したデータから最適な行動を計画するアプローチを紹介した。小型船舶の自動運転などが可能になる。

松原崇充氏によれば、欧米と比べて日本では、情報系でロボット向け技術に取り組んでいる研究室は少ないという。その理由の一つは、ロボットのような実環境を相手にすると、ウェブ系の技術はなかなか使うことが難しいからだ。

強化学習は、一連の行動から制御したい対象=環境に対する適切な行動規則を見つけるための手法だ。エージェントはタスクを解くために都合がよければ報酬信号を受け取る。よって適切な行動を取らせるには、インタラクションを通じて経験サンプルを集めてきて、将来得られる報酬信号が最大になるような行動をとらせることになる。

たとえば布や紐、ゴム、布などを扱うのはいまのロボットでは難しい。ロボットが扱えるように状態を計測して定義することが難しいからだ。たとえば、ハンカチを裏返すといったタスクでさえロボットにとっては一苦労だ。学習のためのサンプルを集めるコストも高い。経験ベースでロボットが行動学習しようとしたときのサンプリングのコストの問題は、研究の上ではかなりのハードルになってしまう。物理シミュレーターを使う方法もあるが、現実世界とのずれの課題がある。これらの問題を解決するためにはサンプル効率の高い学習手法を活用するか、常に不十分な状態から知識を取り出すアルゴリズム設計アプローチが必要になる。松原氏はここに関数をサンプリングするガウス過程と近似推論を用いている。

moriyama_05_image05
ガウス過程と近似推論

ロボットにとっては、十分なデータ量が集まりきっていないがタスクに移らないといけない状況が普通だ。問題解決するためにはデータがあやふやであっても行動しないといけないので、予測の期待値がどの程度確かなのか、あやふやなのかも推定すること、つまり予測の分散情報をうまく活用することが重要になる。そのため、確率推論を使ってロボットの行動を設計しようという考え方だ。

だが、ガウス過程の計算には時間がかかり、ロボットの制御ループにはそのままでは収まらない。そこで制御ループ内に計算を終わらせるために近似推論を用いる。さらにスパースガウス過程の変分学習と解析的モーメントマッチング法という二つの手法を使いて計算量を抑え、関数を捉える。

具体的にはこれで何ができるかというと、操作性が悪い海洋での船舶の自動航行を強化学習で行ったり、乱雑に積み上げられた物体を探索したりといったことが可能になる。ガウス過程を使うことで、データが不足している場合でも予測がどの程度確からしいかを含めて教えてくれるので、まず粗い状態を作って、徐々に精緻な制御を行えるようになる点が強みだ。このしくみを使って、十分な情報がなくても形を手探りするロボットなども実現可能だという。これも現実的で面白いアプローチだと思う。

moriyama_05_image06
ガウス過程を用いたロボットの行動学習

従来手法と深層学習の組み合わせで
現場に使える技術を目指す

moriyama_05_image07
産総研 人工知能研究センター オートメーション研究チーム長 堂前幸康氏

最後に、このセミナーの主催者である産総研 人工知能研究センター オートメーション研究チーム長の堂前幸康氏から「機械学習技術の産業用ロボットへの展開」と題した、マテリアルハンドリングやピッキングなどへの機械学習の応用例が簡単に紹介された。一言でいうと、モノを扱う作業だ。堂前氏は前職は三菱電機株式会社で、2018年から産総研に所属している。三菱電機時代にはAmazonが主催した物流向けピッキングのロボコン「Amazon Picking Challenge」などにも出場していた。

いまのロボットは徐々に自律性を高めており、従来は難しかったバラ積みされた部品の取り出し、そのための具体的な滑らかな軌道制御などはできるようになりつつある。バラ積み取り出しならば成功率9割程度であっても失敗したら取り直せばいいので、生産技術としても成立するのだという。

また、機械学習が流行しているが、それだけでなく、従来の特徴量設計ベース手法でもそれなりの成功率を出すことはできる。ディープラーニングは未知のものも追加学習できる一方、データ取得コストが高いことが課題となっており、シミュレーションだけで効率的に学習する方法も模索が進められている。

moriyama_05_image08
深層学習と特徴量設計の成功率はほぼ同等

堂前氏や大阪大学の原田研介教授らはシミュレーターのみを使ったピッキング学習に取り組んでいる。9割近くと、実機とほとんど変わらない把持成功率を記録できた。

moriyama_05_image09
シミュレーターのみで学習させたロボットで成功率約9割を達成

成功率を下げているのは複数の絡みやすい物体の持ち上げで、それに対しては特徴量設計ベース手法とディープラーニングを併用して、両者のいいとこ取りをしようとしている。つかむ位置を特徴量設計で出し、つかむ対象が絡むか絡まないかといったことをディープラーニングで学習させたモデルで判定させるというものだ。そうすると、従来手法だけでは難しかった、対象物の絡みの問題をだいぶ回避できるようになったという。

moriyama_05_image10
特徴量設計と深層学習のいいとこ取り

シミュレーター上で複数のロボットを同時学習させようといったやりかたは、各社が進めている。実際の現象とシミュレーターとのズレがしばしば問題視されているが、両者の差を見てシミュレーターを改良する試みも進められている。また、従来の特徴量設計手法もまだまだ改善の余地があると考えられており、こちらのほうが低コストだと考えられるケースも多いという。

新しい手法だけがすべてではない。産総研では、人・機械の協調生産、協調空間での機械の自立作業、高精度な人の作業の機械への転写などの研究が進められている。

HuaWaveの新着記事をメールでご案内します。ご希望の方はこちらからご登録ください。

RECOMMENDED


RELATED

MOST POPULAR