生物の動きを模倣する生成AIの基盤技術を開発

- 深層強化学習と模倣学習を融合 -

2024/05/07

【工学研究科研究者情報】
〇大学院工学研究科ロボティクス専攻 教授 林部 充宏
研究室ウェブページ

発表のポイント

  • 環境適応と運動模倣が可能な中枢パターン生成器(注1)の学習を実現する新しい運動生成手法AI-CPGを開発しました。
  • 中枢パターン生成器と模倣学習を組み合わせることで運動速度の修正が容易で生物や人間の運動模倣に基づく自然な運動生成が可能です。
  • 深層強化学習(注2)模倣学習(注3)を組み合わせているため、膨大な探索処理を回避することができ、未知の環境への適応が可能です。
  • 模倣した歩行と走行の運動を再現できるだけでなく、データがない運動周波数の運動生成を行うこと、歩行から走行まで連続的に運動を遷移させること、また学習時と異なる不安定な床面への環境適応性があります。

概要

近年、深層強化学習や模倣学習をそれぞれ用いたロボット制御の応用研究が活発に行われ注目されています。深層強化学習を活用する場合には環境適応可能な運動が生成できるものの、広大な入力空間の探索に膨大な計算コストを要することが問題となります。一方、模倣学習を用いる場合には学習した運動に近い範囲に環境適応性が制限されるという問題が一般的に知られています。

東北大学大学院工学研究科の林部充宏教授とGuanda Li(グアンダ リ)大学院生およびスイス連邦工科大学ローザンヌ校(EPFL: École polytechnique fédérale de Lausanne)の Auke Ijspeert(オウケ イシュパー)教授らの研究グループは、深層強化学習と模倣学習の両面の利点を生かすことが可能な新しい運動生成の手法(AI-CPG)を開発することに成功しました。

本研究成果は、ロボット分野の国際学術誌IEEE Robotics and Automation Lettersに2024年4月15日付けで掲載されました。

研究の背景

深層強化学習は、深層学習と強化学習を組み合わせた手法です。強化学習は行動結果を評価することで試行錯誤的に学習を行うことができ、未知の環境にも適応できることが利点ですが、特にシステムの自由度が高い場合には広大な入力空間の探索に膨大な計算コストを要することが欠点となっています。また別のアプローチとして人間が同じ運動タスクを行った際の運動計測データを模倣することでロボットの学習を行う模倣学習が知られています。模倣学習は運動タスクや環境が変化しない場合にはその有効性が知られていますが、学習の際の探索範囲は基本的には狭いために、未知の環境への適応性は低いことが知られています。

今回の取り組み

本研究では、深層強化学習と模倣学習の両面の利点を生かすことができ、またその欠点を補いあうことができる新しい運動生成の手法を開発しました。神経科学的にも説明がつきやすいよう上位中枢と運動ニューロンの中間に位置し、脊髄に内在すると言われている中枢パターン生成器(Central pattern generators:CPG)の構造を採用した(図1)。またCPGは感覚情報に基づく反射系ネットワークと協働していることが知られています。中枢神経系の中でも上位よりのCPGはどういう運動パターンを生成したいのかという、より運動意図に近い役割をもつことから、この部分のニューラルネットワーク(注4)の学習には模倣学習を適応しました。従来のCPGを用いる方法では数式的に設計された振動波を生成するため、必ずしもその運動パターンは人間の運動に似ていませんが、本研究ではCPGの表現形式を用いた上でそのパラメータを人間の運動に模倣するように学習する新しい計算方式を採用したことから、運動周波数を連続的に変更可能というCPGの利点を維持しながら、その出力は人間の運動を模倣するように学習することに成功しました。

また人間の運動が感覚情報を用いた反射ネットワークによりCPGと連動し、これにより環境適応する構造を踏襲し、CPGと運動ニューロン層の間に反射ネットワークを設け、この部分の学習に深層強化学習を適用することで、未知の環境への適応機能を実装しました。これにより、模倣した歩行と走行の運動を再現できるだけではなく、データがない運動周波数の運動生成を行うこと、歩行から走行まで連続的に運動を変化させること(図2)、また学習時と異なる床面の状態への環境適応性も実現できることが確認できました(関連動画)。

今後の展開

近年、生成系AI(注5)の発展はめざましく、運動生成タスクへの応用も望まれますが、多自由度系では生体の自己組織的な振る舞いの生成をAIにより実装することは容易ではないことが考えられます。その要因の一つとして生体の身体に潜む冗長性問題があげられます。AIは基本的に一つか少ない数の正解を生成する場合には向いていますが、同じ種類の運動タスクの実現に必ずしも一つの正解パターンがあるわけではなく、無数の解が存在してしまうという問題があります。そのため運動タスクや環境の力学条件に適応して自己組織的にまた連続的に運動生成させるのは容易ではありません。

今回の提案手法は模倣学習自体がこの冗長性の低減につながっており、ただ原理的に自由度は拘束していないことから、冗長性自体は維持しながら学習時の探索計算のスペースのみを縮小していることから、未知の環境への深層強化学習の探索処理の複雑さを模倣学習と同時に行うことで簡略化し、さらにCPGにより運動速度は自由に調整可能という生体がもつ特徴を反映した新しい運動生成の手法と言えるため、本問題の解決に向けての一歩となることが期待されます。


図1 上位中枢からの速度調整コマンドにより中枢パターン生成器(CPG)と反射ネットワークが協調している様子(a)、全体の制御フレームワーク(b)。

図2 AI-CPG法を用いて制御された歩行から走行への遷移過程。(a)CPGコントローラのリズムジェネレータへの入力として、周波数が増加する正弦波信号を用いた。 (b)重心速度、フロード数、飛行位相比。黒い破線は歩行が変化する箇所を示す。 (c)歩行から走行への遷移の様子。(d)歩行サイクルの時間図。 (e) 走行サイクルの時間図。

YouTube動画

AI-CPG: Adaptive Imitated Central Pattern Generators

謝辞

本研究は科学研究費補助金(国際共同研究強化A)JP20KK0256および科学研究費補助金 (新学術領域) 超適応プロジェクトJP22H04764の支援を受けて行われたものです。

用語説明

(注1)中枢パターン生成器(CPG)

感覚入力や上位中枢からの神経指令なしに周期的な運動パターンを生成する神経回路網。CPGのモデルとして、センサ入力無しでも振動が可能な振動子を考えるグループと、センサ入力があって初めてパターンを生成できる非振動子を考えるグループがある。

(注2)深層強化学習

神経細胞の仕組みを再現したニューラルネットワークを用いた方法を深層学習(ディープラーニング)という。強化学習は正しい答えをネットワークに与える代わりに評価(報酬)を与えて学習させる。深層学習と強化学習を組み合わせた手法が深層強化学習。強化学習では学習が困難な複雑な問題に対しても学習であるが、膨大な空間探索による計算コストが問題となっている。

(注3)模倣学習

人間の脳内の神経細胞である「ニューロン」を語源とし、脳の神経回路の構造を数学的に表現した手法である。「入力を線形変換する処理単位」がネットワーク状に結合した数理モデルであり、人工知能(AI)の問題を解くために用いられる。

(注4)ニューラルネットワーク

人間の脳内の神経細胞である「ニューロン」を語源とし、脳の神経回路の構造を数学的に表現した手法である。「入力を線形変換する処理単位」がネットワーク状に結合した数理モデルであり、人工知能(AI)の問題を解くために用いられる。

(注5)生成系AI

人の指示に従って文章や画像、動画などを自動生成する人工知能。訓練データの規則性や構造を訓練において学習することで、訓練データに含まれない新しいデータを生成することができる。文章生成では米オープンAIが開発したChatGPT、動画生成では同社のSoraが知られる。

論文情報

タイトル: AI-CPG: Adaptive Imitated Central Pattern Generators for Bipedal Locomotion Learned through Reinforced Reflex Neural Networks
著者: G. Li*, A. Ijspeert and M. Hayashibe*
*責任著者: 東北大学大学院工学研究科 教授 林部充宏
掲載誌: IEEE Robotics and Automation Letters, (2024)
DOI: 10.1109/LRA.2024.3388842

お問合せ先

< 研究に関すること >
東北大学大学院工学研究科ロボティクス専攻 教授 林部 充宏
TEL:022-795-6970
E-mail:hayashibe@tohoku.ac.jp
< 報道に関すること >
東北大学工学研究科・工学部 情報広報室
TEL:022-795-5898
E-mail:eng-pr@grp.tohoku.ac.jp
ニュース

ニュース

ページの先頭へ