ゲートを用いたマルチモーダル学習

Area

Robotics

Kuniyuki Takahashi

Researcher

ゲートを用いたマルチモーダル学習

リサーチャーの高橋城志（Takahashi Kuniyuki）です．
元インターン&アルバイトの安齋智紀（Tomoki Anzai）さんとの共著をIROS2020で発表しましたので，論文を紹介をします．論文と動画は下記から閲覧できます．
論文タイトル：Deep Gated Multi-modal Learning: In-hand Object Pose Changes Estimation using Tactile and Image Data
論文のリンク：https://arxiv.org/abs/1909.12494
論文の動画：https://www.youtube.com/watch?v=2OPQxQIcSxY&feature=youtu.be

視触覚を用いた把持物体の姿勢推定

　ロボットによるマニピュレーションタスク，特にインハンドマニピュレーションにおいて，物体を自由に操作するためには物体の位置と姿勢を推定することが重要です．インハンドマニピュレーションとはハンドの中で物体の位置や姿勢を変化させる操作です．しかしながら，インハンドマニピュレーションではハンドや把持している物体自身によって把持している物体が隠れてしまう（オクルージョン）ため，高精度な物体の姿勢推定を行うのに画像情報だけでは不十分です．この問題を解決するシンプルな方法として，複数のセンサ（モダリティ）を組み合わせる方法が考えられます．複数のモダリティを使うことの強みは，オクルージョン，ノイズ，センサの不具合に対して，もう一方のモダリティで情報を補える点です．複数のモダリティを使う場合，状況に応じて，どちらのモダリティをどの程度優先するかが重要になりますが，人手でそれを設計することは難しいです．例として，Fig. 1に物体を把持しているときの画像と触覚センサの画像を示します．画像だけでは物体が見えにくいが，触覚センサの画像には特徴的な情報が現れているもの，あるいは，画像にも触覚センサにも特徴があまり現れていないものがあります．そこで，本研究では複数のモダリティを使用し，各モダリティの信頼性をネットワークが自己判断するend-to-end深層学習を用いたdeep gated multi-modal learning (DGML)を提案します．

Fig. 1 視触覚を用いた把持物体の姿勢推定

Deep Gated Multi-modal Learning (DGML)

Fig. 2にdeep gated multi-modal learning（DGML）の概略図を示しています．DGMLは３つのコンポーネントから構成されています．画像と触覚から特徴量を抽出するユニット，書くモダリティの信頼値を計算するユニット，物体の時系列姿勢変化量を予測するユニットです．
画像と触覚から特徴量を抽出するユニットにはCNNを用いており，時刻tにおける入力画像I_img(t)と入力触覚画像I_tac(t)から画像特徴量x_img(t)と触覚特徴量x_tac(t)をそれぞれ抽出しています．そして，時刻tにおける信頼値α(t)はGateから下記の数式で計算されます．
α(t) = Gate( x_img(t), x_tac(t)) = Sigmoid (FC_img (x_img(t)) + FC_tac (x_tac(t)) )
FCは全結合層です．Gateは全てのモダリティの情報から，相対的にそれぞれのモダリティの信頼度合いを自己判断します．このgateの値（信頼値）は教師なしであり，全てのgateの値を足すと１になるようにしています(α(t) + β(t) = 1)．この信頼値が画像特徴量と触覚特徴量をスケールするものとなります．そのため，各モダリティが0に近いほど，そのモダリティの信頼性が低く，出力への寄与が小さくなり，一方１に近い場合は，そのモダリティの信頼性が高く，出力の寄与が大きくなります．スケールされた値を用いて，姿勢変化量を予測するユニットのLSTMで姿勢変化量を予測します．

Fig. 2 Deep Gated Multi-modal Learning

データセットの作成

　モデルの評価のため，色，大きさ，形状の異なる15種類の物体を用いて，新たなデータセットを作成しました．実験には，Sawyerと呼ばれる7自由度の腕を持ったロボット，及び，その手先にウェブカメラとGelSightと呼ばれる光学式触覚センサを取り付けたものを使用しました．強力な両面テープで机に固定された物体をロボットに把持させ，Sawyerを並進，及び，回転移動させたときのカメラ画像，触覚情報，把持開始時点からの姿勢変化量を取得しています．データセットの作成の様子はこちらの動画からみることができます．https://youtu.be/2OPQxQIcSxY?t=30

Fig. 3 データセット作成

評価実験：物体の信頼値

　Fig. 4に画像の信頼値αのヒストグラムを示しています．赤枠で囲まれた物体は学習に用いたもの，青枠で囲まれた物体が学習に用いていない物体です．それぞれの物体の画像の比率は実際の物体のサイズの比率に合わせています．ヒストグラムのピークは0.5より小さいことから，触覚情報をより信頼していることが分ります．信頼値0~0.2にあるテープ，レンチ，コップを把持しているときには触覚特徴量が顕著である一方．信頼値0.4~0.6にある箱や缶は表面が平らであるために触覚特徴量が小さくなるため，画像情報も使おうとしています．表面が平らな物体の中でも，画像の信頼値が比較的小さいものがあり，それらは物体が大きすぎるために画像からはみ出したオクルージョンが生じているためです．
以上のように，物体の形状，大きや，オクルージョンによって信頼値が切り替わっていることが分ります．

Fig. 4 信頼値αのヒストグラム

評価実験：把持物体の姿勢推定結果

　Table 1に画像と触覚のノイズの有無の条件下で，画像だけ，触覚だけ，gateなしで画像と触覚を使う，提案手法の比較した結果を示しています．w/o noiseでの精度から触覚情報が必要であることが分ります．ノイズがない状態ではゲートの有無での性能の差はありません．しかし，片方のモダリティが欠如した状況になると，提案手法の性能が良いことが分ります．Table 2は信頼値の値を示していますが，片方のモダリティが欠如した場合の信頼値が0に近づき，モダリティの入力をほとんど無視していることが分ります．

Table 1 把持物体の姿勢推定の精度
Table 2 信頼値の平均

まとめ

　本研究では把持物体の姿勢推定の実現のため，視覚と触覚を用い，各モダリティの信頼性をネットワークが自己判断する深層学習モデルであるDeep Gated Multi-modal learningを提案しました．このモデルを用いることで，信頼値が物体や状況に応じて変化することが確認できました．

論文に書かれていない裏話：

＜データ収集の失敗談＞
　最初にデータ収集したとき，ARマーカーが取り付けてあるアクリル性の棒を物体にとりつけて，棒を人手で並進回転させたときのARマーカーの姿勢を計測する方法で行っていました．しかし，人手で並進回転をさせるためにデータが安定しなくて，学習は失敗していました．そのため，物体を机に固定させて，ロボットを動かすという方法を行っています．

＜触覚センサ＞
今回の論文では触覚センサとしてGelSightを利用していますが，当初は他の触覚センサで実験していました．実験では把持している物体の並進回転を行っているために，触覚センサの基板の負荷が大きく．セルが除々に壊れてデータを取得できなくなってしまいました．そのため，光学式のGelSightを使っています．GelSightはカメラを使っているために，分解能が高く，今回の微細な情報を取得するのに適していました．

Area

Robotics