視覚からの触覚特性の推定 (ICRA2019 Best Conference Paper Award Finalist)

Area

Computer Vision

Robotics

Kuniyuki Takahashi

Researcher

リサーチャーの高橋城志（Takahashi Kuniyuki）です．

2019年5月にロボティクス分野のトップ会議であるICRA2019が開催されました．そこに投稿された約2900件の論文から3件だけ選ばれるBest Conference Paper Award Finalistを受賞しました．この論文はリサーチャーのJethro Tanと執筆したもので，その紹介をします．論文，動画，データセットは下記から閲覧できます．

論文タイトル：Deep visuo-tactile learning: Estimation of Tactile Properties from Images

論文のリンク：https://arxiv.org/abs/1803.03435

データセット：https://github.com/pfnet-research/Deep_visuo-tactile_learning_ICRA2019

論文の動画：https://www.youtube.com/watch?v=ys0QtKVVlOQ&feature=youtu.be

視覚からの触覚特性の推定

Fig. 1に物体の写真を何枚か載せています．人は物体の表面を触ることで，柔らかさや粗さといった触覚特性を知覚することができます．また，画像だけから触覚の特性とその度合い（e.g. 柔らかさとその程度）を推定できます．この能力は物体操作や歩行方法などの判断に必要になります．例えば，柔らかそうなものは優しく把持を行い，滑りそうな床では気をつけて歩くなどです．

Fig. 1 視覚からの触覚特性の推定

Deep visuo-tactile learning

そこで，手動でのラベル付けをせずに，教師なし学習で触覚の特徴を獲得する，deep visuo-tactile learningを提案します（Fig. 2）．このモデルはエンコーダ・デコーダ型の深層学習の入力を画像情報，出力を触覚情報を用いており，潜在変数に触覚特性を獲得させます．出力は教師信号がある教師あり学習ですが，潜在変数には教師がないため，触覚特性の獲得に関しては教師なし学習です．

Fig. 2 Deep visuo-tactile learning

このモデルの学習後，潜在変数に触覚特性が連続値として表現されることになります．そのため，度合いの粒度を事前に決める必要がありません．物体の触覚特性の推論には，対象となる物体の画像を入力するだけで物体の触覚特性である潜在変数が得られます（Fig. 3）．つまり，触覚センサは学習にのみ必要で，学習後の推論には触覚センサを必要としません．触覚センサは高価で壊れやすいため，触覚センサを使わずに触覚の特性を推論できるという利点があります．さらに，シミュレーションでは接触状態を扱うのが困難で，触覚情報を扱うことは難しいですが，本手法ではシミュレーションでの画像から触覚情報の推定も可能となります．

Fig. 3 学習後のDeep visuo-tactile learning

データセットの作成

モデルの評価のため，25種類の物体を用いて，新たなデータセットを作成しました（Fig. 4）．このデータセットは公開していて，自由に使用できます．
https://github.com/pfnet-research/Deep_visuo-tactile_learning_ICRA2019
実験には，Sawyerと呼ばれる7自由度の腕を持ったロボット，及び，その手先にウェブカメラとuSkinと呼ばれる触覚センサを取り付けたものを使用しました．uSkinは16点のそれぞれのセルで圧力方向とせん断方向の力を取得できます．ロボットは物体表面をなぞる動作を行い，そのときの画像と触覚センサのデータを取得します．実際に取得した時系列における触覚センサの各セルの圧力方向とせん断方向の力のグラフをFig. 4に示します．

Fig. 4 データセット作成

評価実験：潜在変数の可視化

作成したデータセットを学習させて，触覚センサの特性が表現されている潜在変数を可視化したものをFig. 5に示しています．図中の赤色の星は学習に使用した物体で，青色は学習に使用していない未知物体です．取得した触覚センサの値から，物体の摩擦が大きいほど緑色の円の色が濃くなるように描画しています．Fig. 5から布でない物体はLatent varialbe 1の軸の低い値にプロットされる一方，布の物体は高い値でプロットされていることが分かります．これは，触覚センサの表面を布で覆っていたため，触覚センサ表面の布と布の物体との摩擦が大きくなったためだと考えられます．このことから，潜在変数には摩擦情報が表現されていることが示されました．

Fig. 5 摩擦を表現したLatent Variable

Fig. 5と同じ方法で，センサ情報から硬くて粗い物体ほど円の緑色が濃くなるように描画したものをFig. 6に示しています．図から硬くて粗い物体であるほど，Latent variable 2の軸において小さな値にプロットされていることが分かります．例えば，カーペットは硬くて粗いですが，バスタオルは柔らかくて滑らかと認識されています．また，色のみ異なる物体や似ている物体は近い位置でプロットされていることが分かります．このことから潜在変数に触覚の特性として柔らかさと硬さが表現されていることが示されました．

本手法の性能限界を調べるため，紙に印刷された畳の画像から触覚特性を推論させました．その結果，印刷された畳は硬くて粗い物体と認識されていますが，本来推定するべきものは紙であるため，実際の特徴とは異なります．今回の手法では入力としては画像のみを使ったために生じた問題です．深さ情報まで含めた入力にすることで，物体表面の形状情報が取得できるようになるため，このような問題を解決できると考えています．

Fig. 6柔らかさと粗さを表現したLatent Variable

まとめ

画像からの触覚特性とその度合を推定するために，教師なし学習であるdeep visuo-tactile learningを提案しました．この研究の新規性は，教師なしで潜在変数に触覚特性を表現したこと，及び，画像と触覚情報を含んだ新たなデータセットを作成したことです．今後の展望として，推定した触覚特性を元にロボットに把持や歩行などの行動をさせることです．

Area

Computer Vision

Robotics