Blog

Home
Blog
絡まりやすい食品の目標量把持

2022.01.11

絡まりやすい食品の目標量把持

Area

Kuniyuki Takahashi

Researcher

リサーチャーの高橋城志（Takahashi Kuniyuki）です。
2021年12月末にIEEE Robotics and Automation Letters (RA-L)に採択された絡まりやすい食品の目標量把持の論文を紹介します。
論文、動画は下記から閲覧できます。
論文タイトル：Target-mass Grasping of Entangled Food using Pre-grasping & Post-grasping
著者：Kuniyuki Takahashi、 Naoki Fukaya、 Avinash Ummadisingu
論文のリンク：IEEEの論文リンク＆arXivの論文リンク
論文の動画：YouTube Link

導入や共同開発に興味がある方はご連絡ください。
連絡先：
高橋、千々岩
コンタクトフォームリンク

概要

食品工場では、バラエティに富んだ食材を工場の作業員が手作業でお弁当やお惣菜の容器に詰め込まれており、自動化が進んでいません。食品の多くは、絡み合ったり、くっついたり、塊になったりしやすく、目視ではその絡み具合を予測することが難しいため、量や重さで取り分けるために必要な目標把持量を正確に把持することはロボットだけではなく人でも困難です。作業者は、計量器と複雑な操作を組み合わせて食品を分離し、目標の把持量に調整しています。そのため、作業の自動化は容易ではありません。本研究では、1）絡み合いの度合いを低減するための事前把持（pre-grasping）、2）把持量が目標把持量よりも大きい場合に余分な食品をグリッパから除去するための新しいグリッパ機構を用いた把持量の調整を行う事後把持（post-grasping）、3）目標把持量よりも適度に多く把持できる可能性の高い把持点の選択、を組み合わせた手法を提案します．本研究では、大きさや形状，密度などの物性が異なる、絡みつく、くっつく、塊になる食品を対象に評価を行いました。その結果、提案手法を用いることで、ユーザが指定した目標質量の把持精度が大幅に向上して、今回の実験に使用した6種類全ての食品で、目標把持量\(\pm\)2gになる成功率は88%以上を達成しています。また、学習は約3-15分と短時間で完了します。

1. 食品把持の課題

スーパーマーケットやコンビニエンスストアで弁当や惣菜はどのように製造されるかご存知でしょうか。弁当工場では、詰めるべき食材が調理されて、数十から数百食分の料理が食品トレーに入れられ、指定された量の食品を食品トレーから把持して、弁当箱に詰めるという作業が行われています。弁当は様々な食品から構成され、メニューも豊富です。さらに、弁当のメニューや容器は季節の移り変わりや新商品の発売によって数週間おきに新しいものが登場します。食品の種類も多いですが、同じ種類の食品でも一つの食品の形や大きさなどが異なりますし、弁当に詰める量も弁当毎に異なります。このような背景から、大部分の食品については詰め込み作業を行う機械を作ることが難しく、人手で弁当の詰め込み作業が行われています。
詰め込む食品は把持の観点から、個数で管理する大片食品（焼き魚や唐揚げなど）と重さで管理する細片食品（煮豆や千切りキャベツなど）に分類でき、さらに、我々は細片食品を絡まりにくい食品（コーヒー豆やオートミールなど）と絡まりやすい食品（千切りキャベツ）に大別しています。これまでの研究開発では、大片食品で成功した例がいくつか報告されていて、実際の食品工場への導入が進もうとしています。一方、細片食品は大片食品と比較して研究成果はまだまだ少ないです。そのような中、我々は絡まりにくい食品である粒子状の食品の定量把持を実現しました（粒子状細片食品のPFN Tech Blog）。この研究では、上方から撮影した食品トレーのRGB-D画像を使って、どこを把持すれば何グラム把持するかをニューラルネットワークに推定させることで、目標とする把持量を把持しました。この方法では、目標把持量に対して±5%の把持量誤差以内になる成功率が約100%と高精度です。しかし、千切りキャベツやモヤシのように食品同士が絡まったり、くっついたり、塊になる食品（この記事では絡まりやすい食品と呼ぶ）は粒子状食品とは物性が大きく異なるため、この方法では上手く行きませんでした（図１参照）。絡まり具合が不規則のため、把持量の予測が困難なためです。
本研究では、絡まりやすい食品に対して、ユーザーが指定する任意の把持量を高精度で把持可能なシステムの構築を目指します。このシステムを設計するにあたり、解決するべきことが３つあります。１）不規則な食品同士の絡まり、2）ニューラルネットワークが推定する推定把持量と実際の把持量のズレ、3）少量データセットの学習により生じるネットワークの出力の不安定性と予測不可能な食品の絡み合い、これら３つに対処する必要があります。高精度に把持量を推定するのが困難なため、目標把持量以上を把持して、余分な把持量を調整する戦略を我々はとります。これを実現するために、３つの方法を提案しています：1）pre-graspingによる絡まりの緩和、2）新しいグリッパの機構を用いたpost-graspingによる余分な把持量の調整、3）不確実性が低い、かつ、目標把持量以上を把持可能なところを把持位置として選択します。

図１：絡まりやすい食品の把持。食品同士が不規則に絡まり、グリッパからはみ出た状態で把持されるため、何グラム把持されるかの予測が困難です。

2. 提案手法

我々が提案するユーザーが指定した目標量の食品を把持する方法は、以下のステップで構成されています（図２参照）。
A) 把持量推定（Mass estimation）：グリッパの挿入深さに応じて、食品トレイ上のRGB-Dパッチに対して、把持量と不確実性の推定を行います。
B) 把持位置選択（Grasp point selection）：推定された推定把持量と不確実性から、目標把持質量よりも適度に多く把持でき、かつ不確実性が低い把持位置を選択します。
C) Pre-grasping：絡み合いの度合いを低減します。
D) Post-grasping：把持量が目標把持量よりも多い場合に、把持量を目標把持量になるように調整します。

図2：絡まりやすい食品の把持手法。

2.1 RGB-D画像からの推定把持量の推定

把持量推定ネットワークは、RGB-D画像の切り取られたパッチとグリッパの挿入深さに対して、把持される食品の把持量とその予測の不確かさを予測します。ここでいう不確かさとは、Aleatoric Uncertaintyと呼ばれるものになります。実際に把持した把持量とRGB-D画像とグリッパの挿入深さの入力に対して予測された推定把持量が異なる可能性のことです。図１で示すように、食品の絡まり方が不規則になっています。我々の先行研究（粒子状細片食品のPFN Tech Blog）では、もっぱら学習データが足りないことによる不確かさ（Epistemic Uncertainty）をも扱っていましたが、今回はAleatoric Uncertaintyを多分に含んだ不確かさになります。不確実性が低いとは、実際の把持結果がその予測と一致するということを示しています。理想的には、あるパッチで挿入深度を決定して、グリッパにそれを把持するように命令した場合、グリッパはネットワークによって予測された推定把持量通りの把持量を把持するはずです。
パッチ\(i\)に対する期待される把持量は、ネットワーク\(F(I_{img,i},I_{depth,i},I_{gripper,i};\xi)=O^{\prime}_{mass,i}\)によって推定されます。ここで、入力\(I_{img,i}\)と\(I_{depth,i}\)はそれぞれ\(i\)番目に切り出されたRGB画像と深度画像、\(I_{gripper,i}\)はグリッパの挿入深さです。\(i\)は食品トレイ内の把持点\((x, y, z)\)を表しています。なお、\(I_{img}\)と\(I_{depth}\)は\(z\)で一定であり、\(I_{gripper,i}\)は\(x\)と\(y\)で一定です。\(xi\)は最適化されるパラメータです。深度情報のパッチの中央値が0、パッチ内の他の点の高さがそれに相対するように、データ処理をしています。グリッパの挿入深さは、パッチの食品表面の高さの中央値からの相対的な深さとなります。なお、開閉幅は、パラメータとして与えることも可能ですが、パラメータの数が増えると、学習に必要なデータ量が増えてしまいます。食品では大規模なデータセットを集めるのは難しいので、ここでは固定値を使用しています。
この課題は、ネットワークの予測値と学習データとの平均二乗誤差（MSE）を最小化することで\(MSE(O_{mass,i}, O^{\prime}_{mass,i})\)を最適化するという、回帰問題として考えることができます。他の方法で一般的にして離散値にして多項分布としてsoftmaxで予測するアプローチがありますが、把持回数が少ないと分布に偏りがありスパースになってしまうため、本研究で使用することは難しいです。絡まりやすい食品の把持では、予測できない絡み合い、部分的な観測可能性、食材の構成や状態、センシングや制御の不確実性など、様々な要因によってノイズが多いため、Mixture Density Networks (MDN)を用いています。MDNは、予想される推定把持量を点で予測するのではなく、ガウス混合モデルと呼ばれる確率分布のクラスを出力しています*1。MDNの出力は下記で与えられます：

\(P(O^{\prime}_{mass,i}) = \sum_{k=1}^{K} \Pi_{k}(I_{i}) \phi\left(O^{\prime}_{mass,i}, \mu_{k}(I_{i}), \sigma_{k}(I_{i})\right)\)　　(1)

ここで、\(K\)は混合数を制御するハイパーパラメータ、\(\Pi_{k}\)はガウスの混合係数、\(phi\)は平均\(mu_{k}\)と標準偏差\(sigma_{k}\)でパラメータ化されたガウス関数で、いずれも入力\(I_{i}=(I_{img,i},I_{depth,i}, I_{gripper, i};\xi)\)に対するニューラルネットワークの出力です。
ニューラルネットワーク\(xi\)のパラメータを最適化するには、学習データが与えられたときの出力分布の負の対数尤度を次のように最小化します。

\(-log\left[\sum_{k=1}^{K} \Pi_{k}(I_{i}) \phi\left(O^{\prime}_{mass,i}, \mu_{k}(I_{i}), \sigma_{k}(I_{i})\right)\right]\)　　(2)

*1：本研究ではMDNを使用しましたが、不確実性を表現できるネットワークなら何でも良いです。ガウス混合分布をここで用いているのは多峰な分布を表現でき一般性があるためです．ただし今回のケースでは混合数K=2以上でも学習結果に違いがなかったので、K=1としています。

2.2 把持位置の選択

食品トレイから把持位置を選択する方法について説明します。把持量推定には、2.1章で説明した式(1)を使います。各把持候補点を中心としたパッチをRGB-Dデータから切り出し、グリッパの挿入深さとともに把持量推定モデルに入力します。しかし、絡み合った食品の推定把持量の予測には不確実性があります。そこで、必要な把持量以上を把持し、post-grasping動作で余分な把持量を調整する戦略をとっています。post-graspingでの調整の詳細は2.4章で説明します。把持量が目標把持量からより多く超えていると、把持量の調整に時間がかかります。そのため、把持量が多すぎず、かつ目標把持量を下回る確率が低い把持位置を選択することが望まれます。目標把持量よりどれだけ多くを把持するかを決定するためには、把持量推定モデルが出力する平均値と標準偏差の推定値を利用します（式（１）参照）。前述の要件を満たす把持点位置\(i=(x, y, z)\)を得るために、食品トレーの各パッチから推定された把持量の平均\(\mu_{i}\) と標準偏差\(\sigma_{i}\)、目標把持量\(M_{tm}\)と係数\(\alpha\)から、以下の制約付き最適化問題の解\(i=(x, y, z)\)を求めます：

\(argmin_{i} (| M_{tm} – \mu_{i} | + \sigma_{i}), \quad s.t. \quad M_{tm} + \alpha\sigma_{i} < \mu_{i}\)　　(3)

\(\alpha\)の大きさによって、ロボットが目標把持量よりもどれだけ多くを把持するかを決めます。推定把持量\(\mu_{i}\) が\(M_{tm}+\alpha\sigma\)以上となるような把持位置を設定することで、目標把持量以上の把持量が得られる可能性の高い把持位置を表現することができます。しかし、パラメータ\(\alpha\)を調整することで、目標とする把持量以上の把持ができる可能性は高くなりますが、把持量が増えるに従いpost-graspingによる把持量の調整に時間がかかるという、トレードオフの関係にあります。また、把持量の上限はグリッパの大きさに拘束されるため、\(\alpha\)が大きすぎると条件を満たす把持位置が存在しなくなります。標準偏差は、入力に対する予測の不確実性を表す指標となります。モデルが推定するこの値が大きければ大きいほど、不確実性は大きくなります。そのため、この式(3)を満たす把持位置を選択することで、目標把持量と推定把持量の差分が最も小さくなる可能性が高くなるように、不確実性が最も小さい把持位置を選択することになります。このように、不確実性を考慮することで、目標以上の量を把持できる可能性が高くなります。さらに、信頼度の高い把持候補が1つあればよいという原理により、我々の細片食品の先行研究で示したように、少量のデータセットでの学習にもかかわらず、ネットワークの値を信頼して把持することができます。

2.3 Pre-grasping

Pre-graspingの目的とその方法について説明します。pre-graspingの目的は、post-graspingの際に把持量を調整できるように、食品の絡みつき度合いを減らすことです。pre-grasppingは、データ収集時にランダムに選択される把持位置、あるいは推論時に把持位置選択によって選択された把持位置にある食品を対象に行われるものです。pre-graspingの動作は、食品を上方に持ち上げて離し、その後に同じ把持位置で再び食品を把持します（図3参照）。この一連の動作は、次のような効果を得ることを目的としています。1)食品を把持して持ち上げることで、食品の絡み合いを分離し、その度合いを減らすことができます（図1の右端と図3右上を参照）。2)食品を持ち上げて離すと、食品の高さはpre-grasping前よりも高くなります（図3の左下部分参照）。その結果、pre-grasping後は、グリッパエリア外にある食品が減り、グリッパエリア内にある食品が増えます（図3の右端上と下を参照）。pre-graspingを行わない場合、グリッパの指先の外側にある食品が絡み続けた状態で食品を把持することになります。そのため、post-graspingではグリッパの指先の外側にある食品が一塊となって落下してしまい、把持量の微調整ができません。この実験の結果は、4.3章で示します。

図3：Pre-graspingの概略

2.4 Post-grasping

新しいグリッパの機構と、把持量が目標把持量よりも多い場合に、目標把持量を実現するために把持量を調整する方法について説明します。post-graspingのフェーズでは、任意の目標把持質量を高い精度で実現することが求められています。対象となる商品は、絡まりやすい、くっつきやすい、塊にになりやすい、といった特性を有するものが多いため、把持量を調整する際に結果として少量ずつではなく塊となって落ちてしまうため、細かい把持量の調整が困難です。食品の絡まりをほぐしながら、少量づつグリッパから落とす必要があります。そのために、グリッパを上下に動作させることで食品を下方に押し出す新機構のグリッパ（図4(a)参照）と、グリッパ表面に棘を設けた機構（図4(b)、(c)参照）を開発しました。グリッパの表面が下方に向いた棘で覆われているため、グリッパの上下動に伴い、把持された食品は徐々に下方に押し下げられ、グリッパから落下します（図4(d)参照）。
グリッパのハードウェアについては以下の通りです。可動グリッパ（movable gripper）は、サーボモータA（Dynamixel XM430-W350-R）によってパラレルグリッパとして動作します。可動グリッパは、4本のフォーク形状で構成されており、サーボモータB（Dynamixel XM430-W210-R）により、ラック＆ピニオンを介して22.5mmの幅で上下に動きます（図4(a)参照）。図4(c)に示すように、可動グリッパには4本のフォーク形状、固定グリッパ（Fixed gripper）には5本のフォーク形状です。フォークは、対向するフォークの溝の中を移動します。そのため、post-graspingの動作で可動グリッパが上下に動いても、対向するフォークに棘が干渉せず、滑らかに可動することができます。
可動グリッパの上下動の速度が速いほど、単位時間当たりにグリッパから落下する食品の量が多くなるため、目標把持量の達成に要する時間が短くなります。しかし、落下する食品の量が多すぎて、目標とする把持量からの許容偏差を下回ってしまう可能性があります。そのため、目標把持量と現在の把持量に応じて動作速度を調整しています。グリッパの最小速度と最大速度を設定し、目標把持量と現在の把持量の間でグリッパの現在の速度を制御しながら直線的に速度を下げています。把持量は、計量計の値を常時計測しています。

図4：Post-graspingグリッパとその動作概要

3. データセットの作成

本実験で使用した環境について説明します。ロボットには7自由度アームのSawyerに提案したpost-graspingグリッパをとりつけたものを使用しました（図5）。天井にはDepthセンサとRGBカメラを設置しており、食品トレー内の食品の情報を取得できます。XY軸方向に対して、1ピクセル1mmくらい、深さ方向に対しては1mmくらいの精度があります。食品トレーの下には計量計を設置しており、どれだけの量を把持したかを0.1gの分解能で計測できます。
今回の実験での把持位置の高さは、把持点中心における食品の表面から、3つの深さで学習を行い、5〜9つの深さで推論をさせています。推論時の深さのパラメータ数も増やすことでより目標把持量に近い把持を実現できるかもしれませんが、推論にかかる時間が伸びるため、今回はこの設定で行っています。このシステムでは、1回のpick&placeの時間は11-13秒で、食品工場で求められる最低限の速さになります。ロボットの動作や、よりよいロボットを使用することで、この時間をさらに短くすることは可能です。
今回の実験では、形状、柔らかさ、摩擦、密度などが異なる2つの疑似食品（(a)シリコン製の千切りキャベツ、(b)輪ゴム）と4つの実際の食品（(c)千切りキャベツ、(d)青ネギ、(e)モヤシ、(f)乾燥塩昆布）を扱っています（図6参照）。それぞれの食品に対して200回把持を行い、150回を学習データ、50回をテストデータとしています。食品トレーから把持点を中心に160×160ピクセルの画像を切り取り、そこからランダムに150×150ピクセルを切り取った画像を学習データとして使っています。画像の撮影はpre-grasping前に行われています。そのため、把持量推定ネットワークは、pre-grasping+把持動作をしたあとの把持量がどうなるかを学習しています。図7に示す把持量推定ネットワークで学習させました。学習時間は3-15分くらいです。

図5：実験環境とRGB-Dカメラで撮影された画像。

図6：実験に用いた疑似食品と実際の食品。全ての食品は10gのときの画像です。
図7：把持量推定のネットワーク構造。

4. 評価実験

評価実験の各章では、それぞれの手法（把持量推定（4.1章）、把持位置選択（4.2章）、pre-grasping（4.3章）、post-grasping（4.4章））について評価していきます。そして最後に全ての手法を組み合わせたときの評価を4.5章で行います。

4.1 評価実験：データ収集のためのランダム把持

図8は、学習データに用いた150回の把持を行った際の各食品の把持量のヒストグラムです。食品の表面には凹凸があり、食品同士が不規則に絡み合っているため、3つの把持高さでのみ把持したにもかかわらず、食品の分布の分散が大きくなっています。また、食品のヒストグラムには、3つの把持高さに対応する複数のモードが明確に現れているものもあります。これらのことから、単純に挿入深さを調整することで特定の目標量を把握しようとするヒューリスティクスでは、不正確でばらつきの大きい結果になってしまうと考えられます。

図8：150回把持させたときのヒストグラム。X軸は把持量で、Y軸は把持量に対応した頻度。

4.2 評価実験：把持位置の選択（目標把持量以上の把持の実現）

絡まりやすい食品に対して把持位置選択を用いて、目標把持量-2gよりも適度に多く把持する手法を検証します。検証のために、把持位置選択において、式(3)で\(\alpha=0\)とした場合、すなわち、目標把持量と同じ把持量を把持させる場合と、式(3)で\(\alpha=1\)とした場合、すなわち、目標把持質量以上とした場合を比較します。目標把持量は、学習データセットとして用いた150個の把持データから、\(10^{th}\)パーセンタイル、\(50^{th}\)パーセンタイル、\(70^{th}\)パーセンタイルに相当する3つの値を、食品ごとに選択しました。目標とする把持量が\(10^{th}\)パーセンタイルよりも小さい場合、把持量が小さすぎて適切に把持できないケースがあります。\(70^{th}\)パーセンタイル以上の場合は、大量の食品を把持する必要があり、条件を満たす把持点が見つからない可能性が高いです。疑似キャベツと輪ゴムを100回把持したときの目標把持量-2g以上となったときの把持回数を評価します。100回の把持における成功率の平均値と標準偏差をブートストラップ法により算出しました。その結果を表1に示します。
疑似キャベツと輪ゴムのすべての把持量について、\(α=1\)とすることで、目標把持量-2g以上の把持の可能性が高まることが分かります。なお、目標把持量以上になる割合は必ずしも100％である必要はありません。食品工場などでは、把持した把持量が目標把持量に満たない場合には、再度把持するという選択肢があります。post-graspingの所要時間、再把持の所要時間、再把持率を比較して、システム全体の最適な\(α\)を決定する必要があります。

表1: 目標把持量-2g以上を把持できた割合。各食品の目標把持量を学習データセットのパーセンタイルで表示しており、対応する重さは食品ラベルの下に記載しています。

4.3 評価実験：Pre-grasping & Post-grasping

pre-graspingを使う場合と使わない場合でランダムな把持位置で把持を行い、その把持量から3g、4g、5g、10g、15gをpost-graspingで落とすことで、pre-graspingの効果を調べます。把持した把持量が目標とするpost-grasping量＋5g以下の場合は再把持を行います。評価は、目標とするpost-grasping量\(\pm\)2g以内に収まった把持の割合で行います。目標量を\(\pm\)2gとしたのは、その精度がシステムの外的要因によって制限されるためです。ここでは、絡みやすい疑似キャベツと、絡みにくい輪ゴムで評価します。それぞれ100回の試行を行い、ブートストラップ法により成功率の平均値と標準偏差を算出しました。その結果を表2にまとめました。
pre-graspingを行うことで、post-graspingのすべての量の精度が向上することがわかります。また、絡み具合が少ない輪ゴムの精度は、絡みやすいキャベツの精度よりも高く、絡みやすさがpost-graspingの精度に影響していることがわかります。しかし、その精度の違いは、pre-grasping後にはpost-graspingの量には依存していません。つまり、把持位置選択の際に、式(3)の\(α\)の値を大きくしてpost-graspingを増やしても、目標とする把持量を達成するための精度には影響しないということです。

表2：Pre-graspingの有無のとき、post-graspingを行って目標把持量\(\pm\)2gの割合。

4.4 評価実験：Post-grasping gripperの棘の役割

post-graspingのグリッパの棘の効果を検証します。4.3章では、post-graspingの量による違いが精度に影響を与えないことを示しました。そこで、pre-graspingで食品をランダムに把持した後、棘がある場合とない場合のpost-graspingグリッパで、10gの量をpost-graspingを行わせました。把持量が15g以下の場合は、再把持を行います。疑似キャベツと輪ゴムを100回把持したときに、目標把持量\(\pm\)2g、\(\pm\)3g、\(\pm\)4g、\(\pm\)5g以内に収まった把持の割合を評価します。また、100個の把持の成功率の平均値と標準偏差をブートストラップ法で算出しました。その結果を表3に示します。
疑似キャベツも輪ゴムも、棘があることで正確なpost-graspingができることがわかります。疑似キャベツは、\(\pm\)5gでも100%成功しないため、絡まりの激しい食品では、制御できずに塊となって落ちてしまいます。一方棘がないと精度が極端に悪くなります。棘がない場合は、食品が塊となって落下し、最悪の場合はすべての食品が一度に落下してしまう傾向があります。このことから、棘があることで、post-graspingでは、食品をほぐしながら少量づつ落とせることがわかります。

表3：棘の有無のときの成功率。把持した量から10gをpost-graspingする。

4.5 評価実験：提案手法

提案手法を全て用いたときの評価を行います。ベースラインは、pre-grasping有り＆post-grasping無し＆把持位置選択では式(3)の\(\alpha=0\)で把持を行った場合です。疑似食品として、疑似キャベツと輪ゴムを使用しています。さらに、本物の千切りキャベツ、青ネギ、モヤシ、塩昆布を使用しています（図6参照）。目標とする把持量は、学習データセットとして収集した150個のデータセットの把持量のうち、\(10^{th}\)、\(50^{th}\)、\(70^{th}\)パーセンタイルとします（具体的な値は表4を参照）。評価では、疑似食品は100回、本物の食品で50回の把持を行います。提案手法を用いるとき、目標とする把持量-2g以上の把持を行えなかった場合は再把持を行います。再把持率は、食品ラベルの下に記載されている目標把持量ごとに示しています（表4参照）。把持された把持量が目標把持量\(\pm\)2g、\(\pm\)3g、\(\pm\)4g以内の場合の成功率を調べます。ベースラインも同様に、疑似食品では100回、本物の食品では50回の把持を行いました。各食品の成功率の平均値と標準偏差は、疑似食品では100回、実際の食品では50回の把持でブートストラップ法で算出しました。実際の食品は、実験中に把持、温度、水分の減少などにより劣化し、状態が変化するため、把持回数は50回に制限しています。結果を表4に示します。
提案手法はすべての実験でベースラインを大幅に上回っていることがわかります。また、提案手法の精度は、\(\pm\)2g以内で88%と非常に高く、その有効性が証明されています。さらに、提案手法は、目標把持量に依らずに同じ精度を持つことがわかります。また、容器内の食品の量を徐々に減らしていっても、システムは機能します（動画参照）。post-graspingの所要時間は2〜10秒程度です。疑似キャベツと本物のキャベツのように絡みやすい食品の場合、再把持の割合が高くなる傾向があります。実際に使う場合、把持位置選択の際に、post-graspingの時間、再把持に要する時間、再把持の割合などを考慮して、式(3)の\(\alpha\)の値を調整する必要があります。また、時間と精度の要求に応じて、精度を落としてでもピック＆プレースの時間を短縮したい場合には、pre-graspingとpost-graspingを省略することができます。また、今回は精度の高い高価な深度センサを使用しましたが、把持量推定の精度低下を補うために、\(\alpha\)の大きさを大きくすることで、精度は低いが安価な深度センサを使用することも可能だと考えています。

表4：提案手法を用いたときのそれぞれの食品の成功率。太字の数字は、ベースラインよりも成功率が高いことを示しています。ベースラインは、post-graspingを行わない方法、かつ、pre-graspingを使って、把持位置選択の式(3)で\(α=0\)としたものです。各食品の目標把持量は学習データのパーセンタイルで表示はされており、対応する重さは食品名の横に記載されています。

5. まとめ

本論文では、絡みやすい食品の目標量を把握するための3つの方法を提案しました。
1)不確実性を考慮して、目標量以上を把持
2)食物の絡み具合を減らすためのpre-grasping
3)把持した把持量が目標把持量以上になったときに把持量を調整するpost-grasping
3つの手法は、それぞれ疑似食品を用いて評価することで精度が大幅に向上することを確認しました。さらに、3つの手法を組み合わせて、疑似食品と実物の食品で評価しました。
単純に把持量を予測しただけではほとんどの食品の成功率は50％に達しません。一方、提案手法は、評価した食品に対して、88%以上の精度を達成しています。

6. よく聞かれる質問集

Q1. Post-graspingを行って食品は傷まないのか？
A1. グリッパにトルク上限を設定することで、食品にかかる負荷を減らしてるので傷みにくいです。

Q2. Pick & placeの時間はもっと早くならないのか？
A2. 現在の精度を維持したままでも、ロボットの動作を最適化したり、速度を上げることでまだ早くなる余地が十分にあります。また、今回使っているSawyerでは速度は上げにくいですが、他のロボットを使うことでさらに速度を上げることも可能です。

Q3. RGBを使っているので、食品工場の環境光は精度に影響を与えないか？
A3. 論文ではRGB-Dを使っていましたが、さらなる改良でRGBを使わずに深度カメラだけでも同等の精度が出るようになりました。そのため、環境光による影響がほぼなくなりました。これにより、食品工場Aで学習したモデルを、食品工場Bでも流用しやすくなりました。

Q4.食品はグリッパにくっつかないか？
A4. 論文投稿後に研究開発を行い、グリッパから食品を剥がせる機構が現在のシステムについています。

Area

Robotics