Blog
PFNでヒューマン・コンピュータ・インタラクション(HCI)を研究するリサーチャーのファブリスです。
現在ディープ・ニューラル・ネットワーク(DNN)を基にした自動化システムは急速に進化していますが、その過程に伴う人的要因を軽視しない「Human in the loop(人間参加型)」と呼ばれる考え方が重要です。この点において、HCI研究のコミュニティは、今までにないユーザー中心のアプリケーションを作るツールとして機械学習の応用技術を活用するだけでなく、この複雑なツールの導入・使用・管理を促進する手法を提供するという点で貢献できる良い状況にあります。また、情報可視化(InfoVis)コミュニティが、DNNの内部構造を理解する上で役立つユーザー・インターフェースや可視化手法を提案し、DNNのブラックボックス解明に光明が見え始めています。PFNでは、最新のHCIならびにInfoVis/Visual Analytics(視覚分析)分野の研究を常に追い求めるだけでなく、これらの分野において実際に貢献する事を目指しています。
PacificVis
アジア太平洋地域の第11回IEEE可視化シンポジウム (PacificVis 2018)が4月に神戸で開催され、PFNはスポンサーとして参加しました。初日には清華大学のShixia Liu教授が「Explainable Machine Learning(説明可能な機械学習)」と題した基調講演を行った他、IEEE VIS’17での最優秀論文がTensorFlow向け視覚解析システムに関する論文であったのに続き、今回も「GANViz: A Visual Analytics Approach to Understand the Adversarial Game」が最優秀論文賞に選ばれるなど、特に機械学習分野の成果が際立つシンポジウムとなりましたが、いずれも説明可能なモデルやインターフェースに基づく機械学習技術を作り出すという試み「Explainable Artificial Intelligence (XAI: 説明可能な人工知能)」と密接に関連しています。これは、自動化されたシステムが、ある特定の判断や結論に至った経緯や根拠を理解・解釈しようとする取り組みですが、これらのアルゴリズムやツールが果たしてEUの新たな一般データ保護規則(GDPR)における「説明を求める権利」に対応するに十分であるかは今後の課題です。
CHI
ACM Conference on Human Factors in Computing Systems (CHI) はヒューマン・コンピュータ・インタラクション分野における世界最高峰の国際会議です。今年はカナダのモントリオールで開催され、参加者は3300名を超えました。同国のジャスティン・トルドー首相も書簡で歓迎の意を表しています 。
HCI研究における機械学習の代表的な適用法として、複雑なセンサーデータからパターンを検出あるいは認識する事が挙げられます。これにより、未処理のタッチデータから手の平の接触を検知し、ペン先動作と書く音を利用して手書き文字を認識するなどの斬新なインタラクション技術を実現しています。深層学習のフレームワークが 広く利用可能になり、HCIのリサーチャーはこの様な新たなツールを組み合わせる事で、既存技術の認識性能を向上させたり、全く新たな技術を生み出したりしています。これらは既存の手法では非効率であったり、実現すること自体が困難でした。後者の良い例として、生成ネットが可能にしたシステムがあります。DeepWritingはタイプセットされたテキストから筆跡を作成する深層生成モデルで、書体を真似たり美化したりできます。IllumiRoom, から発想を得たExtVisionは、実際のコンテンツを使わずに、conditional adversarial nets (条件付き敵対的ネット)で周辺画像を自動生成します。
Aksan, E., Pece, F. and Hilliges, O. DeepWriting: Making Digital Ink Editable via Deep Generative Modeling. Code made available on Github.
HCI研究における機械学習の上記以外の応用分野としては、インタラクション予測と感情推測への応用が増えています。前者のインタラクション予測においては、DNNがどのようにして 垂直メニューの選択を使うインタラクション作業のヒューマン・パフォーマンスを予測できるのかについて、Li氏、Bengio (Samy)氏、Bailly氏が行った研究があります。感情と状態の認識については、MITの Lex Fridman 氏による入門講座 Deep learning for understanding the human(人間への理解を深める深層学習)に加えて、 動画の中の瞳孔の動き と EEG(脳波信号) から認知負荷を推定する研究論文がそれぞれ発表されました。センサー付きのモバイル機器やウェアラブル機器が普及し続ける中で、人間をよりよく理解し、人間の動きを予測する「スマートな」システムが、良くも悪くも、今後次々に登場するでしょう。
CHIで は可視化関連の発表も多く、今年も例外ではありませんでした。特に、ビッグデータとDNNの理解に向けた視覚解析に関連が深かったのは、Cavallo氏 とDemiralp氏の研究でした。彼らは、高次元データの探査分析を向上させるヴィジュアル・インタラクション・フレームワークを作り出していますが、減次元グラフを探索し縮小データを修正する事が初期データセットにどのような影響を及ぼすかを観測できるツールを利用しています。MNIST および QuickDraw上で自動符号化器を利用する事例が特に興味深く、ユーザーが入力画像サンプルに直接描いて結果がどのように変わることを確認できます。
Cavallo M, Demiralp Ç. A Visual Interaction Framework for Dimensionality Reduction Based Data Exploration.
また、DuetDrawについても忘れずに触れておきたいと思います。これは、ユーザーとAIの共同作業を可能にするプロトタイプで、PFNのPaintsChainerを使って絵を描きます!
Multiray: Multi-Finger Raycasting for Large Displays
今年のCHIで発表した私自身の研究は機械学習関連ではなく、指から発射する複数の光線を利用して、離れた画面表示とインタラクションするというものでした。これはウォータールー大学在籍時に行ったDan Vogel氏との共同研究ですが、この度Honourable Mentionとして褒状をいただきました。この研究では、指一本のレイキャスティングを複数の指を使った多重光線へと高度化するという発想に基づき、スクリーン上に投影された点を指で操り様々な幾何学形状を形成する事で、インタラクションのボキャブラリを増やしています。
Matulic F, Vogel D. Multiray: Multi-Finger Raycasting for Large Displays
考察
今のところ、DNNのブラックボックスを開けて解明しようという取り組みは、可視化コミュニティにおいて最も盛んに行われていますが、これまで提案された多くのツールは可視化にフォーカスし、インタラクティブ性が限定的となっています。とりわけ入出力データを微調整して、これが中間層のニューロンにどのような作用を及ぼすかを理解するという点において乏しいです。そこでDNNの動的解析を支援するツールを作成し、モデルに対してインタラクティブな調整を施すことができるHCIリサーチャーの出番になります。さらに、機械学習の一連の処理において、データのラベル付け、モデル選択・統合、データの拡大・生成といった人間が関与するプロセスの改善にはHCIからのアプローチも必要です。このような側面を考慮した研究成果が今後CHIやHCIの関連学会でより多く公開される事が期待されます。