仮想人体生成モデル

Area

Bioinformatics / Healthcare

Hiroshi Maruyama

PFN Fellow

PFNフェローの丸山です。本日、PFNと花王が「仮想人体生成モデル」についての技術発表をしました。私はその構想に深く関わっていたので、その背景や経緯について、お話ししたいと思います。

花王への出向

新型コロナウィルスによってリモートワークになってからおよそ半年後の2020年8月、花王の長谷部さんから「PFNからDX人材を出してほしい」というリクエストがありました。当時専務執行役員だった長谷部さんは、2021年1月からの社長執行役員就任が決まっていて、ヘルスケアの分野でデジタル技術に基づくまったく新しいビジネスプラットフォーム・ビジネスをやりたい、ということでした。ちょうど私はプロジェクトの端境期にいたので「私が行きましょう」と手を挙げました。その後人事の手続き等があり、実際に花王の社員証をもらって働きはじめたのは、2020年の11月のことです。

通い始めてすぐに気づいたのは、花王は約3,000名の研究員を擁する、技術の会社であることでした。技術といっても、私のよく知っている情報分野ではなく、化学工学や生物学の分野です。特に、洗剤や化粧品など、人の身体に直接触れる化学製品を幅広く研究開発しているために、人体を様々な角度から計測し、様々な刺激に対する反応を観察するための多くの知見を持つことに驚きました。同時に、大企業にありがちなことですが、最先端の研究開発成果が、会社の期待する大きなビジネスにつなげることは難しい、という現実も見ることができました。

そうこうするうちに、「ひょっとすると、これはAPIビジネスの大きなチャンスかもしれない」という思いが浮かんできました。ヘルスケアの分野は、非常に大きな成長が見込まれていますが、実際に事業を成功させるのは容易なことではありません。１つの理由は、いかに個別の技術が優れていたとしても、実際のソリューションを開発するためには、その他の様々な技術との組み合わせが必要であることです。もう１つは、ヘルスケアの領域は健康に関わるだけに、当局の規制が非常に厳しく、参入障壁が極めて高いことでした。これら２つの問題を解決できれば、新たなAPIビジネスが可能かもしれません。

さらに、花王が知見を持つ分野は、健康であればよいという単なる「ヘルスケア」を超えて、清潔や快適など生活分野を含めた「ライフケア」（花王のいう「Kirei Lifestyle」）であることも、非常にユニークなAPIビジネス基盤の構築に結びつくと思いました。

人のカラダの不思議

ライフケアのためのAPIビジネス基盤を実現するためには、人の身体の状態を把握しなければなりません。人の身体は、様々な観点で観測できます。身長や体重などの身体計測は、第一に思い浮かぶものでしょう。スマートウォッチなどの普及によって、脈拍や血圧など、いわゆるバイタルサインの計測も簡単にできるようになってきました。ただ、これらの計測だけでは身体の中で起きている様々な事象、たとえば疾病の有無などは、なかなか推測することが難しいでしょう。多くの人々は、毎年健康診断を受けます。そこでは、血液検査や胸部X検査など、より多くの項目の計測をします。これらの計測値は、コレステロール値の高い人には食生活の改善を促すなど、生活習慣病の予防指導に使われます。

花王は皮脂RNAモニタリングという、ユニークな解析技術を持っています。これは、ヒトの様々なRNAの発現量を、あぶらとりフィルムで皮膚の表面から皮脂を採取するという、非侵襲的な手法で調べる技術です。1万種を超えるRNAの発現量を分析することにより、身体の中で起きている様々な状態を知ることができると期待されています。

より多くの指標を計測すれば、身体の状態をよりよく把握できると言えるでしょう。では、どれだけの計測をすれば、身体の状態が完全にわかったと言えるのでしょうか。残念ながら、そのような理解に到達するのは（少なくとも今の技術レベルでは）無理そうです。理由の１つは、私たちが計測しているのは、あくまでもヒトの身体の外部から観測できることだけで、身体の中で起きていることを直接計測しているわけではないことです。外部から見える指標だけを使って疾病の有無を推測ができたとしても、多くの場合侵襲性の検査によらなければ確定診断を下すのは難しいでしょう。

加えて、生物学者の福岡伸一先生がその著書「世界は分けてもわからない」で述べているように、生物には工学的な人工物（機械など）とは違い、要素還元論的には動かない、という面白い性質があります。工学的な人工物には、それを構成する部品の１つ１つに設計者の明確な意図があります。一方、生物を構成する細胞やDNAなどの構成要素には、明らかな機能がわからないものが少なくありません。また、機能がわかったとしても、複数の機能に同時に関係していて「この機能が不調だからこの部品を取り替えよう」などという工学的なアプローチはうまく働かないようです。

外から観測するだけでは内部の働きがわからない、なおかつ、多数の構成要素が多数の機能と複雑に絡み合っているヒトの身体の状態を把握するにはどうしたらよいでしょうか。それには、できるだけ多くの観測可能な指標を使って、全体としてのパターンで近似するしかないように思うのです。

同時確率分布再考

ヒトの身体の状態をパターンとして近似するにはどうしたらよいでしょうか。人類文明が持っている科学・工学の道具立てのうち、もっとも有望そうなのは統計モデリングと呼ばれる手法です。統計モデリングは、観測されたデータから、そのデータを生成する仕組みを確率分布の形で推定します。データを生成する仕組みと言ってもめちゃくちゃシンプルで、観測できる変数（計測値）の間に、あるパターンが現れやすいか現れにくいかを表現するだけです。ヒトの身体で言えば、年齢が高いことと血圧が高いことは同時に観測されやすい（血圧が高い人は年齢が高い傾向にある）、といったようなパターンです。そこには「年齢が高くなると血管の柔軟性が失われるために血圧が高くなりやすい」などという因果関係に関する情報は含まれません。あくまでも、年齢が高いという観測と血圧が高いという観測には正の相関がある、ということだけです。

それでも、統計モデリングは人間社会において、複雑な現象に対する非常に強力なツールの１つと考えられています。現在人工知能研究の最先端と目されている機械学習や、その１つのテクニックである深層学習は、まさにこの統計モデリングを行う手法なのです。

統計モデリングでは、複雑な対象に対して、外部から計測できる変数間のパターンを確率として表現します。もう少し統計の言葉を使えば、同時確率と言われるものです。同時確率という考え方は新しいものではありません。皆様は「赤玉2個と白玉2個が入っている袋から、2回続けて玉を引いた時に、両方とも赤玉である確率はいくらか」などの問題を解いたことがあるかもしれません。「両方とも赤玉」という事象は、２つの変数（１回目の色と２回めの色）に関するパターンであり、その確率を求めることは、統計モデリングそのものです。このような同時確率の概念は、20世紀初めに現代的な統計理論が打ち立てられるはるか昔から考えられてきました。

ただし、同時確率は変数の数が３つ、４つと多くなるにつれて、直感的な把握が急速に難しくなっていきます。特に、変数が血圧や血糖値のように連続数値で表されるような観測値については、３変数以上の同時確率分布を直感的に表現するのはほぼ不可能です。そのためかどうかわかりませんが、同時確率分布という概念はよく知られていたにも関わらず、多変数の同時確率分布が実際の統計モデリングに使われることは、特別な場合を除きほとんどありませんでした。

その状況を一変させたのが、コンピュータの発展と、それが可能にした深層学習です。深層学習は、コンピュータの計算パワーを使って（ある意味力ずくで）統計モデリングを行います。よく知られている画像認識では、入力画像の各ピクセルの輝度を観測変数と捉えます。画像が100ピクセルｘ100ピクセルの解像度ならば、それだけで10,000個の変数があることになります（白黒の場合）。

特に私が注目したのは、いわゆる生成モデルと呼ばれる手法で、これは訓練データセットがどのような同時確率分布から生成されたか、その分布を推定するものです。すなわち、統計モデリングそのものなのです。

この生成モデルを、人体の様々な計測値に適用したらどうなるでしょうか。生成モデルは同時確率分布ですから、条件付き確率を求めることができます。もし、健康診断の結果と、各種の生活習慣の指標が１つの同時確率分布に入っていれば、ある健診結果（例えば血糖値がXX以上）が得られたという条件の下で、その人がどのような生活習慣をもっていそうか、という確率分布を求めることができます。逆に、ある生活習慣をもつという条件の下で、その人がどのような健診結果でありそうかという確率分布を求めることもできます。すなわち、同時確率分布は、入出力を固定しない推論システムとして利用することができるのです。

今回私たちが作った仮想人体生成モデルは、このような生成モデル、すなわち同時確率分布です。このモデルには、現時点で500項目ほどの変数が入っています。現在集計中の横断試験の結果が出揃えば、項目数（変数の数）は1,600以上に増える予定です。この1,600次元の巨大な空間の中の１つの点が、ある人のある時点の身体の状態を近似している、と考えるのです。実際には、実測値がすべての変数について同時に得られることはないでしょうから、ある人の状態は、広がりを持った確率分布として表現されることになります。

このような人体に関する生成モデルができれば、ヘルスケア・ライフケアに関する様々な計測値の間の関連付けを行うことができます。すなわち、多様な計測・介入技術を結びつけて、より身体の状態を詳細に把握し、またそれに合わせた適切なケアにつなげていくことができると思うのです。

フラットな世界へ

この仮想人体生成モデルは、花王が構想するAPIビジネス基盤における１つの重要な技術になります。私たちが目指しているのは、それぞれ個別のニーズを持った人たちに対して、それに合わせた個別のソリューションが提供されている世界です。ライフケアのニーズは人それぞれです。１つのソリューションがすべての人に役立つとは到底思えません。だとしたら、1,000万人を対象とした1つの共通サービスを提供するのではなく、1,000万人が1万種の異なるニーズを持つとすれば、それらのニーズに合わせた1万のサービスが生まれる世界を作るべきです（それぞれのサービスは平均1,000人のユーザーしかいないかもしれませんが）。そのためには、それぞれ個別のニーズを知っている人が、簡単に既存の部品を組み合わせてイノベーションを起こせる仕組みが必要です。私たちはこのような世界を、ライフケアの民主化と呼んでいます。

ライフケアの民主化はどのように生まれるのでしょうか。私には、パーソナル・コンピュータの歴史が参考になると思えます。コンピュータといえばグラスハウス（ガラス窓に囲われた大きな部屋）に設置された大型のメインフレーム、という時代に作られたIBM PCは、IntelのプロセッサやMicrosoftのOSのような既存の技術を部品として組み合わせることで生まれました。IBM PC成功の鍵の１つは、ISA（インダストリ・スタンダード・アーキテクチャ）バスと呼ばれた、部品を結びつける共通規格でした。この規格に基づいて、多くのスタートアップ企業がサウンドカード、グラフィックスカードなどを世に送り出し、その結果高性能なPCが安価に人々に届くようになり、多くのイノベーションを起こしたのは皆様もご存知の通りです。すなわち、ISAバスは、部品をつなぐ「糊」の役割をし、それがコンピューティングの民主化を招いたのです。

私の夢は、仮想人体生成モデルが同様に、ライフケアにおける糊の役割を果たすことです。もちろん、そのためには1,600ほどの項目ではまったく足りないでしょう。これから、多くのパートナーと項目を増やしていき、より的確に人体状況を近似するモデルにしていくことができると思うのです。

Area

Bioinformatics / Healthcare