Menu

観えないものを推し測る技術

Mentor had said that, given any one definite fact, a really competent mind could envisage the entire Universe;
メンター曰く、「ある一つの決定的な事実が与えられたならば、ほんとうに有能な心は全宇宙を描くことが出来る」 出典:”Gray Lensman” by E.E. Smith

はじめに

データマイニングや分析のために集めたデータはその総量が不十分であったり、一部が欠損していたりすることがあります。
一方、人間の知性および技術には限界があるので、一片のピースからパズル全体を想像するようなことは不可能で、せいぜいその逆、既に埋められた大量のピースに囲まれた”The Missing Piece”を推測することができるにすぎません。
とはいえ、このための技術は有用であるし、驚くほど様々な応用につながっています。 

データの欠損(欠測)とは

データが欠損する、つまりデータが「無い」という場合、以下のようなケースが考えられます。

  • データ以前にそのような事実は存在しない(車を持っていない人に車種を尋ねることはできない)
  • 調査や記録が行われなかった(去年は調査したが今年は調査していない)
  • 意図的にデータを隠した(太っているので体重を答えるのは恥ずかしい)
  • 記録されたデータが失われた(紛失やミスによる上書き)

統計的には、上記のような個別事情ごとに考えるのではなく、「たまたま」欠損したのかそうでないのかということに注目し、それによって対応の難易度が変わってくるとされています。

たまたまあるデータが欠損しているだけであれば、単にそうしたデータを行単位で削除してしまうのが一番簡単なやり方です。

ところが、削除してしまうとデータが少なくなるので、欠損を含むデータであってもできるだけ活用したいという場合もあります。そして、欠損がたまたまではない、ある法則・パターンを伴って発生している場合には、残ったデータが偏ってしまう、その結果分析結果にも影響が出るという問題があります。

このような事情から、欠損していないデータから欠損したデータを推測したいというニーズが生まれます。実際いくつかの手法があって、推測は可能とされています[1]

ところで、欠損のことを専門用語では「欠測」と呼ぶようです。データは「無い」のではなく「観測されていない」のだと考えるということです。そして、この考えを大胆に推し進めると様々な問題に応用できることも分かっています[2]

潜在変数の推測

一つ目の例は、潜在変数の推測です。

観測されたデータがその裏にある原因ともいうべき潜在的な変数に影響を受けていると仮定します。この変数は仮想的なもので当然ながら観測できませんが、これを欠測していると考えるのです。

マーケティング的には潜在変数の推測は、購買傾向の近しい消費者をセグメントすることに用いることができます(潜在クラス分析[3])。これにより、新規顧客であっても似たような性質を持つ他の顧客の購買行動をもって将来を類推することができるようになります。

050_nishio_05_2

反実仮想モデリング

二つ目は、ランダム化実験が困難な社会学や医療などの領域で、因果関係を推測するために用いられる考え方です[4]

ある治療に効果があるかどうかは、ある人の「治療を受けた結果」と「治療を受けていない結果」を比較すれば分かりますが、同じ人が治療を受けるか/受けないかは2者択一であって、タイムマシンでもなければ単純に比較することは不可能です。

そこで、治療を受けた人に対して治療を受けなかった時の結果、および治療を受けなかった人に対して治療を受けた時の結果が欠測しているのだと考えます。現実とは異なる結果を仮定するので反実仮想、反事実的(counterfactual)と呼ばれます。SFっぽくてワクワクしますね。

050_nishio_05_3画像引用:http://www.slideshare.net/takehikoihayashi/propensity-score-analysis-seminar-japanese
(スライド40)

データ融合

最後は、マルチソースデータからシングルソースデータを得るためのデータ融合と呼ばれる技術です。

シングルソースデータのありがたさは前回少しお話ししました。データ融合は全く異なるデータ同士を、しかしその両者に共通する変数(共変量)をのりしろにしてつなげるというものです。

以下の図を見ると、この時のデータの取り扱い方は先ほどの反実仮想モデリングと似ていることがよく分かります。

050_nishio_05_4画像引用:http://www.exrespo.provost.nagoya-u.ac.jp/research/dat/016hoshino.html (図1)

なお、我々が目指す社会知ネットワーク[5]は、この考え方に沿って多様なデータを統合できるようにすることを目的の一つとしています。

おわりに

この話題は、私にとってまだまだ勉強中であり、誤りを含む可能性があります。十分理解できていないままご紹介することにはためらいがあったのですが、技術の可能性と面白さをお伝えしたく記事にしました。

詳しくは参考文献や参考リンクをご覧下さい。我々自身の取り組みについては、いつかご紹介できる日が来ると思います。ご期待下さい。

参考文献、参考リンク

[1] ~シリーズ前処理2013~欠測への対応 ; @dichika
[2] 調査観察データの統計科学―因果推論・選択バイアス・データ融合; 星野 崇宏
[3] マーケティング・サイエンス入門―市場対応の科学的マネジメント;古川 一郎,守口 剛,阿部 誠
[4] [統計]統計的因果推論(傾向スコア)の勉強会資料をアプしてみた ; Take a Risk: 林岳彦の研究メモ
[5] 私たちは、何を社会に還元するのか? ;マーケティング・コミュニケーションblog

※記載されている内容は掲載当時のものであり、一部現状とは内容が異なる場合があります。ご了承ください。

PageTop
PageTop