数年前の事。
俺はとある企業でとある研究チームの一員だった。
といっても白衣を着て薬品を扱うような研究職じゃない。
俺達がやってたのは「カメラの顔認識システムとその応用」の研究。
1台のメインコンピュータにアプリケーションを入れてそこに各地の防犯カメラの映像を送ると、顔を認識して「ID:0001はX→Y→Zを通った」ってログを勝手にどんどん作成してくれる、みたいな。
ただ、そんなのは当時でも結構ありふれてたから、そのベースとなる顔認識アプリケーションにじゃんじゃん機能を加えていくことになった。
数撃ちゃ当たるって奴だな。
最初に取り組んだのは「年齢推定」の実装だった。
聞いたことあるんじゃないかな。
メカニズムとしては天気予報と同じで、予め顔と年齢をセットで数千通り読み込ませておいて、カメラが顔を認識したらその「正解リスト」を基に予想値をはじき出すって感じ。
シンプルな方法の割には精度が高くて、試験段階でも4割くらいはピッタリ当てて、後は誤差プラマイ8歳程度。
結構面白かった。
でもまあ「年齢推定」なんてのも色んなとこが挑戦してて、もっと独特なモノを実装せねば、と奮闘していた。
幸い俺達の手元には大量の顔写真&個人情報サンプルがあったので色々と試すことが出来た。
名前、学歴、出身地・・・などなど。
流石に名前予測は無理だった。
ああいう離散的な物はコンピュータには理解できない。
だが驚くことに、学歴推定(中卒・高卒・大学卒・一流大卒の4パターンだったが)は6割近い正答率を誇った。
また出身地も、北海道から沖縄までの連続的な値としてコンピュータに認識させると(都道府県レベルで)10%近い正答率だった。
「なんだ10%か」と思うなかれ、これは結構衝撃的だった。
年齢の推定は人間でもおおよそアタリは付けられるが、出身地の推定を10回に1回もピッタリ当てられる人はそうそういないだろう。
要するに、十分量のサンプルがあればコンピュータの推論は割りとアテになるってこと。
ここまで前書き。
本題はここから。
ある日チームでも結構マッドなサイエンティスト(Aとする)が「余命推定やってみようよ」と言い出した。
当時全盛期だったデスノートの影響でも受けたのだろう。
しかし、個人情報サンプルには当然ながら「余命」なんて欄は無い。
A:「撮影年・没年が分かっている歴史上の人物の写真でも使えばいい。白黒でも認識精度に大きな影響は無かっただろう?」
もちろんカラーのサンプルに比べると精度は落ちるが、顔認識のメカニズム上、ほとんど問題はない。
俺:「しかし、それではサンプル数が足りないのでは?」
A:「要は顔と撮影日と死んだ日がわかりゃいいんだ。天災やら事故やらの被害者を使えばいい」
俺:「ちょっと待て、それじゃ外発的な要因で死んだサンプルが混ざることになるぞ。」
A:「それでいいんだよ!」
どうやらヤツは「相貌からその人の健康状態を推定し・・・」というのではなく、いわば道端の占い師まがいの事をコンピュータにやらせるつもりらしい。
死者をサンプルに使う事には少なからず抵抗があったが、その頃の俺達は好奇心旺盛な奴らばかりだったので、すぐに手を付け始めた。
毎日毎日チマチマと写真、没年-撮影日=余命を入力していき、数週間でサンプル数は2000に到達した。
そして試験運用。
といっても、「正解」がわからないので誤差計算もしようが無いのだが・・・。
最初に試したのは俺だった。
システムを起動し、カメラの前に立つ。
すぐに顔に照準が定まり、コンマ数秒の計算の後弾き出された答えは・・・「60」だった。
男性の平均寿命が80代であることを考えると、いい線行ってるのでは?
言い忘れていたが、俺達は皆20代前半で、リーダーだけ30代。
次々と他のメンバーも試してみたが、やはりサンプルが少なかったのか答えはバラバラ。
23、112、75、42・・・と、結構無茶苦茶な答えばかりである。
やはりコンピュータに占い師の真似事をさせるなど無理だったのかもしれない。
だが、手動で2000ものサンプルを打ち込んだだけに、このままお蔵入りとする訳にはいかない。
一晩、ログ自動生成モードにして会社のサーバーに保存されている様々な場所のカメラ映像を擬似的に読み込ませた。
翌日、コンピュータはしっかりと何千もの認識ログを吐いていた。
統計処理を施すと、興味深い事実が浮かび上がってきた。
撮影場所によって、その推定値に大きなバラつきが見られたのだ。
読み込ませた映像の中でも、例えば小学校で撮影されたカメラの余命推測平均は「106」(確か。以下同じ)だった。
これは、全ログの平均値「46」に比べて遥かに大きい数値である。
逆にそれを最初に下回ったのはサービスエリアで撮影された映像で、その平均値は「38」だった。
車に乗っている奴は早く死ぬ、とでも言いたいのだろうか。
以下平均値はどんどんと減少していき・・・余命平均ワースト2位は県内のある老人ホーム。
平均値は「15」
最下位は?
お察しの通り、病院だった。
なんと平均値「4」!
いやちょっと待て、病院とはいえ、いくらなんでも余命平均値4年というのはおかしい。
部活で怪我をして運ばれてきたような、まだまだ先の長い子供だって大勢いるはずだ。
何かエラーが発生したのかもしれない、と生ログを参照した。
そして思わず声を上げてしまった。
「ID:1234VALUE:34(←この場合推定余命を示す)...」
といった書式でズラーっと書いてあるんだが、「34」とか「50」みたいな普通の数に混じって、幾つも存在してはならない数が記載されていたのだ。
負の数である。
念のため他の場所のログもザッと確認してみると、マイナス付きの物は何処でも2,3個は発見されたが、病院のログほどではなかった。
文字通りに解釈するのであれば、「余命マイナス3年」というのは「死んでから三年経過」ということになる。
余命マイナスの者が極端に多いお陰で、余命平均値が大きく下がってしまったのだろう。
・・・と冷静さを保とうとする努力はしたが、もう全身嫌な汗が出っぱなしだった。
その後チームで話し合いを重ねたが、嫌な結論にしかたどり着かなかった。
即ち、「余命推測等というのは誤差が大きすぎてアテにならない」
あるいは・・・「私達の周りに、余命マイナスの者が平然と闊歩している」
当然採用したのは前者の結論。
上層部には「顔認識を利用した健康状態の調査」をしていた事にして適当な報告書を書き(これは元から予定していたことだったが)このプロジェクトは闇に葬り去られることとなった。
私達は毎日何百もの人々とすれ違い、目線を交わしている。
その中に「余命マイナスの顔」は無い、とどうやって言い切ることができようか。
うわっち、重要なオチを書き忘れてたよ・・・。
Aは「余命0年宣告」を出されてから一年経たずに、本当に死んでしまった。
通勤ラッシュ時にホームから大ジャンプを決めたらしい。
なぜコンピュータにそれが予測できたのか?
コンピュータが知り得た情報は「サンプル」と「対象者の顔」だけである。
しかし、事実としてAは宣告通りに死んでしまった。
「死相」という言葉がある。
人がもうすぐ死にそうだ、というのが何となく分かってしまう「能力者」がいるのだと。
非科学的なことは信じたくないのだが、この事件以来、俺は防犯カメラと人混みが怖くてたまらなくなってしまった。
よほどの生命の危機や必要に追われない限り病院にも近寄らないようにしている。