【続】[2型糖尿病]は存在しない[5] 先生のいない教室

Data-Driven Cluster分析とは

この記事で荒っぽく説明しましたように；

Data-Driven Cluster分析とは，すべてのData同志の相互距離の合計が最小になるようにグループ分けした結果です．『結果』という言葉に注目してください．

このグループ分け(クラスター分析)には，『このデータとあのデータは，医学的に考えてよく似た病態だから，同じグループに．．』などという，人間の判断基準はいっさい関与させていないことが特徴です．このことは，人間の予断や偏見が入り込む余地がないので客観的であると云えるのですが，反面それが正しいかどうか，何の保証もありません．

関西の方なら覚えておられるでしょうか？昔(1980年代) 関西テレビで，白蛇を使って占いをする泉アツノさんという方が大人気でした．占いの結果を告げるときには必ず『こんなん出ましたけど・・・』が決め文句でした．『私が言ってるんじゃないんです．白蛇がそう言うてるんです』という意味でしょう．Data-Driven Cluster分析とは，これに近いです．

学校や塾の教室に例えれば，先生のいない時に生徒同士がワイワイやって，最後に生徒全員が納得する『組み分け』を決めたようなもです．

教室であれば，最後に先生が現れて，『それでいいです/それは間違ってます』という判定を下してくれるのですが，Data-Driven Cluster分析にはそれがありません．これが『教師のいない教室』と呼ばれる理由です．得られた『結果』の正誤を判定する方法がないのです．

したがって，この連載の2本目の記事にこう書いたように：

この複製検証は，Data-Driven Cluster分析には必須です．

あるデータベースにData-Driven Cluster分析を適用して，グループ(クラスター)分けが完了しても，それで終わりではなくて，それと同じ方法をまったく別のデータベースに適用してみることが『複製(Replication)検証』です．これをやって，最初と同じ結果が出たならば，そこで初めて『このCluster分けには普遍性がある』という確信が持てるわけです．

複製検証：え，このデータはないの？

このWagner論文でも，当然複製は行っております．ドイツの糖尿病予備軍データベース(TUEF/TULIP)とはまったく異なる，ロンドンの中央官庁に勤務する公務員の健康データを蓄積した White Hall IIを用いています．

ただし，本来であれば，複製検証は，異なる複数のデータベースに対して，全く同じデータ構成(パラメータの種類と数）を用いて行わねばなりません．そうでないと，『複製』の意味がないからです．

しかし，この点では Wagner論文の著者は非常に苦労したと思います．糖尿病と確定診断された患者のデータなら世の中に多数ありますが，まだ糖尿病と診断されてもいない人の，糖尿病に関する詳細な検査データを長期間・大量に追跡したデータなどほとんどありません．日本で言えば，人間ドックがそれにあたりますが，人間ドックですら，受診者の全員のDNA解析を行うことはないでしょう．しかも同じ人を長年にわたって追跡してもいません．

そこで，このWagner論文では，複製検証にあたっては，オリジナルのドイツのデータベースと同じパラメータではなく，概念的にはそれと同等である(conceptually similar variables)と思われるパラメータに置き換えています．