昨日は、本学大学院の修士・博士論文の最終審査。役職上、朝から控室に陣取って審査の成り行きを見守っていたが、退屈なので博士号候補の人の論文をながめてみると・・・う〜む、珍妙なデータ分析をやっている。こりゃあかんだろう。というわけで、博士論文の審査会場に乱入して、言いたいままに、当該論文をコキおろしてしまった^^。でも、本人は自分の誤りに気づいていないのだから、誰かがどこかで指摘しておかねばならないことだ。本審査担当者の寛大でオープンな対応には感謝したい(すこし呆れておられたかも^^)。
その場でも話題にしたんだけど、相関と偏相関の違いは重要だ。
Yという変数の動きに影響を与える二つの要因(AとB)があるとする。Aが増えるとYが増え(図の青い矢印)、Bが増えるとYが増える(図の黄色い矢印)という関係にあるものとしよう。
このとき、YとAの相関係数がとらえるものは、AとBの影響の総和としてのYの変動(図の緑点線の長方形)と、Aの変動との関係である。つまり、相関係数には他の変数の影響が含まれてしまう。
しかし、回帰分析を行うと「偏相関」を計測できる。つまり、Aの影響のみによるYの変動(図のオレンジ点線の長方形)と、Aの変動との関係をとらえることができる。偏相関(回帰分析)では他の変数の影響が除去される。
この違いが顕著にあらわれるのは、たとえば下図のような場合。
AとBはいつも逆方向に動いていると仮定しよう。すると、Aの影響はBの影響に相殺されて、Yはほとんど変動しなくなる。
このときには、YとAの相関係数はゼロに近い値となり、AはYにまったく影響を与えない(AとYは無相関の)ように見えてしまう。こういう場合には、他の変数の影響を除外した偏相関を見てやらねばならない。
あの場で本審査員の一人から指摘されたことなんだけど、生活保護率と離婚率の相関係数は、全国では+となるが、大阪ではーとなる。しかし、生活保護率を被説明変数にして回帰をやると、全国でも大阪でも離婚率の係数は有意に+となる(つまり、偏相関は全国でも大阪でも+)。これはどう解釈できるだろうか。