2つの変量の間の関係でよく目にするのが相関関係です。 ここでは相関関係について説明します。
次の表はあるグループ10人の体重と身長のデータです。
| 名前 | A | B | C | D | E | F | G | H | I | J |
|---|---|---|---|---|---|---|---|---|---|---|
| 身長(y) [cm] | 156 | 155 | 157 | 159 | 161 | 159 | 161 | 164 | 163 | 165 |
| 体重(x) [kg] | 55 | 56 | 57 | 59 | 58 | 61 | 62 | 63 | 64 | 65 |
2項目の量を縦軸と横軸の位置に対応させ、データを点でプロット(点を打つこと)したものを散布図と呼びます。 上の表の身長と体重の散布図は次のようになります。

散布図を見ますと身長と体重の間に何か関係がありそうに見えます。 身長が増えれば体重が増える。もしくは、体重が増えれば身長が増える。 このように『一方の増減に伴って他方も増減する』というような関係を相関関係と言います。
相関とは『お互いに関係がある』と言う意味です。 注意して欲しいのは『一方が原因でもう一方が結果である』という因果関係とは別物だということです。 今の例の身長と体重の場合、体重が増える一つの原因は身長ですが、 身長が増える原因に体重は関係ないと思います。 しかし、相関関係を見るときにはどちらの方が原因というところまでは見てません。
相関関係には正の相関(一方が増えればもう一方も増える)、負の相関(一方が増えればもう一方は減る)があります。 また、強い相関(直線に近い関係)、弱い相関(直線と比べるとぼやけてる)があります。 次の図を見てください。

前節の最後に相関の正負、強弱について述べましたが、これを数値で表したものを相関係数と言います。 相関係数には r の文字をよく使います。 相関係数は -1~1 の範囲の値をとります。 相関係数の符号はそれぞれ正負の相関を表します。 相関係数の絶対値(大きさ)は相関の強さを表し、1 に近いほど相関は強いということになります。 前節最後の図では相関係数はそれぞれ、左上が r = -1、右上が r = -0.6、真ん中が r = 0、左下が r = 0.6、 右下が r = 1、になってます。
大体の目安なので相関係数の他にも検討が必要なんですが次のように言われてます。
| 0.0 ≤ |r| ≤ 0.2 | ほとんど相関がない |
| 0.2 ≤ |r| ≤ 0.4 | やや相関がある |
| 0.4 ≤ |r| ≤ 0.7 | かなり相関がある |
| 0.7 ≤ |r| ≤ 1.0 | 強い相関がある |
相関係数を計算するためには横軸(x)の量の平均(mx)と偏差平方和(Sxx)、縦軸(y)の平均(my)と偏差平方和(Syy)、 xとyの積和(Sxy)の値が必要になりますので、これらのことについて説明します。
先の身長と体重の例では次のようになります。
まず10人の体重の平均 mx と身長の平均 my を計算します。
| mx | = | (55+56+57+59+58+61+62+63+64+65)/10 | = | 60 |
| my | = | (156+155+157+159+161+159+161+164+163+165)/10 | = | 160 |
| 名前(番号i) | A(1) | B(2) | C(3) | D(4) | E(5) | F(6) | G(7) | H(8) | I(9) | J(10) |
|---|---|---|---|---|---|---|---|---|---|---|
| 体重の偏差の式(xi-mx) | 55-mx | 56-mx | 57-mx | 59-mx | 58-mx | 61-mx | 62-mx | 63-mx | 64-mx | 65-mx |
| 体重の偏差の計算結果 | -5 | -4 | -3 | -1 | -2 | +1 | +2 | +3 | +4 | +5 |
| 身長の偏差の式(yi-my) | 156-my | 155-my | 157-my | 159-my | 161-my | 159-my | 161-my | 164-my | 163-my | 165-my |
| 身長の偏差の計算結果 | -4 | -5 | -3 | -1 | +1 | -1 | +1 | +4 | +3 | +5 |
| Sxx | = | (-5)2+(-4)2+(-3)2+(-1)2+(-2)2+12+22+32+42+52 | = | 110 |
| Syy | = | (-4)2+(-5)2+(-3)2+(-1)2+12+(-1)2+12+42+32+52 | = | 104 |
| Sxy | = | (-5)(-4)+(-4)(-5)+(-3)(-3)+(-1)(-1)+(-2)(+1)+(+1)(-1)+(+2)(+1)+(+3)(+4)+(+4)(+3)+(+5)(+5) | = | 98 |
| r | = |
|
=約 0.916 |
ここまで手計算で計算しましたがデータが増えると大変なのでエクセルなどを使って計算するのが良いでしょう。 次の図は身長体重の相関係数をエクセルで計算したものです。

相関係数の式
| r | = |
|

| 位置 | xiの偏差=(xi-mx) | yiの偏差=(yi-my) | 偏差積=(xi-mx)(yi-my) |
|---|---|---|---|
| 右上 | 正 | 正 | 正 |
| 左上 | 負 | 正 | 負 |
| 左下 | 負 | 負 | 正 |
| 右下 | 正 | 負 | 負 |
相関係数の式の分母を見ると偏差平方和の平方根で割ってます。 x の偏差平方和 Sxx と y の偏差平方和 Syy は次の式で計算されます。
相関関係を見ることによって2種類のデータの間にどれくらいの関係があるのか分かりました。 もう少し具体的にどのような関係があるのか知る方法に、2つの変数(変量)の間に関係式を考えデータに最も適合する(フィットする)式を考える、という方法があります。 このような方法を回帰分析と呼びます。 数式によって x と y の関係が決まってしまえば、データの無いところの値でも予想したり補完したりすることができるようになるので非常に便利です。
一番簡単な式は直線を表す1次式です。 x と y の間に次の関係式
係数 a と 定数項 b が決まれば最適な直線が求まります。 いきなり答えを書くと次の計算で係数 a と定数項 b の最適値が得られます。
| a | = |
|
||
| b | = | my - a mx |
エクセルでは散布図に直線近似を追加することができます。 散布図に現れているデータポイントのマーカーを左クリックで選択して右クリックすると(書式設定するときのようにやってください)、 右クリックメニューに [近似曲線の追加(R)...] という項目があります。 これを選んで、[種類] タブの [近似または回帰の種類] ダイアログで [線形近似(L)] を選択して、 [オプション] タブで [グラフに数式を表示する(E)] にチェックを入れて [OK] ボタンを押します。 するとグラフに直線とその数式が現れます。 後は現れた直線の上で右クリックして [近似曲線の書式設定(O)...] で書式を微調整してください。

最後に傾き a と定数項 b を計算する式がどこから出てきたのか少しだけ説明します。 最適な直線は色々考えられますが、残差の2乗和が最小になるという条件で最適な直線を決めています。 この方法を最小2乗法と呼びます。 残差とは次の絵の赤線の距離のことです。
