実はもう一つ関係性をスパッと見ることができる手法があります。
SkD画面のタイトル横にある[設定コピー]アイコンをクリックします。
右上にある[DN7]ボタンにカーソルを合わせて[右クリック]→[新しいタブで開く]を押すと、新しいページを開きます。
[PCP:平行座標プロット]をクリックします。
PCP画面の[設定ペースト]のアイコンをクリックします。
そのまま[グラフ表示]をクリックします。
このPCPですが、目的変数のデータを値によって虹色に着色します。が、全体的に青っぽいです。これは、人の寿命が他の動物に比べて極端に大きいためです。ある意味、外れ値といってもいいかもしれません。
ということで、少し傾向がみにくいので、人のデータを外してみます。フィルタ[🝖]をクリックしましょう。
※外れ値:データの中で他の値と比べて異常に大きいか小さい値のこと。
動物のところで、一度[☑All]を押した後に、[☐人]を押して人のみチェックを外します。
ちなみに、もう一つ方法があって、右上の検索Boxに”人”と入力すると選択項目の中で”人"を含まない項目が灰色になってどこにあるか見つけやすくなる(ハイライト表示といいます)のと、その状態で[Reset]を押すと、人にはいったチェックを外すことができます。
ちなみに、検索Boxに”蹄”(ひづめ)と入力した後に、[Enter]キーを押してみましょう。
単誤入力でハイライトされ、Enterで表示が絞り込まれます。たくさんの項目があっても選択しやすくなると思います。絞込の解除は検索Boxの[×]を押すか、入力した文字を削除すると絞り込みが解除されます。
動物の項目で"人"だけチェックを外せたら、右上にある[OK]をクリックします。
人のデータ(外れ値)が外れることによって、虹色がバランスよくなりましたね。
ここで順序を相関係数順のTop8に変えてみてください。
寿命と相関が高い順に並びます。このデータでは、寿命と相関が一番高いのが心拍数レベル、次が体長レベル、といった感じです。
心拍数レベルは色が上下反転していますね。心拍数レベルが低い程、寿命が長い、という負の相関があることが分かります。体長レベルは色の上下関係が同じなので正の相関ですね。
あとで、上位5個の心拍数レベル・体長レベル・心拍数・体重レベル・妊娠期間レベルをMSPで使います。
※相関:2つのデータがどの程度関連しているかを表すもの。例えば、身長と体重には相関があり、身長が高い人ほど体重も重い傾向があります。このように、2つのデータが互いに影響し合っている場合、それらのデータには相関があるといいます。
※相関係数:2つのデータの相関の強さを数値で表したもので、-1から1までの値を取ります。相関係数が1に近い場合、2つのデータには強い正の相関があり、1つのデータが増加すると、もう1つのデータも増加します。相関係数が-1に近い場合、2つのデータには強い負の相関があり、1つのデータが増加すると、もう1つのデータは減少します。相関係数が0に近い場合、2つのデータにはほとんど相関がありません。
こんな感じで、関係が高い変数をさっと把握することができます。変数が多くなればなるほど関係性を見つけるのは難しくなりますが、この手法「PCP平行座標プロット」を使えば簡単に把握することができますね。
PCP画面のタイトル横にある[設定コピー]アイコンをクリックします。
右上にある[DN7]ボタンにカーソルを合わせて[右クリック]→[新しいタブで開く]を押すと、新しいページを開きます。
[MSP散布図行列]をクリックします。
MSP画面の[設定ペースト]のアイコンをクリックします。
[☑全部]が選ばれて全変数にチェックが入っていると思います。もう一度[☑全部]を押すと選択が全解除されます。改めて先ほどの上位5個の心拍数レベル・体長レベル・心拍数・体重レベル・妊娠期間レベルを選択します。なお、参考のために相関が低い生涯心拍数もチェックしましょう。
その後、[グラフ表示]をクリックします。
この1個1個のグラフは散布図といわれているもので、プロット(打点)が直線状に並んでいるほど関係があるという見方をします。
一番左側の列に寿命と他の変数の関係が並んでいますが、直線に近く、相関が高いものが並んでいることが分かります。
一方で一番下の行が生涯心拍数との関係ですが、いずれも分布がばらけていて、相関が低いことが分かります。
このように、関係性が高いものをスパッと見つけられてしまうところが「PCP平行座標プロット」の便利なところです。
次のセクション 第2形態へ