Subsections

データの記述

データの読み込み

ここでは、Data Library にある練習用データを用いて記述統計量の算出等を行ってみることにする。

左上メニューから [Open] $ \rightarrow$ [Data Library] $ \rightarrow$ [4. Regression] と進むと、[College Success] というデータセットが見つかる。

右側のアイコンをダブルクリックして、.csv 形式のファイルを開いてみよう。 次のようなデータが表示されるはずだ。 これは、224名の学生について、大学の成績と高校の成績、大学入学適性試験の成績、および性別を記録したデータである。

Image figjaspcollegesuccess

主な変数について、概要は以下の通り。[1]

id
学生番号
gpa
大学入学後3学期(セメスター)後の成績(grade point average: GPA)
hse
高校における国語の成績
satv
大学入学適性試験(SAT)における言語系検査の得点
sex
性別(男性 = 1、女性 = 2)5

記述統計量の算出

ウィンドウ上部の分析メニュー [Descriptives] をクリックし [Descriptive Statistics] を選択する。

Image figjaspdesmenu

記述統計量を算出するには、左側のボックスにある変数を選択して右側の "Variables" というボックスに移動させればよい。 ここでは、大学入学後の成績 gpa と高校における国語の成績 hse、SAT得点 satv について記述統計量を算出している。

右側の "Split" に性別 sex を移動させているが、これにより記述統計量を男女ごとに算出することができる。

Image figjaspdesstats

右半分の "Results" 領域に "Descriptives" というメニューが現れ、そこに "Descriptive Statistics" として記述統計量の値が男女別に格納されている。 デフォルトでは、ここにあるように

Valid
分析に使用したケースの数(この場合は学生の人数)
Missing
欠測6の数
Mean
平均
Std. Deviation
標準偏差
Minimum
最大値
Maximum
最小値
の記述統計量に関して結果が返される。

データの可視化

変数を指定するボックスの下にある [Plots] を開き、チェックボックスにチェックを入れることでデータの様相をグラフとして確認することができる。

Image figjaspdesplots

Distribution plots
得点分布を描く
Correlation plot
散布図を描く

下は、gpahsesatv の3変数について、得点の分布と散布図(男性のデータ)を出力したものである。 なお、出力された図はタイトルをクリックして [Save Image As] を選択すれば、画像ファイルとしてダウンロードすることもできる。

Image figjaspdesscatterplot

相関係数

再び分析メニューから [Regression] $ \rightarrow$ [Classical: Correlation] を選択してみよう。

Image figjaspcormatmenu

先ほどと同様、相関係数を算出したい変数を左側から右側のボックスに移動させると、相関係数行列が表示される。 (Pearson's r とあるのが相関係数の値。) このデータでは、大学入学適性試験の成績よりも高校の国語成績の方が、大学入学後の成績とより強い相関関係にあることがわかる。

デフォルトではボックス下の "Report significance" にチェックが入っており、相関係数の下に検定結果(有意確率の値)が表示される。 また、同様に "Confidence intervals" にチェックを入れれば、相関係数の信頼区間(信頼水準はデフォルトでは95%)について下限と上限の値が検定結果の下に表示される。

Image figjaspcormat

Taichi Okumura
2021-06-01