Stata学習奮闘記(3日目)
前回の記事はコチラ sickle-sword.hatenablog.com
クロス表
いよいよ今回から変数間の関係を見る分析を行っていきます。
最初はカテゴリカルデータ分析の基本となるクロス表から。
- x1とx2のクロス表
tab x1 x2
tabは以前度数分布表を出力するコマンドとして登場していました。
変数を2つ入れれば自動的にクロス表で出力してくれます。
クロス表のオプション
tab x1 x2
のあとにカンマを打ち,その後ろにオプションをつけることができます。
以下ではよく使うやつを紹介
- row col cell:それぞれ行パーセント,列パーセント,セルパーセントを出力
- chi2(ch):ピアソンのカイ二乗検定
- lrchi2(lr):尤度比(likelihood ratio)カイ二乗検定
- V:クラメールのV
- gamma(g):グッドマン=クラスカルのガンマ
tab1とtab2
クロス表と度数分布表はともにtabであった
ただ,「変数x1とx2の度数分布表を一度に作りたい!」ということもある。
Stataはrecode x1 x2 ...
のように変数を並べて書くことで並列処理ができることが多く,
感覚的にはtab x1 x2
と書きたくなる。しかしこれではクロス表が出力されてしまう。
そこで度数分布表専門のtab1
とクロス表専門のtab2
がある。
tab1で変数を複数並べても,クロス表にはならずに複数の度数分布表が出力できる。
演習
実際にデータを使ってやってみましょう
使用するデータは前々回作ったgss_catです。
変数のリコード
今回は人種ごとに婚姻状況に違いがあるのかを検討します。
marital(婚姻状況)には,No answer,Never married,Separated,Divorced,Widowed,Marriedの6カテゴリがあります。
今回はリコードの練習を兼ねて,Separated,Divorced,Widowedをまとめて1カテゴリにします。また,No answerは欠損値にします
gen marital_r=marital recode marital_r (1=.)(2=1)(3=2)(4=2)(5=2)(6=3)
- (追記)もっと短く書けたようです
recode marital_r 1=. 2=1 3/5=2 6=3
リコードが上手くいったか確認
tab marital marital_r | marital_r marital | 1 2 3 | Total --------------+---------------------------------+---------- Never married | 5,416 0 0 | 5,416 Separated | 0 743 0 | 743 Divorced | 0 3,383 0 | 3,383 Widowed | 0 1,807 0 | 1,807 Married | 0 0 10,117 | 10,117 --------------+---------------------------------+---------- Total | 5,416 5,933 10,117 | 21,466
それぞれの変数の度数分布を確認
tab1を使って度数分布表を一気に作ってみます
tab1 race marital_r -> tabulation of race race | Freq. Percent Cum. ---------------+----------------------------------- Other | 1,959 9.12 9.12 Black | 3,129 14.57 23.68 White | 16,395 76.32 100.00 ---------------+----------------------------------- Total | 21,483 100.00 -> tabulation of marital_r marital_r | Freq. Percent Cum. ------------+----------------------------------- 1 | 5,416 25.23 25.23 2 | 5,933 27.64 52.87 3 | 10,117 47.13 100.00 ------------+----------------------------------- Total | 21,466 100.00
クロス表分析
raceとmarital_rのクロス表を作ります。
その際,行パーセント,カイ二乗統計量も出力します。
tab race marital_r, row ch lr +----------------+ | Key | |----------------| | frequency | | row percentage | +----------------+ | marital_r race | 1 2 3 | Total ---------------+---------------------------------+---------- Other | 633 392 932 | 1,957 | 32.35 20.03 47.62 | 100.00 ---------------+---------------------------------+---------- Black | 1,305 953 869 | 3,127 | 41.73 30.48 27.79 | 100.00 ---------------+---------------------------------+---------- White | 3,478 4,588 8,316 | 16,382 | 21.23 28.01 50.76 | 100.00 ---------------+---------------------------------+---------- Total | 5,416 5,933 10,117 | 21,466 | 25.23 27.64 47.13 | 100.00 Pearson chi2(4) = 825.7121 Pr = 0.000 likelihood-ratio chi2(4) = 818.5358 Pr = 0.000
カイ二乗検定は0.1%水準で有意です。
また,行パーセントをみると,白人と比較した時に黒人は未婚の人の割合が高く,
現在結婚している人の割合が低いことがわかります。
アメリカ社会では人種間で経済状況が異なり,それが婚姻に影響していると考えれば,
妥当な結果と言えるのではないかと思います。