いつものパスタブログ

研究とか,Rとか

Stata学習奮闘記(3日目)

前回の記事はコチラ sickle-sword.hatenablog.com

クロス表

いよいよ今回から変数間の関係を見る分析を行っていきます。
最初はカテゴリカルデータ分析の基本となるクロス表から。

  • x1とx2のクロス表
tab x1 x2

tabは以前度数分布表を出力するコマンドとして登場していました。
変数を2つ入れれば自動的にクロス表で出力してくれます。

クロス表のオプション

tab x1 x2のあとにカンマを打ち,その後ろにオプションをつけることができます。
以下ではよく使うやつを紹介

  • row col cell:それぞれ行パーセント,列パーセント,セルパーセントを出力
  • chi2(ch):ピアソンのカイ二乗検定
  • lrchi2(lr):尤度比(likelihood ratio)カイ二乗検定
  • V:クラメールのV
  • gamma(g):グッドマン=クラスカルのガンマ

tab1とtab2

クロス表と度数分布表はともにtabであった

ただ,「変数x1とx2の度数分布表を一度に作りたい!」ということもある。
Stataはrecode x1 x2 ...のように変数を並べて書くことで並列処理ができることが多く, 感覚的にはtab x1 x2と書きたくなる。しかしこれではクロス表が出力されてしまう。

そこで度数分布表専門のtab1とクロス表専門のtab2がある。
tab1で変数を複数並べても,クロス表にはならずに複数の度数分布表が出力できる。

演習

実際にデータを使ってやってみましょう
使用するデータは前々回作ったgss_catです。

変数のリコード

今回は人種ごとに婚姻状況に違いがあるのかを検討します。
marital(婚姻状況)には,No answer,Never married,Separated,Divorced,Widowed,Marriedの6カテゴリがあります。 今回はリコードの練習を兼ねて,Separated,Divorced,Widowedをまとめて1カテゴリにします。また,No answerは欠損値にします

gen marital_r=marital
recode marital_r (1=.)(2=1)(3=2)(4=2)(5=2)(6=3)
  • (追記)もっと短く書けたようです
recode marital_r 1=. 2=1 3/5=2 6=3

リコードが上手くいったか確認

tab marital marital_r

              |            marital_r
      marital |         1          2          3 |     Total
--------------+---------------------------------+----------
Never married |     5,416          0          0 |     5,416 
    Separated |         0        743          0 |       743 
     Divorced |         0      3,383          0 |     3,383 
      Widowed |         0      1,807          0 |     1,807 
      Married |         0          0     10,117 |    10,117 
--------------+---------------------------------+----------
        Total |     5,416      5,933     10,117 |    21,466 

それぞれの変数の度数分布を確認

tab1を使って度数分布表を一気に作ってみます

tab1 race marital_r

-> tabulation of race  

          race |      Freq.     Percent        Cum.
---------------+-----------------------------------
         Other |      1,959        9.12        9.12
         Black |      3,129       14.57       23.68
         White |     16,395       76.32      100.00
---------------+-----------------------------------
         Total |     21,483      100.00

-> tabulation of marital_r  

  marital_r |      Freq.     Percent        Cum.
------------+-----------------------------------
          1 |      5,416       25.23       25.23
          2 |      5,933       27.64       52.87
          3 |     10,117       47.13      100.00
------------+-----------------------------------
      Total |     21,466      100.00

クロス表分析

raceとmarital_rのクロス表を作ります。
その際,行パーセント,カイ二乗統計量も出力します。

tab race marital_r, row ch lr

+----------------+
| Key            |
|----------------|
|   frequency    |
| row percentage |
+----------------+

               |            marital_r
          race |         1          2          3 |     Total
---------------+---------------------------------+----------
         Other |       633        392        932 |     1,957 
               |     32.35      20.03      47.62 |    100.00 
---------------+---------------------------------+----------
         Black |     1,305        953        869 |     3,127 
               |     41.73      30.48      27.79 |    100.00 
---------------+---------------------------------+----------
         White |     3,478      4,588      8,316 |    16,382 
               |     21.23      28.01      50.76 |    100.00 
---------------+---------------------------------+----------
         Total |     5,416      5,933     10,117 |    21,466 
               |     25.23      27.64      47.13 |    100.00 

          Pearson chi2(4) = 825.7121   Pr = 0.000
 likelihood-ratio chi2(4) = 818.5358   Pr = 0.000

カイ二乗検定は0.1%水準で有意です。
また,行パーセントをみると,白人と比較した時に黒人は未婚の人の割合が高く, 現在結婚している人の割合が低いことがわかります。
アメリカ社会では人種間で経済状況が異なり,それが婚姻に影響していると考えれば, 妥当な結果と言えるのではないかと思います。