File dữ liệu và bài làm:
Mô hình logit: các yếu tố ảnh hưởng đến tham gia chương trình tài năng (honors: chương trình tài năng)
*chạy thử mô hình logit với 3 biến định lượng (read, math, science)
logit honors read math science
Iteration 0: log likelihood = -115.64441
Iteration 1: log likelihood = -81.726372
Iteration 2: log likelihood = -78.551159
Iteration 3: log likelihood = -78.49397
Iteration 4: log likelihood = -78.493853
Iteration 5: log likelihood = -78.493853
Logistic regression Number of obs = 200
LR chi2(3) = 74.30
Prob > chi2 = 0.0000
Log likelihood = -78.493853 Pseudo R2 = 0.3212
------------------------------------------------------------------------------
honors | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
read | .0626137 .0267384 2.34 0.019 .0102074 .11502
math | .1156084 .0318287 3.63 0.000 .0532253 .1779915
science | .0305099 .0294797 1.03 0.301 -.0272692 .088289
_cons | -12.53017 1.869501 -6.70 0.000 -16.19432 -8.866016
------------------------------------------------------------------------------
logit honors read math science, nolog
Logistic regression Number of obs = 200
LR chi2(3) = 74.30
Prob > chi2 = 0.0000
Log likelihood = -78.493853 Pseudo R2 = 0.3212
------------------------------------------------------------------------------
honors | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
read | .0626137 .0267384 2.34 0.019 .0102074 .11502
math | .1156084 .0318287 3.63 0.000 .0532253 .1779915
science | .0305099 .0294797 1.03 0.301 -.0272692 .088289
_cons | -12.53017 1.869501 -6.70 0.000 -16.19432 -8.866016
------------------------------------------------------------------------------
*Kiểm định đa cộng tuyến
vif, uncentered
Variable | VIF 1/VIF
-------------+----------------------
math | 58.98 0.016955
read | 53.89 0.018557
science | 51.00 0.019609
-------------+----------------------
Mean VIF | 54.62
*kết quả báo cáo ba biến bị đa cộng tuyến nặng
. *Chạy thử lần nữa với 4 biến định lượng (read math science socst)
logit honors read math science socst, nolog
Logistic regression Number of obs = 200
LR chi2(4) = 75.17
Prob > chi2 = 0.0000
Log likelihood = -78.057092 Pseudo R2 = 0.3250
------------------------------------------------------------------------------
honors | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
read | .050711 .0297198 1.71 0.088 -.0075387 .1089607
math | .1117883 .0322933 3.46 0.001 .0484947 .175082
science | .0297888 .0298266 1.00 0.318 -.0286702 .0882479
socst | .0243555 .0263438 0.92 0.355 -.0272773 .0759884
_cons | -12.96424 1.956256 -6.63 0.000 -16.79843 -9.130054
------------------------------------------------------------------------------
vif, uncentered
Variable | VIF 1/VIF
-------------+----------------------
read | 64.68 0.015461
math | 64.18 0.015582
science | 51.56 0.019395
socst | 40.60 0.024633
-------------+----------------------
Mean VIF | 55.25
. *4 biến trên cũng bị đa cộng tuyến
. *kiểm tra lại
corr read math science socst write
(obs=200)
| read math science socst write
-------------+---------------------------------------------
read | 1.0000
math | 0.6623 1.0000
science | 0.6302 0.6307 1.0000
socst | 0.6215 0.5445 0.4651 1.0000
write | 0.5968 0.6174 0.5704 0.6048 1.0000
. *tất cả các biến điểm số đều tương quan khá lớn với nhau
. *Kết luận: Không thế đồng thời đưa các biến định lượng về “điểm số” vào mô hình vì sẽ bị đa cộng tuyển
. *Giải quyết: tạo ra một biến mới bằng trung bình cộng của tất cả các biến về “điểm số” trên để mang tính đại diện
. *tạo biến đại diện, đặt tên là “GPA”
egen GPA = rowmean (read math science socst write)
. * tạo các biến giả cho các biến định tính
tab female, gen( female)
1: |
female,0:ma |
le | Freq. Percent Cum.
------------+-----------------------------------
male | 91 45.50 45.50
female | 109 54.50 100.00
------------+-----------------------------------
Total | 200 100.00
tab ses , gen( ses )
social-econ |
omic status | Freq. Percent Cum.
------------+-----------------------------------
low | 47 23.50 23.50
middle | 95 47.50 71.00
high | 58 29.00 100.00
------------+-----------------------------------
Total | 200 100.00
tab schtyp,gen( schtyp)
type of |
school | Freq. Percent Cum.
------------+-----------------------------------
private | 32 16.00 16.00
public | 168 84.00 100.00
------------+-----------------------------------
Total | 200 100.00
tab prog, gen( prog)
type of |
program | Freq. Percent Cum.
------------+-----------------------------------
general | 45 22.50 22.50
academic | 105 52.50 75.00
vocation | 50 25.00 100.00
------------+-----------------------------------
Total | 200 100.00
. *
. *Đưa 2 biến female và ses vào mô hình
logit honors GPA female1 ses2 ses3, nolog
Logistic regression Number of obs = 200
LR chi2(4) = 106.43
Prob > chi2 = 0.0000
Log likelihood = -62.428174 Pseudo R2 = 0.4602
------------------------------------------------------------------------------
honors | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
GPA | .3089137 .0477535 6.47 0.000 .2153185 .4025089
female1 | -1.260429 .4937162 -2.55 0.011 -2.228095 -.2927632
ses2 | -1.265244 .6240474 -2.03 0.043 -2.488354 -.0421334
ses3 | -.4813902 .659504 -0.73 0.465 -1.773994 .8112139
_cons | -16.9678 2.605162 -6.51 0.000 -22.07383 -11.86178
------------------------------------------------------------------------------
. *Kiếm định Wald-test
test
last test not found
r(302);
test GPA female1 ses2 ses3
( 1) [honors]GPA = 0
( 2) [honors]female1 = 0
( 3) [honors]ses2 = 0
( 4) [honors]ses3 = 0
chi2( 4) = 47.09
Prob > chi2 = 0.0000
. *các biến đều có ý nghĩa
. *mô hình phù hợp
. *kiểm định đa cộng tuyến
vif, uncentered
Variable | VIF 1/VIF
-------------+----------------------
GPA | 4.92 0.203134
ses2 | 3.17 0.315899
ses3 | 2.54 0.394446
female1 | 1.84 0.543894
-------------+----------------------
Mean VIF | 3.12
. *không có hiện tượng đa cộng tuyến
. *kiểm định bỏ soát biến quan trọng
linktest
Iteration 0: log likelihood = -115.64441
Iteration 1: log likelihood = -65.853257
Iteration 2: log likelihood = -62.685152
Iteration 3: log likelihood = -62.301952
Iteration 4: log likelihood = -62.288821
Iteration 5: log likelihood = -62.288795
Iteration 6: log likelihood = -62.288795
Logistic regression Number of obs = 200
LR chi2(2) = 106.71
Prob > chi2 = 0.0000
Log likelihood = -62.288795 Pseudo R2 = 0.4614
------------------------------------------------------------------------------
honors | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
_hat | 1.056539 .1857902 5.69 0.000 .6923974 1.420682
_hatsq | .0340251 .0620054 0.55 0.583 -.0875033 .1555535
_cons | -.0644581 .2671594 -0.24 0.809 -.5880809 .4591646
------------------------------------------------------------------------------
. *Các biến trong mô hình có ý nghĩa thống và các biến ngoài mô hình không có ý nghĩa thống kê.
. *kiểm định khả năng dự báo
lstat
Logistic model for honors
-------- True --------
Classified | D ~D | Total
-----------+--------------------------+-----------
+ | 37 14 | 51
- | 16 133 | 149
-----------+--------------------------+-----------
Total | 53 147 | 200
Classified + if predicted Pr(D) >= .5
True D defined as honors != 0
--------------------------------------------------
Sensitivity Pr( +| D) 69.81%
Specificity Pr( -|~D) 90.48%
Positive predictive value Pr( D| +) 72.55%
Negative predictive value Pr(~D| -) 89.26%
--------------------------------------------------
False + rate for true ~D Pr( +|~D) 9.52%
False - rate for true D Pr( -| D) 30.19%
False + rate for classified + Pr(~D| +) 27.45%
False - rate for classified - Pr( D| -) 10.74%
--------------------------------------------------
Correctly classified 85.00%
--------------------------------------------------
. * mô hình dự báo được 85%
*kiểm định độ phù hợp tổng quát của mô hình
estat gof, group(10)
Logistic model for honors, goodness-of-fit test
(Table collapsed on quantiles of estimated probabilities)
number of observations = 200
number of groups = 10
Hosmer-Lemeshow chi2(8) = 10.13
Prob > chi2 = 0.2558
. *Chấp nhận H0: mô hình phù hợp
. *
. *Kiểm tra nếu thêm vào biến định danh schtyp thì mô hình có tốt hơn không?
logit honors GPA female1 ses2 ses3, nolog
Logistic regression Number of obs = 200
LR chi2(4) = 106.43
Prob > chi2 = 0.0000
Log likelihood = -62.428174 Pseudo R2 = 0.4602
------------------------------------------------------------------------------
honors | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
GPA | .3089137 .0477535 6.47 0.000 .2153185 .4025089
female1 | -1.260429 .4937162 -2.55 0.011 -2.228095 -.2927632
ses2 | -1.265244 .6240474 -2.03 0.043 -2.488354 -.0421334
ses3 | -.4813902 .659504 -0.73 0.465 -1.773994 .8112139
_cons | -16.9678 2.605162 -6.51 0.000 -22.07383 -11.86178
------------------------------------------------------------------------------
Est sto mh1
command Est not defined by Est.ado
r(199);
est sto mh1
. logit honors GPA female1 ses2 ses3 schtyp2, nolog
Logistic regression Number of obs = 200
LR chi2(5) = 106.54
Prob > chi2 = 0.0000
Log likelihood = -62.375867 Pseudo R2 = 0.4606
------------------------------------------------------------------------------
honors | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
GPA | .3081286 .0476956 6.46 0.000 .214647 .4016103
female1 | -1.258202 .4934012 -2.55 0.011 -2.22525 -.291153
ses2 | -1.234441 .6317397 -1.95 0.051 -2.472628 .0037462
ses3 | -.4682452 .6620159 -0.71 0.479 -1.765772 .8292821
schtyp2 | .1969295 .6118615 0.32 0.748 -1.002297 1.396156
_cons | -17.10426 2.642313 -6.47 0.000 -22.2831 -11.92542
------------------------------------------------------------------------------
est sto mh2
lrtest mh1 mh2, stat
Likelihood-ratio test LR chi2(1) = 0.10
(Assumption: mh1 nested in mh2) Prob > chi2 = 0.7464
Akaike's information criterion and Bayesian information criterion
-----------------------------------------------------------------------------
Model | Obs ll(null) ll(model) df AIC BIC
-------------+---------------------------------------------------------------
mh1 | 200 -115.6444 -62.42817 5 134.8563 151.3479
mh2 | 200 -115.6444 -62.37587 6 136.7517 156.5416
-----------------------------------------------------------------------------
Note: N=Obs used in calculating BIC; see [R] BIC note.
. *AIC và BIC mh1 bé hơn mh2 nên mh1 sẽ tốt hơn
. *
. *Kiểm tra nếu thêm vào biến định danh prog thì mô hình có tốt hơn không?
logit honors GPA female1 ses2 ses3 prog2 prog3, nolog
Logistic regression Number of obs = 200
LR chi2(6) = 108.59
Prob > chi2 = 0.0000
Log likelihood = -61.347224 Pseudo R2 = 0.4695
------------------------------------------------------------------------------
honors | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
GPA | .323282 .051554 6.27 0.000 .2222381 .4243258
female1 | -1.205643 .4998045 -2.41 0.016 -2.185242 -.2260441
ses2 | -1.477991 .6510393 -2.27 0.023 -2.754005 -.2019773
ses3 | -.6172987 .676254 -0.91 0.361 -1.942732 .7081348
prog2 | .4897526 .5883654 0.83 0.405 -.6634225 1.642928
prog3 | 1.21422 .831855 1.46 0.144 -.4161863 2.844625
_cons | -18.15192 2.860853 -6.34 0.000 -23.75909 -12.54475
------------------------------------------------------------------------------
est sto mh3
lrtest mh1 mh3, stat
Likelihood-ratio test LR chi2(2) = 2.16
(Assumption: mh1 nested in mh3) Prob > chi2 = 0.3393
Akaike's information criterion and Bayesian information criterion
-----------------------------------------------------------------------------
Model | Obs ll(null) ll(model) df AIC BIC
-------------+---------------------------------------------------------------
mh1 | 200 -115.6444 -62.42817 5 134.8563 151.3479
mh3 | 200 -115.6444 -61.34722 7 136.6944 159.7827
-----------------------------------------------------------------------------
Note: N=Obs used in calculating BIC; see [R] BIC note.
. *AIC và BIC mh1 bé hơn mh3 nên mh1 sẽ tốt hơn
. *Kiểm tra nếu thêm vào biến awards thì mô hình có tốt hơn không?
logit honors GPA female1 ses2 ses3 awards, nolog
note: outcome = awards > 2 predicts data perfectly except for
awards == 2 subsample:
awards dropped and 156 obs not used
note: ses2 != 0 predicts failure perfectly
ses2 dropped and 25 obs not used
Logistic regression Number of obs = 19
LR chi2(3) = 8.26
Prob > chi2 = 0.0409
Log likelihood = -5.6469222 Pseudo R2 = 0.4225
------------------------------------------------------------------------------
honors | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
GPA | .4706872 .2468895 1.91 0.057 -.0132074 .9545818
female1 | -1.72764 1.856717 -0.93 0.352 -5.366737 1.911458
ses2 | 0 (omitted)
ses3 | -2.460548 1.892859 -1.30 0.194 -6.170483 1.249387
awards | 0 (omitted)
_cons | -27.00982 13.97972 -1.93 0.053 -54.40956 .3899244
------------------------------------------------------------------------------
. *hệ thống báo nếu thêm biến giải thưởng thì 156 điểm không được sử dụng và biến ses2 và biến awards sẽ loại khỏi mô hình
. *
. *Kết luận: Mô hình logistic phù hợp nhất là mô hình còn giữ lại 3 biến là (GPA;female;ses)
. *
. *
. *Giải thích ý nghĩa thông số trong mô hình
logit honors GPA female1 ses2 ses3 , nolog
Logistic regression Number of obs = 200
LR chi2(4) = 106.43
Prob > chi2 = 0.0000
Log likelihood = -62.428174 Pseudo R2 = 0.4602
------------------------------------------------------------------------------
honors | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
GPA | .3089137 .0477535 6.47 0.000 .2153185 .4025089
female1 | -1.260429 .4937162 -2.55 0.011 -2.228095 -.2927632
ses2 | -1.265244 .6240474 -2.03 0.043 -2.488354 -.0421334
ses3 | -.4813902 .659504 -0.73 0.465 -1.773994 .8112139
_cons | -16.9678 2.605162 -6.51 0.000 -22.07383 -11.86178
------------------------------------------------------------------------------
. *Psuedo R2 = 0.4602: Mức độ giải thích của mô hình là 46.02%
. *Coef(GPA) mang dấu dương chứng tỏ điểm càng cao thì xác xuất có ghi danh chương trình tài năng tiếng Anh càng cao(Điều kiện các yếu tố khác không đổi).
. *tương tự Coef (ses2,ses3) mang dấu âm chứng tỏ nếu hoàn cảnh KT-XH thuộc loại trung bình và cao thì sác xuất ghi danh chương trình tài năng tiếng Anh thấp hơn hoàn cảnh KT-XH mức thấp(Điều kiện các yếu tố khác không đổi).
. *coef(female1) mang dấu âm chứng tỏ Nam thì có xác xuất ghi danh thấp hơn Nữ(Điều kiện các yếu tố khác không đổi).
. *
. *
. *Kết quả hệ số trong tính tác động biên
mfx
Marginal effects after logit
y = Pr(honors) (predict)
= .10903025
------------------------------------------------------------------------------
variable | dy/dx Std. Err. z P>|z| [ 95% C.I. ] X
---------+--------------------------------------------------------------------
GPA | .0300087 .00552 5.44 0.000 .019193 .040824 52.381
female1*| -.1204083 .0482 -2.50 0.012 -.214874 -.025942 .455
ses2*| -.1232226 .06572 -1.87 0.061 -.252029 .005584 .475
ses3*| -.0433592 .05515 -0.79 0.432 -.151443 .064725 .29
------------------------------------------------------------------------------
(*) dy/dx is for discrete change of dummy variable from 0 to 1
. *Y = 0.1093025: tại các giá trị trung bình của biến giải thích xác suất để người đó ghi danh chương trình tài năng tiếng Anh là 10.93%
. *dy/dx(GPA) = 0.300087 khi GPA tăng 1 đơn vị thì xác suất người đó ghi danh vào chương trình tài năng tiếng Anh tăng 30%, hay tổng điểm các đ
> iểm read math science socst write tăng 1 đơn vị thì xác suất ghi danh tăng xấp xỉ 6%(Điều kiện các yếu tố khác không đổi)
. *dy/dx (female1) = -0.1204
. *xác suất ghi danh của Nam thấp hơn Nữ là 12.04%(Điều kiện các yếu tố khác không đổi)
. *dy/dx(ses2)= -0.1232 ; dy/dx(ses3)= -0.0434
. *Những người có hoàn cảnh KT-XH thấp thì khả năng ghi danh cao hơn người có hoàn cảnh trung bình 12.32% và cao hơn người ở hoàn cảnh cao 4.34
> %(Điều kiện các yếu tố khác không đổi)
Mô hình MLN: các yếu tố ảnh hưởng đến chọn chương trình (prog)
. *Đưa 2 biến female và ses vào mô hình
mlogit prog GPA female1 ses2 ses3 , nolog base(1)
Multinomial logistic regression Number of obs = 200
LR chi2(8) = 64.90
Prob > chi2 = 0.0000
Log likelihood = -171.64679 Pseudo R2 = 0.1590
------------------------------------------------------------------------------
prog | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
general | (base outcome)
-------------+----------------------------------------------------------------
academic |
GPA | .0795033 .0268403 2.96 0.003 .0268974 .1321093
female1 | -.1762781 .3817837 -0.46 0.644 -.9245604 .5720042
ses2 | .3801463 .4600306 0.83 0.409 -.5214971 1.28179
ses3 | .9292917 .5401929 1.72 0.085 -.1294669 1.98805
_cons | -3.758773 1.394292 -2.70 0.007 -6.491535 -1.026011
-------------+----------------------------------------------------------------
vocation |
GPA | -.1107498 .0337135 -3.29 0.001 -.176827 -.0446726
female1 | -.2597407 .4418487 -0.59 0.557 -1.125748 .6062668
ses2 | 1.198282 .525229 2.28 0.023 .1688525 2.227712
ses3 | .6162231 .687055 0.90 0.370 -.73038 1.962826
_cons | 4.848215 1.598562 3.03 0.002 1.715091 7.981338
------------------------------------------------------------------------------
mlogtest
Wald tests for independent variables (N=200)
Ho: All coefficients associated with given variable(s) are 0
| chi2 df P>chi2
-----------------+-------------------------
GPA | 34.189 2 0.000
female1 | 0.382 2 0.826
ses2 | 5.256 2 0.072
ses3 | 2.968 2 0.227
. *qua kiểm định Wald: 2 biến female và ses không có ý nghĩa thống kê trong
. *trong mô hình
. *Thêm 3 biến schtyp ;honors và awards vào mô hình
tab honors, gen (honors)
honors |
english | Freq. Percent Cum.
-------------+-----------------------------------
not enrolled | 147 73.50 73.50
enrolled | 53 26.50 100.00
-------------+-----------------------------------
Total | 200 100.00
. mlogit prog GPA awards schtyp2 honors2 , nolog base(1)
Multinomial logistic regression Number of obs = 200
LR chi2(8) = 63.91
Prob > chi2 = 0.0000
Log likelihood = -172.14278 Pseudo R2 = 0.1566
------------------------------------------------------------------------------
prog | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
general | (base outcome)
-------------+----------------------------------------------------------------
academic |
GPA | .0908795 .0372571 2.44 0.015 .017857 .1639021
awards | -.1191862 .2179754 -0.55 0.585 -.5464101 .3080377
schtyp2 | -.6696352 .5139071 -1.30 0.193 -1.676875 .3376043
honors2 | .7613341 .7778369 0.98 0.328 -.7631982 2.285866
_cons | -3.441042 1.863055 -1.85 0.065 -7.092564 .2104791
-------------+----------------------------------------------------------------
vocation |
GPA | -.0886221 .0430857 -2.06 0.040 -.1730685 -.0041757
awards | -.2228912 .2950357 -0.76 0.450 -.8011505 .3553682
schtyp2 | 1.002687 .8577951 1.17 0.242 -.6785608 2.683934
honors2 | 1.416311 1.01924 1.39 0.165 -.5813619 3.413984
_cons | 3.51661 2.165074 1.62 0.104 -.7268583 7.760078
------------------------------------------------------------------------------
mlogtest
Wald tests for independent variables (N=200)
Ho: All coefficients associated with given variable(s) are 0
| chi2 df P>chi2
-----------------+-------------------------
GPA | 19.151 2 0.000
awards | 0.610 2 0.737
schtyp2 | 5.352 2 0.069
honors2 | 1.997 2 0.368
. *Qua kiểm định Wald: 2 biến awards và honors không có ý nghĩa; giữ lại biến schtyp vì có ý nghĩa ở mức 10%
. *
. *Kết luận: mô hình phù hợp là mô hình giữ lại biến GPA và schtyp
mlogit prog GPA schtyp2 , nolog base(1)
Multinomial logistic regression Number of obs = 200
LR chi2(4) = 61.77
Prob > chi2 = 0.0000
Log likelihood = -173.21031 Pseudo R2 = 0.1513
------------------------------------------------------------------------------
prog | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
general | (base outcome)
-------------+----------------------------------------------------------------
academic |
GPA | .0946247 .0260223 3.64 0.000 .0436219 .1456275
schtyp2 | -.620004 .5103142 -1.21 0.224 -1.620201 .3801934
_cons | -3.700719 1.451157 -2.55 0.011 -6.544935 -.8565033
-------------+----------------------------------------------------------------
vocation |
GPA | -.0834277 .030316 -2.75 0.006 -.1428459 -.0240095
schtyp2 | 1.084633 .8533031 1.27 0.204 -.5878106 2.757076
_cons | 3.154153 1.742132 1.81 0.070 -.2603629 6.568669
------------------------------------------------------------------------------
. *kiểm định đa cộng tuyến
collin GPA schtyp2
(obs=200)
Collinearity Diagnostics
SQRT R-
Variable VIF VIF Tolerance Squared
----------------------------------------------------
GPA 1.01 1.01 0.9868 0.0132
schtyp2 1.01 1.01 0.9868 0.0132
----------------------------------------------------
Mean VIF 1.01
Cond
Eigenval Index
---------------------------------
1 2.8693 1.0000
2 0.1198 4.8937
3 0.0109 16.2564
---------------------------------
Condition Number 16.2564
Eigenvalues & Cond Index computed from scaled raw sscp (w/ intercept)
Det(correlation matrix) 0.9868
. *không có đa cộng tuyến
. * kiểm định tính độc lập của biến phụ thuộc
mlogtest, combine
Wald tests for combining alternatives (N=200)
Ho: All coefficients except intercepts associated with a given pair
of alternatives are 0 (i.e., alternatives can be combined)
| chi2 df P>chi2
-----------------+-------------------------
general & acad~c | 14.791 2 0.001
general & voca~n | 9.835 2 0.007
academic & voc~n | 40.602 2 0.000
. *Bác bỏ H0: các tùy chọn không thể kết hợp lại với nhau
mlogtest,iia
Hausman tests of IIA assumption (N=200)
Ho: Odds(Outcome-J vs Outcome-K) are independent of other alternatives
| chi2 df P>chi2
-----------------+-------------------------
general | 1.696 3 0.638
academic | -0.006 3 .
vocation | 0.224 3 0.974
Note: A significant test is evidence against Ho.
Note: If chi2<0, the estimated model does not meet asymptotic assumptions.
suest-based Hausman tests of IIA assumption (N=200)
Ho: Odds(Outcome-J vs Outcome-K) are independent of other alternatives
| chi2 df P>chi2
-----------------+-------------------------
general | 1.127 3 0.770
academic | 0.829 3 0.843
vocation | 1.806 3 0.614
Note: A significant test is evidence against Ho.
Small-Hsiao tests of IIA assumption (N=200)
Ho: Odds(Outcome-J vs Outcome-K) are independent of other alternatives
| lnL(full) lnL(omit) chi2 df
-----------------+-----------------------------------------------
general | -44.107 -40.269 7.677 3 0.053
academic | -27.855 -27.590 0.529 3 0.912
vocation | -46.311 -42.893 6.836 3 0.077
Note: A significant test is evidence against Ho.
. *Chấp nhận H0: Có tính độc lập so với các tùy chọn khác.
. *kiểm định độ phù hợp tổng quát
mlogitgof, table
Goodness-of-fit test for a multinomial logistic regression model
Dependent variable: prog
Table: observed and expected frequencies
+--------------------------------------------------------------------+
|Group | Prob | Obs_3 Exp_3 | Obs_2 Exp_2 | Obs_1 Exp_1 | Total |
|------+--------+--------------+--------------+--------------+-------|
| 1 | 0.7155 | 8 6.95 | 8 8.00 | 5 6.05 | 21 |
| 2 | 0.7222 | 6 7.15 | 7 6.50 | 6 5.35 | 19 |
| 3 | 0.7294 | 8 8.23 | 6 7.01 | 7 5.76 | 21 |
| 4 | 0.7470 | 5 6.69 | 7 7.36 | 7 4.96 | 19 |
| 5 | 0.7575 | 9 7.69 | 11 8.13 | 1 5.18 | 21 |
|------+--------+--------------+--------------+--------------+-------|
| 6 | 0.7797 | 5 5.59 | 10 9.00 | 4 4.40 | 19 |
| 7 | 0.7975 | 3 3.99 | 12 12.58 | 6 4.42 | 21 |
| 8 | 0.8278 | 5 2.19 | 10 13.22 | 4 3.59 | 19 |
| 9 | 0.8674 | 0 1.08 | 16 16.66 | 5 3.26 | 21 |
| 10 | 0.9326 | 1 0.44 | 18 16.53 | 0 2.03 | 19 |
+--------------------------------------------------------------------+
number of observations = 200
number of outcome values = 3
base outcome value = 1
number of groups = 10
chi-squared statistic = 17.345
degrees of freedom = 16
Prob > chi-squared = 0.364
. *Chấp nhận H0: mô hình phù hợp
. *Độ dự báo mô hình
fitstat
| mlogit
-------------------------+-------------
Log-likelihood |
Model | -173.210
Intercept-only | -204.097
-------------------------+-------------
Chi-square |
Deviance(df=194) | 346.421
LR(df=4) | 61.773
p-value | 0.000
-------------------------+-------------
R2 |
McFadden | 0.151
McFadden(adjusted) | 0.122
Cox-Snell/ML | 0.266
Cragg-Uhler/Nagelkerke | 0.305
Count | 0.610
Count(adjusted) | 0.179
-------------------------+-------------
IC |
AIC | 358.421
AIC divided by N | 1.792
BIC(df=6) | 378.211
. *Mô hình dự báo được 61%
. *
. *Giải thích ý nghĩa các hệ số trong mô hình (lấy 1 tuỳ chọn để giải thích)
mlogit prog GPA schtyp2 , nolog base(1)
Multinomial logistic regression Number of obs = 200
LR chi2(4) = 61.77
Prob > chi2 = 0.0000
Log likelihood = -173.21031 Pseudo R2 = 0.1513
------------------------------------------------------------------------------
prog | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
general | (base outcome)
-------------+----------------------------------------------------------------
academic |
GPA | .0946247 .0260223 3.64 0.000 .0436219 .1456275
schtyp2 | -.620004 .5103142 -1.21 0.224 -1.620201 .3801934
_cons | -3.700719 1.451157 -2.55 0.011 -6.544935 -.8565033
-------------+----------------------------------------------------------------
vocation |
GPA | -.0834277 .030316 -2.75 0.006 -.1428459 -.0240095
schtyp2 | 1.084633 .8533031 1.27 0.204 -.5878106 2.757076
_cons | 3.154153 1.742132 1.81 0.070 -.2603629 6.568669
------------------------------------------------------------------------------
. *Lấy (outcome: general), giải thích hệ số trong tùy chọn “Academic”
. *Tại tùy chọn Academic:
. *coef(GPA)=0.09 Trong điều kiện các yếu tố khác không đổi, Mang dấu dương có nghĩa là điểm GPA càng tăng thì xác xuất người đó chọn chương tr
> ình “Academic” sẽ cao hơn so với chọn “General”
. *coef(schtyp2)= -0.62 ; mang dấu âm có nghĩa là: Trong điều kiện các yếu tố khác không đổi,So với trường tư thì những ai thuộc trường công c
> ó xác suất chọn “Academic” thấp hơn so với “General”
. *Psuedo R2 = 0.1513: Mức độ giải thích của mô hình là 15.13%
. *
. *Lấy (outcome: general), Tính tác động biên của mô hình
mfx, predict (p outcome(1))
Marginal effects after mlogit
y = Pr(prog==general) (predict, p outcome(1))
= .26158844
------------------------------------------------------------------------------
variable | dy/dx Std. Err. z P>|z| [ 95% C.I. ] X
---------+--------------------------------------------------------------------
GPA | -.0092947 .00457 -2.03 0.042 -.018248 -.000341 52.381
schtyp2*| .0575413 .0848 0.68 0.497 -.108661 .223743 .84
------------------------------------------------------------------------------
(*) dy/dx is for discrete change of dummy variable from 0 to 1
. *Y =0.2616: Tại các giá trị trung bình của biến giải thích, Xác xuất để người đó chọn chương trình “General” là : 26.16%
. *Dy/dx (GPA) = - 0.00929
. *Trong điều kiện các yếu tố khác không đổi, Nếu GPA tăng thêm 1 điểm thì xác suất người đó chọn chương trình “General” giảm 0.929%
. *dy/dx (schtyp2) = 0.0575
. *Trong điều kiện các yếu tố khác không đổi, Nếu học trường công thì sẽ có xác suất chọn chương trình “General” cao hơn học trường tư: 5.75%
Comments