Phương pháp phân tích đa biến... Quan niệm thống kê cổ điển Kiểm định là phương pháp so sánh của 2 hay nhiều nhóm với 1 biến số quan tâm Hồi quy đánh giá sự tác động của biến độc lập
Trang 1Phương pháp phân tích đa biến
Trang 2Quan niệm thống kê cổ điển
Kiểm định là phương pháp so sánh của 2 hay nhiều nhóm với 1 biến số quan tâm
Hồi quy đánh giá sự tác động của biến độc lập lên biến phụ thuộc
Trang 3Quan niệm thống kê hiện đại
Thống nhất kiểm định và hồi quy
số định lượng
lên biến số định lượng
nhị giá lên biến số nhị giá
biến số định lượng
Trang 4Tóm tắt cho kiểm định 2 biến
Biến độc lập Biến phụ thuộc Phương pháp
Trang 5Tóm tắt cho phân tích đa biến
Biến độc lập Biến phụ
thuộc Phương pháp
Danh định Danh định Log-linear
Danh định - định lượng Nhị giá Hồi quy logistic Danh định - định lượng Danh định Phân tích phân biệt Danh định Định lượng ANOVA
Định lượng - danh định Định lượng
(censored) Hồi quy Cox Định lượng Định lượng Hồi quy đa biến Danh định - biến gây nhiễu Định lượng ANCOVA
Trang 6Tiên đoán với nhiều biến độc lập
- Hồi quy đa biến
Hồi quy đơn
Y= a + bX
a và b là các ước lượng (estimate) cho tham
số (parameter) β 0 và β 1 của dân số
a là điểm chặn (hằng số) - b là độ dốc của đường thẳng hồi quy (hệ số hồi quy)
Trang 7Tiên đoán với nhiều biến độc lập
- Hồi quy đa biến
Hồi quy đa biến
Y= a + b1X1+ b2X2 + … + bnXn
a và b 1 , b 2 , là các ước lượng (estimate) cho tham số (parameter) β 0 , β 1 , β 2 ,… của dân số
a là điểm chặn (hằng số) - b 1 , b 2 , là hệ số hồi quy của biến số X 1 , X 2 , …
Khi biến số X i thay đổi 1 đơn vị thì Y thay đổi
b i đơn vị
Trang 8Lí giải số liệu hồi quy đa biến
The data in ivf refer to the records of 641
singleton births following in-vitro
fertilization (IVF) The main scientific
interest in these data was the comparison with babies from the general population
id identity number of mother and baby
matage maternal age in years
ht hypertension 1=yes, 2=no
gestwks gestational age in weeks
sex sex of baby 1=male, 2=female
bweight birth weight in gms
Trang 9Two-sample t test with equal variances
Group | Obs Mean Std Err Std Dev [95% Conf Interval] -+ -
1 | 89 2742.157 86.17222 812.9471 2570.908 2913.406
2 | 552 3191.531 25.58435 601.0962 3141.276 3241.786 -+ - combined | 641 3129.137 25.78336 652.7827 3078.507 3179.767 -+ - diff | -449.3735 72.47462 -591.6907 -307.0563 - Degrees of freedom: 639
Ho: mean(1) - mean(2) = diff = 0
Ha: diff < 0 Ha: diff ~= 0 Ha: diff > 0
t = -6.2004 t = -6.2004 t = -6.2004
P < t = 0.0000 P > |t| = 0.0000 P > t = 1.0000
Trang 10regress bweight ht sex gestwks
Source | SS df MS Number of obs = 641 -+ - F( 3, 637) = 275.43 Model | 153998584 3 51332861.4 Prob > F = 0.0000 Residual | 118721538 637 186376.04 R-squared = 0.5647 -+ - Adj R-squared = 0.5626 Total | 272720122 640 426125.19 Root MSE = 431.71
bweight | Coef Std Err t P>|t| [95% Conf Interval] -+ -
Trang 11-Thí dụ kiểm soát biến số gây nhiễu
thất ở người hút thuốc lá và người không hút
Trang 12 Giá trị trung bình Y hiệu chỉnh:
nhóm và trung bình X chung
số ở trên để có giá trị trung bình Y hiệu chỉnh
Trang 13Kiểm định hệ số hồi quy
Kiểm định t để xác định hệ số hồi quy có khác zero hay không
Phân phối t giúp xác định khoảng tin cậy
của hệ số hồi quy
Qua đó xác định biến số độc lập có ảnh
hưởng có ý nghĩa lên biến số phụ thuộc hay không
Trang 14Giá trị R bội
R bội (multiple R):
được giải thích bởi mô hình
Trang 15Phương pháp ANCOVA
Có thể so sánh cho nhiều hơn 2 nhóm
Có thể kiểm soát 2 hay nhiều hơn biến sô gây nhiễu
ANCOVA có thể xem là trường hợp đặc biệt của so sánh 2 đường hồi quy
Trang 16Tiên đoán kết cuộc censored:
mô hình nguy hại tỉ lệ
lcập yếu tố nguy cơ khác (Khaw, Barrett Connor)
(proportional hazard model)
tương đối giữa biến số độc lập và biến phụ thuộc, hiệu chỉnh cho các biến số khác trong mô hình
Trang 17Tóm tắt cho phân tích đa biến
Biến độc lập Biến phụ
thuộc Phương pháp
Danh định Danh định Log-linear
Danh định - định lượng Nhị giá Hồi quy logistic Danh định - định lượng Danh định Phân tích phân biệt Danh định Định lượng ANOVA
Định lượng - danh định Định lượng
(censored) Hồi quy Cox Định lượng Định lượng Hồi quy đa biến Danh định - biến gây nhiễu Định lượng ANCOVA
Trang 18Hồi quy logistic
Hồi quy đa biến
Y= a + b1X1+ b2X2 + … + bnXn
Miền xác định : (- ∞ đến + ∞ ) sử dụng cho biến số kết cuộc là biến định lượng
Với biến nhị giá miền xác định có giá trị (0,1)
Sử dụng phép biến đổi logit = log(odds)
Trang 19b x
b b
y r
b x
b x b b
n n
e e
e e
e
x b x
b x
b b
odds
)
exp(
2 2 1
1 0
2 2 1 1
2 2 1
1 0
=
= +
+ +
+
=
+ + +
+
Trang 20 Có 2 người đàn ông và 3 đàn bà đẩy được
Trang 21 Có 2 người đàn ông và 3 đàn bà đẩy được
350 kg
Có 4 người đàn ông và 6 đàn bà đẩy được
700 kg