Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 16 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
16
Dung lượng
422,48 KB
Nội dung
Bài báo cáo Thống kê Dự báo Xây dựng Mô hình Hồi quy tuyến tính Bội cho Dữ liệu Huyết Áp Trần Nam Hưng1*, Lê Phát Tài1 † and Mai Quốc Vinh1 † 1* Khoa Khoa học Tự nhiên, Đại học Cần Thơ, Cần Thơ, Viêt Nam *Corresponding author(s) E-mail(s): hungb1906052@student.ctu.edu.vn; Contributing authors: taib1906071@student.ctu.edu.vn; vinhb1096101@student.ctu.edu.vn; † These authors contributed equally to this work Tóm tắt nội dung Bài báo cáo sử dụng chương trình ngơn ngữ thống kê R nhằm xây dựng mơ hình hồi quy tuyến tính bội đánh giá ảnh hưởng số sinh hóa khác đến số huyết áp bệnh nhân Keywords: Hồi quy tuyến tính, Huyết áp, Kiểm định mơ hình Bài báo cáo Thống kê Dự báo Xây dựng Mơ hình Hồi quy Đa biến Dẫn nhập Bài báo cáo xây dựng mơ hình hồi quy tuyến tính chấp nhận cho liệu bệnh nhân có huyết áp cao Chúng tơi sử dụng lý thuyết thống kê chương trình ngơn ngữ thống kê R để thực khớp mơ hình với liệu Đồng thời kiểm định điều kiện phần dư phát hiện tượng đa cộng tuyến có mơ hình đề suất Bài báo cáo sử dụng liệu ghi nhận từ 20 tình nguyện viên có bệnh với số thống kê số huyết áp (Đơn vị: mmHg) số khác bao gồm độ tuổi (năm), trọng lượng thể (Kg), diện tích bề mặt thể (m2 ), thời gian tăng huyết áp (năm), nhịp mạch (nhịp/phút) số stress Trong đó, số huyết áp người bệnh đối tượng đóng vai trị biến phụ thuộc nghiên cứu Để thuận tiện cho suy luận thống kê sau, gọi tên biến có liệu • • • • • • • Y – số huyết áp (mmHg) X1 – độ tuổi (năm) X2 – trọng lượng thể (Kg) X3 – diện tích bề mặt thể (m2 ) X4 – thời gian tăng huyết áp (năm) X5 – nhịp mạch (nhịp/phút) X6 – số stress Trong báo cáo này, để suy luận trở nên mạch lạc, liệt kê riêng thơng tin phần mềm gói chương trình lệnh sử dụng báo cáo phần phụ lục A để tránh trường hợp lệnh chương trình ngơn ngữ thống kê R bị trùng lắp (và/hoặc để biết lệnh thuộc vào gói chương trình lệnh nào), chúng tơi thống đặt dấu :: sử dụng lệnh Ta tiến hành đọc liệu tên ’huyetap.csv’ lưu định dạng bảng phần phụ lục A vào chương trình ngơn ngữ lập trình thống kê R sau setwd('H:/TOANUNGDUNGK45/ThongKeDuBao/Data') data % dim() ## [1] 20 Ta thể dòng liệu data %>% head() ## ## ## ## ## Y 105 115 116 117 X1 47 49 49 50 X2 85.4 94.2 95.3 94.7 X3 1.75 2.10 1.98 2.01 X4 5.1 3.8 8.2 5.8 X5 63 70 72 73 X6 33 14 10 99 Bài báo cáo Thống kê Dự báo Xây dựng Mơ hình Hồi quy Đa biến ## ## 112 51 89.4 1.89 7.0 72 95 121 48 99.5 2.25 9.3 71 10 Kiểm định hệ số tương quan Đầu tiên, báo cáo xem xét mối quan hệ tương quan biến mẫu liệu Ta có ma trận tương quan tích hợp vào tương quan đồ sau corrplot::corrplot.mixed(cor_data % cor(), tl.cex = 0.5, tl.col = "black", order = "hclust", addCoefasPercent = TRUE, upper = "ellipse") X3 0.8 87 Y 88 95 0.6 0.4 X2 0.2 38 66 41 X1 46 72 66 62 -0.2 X5 -0.4 13 29 20 34 40 X4 16 37 51 31 -0.6 -0.8 X6 -1 Hình Tương quan đồ thể mối tương quan biến tiên lượng biến giải thích Đồ thị phân thành cụm biến có mối tương quan tương tự biểu diễn theo phổ màu Phần đồ thị phía thể mối tương quan trực quan: hình elip dẹt có mối quan hệ tuyến tính cao Đồ thị mô tả mối quan hệ tương quan biến độc lập Xi với hệ số tương quan biến tiên lượng Xi tương tác với biến giải thích Y Nhìn vào tương quan đồ, ta thấy biến Y với biến X1, X2, X3 biến X5 có mối quan hệ tuyến tính thuận cao (từ 66% đến 95%) Cịn biến tiên lượng, ta thấy cặp biến X2 - X3, X2 - X5, X1 - X5 X5 - X6 có mối tương quan tuyến tính với hệ số tương quan 88 , 66 , 62 , 51% Để thấy mối quan hệ tương quan biến huyết áp biến độc lập, ta trực quan đồ thị sau Bài báo cáo Thống kê Dự báo Xây dựng Mô hình Hồi quy Đa biến # Dữ liệu ma trận tương quan cor_data % cor() %>% data.frame() # Chuẩn hóa trục x, y P_cor % ggplot(., aes(x = Variables, y = P_cor, size = Y)) + geom_point(aes(colour = Y)) + coord_polar() + theme_bw() + scale_colour_gradient2(low = "#132B43", high = "#56B1F7") Y 0.8 X1 Y 0.6 0.2 0.4 0.4 0.6 0.2 X6 0.8 X2 P_cor 1.0 0.0 Y 1.0 0.8 0.6 X5 X3 0.4 0.2 X4 Variables Hình Tương quan đồ biến Y biến Xi Đồ thị chuyển đổi tọa độ cực với ý nghĩa điểm dần tâm hình trịn mối quan hệ biến Y biến X cao Câu hỏi đặt thực tế biến Y biến độc lập Xi có thật có mối tương quan tuyến tính với hay khơng Để trả lời có sở, ta phải thông qua kiểm định hệ số tương quan Ở đây, giả thiết đặt kiểm định hệ số cho hai biến hiệu hai biến có mối quan hệ tuyến tính với Đối với liệu thực tế liên quan Bài báo cáo Thống kê Dự báo Xây dựng Mơ hình Hồi quy Đa biến đến sức khỏe, ta thường chọn mức ý nghĩa cao nên không nhắc đến mức ý nghĩa, báo ln chọn α = 0.01 Ta có lệnh kiểm định cor.test cho biến Y biến X1 đơn cử data %>% cor.test(~ Y + X1, data = , conf.level = 001) ## ## ## ## ## ## ## ## ## ## ## Pearson’s product-moment correlation data: Y and X1 t = 3.7182, df = 18, p-value = 0.001574 alternative hypothesis: true correlation is not equal to 0.1 percent confidence interval: 0.6589210 0.6592649 sample estimates: cor 0.659093 Ta thấy p-value có giá trị 0.0015 < 0.01 nên ta chấp nhận đối thiết bác bỏ giả thiết Tức xét tổng thể, ta nhận mối quan hệ tuyến tính thuận hai biến Y X1 Trên thực tế, việc số huyết áp tăng theo độ tuổi có sở Tương tự biến độc lập khác so với biến Y ta quan tâm đến kết thu gọn theo bảng sau Bảng Bảng kết kiểm định hệ số tương quan biến Y biến Xi Ở Y p_value Kết luận Cận Cận X1 X2 X3 X4 X5 X6 0.001574 1.528e-10 8.114e-07 0.2102 0.0003307 0.4869 Có tương quan1 Có tương quan Có tương quan Khơng có tương quan Có tương quan Khơng có tương quan 0.6589 0.9500 0.8658 0.2926 0.7213 0.1647 0.6593 0.9501 0.8660 0.2931 0.7216 0.1653 Ghi chú: Kết luận có tương quan tức hai biến Y X thực tế tuân theo mối quan hệ tuyến tính Nhìn vào bảng 1, ta có kết luận số huyết áp với yếu tố khác Cụ thể, số huyết áp có mối quan hệ thuận với độ tuổi X1, trọng lượng thể X2, diện tích bề mặt thể X3 nhịp mạch X5 Hai yếu tố tương quan tuyến tính huyết áp thời gian tăng huyết áp X4 số stress X6 Đồng thời bảng đưa hệ số tương quan ước lượng cho tổng thể với mức ý nghĩa 1% qgraph::qgraph(data %>% cor(), graph = 'cor', layout = "spring", threshold = "sig", Bài báo cáo Thống kê Dự báo Xây dựng Mơ hình Hồi quy Đa biến sampleSize = nrow(data), alpha = 0.01) X5 X2 X1 Y X3 X4 X6 Hình Mạng tương quan biến với độ dày thể mức độ tương tác Mạng tương quan thể tương tác có ý nghĩa thống kê biến Rõ ràng, ta thấy biến Y có tương tác với X1, X2, X3, X5 đề cập Ở đây, ta thấy mối tương quan có ý nghĩa thống kê biến độc lập cặp biến X2 - X3, X2 - X5 cặp biến X1 - X5 Kiểm tra lại kiểm định ta có kết kiểm định cặp biến trình bày bảng Tóm lại: Ta có kết luận chung sau Đối với mối tương quan biến huyết áp ta có biến độ tuổi, trọng lượng thể, diện tích bề mặt thể nhịp mạch tỷ lệ thuận cao có ý nghĩa thống kê Đối với biến độc lập, số cặp biến có tương quan thuận cao có ý nghĩa thống kê độ tuổi cao nhịp mạch tăng, trọng lượng thể lớn diện tích bề mặt thể nhịp mạch tăng Khớp mơ hình hồi quy Ta tiến hành xây dựng mơ hình hồi quy đa biến liệu huyết áp tóm tắt mơ sau model % summary() ## ## Call: ## lm(formula = Y ~ , data = data) ## ## Residuals: Bài báo cáo Thống kê Dự báo Xây dựng Mơ hình Hồi quy Đa biến ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## Min 1Q -0.93286 -0.11329 Median 0.03272 3Q 0.21817 Max 0.48418 Coefficients: Estimate Std Error t value Pr(>|t|) (Intercept) -12.868643 2.556610 -5.033 0.000229 *** X1 0.703337 0.049603 14.179 2.76e-09 *** X2 0.969967 0.063116 15.368 1.02e-09 *** X3 3.772191 1.580670 2.386 0.032909 * X4 0.068421 0.048437 1.413 0.181272 X5 -0.084505 0.051610 -1.637 0.125521 X6 0.005572 0.003412 1.633 0.126406 Signif codes: ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ Residual standard error: 0.4072 on 13 degrees of freedom Multiple R-squared: 0.9962, Adjusted R-squared: 0.9944 F-statistic: 560.7 on and 13 DF, p-value: 6.392e-15 Dựa vào kết tóm tắt ta có số nhận xét sau Phương trình hồi quy tuyến tính khớp với liệu có dạng Y = −12.87 + 0.07X1 + 0.97X2 + 3.77X3 + 0.07X4 − 0.08X5 + 0.01X6 mơ hình có hệ số xác định hệ số xác định điều chỉnh mức cao (giải thích đến 99.4% phương sai biến Y) hầu hết biến khơng có ý nghĩa thống kê (mức ý nghĩa 0.01) Điều cho phép ta nghi ngờ xuất hiện tượng đa cộng tuyến Kiểm định giả thiết 4.1 Xác định đa cộng tuyến Sử dụng tích hợp nhiều số đặc thù để phát cộng tuyến biến Xi ta có kết sau mctest(model, type = "b", all = TRUE) ## ## ## ## ## ## ## ## ## ## Call: omcdiag(mod = mod, Inter = Inter, detr = detr, red = red, conf = conf, theil = theil, cn = cn) Overall Multicollinearity Diagnostics Determinant |X’X|: MC Results detection 0.0308 Bài báo cáo Thống kê Dự báo ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## Xây dựng Mô hình Hồi quy Đa biến Farrar Chi-Square: Red Indicator: Sum of Lambda Inverse: Theil’s Method: Condition Number: 56.2853 0.4425 23.0001 -1.4346 201.5407 0 1 > COLLINEARITY is detected by the test > COLLINEARITY is not detected by the test =================================== Call: imcdiag(mod = mod, method = method, corr = FALSE, vif = vif, tol = tol, conf = conf, cvif = cvif, ind1 = ind1, ind2 = ind2, leamer = leamer, all = all) All Individual Multicollinearity Diagnostics in or X1 X2 X3 X4 X5 X6 VIF TOL Wi Fi Leamer CVIF Klein IND1 IND2 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 > COLLINEARITY is detected by the test > COLLINEARITY is not detected by the test X4 , X5 , X6 , coefficient(s) are non-significant may be due to multicollinearity R-square of y on all x: 0.9962 * use method argument to check which regressors may be the reason of collinearity =================================== Qua kết trên, ta thấy số phóng xạ phương sai (VIF) biến độc lập sau khớp mơ hình tuyến tính không vượt 10 Tương tự, số dùng để nhận dạng đa cộng tuyến không phát tồn tượng cộng tuyến Hơn nữa, ta xét số Theil xem xét mối tương quan biến độc lập với biến phụ thuộc mơ hình Bài báo cáo Thống kê Dự báo Xây dựng Mơ hình Hồi quy Đa biến −1.4346 < 0.5 khơng có tượng đa cộng tuyến cao biến độc lập phụ thuộc Chương trình lệnh lưu ý đến biến X4, X5 X6 có hệ số hồi quy khơng có ý nghĩa thống kê ngun nhân dẫn đến tượng đa cộng tuyến Vì vậy, chúng tơi sử dụng bốn phương pháp chọn mơ hình tối ưu bao gồm: phương pháp Forward, Backward, Stepwise dựa vào số AIC phương pháp BMA nhằm loại bỏ biến khơng có ý nghĩa thống kê Ta có phương pháp lựa chọn mơ hình có khác cho kết sau ols_step_forward_aic(model) ## ## ## ## ## ## ## ## ## ## Selection Summary -Variable AIC Sum Sq RSS R-Sq Adj R-Sq -X2 82.817 505.472 54.528 0.90263 0.89722 X1 36.315 555.176 4.824 0.99139 0.99037 X3 29.186 556.944 3.056 0.99454 0.99352 X4 28.863 557.279 2.721 0.99514 0.99385 ols_step_both_aic(model) ## ## ## ## ## ## ## ## ## ## ## Stepwise Summary Variable Method AIC RSS Sum Sq R-Sq Adj R-Sq X2 addition 82.817 54.528 505.472 0.903 0.897 X1 addition 36.315 4.824 555.176 0.991 0.990 X3 addition 29.186 3.056 556.944 0.995 0.994 X4 addition 28.863 2.721 557.279 0.995 0.994 - BMA::bicreg(data[, -1], data[, 1], strict = FALSE) ## ## ## ## ## ## ## ## ## ## ## Call: BMA::bicreg(x = data[, -1], y = data[, 1], strict = FALSE) Posterior probabilities(%): X1 X2 X3 X4 X5 100.0 100.0 97.9 42.0 35.7 X6 41.3 Coefficient posterior expected values: (Intercept) X1 X2 X3 X4 Bài báo cáo Thống kê Dự báo 10 Xây dựng Mơ hình Hồi quy Đa biến ## ## ## -13.308238 0.696872 0.923442 4.383130 0.028167 X5 X6 -0.022441 0.001883 Từ kết lựa chọn mơ hình ta thấy so sánh AIC theo nguyên tắc tiến (forward) phương pháp stepwise chọn bốn biến độc lập X1, X2, X3, X4 làm mơ hình tối ưu với AIC thấp Phương pháp Backward ngược lại không loại bỏ mô hình mà giữ ngun mơ hình tuyến tính sáu biến Nhưng đến với phương pháp BMA, ta nhận biến X4 có xác suất hậu nghiệm đạt 42% thấp so với ba biến mơ hình Hơn xác suất hậu nghiệm mơ hình chứa ba biến đạt 26.3% so với xác suất hậu nghiệm mơ hình chứa bốn biến (18.9%) lớn cao Ta tiến hành kiểm định LR cho hai mơ hình Y ~ X1, X2, X3 Y ~ X1, X2, X3, X4 với giả thiết thống kê hệ số biến X4 m1 Chisq) = 0.13 > 1% nên có chứng kết luận bác bỏ giả thiết hệ số X4 Từ ta thiên hướng chọn ba biến X1, X2, X3 để xây dựng mơ hình hồi quy tuyến tính bội với biến có ý nghĩa thống kê hệ số xác định điều chỉnh đạt 99.4% Nhìn lại mơ hình ta có kết sau new_model chi2) 0.0000 g 6.226 ## ## Residuals ## ## Min 1Q Median 3Q Max Bài báo cáo Thống kê Dự báo Xây dựng Mơ hình Hồi quy Đa biến ## ## ## ## ## ## ## ## ## -0.75810 -0.24872 0.01925 0.29509 11 0.63030 Coef S.E t Pr(>|t|) Intercept -13.6672 2.6466 -5.16 Chi2 = 0.6822445 Chỉ số P rob > Chi2 = 0.68 nên ta chấp nhận giả thiết phương sai số Ngồi ra, chúng tơi kiểm định Goldfeld-Quandt cho mơ hình cho kết p-value < 0.01 Vậy mơ hình khơng có tượng phương sai nhiễu thay đổi 4.2.3 Kiểm định kỳ vọng sai số ngẫu nhiên Một cách rõ ràng, kiểm định ttest ta biết liệu kỳ vọng sai số ngẫu nhiên có thật khác hay không nhờ vào lệnh t.test t.test(data$res, mu = 0, sd = sd(data$res)) ## ## ## ## ## ## ## ## ## ## ## One Sample t-test data: data$res t = 1.9344e-17, df = 19, p-value = alternative hypothesis: true mean is not equal to 95 percent confidence interval: -0.1877021 0.1877021 sample estimates: mean of x 1.734723e-18 Tóm lại: Mơ hình gồm biến có phần dư tn theo phân phối chuẩn, khơng có phương sai nhiễu có kỳ vọng khơng Mơ hình gồm ba biến X1, X2, X3 khơng có khuyết tật Kết luận Bài báo cáo xây dựng hồi mơ hình hồi quy tuyến tính bội thể số huyết áp bị ảnh hưởng ba yếu tố độ tuổi, trọng lượng thể diện tích bề mặt thể với phương trình hồi quy tuyến tính biểu diễn sau Y = -13.67 + 0.70*X1 + 0.91*X2 + 4.63*X3 Mơ hình nhận khơng có khuyết tật thỏa mãn biến số có ý nghĩa thống kê Bài báo cáo Thống kê Dự báo Xây dựng Mơ hình Hồi quy Đa biến Phụ lục A data ## ## ## ## ## ## ## ## ## ## ## 10 ## 11 ## 12 ## 13 ## 14 ## 15 ## 16 ## 17 ## 18 ## 19 ## 20 Y 105 115 116 117 112 121 121 110 110 114 114 115 114 106 125 114 106 113 110 122 15 Dữ liệu X1 X2 X3 X4 X5 X6 47 85.4 1.75 5.1 63 33 49 94.2 2.10 3.8 70 14 49 95.3 1.98 8.2 72 10 50 94.7 2.01 5.8 73 99 51 89.4 1.89 7.0 72 95 48 99.5 2.25 9.3 71 10 49 99.8 2.25 2.5 69 42 47 90.9 1.90 6.2 66 49 89.2 1.83 7.1 69 61 48 92.7 2.07 5.6 64 35 47 94.4 2.07 5.3 74 90 49 94.1 1.98 5.6 71 21 50 91.6 2.05 10.2 68 47 45 87.1 1.92 5.6 67 80 52 101.3 2.19 10.0 76 98 46 94.5 1.98 7.4 69 95 46 87.0 1.87 3.6 62 18 46 94.5 1.90 4.3 70 12 48 90.5 1.88 9.0 71 99 56 95.7 2.09 7.0 75 99 Phụ lục B Chương trình lệnh nguồn mã Phần liệt kê gói chương trình lệnh đường dẫn đến nguồn mã lập trình sử dụng báo cáo library(tidyverse) library(ggplot2, ggfortify) library(car, rms, olsrr, MASS) library(BMA) library(corrplot, qgraph) library(mctest, lmtest) Bài báo cáo Thống kê Dự báo 16 Xây dựng Mơ hình Hồi quy Đa biến Bảng Bảng kết kiểm định hệ số tương quan biến Y biến Xi Ở Cặp biến p_value Kết luận X1, X1, X1, X1, X1, X2, X2, X2, X2, X3, X3, X3, X4, X4, X5, 0.07464 0.09989 0.1378 0.003631 0.1103 4.365e-07 0.3963 0.001565 0.8814 0.5833 0.03893 0.9326 0.07931 0.1816 0.02261 Khơng có tương Khơng có tương Khơng có tương Có tương quan Khơng có tương Có tương quan Khơng có tương Có tương quan Khơng có tương Khơng có tương Khơng có tương Khơng có tương Khơng có tương Khơng có tương Khơng có tương X2 X3 X4 X5 X6 X3 X4 X5 X6 X4 X5 X6 X5 X6 X6 Ghi quan quan quan quan quan quan quan quan quan quan quan quan chú: Kết luận có tương quan tức hai biến Xi Xj (i ̸= j ) thực tế tuân theo mối quan hệ tuyến tính ... cáo Thống kê Dự báo Xây dựng Mơ hình Hồi quy Đa biến Dẫn nhập Bài báo cáo xây dựng mơ hình hồi quy tuyến tính chấp nhận cho liệu bệnh nhân có huyết áp cao Chúng sử dụng lý thuyết thống kê chương... trọng lượng thể lớn diện tích bề mặt thể nhịp mạch tăng Khớp mơ hình hồi quy Ta tiến hành xây dựng mơ hình hồi quy đa biến liệu huyết áp tóm tắt mơ sau model % summary()... vọng phát khắc phục khuyết tật có mơ hình hồi quy tuyến tính 4.2.1 Kiểm định tính chuẩn Đầu tiên, ta tiến hành trích xuất phần dư mơ hình hồi quy thêm vào liệu data new_model