Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 63 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
63
Dung lượng
3,37 MB
Nội dung
Tài liệu hướng dẫn thống kê y học sử dụng SPSS Hồi quy tuyến tính đa biến Lê Đông Nhật Nam Lời nói đầu Chào bạn, lại có dịp gặp lần để bàn chủ đề thú vị, mô hình hồi quy tuyến tính Thực bạn sinh viên Y khoa chịu thiệt thòi nhiều sinh viên ngành Kinh tế, bên mô hình hồi quy dạy chi tiết sâu Tuy nhiên việc khám chữa bệnh ngày, lại ứng dụng mô hình hồi quy nhiều, để tiên lượng dự báo Tất khái niệm định lượng sống liên quan tới phương pháp Khi học sinh lớp 7, người ta bắt trẻ khảo sát vẽ đồ thị hàm số bậc nhất, giải phương trình bậc năm sau học sinh lại bị ép buộc phải khảo sát hàm bậc cao hơn, giải phương trình phức tạp hơn… chưa trường lớp dạy cho ta biết ý nghĩa thực việc nhàm chán Trong đời ta liên tục chịu áp lực thành/bại hoàn cảnh khó khăn ta phải tự tìm giải pháp cho Một tình dự báo kết (1 số) từ nhiều yếu tố khách quan, với hy vọng thay đổi số phận Muốn thi vào Y khoa phải học môn Toán, Hóa, Sinh, vào đại học phải lo dự báo điểm tốt nghiệp, điểm TOIEC, IELTS…, làm lập kế hoạch tài chánh cho việc kết hôn, mua nhà… tất hàm số đa biến mà kết (Y) đảo lộn hoàn toàn thay đổi nhỏ biến số, hệ số, tham số bên Ngược lại, nghiệm giá trị (X) giải phương trình đời Cuộc đời thực dạy môn toán cho tốt ông thầy Qua tập tài liệu « nhỏ » này, tác giả hy vọng giúp bạn thực phân tích hồi quy tuyến tính cách dễ dàng nhanh chóng Có thể bạn bác sĩ nội trú chạy đua với thời gian hoàn thành luận văn, sinh viên y khoa tò mò vọc phá SPSS, không nội dung trình bày cách tiếp cận tài liệu giản dị Như thường lệ, BS Khả Nhi đơn giản hóa tối đa lý thuyết phức tạp trao cho bạn công cụ dễ sử dụng, cho phép bạn tự làm thứ sau đọc xong Chúc bạn thành công Quy ước trình bày Trong tài liệu làm quen với nhân vật Bác sĩ Nguyễn Văn Thái Bác sĩ Thái cao thủ thống kê y học giang hồ Anh ta xuất trước vấn đề khó khăn, nhằm đưa câu trả lời xác ôn lại cho bạn kiến thức chuyên sâu lý thuyết thống kê Tuy nhiên BS Thái lại bận rộn nên không đủ thời gian vào cách thực chi tiết Anh ta hay trình bày lý thuyết túy sử dụng nhiều công thức toán học nên không gần gũi với sinh viên gây không trở ngại cho bạn vốn dị ứng với thống kê … Bác sĩ Lê Ngọc Khả Nhi Khả Nhi nữ bác sĩ trẻ dễ thương sử dụng thành thạo SPSS Như tên gọi mình, BS Nhi có tính cách hồn nhiên ngây thơ trẻ con, cô có khuynh hướng đơn giản hóa tối đa vấn đề Khả Nhi hướng dẫn bạn sử dụng SPSS qua bước cụ thể, chia sẻ mẹo vặt, thủ thuật để giúp bạn đến kết nhanh dễ dàng Sinh viên Trần Quốc Bảo Bảo sinh viên y khoa năm thứ sáu bắt đầu làm quen với nghiên cứu khoa học Đây cậu sinh viên tò mò đặt nhiều câu hỏi liên quan đến thống kê Mặc dù đế tài Bảo thực đơn giản, đồng hành với cậu ta, bạn có hội tích lũy cho nhiều kinh nghiệm công việc phân tích số liệu thiết kế nghiên cứu 1.1 Tình thí dụ Thẩm phân phúc mạc Khảo sát vận tốc sóng mạch Vận tốc lan truyền sóng mạch số cận lâm sàng cho phép khảo sát tính đàn hồi thành động mạch Các bệnh nhân can thiệp thẩm phân phúc mạc hay lọc thận nhân tạo kéo dài có nguy tăng độ cứng thành mạch Trong nghiên cứu nhỏ này, bác sĩ nội trú khoa ngoại niệu muốn khảo sát liên hệ vận tốc sóng mạch cổ chân-cánh tay với đặc điểm lâm sàng điều trị 40 bệnh nhân phân phúc mạc định kỳ kéo dài > tháng Vận tốc sóng mạch đo máy Omron VP-1000 Các yếu tố lâm sàng điều trị thu thập gồm có Tuổi, số đo huyết áp, BMI, thời gian thẩm phân phúc mạc; loại thuốc hạ áp khác như: Ức chế men chuyển, đối kháng thụ thể Angiotensin, Beta blocker, Calci blocker Sau hoàn tất số liệu, phải dùng phương pháp thống kê để trả lời cho câu hỏi nghiên cứu đặt ban đầu ? Bảo thân mến, trường hợp điển hình áp dụng phân tích hồi quy tuyến tính đa biến Đây phương pháp toàn diện triệt để nhiều so với phân tích tương quan Pearson rời rạc Chúng ta khởi hành ? 1.2 Giới thiệu Phù hợp ? Y Mẫu khảo sát Y Giá trị quan sát thực tế (Y) Giá trị dự báo: Pred(Y) Biến định tính nhị phân N trường hợp Tương quan tuyến tính Y A B A D C Biến định lượng Biến thứ hạng Mô hình hồi quy [M] Quần thể chung Pred Y t.bình Y Tương quan phận Y A,B,C,D… A B D C Y A Pred Yi Cá thể i B A D C Dự báo giá trị Y thể Trong quần thể ngẫu nhiên Mô hình hồi quy [M] Nguyên tắc hồi quy tuyến tính: Trong mẫu khảo sát với n đối tượng, nghiên cứu sinh ghi nhận giá trị thực tế Y,A,B,C,D Y biến số định lượng liên tục (biến phụ thuộc) A,B,C,D biến độc lập hay yếu tố dự báo, hay tham số Chúng biến định lượng, định tính thứ hạng Nghiên cứu sinh xây dựng mô hình hồi quy có dạng: Y=Hằng số Bo +b1*A+b2*B+b3*C+ sai số ngẫu nhiên Mô hình cho phép dự báo giá trị Y = Pred(Y) Nếu mô hình phù hợp tốt, Pred(Y) gần với Y thực tế Ứng dụng phân tích hồi quy tuyến tính: Cho phép dự báo giá trị Y cá thể i quần thể chung, xác định giá trị Y trung bình, giới hạn Y quần thể đồng Ứng dụng hữu ích lâm sàng: xác định giá trị bình thường đại lượng sinh lý, bệnh học ngưỡng chẩn đoán, tiên lượng kết điều trị… Khảo sát mối liên hệ riêng phận yếu tố độc lập đại lượng Y Mô hình hồi quy cho nhìn toàn diện xác so với phép phân tích tương quan đơn giản, quan hệ Y yếu tố Mô hình hồi quy giải pháp tối ưu để chứng minh giả thuyết nghiên cứu phức tạp chứa nhiều biến số Mô hình hồi quy tuyến tính sở nhiều thiết kế nghiên cứu khảo sát, so sánh biến số định lượng; tất thiết kế thông dụng test t cho phân nhóm độc lập, ANOVA đơn biến, ANCOVA, Moderation, Mediation… có chất mô hình hồi quy tuyến tính Kết luận: Nên sử dụng phương pháp hồi quy tuyến tính cho: Thiết kế nghiên cứu định lượng, với nhiều biến số, và/hoặc với mục đích dự báo 1.2 Giới thiệu Trong trường hợp đơn giản ta có: Mẫu khảo sát Y Giá trị dự báo Y = số + hệ số x biến số dự báo + sai số Y =Bo+ b*X + ε Mô hình mở rộng với nhiều biến số (hay yếu tố) dự báo (x1, x2… xi) N=5 trường hợp X Y Hằng số bo hệ số dự báo đặc biệt tương ứng với giá trị biến số dự báo x=0 Nếu bạn nhớ kỷ niệm năm lớp 7, bạn nhận hàm số bậc Còn kiến thức năm lớp 12 cho biết phương trình đường thẳng hệ tọa độ OXY Đồ thị hàm số dự báo đường thẳng, cắt trục tung OY giá trị bo, với hệ số góc b1 (nếu có yếu tố dự báo b1 hệ số dự báo) bo X Mô hình hồi quy tuyến tính đơn giản có biến số, gọi hồi quy đơn biến : Y = bo + bx + ε Mô hình hồi quy tuyến tính tổng quát chứa nhiều yếu tố dự báo, gọi hồi quy đa biến : Y = bo + (b1x1)+(b2x2)+… (bi*Xi) + ε Hàm số cho phép dự báo giá trị y tùy theo giá trị x cho trước Trong phương pháp hồi quy tuyến tính : Ví dụ mô hình hồi quy biến: Đồ thị quan hệ chiều vận tốc sóng mạch Tuổi, HA tâm thu Y gọi biến số phụ thuộc (dependent variable) hay giá trị dự báo (predicted outcome) X gọi biến số độc lập (independent variable) hay yếu tố dự báo (factor, predictor) Giá trị ε gọi sai số hay phần bất định (residual, error) B gọi hệ số hồi quy (Beta) Một mô hình xem tốt cho giá trị dự báo phù hợp với giá trị thực tế quan sát (tính phù hợp liệu tiêu chuẩn để đánh giá chất lượng mô hình) 1.3 Test F Fisher Mô hình hồi quy cho phép dự báo thu 10,000 mũi tên ± sai số ngẫu nhiên Mô hình có k= (tính số Bo) Gia Cát Lượng áp dụng lần nhất, đầu ông ta làm bootstrap lần ? Mức độ phù hợp số liệu mô hình đánh giá test F (giống test F mà ta biết ANOVA) F tỉ số giá trị trung bình phương sai hệ thống (do mô hình: MSM) trung bình phương sai ngẫu nhiên (MSR) 𝑆𝑆𝑀 ) 𝑀𝑆𝑀 𝑑𝑓𝑀 𝐹= = 𝑆𝑆𝑅 𝑀𝑆𝑅 𝑑𝑓𝑅 ( dfM SSM dfR SSR SST Trong MSM trung bình bình phương sai số mô hình, MSR trung bình bình phương sai số không mô hình (yếu tố ngẫu nhiên, phần bất định): SSM SSR tổng phương sai mô hình yếu tố ngẫu nhiên dfM dfR độ tự SSM SSR Trung bình bình phương tổng bình phương chia cho độ tự df dfM = số lượng yếu tố dự báo (biến số x) có mô hình; 𝑑𝑓𝑀 = 𝑘 ví dụ mô hình dự báo y = bo+b1*X1+b2*X2 có yếu tố (Bo, X1, X2) df =3 dfR = số trường hợp quan sát (cỡ mẫu) trừ cho số lượng tham số k (bao gồm số bo hệ số bi) 𝑑𝑓𝑅 = 𝑁 − 𝑘 ví dụ mô hình y = bo+b1x thiết lập dựa vào quần thể có n = 20, dfR = 20 –2 = 18 Căn bậc hệ số R2 hệ số tương quan r Pearson, đo lường tương quan Y X 1.3 Test F Fisher F for « Fisher » Kiểm định F GS Ronald A Fisher thiết kế năm 1920 Test F dùng để kiểm tra giá trị mô hình hồi quy Not this Fisher ! Giáo sư Ronald Aylmer Fisher (1890-1962) Nhà di truyền học thống kê người Anh F khảo sát mức độ phù hợp mô hình, tỉ lệ khả dự báo nội phần sai số ngẫu nhiên Giá trị F > trông đợi, F cao mô hình tốt (càng phù hợp tốt với liệu thực tế ) MSR nhỏ sai biệt giá trị dự báo giá trị thực tế nhỏ) F biểu diễn test thống kê kiểm tra ý nghĩa hệ số R2 𝐹= 𝑁 − 𝑘 − 𝑅2 𝑘(1 − 𝑅2 ) Với N = số trường hợp, k số lượng yếu tố dự báo Với giả thuyết H0 R2 = 1.4 Test t: kiểm tra ý nghĩa hệ số hồi quy Beta Cây ta đánh giá ý nghĩa yếu tố dự báo (biến số x), thông qua hệ số hồi quy Beta (B) Một yếu tố dự báo (hay biến xi) ý nghĩa nhận hệ số bi=0 ; tức dù xi thay đổi không ảnh hưởng đến y Như vậy: giả thuyết H0: bi = Để kiểm tra giả thuyết liệu số khác ?, ta lại sử dụng test t Đầu tiên ta tính giá trị t: 𝑡= Do b giả thuyết = 0, nên 𝑡 = 𝑏 𝑡ℎự𝑐 𝑡ế − 𝑏 𝑔𝑖ả 𝑡ℎ𝑢𝑦ế𝑡 𝑆𝐸𝑏 𝑏 𝑚𝑜𝑑𝑒𝑙 𝑆𝐸𝑏 Độ tự t 𝑑𝑓𝑡 = (𝑁 − 𝑘) − Trong k số lượng yếu tố dự báo (biến số) Ví dụ mô hình hồi quy tuyến tính đơn biến có dft = (N-2) Kiểm tra giả thuyết cách đọc bảng t, tìm giá trị p… ta biết Đến đây, bạn phát điều thú vị hầu hết phương pháp ta thường dùng (so sánh test t, ANOVA, tương quan pearson) dẫn nguồn gốc chung mô hình hồi quy tuyến tính 2.1 Quy trình phân tích hồi quy đa biến SPSS Mục tiêu: Lọc biến số độc lập có quan hệ mạnh với biến số Y Thăm dò biến số Thăm dò mô hình hồi quy đa biến Công cụ: Biến định lượng: Kiểm tra ma trận tương quan, sử dụng r Pearson Biến định tính: Kiểm tra mô hình hồi quy đơn biến Mục tiêu: Tìm mô hình hồi quy tối ưu với tiêu chí: khả dự báo tốt nhất, sai số thấp nhất, phù hợp liệu cao Phương pháp: Thăm dò bước tất khả tổ hợp biến số độc lập Có thể làm thủ công, áp dụng quy trình tự động (stepwise, thoái triển, tiến triển SPSS) Kiểm tra nội dung mô hình tối ưu Sau tìm mô hình tối ưu cuối bước 2, ta chạy phân tích hồi quy lần mô hình này, có lưu liệu sai số Mục tiêu: + Kiểm tra giả định phẩm chất mô hình + Phát điểm cá biệt gây ảnh hưởng xấu cho mô hình + Phát vi phạm đa cộng tuyến, tự tương quan… Kiểm tra ý nghĩa phổ quát mô hình Chạy phân tích hồi quy lần cho mô hình tối ưu, lần có kèm Bootstrap Mục tiêu: Kiểm tra lần cuối ý nghĩa phổ quát hệ số hồi quy Không có quy trình cố định cho việc xây dựng mô hình hồi quy tối ưu Tài liệu không đưa quy trình cụ thể Quy trình đơn giản hay phức tạp tùy thuộc vào câu hỏi nghiên cứu, số lượng biến số cần nghiên cứu phẩm chất bảng số liệu Trong đa số trường hợp, bạn cần qua công đoạn: (1) Tìm phần « lõi » mô hình cách phân lập biến số có tương quan mạnh với Y (2) Thăm dò tất tổ hợp phần lõi biến số nghi ngờ, công đoạn làm thủ công tự động; (3) Khi loại bỏ tất biến số yếu, ta có mô hình tối ưu, chưa đủ, bạn phải kiểm tra khả dự báo xác phát case không phù hợp với mô hình (4) Cuối cùng, bạn áp dụng bootstrap để kiểm tra ý nghĩa phổ quát mô hình Bootstrap cho phép cải thiện số vi phạm số liệu mà bước phát 2.2 Mô tả giao diện chức phân tích hồi quy SPSS 2.2.1 Kích hoạt chức phân tích hồi quy Quy trình hồi quy tuyến tính giao diện 1-3) Kích hoạt quy trình: Nhấn Analyze > Regression > Linear 4) Kéo biến số Y vào ô Dependent 5) Chọn phương pháp : Enter, Stepwise, Backward, Forward… 6) Kéo biến số dự báo vào ô Independent 7) Tùy chỉnh thống kê 5.2 Diễn giải kết mô hình tối ưu Coefficientsa Standardi zed Unstandardized Coefficient 95,0% Confidence Coefficients s Interval for B a Model (Constant) Tuổi b c d Lower Beta t Sig 2,889 e Collinearity Statistics Correlations Upper Zero- f g h Toleran j i Bound Bound order Partial Part ce VIF ,007 231,669 1323,608 B Std Error 777,639 269,203 13,546 2,107 ,582 6,431 ,000 9,274 17,818 ,961 ,731 ,235 ,163 6,150 5,076 1,407 ,278 3,608 ,001 2,222 7,929 ,914 ,515 ,132 ,223 4,479 -15,141 6,627 -,159 -2,285 ,028 -28,582 -1,701 -,871 -,356 -,083 ,274 3,649 HA T.Thu (mmHg) BMI (kg/m2) a Dependent Variable: BA.PWV (cm/s) Bảng Hệ số hồi quy (hay nội dung tham số mô hình): Nội dung: Đây kết quan trọng nhất, khảo sát mô hình đến đơn vị nhỏ hệ số hồi quy, phân tích sâu vai trò yếu tố Những thông tin trình bày phân làm nhóm: Nhóm 1: Khảo sát vai trò yếu tố dự báo a Hệ số hồi quy Beta chưa chuẩn hóa Sai số chuẩn Beta b Hệ số hồi quy Beta chuẩn hóa c Trị số t , nhằm kiểm tra giả thuyết H0 Beta=0 d Ý nghĩa thống kê test t Nếu p0,2 Giá trị 0 : quan hệ tỉ lệ thuận hay tương quan thuận : Xi tăng Y tăng, Xi giảm Y giảm B 0,2 giá trị trông đợi Hoặc VIF trung bình gần với 1: chắn đa cộng tuyến 5.3 Kiểm tra giả định phù hợp liệu * Bước 4B: Chẩn đoán Sai số thặng dư chuẩn hóa USE ALL COMPUTE ABSRSD=ABS(ZRE_1) EXECUTE RECODE ABSRSD (2 thru 2.49999=1) (2.5 thru 2.9999=2) (3 thru Highest=3) (Lowest thru 2=0) VALUE LABELS ABSRSD 0"Tốt" 1">2" 2">2.5" 3">3" FREQUENCIES VARIABLES=ABSRSD /ORDER=ANALYSIS EXAMINE VARIABLES=ZRE_1 /PLOT BOXPLOT NPPLOT /COMPARE GROUPS /STATISTICS DESCRIPTIVES /CINTERVAL 95 /MISSING PAIRWISE /NOTOTAL EXECUTE Khối lệnh 4B thi hành lúc với 4A, nội dung bước 4B để kiểm tra giả định phân phối sai số chuẩn hóa phát nhanh trường hợp không phù hợp với mô hình Đầu tiên, tác giả dùng lệnh Compute để tính giá trị tuyệt đối ZRE_1 sai số chuẩn hóa theo Student lưu biến tên ABSRSD Sau phát trường hợp có ABS(ZRE_1) >2, >2,5 > 3, dán nhãn cho chúng Sau thực lệnh thống kê mô tả cho biến ABSRSD để xác định: - Bao nhiêu phần trăm trường hợp có ABS(ZRE) > 2, >2,5 hay >3 ? Cuối cùng, tác giả dùng lệnh EXAMINE để thăm dò thân biến số sai số chuẩn hóa (ZRE) để khảo sát phân phối histogram, Q-Q plot test Shapiro-Wilk Tiêu chuẩn: Mô hình xem phù hợp tốt với mẫu khảo sát nếu: ≤ 5% số trường hợp có ABS(ZRE) > ≤ 1% số trường hợp có ABS(ZRE) > 2,5 Tất trường hợp có ABS(ZRE) > xem điểm cá biệt (outliers), chúng không phù hợp với mô hình Khi phát điểm outliers, bạn phải chạy lại phân tích hồi quy (bước 4A) lần, với quần thể CÓ KHÔNG CÓ outliers này, so sánh R2, AIC, BIC hệ số hồi quy mô hình với Nếu kết sai lệch không đáng kể, bạn báo cáo nội dung mô hình giải thích rõ bạn giữ outliers hay loại bỏ chúng 5.3 Kiểm tra giả định phù hợp liệu ABSRSD Cumulative Valid Frequency Percent Valid Percent Percent Tốt 39 97,5 97,5 97,5 >2 2,5 2,5 100,0 Total 40 100,0 100,0 Trong thí dụ này, bảng mô tả biến ABSRSD cho thấy kết an toàn cho mô hình: 97,5 trường hợp phù hợp tốt vối mô hình (ABS(ZRE) 2 Đây chưa phải outrliers Như mô hình phù hợp với liệu ngược lại Tests of Normality Kolmogorov-Smirnova Standardized Residual Shapiro-Wilk Statistic df Sig Statistic df Sig ,109 40 ,200* ,979 40 ,667 * This is a lower bound of the true significance a Lilliefors Significance Correction Kết QQ plot test Shapiro-Wilk tốt, cho thấy sai số chuẩn có phân phối bình thường Tốt Ghi chú: Giá trị trông đợi cùa Shapiro-Wilk test p>0,05 Xấu 5.3 Kiểm tra giả định phù hợp liệu Quan sát histogram sai số chuẩn hóa: Nếu phân phối bình thường tốt, sai số phân phối chuẩn Dấu hiệu phân phối bình thường đường cong hình chuông có đỉnh trùng với giá trị ZRE =0, Lưu ý: phân phối nhạy với cỡ mẫu, n nhỏ dễ dẫn tới phân phối không bình thường Tương tự, quan sát biểu đồ P-P sai số chuẩn hóa: Nếu điểm phân bố gần dọc theo đường phân giác dấu hiệu tốt: SRE có phân phối chuẩn Tốt Xấu Nếu điểm phân bố xa khỏi đường phân giác: có vi phạm giả định phân phối chuẩn sai số Quan sát biểu đồ tương quan tuyến tính Y=sai số chuẩn hóa theo student (Zresid) X= Giá trị dự báo chuẩn hóa (Zpred): Nếu điểm giá trị phân bố ngẫu nhiên (không có quan hệ tuyến tính) tốt, thỏa giả định đồng phương sau Nếu điểm tạo thành khuynh hướng phi tuyến tính rõ rệt (1 đường cong bất kì), tức có vi phạm giả định tuyến tính Nếu điểm vừa tạo thành đường cong, vừa có điểm ngoại lai rải rác giả định nêu bị vi phạm 5.4 Phát điểm giá trị cá biệt gây ảnh hưởng bất lợi cho mô hình Tiêu chuẩn khoảng cách Cook Cook’s distance cho phép đánh giá ảnh hưởng trường hợp cá thể lên mô hình (thiết lập năm 1982 Cook Weisberg) Giá trị Cook’s distance sai lưu vào databse với tên biến số COO_1 Ngưỡng an toàn Bất kì trường hợp có COO_1 > có nguy ảnh hưởng xấu lên mô hình Tác giả lập trình sẵn cho bạn khối lệnh 4C nhằm diễn giải Cook’s distance cho trường hợp: *Bước 4C: Chẩn đoán Cook's distance USE ALL COMPUTE Cook=(COO_1 > 1) VALUE LABELS Cook 0"Tốt" 1"Có vấn đề" EXECUTE Nội dung khối lệnh dán nhãn giá trị cho biến số tên Cook, với giá trị: Tốt: COO_1 < Có vấn đề: Nếu COO_1 >= Bạn cần kiểm tra biến số Cook database để phát trường hợp « có vấn đề» Tiêu chuẩn Leverage value (còn gọi Hat value) Giá trị Leverage đo lường ảnh hưởng giá trị thực tế quan sát lên giá trị dự báo Y mô hình Leverage trung bình ước tính công thức: Leverage trung bình = (N-1)/k Với N= cỡ mẫu k= số lượng tham số có mặt mô hình Trong trường hợp trường hợp ảnh hưởng lớn (hiệu ứng áp chế) lên mô hình, tất average gần với giá trị trung bình Leverage cao > giá trị trung bình cho thấy ảnh hưởng lên giá trị dự báo (1 trường hợp cá biệt) Những trường hợp có Leverage > 2-3 lần giá trị trung bình cần nghi ngờ mức độ ảnh hưởng cá biệt làm thay đổi giá trị dự báo Tác giả viết syntax để khảo sát giá trị Leverage khối lệnh 4D: * Bước 4D: Chẩn đoán Leverage >2 >3 lần giá trị TB USE ALL COMPUTE Leverage2= (LEV_1>2*(MEAN(LEV_1))) VALUE LABELS Leverage2 "Tốt" 1"Có vấn đề" EXECUTE COMPUTE Leverage3= (LEV_1>3*(MEAN(LEV_1))) VALUE LABELS Leverage3 "Tốt" 1"Có vấn đề" EXECUTE Nội dung khối lệnh nhằm so sánh giá trị Leverage với ngưỡng lần giá trị Leverage trung bình ghi lại kết chẩn đoán biến Leverage2 Bạn cần kiểm tra biến số database để phát trường hợp « có vấn đề» 5.4 Phát điểm giá trị cá biệt gây ảnh hưởng bất lợi cho mô hình Tiêu chuẩn khoảng cách Mahalanobis: Mahalanobis distance (MD) khoảng cách giá trị quan sát cho trường hợp giá trị trung bình biến số dự báo Sau kích hoạt chức lưu SPSS, giá trị MD cho trường hợp ghi lại database biến số có tên MAH_1 Để diễn giải giá trị Mahalanobis distance, phải tính thủ công xác suất giá trị MD theo phân phối χ2 với độ tự = k (hay số lượng yếu tố dự báo có mô hình) Tác giả lập sẵn khối lệnh 4G để giúp bạn diễn giải Mahalanobis distance : * Khối lệnh 4G: chẩn đoán Mahalanobis distance USE ALL COMPUTE PMD=1-CDF.CHISQ(MAH_1,4) COMPUTE PMDi=PMD UL: Loại bỏ trường hợp i làm tổn hại đến độ xác mô hình (ý nghĩa cảnh báo tính cần thiết trường hợp i) Nếu trường hợp có CVRi < LL: Loại bỏ trường hợp i làm tăng tính xác mô hình (ý nghĩa cảnh báo nguy làm sai lệch dự báo trường hợp i) USE ALL COMPUTE COVARUL= (COV_1>(1+3*(MEAN(LEV_1)))) VALUE LABELS COVARUL "Bình thường" 1"Điểm quan trọng" COMPUTE COVARLL= (COV_10,05 Tuy nhiên, CI95% không chứa giá trị 0, ta kết luận rằng: vai trò BMI không quan trọng, có ý nghĩa phổ quát Thực CI95% quan trọng thân giá trị p P gốc CI95% gốc P bootstrap CI95% bootstrap Tuổi ,000 9,274 17,818 ,001 8,834 16,939 HA tâm thu ,001 2,222 7,929 ,001 2,210 7,534 BMI ,028 -28,582 -1,701 ,108 -32,828 -1,324 Diễn đạt văn khoa học Phương pháp thống kê: Dữ liệu phân tích gói phần mềm IBM-SPSS 23 Liên hệ vận tốc sóng mạch cổ chân, cánh tay (BA.PWV) yếu tố khác khảo sát mô hình hồi quy tuyến tính đa biến Trước hết, danh sách biến độc lập thăm dò hệ số tương quan Pearson (với biến định lượng) hệ số hồi quy đơn biến (với biến định tính) Những biến số có tương quan mạnh với BA.PWV sau đưa vào mô hình hồi quy thăm dò qua nhiều bước Mô hình tối ưu lựa chọn dựa vào tiêu chuẩn: Ý nghĩa thống kê F test, Hệ số R2 theo Stein cao nhất, trị số BIC AIC thấp Kết Thăm dò sơ cho thấy BA.PWV tương quan mạnh với Tuổi, HATThu BMI, đồng thời có quan hệ ý nghĩa với loại thuốc : Beta blocker, Calci blocker ức chế men chuyển dạng Angiotensine Tuy nhiên sau phối kiểm mô hình hồi quy đa biến, kết cho thấy có Tuổi, HATThu BMI có liên hệ ý nghĩa với biến thiên BA.PWV Thông tin giá trị mô hình hồi quy tạo từ biến số trình bày bảng 1; theo mô hình tối ưu bao gồm biến số Vai trò đóng góp biến số trình bày bảng Bảng 1: Thông tin khả dự báo tính phù hợp mô hình Biến số mô hình R2 hiệu chỉnh BIC AIC Giá trị p (F test) Tuổi Tuổi, HA tâm thu Tuổi, HAT.Thu BMI 0,913 0,934 0,934 349,756 340,282 338,554 346,378 335,215 331,799 [...]... mỗi biến số dự báo Hai lựa chọn còn lại không nên chọn, vì sẽ g y sai lệch cho hệ số hồi quy trong mô hình Nên chọn: Include constant in equation Nên chọn sử dụng xác suất của trị số F hơn là bản thân giá trị F 2 2.2 Mô tả giao diện chức năng phân tích hồi quy trong SPSS 2.2.3 T y chỉnh thống kê phụ c a d e b f h g i Danh mục các t y chỉnh thống kê: a Estimates: Tính hệ số hồi quy beta cho mỗi biến. .. viên Đ y là kết quả thăm dò tương quan tuyến tính giữa Y và các biến định lượng, với mục tiêu chọn ra những biến định lượng có quan hệ tuyến tính mạnh nhất với Y để đưa vào danh sách ứng cử viên y u tố dự báo tiềm năng cho mô hình hồi quy Bạn chỉ cần đọc kết quả hàng đầu tiên: Y (BA.PWV), và tập trung vào 2 tiêu chí: + Giá trị p (1 phía) : cho biết ý nghĩa thống kê của quan hệ tuyến tính giữa Y và X... COO_2… Trên thực tế bạn nên xóa sạch những biến số cũ nếu muốn sao lưu cho mô hình mới 3 3 Hướng dẫn chi tiết quy trình phân tích hồi quy 3.1 Lập bảng số liệu Nghiên cứu n y có 13 biến số: Y là biến số phụ thuộc trong mô hình hồi quy = Vận tốc sóng mạch Cổ chân-cánh tay 12 biến số độc lập: Các y u tố lâm sàng và điều trị thu thập được gồm có Tuổi, số đo huyết áp, BMI, thời gian thẩm phân phúc mạc,... hiện 1 phân tích hồi quy tuyến tính đơn biến để khảo sát liên hệ giữa Y và 1 biến số định tính Khối lệnh trong bộ syntax chỉ là 1 thí dụ cho trường hợp biến X10 Chúng ta phải lặp lại quy trình n y nhiều lần cho tất cả biến số định tính có trong dữ liệu Chỉ cần thay X10 bằng Xi bất kì, rồi thi hành toàn bộ khối lệnh Dĩ nhiên bạn cũng có thể dùng khối lệnh 2B n y để kiểm tra tương quan của biến định lượng,... hồi quy đơn biến Khối lệnh 2B tương đương với thao tác trên giao diện như hình dưới đ y 3.3.2 Thăm dò biến số 3 Sau đ y là hướng dẫn cách đọc kết quả phân tích hồi quy đơn biến cho biến định tính trong bước 2B: Thí dụ với biến số Giới tính (X1) Model Summaryb Adjusted R Std Error of the Estimate Durbin-Watson 268,30953 ,009 Model R R Square Square 1 ,030a ,001 -, 025 a Predictors: (Constant), Giới tính. .. của hệ số hồi quy không chứa giá trị 0 Ta tạm chấp nhận đưa biến số n y vào danh sách ứng cử viên, nhưng còn nghi ngờ 3.3.2 Thăm dò biến số 3 Biến số định tính Giới tính Đối vận Angiotensine2 Thuốc lá Ức chế men chuyển Ức chế thụ thể Beta Ức chế kênh calci Giá trị R2 hiệu chỉnh -0 .25 -0 .01 Test F CI95% của hệ số hồi quy b Có giá trị 0 Có giá trị 0 Quy t định 0.853 0.432 Ý nghĩa hệ số hồi quy với bootstrap...2 2.2 Mô tả giao diện chức năng phân tích hồi quy trong SPSS 2.2.2 T y chỉnh thông kê Hộp thoại Option cho phép t y chỉnh một số tiêu chuẩn như: - Tiêu chuẩn đánh giá mô hình trong quy trình thăm dò tự động (Stepwise) Cách xử trí trong trường hợp sót dữ liệu (missing value) Mô hình có hay không có hằng số Bo? Case X1 X2 1 X 1-1 X 2-1 2 X 1-2 3 X 1-3 X 2-3 X 1-5 X 2-5 4 5 Nếu chọn Exclude case Listwise: Case... x y dựng mô hình hồi quy tuyến tính tối ưu một cách tự động bằng nhiều cách khác nhau SPSS cho phép lựa chọn đến 5 quy trình tự động để làm việc n y Tuy nhiên ở đ y tác giả chỉ giới thiệu về 3 phương pháp thông dụng nhất Mỗi cách làm có ưu điểml và nhược điểm riêng t y theo hoàn cảnh và mục tiêu nghiên cứu Điểm lưu ý duy nhất là dù chọn phương pháp nào, thì đó cũng là quy trình tự động và thuần t y. .. Giới tính Bảng ANOVA Nội dung: Khảo sát ý nghĩa thống kê của mô hình hồi quy đơn biến với y u tố Xi là 1 biến định tính nhị phân Thông tin: Test F, giá trị p và RSS, TSS, MMS và RMS của mô hình Cách diễn giải: Đọc giá trị p của test F Nếu cần: ghi nhận RSS để so sánh với những biến số X khác hoặc tính các trị số AIC và BIC Giá trị trông đợi: p ... lượng nhị phân nên mã hóa giá trị =0/1 3 3.2 Syntax Cách sử dụng syntax Tải file syntax có tên « Hoiquytuyentinh. SPS » từ Google drive tác giả máy bạn: https://drive.google.com/file/d/0B1vaOU1uB8DPaVFBSGJuV19qZEU/view?usp=sharing