1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sỹ về phân tích hồi quy tuyến tính với r

49 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 49
Dung lượng 576,81 KB

Nội dung

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC KHOA HỌC  - LÊ HỒNG NAM VỀ PHÂN TÍCH HỒI QUY TUYẾN TÍNH VỚI R Chun ngành: Tốn ứng dụng Mã số: 46 01 12 LUẬN VĂN THẠC SĨ TOÁN HỌC Tập thể hướng dẫn khoa học: TS Trần Xuân Quý PGS.TS Trịnh Phương Thảo THÁI NGUYÊN - 2022 i Mục lục Mở đầu Chương Mơ hình hồi quy tuyến tính 1.1 Hệ số tương quan tuyến tính 1.2 Hồi quy đơn, hồi quy thực nghiệm ước lượng hồi quy tuyến tính 1.2.1 Phân tích tương quan 11 1.2.2 Mô hình hồi quy tuyến tính đơn giản 16 Chương Phân tích hồi quy tuyến tính với R 2.1 2.2 2.3 24 Mơ hình hồi quy tuyến tính với biến tiên lượng biến phân nhóm 24 2.1.1 Biến tiên lượng biến nhị phân 24 2.1.2 Biến tiên lượng biến phân nhóm 32 Đánh giá mơ hình hồi quy tuyến tính 37 2.2.1 Hệ số xác định R2 38 2.2.2 Phương sai mơ hình (MSE) 38 Kiểm định giả thuyết mơ hình hồi quy tuyến tính 40 2.3.1 Kiểm định giả thuyết β 40 2.3.2 Kiểm định giả thuyết α 42 2.3.3 Suy luận giá trị tiên lượng 42 Kết luận 46 Tài liệu tham khảo 47 Mở đầu Trong thực tiễn có nhiều vấn đề đòi hỏi phải nghiên cứu mối quan hệ hai hay nhiều biến Sự nghiên cứu gọi phân tích tương quan hồi quy Trong phân tích số liệu, phân tích hồi quy phận quan trọng có nhiều ứng dụng Các kỹ thuật lựa chọn quan hệ hồi quy phương pháp cụ thể tiến hành ước lượng bước quan trọng phân tích hồi quy Ngày nay, với phát triển khoa học công nghệ, phần mềm trở thành công cụ hỗ trợ đắc lực cho việc phân tích số liệu Vận dụng phần mềm R cho ta xử lý nhanh dễ dàng kho liệu rộng lớn Thống kê mơn khoa học liệu Dữ liệu thu thập từ nghiên cứu khoa học, bắt nguồn từ “thí nghiệm tự nhiên” xã hội đời sống hàng ngày Khoa học thống kê (statistical science) phương pháp thống kê giúp chuyển hố liệu thơ thành thông tin, với kiến thức chuyên ngành, biến thông tin thành tri thức Do đó, khoa học thống kê đóng vai trị khơng thể thiếu việc hốn chuyển liệu thành thơng tin tri thức Một cơng trình nghiên cứu khoa học, cho dù có tốn quan trọng cỡ nào, không phân tích phương pháp khơng có ý nghĩa khoa học Chính mà ngày nay, cần nhìn qua tất tập san nghiên cứu khoa học giới, báo y học có phần “Statistical Analysis” (Phân tích thống kê), nơi mà tác giả phải mơ tả cẩn thận phương pháp phân tích, tính tốn nào, giải thích ngắn gọn sử dụng phương pháp để hàm ý “bảo vệ” hay tăng trọng lượng khoa học cho phát biểu báo Các tập san y học có uy tín cao yêu cầu phân tích thống kê nặng Một phát triển quan trọng khoa học thống kê ứng dụng máy tính cho phân tích tính tốn thống kê Có thể nói khơng ngoa khơng có máy tính, khoa học thống kê khoa học buồn tẻ khô khan, với công thức rắc rối mà thiếu tính ứng dụng vào thực tế Máy tính giúp khoa học thống kê làm cách mạng lớn lịch sử mơn: đưa khoa học thống kê vào thực tế, giải vấn đề gai góc góp phần làm phát triển khoa học thực nghiệm Ngày nay, với máy tính cá nhân, thực phân tích thống kê phức tạp vịng vài giây mà trước phải tốn hàng tháng trời hồn tất R ngơn ngữ thống kê học, xem phần mềm sử dụng cho phân tích thống kê Trong khoảng thập niên qua, R trở nên phổ biến trường đại học giới, dùng phương tiện cho giảng dạy thống kê học Vì R hồn tồn miễn phí có lực phân tích liệu cao phần mềm thương mại (như SPSS, SAS, Stata, vv.) nên chuyên gia dự đoán R trở thành nhu liệu thống kê học phổ biến tương lai gần Với mong muốn tìm hiểu phần mềm thống kê R phân tích xử lý số liệu, chúng tơi chọn chủ đề: Hồi quy tuyến tính với R làm hướng nghiên cứu cho luận văn thạc sĩ Với mục đích tìm hiểu vận dụng phần mềm R tốn phân tích phương sai, nên luận văn khơng trình bày kiến thức R sở tốn học phân tích phương sai mà tập trung giới thiệu ví dụ vận dụng phần mềm R để tính tốn phân tích kết Nội dung luận văn trình bày lại kết tài liệu Đặng Hùng Thắng Nguyễn Văn Tuấn tài liệu [4] [5] Nội dung đề tài luận văn phần mở đầu, kết luận tài liệu tham khảo, đề tài gồm chương, cụ thể: Chương Mơ hình hồi quy tuyến tính Trình bày mơ hình hồi quy tuyến tính: trình bày số khái niệm mở đầu, hồi quy đơn, hồi quy thực nghiệm, ước lượng hồi quy tuyến tính Chương Phân tích hồi quy tuyến tính với R Trình bày việc vận dụng phần mềm thống kê R việc phân tích phương sai cho ví dụ, sức mạnh R việc tính tốn số liệu Cụ thể: Trong chương luận văn này, chúng tơi trình bày lại việc sử dụng R cho ví dụ phân tích phương sai đơn giản; so sánh nhiều nhóm phương pháp Tukey điều chỉnh trị số p; Phân tích hiệp biến; Phân tích phương sai cho thí nghiệm giai thừa; Phân tích phương sai cho thí nghiệm hình vng Latin; Phân tích phương sai cho thí nghiệm chéo phân tích phương sai cho thí nghiệm tái đo lường Để hoàn thành luận văn này, tác giả xin bày tỏ lòng biết ơn sâu sắc TS Trần Xuân Quý PGS TS Trịnh Phương Thảo, thầy tận tình hướng dẫn bảo cho tơi suốt q trình làm luận văn Tác giả xin trân trọng cảm ơn Trường Đại học Khoa học, Đại học Thái Nguyên, thầy cô giáo, phòng chức trường tạo cho tác giả điều kiện tốt trình học tập trường Tác giả xin gửi lời cảm ơn chân thành tới bạn bè, bạn học viên lớp Cao học Toán K14 động viên giúp đỡ tác giả suốt thời gian học tập Cuối tác giả xin bày tỏ biết ơn vô hạn cha mẹ, anh chị em người thân gia đình động viên giúp đỡ tác giả suốt trình học tập Thái Nguyên, ngày 12 tháng 10 năm 2022 Tác giả Lê Hồng Nam Chương Mơ hình hồi quy tuyến tính Trong thực tế có nhiều vấn đề đòi hỏi phải nghiên cứu mối quan hệ hai biến hay nhiều biến Sự nghiên cứu gọi phân tích tương quan hồi quy Chúng ta biết, biến dấu hiệu ta quan tâm nghiên cứu tổng thể Ta gọi biến thay đổi từ cá thể sang cá thể khác Biến định lượng hay định tính Biến gọi biến định lượng đo cá thể có giá trị số Biến gọi biến định tính giá trị biến cá thể việc gán cho cá thể thuộc tính hay vào phạm trù Trong chương xem xét vấn đề phân tích tương quan hồi quy tuyến tính định lượng, chủ yếu cho trường hợp hai biến 1.1 Hệ số tương quan tuyến tính Trong thực tế có nhiều vấn đề đòi hỏi phải nghiên cứu mối quan hệ hai biến hay nhiều biến Sự nghiên cứu gọi phân tích tương quan hồi quy Giả sử X Y hai biến định lượng Để đo mức độ tương quan hai biến, thể chỗ biến thay đổi giá trị ảnh hưởng tới thay đổi phân bố xác suất biến kia, người ta đưa khái niệm hệ số tương quan Định nghĩa 1.1.1 ([1]) Hệ số tương quan lý thuyết hai biến X Y, ký hiệu ρ(X, Y), định nghĩa công thức sau: ρ(X, Y) = E(X − µX )(Y − µY ) , σ X σY µX , µY tương ứng giá trị trung bình X Y; σX , σY tương ứng độ lệch tiêu chuẩn X Y Hệ số tương quan ρ(X, Y) số nằm đoạn [−1, 1] Nó đo lường mức độ tương quan tuyến tính X Y Nếu ρ(X, Y) = X Y khơng có tương quan tuyến tính có mối tương quan khơng phải tương quan tuyến tính Nếu |ρ(X, Y)| = Y hàm tuyến tính X Giá trị tuyệt đối ρ(X, Y) gần mức độ tương quan tuyến tính X Y cao Giá trị tuyệt đối ρ(X, Y) bé mức độ tương quan tuyến tính X Y thấp Hai biến X Y gọi tương quan dương ρ(X, Y) > gọi tương quan âm ρ(X, Y) < Nếu X Y có tương quan dương giá trị hai biến có xu hướng tăng hay giảm chiều, tức biến tăng (giảm) biến có xu hương tăng (giảm) Trái lại, X Y có tương quan âm giá trị hai biến có xu hướng tăng hay giảm trái chiều, tức biến tăng (giảm) biến có xu hương giảm (tăng) Hệ số ρ(X, Y) hệ số tương quan lý thuyết Muốn tính ρ(X, Y) ta cần biết toàn liệu tổng thể, tức tồn giá trị (X, Y) mà nhiều khó tốn Vì vậy, có tốn ước lượng kiểm định hệ số tương quan lý thuyết mẫu quan sát Định nghĩa 1.1.2 ([1]) Giả sử ta có mẫu quan sát kích thước n X Y sau: (x1 , y1 ), (x2 , y2 ), , (xn , yn ) Khi đó, ρ(X, Y) ước lượng n P (xi − x)(yi − y) i=1 r= r n n P P 2 (xi − x) (yi − y) (1.1) i=1 i=1 r gọi hệ số tương quan mẫu, gọi tắt hệ số tương quan Để tính tốn thuận lợi, ta biến đổi cơng thức sau Vì n n n n X X  X  X  yi , xi yi − xi (xi − x)(yi − y) = n i=1 i=1 i=1 i=1 n n n X X X   xi , (xi − x)2 = xi2 − n i=1 i=1 i=1 n n n X X  X 2 (yi − y)2 = yi , y2i − n i=1 i=1 i=1 nên thay vào (1.1) ta thu công thức tính hệ số tương quan n n n P P   P n xi yi − yi xi i=1 i=1 i=1 r= r r n n n n P 2 P P P 2 n xi − n yi − xi yi i=1 i=1 i=1 (1.2) i=1 Chú ý r số nằm đoạn [−1, 1] Giá trị tuyệt đối lớn tương quan tuyến tính mạnh Bảng sau cho ta xếp hạng tương quan giá trị r |r| Tương quan 0,00 Không tương quan [0,01, 0,10] Rất yếu [0,11, 0,25] Yếu đến trung bình [0,26, 0,50] Trung bình đến mạnh [0,51, 0,75] Mạnh [0,76, 0,85] Rất mạnh > 0,85 Hầu hoàn hảo Ví dụ 1.1.1 Điểm trung bình mơn Tốn bậc trung học phổ thơng điểm trung bình mơn Tốn năm thứ đại học 15 sinh viên chọn ngẫu nhiên trường đại học Mỹ cho bảng Số thứ tự Điểm bậc trung học Điểm bậc đại học 84,56 79,21 85,86 78,34 73,56 72,40 71,11 69,17 72,45 70,88 84,09 69,64 84,74 80,92 81,09 71,12 85,62 72,38 10 75,33 72,70 11 85,95 75,31 12 73,20 96,09 13 79,28 73,15 14 87,73 73,60 15 82,88 76,47 Bảng 1.1: Điểm trung môn Toán bậc trung học năm thứ bậc đại học sinh viên Lời giải Dựa theo Bảng 1.1 cơng thức (1.2) ta tính tổng n X xi = 1207,45, i=1 n X n X i=1 xi2 n X = 97668,63, i=1 n X yi = 1104,38, y2i = 81502,16, i=1 xi yi = 89082,30, i=1 n X n i=1 n n X  X  xi yi = 15 · 89082,30 − 1207,45 · 1104,38 xi yi − i=1 i=1 = 2750,869, n n n X n X 2 = 15 · 97668,63 − 1207,452 = 7093,95, i=1 xi2 − n X n 2 X yi = 15 · 81502,16 − 1104,38 = 2877,21, y2i − i=1 i=1 xi i=1 2750,869 r= √ = 0,609 √ 7093,95 2877,21 Như có mối tương quan dương điểm trung bình mơn Tốn bậc trung học điểm trung bình mơn Tốn năm thứ bậc đại học Nếu điểm trung bình mơn Tốn bậc trung học sinh viên cao điểm trung bình mơn Tốn năm thứ bậc đại học có xu hướng cao □ Thơng thường trước tính hệ số tương quan mẫu r, để có hình ảnh sơ mối tương quan hai biến X Y người ta thường biểu diễn mẫu số liệu dạng tập hợp điểm mặt phẳng Mỗi số liệu (xi , yi ) biểu diễn Mi (xi , yi ) với hoành độ xi tung độ yi Một mẫu kích thước n biểu diễn tập hợp n điểm mặt phẳng, gọi đám mây điểm Nếu điểm đám mây tụ tập xung quanh đường thẳng hệ số tương quan r có trị tuyệt đối gần Điều nói lên có mối tương quan tuyến tính mạnh hai biến Nếu đám mây điểm tụ tập hình trịn tụ tập xung quanh đường cong hệ số tương quan r có trị tuyệt đối bé Điều nói lên X Y khơng có mối tương quan có mối tương quan khơng phải tương quan tuyến tính Hình 1.1: Hình trái: Dữ liệu có tương quan tuyến tính mạnh Hình phải: Dữ liệu có tương quan tuyến tính yếu Tiếp theo, ta xét tốn kiểm định giả thiết liệu hai biến X Y có tương quan tuyến tính hay khơng Chúng ta có toán kiểm định với giả thiết H0 : “X Y khơng có tương quan tuyến tính”, hay H0 : ρ(X, Y) = với đối thiết H1 : “X Y có tương quan tuyến tính”, hay H1 : ρ(X, Y) , Việc xây dựng quy tắc kiểm định dựa định lý sau: Định lý 1.1.1 ([1]) Giả sử X Y có phân bố chuẩn đồng thời (tức vectơ ngẫu nhiên (X, Y) có phân bố chuẩn hai chiều) Khi H0 thống kê T= r sr có phân bố Student với n − bậc tự do, sr = r − r2 n−2 Thành thử bác bỏ H0 T > tα/2 (n − 2), tα/2 (n − 2) phân vị mức α phân bố Student với n − bậc tự Ví dụ 1.1.2 Quay trở lại Ví dụ 1.1.1 Ta muốn kiểm định giả thiết H0 : “Điểm trung bình mơn Tốn bậc trung học sinh viên khơng có tương quan với điểm trung bình mơn Tốn năm thứ bậc đại học” với mức ý nghĩa 5% Lời giải Ta có r = 0,609 Do r r − r2 − 0,6092 sr = = = 0,22, n−2 15 − r 0,609 = T= = 2,77 sr 0,22 Ta tra bảng phân bố Student với 13 bậc tự do, ta tìm t0,025 (13) = 2,16 Vì |T | = 2,77 > 2,16 nên ta bác bỏ H0 kết luận có tương quan điểm trung bình mơn Tốn bậc trung học sinh viên với điểm trung bình mơn Tốn sinh viên năm thứ bậc đại học □ 1.2 Hồi quy đơn, hồi quy thực nghiệm ước lượng hồi quy tuyến tính Định nghĩa 1.2.1 ([1]) Giả sử X biến định lượng Y biến ngẫu nhiên phụ thuộc X theo mơ hình tuyến tính (A) Y = αX + β + ξ, α, β số, ξ biến ngẫu nhiên có phân bố chuẩn với kỳ vọng phương sai σ2 Khi đó, ta nói Y có hồi quy tuyến tính theo X đường thẳng với phương trình y = αx + β gọi đường thẳng hồi quy lý thuyết Y theo X Các hệ số α, β gọi hệ số hồi quy lý thuyết Biến X gọi biến giải thích biến Y gọi biến phụ thuộc Khi biến X nhận giá trị X = x biến phụ thuộc Y có kỳ vọng hàm tuyến tính x E(Y | X = x) = αx + β Vấn đề cần nhận định xem liệu mơ hình tuyến tính (A) có phù hợp hay khơng? Ta thu thập mẫu liệu kích thước n X Y Số thứ tự X Y x1 y1 x2 y2 n xn yn Như nói Mục 1.1, ta biểu thị số liệu (xi , yi ), i = 1, 2, , n điểm Mi (xi , yi ) với hoành độ xi tung độ yi Khi đó, ta có tập hợp n điểm mặt phẳng, gọi đám mây điểm Nếu điểm đám mây tụ tập xung quanh đường thẳng cho mơ hình tuyến tính (A) phù hợp, tức Y có hồi quy tuyến tính theo X Giả sử Y có hồi quy tuyến tính theo X Bài tốn ước lượng hệ số hồi quy lý thuyết α, β dựa mẫu liệu thu Gọi a, b tương ứng ước lượng cho α, β Bằng phương pháp bình phương bé nhất, ta tìm ước lượng cho công thức sau: a= n P i=1 (xi − x)(yi − y) n P i=1 (1.3) , x)2 (xi − (1.4) b = y − ax Chú ý n n n n X X  X  X  xi yi , (xi − x)(yi − y) = xi yi − n i=1 i=1 i=1 i=1 n n n X X X   xi2 − xi , (xi − x)2 = n i=1 i=1 i=1 n n 1X 1X yi , x = xi , y= n i=1 n i=1 thay vào (1.3) (1.4), ta thu n n P i=1 a= n n P i=1 b= n 1 X n n n P   P yi xi xi yi − i=1 i=1 i=1 n P 2 xi xi2 − , i=1 n X  yi − a xi i=1 Định nghĩa 1.2.2 ([1]) Giả sử Y có hồi quy tuyến tính theo X có mẫu cỡ n: (xi , yi ), i = 1, 2, , n Khi đó, đường thẳng y = ax + b gọi đường thẳng hồi quy thực nghiệm, gọi tắt đường thẳng hồi quy, n a= n P i=1 xi yi − n n P i=1 n n P   P yi xi i=1 xi2 − i=1 n P 2 xi i=1 n , b= n X  1 X yi − a xi n i=1 i=1 gọi hệ số hồi quy thực nghiệm, gọi tắt hệ số hồi quy Từ công thức a, b ta thấy tất đường thẳng d mặt phẳng đường thẳng hồi quy y = ax + b có khoảng cách tới đám điểm bé nhất, khoảng cách từ đường thẳng d tới tập hợp điểm {Mi , i = 1, 2, , n} tổng bình phương khoảng cách thẳng đứng từ Mi , i = 1, 2, , n tới d 33 • ht: tiền sử cao huyết áp (1 = Yes, = No); • ui: tử cung khó chịu (1 = Yes, = No); • ftv: số lần đến phịng mạch bác sĩ; • bwt: trọng lượng trẻ sanh; Dữ liệu có sẵn chương trình MASS có tên ’birthwt Chúng ta truy cập liệu sau: > library (MASS) > data (birthwt) > head (birthwt) low age lwt race smoke ptl ht ui ftv bwt 85 19 182 0 2523 86 33 155 0 0 2551 87 20 105 1 0 2557 88 21 108 1 0 2594 89 18 107 1 0 2600 91 21 124 0 0 2622 Trong mục biến tiên lượng biến phân nhóm, chúng tơi quan tâm đến câu hỏi có ảnh hưởng sắc tộc đến cân nặng trẻ sơ sinh Phương pháp chuẩn để trả lời câu hỏi phân tích phương sai (analysis of variance) với hàm aov R Trước phân tích, cần hiển thị liệu để có chút cảm nhận Vì biến số race mã hóa số nguyên (1, 2, 3), nên chuyển sang dạng factor giữ dataframe birthwt: birthwt$race = as.factor (birthwt$race) Vẽ biểu đồ hộp: > ggplot(data=birthwt, aes(x=race, y=bwt, fill=race, col=race)) + geom_boxplot (col="black") + geom_jitter (alpha=0.3) 34 Biểu đồ cho thấy nhóm bà mẹ da trắng (race = 1) sanh với cân nặng cao nhóm da đen (race = 2) người Hispanic (race = 3) Để biết khác biệt có ý nghĩa thống kê hay khơng, dùng mơ hình hồi quy tuyến tính sau: m.race = lm (bwt ~ race, data=birthwt) summary (m.race) Kết hàm tóm tắt bảng sau đây: Call: lm(formula = bwt ~ race, data = birthwt) Residuals: Min 1Q Median -2096.28 -502.72 3Q -12.72 Max 526.28 1887.28 Coefficients: Estimate Std Error t value Pr(>|t|) (Intercept) 3102.72 72.92 42.548 < 2e-16 *** race2 -383.03 157.96 -2.425 0.01627 * race3 -297.44 113.74 -2.615 0.00965 ** Signif codes:0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘’ Residual standard error: 714.5 on 186 degrees of freedom Multiple R-squared: 0.05017, Adjusted R-squared: 0.03996 F-statistic: 4.913 on and 186 DF, p-value: 0.008336 Dưa vào trị số P < 0.05, kết cho thấy cân nặng bà mẹ da đen (race) Hispanic (race3) thấp so với bà mẹ da trắng Chú ý rằng, R dùng giá trị tham 35 chiếu (race =1, da trắng) Chẳng hạn trẻ em da đen có cân nặng thấp trẻ em da trắng 383 gram, với sai số chuẩn ∼ 158, mức độ khác biệt (383 gram) xem có ý nghĩa thống kê (P = 0.016) Tuy nhiên, kết không cung cấp cho thơng tin khác biệt nhóm da đen Hispanic So sánh nhiều nhóm sau có kết chung gọi post-hoc comparison hay so sánh hậu định Kiểm định nhiều giả thuyết So sánh hậu định có ý nghĩa thực tế, nảy sinh vấn đề phát sai (dương tính giả) Vấn đề dương tính giả có liên quan đến vấn đề kiểm định nhiều giả thuyết Cứ lần so sánh (hay kiểm định giả thuyết), chấp nhận sai sót dương tính giả a (a thường 0.01 hay 0.05) xác suất − a Khi kiểm định hai giả thuyết, xác suất hai (1 − α)2 , xác suất dương tính giá − (1 − α)k Nói chung, kiểm định giả thuyết, xác suất dương tính giá − (1 − α)k Nói cách khác, chấp nhận a = 0.05, kiểm định ba giả thuyết (so sánh race=1 race=2, race=1 race=3, race=2 race=3) xác suất dương tính giá 14% (chứ khơng cịn 5% nữa) Nếu khơng hiệu chỉnh cho trị số P dẫn đến nhiều khám phá sai Trong thực tế, nhiều phát báo cáo khơng mang tính tái lập tác giả không hiệu chỉnh cho trị số P so sánh nhiều nhóm Do đó, cần phải có phương pháp hiệu chỉnh để tránh kết luận sai Có nhiều phương pháp hiệu chỉnh, phương pháp phổ biến có lẽ Bonferroni Tukey Phương pháp Tukey có nhiều ưu điểm khơng q “bảo thủ" Bonferroni Ngồi ra, phương pháp Tukey có khoảng tin cậy 95% hẹp nhất, tức có độ nhạy tốt Chúng ta triển khai phương pháp Tukey chương trình multcomp hàm glht sau: # Phân tích mơ hình hồi quy tuyến tính m.race = lm (bwt ~ race, data=birthwt) summary(m.race) # Hiệu chỉnh trị số P phương pháp Tukey > library(multcomp) > comp = glht (m.race, mcp (race="Tukey")) > summary (comp) Simultaneous Tests for General Linear Hypotheses Multiple Comparisons of Means: Tukey Contrasts Fit: lm(formula = bwt ~ race, data = birthwt) Linear Hypotheses: Estimate Std Error t value Pr(>|t|) 36 - == -383.03 157.96 -2.425 0.0417 * - == -297.44 113.74 -2.615 0.0252 * - == 85.59 165.09 0.518 0.8603 Signif codes:0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘’ (Adjusted p values reported single-step method) > plot (comp) Kết phân tích sau: > summary (comp) Simultaneous Tests for General Linear Hypotheses Multiple Comparisons of Means: Tukey Contrasts Fit: lm(formula = bwt ~ race, data = birthwt) Linear Hypotheses: Estimate Std Error t value Pr(>|t|) - == -383.03 157.96 -2.425 0.0417 * - == -297.44 113.74 -2.615 0.0252 * - == 85.59 165.09 0.518 0.8603 Signif codes:0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘’ (Adjusted p values reported single-step method) 37 Chú ý trị số P kết khác với kết từ hàm lm Chẳng hạn so sánh nhóm da trắng da đen qua mơ hình hồi quy tuyến tính cho trị số P = 0.016, sau hiệu chỉnh cho đa giả thuyết, trị số P = 0.04 (tức gần có ý nghĩa thống kê) Kết cho thấy dù trẻ em Hispanic có cân nặng cao trẻ em da đen 85.6 gram, mức độ khác biệt khơng có ý nghĩa thống kê (P = 0.86) Hàm (plot) hiển thị so sánh khoảng tin cậy 95% qua biểu đồ Trong biểu đồ trên, đường tham chiếu” (đường đứt đoạn) Nếu khoảng tin cậy 95% so sánh lệch khỏi đường tham chiếu, bên trái hay bên phải, có ý nghĩa thống kê Nếu khoảng tin cậy 95% từ đến (như so sánh “3” “2”) khác biệt nhóm khơng có ý nghĩa thống kê 2.2 Đánh giá mơ hình hồi quy tuyến tính Như trên, biết ý nghĩa mơ hình hồi quy tuyến tính đơn giản, cách diễn giải tham số mơ hình Chương giải thích cách đánh giá diễn giải phương sai mơ hình Hai số để đánh giá hữu dụng mơ hình hồi quy tuyến tính hệ số xác định Ro mean square error (MSE) hiểu phương sai y sau hiệu chỉnh cho x Mơ hình hồi quy tuyến tính cho mẫu nghiên cứu phát biểu sau: giá trị quan sát cá thể i (yi ) tổng giá trị tiên lượng mơ hình yˆ i phần dư ei : yi = yˆ i + ei Trong đó, yˆ i = ab xi , với a b ước số ước tính từ liệu quan sát Nếu khơng có biến x, tiên lượng giá trị y giá trị trung bình y: yi = y + ei Do đó, mơ hình hồi quy tuyến tính viết lại qua số trung bình sau: yi − y = (ˆy − y) + (yi − yˆ ) Nói cách khác, hiệu số giá trị quan sát trung bị hiệu số giá trị tiên lượng trung bình (yi − y) tổng hiệu số giá trị tiên lượng trung bình (ˆyi − y) phần dư (yi − yˆ i ) Chúng ta thể thật qua biểu đồ đây: Hình 2.1: Giá trị quan sát cá thể tổng giá trị tiên lượng mơ hình phần du Tống bình phương y (SST: total sum of squares) tổng bình phương mơ hình (SSR) phần dư (SSE); SST = SSR + SSE 38 2.2.1 Hệ số xác định R2 Chỉ số đơn giản để thể độ biến thiên tổng bình phương (sum of squares, hay SS) Nhưng SS cần điểm tham chiếu Chúng ta thấy điểm tham chiếu biến y giá trị trung bình, tính SS cho y (kí hiệu SST) sau: Nếu thể hiểu độ lệch SST = n X (yi − y)2 i=1 Tương tự, tổng bình phương từ giá trị tiên lượng trung bình SSR = n X i=1 (ˆyi − y)2 Và tổng bình phương phần dư: SSE = n X i=1 (yi − yˆ )2 Nói cách khác, tổng bình phương y tổng bình phương mơ hình giải thích (SSR) phần mơ hình khơng giải thích (SSE): S S T = S S R + S S E Hệ số xác định R2 mơ hình hồi quy định nghĩa tỉ số SSR R2 = SSR SST Vì SSR phần SST, nên giá trị R2 dao động khoảng Hệ số xác định R2 diễn giải phần trăm phương sai y giải thích mơ hình hồi quy tính tuyến 2.2.2 Phương sai mơ hình (MSE) Một số quan trọng khác mean squared error (MSE) hay hiểu phương sai y sau hiệu chỉnh cho x Trong thực tế, MSE ước tính từ phần dư, phần dư phản ảnh phần phương sai mà mơ hình khơng giải thích Chỉ số MSE ước tính sau: Pn − yˆ i )2 i=1 ei = MS E = n−2 n−2 Nếu lấy số bậc MSE kết ROSE (root MSE), hiểu độ lệch Pn i=1 (yi chuẩn y sau hiệu chỉnh cho x: RMS E = rP n i=1 (yi − yˆ i n−2 )2 = s Pn i=1 ei n−2 Để đánh giá mơ hình hồi quy tuyến tính có đại diện cho liệu, sử dụng hệ số xác định R2 MSE Mơ hình có R2 cao có nghĩa mơ hình giải thích nhiều phương sai, giảm 39 độ bất định, nên MSE thấp; mơ hình với R2 thấp tính bất định tiên lượng cao điều phản ảnh qua giá trị MSE tăng Quay lại với nghiên cứu mối liên quan thai kỳ trọng lượng phát biểu mơ hình: trọng lượng = α + β (thai kỳ) + ε triển khai phân tích R Trong R, có hàm anova (analysis of varian giúp ước tính SST, SSR, SSE: # Tạo liệu bw gồm biến Gestation Bwt Gestation = c(34.7, 36.0, 29.3, 40.1, 35.7, 42.4, 40.3, 37.3, 40.9, 38.3, 38.5, 41.4, 39.7, 39.7, 41.1, 38.0, 38.7) Bwt = c(1895, 2030, 1040, 2835, 3090, 3827, 3260, 2690, 3285, 2920, 3430, 3657, 3685, 3345, 3260, 2680, 2005) bw = data.frame (Gestation, Bwt) # Phân tích hồi quy tuyến tính kết m m = lm (Bwt ~ Gestation, data=bw) # Phân tích phương sai anova (m) > anova (m) Analysis of Variance Table > anova (m) Analysis of Variance Table Response: Bwt Df Sum Sq Mean Sq F value Gestation Pr(>F) 6581542 6581542 Residuals 15 2506307 39.39 1.485e-05 *** 167087 Signif codes:0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘’ Kết phân tích cho thấy tổng bình phương y SST = 6581542 + 2506307 = 9087849 Trong đó, mơ hình giải thích là: SSR = 6581542 Do đó, hệ số xác định: 6581542 = 0.724 9087849 Nói cách khác, mơ hình với thai kỳ giải thích 72.4% phương sai y Ngoài ra, phương sai R2 = y sau hiệu chỉnh cho thai kỳ 167087 gram 40 Tóm lại, hai thước đo quan trọng mơ hình hồi quy tuyến tính hệ số Xác định (R2 ) phương sai MSE Hệ số xác định thực tế hệ số tương quan giá trị quan sát y giá trị tiên lượng ý Hệ số xác định cao MSE thấp 2.3 Kiểm định giả thuyết mơ hình hồi quy tuyến tính Trong mơ hình hồi quy tuyến tính yi = α + βxi , câu hỏi cần biết tham số β có thật khác với Nếu tham số β khác với 0, kết luận mối liên quan y x có ý nghĩa thống kê, hay mối liên quan y x có khả ngẫu nhiên Chương mô tả phương pháp kiểm định thống kê để trả lời câu hỏi cách ước tính khoảng tiên lượng (prediction interval) khoảng tin cậy giá trị tiên lượng (confidence interval) Mơ hình hồi quy tuyến tính đơn giản phát biểu y hàm số tuyến tính x, với mối liên quan định hình tham số α β, với biến số ngẫu nhiên thể phần dư ε: yi = α + βxi + εi (2.1) Chúng ta giá trị thật α β Nhưng làm nghiên cứu hay thí nghiệm dùng liệu thực tế để ước tính tham số Ước số tham số α β a b Do đó, mơ hình cho mẫu nghiên cứu là: y = α + βxi + ε (2.2) Biến ε phần dư (residual) Bởi a b ước tính từ mẫu Do đó, câu hỏi đặt chúng “lặp lại" nghiên cứu nhiều lần (dĩ nhiên, lần mẫu khác lấy từ quần thể), a b dao động Để trả lời câu hỏi ta phải ước tính sai số chuẩn (standard error) a b 2.3.1 Kiểm định giả thuyết β > Gestation=c(34.7,36,28.3,40.1,35.7,42.4,40.3,37.3,40.9,38.3, 38.5,41.4,39.7,39.7,41.1,38,38.7) > Bwt=c(1895,2030,1440,2835,3090,3827,3260,2690,3285,2920,3430, 3657,3658,3345,3260,2680,2005) > dat=data.frame(Gestation,Bwt) > m = lm (Bwt ~ Gestation, data=bw) > summary(m) Quay lại với ví dụ mối tương quan trọng lượng trẻ sơ sinh tuổi thai (gestation), đưa mục có mơ hình trọng lượng = -4915.5 + 203.2 (thai kì) 41 diễn giải tuần tăng thai kỳ trọng lượng trẻ sơ sinh tính trung bình tăng 203.2 gram Nhưng lặp lại nghiên cứu mẫu khác ước số thay đổi Giả dụ lặp lại nghiên cứu 100 lần (hay nhiều hơn), phân bố 100 ước số b Để trả lời câu hỏi này, cần phải áp dụng lý thuyết xác suất, đặc biệt lý thuyết phân bổ chuẩn > summary(m) Call: lm(formula = Bwt ~ Gestation, data = bw) Residuals: Min 1Q Median -942.79 -175.44 3Q 2.14 160.61 Max 751.76 Coefficients: Estimate Std Error t value Pr(>|t|) (Intercept) -4915.45 Gestation 1245.79 203.18 32.37 -3.946 0.00129 ** 6.276 1.49e-05 *** Signif codes:0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘’ Residual standard error: 408.8 on 15 degrees of freedom Multiple R-squared: 0.7242, Adjusted R-squared: F-statistic: 39.39 on and 15 DF, 0.7058 p-value: 1.485e-05 Để biết phân bố ước số b cần phải biết sai số chuẩn Hóa ra, sai số chuẩn b ước tính qua cơng thức: S Dy S E(b) = S Dx r − R2 n−2 Trong S D x , S Dy độ lệch chuẩn y x; R2 hệ số xác định n cỡ mẫu Trong phần output trên, sai số chuẩn b 32.4 Dựa vào phân bố chuẩn, số cỡ mẫu tương đối nhỏ, ước tính khoảng tin cậy 95% β sau: 95%CI B = b + tXS E(b) Vì nghiên cứu có 17 đối tượng, bỏ bậc tự (để ước tính a b), nên giá trị phân bố t với α = 5% bậc tự 15 2.13 (Nếu số cỡ mẫu lớn (ví dụ 50), dùng số 1.96 thay cho t) Hằng số ước tính R sau: qt (0.975, df=15) Từ đó, ước tính khoảng tin cậy 95% β từ 135.0 đến 271.4 95% CI B = 203.2 − 2.13 × 32 đến 203.2 + 2.13 × 32 42 Thay tính khoảng tin cậy 95%, dùng phương pháp kiểm định t để trả lời câu hỏi tham số β có thật khác với Kiểm định t định nghĩa sau: t= b S E(b) Trong output trên, t = 203.2/32.4 = 6.28 Chúng ta tính trị số P từ số sau: − pt(6.28, d f = 15) Kết cho thấy P < 0.001, tức có ý nghĩa thống kê Kết này, (dĩ nhiên), quán với kết phân tích khoảng tin cậy 95% không bao gồm giá trị Chúng ta, đó, có chứng để kết luận mối liên quan trọng lượng trẻ sơ sinh thai kỳ có ý nghĩa thống kê 2.3.2 Kiểm định giả thuyết α Nguyên lí kiểm định intercept (α) tương tự kiểm định β Sai số chuẩn a (ước số α) là: S E(α) = S Ee s x2 + Pn n i=1 (xi − x) Kết R ước tính S E(α) = 1246 Và, sót t = −4915/1246 = −3.95, với trị số P = 0.0013 Nói cách khác, intercept mơ hình có ý nghĩa thống kê Nhưng đề cập phần trước, intercept khơng có ý nghĩa thực tế b, khơng chuẩn hóa 2.3.3 Suy luận giá trị tiên lượng Liên quan đến vấn đề kiểm định giả thuyết β α ước tính giá trị tiên lượng Chúng ta biết giá trị tiên lượng y (kí hiệu yˆ ) cho giá trị x là: yˆ = a + bxi Nhưng giá trị trung bình Giá trị ước số giá trị thật y Bởi nghiên cứu dựa mẫu (chứ quần thể), nên giá trị tiên lượng chịu ảnh hưởng dao động mẫu (sampling variation) Do đó, câu hỏi đặt khoảng tin cậy chẳng hạn 95% yˆ dao động sao? Để trả lời câu hỏi trên, cần phải làm quen với khái niệm: khoảng tin cậy giá trị tiên lượng (confidence interval of the prediction) khoảng tiên lượng (prediction interval) 2.3.3.1 Khoảng tin cậy giá trị tiên lượng (CI) CI định nghĩa khoảng giá trị bao gồm giá trị thật y, sau biết giá trị quan sát x Cũng giống khoảng tin cậy 95%, cần biết khoảng tin cậy 95% giá trị tiên lượng Để ước tính CI, cần phải ước tính sai số chuẩn (SE) yˆ : s (x∗ − x)2 S E(ˆy) = RMS E + n (n − 1)s2x 43 Do đó, khoảng tin cậy 95% giá trị tiên lượng là: s (x∗ − x)2 yˆ ± tn−2 RMS E + n (n − 1)s2x Trong tn−2 số phân bố t với bậc tự n − 2: RMSE độ lệch chuẩn phần dư (tức Residual standard error Routput - xem Chuoi 7): n cỡ mẫu; x giá trị cụ thể x; s phương sai biến x ITO" ước tính CI giá trị tiên lượng sau: Gestation = c(34.7, 36.0, 29.3, 40.1, 35.7 42.4, 40.3, 37.3, 40.9, 38.3, 38.5, 41.4, 39.7, 39.7, 41.1, 38.0, 38.7) Bwt = c(1895, 2030, 1440, 2835, 3090, 3827, 3260, 2690, 3285, 2920, 3430, 3657, 3685, 3345, 3260, 2680, 2005) CMS bw = data.frame (Gestation, Bwt) + Phân tích mơ hình hồi quy tuyến tính m = lm (Bwt ~ Gestation, data=bw) Chúng ta dùng hàm predict với đối số 1="confidence” để ước tính giá trị tiên lượng khoảng tin cậy - Giá trị tiên lượng (và đưa kết tính toán vào liệu bw) sau: bw$pred = predict (m, interval="confidence") Có thể kiểm tra dịng đầu giá trị tiên lượng sau Chẳng hạn thai kỳ 36 (dòng 2), giá trị tiên lượng trung bình trọng lượng sơ sinh 2400 gram, với khoảng tin cậy 95% dao động từ 2132 đến 2666 gram > head (bw) Gestation Bwt pred.fit pred.lwr pred upr 34.7 1895 2135.0540 1805.8201 2464.2879 36.0 2030 2399.1940 2132.4623 2665.9256 29.3 1040 1037.8571 378.0125 40.1 2835 3232.2508 2989.1709 3475.3308 35.7 3090 2338.2386 2058.3935 2618.0836 42.4 3827 3699.5754 3349.6991 4049.4518 1697.7016 Chúng ta vẽ đường biểu diễn khoảng tin cậy 95% giá trị tiên lượng chương trình ggplot2 sau: library(ggplot2) ggplot (data=bw, aes (x = Gestation, y = Bwt)) + geom_point () + geom_smooth (method = "1m") 44 Chú ý hàm ggplot, dùng geom smooth với đối số method = "lm" để mơ hình hồi quy tuyến tính Kết sau: Chúng ta ước tính cho hay nhiều giá trị thai kỳ Trước hết, tạo liệu mới, tạm gọi (chẳng hạn như) new.x: new.x = data.frame (Gestation = c(37, 40, 45)) Và ước tính giá trị tiên lượng khoảng tin cậy 95%: predict (m, new.x, interval="confidence") giá trị tiên lượng giá trị thai kỳ là: > predict (m, new.x, interval="confidence") fit lwr upr 2602.379 2371.199 2833.558 3211.932 2972.188 3451.677 4227.855 3723.216 4732.495 2.3.3.2 Khoảng tiên lượng (PI – Prediction Interval) PI định nghĩa khoảng giá trị giá trị đơn lẻ y cho cụ thể x Chẳng hạn 95% PI 2300 đến 2800 gram diễn giải sau: 95% chắn giá trị rơi khoảng 2300 đến 2800 gram Để ước tính PI, cần phải ước tính sai số chuẩn ý: s (x∗ − x)2 S E(PI) = s + n (n − 1)s2x Chúng ta thấy công thức giống với sai số chuẩn giá trị tiên lượng Và khoảng tiên lượng ý: yˆ ± tn−2 s s (x∗ − x)2 + n (n − 1)s2x Trong R, dùng "prediction” để ước tính PI dùng hàm predict với đối số interval =on’ để ước tính PI cho giá trị Gestation trên: new.x = data.frame (Gestation = c(37, 40, 45)) predict (m, new.x, interval="prediction") > predict (m, new.x, interval="prediction") fit lwr upr 2602.379 1700.972 3503.785 3211.932 2308.291 4115.573 4227.855 3221.004 5234.707 Cách diễn giải kết (cho dòng số 1) sau: Nếu thai kì 37 tuần, giá trị tiên lượng trọng lượng 2602, khoảng tiên lượng dao động khoảng 1701 45 đến 3504 gram Có thể so sánh PI CI qua ggplot2 sau: Trước hết, tính PI tạo data cách nối kết với liệu gốc: pi = predict (m, interval="prediction") dat = cbind (bw, pi) với đối số geom line phản ảnh phần (lwr) phân (upr) PI: P = ggplot (data=dat, aes (x = Ges P= P + geom point() + stat_smoo P = p + geom_line (aes (Ylinetype="dashed") + ge linetype="dashed") data=dat, aes (x = Gestation, y = Bwt)) om_point () + stat_smooth (method = "1m") eom_line (aes (y=lwr), color="red", ashed") + geom line (aes (y=upr), color="red", Biểu đồ cho thấy PI (đường đứt đoạn) rộng CI (vùng có dấu chấm trịn) Như thấy, 95% PI rộng 95% CI Lý khoảng tiên lượng dự báo giá trị tương lai, khoảng tin cậy phản ảnh khoảng tin cậy 95% giá trị trung bình Tóm lại, chương giới thiệu đến quý độc giả số phương pháp kiểm định mơ hình hồi quy tuyến tính cách tính giá trị tiên lượng khoảng tin cậy 95% Kiểm định hệ số mơ hình bước quan trọng, giúp cho hiểu mối liên quan đặt bối cảnh thực tế nghiên cứu 46 Kết luận Đề tài luận văn “Về phân tích hồi quy tuyến tính với R” với mục đích vận dụng phần mềm thống kê R việc phân tích hồi quy tuyến tính, luận văn trình bày nội dung sau: (a) Trình bày mơ hình hồi quy tuyến tính: trình bày số khái niệm mở đầu, hồi quy đơn, hồi quy thực nghiệm, ước lượng hồi quy tuyến tính; (b) Trình bày việc vận dụng phần mềm thống kê R hồi quy tuyến tính, sức mạnh R việc tính toán số liệu Cụ thể: Trong chương luận văn trình bày lại việc sử dụng R cho ví dụng phân tích hồi quy tuyến tính với biến tiên lượng đơn giản; biến tiên lượng biến phân nhóm; đánh giá mơ hình hồi quy tuyến tính kiểm định giả thiết mơ hình hồi quy tuyến tính 47 Tài liệu tham khảo Tiếng Việt [1] Đặng Hùng Thắng, Trần Mạnh Cường (2019), Thống kê cho Khoa học xã hội Khoa học sống (với phần mềm R), NXB Đại học Quốc gia Hà Nội [2] Nguyễn Văn Tuấn (2015), Phân tích liệu với R, NXB Tổng hợp Tp Hồ Chí Minh [3] Nguyễn Văn Tuấn (2020), Mơ hình hồi quy Khám phá khoa học, NXB Tổng hợp Tp Hồ Chí Minh Tiếng Anh [4] Chihiro Hirotsu (2017), Advanced Analysis of Variance, Wiley [5] Bhisham C Gupta, Irwin Guttman, Kalanka P Jayalath (2020), Statistic and Probability with Applications for Engineers and Scientists Using MINITAB, R and JMP, Wiley

Ngày đăng: 29/06/2023, 22:31

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w