Sử dụng mô hình hồi quy tuyến tính để phân tích dữ liệu.Chương này áp dụng hồi quy tuyến tính cho tập dữ liệu được trích từ UCI Machine Learning Repository với mục tiêu phân tích mối qua
Trang 1TRƯỜNG ĐẠI HỌC BÁCH KHOA
HOÀNG THỊ HÀ
PHÂN TÍCH HỒI QUY VÀ CÁC ỨNG DỤNG
TRONG Y HỌCREGRESSION ANALYSIS WITH ITS
APPLICATION IN MEDICINE
Chuyên ngành: Toán ứng dụngMã ngành: 8460112
LUẬN VĂN THẠC SĨ
TP.HỒ CHÍ MINH, tháng 06 năm 2024
Trang 2Cán bộ hướng dẫn khoa học: TS Nguyễn Tiến Dũng
TS Phan Thị Hường
Cán bộ chấm nhận xét 1: TS Lê Xuân Đại
Cán bộ chấm nhận xét 2: PGS.TS Nguyễn Huy Tuấn
Luận văn thạc sĩ này được bảo vệ tại Trường Đại học Bách Khoa, Đại học Quốcgia TP Hồ Chí Minh, ngày 22 tháng 06 năm 2024.
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
1 Chủ tịch: PGS.TS Phan Thành An
2 Thư ký: TS Huỳnh Thị Hồng Diễm
3 Phản biện 1: TS Lê Xuân Đại
4 Phản biện 2: PGS.TS Nguyễn Huy Tuấn
5 Ủy viên: PGS.TS Cao Thanh Tình
Xác nhận của chủ tịch Hội đồng đánh giá luận văn và trưởng Khoa quản lý chuyênngành sau khi luận văn đã chỉnh sửa (nếu có).
CHỦ TỊCH HỘI ĐỒNGTRƯỞNG KHOA KHOA HỌC
ỨNG DỤNG
PGS.TS NGUYỄN ĐÌNH HUYTS LÊ XUÂN ĐẠI
Trang 3NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ và tên học viên: Hoàng Thị HàMSHV: 2270259Ngày, tháng, năm sinh: 20/08/1999Nơi sinh: Bình PhướcChuyên ngành: Toán Ứng DụngMã ngành: 8460112
I TÊN ĐỀ TÀI: PHÂN TÍCH HỒI QUY VÀ CÁC ỨNG DỤNG TRONG Y HỌC( REGRESSION ANALYSIS WITH ITS APPLICATION IN MEDICINE)
NHIỆM VỤ VÀ NỘI DUNG
+) Kiến thức chuẩn bị.+) Phân tích hồi quy tuyến tính và ứng dụng.+) Phân tích hồi quy logistic và ứng dụng.+) Phân tích sống sót và ứng dụng.
II NGÀY GIAO NHIỆM VỤ: 15/01/2024
III NGÀY HOÀN THÀNH NHIỆM VỤ: 20/05/2024
IV CÁN BỘ HƯỚNG DẪN: TS Nguyễn Tiến Dũng - TS Phan Thị Hường.
TP Hồ Chí Minh, ngày 19 tháng 05 năm 2024
CÁN BỘ HƯỚNG DẪNCHỦ NHIỆM BỘ MÔN ĐÀO TẠO
TS Nguyễn Tiến Dũng
TS NGUYỄN TIẾN DŨNG
TS Phan Thị Hường
TRƯỞNG KHOA KHOA HỌC ỨNG DỤNG
TS LÊ XUÂN ĐẠI
Trang 4Để hoàn thành luận văn thạc sĩ “Phân tích hồi quy và các ứng dụng trong y học”này, tôi đã nhận được sự hỗ trợ cũng như sự quan tâm, động viên từ rất nhiều cơ quan,
tổ chức và cá nhân Đầu tiên, tôi xin gửi lời cảm ơn sâu sắc đến Thầy, Cô hướng dẫncủa mình, TS Nguyễn Tiến Dũng và TS Phan Thị Hường Những người Thầy không
chỉ hướng dẫn tận tâm, mà còn động viên, giúp đỡ tôi trong suốt quá trình hoàn thànhđề tài luận văn này.
Tôi xin gửi lời cảm ơn gia đình, người thân và bạn bè đã luôn ủng hộ, động viênkhông ngừng trong suốt quá trình hoàn thành luận văn.
Tôi xin chân thành cảm ơn các thầy cô trong khoa Toán Ứng Dụng đã tận tìnhtruyền đạt những tri thức quý báu cho tôi trong suốt khóa đào tạo.
Tôi cũng xin gửi lời cảm ơn sâu sắc Hội đồng đánh giá luận văn đã dành thời gian
đọc và đưa ra những nhận xét hưu ích.Do thời gian có hạn nên luận văn sẽ không tránh khỏi thiếu sót Rất mong nhận
được góp ý của các thầy cô để tôi có thể hoàn thiện luận văn hơn nữa.Tôi xin chân thành cảm ơn!
TP Hồ Chí Minh, ngày 18 tháng 5 năm 2024
Người thực hiện luận văn
Hoàng Thị Hà
Trang 5Trong luận văn này, một số phương pháp hồi quy và ứng dụng trong lĩnh vực y họcđược trình bày qua các chương sau:
• Chương 1 Kiến thức chuẩn bị Chương này trình bày một cách cơ bản vềphương pháp xấp xỉ nghiệm Gradient Descent Lý thuyết cơ bản về khái niệm,
hình thành mô hình, ước lượng, kiểm định phân tích hồi quy tuyến tính (đơn vàbội) cùng với phân tích hồi quy logistic (nhị phân và đa lớp).
• Chương 2 Sử dụng mô hình hồi quy tuyến tính để phân tích dữ liệu.Chương này áp dụng hồi quy tuyến tính cho tập dữ liệu được trích từ UCI
Machine Learning Repository với mục tiêu phân tích mối quan hệ tuyến tínhgiữa các tình trạng sức khỏe và một số thói quen ăn uống, lối sống của các đối
tượng được quan sát, cụ thể là ở khu vực các nước Mexico, Peru và Colombiavào năm 2019.
• Chương 3 Sử dụng mô hình hồi quy logistic để phân tích dữ liệu.Chương này áp dụng hồi quy logistic nhị phân cho dữ liệu đã được nhắc ở chương
3 với mục đích phân loại một cách trực tiếp đối tượng béo phì hoặc không béophì thông qua các thói quen và lối sống Đồng thời, áp dụng hồi quy logistic đa
lớp cho việc phân loại trực tiếp các tình trạng sức khỏe.
• Chương 4 Phân tích sống sót Chương này giới thiệu về phân tích sống sót,bao gồm các nội dung chính là phương pháp Kaplan-Meier, kiểm định Log-Rankvà mô hình hồi quy Cox PH Cuối cùng chúng tôi sử dụng các phương pháp này
để phân tích dữ liệu bằng phần mềm Rstudio.
Trang 6In this thesis, various regression methods and their applications in the medical fieldwill be discussed in the following chapters:
• Chapter 1: Preparatory knowledge This chapter introduces a fundamentalmethod for approximating solutions using Gradient Descent It covers essential
concepts such as model formation, estimation, and testing in both single and tiple linear regression analyses, as well as binary and multiclass logistic regression
mul-analyses.
• Chapter 2: Analyzing Data Using Linear Regression Models In thischapter, we will be utilizing linear regression to analyze a dataset obtained fromthe UCI Machine Learning Repository Our goal is to examine the linear relation-
ships between health statuses and specific eating and lifestyle habits of individualsin Mexico, Peru, and Colombia in 2019.
• Chapter 3 Using the logistic regression model to analyze data Thischapter applies binary logistic regression to classify subjects as obese or not based
on their habits and lifestyle, utilizing the data introduced in Chapter 3 tionally, multiclass logistic regression is employed to classify health conditions
Addi-directly.
• Chapter 4: Survival Analysis This chapter introduces the concept of survivalanalysis, which includes the main components of the Kaplan-Meier method, Log-Rank test, and the Cox PH regression model We will also demonstrate how to
apply these methods to analyze data using Rstudio software.
Trang 7Tôi tên: Hoàng Thị Hà.Học viên cao học chuyên ngành: Toán Ứng dụng.
MSHV: 2270259.Khóa 2022 - 2024.
Trường: Đại học Bách Khoa TP Hồ Chí Minh.
Tôi xin cam đoan toàn bộ những gì trình bày trong luận văn này là do chính tôi
thực hiện dưới sự hướng dẫn trực tiếp của TS Nguyễn Tiến Dũng và TS Phan ThịHường khoa Khoa học ứng dụng, trường Đại học Bách Khoa - Đại học Quốc gia TP
Hồ Chí Minh.
Trong toàn bộ luận văn, hầu hết kết quả nghiên cứu từ các công trình khoa học của
các tác giả khác, khi tôi thu thập, chọn lọc để trình bày, trích dẫn hoặc tham khảo,tôi đều có ghi rõ nguồn để người đọc tham chiếu.
Tôi xin cam đoan về những gì đã nêu trên đây là sự thật và xin chịu toàn bộ tráchnhiệm về tính trung thực của luận văn này.
TP Hồ Chí Minh, ngày 18 tháng 05 năm 2024
Người thực hiện luận văn
Hoàng Thị Hà
Trang 8Lời cảm ơni
1.1.1Tổng quát về Gradient Descent .3
1.1.2Các biến thể của Gradient Descent (GD Variants) 4
1.1.3Một số vấn đề trong Gradient descent .6
1.1.4Các thuật toán Gradient descent .8
1.2Hồi quy tuyến tính .8
1.2.1Khái niệm hồi quy tuyến tính .9
1.2.2Mô hình hồi quy tuyến tính đơn 9
1.2.3Mô hình hồi quy tuyến tính bội .24
1.3Hồi quy logistic (Logistic regression) .33
1.3.1Hồi quy logistic nhị phân (Binomial Logistic Regression) .34
1.3.2Hồi quy logistic đa lớp (Multinomial logistic regression model) .44
2Sử dụng mô hình hồi quy tuyến tính để phân tích dữ liệu.492.1Giới thiệu dữ liệu .50
2.2Tiền xử lý dữ liệu 52
2.2.1Đổi tên biến 52
2.2.2Chuyển đổi dữ liệu .52
2.2.3Làm sạch dữ liệu .53
2.2.4Phân chia dữ liệu 54
2.3Mô tả dữ liệu .55
Trang 92.4.2Xây dựng lại mô hình hồi quy tuyến tính 70
2.5Sử dụng mô hình hồi quy tuyến tính M3 dự đoán biến Obesity .78
2.6Xây dựng mô hình hồi quy tuyến tính để phân tích mối quan hệ và dựđoán chỉ số cơ thể BMI tập trung vào nhóm đối tượng dưới 35 tuổi .79
2.7Kết luận 85
3Sử dụng mô hình hồi quy logistic để phân tích dữ liệu.863.1Sử dụng mô hình hồi quy logistic nhị phân để phân tích mối quan hệgiữa biến State_Obesity và các biến còn lại trong dữ liệu 86
3.1.1Tiền xử lý dữ liệu .86
3.1.2Xây dựng mô hình hồi quy logistic nhị phân để phân tích mốiquan hệ và dự đoán tình trạng béo phì (biến State_Obesity) dựatrên các biến đầu vào 88
3.1.3Đánh giá mô hình hồi quy logistic nhị phân 103
3.2Sử dụng mô hình hồi quy logistic đa lớp để phân tích dữ liệu 104
4.2Dữ liệu thời gian sống sót 111
4.3Một số hàm quan trọng trong phân tích sống còn 114
4.4Phương pháp Kaplan-Meier 116
4.5Phương pháp Log-Rank test 119
4.6Phương pháp hồi quy Cox PH (Cox Proportional Hazards Regression).1244.6.1Mô hình hồi quy Cox PH 126
4.6.2Giả định của mô hình hồi quy Cox PH 128
4.6.3Ước lượng các tham số hồi quy Cox PH 128
4.6.4Một số mô hình mở rộng 130
4.7Sử dụng dữ liệu giả định để xây dựng mô hình Cox PH trong Rstudio.1304.7.1Xây dựng mô hình hồi quy Cox PH trong Rstudio 132
4.7.2Dự đoán xác suất sống sót theo mô hình Cox PH 134
4.7.3Trực quan hóa mô hình Cox PH thông qua các đồ thị 135
Trang 10Ký hiệu Ý nghĩa
E(Y |X) Kỳ vọng của Y khi biết X
V (Y |X) Phương sai của Y khi biết X
N (0, 1) Phân phối chuẩn
χ2 Phân phối chi bình phương
min(T, C) Giá trị nhỏ nhất của T và C
F (t) Hàm phân phối xác suất
dYdX Đạo hàm hàm Y theo biến X
ˆ Ước lượng của y
Trang 111.1 Hình ảnh minh họa cho tốc độ học 6
1.2 Hình ảnh minh họa cho điểm cực tiểu địa phương và điểm yên ngựa 71.3 Biểu đồ mô tả phân phối của các giá trị Y tại các giá trị X 10
1.4 Một số hình ảnh biểu diễn cho sự phụ thuộc và không phụ thuộctuyến tính 12
1.5 Hình ảnh phân phối chuẩn của sai số 13
1.6 Biểu diễn phương sai đồng nhất và không đồng nhất 13
1.7 Hình ảnh mô tả trường hợp β1= 0 20
1.8 Biễu diễn hình học của SST, SSR , SSE 22
1.9 Một số biểu đồ phân tán giá trị thặng dư thường gặp 23
1.10 Hình ảnh mô tả vị trí của các điểm dữ liệu so với mô hình hồi quytuyến tính bội 28
1.11 Hình ảnh minh họa đồ thị hàm Sigmoid 37
2.1 Bảng mô tả trực quan dữ liệu 52
2.2 Bảng quan sát dữ liệu trực quan sau thay đổi nhóm của biến phânloại 53
2.3 Kết quả kiểm tra giá trị khuyết của dữ liệu 54
2.4 Hình ảnh kết quả tổng quan của dữ liệu 55
2.5 Biểu đồ histogram và boxplot của biến Age 56
2.6 Biểu đồ hiển thị tỷ lệ theo độ tuổi của đối tượng quan sát 57
2.7 Biểu đồ histogram và boxplot của biến TUE 58
2.8 Biểu đồ histogram và boxplot của biến Weight 59
Trang 122.10 Biểu đồ thanh mô tả biến SMOKE 60
2.11 Biểu đồ thanh mô tả biến State 61
2.12 Biểu đồ tương quan (Correlation plot) 62
2.13 Xây dựng và đọc 5 giá trị đầu biến BMI trong Rstudio 63
2.14 Một số thông tin cơ bản về biến BMI theo lệnh "summary" 63
2.15 Biểu đồ histogram và boxplot mô tả biến BMI 64
2.16 Biểu đồ tương quan giữa biến BMI và các biến khác trong dữ liệu 652.17 Kết quả nhận được khi xây dựng mô hình hồi quy đầu tiên 67
2.18 Kết quả tổng quan từ mô hình xây dựng lại lần 1 71
2.19 Kết quả tổng quan của mô hình xây dựng lại lần 2 72
2.20 Kết quả tổng quan của mô hình xây dựng lại lần 3 74
2.21 Biểu đồ về phần dư trong mô hình M3 75
2.22 Khoảng tin cậy của các tham số hồi quy mô hình M3 76
2.23 Confusion matrix của đối tượng dưới 35 tuổi của mô hình M3 77
2.24 Confusion matrix của đối tượng trên 35 tuổi của mô hình M3 78
2.25 Confussion matrix cho biến State_Obesity và mô hình M3 79
2.26 Kết quả quả tổng quan của mô hình xây dựng lần 1 80
2.27 Kết quả tổng quan của mô hình giảm biến SM OKE 82
2.28 Kết quả tổng quan của mô hình giảm biến SMOKE và TUE 82
2.29 Biểu đồ về phần dư của mô hình giảm biến SMOKE, và TUE 83
2.30 Biến đổi đầu ra BMI thành biến Predicted_State trong tập test1 842.31 "Confusion matrix" đánh giá hiệu suất của mô hình M6 84
3.1 Bảng summary của biến State_Obesity 87
3.2 Biểu đồ thanh mô tả biến State_Obesity 87
3.3 Biểu đồ tương quan giữa biến State_Obesity và các biến trong dữliệu 88
3.4 Kết quả từ lệnh "contrasts" của biến nhị phân State_Obesity 89
Trang 133.6 Đồ thị các mô hình Null, Fitted và Staturated 92
3.7 Kiểm định Loglikelihood ratio test 94
3.8 Bảng kết quả tổng quan của mô hình logistic nhị phân loại bỏ biếnSMOKE 95
3.9 Bảng kết quả tổng quan của mô hình loại bỏ biến SMOKE vàCALC 96
3.10 Bảng "summary" của mô hình loại bỏ biến SMOKE, CALC vàNCP 98
3.11 Bảng kết quả tổng quan của mô hình loại bỏ biến SMOKE, CALC,NCP và Gender 99
3.12 Mô hình loại bỏ biến SMOKE, CALC, NCP, Gender và CH2O 100
3.13 Mô hình loại bỏ biến SMOKE, CALC, NCP, Gender, CH2O vàFAF 101
3.14 Khoảng tin cậy của các tham số hồi quy trong mô hình M8 102
3.15 Chuyển đổi các tham số thành tỷ lệ cược trong mô hình M8 102
3.16 Tạo biến dự đoán State_Obesity trong tập train, test và ngưỡngxác định 103
3.17 Confussion matrix trong tập test 103
3.18 Hệ số xác định của mô hình hồi quy logistic 104
3.19 Chọn nhãn cơ sở trong phân tích hồi quy logistic đa lớp 105
3.20 Sử dụng lệnh "multinom" xây dựng mô hình hồi quy logistic đa lớp.1073.21 Bảng kết quả tổng quan của mô hình hồi quy logistic đa lớp 108
3.22 Xác suất dự đoán thông qua mô hình của 6 quan sát đầu ở tậptrain 108
3.23 Tạo biến dự đoán tình trạng sức khỏe trong tập test 109
3.24 Tạo confusion matrix cho dữ liệu test 109
Trang 14đối tượng E, A, O, C, W, R, S trong 12 tháng 114
4.2 Đường cong Kaplan-Meier cho các đối tượng sử dụng thuốc loại 2 1194.3 Đường cong Kaplan-Meier cho nhóm đối tượng sử dụng thuốc loại1 và 2 119
4.4 Mô tả các giá trị đặc biệt của biến thứ i của hai nhóm 1 và nhóm2 121
4.5 Dữ liệu "lung" 131
4.6 Dữ liệu "lungnew" 132
4.7 Bảng kết quả tổng quát của mô hình hồi quy Cox PH 133
4.8 Tỷ lệ sống sót cơ bản theo thời gian (1-hˆ0(t)) 134
4.9 Biểu đồ biểu thị xác suất sống của đối tượng có giới tính nam(bên trái) và giới tính nữ (bên phải) cùng với 3 phân vị của biếnpat.karno 136
4.10 Biểu đồ histogram và boxplot của biến Height 142
4.11 Biểu đồ histogram và boxplot của biến FCVC 143
4.12 Biểu đồ histogram và boxplot của biến NCP 144
4.13 Biểu đồ histogram và boxplot của biến CH2O 144
4.14 Biểu đồ histogram và boxplot của biến FAF 145
4.15 Biểu đồ thanh mô tả biến FHO 146
4.16 Biểu đồ thanh mô tả biến FAVC 146
4.17 Biểu đồ thanh mô tả biến CAEC 147
4.18 Biểu đồ thanh mô tả biến CALC 147
4.19 Biểu đồ thanh mô tả biến SCC 148
4.20 Biểu đồ thanh mô tả biến MTRANS 149
Trang 151.1 Phân tích phương sai - ANOVA 31
2.1 Bảng mô tả biến 51
2.2 Bảng mô tả các nhóm trong biến phân loại State 54
2.3 Quy ước tình trạng cơ thế theo BMI 61
2.4 Sử dụng mô hình BMI để dự đoán biến State_Obesity 79
4.1 Dữ liệu thời gian sống sót mẫu 112
4.2 Dữ liệu bệnh nhân điều trị theo loại thuốc 2 sắp xếp theo thời gian.1174.3 Bảng ước tính tỉ lệ sống sót theo Kaplan-Meier về đối tượng dùngthuốc 2 118
4.4 Dữ liệu thời gian sống sót mẫu được phân chia theo từng nhómsử dụng thuốc và sắp xếp tăng dần theo thời gian 123
4.5 Bảng ước tính xác suất sống sót theo Kaplan-Meier của các đốitượng sử dụng thuốc 2 124
Trang 16Thừa cân, béo phì đang trở thành một vấn đề nghiêm trọng trong sức khỏetoàn cầu và nhận được sự quan tâm lớn từ xã hội Một cơ thể với tình trạngthừa cân, béo phì là một yếu tố nguy cơ dẫn tới hàng loạt bệnh như tăng huyếtáp, tiểu đường, tim mạch, Việc phân tích, đánh giá và dự đoán từ các yếu tốxã hội có vai trò quan trọng trong việc tìm giải pháp, phát hiện nguyên nhâncũng như ngăn ngừa thừa cân, béo phì.
Mặt khác, phân tích hồi quy là một công cụ được sử dụng phổ biến, đóng vaitrò quan trọng trong lĩnh vực nghiên cứu thống kê và ứng dụng trong thực tế.Trên cơ sở đó, luận văn này được hình thành với hai mục tiêu chính: đưa ra cáinhìn tổng quát về các phương pháp hồi quy, cụ thể là phân tích hồi quy tuyếntính, phân tích hồi quy logistic và phân tích sống còn; ứng dụng các phương pháphồi quy để phân tích dữ liệu trong lĩnh vực y học Việc sử dụng các phương pháphồi quy giúp ta phân tích, hình thành mối quan hệ, tương quan giữa các biến, từđó dự đoán giá trị của các biến phụ thuộc dựa trên giá trị của các biến độc lập.Trong suốt luận văn, việc ứng dụng các phương pháp phân tích hồi quy đượcthực hiện dưới sự hỗ trợ của công cụ Rstudio Để có một cái nhìn tổng quanvề phân tích hồi quy cũng như dữ liệu, tôi đã tham khảo, học tập kinh nghiệmtừ các kết quả nghiên cứu trước đó Việc khám phá các khía cạnh này giúp tôicó những nhận định sâu sắc về phân tích hồi quy Ngoài ra, việc sử dụng cácphương pháp hồi quy cho bộ dữ liệu thực tế là cơ hội để tôi trình bày nhữngquan sát, phát hiện của cá nhân Bằng cách tập trung vào chủ đề hấp dẫn này,tôi hy vọng luận văn sẽ giúp củng cố kiến thức và xây dựng nền tảng cơ bản
Trang 17nhằm tạo điều kiện để tôi tiếp tục nghiên cứu Trong luận văn này, luận vănđược trình bày một cách khoa học bằng 4 chương như sau:
• Chương 1 Kiến thức chuẩn bị Chương này trình bày một cách cơ bảnvề phương pháp xấp xỉ nghiệm Gradient Descent Lý thuyết cơ bản về kháiniệm, hình thành mô hình, ước lượng, kiểm định phân tích hồi quy tuyếntính (đơn và bội) cùng với phân tích hồi quy logistic (nhị phân và đa lớp)
• Chương 2 Sử dụng mô hình hồi quy tuyến tính để phân tích dữliệu Chương này áp dụng hồi quy tuyến tính cho tập dữ liệu được tríchtừ UCI Machine Learning Repository với mục tiêu phân tích mối quan hệtuyến tính giữa các tình trạng sức khỏe và một số thói quen ăn uống, lốisống của các đối tượng được quan sát, cụ thể là ở khu vực các nước Mexico,Peru và Colombia vào năm 2019
• Chương 3 Sử dụng mô hình hồi quy logistic để phân tích dữ liệu.Chương này áp dụng hồi quy logistic nhị phân cho dữ liệu đã được nhắc ởchương 3 với mục đích phân loại một cách trực tiếp đối tượng béo phì hoặckhông béo phì thông qua các thói quen và lối sống Đồng thời, áp dụng hồiquy logistic đa lớp cho việc phân loại trực tiếp các tình trạng sức khỏe
• Chương 4 Phân tích sống sót Chương này giới thiệu về phân tíchsống sót, bao gồm các nội dung chính là phương pháp Kaplan-Meier, kiểmđịnh Log-Rank và mô hình hồi quy Cox PH Cuối cùng chúng tôi sử dụngcác phương pháp này để phân tích dữ liệu bằng phần mềm Rstudio
Trang 18Kiến thức chuẩn bị.
1.1Gradient Descent.
Trước khi đi vào tìm hiểu nội dung chính của luận văn, một trong nhữngnội dung đóng vai trò quan trọng trong hầu hết các chủ đề của thống kê, máyhọc và nhiều ngành khoa học dữ liệu khác là tìm nghiệm tối ưu bằng phươngpháp xấp xỉ nghiệm Có rất nhiều phương pháp để tìm nghiệm tối ưu, một trongnhững phương pháp được lựa chọn và sử dụng rộng rãi là phương pháp xấp xỉsố Gradient Descent (kí hiệu GD) Gradient Descent được trình bày rõ trongnhiều tài liệu ([8],[24], ) và một vài điểm nổi bật của GD được trình bày dướiđây
1.1.1Tổng quát về Gradient Descent.Gradient Descent được nhắc tới như một thuật toán tối ưu hóa bậc nhấtđược sử dụng phổ biến, trong đó
• Gradient của hàm số f là đạo hàm cấp một tương ứng với mỗi biến của
f, hay Gradient là dY
dX,(Ở đây, Y := f (Xi; θ) là hàm số cần được tối ưu hóa với tham số θ),
• Descent là sự giảm xuống, ở đây ám chỉ việc giảm dần giá trị của hàmmục tiêu f thông qua việc cập nhật lại tham số θ
Trang 19GD về cơ bản là việc thực hiện điều chỉnh tham số θ để tối ưu hóa hàm f.GD bắt đầu bằng một θ khởi tạo ngẫu nhiên, sau đó thực hiện lặp lại các bướcdưới đây cho tới khi f hội tụ như sau:
1 Tính Gradient của f với tham số θi: ∇θf (θi);2 Thực hiện cập nhật tham số thứ i + 1 theo công thức:
θi+1 = θi− η∇θf (θi),
trong đó:
θi+1 là tham số ước lượng lần thứ i + 1;
θi là tham số ước lượng lần thứ i;
∇θf (θi) là Gradient của hàm muc tiêu f với tham số θi;
η là learning rate (tốc độ học);Dấu "−" ở đây thể hiện giảm dần, hướng đi luôn trái dấu với Gradient.Vấn đề f hội tụ ta sẽ thảo luận ở phần 1.1.3
1.1.2Các biến thể của Gradient Descent (GD Variants).Dựa vào một số tính chất, ta có thể chia GD thành 3 biến thể: Batch gradientdescent, stochastic gradient descent, và mini-batch gradient descent
Batch gradient descent -BGD
Batch gradient descent (hay còn gọi là vanilla GD) nói đơn giản là việc tatính Gradient của hàm f trên toàn bộ các điểm dữ liệu để thực hiện một lầncập nhật θ:
θi+1 = θi− η∇θf (θi).
Mỗi lần cập nhật như vậy được gọi là một "epoch".Một số ưu điểm của BGD như: tính hội tụ tốt, độ ổn định và độ chính xáccao đối với dữ liệu nhỏ
Trang 20Bên cạnh đó, các khó khăn xuất hiện như việc tính gradient dựa trên toànbộ dữ liệu nên tốn nhiều thời gian và tài nguyên tính toán Do đó BGD dườngnhư không phù hợp với dữ liệu có kích thước lớn, đặc biệt là dữ liệu trực tuyến;dễ rơi vào điểm tối ưu cục bộ.
Stochastic gradient descent - SGD.
Với mục tiêu khắc phục khó khăn ở BGD, Stochastic gradient descent thựchiện tính Gradient dựa trên một điểm được chọn một cách ngẫu nhiên (thay vìtính gradient với toàn bộ dữ liệu như ở BGD)
θi+1 = θi− η∇θf (θi; x(i), y(i)).
Một "epoch" trong SGD tương ứng với nlần cập nhật (n là số quan sát trongdữ liệu) Trong thực tế thì SGD chỉ yêu cầu số lượng "epoch" rất nhỏ
Một số ưu điểm của SGD như: việc tính gradient dựa trên một điểm dữ liệudẫn tới khả năng tính toán nhanh chóng, tiết kiệm tài nguyên và bộ nhớ tínhtoán SGD tỏ ra tiện lợi cho các dữ liệu lớn, đặt biệt các dữ liệu được cập nhậtliên tục và có tốc độ hội tụ về điểm tối ưu rất nhanh Hơn nữa, SGD có khảnăng vượt qua các điểm tối ưu cục bộ
Bên cạnh ưu điểm, một số nhược điểm của SGD được biết tới như: tính khôngổn định và việc khó khăn trong lựa chọn tốc độ học (learning rate) do các điểmtính được chọn một cách ngẫu nhiên
Mini-batch gradient descent - Mini-batch GD.
Tương tự SGD, Mini-batch gradient descent bắt đầu với dữ liệu ngẫu nhiên.Bằng việc chia dữ liệu thành các mini-batch nhỏ, mỗi mini-batch có p quan sát(mini-batch cuối là phần dư của n/p), mỗi lần cập nhật ở đây sử dụng mộtmini-batch:
θi+1= θi− η∇θf (θi; x(i:i+n), y(i:i+n)).
Trang 21Mini-batch GD là một kỹ thuật được ưu tiên trong phân tích Mỗi mini-batchthường không có tiêu chuẩn cố định nhưng nhìn chung thường nằm trong khoảng50-256 quan sát.
Mini-batch GD có nhiều ưu điểm của cả SGD và BGD như: tính tốc độ hộitụ nhanh, ổn định cũng như việc tối ưu được hiệu suất tính toán Tuy nhiên,mini-batch GD mang tới khó khăn trong việc chọn kích thước mini-batch.1.1.3Một số vấn đề trong Gradient descent.
Do đó, việc chọn tốc độ học phù hợp là rất quan trọng Một tốc độ học
Hình 1.1: Hình ảnh minh họa cho tốc độ học.
Trang 22tốt thường được chọn thông qua thực nghiệm hoặc kinh nghiệm của người thựchiện.
Điều kiện dừng (Stopping criteria).
Gradient descent là thuật toán lặp, do đó việc xác định khi nào thuật toáncần kết thúc và cho ra kết quả rất quan trọng Một số phương pháp xác địnhđiều kiện dừng của thuật toán là:
• Giới hạn số vòng lặp: Đây là một phương pháp đơn giản để kiểm soát sốlượng vòng lặp, tuy nhiên, nhược điểm của nó là có thể sẽ dừng khi chưagần tới điểm hội tụ
• Xét sự thay đổi của gradient: Đo lường sự thay đổi của gradient tạihai lần cập nhật liên tiếp, nếu nó nhỏ hơn một ngưỡng nhất định (thườngđược xác định dựa vào người sử dụng thuật toán) thì thuật toán có thểdừng lại
• Xét sự thay đổi của hàm mục tiêu: Đo sự thay đổi của hàm số saumỗi vòng lặp, nếu sự thay đổi nhỏ hơn một ngưỡng nhất định (thường làngưỡng sai số) thì ta kết luận thuật toán hội tụ và kết thúc Tuy nhiên, sựthay đổi nhỏ của hàm mục tiêu có thể do tồn tại các điểm yên ngựa hoặccực tiểu địa phương
Điểm cực tiểu địa phương, điểm yên ngựa (Local minima, Saddle points).
Hình 1.2: Hình ảnh minh họa cho điểm cực tiểu địa phương và điểm yên ngựa.
Trang 23Có thể dễ dàng tìm thấy cực tiểu toàn cục đối với bài toán lồi, tuy nhiêntrong bài toán không lồi, việc tìm cực tiểu toàn cục đôi khi rất khó do việc xuấthiện của cực tiểu địa phương (tương tự cho điểm yên ngựa, hình 1.2) Tại điểmcực tiểu địa phương và điểm yên ngựa, gradient của hàm mục tiêu bằng 0, điềunày có thể dẫn tới việc GD bị dừng lại với mục tiêu không mong muốn (khôngphải cực trị toàn cục) Trong trường hợp này, một số biến thể của GD có thểáp dụng để khắc phục vượt qua các điểm đặc biệt này như: Momentum, SGD,Hybrid Approaches,
1.1.4Các thuật toán Gradient descent.Có nhiều thuật toán Gradient descent được cải tiến với mục đích khắc phụcnhiều vấn đề của GD như: Momentum, Nesterov accelerated gradient, Ada-grad,
1.2Hồi quy tuyến tính.
Các phương pháp phân tích hồi quy nói chung là một chủ đề cơ bản trongphân tích dữ liệu và được trình bày rõ ràng ([18], [10], [31], ) Hồi quy tuyếntính được xem là một phương pháp phân tích hồi quy cơ bản nhất và thườngđược mô tả một cách chi tiết và rõ ràng([28], [1], [3]) Hồi quy tuyến tính đượcsử dụng trong nhiều lĩnh vực như kinh tế học, tài chính, y khoa, nhằm thựchiện các nhiệm vụ cụ thể như: dự báo doanh số, giá cổ phiếu, phân tích mốiquan hệ giữa các yếu tố rủi ro khác nhau, phân tích tỷ lệ mắc bệnh, phân tíchtác động của biến đổi khí hậu với tự nhiên, Trong chương này, chúng tôi sẽtrình bày lại phương pháp hồi quy tuyến tính một cách ngắn gọn, dễ hiểu vàđầy đủ nhất có thể
Trang 241.2.1Khái niệm hồi quy tuyến tính.Phân tích hồi quy là việc nghiên cứu về mối quan hệ giữa một hay nhiều biếnđộc lập X (hay biến giải thích (explanatory)) và biến phụ thuộc Y Phân tíchhồi quy tuyến tính là một phương pháp hồi quy được xác định dưới dạng hàmsố tuyến tính (đường thẳng hoặc các siêu phẳng) Phân tích hồi quy tuyến tínhlà một công cụ thống kê phổ biến nhằm mô hình hóa mối quan hệ tuyến tínhgiữa biến phụ thuộc Y (Y là biến phụ thuộc nhận giá trị liên tục, thực) và mộthay một số biến độc lập X1, X2, Xk.
Mô hình hồi quy tuyến tính có dạng
Y = β0+ β1X1+ β2X2+ + βkXk+ ,
trong đó
là sai số ngẫu nhiên (random error),
β0 được gọi là hệ số chặn (intercept),
βi là các hệ số hồi quy, nó cho biết mức độ ảnh hưởng của biến Xi tớigiá trị Y
1.2.2Mô hình hồi quy tuyến tính đơn.
Hình thành mô hình hồi quy tuyến tính đơn.
Xét tập dữ liệu giả định (X,Y), với X là biến độc lập; Y là biến phụ thuộc.Ta giả định rằng giá trị kỳ vọng của biến phụ thuộc Y có liên quan tới biến X
theo một đường thẳng với hệ số chặn β0 và hệ số góc β1 Khi đó, kỳ vọng củabiến Y khi biết giá trị X được xác định bởi công thức
Trang 25tính Khi đó, giá trị đầu ra thực tế Y và giá trị dự đoán Yˆ lệch nhau một khoảng
và được xác định là
Y = ˆY + = β0+ β1X + ,
với là phần dư (sai số) giữa giá trị thực tế Y và giá trị Yˆ được giả định làmột biến ngẫu nhiên độc lập với X và tuân theo phân phối chuẩn Giá trị kỳvọng và độ lệch chuẩn của lần lượt là 0 và σ (chưa biết) Giá trị kỳ vọng vàphương sai của Y lần lượt là
E(Y |X) = E(β0+ β1X + ) = β0+ β1X + E() = β0+ β1X,V (Y |X) = V (β0+ β1X + ) = V (β0+ β1X) + V () = 0 + σ2= σ2.
(1.1)
Như vậy, đường hồi quy là đường kỳ vọng của biến phụ thuộc Y tại các giátrị của biến độc lập X Nói cách khác, nếu biết giá trị của X bất kì, đường hồiquy cho ta giá trị kỳ vọng của Y Điều này có nghĩa là Y có phân phối tại mỗi
X cố định (ở đây là phân phối chuẩn như hình 1.3) và phương sai của phân phốichính là σ2, phương sai chuẩn của mô hình
Hình 1.3: Biểu đồ mô tả phân phối của các giá trị Y tại các giá trị X.
Một cách tổng quát, xét tập dữ liệu có n cặp dữ liệu (X; Y )với X là biến độc
Trang 26lập và Y ∈R là biến phụ thuộc (dependent variable).
Giả sử rằng, mối quan hệ giữa biến Y và X là một đường thẳng và Y ở mỗigiá trị X là một biến ngẫu nhiên, khi đó giá trị kỳ vọng của Y tại mỗi X là
E(Y |X) = β0+ β1X,
với β0 là hệ số chặn, β1 là hệ số góc của mô hình dự đoán.Đặt β = (β0, β1) là vector tham số (parameter) hồi quy tuyến tính chưa biết.Đây là các giá trị quan trọng và là những tham số cần ước lượng để xây dựngđược mô hình hồi quy tuyến tính đơn
Mô hình hồi quy tuyến tính đơn cụ thể là
Y = β0+ β1X + , là sai số ngẫu nhiên với giá trị kỳ vọng 0 và phương sai là σ2.Ta gọi cặp dữ liệu thứ i có dạng (xi; yi) Đối với mỗi biến xi, bằng cách ướclượng β ta có giá trị đầu ra dự đoán ˆi là
ˆi= β0+ β1xi,
hay
ˆY = β0+ β1X.
Rõ ràng, ứng với n cặp dữ liệu ta sẽ ước lượng được rất nhiều β Vậy câu hỏiđược đặt ra một cách tự nhiên là: β nào là tốt nhất?
Để trả lời cho câu hỏi trên, ta quan sát biến ngẫu nhiên i - sự chênh lệchgiữa giá trị đầu ra thực Y và giá trị đầu ra dự đoán Yˆ tại điểm dữ liệu thứ i,
i= yi− ˆyi,i∈R Do đó để hạn chế sai lệch do các giá trị sai số âm và sai số dương, ta xét
bình phương sai số i2 = (yi− ˆyi)2.
Đối với toàn bộ tập dữ liệu thì tổng bình phương sai số giữa giá trị đầu ra
Trang 27thực Y và giá trị đầu ra dự đoán Yˆ (Residual Sum of Squares) là:
Các giả định trong mô hình hồi quy tuyến tính đơn.
Mô hình hồi quy tuyến tính là một phương pháp thống kê được sử dụng rấtrộng rãi, tuy nhiên không phải bất cứ dữ liệu nào cũng có thể sử dụng phươngpháp này Thông thường dữ liệu thực tế rất phức tạp, do đó việc đánh giá sựphù hợp với mô hình hồi quy tuyến tính dựa trên các giả định (assumption) làđiều không thể thiếu Nếu các giả định không được thỏa mãn, mối quan hệ giữaX và Y có thể là phi tuyến tính hoặc đơn giản là không có quan hệ Dưới đây làcác giả định trong mô hình hồi quy tuyến tính đơn
1 Tính tuyến tính (Linearity): Cần có sự phụ thuộc tuyến tính (linearrelationship) giữa biến độc lập Xi và biến phụ thuộc Y (một vài hình ảnhminh họa ở hình 1)
Hình 1.4: Một số hình ảnh biểu diễn cho sự phụ thuộc và không phụ thuộc tuyến tính.
2 Tính độc lập (Independence): Các giá trị của biến độc lập X là độc lậpvới nhau
Trang 283 Tính phân phối chuẩn của phần dư (Normality of residuals): Các saisố i phải là phân phối chuẩn (xem hình 1.5).
Hình 1.5: Hình ảnh phân phối chuẩn của sai số.
4 Phương sai đồng nhất (Homoscedasticity): Mỗi sai số đều có phươngsai giống nhau (phương sai đồng nhất được minh họa ở hình 1.6) , hay
V ar(|x) = σ2
Hình 1.6: Biểu diễn phương sai đồng nhất và không đồng nhất.
5 Sai số trung bình bằng không: Với giá trị bất kì của biến x, sai số làmột biến ngẫu nhiên có kỳ vọng có điều kiện bằng không, hay E(|x) = 0
Trang 29Bình phương bé nhất đối với mô hình tuyến tính đơn (Least Squares mates (LSE)).
Esti-Ta sử dụng phương pháp bình phương bé nhất với mục tiêu cực tiểu hóabình phương sai số của mô hình ước lượng Gọi các ước lượng của tham sốβ0, β1
thông qua phương pháp bình phương bé nhất lần lượt là βˆ0, ˆβ1 Khi đó, giá trịđầu ra dự đoán ˆi= β0+ β1xi, i = 1, 2, , n và tổng bình phương sai số giữa giátrị đầu ra thực Y và giá trị đầu ra dự đoán Yˆ (Residual Sum of Squares) đượcbiểu diễn là
∂L∂β0
|βˆ0, ˆβ1= −2
n
X
i=1
(yi− ˆβ0− ˆβ1xi) = 0∂L
∂β1|βˆ0, ˆβ1= −2
ˆβ0 =
i=1xin
n
.
Đặt
Trang 30• Giá trị trung bình của biến đầu ra: y = n1
n
X
i=1
yi,• Giá trị trung bình của biến đầu vào, hay biến độc lập: x = n1
n
X
i=1
xi,• Sxx=Pni=1x2i − (
Pni=1xi)2
n=Pni=1(xi− x)2,• Sxy=
ˆβ0= y − ˆβ1x
ˆβ1= Sxy
Sxx
.
Khi đó, mô hình ước lượng là Y = ˆˆ β0+ ˆβ1X còn được gọi là đường hồi quyLSE (đường hồi quy được ước lượng theo phương pháp bình phương bé nhất)và βˆ0, ˆβ1 được gọi chung là các ước lượng LSE
Ước lượng phương sai σ2.
Với βˆ0, ˆβ1 được ước lượng như trên, gọi ˆ là giá trị sai số được xác định bởicác giá trị ước lượng βˆ0, ˆβ1 là
ˆi = yi− ˆyi = yi− ( ˆβ0+ ˆβ1xi),i = 1, 2, , n
Khi đó, công thức tổng bình phương sai số trong mô hình hồi quy tuyến tínhđơn là
Ở đây, giá trị ˆ phụ thuộc vào các ước lượng LSE, do đó, phương sai của
càng lớn thì sai số trong các ước lượng LSE càng lớn hay độ tin cậy của ước lượng
ˆβ0, ˆβ1 càng giảm Giá trị phương sai σ2 về cơ bản là trung bình bình phương củasai số ˆ Gọi ước lượng của phương sai σ2 là σˆ2
Trang 31Một cách tổng quát, ước lượng phương sai σˆ2 được tính bằng cách chia tổngbình phương sai số RSS cho bậc tự do (degrees of freedom - df) Bậc tự do df
được tính bằng công thức: df = n − k (với n là số quan sát trong dữ liệu,k là sốlượng tham số trong mô hình)
Trong trường hợp mô hình hồi quy tuyến tính đơn, ta sử dụng 2 tham số (hệsố chặn β0 và hệ số góc β1) để ước lượng mô hình, do đó df = n − 2 Vậy ướclượng phương sai σˆ2 là
ˆσ2 = RSS
n − 2, σ =ˆ
√ˆσ2.
Ước lượng phương sai có giá trị lớn thì dữ liệu có sự phân tán rộng, khi đómô hình không dự đoán tốt giá trị của biến phụ thuộc và ngược lại nếu ướclượng phương sai nhỏ, thì dữ liệu có độ phân tán thấp, hay mô hình hồi quy dựđoán tốt
Tính chất của các ước lượng LSE.
Bình phương bé nhất là một phương pháp thông dụng và hiệu quả trong việcước lượng tham số hồi quy tuyến tính Các ước lượng (LSE) được sử dụng rộngrãi vì nó mang đến sự thuận tiện và đơn giản trong việc tính toán Tuy nhiên,hạn chế của phương pháp LSE là nếu có hai bộ dữ liệu giống nhau, chúng sẽđưa ra cùng một ước lượng LSE, mặc dù mô hình của chúng có thể không phảilà đường thẳng Do đó, để có thể đưa ra kết luận về mô hình hồi quy tuyếntính thì việc kiểm định mô hình cũng như các ước lượng LSE là điều không thểthiếu Dưới đây là một số tính chất cơ bản của các ước lượng LSE
1 Tính tuyến tínhĐặt ci = (xi− x)/Sxx; di = 1/n − cixi Khi đó, ước lượng βˆ0, ˆβ1
được biểu diễn là
ˆβ1= Sxy
Sxx =
Pni=1yi(xi− x)
Trang 32ˆβ0= y − ˆβ1x = 1
n
X
i=1
ˆi =
Với xi = x, mô hình ước lượng LSE là ˆi = ˆβ0+ ˆβ1x = y − ˆβ1x +ˆ
β1x = y. Do đó, đồ thị hồi quy luôn đi qua điểm (x, y) 4 Phương sai tối thiểu (Minimum variance)
Theo định lý Gauss-Markov, các ước lượng βˆ0 và βˆ1 là ước lượngcó phương sai nhỏ nhất trong tất cả các ước lượng tuyến tínhkhông chệch
5 Ước lượng không chệch (Unbiased estimator)Trong trường hợp mô hình ước lượng LSE thỏa mãn các giảđịnh, βˆ là ước lượng không chệch của hệ số hồi quy thực β , hay
E( ˆβ0) = β0; E( ˆβ1) = β1 Thật vậy, với Sxx phụ thuộc vào X cho trước
E( ˆβ1) = E
SxySxx
= E(Sxy)Sxx .
Trang 33i=1xin
Vậy Eβˆ1= β1Sxx
Sxx
= β1.
Tương tự ta có E( ˆβ0) = β0
Thông số của ước lượng LSE.
Giá trị phương sai của các ước lượng LSE được xác định như sau:
Trang 34Tương tự
V ar( ˆβ0|X) = σ2
1n +
x2Sxx
Bằng cách thay phương saiσ2 bằng ước lượng phương saiσˆ2 ta sẽ nhận đượcước lượng phương sai của các ước lượng LSE
Ước lượng khoảng tin cậy và kiểm định giả thuyết các hệ số LSE.
Đối với hệ số βˆ1 (độ dốc)Xét mô hình: Y = β0+ β1X + , trong thực tế, không phải bất kì biến độc lập
x nào cũng có mối quan hệ với biến phụ thuộc y Vậy, nếu x không có mối quanhệ tuyến tính với y (hay β1= 0, quan sát hình 1.7) thì điều gì xảy ra?
Thực hiện kiểm định giả thuyết khôngXkhông ảnh hưởng tớiY và giả thuyếtngược lại, ta thực hiện bác bỏ giả thuyết không như sau
H0 : β1 = 0,H1 : β1 6= 0.
Nếu chấp nhận H0, kết luận rằng không có mối quan hệ tuyến tính giữa X
và Y và ngược lại.Theo các ước lượng LSE, i và yi đều có phân phối chuẩn với kỳ vọng vàphương sai σ2, kí hiệu: i ∼ N (0, σ2) và yi ∼ N (β0+ β1xi, σ2) Hơn thế nữa, βˆ1
Trang 35Hình 1.7: Hình ảnh mô tả trường hợp β1= 0.
được biểu diễn tuyến tính bởi các biến phụ thuộc có phân phối chuẩn yi, do đó
ˆβ1∼ N (β1, V ar( ˆβ1)).Với giả thuyết về phân phối chuẩn, ta có thể sử dụng giá trị t-test để kiểm tratính đáng tin cậy của ước lượng βˆ1
Với σˆβˆ
1= ˆσ/√
Sxx, ước lượng giá trị thống kê lúc này là
t0 = βˆ1ˆσβˆ
1= βˆ1
ˆσ/√
Sxx.
Với bậc tự do là n − 2, bác bỏ giả thuyết H0: ˆβ1= 0 nếu |t0| > tα/2,n−2
Khoảng tin cậy cho hệ số βˆ1 là
ˆβ1 ∈h−(tα/2,n−2)ˆσβˆ
Trang 36X
i=1
(yi− y)2.Biến đổi 1.2 ta nhận được biểu thức
SSESST = 1 −
SSRSST = R
2
, 0 ≤ R2 ≤ 1. (1.3)
Trang 37Hình 1.8: Biễu diễn hình học của SST, SSR , SSE.
Ở đây, R2 là tỉ số giữa tổng độ biến thiên được giải thích bởi mô hình ướclượng và tổng độ biến thiên được giải thích thực sự Do đó, R2 là hệ số đánh giáđộ tốt của mô hình ước lượng hay đánh giá mức độ ý nghĩa của các ước lượngso với tổng thể
Rõ ràng nếu R2 càng gần 1 thì giá trị SSR càng nhỏ, hay tổng bình phươngphần dư càng nhỏ hay mô hình ước lượng có độ thích hợp cao Ngược lại, nếu
R2 càng gần 0, nghĩa là mô hình ước lượng không được giải thích bởi các biếnđộc lập X
Phân tích thặng dư.
Sau khi tìm được mô hình của giá trị dự đoán Yˆ, giá trị sai số (hay còn đượcgọi là thặng dư) được xác định ˆ = Y − ˆY Bất kỳ điểm dữ liệu nào cũng có mộtgiá trị thặng dư tương ứng ˆi = yi− ˆyi= yi− ( ˆβ0+ ˆβ1xi)
Thặng dư thể hiện sự khác biệt giữa giá trị dự đoán thông qua mô hình ướclượng LSE và giá trị quan sát thực Phân tích thặng dư được sử dụng với mụcđích kiểm tra tính đúng đắn của các giả định đã nhắc Nó là một công cụ phântích quan trọng giúp đánh giá tính chính xác và độ tin cậy của mô hình hồi quy
Trang 38tuyến tính Các giả định: về sự độc lập, phân phối chuẩn và đồng nhất phươngsai của thặng dư có thể được kiểm định dựa vào biểu đồ phân tán của giá trịthặng dư.
Hình 1.9: Một số biểu đồ phân tán giá trị thặng dư thường gặp.
Biểu đồ phân tán thặng dư cho biết mối quan hệ giữa giá trị thặng dư và giátrị đầu vào X Quan sát biểu đồ 1.9 (a), ta thấy giá trị thặng dư phân tán đềuvà ngẫu nhiên xung quanh giá trị kỳ vọng thặng dư E(|x) = 0, do đó, thặng dưcó phân phối chuẩn và phương sai đồng nhất, mô hình được xem là thỏa mãncác giả định Bên cạnh đó, khi quan sát các biểu đồ phân tán thặng dư (b), (c),
Trang 39(d), dễ dàng nhận thấy sự phân tán của thặng dư không ngẫu nhiên, hoặc đơngiản là phương sai thay đổi, khi đó, mô hình được xem là không phù hợp.1.2.3Mô hình hồi quy tuyến tính bội.
Một cách tổng quát, có thể nói hồi quy tuyến tính đơn là việc sử dụng mộtbiến độc lập duy nhất để giải thích cho sự thay đổi của biến phụ thuộc Tuynhiên, trong hầu hết các tình huống thực tế, dữ liệu thường phức tạp hơn nhiều,do đó ta thường sẽ cần phân tích nhiều biến độc lập Xi tới một biến phụ thuộc
Y, còn được gọi là phân tích hồi quy tuyến tính bội Hồi quy tuyến tính bộilà một phương pháp đánh giá ảnh hưởng của nhiều biến đầu vào tới biến phụthuộc Y và được sử dụng rộng rãi trong phân tích kinh tế học, các ngành khoahọc xã hội,
Tương tự như mô hình hồi quy tuyến tính đơn, mô hình hồi quy tuyến tínhđa biến có dạng là
Trang 40Đối với quan sát thứ i ta có: (x1i, x2i, , xpi, yi) Mô hình ước lượng có dạng:
yi = β0+ β1x1i+ β2x2i+ + βpxpi+ i.
Đối với toàn bộ n dữ liệu ta có
y1 = β0+ β1x11+ β2x21+ + βpxp1+ 1,y2 = β0+ β1x12+ β2x22+ + βpxp2+ 2, ,
1x11 x21 xp11x12 x22 xp2
1x1n x2n xpn
; Y =
y1y2
yn
; β =
β0β1
βp
; =
12
n
Vậy hệ phương trình 1.4 được viết dưới dạng ma trận là
1 Số lượng biến độc lập đầu vào: Hồi quy tuyến tính đơn chỉ sử dụng một