I. CƠ SỞLÝ THUYẾT .......................................................................................1 1. HỒI QUY TUYẾN TÍNH ................................................................................1 1.1 Mô hình hồi quy tuyến tính bội .....................................................................1 1.2 Đánh giá sựphù hợp của mô hình ................................................................. 1 1.3 Phương pháp bình phương cực tiểu ...............................................................5 1.4 Các giả định của mô hình hồi quy ................................................................. 6 a. Hàm hồi quy là tuyến tính theo các tham số ..................................................6 b. E =(
CƠ SỞ LÝ THUY Ế T
H Ồ I QUY TUY Ế N TÍNH
1.1 Mô hình hồi quy tuyến tính bội
Mô hình hồi quy tuyến tính bội có dạng tổng quát như sau:
+ 𝛽 0 : là hệ số tung độ góc
+ 𝛽 1 : là hệ dốc của Y theo biến 𝑋 1 và giữa các biến 𝑋 2 , 𝑋 3 , , 𝑋 𝑘 không đổi
+𝛽 3 : là hệ dốc của Y theo biến 𝑋 3 và giữa các biến 𝑋 1 , 𝑋 2 , , 𝑋 𝑘 không đổi + 𝛽 𝑘 : là hệ dốc của Y theo biến 𝑋 𝑘 và giữa các biến𝑋 1 , 𝑋 2 , , 𝑋 𝑘 không đổi
Trong mô hình hồi quy, 𝜖 𝑖 đại diện cho thành phần ngẫu nhiên (yếu tố nhiễu) với kỳ vọng bằng 0 và phương sai không đổi 𝜎 2 Giả sử chúng ta có một mẫu quan sát với giá trị thực tế (𝑌 𝑖 , 𝑋 2𝑖 , 𝑋 𝑘𝑖 ) cho i = 1, 2, 3, k Dựa vào thông tin từ mẫu này, chúng ta sẽ xây dựng các ước lượng cho các hệ số 𝛽 𝑗 (với j = 1, 2, 3, k) Từ các giá trị ước lượng này, chúng ta có thể viết ra hàm hồi quy mẫu.
𝑌̂ = 𝛽̂ + 𝛽 0 ̂ 𝑋 1 1 + 𝛽̂ 𝑋 2 2 + … + 𝛽̂.𝑋 3 𝑘 Trong đó 𝑌̂ là giá tr 𝑖 ị ước lượng cho 𝑌 𝑖 và sai lệch giữa hai giá trịnày được gọi là phần dư.
1.2 Đánh giá sự phù hợp của mô hình
Để đánh giá sự phù hợp của mô hình thống kê, có một số phương pháp quan trọng như tính toán hệ số xác định, sử dụng thống kê F để đánh giá mức ý nghĩa toàn diện của mô hình, tính toán sai số chuẩn của ước lượng và đánh giá ý nghĩa của từng biến độc lập.
Tính toán h ệ s ố xác đị nh b ộ i
Khi mô hình có nhiều biến độc lập, hệ số xác định R² vẫn được sử dụng để đo lường phần biến thiên của biến phụ thuộc liên quan đến tất cả các biến độc lập Trong trường hợp này, R² được gọi là hệ số xác định bội Công thức tính toán hệ số xác định bội được áp dụng để đánh giá mức độ phù hợp của mô hình.
Khi R² = 0.82, chúng ta có thể kết luận rằng 82% sự biến thiên của biến phụ thuộc được giải thích bởi mối quan hệ tuyến tính với các biến độc lập trong mô hình Tuy nhiên, cần lưu ý rằng không phải tất cả các biến độc lập đều có mức độ quan trọng như nhau trong việc giải thích sự biến thiên của biến phụ thuộc.
H ệ s ố xác đị nh hi ệ u ch ỉ nh
Hệ số xác định hiệu chỉnh, ký hiệu là 𝑅 𝑎𝑑𝑗 2, là một chỉ số quan trọng dùng để đo lường tỷ lệ phần trăm biến thiên của biến phụ thuộc được giải thích, đồng thời điều chỉnh cho kích thước mẫu và số lượng biến độc lập trong mô hình hồi quy bội.
𝑛 − 𝑘 − 1) Trong đó n là cỡ mẫu, k là số biến độc lập trong mô hình
Hệ số xác định hiệu chỉnh (𝑅 𝑎𝑑𝑗 2) là một chỉ số quan trọng trong mô hình hồi quy, vì việc thêm biến độc lập vào mô hình thường làm tăng 𝑅 2, ngay cả khi các biến này không có mối liên hệ đáng kể với biến phụ thuộc Khi số biến độc lập lớn so với cỡ mẫu, 𝑅 2 có thể thổi phồng khả năng giải thích của mô hình một cách sai lệch Mặc dù sự gia tăng 𝑅 2 có thể không bù đắp cho sai sót do mất bậc tự do, nhưng 𝑅 𝑎𝑑𝑗 2 sẽ điều chỉnh giá trị này phù hợp với chi phí thêm biến Khi một biến độc lập không đóng góp đáng kể, 𝑅 𝑎𝑑𝑗 2 sẽ giảm, mặc dù 𝑅 2 tăng, cho thấy tầm quan trọng của 𝑅 𝑎𝑑𝑗 2 trong đánh giá khả năng giải thích của mô hình hồi quy đa biến, đặc biệt khi số biến độc lập lớn Do đó, khi đánh giá độ phù hợp của mô hình hồi quy bội, cần tham khảo cả 𝑅 2 và 𝑅 𝑎𝑑𝑗 2.
Đánh giá ý nghĩa toàn diệ n c ủ a mô hình
Mô hình hồi quy được xây dựng dựa trên dữ liệu từ một mẫu trong tổng thể, do đó có thể bị ảnh hưởng bởi sai số lấy mẫu Vì vậy, việc kiểm định ý nghĩa thống kê của toàn bộ mô hình là cần thiết Chúng ta có thể thiết lập một giả thuyết để thực hiện kiểm định này.
Nếu giả thuyết 𝐻 0 đúng, tức là tất cả các hệ số độ dốc bằng 0, thì mô hình hồi quy không có khả năng dự đoán hay mô tả biến phụ thuộc Đại lượng F thống kê trong bảng ANOVA được sử dụng để kiểm định giả thuyết về ý nghĩa toàn diện của mô hình hồi quy, với công thức đại lượng F được xác định như sau:
Trong phân tích hồi quy, công thức 𝑛 − 𝑘 − 1𝑆𝑆𝐸 được sử dụng để tính toán các thành phần quan trọng như tổng bình phương hồi quy (SSR) và tổng bình phương sai số (SSE) Để đưa ra quyết định, cần tra bảng thống kê F để tìm giá trị giới hạn tương ứng với mức ý nghĩa đã chọn Việc tra bảng F yêu cầu thông tin về bậc tự do ở tử số và mẫu số, với quy ước bậc tự do của tử số là k và bậc tự do của mẫu số là (n = k = 1) Từ đó, quy trình đánh giá ý nghĩa toàn diện của mô hình được thực hiện.
Bước 2: Chọn độ tin cậy cho kiểm định từ đó có mức ý nghĩa α
Bước 3: Với bậc tựdo xác định như trên, tra bảng phân phối F ta được giá trị F tới hạn
Bước 4: So sánh giá trị F kiểm định tính được theo công thức trên và giá trị F tới hạn
Nếu giá trị F kiểm định lớn hơn giá trị F tới hạn, điều này cho thấy mô hình hồi quy bội với các biến độc lập đã chọn có khả năng giải thích một cách đáng kể sự biến thiên của biến phụ thuộc.
Mục tiêu của mô hình hồi quy là xác định giá trị của biến phụ thuộc dựa trên các giá trị của biến độc lập Để đánh giá hiệu quả của mô hình, sai số chuẩn ước lượng (hay độ lệch chuẩn của mô hình hồi quy) được sử dụng Giá trị này được tính toán từ thông tin mẫu, phản ánh độ chính xác của các ước lượng trong mô hình hồi quy.
𝑛 − 𝑘 − 1 Trong đó n: cỡ mẫu, k: biến độc lập trong mô hình
Sai số chuẩn ước lượng đo lường sự phân tán của các giá trị thực tế quanh những giá trị dự đoán bằng đường hồi quy Trong kiểm định F, nếu giả thuyết H1 được chấp nhận, điều này cho thấy mô hình toàn diện có ý nghĩa, tức là ít nhất một biến độc lập có thể giải thích được sự biến thiên của biến phụ thuộc Tuy nhiên, điều này không đồng nghĩa với việc tất cả các biến độc lập trong mô hình đều có ý nghĩa Để xác định biến độc lập nào có ý nghĩa, chúng ta cần thực hiện kiểm định giả thuyết.
Chúng ta có thể sử dụng kiểm định t để đánh giá ý nghĩa của từng hệ số hồi quy với mức độ tin cậy đã chọn Giá trị t được tính toán theo một công thức cụ thể.
Trong mô hình hồi quy, hệ số dốc bj đại diện cho biến độc lập thứ j, trong khi s bj là sai số chuẩn ước lượng của hệ số này Để đánh giá ý nghĩa thống kê của hệ số dốc, giá trị t được tính toán sẽ được so sánh với giá trị t tới hạn từ bảng phân phối Student, với (n − k − 1) bậc tự do và mức ý nghĩa 𝛼/2.
1.3 Phương pháp bình phương cực tiểu
Phương pháp bình phương cực tiểu, do nhà Toán học Đức Carl Friedrich Gauss phát triển, là một trong những phương pháp ước lượng hồi quy tuyến tính phổ biến nhất Trong nghiên cứu, sai số (error) được ký hiệu là e, trong khi phần dư trong mẫu nghiên cứu được ký hiệu là 𝜖 Biến thiên phần dư được tính bằng tổng bình phương của tất cả các phần dư Nguyên tắc cơ bản của phương pháp hồi quy này là tối thiểu hóa tổng bình phương phần dư để đạt được ước lượng chính xác nhất.
CH Ủ ĐỀ CHUNG
HO ẠT ĐỘ NG 1: H Ồ I QUY TUY Ế N TÍNH
Bài tập 2 trình bày tập tin "diem_so.csv", chứa thông tin về điểm toán của học sinh trung học từ hai trường ở Bồ Đào Nha Dữ liệu bao gồm điểm số, nơi cư trú và một số hoạt động xã hội của học sinh Thông tin được thu thập từ báo cáo của trường và khảo sát sinh viên Dữ liệu gốc có thể được tìm thấy tại: https://archive.ics.uci.edu/ml/datasets/studen+performance.
studytime: Thời gian tự học trên tuần ( 1 – ít hơn 2 giờ, 2 – từ 2 đến 5 giờ, 3 – từ 5-10 giờ, or 4 – lớn hơn 10 giờ)
failures: số lần không qua môn (1,2,3, hoặc 4 chỉ nhiều hơn hoặc bằng 4 lần)
absences: số lần nghỉ học
higher: Có muốn học cao hơn hay không (yes: có, no: không)
age: Tuổi của học sinh
Hãy dùng lệnh read.csv() để đọc tệp tin
2 Làm sạch dữ liệu (Data cleaning):
Để bắt đầu, hãy tạo một dữ liệu con có tên là new_DF, chỉ bao gồm các biến chính mà chúng ta quan tâm như đã đề cập trong phần giới thiệu dữ liệu Từ câu hỏi này trở đi, mọi yêu cầu xử lý sẽ được thực hiện dựa trên tệp dữ liệu con new_DF này.
Để kiểm tra dữ liệu bị khuyết trong tập tin, bạn có thể sử dụng các câu lệnh như is.na(), which() và apply() Nếu phát hiện có dữ liệu bị khuyết, hãy xem xét các phương pháp thay thế như sử dụng giá trị trung bình, giá trị trung vị hoặc phương pháp nội suy để xử lý các giá trị thiếu này.
3 Làm rõ dữ liệu (Data visualization):
Đối với các biến liên tục, cần tính toán các giá trị thống kê mô tả như trung bình, trung vị, độ lệch chuẩn, giá trị lớn nhất và giá trị nhỏ nhất Kết quả nên được xuất dưới dạng bảng để dễ dàng theo dõi và phân tích Các hàm gợi ý để thực hiện bao gồm mean(), median(), sd(), min(), max(), apply(), as.data.frame(), và rownames().
(b) Đối với các biến phân loại, hãy lập một bảng thống kế số lượng cho từng chủng loại
(c ) Hãy dùng hàm hist() để vẽ đồ thị phân phối của biến G3
(d) Hãy dùng hàm boxplot() vẽ phân phối của biến G3 cho từng nhóm phân loại của biến studytime, failures, và biến higher
( e) Dùng lệnh pairs() vẽ các phân phối của biến G3 lần lượt theo các biến G2,
4 Xây dựng các mô hình hồi quy tuyến tính (Fitting linear regression models):
Chúng ta muốn khám phá rằng có những nhân tố nào và tác động như thế nào đến điểm cuối khóa môn Toán của các em học sinh
Mô hình hồi quy tuyến tính được xây dựng với biến G3 là biến phụ thuộc và tất cả các biến còn lại là biến độc lập Để thực hiện mô hình hồi quy tuyến tính bội, hãy sử dụng lệnh lm().
(b) Dựa vào kết quả của mô hình hồi quy tuyến tính trên, những biến nào bạn sẽ loại khỏi mô hình tương ứng với các mức tin cậy 5% và 1%?
(c ) Xét 3 mô hình tuyến tính cùng bao gồm biến G3 là biến phụ thuộc nhưng:
Mô hình M1 chứa tất cả các biến còn lại là biến độc lập
Mô hình M2 là loại bỏ biến higher từ M1
Mô hình M3 là loại bỏ biến failure từ M2
Hãy dùng lệnh anova() để xuất mô hình hồi quy hợp lý hơn.
(d) Từ mô hình hồi quy hợp lý nhất từ câu (c ) hãy suy luận sự tác động của các biến điểm thi cuối kì
Sử dụng mô hình hồi quy tối ưu từ câu (c), hãy áp dụng lệnh plot() để tạo đồ thị biểu thị sai số hồi quy và giá trị dự báo Đồ thị này giúp trực quan hóa mối quan hệ giữa sai số và các giá trị dự đoán, từ đó cung cấp cái nhìn sâu sắc về độ chính xác của mô hình hồi quy Nhận xét về đồ thị sẽ cho thấy mức độ phù hợp của mô hình và khả năng dự đoán, đồng thời chỉ ra các khu vực cần cải thiện.
Trong dữ liệu của bạn, hãy thêm một biến mới có tên là "evaluate", biến này sẽ thể hiện tỷ lệ đạt (G3 > 10) hoặc không đạt (G3 < 10) của sinh viên trong kỳ thi cuối Để thống kê tỷ lệ đạt và không đạt, bạn có thể sử dụng hàm cbind().
Trong bài viết này, chúng ta sẽ xem xét mô hình hồi quy hợp lý nhất đã chọn Đầu tiên, hãy tạo bảng số liệu mới có tên là new_X, bao gồm tất cả các biến độc lập trong mô hình Sau đó, sử dụng lệnh predict() để dự đoán giá trị của biến G3 dựa trên new_X Kết quả dự đoán này sẽ được gọi là biến pred_G3.
Khảo sát độ chính xác của dự báo G3 bằng cách lập bảng so sánh giữa kết quả dự báo pred_G3 và kết quả thực tế của biến G3 Kết quả được phân loại thành hai nhóm: Đạt và Không Đạt, giúp quan sát rõ ràng sự tương quan giữa dự báo và thực tế.
1.2.1 Đọc dữ liệu (Import data) Đọc tệp tin “diem_so.csv” và gán với tên diem_so
Hình 1: Code R và k ế t qu ả khi đọ c t ệp tin và xem 5 dòng đầ u tiên
1.2.2 Làm sạch dữ liệu (Data cleaning) a Hãy trích ra một dữ liệu con đặt tên là new_DF chỉ bao gồm các biến chính mà ta quan tâm như đã trình bày trong phần giới thiệu dữ liệu Từ câu hỏi này về sau, mọi yêu cầu xử lý đều dựa trên tệp dữ liệu con new_DF này
Trích ra dữ liệu con, đặt tên data.frame new_DF bao gồm các biến chính:
CODE R: new_DF