Hồi quy
Giới thiệu mô hình hồi quy tuyến tính bội
Mô hình hồi quy tuyến tính bội có dạng tổng quát như sau:
Xi: biến độc lập β 1 : hệ số tự do (hệ số chặn) β i : hệ số hồi quy riêng βi đo lường tác động riêng phần của biến Xi lên Y với điều kiện các biến số khác trong
6 mô hình không đổi Cụ thể hơn, nếu các biến khác trong mô hình không đổi, giá trị kỳ vọng của Y sẽ tăng βi đơn vị nếu Xi tăng 1 đơn vị u: sai số ngẫu nhiên
Như vậy, "Hồi quy tuyến tính" là một phương pháp để dự đoán giá trị biến phụ thuộc (Y) dựa trên giá trị của biến độc lập (X) Thuật ngữ tuyến tính dùng để chỉ rằng bản chất của các thông số của tổng thể β1 và βi là tuyến tính (bậc nhất) Nó có thể được sử dụng cho các trường hợp chúng ta muốn dự đoán một số lượng liên tục
Ví dụ: dự đoán thời gian người dùng dừng lại một trang nào đó hoặc số người đã truy cập vào một website nào đó v.v Bằng dữ liệu thu thập được, ta đi ước lượng hàm hồi quy của tổng thể, đó là ước lượng các tham số của tổng thể: β1, β2, …., β k
Ước lượng các tham số của mô hình hồi quy tuyến tính bội
2.1 Hàm hồi quy tổng thể (PRF – Population Regression Function)
Với Y là biến phụ thuộc, X 2 , X3, …, X k là biến độc lập, Y là ngẫu nhiên và có một phân phối xác suất nào đó Suy ra: Tồn tại E(Y|X2, X3,…, X k ) = giá trị xác định Do vậy, F(X 2 , X3,…, X k ) = E(Y|X2, X3,…, X k ) là hàm hồi quy tổng thể của Y theo X 2 ,
Với một cá thể i, tồn tại (X 2,i , X3,i, …, X k,i , Yi)
Ta có: Yi ≠ F(X 2 , X3,…, Xk ) ⇒ ui = Yi – F
Hồi quy tổng thể PRF:
2.2 Hàm hồi quy mẫu (SRF – Sample Regression Function):
Do không biết tổng thể, nên chúng ta không biết giá trị trung bình tổng thể của biến phụ thuộc là đúng ở mức độ nào Do vậy chúng ta phải dựa vào dữ liệu mẫu để ước
Trên một mẫu có n cá thể, gọi 𝑌̂ = 𝐹̂(𝑋2, 𝑋3, … , 𝑋𝑘) là hồi quy mẫu
Với một cá thể mẫu Y i ≠ 𝐹̂ = 𝐹̂𝑋2,𝑖, 𝑋3,𝑖, … , 𝑋𝑘,𝑖) sinh ra ei = Yi - 𝐹̂ (𝑋2, 𝑋3, … , 𝑋𝑘);
𝑒 𝑖 gọi là phần dư SRF
Ta có hàm hồi quy mẫu tổng quát được viết dưới dạng như sau:
Kí hiệu: 𝛽̂ 𝑚 là ước lượng của 𝛽𝑚 Chúng ta trông đợi 𝛽̂ 𝑚 ước lượng không chênh lệch của 𝛽𝑚 phải là một ước lượng hiệu quả Ước lượng SRF: chọn một phương pháp nào đó để ước lượng các tham số của F qua việc tìm các tham số của 𝐹̂ và lấy giá trị quan sát của các tham số này là xấp xỉ cho tham số của F
2.3 Phương pháp bình phương cực tiểu (Ordinary Least Squares)
Phương pháp bình phương cực tiểu được đưa ra bởi nhà Toán học Đức Carl Friedrich Gauss Tư tưởng của phương pháp này là cực tiểu tổng bình phương của các phần dư
Do đó có thể nói để có được hồi quy thích hợp nhất, chúng ta chọn các ước lượng có tung độ gốc và độ dốc sao cho phần dư là nhỏ
2.3.1 Các giả thiết của phương pháp bình phương cực tiểu cho mô hình hồi quy tuyến tính bội
Phương pháp bình phương nhỏ nhất (OLS) là phương pháp rất đáng tin cậy trong việc ước lượng các tham số của mô hình, tuy nhiên mô hình ước lượng phải thỏa mãn
7 giả thiết Khi thỏa mãn các giả thiết, ước lượng bình phương nhỏ nhất (OLS) là ước lượng tuyến tính không chệch có hiệu quả nhất trong các ước lượng Vì thế phương
8 pháp OLS đưa ra ước lượng không chệch tuyến tính tốt nhất (BLUE)
Kết quả này được gọi là Định lý Gauss – Markov, theo lý thuyết này ước lượng OLS là BLUE, nghĩa là trong tất cả các tổ hợp tuyến tính không chệch của Y, ước lượng OLS có phương sai bé nhất Các giả thiết như sau:
1/ Hàm hồi quy là tuyến tính theo các hệ số Điều này có nghĩa là quá trình thực hành hồi quy trên thực tế được miêu tả bởi mối quan hệ dưới dạng: y = β 1 + β 2 X2 + β 3 X3 + … + β k Xk + u hoặc mối quan hệ thực tế có thể được viết lại ví dụ như dưới dạng lấy loga cả hai vế
Kỳ vọng của các yếu tố ngẫu nhiên ui bằng 0 Trung bình tổng thể sai số là bằng 0 Điều này có nghĩa là có một số giá trị sai số mang dấu dương và một số sai số mang dấu âm Do hàm xem như là đường trung bình nên có thể giả định rằng các sai số ngẫu nhiên trên sẽ bị loại trừ nhau, ở mức trung bình, trong tổng thể
Phương sai bằng nhau và thuần nhất với mọi ui Tất cả giá trị u được phân phối giống nhau với cùng phương sai σ 2 , sao cho:
9 Điều này rất quan trọng khi phát sinh khoảng tin cậy và thực hiện kiểm định giả thuyết trong những phạm vi mẫu là nhỏ Nhưng phạm vi mẫu lớn hơn, điều này trở nên không mấy quan trọng
5/ Giữa các 𝒖 𝒊 thì độc lập với nhau
Ta đặt: 𝑦 ̂ 𝑖 ký hiệu giá trị thực của biến y tại quan sát i
𝑦 ̂ 𝑖 ký hiệu giá trị của hàm hồi quy mẫu
Do đó cực tiểu hóa Σ(yi – ŷi) 2 sẽ tương đương với cực tiểu Σe i2 từ đó tìm ra 𝛽̂ 0 , 𝛽̂ 1 , …, 𝛽̂ k
Chúng ta có thiết lập các điều kiện bậc nhất cho phép tính tối thiểu này như sau:
Hệ phương trình mà chúng ta có được gọi là hệ phương trình chuẩn của hồi quy mẫu Chúng ta có thể giải k phương trình chuẩn này để tìm k hệ số 𝛽̂ chưa biết 𝛽̂ 1 , 𝛽̂ 2 , …., 𝛽̂ 𝑘 được gọi là các ước lượng bình phương nhỏ nhất
2.4 Độ phù hợp của mô hình Để có thể biết mô hình giải thích được như thế nào hay bao nhiêu % biến động của biến phụ thuộc, người ta sử dụng R 2
* Σ(y i – ӯ ) 2 : TSS – Total Sum of Squares
* Σ(ŷ i – ӯ ) 2 : ESS – Explained Sum of Squares
* Σ 𝑒 𝑖 2 : RSS – Residual Sum of Squares
=> Ta có thể viết: TSS = ESS + RSS Ý nghĩa của các thành phần:
* TSS là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Yi và giá trị trung bình
* ESS là tổng bình phương của tất cả các sai lệch giữa các giá trị của biến phụ thuộc Y nhận được từ hàm hồi quy mẫu và giá trị trung bình của chúng Phần này đo độ chính xác của hàm hồi quy
* RSS là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Y và các giá trị nhận được từ hàm hồi quy
* TSS được chia thành 2 phần: một phần do ESS và một phần do RSS gây ra Từ TTS
= ESS + RSS, ta chia cả hai vế cho TSS, ta có:
Tỷ số giữa tổng biến thiên được giải thích bởi mô hình cho tổng bình phương cần được giải thích được gọi là hệ số xác định, hay là trị thống kê “good of fit” Từ định nghĩa
ANOVA một yếu tố
Trường hợp k tổng thể có phân phối bình thường và phương sai bằng nhau
Giả sử rằng chúng ta muốn so sánh trung bình của k tổng thể trên những mẫu ngẫu nhiên độc lập gồm n 1 , n2, , nk quan sát từ k tổng thể này Cần ghi nhớ ba giả định sau đây về các nhóm tổng thể được tiến hành phân tích ANOVA
- Các tổng thể này có phân phối bình thường
- Các phương sai tổng thể bằng nhau
- Các quan sát được lấy mẫu là độc lập nhau
Nếu trung bình của các tổng thể được kí hiệu là μ 1 , μ 2 , , μ k thì khi các giả định trên được đáp ứng, mô hình phân tích phương sai một yếu tố ảnh hưởng được mô tả dưới dạng kiểm định giả thuyết như sau:
Giả thuyết H 0 cho rằng trung bình của k tổng thể đầu bằng nhau (về mặt nghiên cứu liên hệ thì giả thuyết này cho rằng yếu tố nguyên nhân không có tác động gì đến vấn đề ta đang nghiên cứu) Và giả thuyết đối là:
H1: Tồn tại ít nhất một cặp trung bình tổng thể khác nhau
Hai giả định đầu tiên để tiến hành phân tích phương sai được mô tả như hình dưới đây, bạn thấy ba tổng thể đều có phân phối bình thường với mức độ phân tán tương đối giống nhau, nhưng ba vị trí chênh lệch của chúng cho thấy ba trị trung bình khác nhau
Rõ ràng là nếu bạn thực sự có các giá trị của 3 tổng thể và biểu diễn được phân phối của chúng như hình dưới thì bạn không cần phải làm gì nữa mà kết luận được ngay là bạn bác bỏ H 0 hay 3 tổng thể này có trị trung bình khác nhau
Nhưng bạn chỉ có mẫu đại diện dược quan sát, nên để kiểm định giả thuyết này, ta thực hiện các bước sau:
Bước 1: Tính các trung bình mẫu của các nhóm (xem như đại diện của các tổng thể)
Trước hết ta xem cách tính các trung bình mẫu từ những quan sát của k mẫu ngẫu nhiên độc lập (kí hiệu 𝑥̅ 1 , 𝑥̅ 2 , …,𝑥̅𝑘) và trung bình chung của k mẫu quan sát (kí hiệu 𝑥̅) từ trường hợp tổng quát như sau:
Bảng 1: Bảng số liệu tổng quát thực hiện phân tích phương sai
Tính trung bình mẫu của từng nhóm 𝑥̅ 1 ,𝑥̅ 2 , …,𝑥̅𝑘 theo công thức
Và trung bình chung của k mẫu (trung bình chung của toàn bộ mẫu khảo sát):
Dĩ nhiên bạn có thể tính trung bình chung của k mẫu theo cách khác là: cộng tất cả các xij trên Bảng 1 lại rồi đem chia cho ∑ 𝑛𝑖 với với (i=1, 2, …, k) Kết quả là như nhau:
Bước 2: Tính các tổng các chênh lệch bình phương (hay gọi tắt là tổng bình phương)
Tính tổng các chênh lệch bình phương trong nội bộ nhóm SSW1 và tổng các chênh lệch bình phương giữa các nhóm SS𝐺 2
* Tổng các chênh lệch bình phương trong nội bộ nhóm (SSW) được tính bằng cách cộng các chênh lệch bình phương giữa các giá trị quan sát với trung bình mẫu của từng nhóm, rồi sau đó lại tính tổng cộng kết quả tất cả các nhóm lại SWW phản ánh phần biến thiên của yếu tooskeets quả do ảnh hưởng của các yếu tố khác, chứ không phải do yếu tố nguyên nhân đăng nghiên cứu (là yếu tố dùng để phân biệt các tổng thể/ nhóm đang so sánh)
Tổng các chênh lệch bình phương của từng nhóm dược tính theo công thức:
Tương tự như vậy ta tính cho đến nhóm thứ k được SSk Vậy tổng các chênh lệch bình phương trong nội bộ các nhóm được tính như sau:
Hay viết tổng quát theo công thức ta có:
Tổng các chênh lệch bình phương giữa các nhóm (SSG) được tính bằng cách cộng các chênh lệch được lấy bình phương giữa các trung bình mẫu của từng nhóm với trung bình chung của k nhóm (các chênh lệch này đều được nhận thêm với số quan sát tương ứng của từng nhóm) SSG phản ánh phần biến thiên của yếu tố kết quả do ảnh hưởng của yếu tố nguyên nhân đang nghiên cứu
Tổng các chênh lệch bình phương toàn bộ SST 3 được tính bằng cách cộng tổng các chênh lệch đã lấy bình phương giữa từng giá trị quan sát của toàn bộ mẫu nghiên cứu (xij) với trung bình chung toàn bộ (𝑥̅) SST phản ánh biến thiên của yếu tố kết quả do ảnh hưởng của các nguyên nhân
Có thể dễ dàng chứng minh là tổng các chênh lệch bình phương toàn bộ bằng tổng cộng tổng các chênh lệch bình phương trong nội bộ các nhóm và tổng các chênh lệch bình phương giữa các nhóm
Như vậy công thức trên cho thấy, SST là toàn bộ biến thiên của yếu tố kết quả đã được phân tích thành 2 phần: phần biến thiên do yếu tố đang nghiên cứu tạo ra (SSG) và phần biến thiên còn lại do các yếu tố khác không nghiên cứu ở đây tạo ra (SSW) Nếu phần biến thiên do yếu tố nguyên nhân đang xét tạo ra căng "đáng kể” so với phần biến thiên do các yếu tố khác không xét tạo ra, thì chúng ta càng có cơ sở để bác bỏ H0 và kết luận là yếu tố nguyên nhân đang nghiên cứu ảnh hưởng có ý nghĩa đến yếu tố kết quả
Bước 3: Tính các phương sai (là trung bình của các chênh lệch bình phương) Các phương sai được tính bằng cách lấy các tổng các chênh lệch bình phương chia cho bậc tự do tương ứng
Tính phương sai trong nội bộ nhóm (MSW) bằng cách lấy tổng các chênh lệch bình phương trong nội bộ các nhóm (SSW) chia cho bậc tự do tương ứng là n-k (n là số quan sát, k là số nhóm so sánh) MSW là ước lượng phần biến thiên của yếu tố kết quả do các yếu tố khác gây ra (hay giải thích)
Tính phương sai giữa các nhóm (MSG) bằng cách lấy tổng các chênh lệch bình phương giữa các nhóm chia cho bậc tự do tương ứng là k – 1 MSG là ước lượng phần biến thiên của yếu tố kết quả do yếu tố nguyên nhân đang nghiên cứu gây ra (hay giải thích được)
Bước 4: Kiểm định giả thuyết
Kiểm tra các giả định của phân tích phương sai
Chúng ta có thể kiểm tra nhanh các giả định này bằng đồ thị Histogram là phương pháp tốt nhất để kiểm tra giả định về phân phối bình thường của dữ liệu nhưng nó đòi
22 hỏi một số lượng quan sát khá lớn Biểu đồ thân lá hay biểu đồ hộp và râu là một thay thế tốt trong tình huống số quan sát ít hơn Nếu công cụ đồ thị cho thấy tập dữ liệu mẫu khá phù hợp với phân phối bình thường đã thỏa mãn Hình dưới mô tả biểu đồ hộp râu cho tập dữ liệu mẫu về ba nhóm sinh viên trong tập dữ liệu của chúng ta Đồ thị cho thấy ngoại trừ nhóm có thời gian tự học TB có hình dáng phân phối của dữ liệu hơi lệch sang trái, còn hai nhóm còn lại có phân phối khá cân đối Với số quan sát không nhiều thì biểu hiện như thế này của dữ liệu là khả quan và có thể chấp nhận được Để khảo sát giả định bằng nhau của phương sai, biểu đồ hộp và râu cũng cho cảm nhận ban đầu nhanh chóng, với ba biểu đồ này, mức độ phân tán của dữ liệu trong trong mỗi tập dữ liệu mẫu không khác biệt nhau nhiều
Một phương pháp kiểm định tham số chắc chắn hơn cho giả định phương sai bằng nhau là kiểm định Leneve về phương sai của các tổng thể Kiểm định này xuất phát từ giả thuyết sau
H0: 𝜎 1 2 = 𝜎 2 2 = =…= 𝜎 𝑘 2 H1: Không phải tất cả các phương sai đều bằng nhau
23 Để quyết định chấp nhận hay bác bỏ H0 ta tính toán giá trị kiểm định F theo công thức
Trong đó 𝑠 𝑚𝑎𝑥 2 là phương sai lớn nhất trong các nhóm nghiên cứu và 𝑠 𝑚𝑖𝑛 2 là phương sai nhỏ nhất trong các nhóm nghiên cứu
Giá trị F tính được được đem so sánh với giá trị F(k;df); α tra được từ bảng phân phối Hartley Fmax (là bảng số 5 trong phần phụ lục) Trong đó k là số nhóm so sánh, bậc tự do df tính theo công thức df = (𝑛̅ - 1) Trong tình huống các nhóm n i khác nhau thì 𝑛̅ ∑ 𝑘 𝑖=1 𝑛𝑖
(chú ý là nếu kết quả tính 𝑛̅ là số thập phân thì ta lấy phần nguyên
Fmax > F(k;df); α thì ta bác bỏ H 0 cho rằng phương sai bằng nhau và ngược lại
Nếu chúng ta không chắc chắn về các giả định hoặc nếu kết quả kiểm định cho thấy các giả định hoặc nếu kết quả kiểm định cho thấy các giả định không được thỏa mãn thì một phương pháp kiểm định thay thế cho ANOVA là phương pháp kiểm định phi tham số Krusksl-Wallis sẽ được áp dụng Tuy nhiên trong ví dụ này ở đây, ta có thể xem các giả định để tiến hành phân tích phương sai đã được thỏa mãn.
Phân tích sâu ANOVA
Mục đích của phân tích phương sai là kiểm định giả thuyết H 0 rằng trung bình của các tổng thể bằng nhau Sau khi phân tích và kết luận, có hai trường hợp xảy ra là chấp nhận giả thuyết H 0 hoặc bác bỏ giả thuyết H 0 Nếu chấp nhận giả thuyết Họ thì phân
24 tích kết thúc Nếu bác bỏ giả thuyết H 0 , bạn kết luận trung bình của các tổng thể không bằng nhau
Vì vậy, vấn để tiếp theo là phân tích sâu hơn để xác định nhóm (tổng thể) nào khác nhóm nào, nhóm nào có trung bình lớn hơn hay nhỏ hơn Có nhiều phương pháp để tiếp tục phân tích sâu ANOVA khi bác bỏ giả thuyết H 0
Trong chương này chỉ để cập đến 1 phương pháp thông dụng đó là phương pháp
Tukey, phương pháp này còn được gọi là kiểm định HSD (Honestly Significant
Differences) Nội dung của phương pháp này là so sánh từng cặp các trung bình nhóm ở mức ý nghĩa α nào đó cho tất cả các cặp kiểm định có thể để phát hiện ra những nhóm khác nhau Nếu có k nhóm nghiên cứu, và chúng ta so sánh tất cả các cặp nhóm thì số lương cặp cần phải so sánh là tổ hợp chập 2 của k nhóm
Các giả thuyết cần kiểm định sẽ là:
Giá trị giới hạn Tukey được tính theo công thức:
* qα, k, n-k là giá trị tra bảng phân phối kiểm định Tukey (Bảng tra số 9) ở mức ý nghĩa α, với bậc tự do k và n-k, với n là tổng số quan sát mẫu (n = ∑ 𝑛𝑖)
* MSW là phương sai trong nội bộ nhóm
* ni là số quan sát trong 1 nhóm (tổng thể), trong trường hợp mỗi nhóm có số quan sát ni khác nhau, sử dụng giá trị n i nhỏ nhất
Tiêu chuẩn quyết định là bác bỏ giả thiết H 0 khi độ lệch tuyệt đối giữa các cặp trung bình mẫu lớn hơn hay bằng T giới hạn
Như vậy chúng ta có thể kết luận rằng điểm trung bình học tập của các nhóm sinh viên có thời gian tự học khác nhau là khác nhau Cụ thể, dựa vào trung bình nhóm, chúng ta có thể thấy điểm trung bình học tập của nhóm có thời gian tự học nhiều cao hơn hẳn hai nhóm kia, nhóm có thời gian tự học ít thấp hơn hẳn hai nhóm kia, nhóm có thời gian tự học trung bình cao hơn nhóm tự học ít nhưng thấp hơn nhóm tự học nhiều Như vậy, thời gian tự học có ảnh hưởng đến kết quả học tập
Trong đó t là giá trị tra từ bảng phân phối Student t với (n-k) bậc tự do
Trong chương trình Excel không có các lệnh phân tích sâu ANOVA Chúng ta có thể thực hiện phân tích này bằng chương trình SPSS Ngoài ra kết quả của SPSS còn cung cấp cho các bạn một kiểm định chính thức về sự bằng nhau của các phương sai tổng thể là kiểm định Levene (Bạn đọc có thể xem cách thức tiến hành kiểm tra giả định của phân tích ANOVA một yếu tố và phân tích sâu ANOVA trong sách Phân tích dữ liệu nghiên cứu với SPSS của cùng tác giả)
Phân tích phướng sai với kiểm định F chỉ có thể áp dụng khi các nhóm so sánh có phân phối bình thường và phương sai bằng nhau Trong trường hợp không thỏa điều kiện
20 này, chúng ta có thể chuyển đổi dữ liệu của yếu tố kết quả từ dạng định lượng về dạng định tính (dữ liệu thứ bậc) và áp dụng một kiểm định phi tham số phù hợp tên là Kruskal- Wallis
Bạn đọc có thể tìm hiểu về kiểm định này ở Chương 10, kiểm định phi tham số
HOẠT ĐỘNG 1
Đọc dữ liệu
Khai báo thư viện (Readr), sau đó đọc tệp tin "grade.csv" và gán với tên grade
Hình 1: Kết quả khi xem 3 dòng đầu tiên của tệp tin "grade.csv"
Làm sạch dữ liệu (Data cleaning)
Từ dữ liệu trong grade, trích ra một dữ liệu con bao gồm các biến chính của đề bài và đặt tên là "new_DF"
Hình 2: Kết quả khi xem 5 dòng đầu tiên của tệp tin "new_DF"
1.2.1 Kiểm tra dữ liệu khuyết trong tệp tin "new_DF"
Hình 3: Kết quả khi kiểm tra dữ liệu khuyết của tệp tin "new_DF"
Nhận xét: Ta nhận thấy có 5 dữ liệu khuyết trong G2 (trong dòng 2, 6, 9, 80, 100), số lượng dữ liệu khuyết chiếm 1.2658% so với tổng số quan sát của dữ liệu Do dữ liệu bị
30 khuyết là hoàn toàn ngẫu nhiên (Missing not at Random) và tỉ lệ này khá thấp (nhỏ hơn 5% dữ liệu) nên ta sẽ chọn cách xoá các quan sát có chứa dữ liệu khuyết
Ngoài ra còn những phương pháp xử lý dữ liệu khuyết khác như: thay thế dữ liệu khuyết bằng giá trị xuất hiện nhiều nhất,giá trị trung bình hoặc giá trị trung vị
* Xóa dữ liệu khuyết trong tệp tin "new_DF"
Hình 4: Kết quả khi kiểm tra lại dữ liệu khuyết của tệp tin "new_DF"
Nhận xét: Sau khi xóa, quan sát 10 dòng đầu của tệp tin "new_DF" thì ta thấy các dòng chứa dữ liệu khuyết đã biến mất khỏi dữ liệu của tệp tin
Hình 5: Kết quả so sánh dữ liệu của "new_DF" trước và sau khi xóa dữ liệu khuyết
* Cách khác để xoá dữ liệu khuyết (NA):
Ta đều thu được kết quả:
Ngoài ra còn có nhiều cách khác nhau nữa, nhưng việc này cần tải và cài đặt thư viện
Như vậy sẽ phức tạp và tốn thời gian hơn, nên để tối ưu, chỉ sử dụng 3 lệnh được đề cập ở trên.
Thống kê mô tả
1.3.1 Làm rõ dữ liệu (Data visualization) Đối với các biến liên tục G1, G2, G3 thì thực hiện thống kê mô tả và xuất kết quả dưới dạng bảng
Hình 6: Kết quả tính thống kê miêu tả cho các biến G1, G2, G3 Đối bới các biến phân loại studytime, failures, paid, sex thì tiến hành lập bảng thống kê số lượng cho từng biến
*Thống kê số lượng cho biến studytime
Hình 7: Kết quả thống kê số lượng cho biến studytime
Nhận xét: Dựa vào bảng thống kê ta có thể biết được: Số học sinh có thời gian tự học trên tuần ít hơn 2 giờ là 105 học sinh; Số học sinh có thời gian tự học trên tuần từ 2 - 5 giờ là 194 học sinh; Số học sinh có thời gian tự học trên tuần từ 5 - 10 giờ là 64 học sinh; Số học sinh có thời gian tự học trên tuần lớn hơn 10 giờ là 27 học sinh
⟹ Phần lớn sinh viên có thời gian tự học từ 2 đến 5 giờ
* Thống kê số lượng cho biến failures
Hình 8: Kết quả thống kê số lượng cho biến failures
Nhận xét: Dựa vào bảng thống kê ta có thể biết được: Số học sinh có 1 lần không qua môn là 307 học sinh; số học sinh có 2 lần không qua môn là 50 học sinh; số học sinh có
3 lần không qua môn là 17 học sinh; số học sinh có 4 lần hoặc hơn 4 lần không qua môn là 16 học sinh
⟹ Đa số học sinh rớt 1 môn Toán 1 lần
* Thống kê số lượng cho biến paid
Hình 9: Kết quả thống kê số lượng cho biến paid
Nhận xét: Dựa vào bảng thống kê ta có thể biết được: số học sinh không tham gia các lớp học thêm môn Toán ngoài trường là 212 học sinh, đông hơn so số học sinh có tham gia các lớp học thêm môn Toán ngoài trường là 178 học sinh
⟹ Số lượng học sinh không tham gia các lớp học thêm môn Toán ngoài trường nhiều hơn học sinh học có tham gia các lớp học thêm môn Toán ngoài trường là 212 – 178 = 34 học sinh
* Thống kế số lượng cho biến sex
Hình 10: Kết quả thống kê số lượng cho biến sex
Nhận xét: Dựa vào bảng thống kê ta có thể biết được: Số học sinh có giới tính nữ là 205 học sinh, đông hơn số học sinh có giới tính nam là 185 học sinh
⟹ Số lượng học sinh nữ nhiều hơn học sinh nam là 205 – 185 = 20 học sinh
* Vẽ đồ thị Histogram cho biến G3
Nhận xét: Dựa vào đồ thị, ta nhận thấy điểm cuối khoá của học sinh tập trung phần lớn ở mức từ khoảng 6 - 16 điểm, cao nhất ở mức 8 - 10 điểm (84 học sinh) và thấp nhất ở mức 2 – 4 điểm (1 học sinh) Điểm bất thường của đồ thị là số lượng học sinh ở mức 0
- 2 điểm chiếm số lượng khá lớn (38 học sinh), điều này gây ảnh hưởng không tốt đến mô hình hồi quy sắp xây dựng
*Vẽ đồ thị Boxplot thể hiện phân phối của biến G3 theo phân loại của biến studytime
Hình 12: Đồ thị Boxplot thể hiện phân phối của biến G3 theo phân loại của biến studytime
- Nhóm học sinh có thời gian tự học trên tuần ít hơn 2 giờ
• Điểm cuối khóa cao nhất là 19 điểm
• Điểm cuối khóa thấp nhất là 0 điểm
• Có 25% học sinh có điểm cuối khóa từ 8 điểm trở xuống
• Có 50% học sinh có điểm cuối khóa từ 10 điểm trở xuống
• Có 75% học sinh có điểm cuối khóa từ 13 điểm trở xuống
- Nhóm học sinh có thời gian tự học trên tuần từ 2 - 5 giờ
• Điểm cuối khóa cao nhất là 18 điểm
• Điểm cuối khóa thấp nhất là 0 điểm
• Có 25% học sinh có điểm cuối khóa từ 8 điểm trở xuống
• Có 50% học sinh có điểm cuối khóa từ 11 điểm trở xuống
• Có 75% học sinh có điểm cuối khóa từ 13 điểm trở xuống
- Nhóm học sinh có thời gian tự học trên tuần từ 5 - 10 giờ
• Điểm cuối khóa cao nhất là 19 điểm
• Điểm cuối khóa thấp nhất là 0 điểm
• Có 25% học sinh có điểm cuối khóa từ 10 điểm trở xuống
• Có 50% học sinh có điểm cuối khóa từ 12 điểm trở xuống
• Có 75% học sinh có điểm cuối khóa từ 15 điểm trở xuống
- Nhóm học sinh có thời gian tự học trên tuần lớn hơn 10 giờ
• Điểm cuối khóa cao nhất là 20 điểm
• Điểm cuối khóa thấp nhất là 0 điểm
• Có 25% học sinh có điểm cuối khóa từ 9 điểm trở xuống
• Có 50% học sinh có điểm cuối khóa từ 12 điểm trở xuống
• Có 75% học sinh có điểm cuối khóa từ 14.5 điểm trở xuống
- Qua các dữ liệu về điểm cuối khóa theo phân loại thời gian tự học trên tuần, có thể dự đoán được nhóm có thời gian tự học trên tuần ít hơn 2 giờ có kết quả thi kém hơn so với các nhóm còn lại do có khoảng phân bố giá trị điểm thi thấp hơn Nhóm có thời gian tự học trên tuần từ 5 - 10 giờ có kết quả thi tốt hơn so với các nhóm còn lại do có khoảng phân bố giá trị điểm thi cao hơn Nhìn chung, có sự khác biệt về phân phối của điểm thi cuối khóa ở các nhóm thời gian tự học Từ đó, dự đoán rằng studytime là một nhân tố ảnh hưởng đến điểm thi cuối khóa
* Vẽ đồ thị Boxplot thể hiện phân phối của biến G3 theo phân loại của biến failures
Hình 13: Đồ thị Boxplot thể hiện phân phối của biến G3 theo phân loại của biến failures
- Nhóm học sinh có 1 lần không qua môn
• Điểm cuối khóa cao nhất 20 điểm
• Điểm cuối khóa thấp nhất là 0 điểm
• Có 25% học sinh có điểm cuối khóa từ 10 điểm trở xuống
• Có 50% học sinh có điểm cuối khóa từ 11 điểm trở xuống
• Có 75% học sinh có điểm cuối khóa từ 14 điểm trở xuống
- Nhóm học sinh có 2 lần không qua môn
• Điểm cuối khóa cao nhất 18 điểm
• Điểm cuối khóa thấp nhất là 0 điểm
• Có 25% học sinh có điểm cuối khóa từ 7 điểm trở xuống
• Có 50% học sinh có điểm cuối khóa từ 9 điểm trở xuống
• Có 75% học sinh có điểm cuối khóa từ 12 điểm trở xuống
- Nhóm học sinh có 3 lần không qua môn
• Điểm cuối khóa cao nhất 15 điểm
• Điểm cuối khóa thấp nhất là 0 điểm
• Có 50% học sinh có điểm cuối khóa từ 8 điểm trở xuống
• Có 75% học sinh có điểm cuối khóa từ 9 điểm trở xuống
- Nhóm học sinh có 4 lần hoặc hơn 4 lần không qua môn
• Điểm cuối khóa cao nhất 11 điểm
• Điểm cuối khóa thấp nhất là 0 điểm
• Có 50% học sinh có điểm cuối khóa từ 7 điểm trở xuống
• Có 75% học sinh có điểm cuối khóa từ 10.5 điểm trở xuống
- Qua các dữ liệu về điểm cuối khóa theo phân loại số lần không qua môn, có thể dự đoán được nhóm có 1 lần không qua môn có kết quả thi cao hơn so với các nhóm còn lại do có khoảng phân bố điểm thi cao hơn Nhóm có 4 hoặc nhiều hơn 4 lần không qua môn có kết quả thi thấp hơn so với các nhóm còn lại do có khoảng phân bố điểm thi thấp hơn Điều này cho thấy sinh viên có số lần không qua môn khác nhau thì điểm thi cuối khóa khác nhau Như vậy dự đoán rằng failures là một nhân tố ảnh hưởng đến điểm thi cuối khóa
* Vẽ đồ thị Boxplot thể hiện phân phối của biến G3 theo phân loại của biến paid CODE:
Hình 14: Đồ thị Boxplot thể hiện phân phối của biến G3 theo phân loại của biến paid
- Nhóm học sinh không tham gia các lớp học thêm môn Toán ngoài trường
• Điểm cuối khóa cao nhất là 20 điểm
• Điểm cuối khóa thấp nhất là 0 điểm
• Có 25% học sinh có điểm cuối khóa từ 8 điểm trở xuống
• Có 50% học sinh có điểm cuối khóa từ 11 điểm trở xuống
• Có 75% học sinh có điểm cuối khóa từ 14 điểm trở xuống
- Nhóm học sinh có tham gia các lớp học thêm môn Toán ngoài trường
• Điểm cuối khóa cao nhất là 19 điểm
• Điểm cuối khóa thấp nhất là 0 điểm
• Có 25% học sinh có điểm cuối khóa từ 9 điểm trở xuống
• Có 50% học sinh có điểm cuối khóa từ 11 điểm trở xuống
• Có 75% học sinh có điểm cuối khóa từ 13 điểm trở xuống
- Qua các dữ liệu về điểm cuối khóa theo phân loại có hay không tham gia các lớp học thêm môn Toán ngoài trường, có thể nhận thấy khoảng phân bố điểm thi của hai nhóm nhau là gần như nhau Tuy nhiên, nhóm có tham gia các lớp học thêm môn Toán ngoài trường có độ dao động điểm cuối khóa nhỏ hơn so với nhóm không tham gia Điều này chứng tỏ học sinh có tham gia các lớp học môn Toán ngoài trường sẽ có điểm cuối khóa chệch lệch nhau không nhiều so với học sinh không tham gia các lớp học môn Toán ngoài trường Dự đoán rằng biến paid là một nhân tố không ảnh hưởng đến điểm thi cuối khóa
* Vẽ đồ thị Boxplot thể hiện phân phối của biến G3 theo phân loại của biến sex CODE
Hình 15: Đồ thị Boxplot thể hiện phân phối của biến G3 theo phân loại của biến sex
- Nhóm học sinh có giới tính nữ
• Điểm cuối khóa cao nhất là 19 điểm
• Điểm cuối khóa thấp nhất là 0 điểm
• Có 25% học sinh có điểm cuối khóa từ 8 điểm trở xuống
• Có 50% học sinh có điểm cuối khóa từ 11 điểm trở xuống
• Có 75% học sinh có điểm cuối khóa từ 13 điểm trở xuống
- Nhóm học sinh có giới tính nam
• Điểm cuối khóa cao nhất là 20 điểm
• Điểm cuối khóa thấp nhất là 0 điểm
• Có 25% học sinh có điểm cuối khóa từ 9 điểm trở xuống
• Có 50% học sinh có điểm cuối khóa từ 11 điểm trở xuống
• Có 75% học sinh có điểm cuối khóa từ 14 điểm trở xuống
- Qua các dữ liệu về điểm cuối khóa theo phân loại giới tính, có thể nhận thấy khoảng phân bố điểm thi của nhóm học sinh nam cao hơn nhóm học sinh nữ tuy nhiên không nhiều Nên ta dự đoán rằng biến giới tính sex không ảnh hưởng đến điểm thi cuối khóa.
Xây dựng mô hình hồi quy tuyến tính để đánh giá các nhân tố có thể ảnh hưởng đến điểm thi cuối kỳ của học sinh
* Vẽ đồ thị phân tán thể hiện phân phối của biến G3 theo biến G1, G2, absences CODE:
Hình 16: Đồ thị phân tán thể hiện phân phối của biến G3 theo biến G1 CODE:
Hình 17: Đồ thị phân tán thể hiện phân phối của biến G3 theo biến G2
Hình 18: Đồ thị phân tán thể hiện phân phối của biến G3 theo biến absences
Nhận xét: Từ các đồ thị phân tán, ta có thể nhận xét rằng các biến G1, G2 có mối quan hệ tuyến tính với biến G3 (nói rõ hơn là mối quan hệ đồng biến vì G1, G2 tăng thì G3
45 cũng tăng theo), tuy nhiên với biến absences lại không có quan hệ tuyến tính với biến G3
Ta xây dựng mô hình hồi quy bao gồm:
- Biến dư báo (biến độc lập): G1, G2, studytime, failures, absences, paidyes, sexM
- Mô hình được biểu diễn như sau: G3 = β 0 + β 1 × G1 + β 2 × G2 + β 3 × studytime + β 4 × failures + β 5 × absences + β 6 × paidyes + β 7 × sexM + 𝜀
Ta thực hiện ước lượng các hệ số βi, i = 0, , 7
Hình 19: Kết quả mô hình hồi quy tuyến tính model_1
Chọn mô hình tốt nhất để giải thích cho biến độc lập G3
1.5.1 Tiêu chuẩn chọn các mô hình:
Nhận xét: Từ kết quả phân tích, ta thu được:
𝛽 𝟓 ̂ = 0.03769; 𝛽̂ 𝟔 = 0.12889; 𝛽̂ 𝟕 = 0.19834 Như vậy, đường thẳng hồi quy ước lượng cho bởi phương trình sau:
𝐺3̂ = -1.68296 + 0.15705 × G1 + 0.97128 × G2 - 0.15211 × studytime - 0.26358 × failures + 0.03769 × absences + 0.12889 × paidyes + 0.19834 × sexM
Kết quả tại R xuất hiện những khái niệm như Residuals, Signif codes, Residual standard error, Multiple R-squared, Adjusted R-squared, F-statistic và P-value Vậy những khái niệm này mang ý nghĩa gì và giúp ta biết thêm thông tin gì cho bảng số liệu?
1) Giải thích một chút về Residuals:
Câu lệnh summary cho phép thống kê mô tả cho các biến, nhưng ở đây ta đã gán giá trị
G3 ~ G1 + G2 + tức là ta cho biến G3 thay đổi phụ thuộc vào các biến liên tục
(G1, G2) và các biến không liên tục Nên khi ta kết hợp 2 câu lệnh này thì khi xuất ra,
R sẽ mặc định in ra thống kê mô tả cho Residuals
Residual (sai số hồi quy): là hiệu giữa giá trị G3 quan sát từ thực nghiệm và giá trị G3 dự báo từ phương trình đường hồi quy mà ta xây dựng Như vậy, mẫu này có 390 quan sát thì lấy giá trị điểm G3 của 390 quan sát này trừ đi cho điểm G3 dự báo từ phương trình đường hồi quy mà ta vừa xây dựng ở mô hình 3 sẽ ra được 390 sai số Sau đó dựa vào các sai số 𝜀 𝑖 này phần mềm R sẽ thống kê ra giá trị min, max, trung vị và phân vị 1,
Việc xem xét thông tin mà R cung cấp từ 390 sai số này giúp ta có cái nhìn tổng quan về những đặc trưng của sai số hồi quy để dự đoán xem có sai lệch giữa giá trị dự đoán và giá trị thực tế
2) Kiểm định các hệ số hồi quy 𝛽 𝑖 :
Phần mềm R cung cấp cho ta dữ liệu để kiểm định các hệ số hồi quy 𝛽 𝑖 theo 2 cách bằng t-value hoặc p-value:
Giả thuyết không 𝐻 0 : 𝛽 𝑖 = 0, i = (0,7)̅̅̅̅̅̅̅ (Hệ số hồi quy 𝛽 𝑖 không có ý nghĩa)
Giả thuyết đối 𝐻 1 : 𝛽 𝑖 ≠ 0, i = (0,7)̅̅̅̅̅̅̅ (Hệ số hồi quy 𝛽 𝑖 có ý nghĩa)
Tiêu chuẩn kiểm định theo t-value: 𝑡 0𝑖 = 𝛽 ̂ 𝑖
Với n là cỡ mẫu (hay còn gọi là số quan sát); k là số biến độc lập trong mô hình hồi quy Trong bài này thì n = 390, k = 7
Với bậc tự do 𝑑𝑓 ≥ 30, ta có thể xấp xỉ phân phối student bằng phân phối chuẩn Nếu 𝑡 0𝑖 ∈ RR ⇒ bác bỏ 𝐻 0 , chấp nhận 𝐻 1
Nếu 𝑡 0𝑖 ∉ RR ⇒ chưa bác bỏ được 𝐻 0
Dựa trên kết quả ta thấy:
+ t-value ứng với studytime, failure, paidyes, sexM ∉ RR ⇒ chưa bác bỏ được 𝐻 0
Vậy hệ số ứng với các biến này không có ý nghĩa đối với mô hình hồi quy mà ta xây dựng
+ t-value ứng với các biến G1, G2, absences ∈ RR nên ta bác bỏ 𝐻 0 , chấp nhận 𝐻 1 Vậy hệ số ứng với các biến này có ý nghĩa đối với mô hình hồi quy ta xây dựng
Dùng p-value (mức ý nghĩa quan sát, xác suất quan sát)
Nếu p-value < 𝛼 ⇒ bác bỏ 𝐻 0 , chấp nhận 𝐻 1
Nếu p-value ≥ 𝛼 ⇒ chưa bác bỏ được 𝐻 0
Dựa trên kết quả ta thấy:
+ Pr (> |t|) của các hệ số ứng với biến G1, G2, absences < α = 0.05 ⇒ bác bỏ 𝐻 0 , chấp nhận 𝐻 1
Vậy hệ số ứng với các biến này có ý nghĩa với mô hình hồi quy ta xây dựng
+ Pr (> |t|) của các hệ số ứng với biến studytime, failures, paidyes, sexM ≥ α = 0.05 ⇒ chưa bác bỏ được 𝐻 0
Vậy hệ số ứng với các biến này không có ý nghĩa với mô hình hồi quy ta xây dựng
⇒ Như vậy từ việc kiểm định các hệ số hồi quy, ta cân nhắc việc loại bỏ các biến studytime, failures, paidyes, sexM ra khỏi mô hình
3) Signif Codes cho ta biết mức độ bác bỏ giả thuyết 𝐻 0 Cụ thể:
Theo kiểm định bằng p-value thì trong trường hợp mức ý nghĩa 𝛼 = 0.05, hệ số hồi quy
𝛽 𝑖 nào có “.” hoặc “ ” thì có thể cân nhắc loại bỏ ra khỏi mô hình hồi quy do không có hoặc ít ảnh hưởng đến biến dự báo G3
4) Sai số chuẩn của đường hồi quy (Residual standard error):
5) Multiple R-squared và Adjusted R-squared:
Hệ số R 2 (Multiple R-squared) = 0.8268: điều này cho thấy khoảng trên 82,68% biến thiên trong giá trị của biến phụ thuộc G3 có thể được giải thích bởi mối liên hệ tuyến tính giữa biến phụ thuộc G3 với các biến độc lập trong mô hình hồi quy này
Hệ số R 2 hiệu chỉnh (Adjusted R-squared) = 0.8236: cũng cho biết sự thay đổi của biến
G3 được giải thích bởi khoảng 82,36% biến độc lập Khi biến G3 thay đổi thì sự thay đổi đó được giải thích 82,36% bởi các biến G1, G2, studytime, failures, absences gây nên, 17,64% sự thay đổi còn lại là do các yếu tố độc lập khác chúng ta chưa đưa vào mô hình hoặc do sai số hồi quy gây ra Bởi vì giá trị R 2 luôn tăng lên khi ta đưa càng nhiều biến (có ý nghĩa hoặc không ý nghĩa) vào mô hình hồi quy đa biến còn với giá trị R 2 hiệu chỉnh thì nó chỉ tăng khi ta đưa các biến có ý nghĩa vào mô hình Chính vì thế khi xây dựng mô hình hồi quy đa biến ta nên nhìn vào giá trị R 2 hiệu chỉnh thì sẽ đánh giá chính xác hơn, không phóng đại về sự tác động của các biến độc lập lên biến phụ thuộc mà ta xét
6) F-statistic (tiêu chuẩn kiểm định), p-value
Phần mềm R cung cấp cho ta dữ liệu để kiểm định các hệ số hồi quy 𝛽 𝑖 cùng 1 lúc theo cách bằng p-value, F-statistic
(Hệ số hồi quy 𝛽 𝑖 đồng thời bằng 0)
Giả thuyết đối 𝐻 1 : ∃ 𝛽 𝑖 ≠ 0, i = (0,7)̅̅̅̅̅̅̅ (Hệ số hồi quy 𝛽 𝑖 có ít nhất 1 hệ số khác 0) Nếu p-value < 𝛼 ⇒ bác bỏ 𝐻 0 , chấp nhận 𝐻 1
Nếu p-value ≥ 𝛼 ⇒ chưa bác bỏ được 𝐻 0
Dựa vào kết quả ta thấy p-value = 2.2e-16 < 𝛼 ⟹ bác bỏ H0, chấp nhận H1
Vậy nên có ít nhất 1 biến có ý nghĩa thống kê đối với mô hình
* Ngoài ra, ta có thể dựa vào F-statistic:
Với, n là cỡ mẫu (hay còn gọi là số quan sát); k là số biến độc lập trong mô hình hồi quy Trong bài này thì n = 390, k = 7 Như vậy:
Nếu F-statistic ∈ RR ⇒ bác bỏ 𝐻 0 , chấp nhận 𝐻 1
Nếu F-statistic ∉ RR ⇒ chưa bác bỏ được 𝐻 0
Dựa trên kết quả ta thấy F-statistic = 260,5 ∈ RR ⇒ bác bỏ 𝐻 0 , chấp nhận 𝐻 1
Vậy có ít nhất 1 biến có ý nghĩa thống kê đối với mô hình
Cách loại bỏ các biến trong mô hình:
Chọn biến nào càng không có ý nghĩa ta bỏ trước Dựa vào giá trị p-value, ta bỏ lần lượt các biến paid, sex, studytime, failures
Kiểm tra các giả định (giả thiết) của mô hình
Ta xây dựng thêm các mô hình hồi quy tuyến tính:
Mô hình 2: Loại bỏ đi biến paidyes từ mô hình 1
Hình 20: Kết quả mô hình hồi quy tuyến tính model_2
Phương trình hồi quy: 𝐺3̂ = -1.62347 + 0.15244 × G1 + 0.97512 × G2 - 0.14317 × studytime - 0.27819 × failures + 0.03786 × absences + 0.18638 × sexM
Mô hình 3: Loại bỏ đi biến sexM từ mô hình 2
Hình 21: Kết quả mô hình hồi quy tuyến tính model_3
Phương trình hồi quy: 𝐺3̂ = -1.50268 + 0.15530 × G1 + 0.97637 × G2 - 0.17928 × studytime - 0.27224 × failures + 0.03687 × absences
Mô hình 4: Loại bỏ đi biến studytime từ mô hình 3
Hình 22: Kết quả mô hình hồi quy tuyến tính model_4
Phương trình hồi quy: 𝐺3̂ = -1.82204 + 0.14854 × G1 + 0.97773 × G2 - 0.24624 × failures + 0.03779 × absences
Mô hình 5: Loại bỏ đi biến failures từ mô hình 4
Hình 23: Kết quả mô hình hồi quy tuyến tính model_5
Phương trình hồi quy: 𝐺3̂ = -2.12101 + 0.15971 × G1 + 0.98711 × G2 + 0.03660 × absences
* Sau đó tiến hành so sánh giữa các mô hình với nhau
So sánh giữa mô hình 1 và mô hình 2
Giả thuyết không 𝑯 𝟎 : Mô hình 1 và mô hình 2 có hiệu quả như nhau
Giả thuyết đối 𝑯 𝟏 : Mô hình 1 và mô hình 2 có hiệu quả khác nhau
Hình 24: Kết quả so sánh model_1 và model_2
Nhận xét: Vì p_value = 0.5264 lớn hơn mức ý nghĩa α = 0.05 nên chưa bác bỏ được giả thuyết 𝑯 𝟎 , hai mô hình 1 và 2 có hiệu quả giống nhau
So sánh giữa mô hình 2 và mô hình 3
Giả thuyết không 𝑯 𝟎 : Mô hình 2 và mô hình 3 có hiệu quả như nhau
Giả thuyết đối 𝑯 𝟏 : Mô hình 2 và mô hình 3 có hiệu quả khác nhau
Hình 25: Kết quả so sánh model_2 và model_3
Nhận xét: Vì p_value = 0.3689 lớn hơn mức ý nghĩa α = 0.05 nên chưa bác bỏ được giả thuyết 𝑯 𝟎 , hai mô hình 2 và 3 có hiệu quả giống nhau
So sánh giữa mô hình 3 và mô hình 4
Giả thuyết không 𝑯 𝟎 : Mô hình 3 và mô hình 4 có hiệu quả như nhau
Giả thuyết đối 𝑯 𝟏 : Mô hình 3 và mô hình 4 có hiệu quả khác nhau
Hình 26: Kết quả so sánh model_3 và model_4
Nhận xét: Vì p_value = 0.1294 lớn hơn mức ý nghĩa α = 0.05 nên chưa bác bỏ được giả thuyết 𝑯 𝟎 , hai mô hình 3 và 4 có hiệu quả giống nhau
So sánh giữa mô hình 4 và mô hình 5
Giả thuyết không 𝑯 𝟎 : Mô hình 4 và mô hình 5 có hiệu quả như nhau
Giả thuyết đối 𝑯 𝟏 : Mô hình 4 và mô hình 5 có hiệu quả khác nhau
Hình 27: Kết quả so sánh model_4 và model_5
Nhận xét: Vì p_value = 0.08117 lớn hơn mức ý nghĩa α = 0.05 nên chưa bác bỏ được giả thuyết, hai mô hình 4 và 5 có hiệu quả giống nhau
Dựa trên việc so sánh các mô hình, ta thấy các mô hình có hiệu quả giống nhau do đó ta chọn mô hình nào cũng được Mặt khác, ở mô hình 3 ta thấy hệ số R 2 hiệu chỉnh cao nhất, cho thấy sự thay đổi G3 được giải thích nhiều nhất bởi các biến độc lập Vì vậy ta lựa chọn mô hình hồi quy tuyến tính phù hợp nhất là mô hình 3
Phân tích sự tác động của các nhân tố lên điểm thi cuối kỳ
Như vậy xét model_3, mô hình hồi quy tuyến tính về ảnh hưởng của các nhân tố lên điểm thi cuối kỳ G3 được cho bởi:
Trước hết, ta thấy rằng p - value tương ứng với thống kê F bé hơn 2.2 e -16, có ý nghĩa rất cao Điều này chỉ ra rằng, ít nhất một biến dự báo trong mô hình có ý nghĩa giải thích rất cao cho biến điểm thi cuối kỳ Để xét ảnh hưởng cụ thể của từng biến độc lập, ta xét trọng số (hệ số β i ) và p - value tương ứng Ta thấy rằng p - value tương ứng với hai biến G2 bé hơn 2 e -16, điều này nói lên rằng ảnh hưởng của G2 có ý nghĩa rất cao lên điểm thi cuối kỳ G3 Ngoài ra, biến
G1, absence, failures ít ảnh hưởng lên điểm thi cuối kỳ G3 và studytime không ảnh hưởng lên điểm thi cuối kỳ G3
Mặt khác, hệ số hồi quy 𝛽 𝑖 của một biến dự báo cũng có thể được xem như ảnh hưởng trung bình lên biến phụ thuộc điểm thi cuối kỳ G3 khi tăng một đơn vị của biến dự báo đó, giả sử rằng các biến dự báo khác không đổi
+) 𝛽̂ 1 = 0.15530 thì khi điểm thi học kỳ 1 tăng 1đ, ta có thể kỳ vọng điểm thi cuối kỳ sẽ tăng lên 0.1553đ về mặt trung bình (giả sử rằng các biến dự báo khác không đổi)
+) Với 𝛽̂ 2 = 0.97637 thì khi điểm thi học kỳ 2 tăng 1đ, ta có thể kỳ vọng điểm thi cuối kỳ sẽ tăng lên 0.97637đ về mặt trung bình (giả sử rằng các biến dự báo khác không đổi)
+) Với 𝛽̂ 3 = – 0.17928 thì khi tăng thời gian học tự học trên tuần lên 1 đơn vị, ta có thể kỳ vọng điểm thi cuối kỳ sẽ giảm 0.17928 x 2đ về mặt trung bình (giả sử rằng các biến dự báo khác không đổi)
+) Với 𝛽̂ 4 = – 0.27224 thì khi tăng số lần không qua môn lên 1 đơn vị, ta có thể kỳ vọng điểm thi cuối kỳ sẽ giảm 0.27224đ về mặt trung bình (giả sử rằng các biến dự báo khác không đổi)
+) Với 𝛽̂ 5 = 0.03687 thì khi tăng số lần nghỉ học lên 1 lần, ta có thể kỳ vọng điểm thi cuối kỳ sẽ tăng 0.03687đ về mặt trung bình (giả sử rằng các biến dự báo khác không đổi)
Hệ số 𝑅 2 hiệu chỉnh bằng 0.824 nghĩa là 82.4% sự biến thiên trong điểm thi cuối kỳ được giải thích bởi các biến các biến độc lập
Ý nghĩa của mô hình
Kiểm tra các giả định của mô hình theo 2 cách:
Nhắc lại các giả định của mô hình hồi quy: Y i = 𝛽 0 + 𝛽 1 𝑋 1 + …𝛽 𝑖 𝑋 𝑖 + 𝜀 𝑖 , i = 1,…n
+ Tính tuyến tính của dữ liệu: mối quan hệ giữa biến dự báo X và biến phụ thuộc Y được giả sử là tuyến tính
+ Sai số có phân phối chuẩn
+ Phương sai của các sai số là hằng số
+ Các sai số 𝜀 có kỳ vọng = 0
+ Các sai số 𝜀 1 ,…,𝜀 𝑛 thì độc lập với nhau
Cách 1: Thực hiện phân tích thặng dư để kiểm tra các giả định của mô hình
59 Đồ thị 2 Đồ thị 3 Đồ thị 4
• Đồ thị 1 vẽ các giá trị sai số tương ứng với các giá trị dự báo, kiểm tra giả định tuyến tính dữ liệu và giả định các sai số có kỳ vọng bằng 0
- Ta nhận thấy đường màu đỏ gần như là đường thẳng nên giả định tuyến tính của dữ liệu thỏa mãn
- Đường thẳng màu đỏ nằm sát đường thẳng y = 0 (ngoại trừ một số ngoại lai) nên giả định các sai số có kỳ vọng bằng 0 thỏa mãn
- Các sai số phân tán tương đối ngẫu nhiên xung quanh đường thẳng y = 0 nhưng do còn khá nhiều ngoại lai nên giả định sai số có phương sai là hằng số chưa thõa mãn
• Đồ thị 2 vẽ các sai số đã được chuẩn hóa kiểm tra giả định phân phối chuẩn
Ta nhận thấy các sai số đã được chuẩn hóa chưa nằm trên một đường thẳng nên giả định này chưa thỏa mãn
• Đồ thị 3 vẽ căn bậc hai của sai số, kiểm tra giả định phương sai của sai số là hằng số
Ta nhận thấy các căn bậc hai sai số tập trung quanh đường thẳng màu đỏ, mặc dù có ngoại lai nhưng tạm chấp nhận được giả định này
• Đồ thị 4 xác định các điểm có ảnh hưởng cao nếu nó hiện diện trong bộ dữ liệu
Các điểm 141, 260, 277 có thể là các điểm có ảnh hưởng cao Tuy nhiên các điểm này chưa vượt qua đường Cook’s distance nên chưa thật sự là điểm ảnh hưởng cao do đó không cần loại bỏ khi phân tích
Cách 2: Kiểm tra các giả định của mô hình dựa vào các kiểm định a) Các sai số có kỳ vọng bằng 0
𝐻0: Các sai số có kỳ vọng 𝜇 = 0
𝐻1 : Các sai số có kỳ vọng 𝜇 ≠ 0
⁕ Cách 1: Kiểm định theo tiêu chuẩn kiểm định
Từ kết quả R cho ta thấy 𝑧0 không thuộc miền bác bỏ, chưa bác bỏ được giả thuyết 𝐻0 nên giả định về các sai số có kỳ vọng bằng 0 được thỏa mãn
⁕ Cách 2: Kiểm định theo p-value
Ta nhận thấy p-value = 1 chưa bác bỏ được giả thuyết 𝐻0, nên giả định về các sai số có kỳ vọng bằng 0 được thỏa mãn b) Phương sai của các sai số là hằng số
𝐻0: Các sai số có phương sai là hằng số
𝐻1: Các sai số có phương sai không là hằng số
Ta nhận thấy p-value bé hơn 2.22e-16 nên ta bác bỏ giả thuyết 𝐻0, chấp nhận đối 𝐻1 như vậy giả định về các sai số có phương sai là hằng số chưa thỏa mãn c) Các sai số có phân phối chuẩn
𝐻0: Các sai số tuân theo phân phối chuẩn
𝐻1: Các sai số không tuân theo phân phối chuẩn
Ta nhận thấy R cho thấy p-value < 2.2e-16 nhỏ hơn rất nhiều so với mức ý nghĩa 5% nên ta bác bỏ giả thuyết 𝐻0, như vậy giả định các sai số có phân phối chuẩn chưa thỏa mãn.
Dự báo và so sánh, nhận xét
a/ Dùng lệnh prop.table và table để thống kê tỷ lệ đạt/không đạt của sinh viên trong điểm thi cuối kì dựa trên số liệu quan sát
Hình 28: Kết quả tỷ lệ đạt/không đạt của G3 quan sát
- Tỷ lệ đạt của sinh viên trong điểm thi cuối kì: 67,4359%
- Tỷ lệ không đạt của sinh viên trong điểm thi cuối kì là: 32,5641%
64 b/ Lập một bảng số liệu mới đặt tên là new_X bao gồm toàn bộ các biến độc lập trong mô hình
Hình 29: Kết quả xem 3 dòng đầu tiên của data “new_X”
* Dùng lệnh predict để đưa ra số liệu dự báo cho biến phụ thuộc G3 vào new_X đặt tên biến này là pred_G3
Hình 30: Kết quả xem 3 dòng đầu tiên của data “new_X” khi dự báo dựa trên model_3
* Dùng lệnh prop.table và table để thống kê tỷ lệ đạt/không đạt của sinh viên trong điểm thi cuối kì dựa trên số liệu dự báo
Hình 31: Kết quả tỷ lệ đạt/không đạt của G3 dự báo
- Tỷ lệ đạt của sinh viên trong điểm thi cuối kì: 46,41026%
- Tỷ lệ không đạt của sinh viên trong điểm thi cuối kì là: 53,58974% c/ Lập bảng so sánh kết quả dự báo pred_G3 với kết quả thực tế của biến G3
Hình 32: Kết quả thực hiện so sánh G3 dự báo và G3 quan sát
Nhận xét: Dựa trên kết quả, ta có thể thấy tỷ lệ đạt/không đạt ở G3 quan sát và G3 dự báo có sự chênh lệch đáng kể Có thể giải thích là mô hình hồi quy ta xây dựng chưa thực sự tốt, vì lí do có nhiều ngoại lai ảnh hưởng đến kết quả dự báo Ta cần xử lí trước khi xây dựng mô hình để mô hình tốt hơn
HOẠT ĐỘNG 2 - KHOA CƠ KHÍ 1 Thực hiện
Đọc dữ liệu (Import data)
Dùng lệnh read.xslx() để đọc dữ liệu
Câu lệnh: data