Tổng biến thiên của biến phụ thuộc SST được tính bằng cách lấy tổng chênh lệch bình phương của các giá trị Yi xung quanh giá trị trung bình của chúng.Tổng biến thiên được chia làm 2 phần
Cơ sở lí thuyết
Mô hình hồi quy tuyến tính biến và phân tích tương quan
1.1 Mô hình hồi quy tuyến tính đơn:
Phương trình hồi quy tuyến tính đơn biến tổng thể:
Xi và Y là các giá trị của biến độc lập và biến phụ thuộc tại cặp quan sát thứ i.i b0: hệ số tung độ gốc (hệ số chặn). b1: hệ số độ dốc (hệ số góc). ei: yếu tố ngẫu nhiên (chênh lệch giữa giá trị Yi thực tế và giá trị E(Y|X ) với i
1.1.1 Ý nghĩa của hệ số hồi quy: b1 là hệ số độ dốc của đường hồi quy tổng thể, đo lường lượng thay đổi trung bình trong biến phụ thuộc Y, cho mỗi đơn vị thay đổi của X. b0 là hệ số tung độ gốc (hệ số chặn hoặc hệ số tự do) cho biết giá trị trung bình của Y khi X bằng 0.
Phương trình hồi quy tuyến tính mẫu đực sử dụng để ước lượng mô hình hồi quy tổng thể E(Y|X ) = b + bi 0 1Xi có công thức:
: giá trị ước lượng cho giá trị của biến Y ở quan sát thứ i.
X : giá trị của X ở quan sát thứ i.i
Công thức tính giá trị của các hệ số hồi quy mẫu:
1.1.2 Đo lường biến thiên bằng hệ số xác định: Để khảo sát khả năng sử dụng biến độc lập để dự đoán về biến phụ thuộc cần phải đo lường một số sự biến thiên trong mô hình.
Tổng biến thiên của biến phụ thuộc (SST) được tính bằng cách lấy tổng chênh lệch bình phương của các giá trị Yi xung quanh giá trị trung bình của chúng.
Tổng biến thiên được chia làm 2 phần: biến thiên hồi quy (SSR) và biến thiên của phần dư (SSE).
+ SSR thể hiện sự khác biệt giữa giá trị do đường hồi quy tính toán được và SSE đại diện cho thành phần biến thiên trong Y mà không được giải thích bởi hồi quy, được hình thành dựa trên chênh lệch giữa và
+ SST là chênh lệch giữa mỗi giá trị quan sát
Tỉ lệ giữa SSR và SST là hệ số biến thiên (R ) dùng để đánh giá mô hình hồi 2 quy
1.1.3 Sai số chuẩn của ước lượng: Độ lệch chuẩn xung quanh đường hồi quy được gọi là sai số chuẩn của hồi quy (kí hiệu s ) được tính bằng cách lấy tổng của các chênh lệch bình phương chia cho Y/X bậc tự do rồi lấy căn bậc hai kết quả tìm được.
Bình phương s ta được sY/X 2 là ước lượng tốt cho s căn cứ trên (n-2) bậc tự
Chỉ số Y/X dùng để chỉ rõ s 2 Y/X là ước lượng cho phương sai của Y khi có sự hồi quy Y theo X.
1.1.4 Suy diễn thống kê về hệ số độ dốc Định lí Gauss – Markov: Trong các ước lượng tuyến tính không chệch cho hệ số hồi quy tổng thể, ước lượng tìm được bằng phương pháp bình phương bé nhất có phương sai cực tiểu.
Giả sử Y tuân theo phân phối chuẩn và các tham số b và b cũng tuân theo 0 1 phân phối chuẩn:
Khoảng tin cậy 100x(1-a)% cho hệ số độ dốc b1 có dạng (b ± t1 (n-2; /2) х s ) b1
Kiểm định ý nghĩa của hệ số độ dốc có thể tiến hành với giả thiết bất kì về giá trị của b1 (giả dụ H : b0 1=b*)
+ Chuẩn hóa b1 theo công thức: Z = (b-b1)/sb1
+ Do ta đã dùng ước lượng trên mẫu 𝑠𝑏1 2 thay cho phương sai thực trên tổng thể mà ta chưa biết nên b1 không có phân phối chuẩn mà sẽ có phân phối student với (n-2) bậc tự do.
+b1 là hệ số hồi quy mẫu
+b∗ là giá trị của hệ số hồi quy tổng thể được giả định
+Sb1 là ước lượng của sai số chuẩn của hệ số độ dốc.
+Tiến hành so sánh giá trị t này với giá trị t tra bảng theo quy tắc nếu |t| < t(n-2;
/2) chưa thể bác bỏ giả thiết H0.
+Với mô hình hồi quy đơn biến thì việc kiểm định thông tin về hệ số độ dốc được tiến hành với giả thiết b1=0.
1.2.1 Hệ số tương quan tuyến tính tổng thể :
Hệ số tương quan là một số đo về mức độ kết hợp tuyến tính giữa các biến số, được xác định bởi công thức:
Trong đó: σXY: giá trị đồng phương sai giữa X và Y. σ 2 X, σ lần lượt là phương sai của X và Y 2 Y
Thường chúng ta không biết được các đại lượng thống kê này vì chúng là tham số tổng thể, do đó chúng ta phải dùng tham số mẫu, vậy σ được ước lượng bằng sXY XY với công thức: σX, σ được ước lượng lần lượt bởi sX và sY với công thức tính phương sai củaY
Hệ số tương quan tuyến tính thổng thể đã được ước lượng bằng hệ số tương quan tuyến tính mẫu r.
1.2.2 Hệ số tương quan tuyến tính mẫu r:
Hệ số tương quan tuyến tính mẫu được cho bởi công thức:
1.2.3 Kiểm định ý nghĩa thống kê của hệ số tương quan tuyến tính:
Giả thiết đặt ra cho kiểm định này là:
H1: 0 Tính toán đại lượng thống kê t theo công thức:
Trong đó: t là đại lượng thống kê kiểm định tuân theo phân phối student với bậc tự do là (n-2). r là hệ số tương quan mẫu. n là cỡ mẫu.
Nếu |t| > t(n-2; /2) thì bác bỏ giả thiết H và ngược lại, là mức ý nghĩa đã chọn cho 0 phép kiểm định.
1.3 Tương quan giữa các biến định tính:
Có 3 đại lượng đo lường mức độ liên hệ dùng để tính tương quan giữa 2 biến thức bậc là:
+ Tương quan hạng Spearman rs
Hồi quy tuyến tính đa biến
2.1 Phương trình hồi quy tuyến tính tổng thể đa biến với k biến độc lập:
Phương trình hồi quy tổng thể với k biến độc lập có dạng:
0: hệ số tung độ gốc.
1: hệ số độ dốc của Y theo biến X giữ các biến X , X1 2 3…Xk không đổi.
2: hệ số độ dốc của Y theo biến X giữ các biến X , X2 2 3…Xk không đổi.
3: hệ số độ dốc của Y theo biến X giữ các biến X , X1 2 3…Xk không đổi.
k: hệ số độ dốc của Y theo biến X giữ các biến X , Xk 2 3…Xk-1 không đổi.
i: thành phần ngẫu nhiên (yếu tố nhiễu).
2.2 Phương trình hồi quy tuyến tính mẫu đa biến với 3 biến độc lập: 2.2.1 Viết phương trình hồi quy tuyến tính 3 biến mẫu độc lập:
2.2.2 Đánh giá sự phù hợp của mô hình:
Tính toán hệ số xác định bội: khi có nhiều biến độc lập trong mô hình thì R2 vẫn được sử dụng để xác định phần biến thiên phụ thuộc được giải thích bởi mối liên hệ giữa biến phụ thuộc và tất cả các biến độc lập trong mô hình, nhưng lúc này R2 được gọi là hệ số xác định bội.
Hệ số xác định hiệu chỉnh:
+ Hệ số xác định hiệu chỉnh ký hiệu R 2 adj là một cách khác để đo lường tỷ lệ phần trăm của biến thiên được giải thích trong biến phụ thuộc mà có tính đến mối iên hệ giữa cỡ mẫu và biến số độc lập trong mô hình hồi quy bội.
Trong đó: n là cỡ mẫu k là số biến độc lập trong mô hình.
+ Hệ số xác định hiệu chỉnh luôn nhỏ hơn Hệ số xác định bội. Đánh giá ý nghĩa toàn diện của mô hình:
H0 có nghĩa là mô hình hồi quy đa biến tổng thể mà ta xây dựng với tất cả các biến độc lập được đưa vào để giải thích cho biến phụ thuộc thực ra không giải thích được cho những biến thiên trong biến phụ thuộc.
H0 có nghĩa là tất cả các hệ số độ dốc đều đồng thời bằng 0 thì mô hình hồi quy bội đã xây dựng không hề có tác dụng trong việc dự đoán hay mô tả biến phụ thuộc.
+ F là con số thống kê được sử dụng để kiểm định giả thiết về ý nghĩa toàn diện của mô hình hồi quy.
Với: n là cỡ mẫu k là số biến độc lập trong mô hình. Đánh giá ý nghĩa của từng biến độc lập riêng biệt:
Với: bj là hệ số độ dốc trong mô hình hồi quy mẫu cho biến độc lập thứ j.
Sbj là sai số chuẩn ước lượng của hệ số độ dốc của biến độc lập thứ j. + t < t(n-k-1; /2) thì chấp nhận giả thiết H và ngược lại.0
2.3 Hồi quy với biến độc lập định tính:
Phương pháp: sử dunng biến giả (Dummy)
Phương pháp “lượng hóa” các thuộc tính được thể hiện bằng cách thiết lập các biến nhân tạo với giá trị 1 biểu thị việc có thuộc tính đó và 0 là tình huống ngược lại. Biến giả còn có tên gọi là biến nhị phân, biến chỉ định, biến định tính, biến giả). Một số vấn đề liên quan đến việc dùng biến giả:
+ Để phân biệt m phân loại người ta dùng m-1 biến giả.
+ Việc gán giá trị 1 và 0 cho phân loại nào không quantrọng Nếu dữ liệu là đúng đắn thì kết quả sẽ hợp lý, điều then chốt là phải biết các giá trị được gán như thế nào trong khi giaỉ thích kết quả hồi quy.
+ Phân loại nhận giá trị 0 được gọi tên là phân loại cơ sở, gọi là cơ sở xét trên khía cạnh ta thực hiến các so sánh vớ pahan loại đó.
+ Hệ số gắn với biến gải D được gọi là hệ số tung độ gốc chênh lệch.
Ngoài mối liên hệ tuyến tính giữa biến phụ thuộc Y và biến giải thích X thì trong thực tế còn có nhiều tình huồng Y và X iên hệ với nhau là dạng một đường cong nào đó, gọi là mối liên hệ phi tuyến.
Một trong những kiểu liên hệ phi tuyến phổ biến là mối liên hệ bậc 2 giữa 2 biến, mối liên hệ này giữa X và Y có thể được phân tích bằng mô hình hồi quy bậc 2 có công thức định nghĩa như sau:
1: hệ số của ảnh hưởng tuyến tính của X lên Y.
2: hệ số của ảnh hưởng bậc 2 của X lên Y.
i: sai số tương ứng với mỗi quan sát. Để ước lượng các hệ số hồi quy mẫu, ta sẻ dụng phương pháp bình phương bé nhất như thông thường. Đánh giá độ phù hợp của mô hình:
+ Kiểm định về ý nghĩa toàn diện của mô hình cũng được tiến hành trên cơ sở kiểm định F với giả thiết:
H1: R 2 0 + Công thức tính giá trị F vẫn là công thức như phần trên. Đánh giá tác động bậc 2: kiểm tra xem hiệu ứng bậc 2 thực ra có cần thiết hay không bằng cách kiểm định ý nghĩa thống kê của hệ số hồi quy đứng trước biến X 2 Giả thiết đặt ra cho kiểm định này như sau:
+ H : = 0 (tức là việc bao hàm tác động bậc 2 không có tác dụng cải thiên mô hình 0 2 một cách có ý nghĩa)
+ H : 1 2 0 (tức là việc bao hàm tác động bậc 2 có tác dụng cải hiện mô hình một cách có ý nghĩa)
Kiểm định t cũng được thực hiện như cách thông thường.
Phương pháp này được sử dụng để khắc phục hiện tượng phương sai thay đổi hoặc nó được sử dụng vì lý do trong mô hình dạng log kép các hệ số hồi quy có một ý nghĩa đặc biệt là nó có độ co giãn của Y theo X.
Bài tập xử lí số liệu
Đọc dữ liệu (Import data): heat_data.csv
Dùng lệnh read_excel để đọc dữ liệu:
Input: library(readxl) heat_data |t|)
## Residual standard error: 2.934 on 760 degrees of freedom
## F-statistic: 1187 on 7 and 760 DF, p-value: < 2.2e-16
Nhận xét: Đối với biến X4 ta không tìm được hệ số hồi quy và tính được các thông số liên quan, có thể giải thích X4 là một biến phụ thuộc theo các biến còn lại (diện tích mái nhà có thể phụ thuộc vào diện tích tường hoặc diện tích bề mặt, …) Do vậy ta sẽ loại bỏ X4 ra khỏi mô hình hồi quy.
Mô hình hồi quy tuyến tính:
Ta thấy rằng p-value tương ứng với thống kê F bé hơn 2.2e−16, có ý nghĩa rất cao Điều này chỉ ra rằng, ít nhất một biến dự báo trong mô hình có ý nghĩa giải thích rất cao cho biến mức độ thu nhiệt Y1.
Ta cũng nhận thấy rằng p-value của bài toán kiểm định giả thuyết H0: Hệ số ứng với X6 không có ý nghĩa thống kê (β 6=0) bằng 0.80548 cho thấy rằng biến X6 này không có ý nghĩa đối với mô hình hồi quy ta vừa xây dựng, do đó ta có thể loại bỏ biến X6 ra khỏi mô hình hồi quy.
4.2 Ta xây dựng lại mô hình hồi quy tuyến tính với biến phụ thuộc là Y1, và các biến độc lập lúc này là: X1, X2, X3, X5, X7, X8.
Input: model_2 = lm(Y1 ~X1+X2+X3+X5+X7+X8,heat_data) #Xây dựng lại mô hình hồi quy tuyến tính summary(model_2) #Tóm tắt kết quả của mô hình hồi quy tuyến tính
## lm(formula = Y1 ~ X1 + X2 + X3 + X5 + X7 + X8, data = heat_data)
## Estimate Std Error t value Pr(>|t|)
## Residual standard error: 2.933 on 761 degrees of freedom
## F-statistic: 1387 on 6 and 761 DF, p-value: < 2.2e-16
Mô hình hồi quy tuyến tính về sự ảnh hưởng các nhân tố (X1, X2, X3, X5, X7,
Hệ số xác định hiệu chỉnh (Adjusted R-squared): R 2 hiệu chỉnh = 0.9155 nghĩa là 91.55% sự biến thiên trong mức độ thu nhiệt Y1 được giải thích bởi các biến độc lập (X1, X2, X3, X5, X7, X8). Để xét ảnh hưởng cụ thể của từng biến độc lập, ta xét các hệ số hồi quy β i và p- value tương ứng Ta thấy rằng p-value tương ứng với các biến X3, X5, X7 đều bé hơn 2e−16, điều này nói lên rằng ảnh hưởng của ba biến có ý nghĩa rất cao lên biến mức độ thu nhiệt Y1 Mặt khác, hệ số hồi quy của một biến độc lập cũng có thể được xem như ảnh hưởng trung bình lên biến phụ thuộc Y1 khi tăng một đơn vị của biến dự báo đó, giả sử rằng các biến dự báo khác không đổi Cụ thể, hệ số hồi quy ứng với biến X1 β 1=−64.773432 thì với mỗi khi độ nhỏ gọn tăng 1 đơn vị, ta có thể kỳ vọng mức độ thu nhiệt của ngồi nhà sẽ giảm đi 64.773432 đơn vị về mặt trung bình (giả sử rằng các biến độc lập khác không thay đổi) Hệ số hồi quy ứng với biến X2 β 2 =− 0.087289 thì mỗi khi tăng 1 m 2 diện tích bề mặt, ta có thể kỳ vọng rằng mức độ thu nhiệt sẽ giảm đi
0.087289 đơn vị về mặt trung bình (giả sử rằng các biến độc lập khác không thay đổi). Tương tự đối với các biến còn lại.
4.3 Kiểm tra các giả định của mô hình.
Nhắc lại các giả định của mô hình hồi quy:
Tính tuyến tính của dữ liệu: mối quan hệ giữa biến dự báo X và biến phụ thuộc
Y được giả sử là tuyến tính.
Sai số có phân phối chuẩn.
Phương sai của các sai số là hằng số: ∈ n N(0, σ 2 )
Các sai số ∈ 1 , … ,∈ n độc lập với nhau.
Ta thực hiện phân tích thặng dư để kiểm tra các giả định của mô hình:
Input: plot(model_2) #Vẽ các đồ thị phân tích thặng dư để kiểm tra các giả định của mô hình
Output: Đồ thị thứ 1 (Residuals vs Fitted) vẽ các giá trị dự báo với các giá trị thặng dư
(sai số) tương ứng, dùng để kiểm tra tính tuyến tính của dữ liệu (giả định 1) và tính đồng nhất của các phương sai sai số (giả định 3) Nếu như giả định về tính tuyến tính của dữ liệu KHÔNG thỏa, ta sẽ quan sát thấy rằng các điểm thặng dư (residuals) trên đồ thị sẽ phân bố theo một hình mẫu (pattern) đặc trưng nào đó (ví dụ parabol) Nếu đường màu đỏ trên đồ thị phân tán là đường thẳng nằm ngang mà không phải là đường cong, thì giả định tính tuyến tính của dữ liệu được thỏa mãn Để kiểm tra giả định thứ 3 (phương sai đồng nhất) thì các điểm thặng dự phải phân tán đều nhau xung quanh đường thẳng y=0. Đồ thị thứ 2 (Normal Q-Q) cho phép kiểm tra giả định về phân phối chuẩn của các sai số Nếu các điểm thặng dư nằm trên cùng 1 đường thẳng thì điều kiện về phân phối chuẩn được thỏa. Đồ thị thứ 3 (Scale - Location) vẽ căn bậc hai của các giá trị thặng dư được chuẩn hóa với các giá trị dự báo, được dùng để kiểm tra giả định thứ 3 (phương sai của các sai số là hằng số) Nếu như đường màu đỏ trên đồ thị là đường thẳng nằm ngang và các điểm thặng dư phân tán đều xung quanh đường thẳng này thì giả định thứ 3 được thỏa Nếu như đường màu đỏ có độ dốc (hoặc cong) hoặc các điểm thặng dư phân tán không đều xung quanh đường thẳng này, thì giả định thứ 3 bị vi phạm. Đồ thị thứ 4 (Residuals vs Leverage) cho phép xác định những điểm có ảnh hưởng cao (influential observations), nếu chúng có hiện diện trong bộ dữ liệu Những điểm có ảnh hưởng cao này có thể là các điểm outliers, là những điểm có thể gây nhiều ảnh hưởng nhất khi phân tích dữ liệu Nếu như ta quan sát thấy một đường thẳng màu đỏ đứt nét (Cook’s distance), và có một số điểm vượt qua đường thẳng khoảng cách này, nghĩa là các điểm đó là các điểm có ảnh hưởng cao Nếu như ta chỉ quan sát thấy đường thẳng khoảng cách Cook ở góc của đồ thị và không có điểm nào vượt qua nó, nghĩa không có điểm nào thực sự có ảnh hưởng cao.
Đồ thị Normal Q-Q cho thấy giả định sai số có phân phối chuẩn chưa thực sự thỏa mãn.
Đồ thị thứ 1 (Residuals vs Fitted) cho thấy giả định về tính tuyến tính của dữ liệu hơi bị vi phạm, ta có thể thấy rằng sự vi phạm này bởi vì mối quan hệ giữa Y1 và các biến còn lại là phi tuyến tính.
Đồ thị thứ 1 và thứ 3 (Scale - Location) cho ta thấy rằng giả định về tính đồng nhất của phương sai cũng hơi bị vi phạm Tuy nhiên, ta cũng thấy này sự vi phạm này tương đối nhỏ và có thể chấp nhận được.
Đồ thị thứ tư chỉ ra có các quan trắc thứ 16, 22 và 24 có thể là các điểm có ảnh hưởng cao trong bộ dữ liệu.
Tuy nhiên ta cũng quan sát thấy rằng các điểm này chưa vượt qua đường thẳng khoảng cách Cook (đường thẳng đứt nét màu đỏ Cook’s distance) Do vậy, các điểm này chưa thực sự là các điểm có ảnh hưởng cao trong bộ dữ liệu Do đó ta không cần phải loại bỏ chúng khi phân tích.
So sánh trung bình mức thu nhiệt và toả nhiệt của các ngôi nhà
5.1 Ta sử dụng lệnh apply, mean để tính trung bình Y1 và Y2:
Input: apply(heat_data[,c("Y1" "Y2", )],2,mean) #Tính trung bình mức độ thu nhiệt và toả nhiệt của các ngôi nhà
5.2 Ta sử dụng lệnh boxplot để so sánh trung bình Y1 và Y2:
Input: par(mfrow = c( , 1 2)) boxplot(heat_data$Y1,ylab="Heat Load",main="Boxplot of Heat
Load",col="salmon1") #Vẽ biểu đồ phân phối của mức độ thu nhiệt của các ngôi nhà boxplot(heat_data$Y2,ylab="Cool Load",main="Boxplot of Cool
Load",col="lightskyblue1") #Vẽ biểu đồ phân phối của mức độ toả nhiệt của các ngôi nhà
Nhận xét: Dựa trên trung bình mẫu và biểu đồ boxplot, ta nhận thấy mức độ thu nhiệt trung bình có xu hướng thấp hơn mức độ toả nhiệt trung bình, tuy nhiên để đánh giá lại điều đó là ngẫu nhiên hay nó thực sự mức độ thu nhiệt trung bình có xu hướng thấp hơn toả nhiệt, ta cần thực hiện kiểm định trung bình so sánh mức độ thu nhiệt và toả nhiệt giữa các ngôi nhà.
5.3 Ta sử dụng lệnh t-test để thực hiện so sánh trung bình mức thu nhiệt và toả nhiệt của các ngôi nhà:
Input: t.test(heat_data$Y1,heat_data$Y2, paired = ) T #So sánh trung bình mức thu nhiệt và toả nhiệt của các ngôi nhà
## data: heat_data$Y1 and heat_data$Y2