5.11 Kiểm tra các giả định của mô hình hồi quy đa biến

Một phần của tài liệu Áo cáo bài tập lớn xác suất và thống kê (mt2013) (Trang 47 - 51)

e Tính tuyến tính của dữ liệu: mối quan hệ giữa biên dự báo X và biến phụ thuộc Y được giả sử là tuyến tính.

e Sai số có kỳ vọng bằng 0.

e Phương sai của các sai số là hằng số.

e Sai số có phân phối chuẩn e Các sai số độc lập nhau

¡ `"'{r}

2 Al11_GPUs_1lm1 <-

1m(Memory_Bandwidth~ Manuf acturer+Memory_Bus+Memory_Speed+Memory_Type,A11_GPUs_2) 3 par (mfrow=c(2,2))

4 plot(Al1_GPUs_1m1) #analyst plot

5

2 o

o a Residuals vs Fitted 5 2 2 Q-Q Residuals

aS os x

5 2 o— ° oO

5 2 jmmuaditliies o<5 0] 7

2s TT TT Đao, 5 „ô Ae T

0 100 300 500 s -2 0 2

Fitted values a Theoretical Quantiles

a 3 3 a

zs 5 .

2 oy Scale-Location $ Residuals vs Leverage

#3 mu 5 5 600.

Bo o Bo Wate

5 ° 5 TT T

5 0 100 300 500 5 0.00 0.10 0.20 0.30

QD - a

- Fitted values Leverage

Nhận xét:

Báo cáo bài tập lồn Xác suất và Thống kê (MT2013) - HK233 Trang 45/49

đà Trường Đại học Bách khoa - ĐHQG-HCM

<3 Khoa Khoa hoc ứng dung

e Dồ thị thứ nhất vẽ các sai số tương ứng với các giá trị dự báo, kiểm tra giả định tuyến tính của dữ liệu, giả định sai số có kỳ vọng bằng 0, giả định phương sai của sai số là hằng số. Dựa trên đồ thị ta thấy, đường mầu đỏ có sự biến thiên nên giả định tuyến tính của dữ liệu không thỏa mãn. Dường màu đỏ không nằm sát đường — 0 nên giả định sai số có kỳ vọng bằng 0 không thỏa mãn. Các sai số phân tán ngẫu nhiên không dọc theo đường màu đỏ nên giả định phương sai các biến là hằng số không thỏa mãn.

Dồ thị thứ hai vẽ các sai số đã được chuẩn hoá, kiểm tra giả định sai số có phân phối chuẩn. Dựa trên đồ thị ta thấy, có nhiều điểm quan trắc lệch ra khỏi đường thẳng kỳ vọng phân phối chuẩn nên giả định sai số cĩ phân phối chuẩn chưa thộ mãn.

Đồ thị thứ ba vẽ căn bậc hai của các sai số đã được chuẩn hoá, kiểm tra giả định phương sai các sai số là hằng số. Dựa vào đồ thị ta thấy, đường màu đỏ là một đường cong không ổn định và các quan trắc phân tán không đều quanh đường thắng. Da số các điểm phân bố ở khu vực gần điểm 0 và hỗn loạn nên giả định phương sai các hằng số là không thỏa

man.

Dồ thị thứ tư chỉ ra các quan trắc có thể là các điểm có ảnh hưởng cao trong bộ dữ liện. Trong đó các quan trắc 60, 62 và 1180 có thể là những điểm có ảnh hưởng cao. Tuy nhiên các điểm này không vượt khỏi đường Cook nên chúng không thực sự có ảnh hưởng cao nên không cần loại bỏ chúng khi phân tích.

Báo cáo bài tập lồn Xác suất và Thống kê (MT2013) - HK233 Trang 46/49

đà Trường Đại học Bách khoa - ĐHQG-HCM

<3 Khoa Khoa hoc ứng dung

6 Thảo luận và mở rộng

6.1 Về mô hình ANOVA

a) Ưu điểm:

— Kiểm tra sự khác biệt của nhiều nhóm: ANOVA rất hiệu quả khi muốn biết đữ liệu có sự khác biệt ý nghĩa nào đó giữa ba hoặc nhiều nhóm về các yếu tố nhu Memory_ Bandwidth, Memorg_ Buas, và Memoru_ Speed. Diều này có thể hữu ích nếu muốn so sánh hiệu suất của các GPU trong các điều kiện khác nhau.

— Phân Tích Phương Sai: ANOVA cho phép bạn phân tích mức độ biến động giữa các nhóm và mức độ biến động bên trong các nhóm. Có thể cung cấp thông tin về độ đồng nhất hoặc độ chệch lệch giữa chúng.

— Phân loại các yếu tố ảnh hưởng: ANOVA cho phép xác định xem yếu tố nào (ví dụ:

Memory_ Bus, Memory_ Speed) c6 anh huéng dang ké dén Memory_ Bandwidth.

b) Nhược Điểm:

— Giới hạn về tuyến tính: ANOVA giả định về tuyến tính giữa biến độc lập và biến phụ thuộc, và nến mối quan hệ không tuyến tính, phương pháp này có thế không hiện quả.

— Phụ thuộc vào giả định: ANOVA đòi hỏi các giả định như phân phối chuẩn và đồng nhất của phương sai giữa các nhóm. Nếu đữ liệu không tuân theo phân phối chuẩn, kết quả có thế không chính xác.

— ANOVA chỉ phản ánh mối quan hệ thống kê giữa các biến mà không thể xác định được mối quan hệ nguyên nhân - hiệu quả giữa chúng.

6.2_ Về mô hình hồi quy tuyến tính

a) Ưu điểm:

— Hồi quy tuyến tính giúp mô hình hóa mối quan hệ tuyến tính giữa các biến, giúp bạn hiểu rõ hơn về cách các yêu tố ảnh hưởng đến kết quả như Ä#œmory_ Bandwidth, Memory_ Speed.

— Du đoán giá trị: Hồi quy tuyến tính sử dụng để dự đoán giá trị của Ä#emoru_ Banduidth dựa trên giá trị của các biến độc lập như A#œmnorg_ 6pecd, Memoru_ Đua.

— Xác định mức độ ảnh hưởng của từng biến: Hồi quy tuyến tính cung cấp thông tin về mức độ ảnh hưởng của từng yếu tổ lên Äfemoru_ Banduidih, giúp xác định yếu tố nào quan

Báo cáo bài tập lồn Xác suất và Thống kê (MT2013) - HK233 Trang 47/49

đà Trường Đại học Bách khoa - ĐHQG-HCM

<3 Khoa Khoa hoc ứng dung

trong nhat.

b) Han ché:

Hồi quy tuyến tính cho rằng mối quan hệ giữa biến độc lập và biến phụ thuộc là tuyến tính. Nếu mối quan hệ này không tuyến tính, mô hình có thể không phản ánh đúng mối quan hệ thực tế. Mô hình hồi quy tuyến tính yêu cầu dữ liệu độc lập và đồng đều, tức là các quan sát không ảnh hưởng lẫn nhan và có cùng phương sai. Nếu không thỏa mãn, kết quả có thể không chính xác. Khi số lượng biến tăng lên, mô hình có thể trở nên không ổn định và dễ làm giảm hiệu xuất, đặc biệt nếu kích thước mẫu nhỏ.

Báo cáo bài tập lồn Xác suất và Thống kê (MT2013) - HK233 Trang 48/49

Một phần của tài liệu Áo cáo bài tập lớn xác suất và thống kê (mt2013) (Trang 47 - 51)

Tải bản đầy đủ (PDF)

(51 trang)