1. Trang chủ
  2. » Luận Văn - Báo Cáo

Báo cáo bài tập lớn xác suất thống kê Đề tài 2

34 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Báo Cáo Bài Tập Lớn Xác Suất Thống Kê Đề Tài 2
Tác giả Thái Liêu Nguyên Đán, Đàm Quang Phúc, Huỳnh Tấn Dũng, Nguyễn Thái Nhất Hưng, Ngạc Bảo Vinh
Người hướng dẫn Th.S Nguyễn Kiều Dung
Trường học Đại Học Quốc Gia TPHCM Trường Đại Học Bách Khoa
Chuyên ngành Xác Suất Thống Kê
Thể loại Bài Tập Lớn
Năm xuất bản 2023
Thành phố Hồ Chí Minh
Định dạng
Số trang 34
Dung lượng 4,44 MB

Cấu trúc

  • 1.1. Đề bài (3)
  • 1.2. Cơ sở lý thuyết (3)
  • 1.3. Thực hiện (4)
  • 2. Hoạt động 2: 1. Đề bài (21)

Nội dung

Hình 10: Kết quả đồ thị Histogram cho biến G3 Vẽ đồ thị Boxplot thể hiện phân phối của biến G3 theo phân loại của biến studytime CODE: RESULT: Hình 11: Kết quả đồ thị Boxplot thể hiện ph

Đề bài

Tập tin “grade.csv” chứa thông tin về điểm toán của học sinh trung học tại Bồ Đào Nha Dữ liệu bao gồm điểm số, nơi cư trú và một số hoạt động xã hội khác Thông tin được thu thập từ báo cáo trường học và khảo sát sinh viên Dữ liệu gốc có thể tìm thấy tại [UCI Machine Learning Repository](https://archive.ics.uci.edu/ml/datasets/student+performance) Các biến chính trong bộ dữ liệu này liên quan đến thành tích học tập của sinh viên.

• studytime: Thời gian tự học trên tuần (1 - ít hơn 2 giờ, 2 - từ 2 đến 5 giờ, 3 - từ 5 đến 10 giờ, hay 4 - lớn hơn 10 giờ).

• failures: Số lần không qua môn (1, 2, 3, hay 4 chỉ nhiều hơn hoặc bằng 4 lần).

• absences: Số lần nghỉ học.

• paid: Có tham gia các lớp học thêm môn Toán ngoài trường (Có/Không).

• sex: Giới tính của học sinh (Nam/Nữ).

1 Đọc dữ liệu (Import data): "grade.csv"

2 Làm sạch dữ liệu (Data cleaning): NA (dữ liệu khuyết)

3 Làm rõ dữ liệu: (Data visualization)

(a) Chuyển đổi biến (nếu cần thiết).

(b) Thống kê mô tả: dùng thống kê mẫu và dùng đồ thị.

4 Xây dựng mô hình hồi quy tuyến tính để đánh giá các nhân tố có thể ảnh hưởng đến điểm thi cuối kỳ của sinh viên.

5 Thực hiện dự báo cho điểm Toán của học sinh.

Cơ sở lý thuyết

Lý thuyết và hồi quy tuyến tính bội:

Bảng phân tích phương sai:

Nguồn sai số Bậc tự do Tổng số bình phương Bình phương trung bình Giá trị thống kê

Hồi quy k SSR MSR= SSR k F= MSR

Tổng cộng N-1 SST = SSR + SSE

Giá trị R 2 được hiệu chỉnh

Giá trị R 2 được hiệu chỉnh

2 sẽ trở nên âm hay không xác định nếu R 2 hay N nhỏ) Độ lệch chuẩn:

H 0: β = 0 “ Các hệ số hồi quy không có ý nghĩa”i

H 1: β ≠ 0 “ Có ít nhất vài hệ số hồi quy có ý nghĩa”i

Bậc tự do của giá trị t : λ = N-k-1 t=| B i −β i |

H 0: β = 0 “ Phương trình hồi quy không thích hợp”i

H 1: β ≠ 0 “ Phương trình hồi quy thích hợp” với ít nhất vài hệ số βi i

Bậc tự do của các giá trị F: q 1=1, q 2 = N-k-1

Thực hiện

1.3.1 Đọc dữ liệu (Import Data):

1.3.2 Làm sạch dữ liệu (Data Cleaning):

Trích dữ ra dữ liệu con đặt tên là "new_DF" bao gồm các biến chính mà đề bài đưa ra.

Hình 2; Kết quả khi xem 3 dòng đầu tiên của tệp tin “new_DF”

Kiểm tra dữ liệu khuyết trong tệp tin "new_DF".

Hình 3: Kết quả khi kiểm tra dữ liệu khuyết của tệp tin “new_DF”

Trong quá trình phân tích dữ liệu, chúng tôi phát hiện có 5 trường hợp dữ liệu khuyết ở biến G2, cụ thể tại các dòng 2, 6, 9, 80 và 100 Tỷ lệ dữ liệu khuyết này chiếm 1.2658% tổng số quan sát Do lượng dữ liệu khuyết trong tệp tin thấp (dưới 10%), chúng tôi quyết định áp dụng phương pháp loại bỏ các quan sát có chứa dữ liệu khuyết.

Hình 4: Kết quả kiểm tra lại dữ liệu khuyết của tệp tin “new_DF”

1.3.3 Làm rõ dữ liệu (Data visualization):

Thực hiện tính các giá trị thống kê mô tả cho các biến G1, G2, G3 Xuất kết quả dưới

Hình 5: Kết quả tính thống kê mô tả cho các biến G1, G2, G3

Thống kê số lượng sinh viên ở các nhóm thời gian tự học trên tuần

Hình 6: Kết quả thông kê số lượng sinh viên ở các nhóm thời gian tự học trên tuần

Thống kê số lượng sinh viên về số lần không qua môn

Hình 7: Kết quả thống kê số lượng sinh viên về số lần không qua môn

Thống kê số lượng sinh viên về việc có tham gia lớp học môn Toán ngoài trường

Hình 8: Kết quả thống kê số lượng sinh viên về việc có tham gia lớp học môn Toán ngoài trường

Thống kê số lượng sinh viên Nam và Nữ

Hình 9: Kết quả thống kê số lượng sinh viên Nam và Nữ

Vẽ đồ thị Histogram cho biến G3:

Hình 10: Kết quả đồ thị Histogram cho biến G3

Vẽ đồ thị Boxplot thể hiện phân phối của biến G3 theo phân loại của biến studytime CODE:

Hình 11: Kết quả đồ thị Boxplot thể hiện phân phối của biến G3 theo phân loại của biến studytime.

Vẽ đồ thị Boxplot thể hiện phân phối của biến G3 theo phân loại của biến failures.

Hình 12: Kết quả đồ thị Boxplot thể hiện phân phối của biến G3 theo phân loại của biến failures.

Vẽ đồ thị Boxplot thể hiện phân phối của biến G3 theo phân loại của biến paid CODE:

Hình 13: Kết quả đồ thị Boxplot thể hiện phân phối của biến G3 theo phân loại của biến paid.

Vẽ đồ thị Boxplot thể hiện phân phối của biến G3 theo phân loại của biến sex.

Hình 14: Kết quả đồ thị Boxplot thể hiện phân phối của biến G3 theo phân loại của biến sex.

Vẽ đồ thị phân tán thể hiện phân phối của biến G3 theo của biến G1, G2, absences.

Hình 15: Kết quả đồ thị Boxplot thể hiện phân phối của biến G3 theo phân loại của biến G1, G2, absences.

Dựa trên các đồ thị phân tán, có thể thấy rằng các biến G1 và G2 có mối quan hệ tuyến tính đồng biến với biến G3, nghĩa là khi G1 và G2 tăng thì G3 cũng tăng theo Ngược lại, biến absences không cho thấy mối quan hệ tuyến tính với G3.

1.3.4 Xây dựng mô hình hồi quy tuyến tính để đánh giá các nhân tố có thể ảnh hưởng đến điểm thi cuối kỳ của sinh viên

Ta xây dựng hình hồi quy bội (gọi là mô hình 1) bao gồm:

Biến dư báo (biến độc lập): G1, G2, studytime, failures, absences, paid, sex.

Mô hình được biểu diễn như sau:

G3 β 0+β 1∗G1+β 2∗G2+β 3∗studytime+β 4∗failures+β 5∗absences+β 6∗paidyes+β 7∗sexM

Ta thực hiện ước lượng các hệ số β i , i = 0, , 7:

Hình 16: Kết quả mô hình hồi quy tuyến tính model_1

Nhận xét: Từ kết quả phân tích, ta thu được: β 0 ¿=−1,68296; β 1 ¿=0.15705; β 2 ¿=0.97128; β 3 ¿=−0.15211; β 4 ¿=−0.26358; β 5 ¿=0.03769; β 6 ¿=0.12889; β 7 ¿=0.19834

Như vậy, đường thẳng hồi quy ước lượng cho bởi phương trình sau: β 0=−1,68296+0.15705∗G1+0.97128∗G2−0.15211∗studytime−0.26358∗failures+0.03769∗absense+0.1

Kiểm định các hệ số hồi quy:

Giả thuyết H 0: Hệ số hồi quy không có ý nghĩa thống kê ( β i = 0)

Giả thuyết H 1: Hệ số hồi quy có ý nghĩa thống kê ( β i = 0)

Các hệ số ứng với biến G1, G2 và số lần vắng mặt có giá trị nhỏ hơn mức ý nghĩa α=0.05, do đó chúng ta bác bỏ giả thuyết H0 và chấp nhận giả thuyết H1 Điều này cho thấy các hệ số này có ý nghĩa trong mô hình hồi quy mà chúng ta đã xây dựng.

Hệ số ứng với các biến studytime, failure, paidyes và sexM có giá trị Pr(¿|t|) lớn hơn mức ý nghĩa α=0.05, cho thấy chúng ta chưa đủ cơ sở để bác bỏ giả thuyết H.

Hình 17: Kết quả mô hình quy tuyến tính model_2

Mô hình 3: Loại bỏ đi biến sex từ mô hình 2

Hình 18: Kết quả mô hình quy tuyến tính model_3

Mô hình 4: Loại bỏ đi biến studytime từ mô hình 3

Hình 19: Kết quả mô hình quy tuyến tính model_4

Mô hình 5: Loại bỏ đi biến failures từ mô hình 5.

Hình 20: Kết quả mô hình hồi quy tuyến tính model_5

Ta so sánh các mô hình 1 và mô hình 2

Hình 21: Kết quả so sáng mô hình 1 và mô hình 2

Ta so sánh các mô hình 2 và mô hình 3

Hình 22: Kết quả so sáng mô hình 2 và mô hình 3

Ta so sánh các mô hình 3 và mô hình 4

Hình 23: Kết quả so sáng mô hình 3 và mô hình 4

Ta so sánh các mô hình 4 và mô hình 5

Hình 24: Kết quả so sáng mô hình 4 và mô hình 5

Nhận xét: Dựa trên việc so sánh các mô hình, ta thấy p — value đều lớn hơn mức ý

Giá trị p tương ứng với thống kê F nhỏ hơn 2.2e-16 cho thấy có ý nghĩa rất cao, cho thấy ít nhất một biến dự báo trong mô hình có khả năng giải thích tốt cho điểm thi cuối kỳ Cụ thể, p-value của biến G2 nhỏ hơn 2e-16, cho thấy G2 có ảnh hưởng mạnh mẽ đến điểm thi cuối kỳ G3 Ngược lại, các biến G1, absence, và failures có ảnh hưởng hạn chế đến điểm thi cuối kỳ G3, trong khi biến studytime không có ảnh hưởng đáng kể.

Hệ số hồi quy β i của một biến dự báo thể hiện ảnh hưởng trung bình lên điểm thi cuối kỳ G3 khi biến đó tăng một đơn vị, với giả định rằng các biến dự báo khác không đổi Cụ thể, nếu β i = 0.15530, khi điểm thi học kỳ 1 tăng 1 điểm, điểm thi cuối kỳ dự kiến sẽ tăng trung bình 0.1553 điểm Tương tự, với β 2 = 0.97637, khi điểm thi học kỳ 2 tăng 1 điểm, điểm thi cuối kỳ sẽ tăng trung bình 0.97637 điểm, giả sử các biến khác không thay đổi Các biến dự báo khác cũng có ảnh hưởng tương tự.

Hệ số R 2 hiệu chỉnh bằng 0.824 nghĩa là 82.4 % sự biến thiên trong điểm thi cuối kỳ được giải thích bởi các biến các biến độc lập.

Kiểm tra các giả định của mô hình

Nhắc lại các giả định của mô hình hồi quy: Y i =β 0+β 1 X 1+ β i X i +e i ,i=1, n

+ Tính tuyến tính của dữ liệu: mối quan hệ giữa biến dự báo X và biến phụ thuộc Y được giả sử là tuyến tính.

+ Sai số có phân phối chuẩn

+ Phương sai của các sai số là hằng số: e i N(0, σ 2 )

+ Các sai số e 1 , , e n thì độc lập với nhau.

Ta thực hiện phân tích thặng dư để kiểm tra các giả định của mô hình:

Hình 25: Kết quả khi vẽ các đồ thị phân thị phân tích thặng dư

+ Đồ thị Normal Q-Q cho thấy giả định sai số có phân phối chuẩn chưa thực sự thỏa mãn.

Biểu đồ Residuals vs Fitted cho thấy rằng giả định về tính tuyến tính của dữ liệu có phần bị vi phạm, chủ yếu do sự xuất hiện của nhiều giá trị ngoại lai trong biến G3.

Đồ thị thứ 1 và thứ 3 (Scale - Location) chỉ ra rằng giả định về tính đồng nhất của phương sai có một số vi phạm, nhưng mức độ vi phạm này là tương đối nhỏ và có thể chấp nhận được.

+ Đồ thị thứ 4 chỉ ra có các quan trắc thứ 141, 260 và 277 có thể là các điểm có ảnh hưởng cao trong bộ dữ liệu.

1.3.5 Thực hiện dự báo cho điểm Toán của học sinh

Dự báo điểm thi cuối kỳ môn Toán nếu một sinh viên có điểm thi học kỳ 1 là 18, điểm

Nhận xét: Điểm thi cuối kì trung bình dự báo được là 10.62923đ Khoảng tin cậy cho giá trị dự báo là (9.756087;11.50236).

Hoạt động 2: 1 Đề bài

Tệp tin train_data chứa thông tin quan trọng về cấu tạo máy, điều kiện môi trường và năng lượng của máy xay gió Dữ liệu này có sẵn trên trang Kaggle tại địa chỉ: https://www.kaggle.com/synergystud/a-fine-windy-day-hackerearth-ml-challenge Hai biến chính trong bộ dữ liệu là tốc độ gió (wind_speed) và nhiệt độ môi trường (area_temperature).

Motor torque is essential for optimizing the performance of turbines, while blade breadth significantly influences the efficiency of energy generation The turbine status indicates the type of turbine in operation, which can affect overall output Additionally, cloud level plays a crucial role in wind patterns, impacting the windmill-generated power Understanding these factors is vital for maximizing renewable energy production from wind sources.

1 Đọc dữ liệu (Import data):

2 Làm sạch dữ liệu (Data cleaning):

3 Làm rõ dữ liệu (Data visualization): Thống kê mô tả, dùng thống kê mẫu và dùng đồ thị.

4 Mô hình hồi quy tuyến tính: phân tích các nhân tố ảnh hưởng đến năng lượng tạo ra từ cối xây gió.

5 Dự báo: Thực hiện dự báo cho năng lượng gió tạo ra ở hai thuộc tính:

• X1: wind_speed = mean(wind_speed), area_temperature mean(area_temperature), motor_torque = mean(motor_torque), blade_breadth mean(blade_breadth), cloud_level = “Low”.

• X2: wind_speed = max(wind_speed), area_temperature = max(area_temperature), motor_torque = max(motor_torque), blade_breadth = max(blade_breadth), cloud_level = “Low”.

1 Đọc dữ liệu (Import data) a Nhập dữ liệu

To begin, set the working directory by selecting the folder that contains the "train_data.csv" file Next, read the data from the "train_data.csv" file using the read.csv() function Finally, extract the important columns for further processing.

Kiểm tra và xuất vị trí của dữ liệu khuyết trong tập dữ liệu

Kết quả phân tích cho thấy có 273 dữ liệu khuyết ở cột wind_speed, 24 dữ liệu khuyết ở cột motor_torque và 207 dữ liệu khuyết ở cột windmill_generated_power Với tỷ lệ dữ liệu khuyết dưới 10%, chúng ta có thể áp dụng phương pháp loại bỏ các quan trắc chứa dữ liệu khuyết.

CODE: blade_breadth và windmill_generated_power.

RESULT: b Thống kê cho từng chủng loại của các biến phân loại

Tiếp theo, chúng ta sẽ lập bảng thống kê cho từng loại biến phân loại, bao gồm cloud_level và turbine_status Để thực hiện việc này, ta sẽ sử dụng lệnh table() nhằm thống kê số lượng cho từng biến.

- Thống kê số lượng cho biến cloud_level

- Thống kê số lượng cho biến turbine_status.

RESULT: c Biểu đồ phân phối tần số của biến windmill_generated_power

Sử dụng lệnh hist() để vẽ biểu đồ phân phối tần số của biến windmill_generated_power.

Dựa trên biểu đồ ta nhận thấy: Đồ thị có xu hướng lệch phải.

Năng lượng gió chủ yếu tập trung trong khoảng 2 – 10 kWh Để phân tích phân phối của biến windmill_generated_power theo các nhóm phân loại, chúng ta sử dụng hàm boxplot() để vẽ biểu đồ boxplot Biểu đồ này sẽ thể hiện sự phân phối của windmill_generated_power dựa trên các biến cloud_level và turbine_status Qua biểu đồ boxplot, chúng ta có thể xác định 5 giá trị quan trọng, bao gồm điểm tứ phân vị 1.

(25% dữ liệu), điểm tứ phân vị 3 (75% dữ liệu), điểm trung vị (50% dữ liệu), giá trị lớn nhất và giá trị nhỏ nhất

- Vẽ biểu đồ Boxplot thể hiện phân phối của biến windmill_generated_power theo phân loại biến cloud_level:

Nhận xét: Đối với nhóm máy xay gió có cấp độ mây là thấp:

- Năng lượng lớn nhất tạo ra từ máy xay gió là 20 kWh

- Năng lượng nhỏ nhất tạo ra từ máy xay gió là 2 kWh

- Có 25% máy xay gió có năng lượng tạo ra là 4 kWh

- Có 50% máy xay gió có năng lượng là 6 kWh Có 75% máy xay gió có năng lượng

8 kWh Đối với nhóm máy xay gió có cấp độ mây là trung bình:

- Năng lượng lớn nhất tạo ra từ máy xay gió là 20 kWh

- Năng lượng nhỏ nhất tạo ra từ máy xay gió là 2 kWh

- Có 25% máy xay gió có năng lượng tạo ra là 4.5 kWh

- Có 50% máy xay gió có năng lượng là 6 kWh

- Có 75% máy xay gió có năng lượng 7.5 kWh

- Và tương tự với các nhóm còn lại.

The boxplot analysis reveals that the distribution of windmill-generated power is categorized as Extremely Low at certain cloud levels, indicating that this condition is lower than others Consequently, we predict that cloud level is a significant factor influencing windmill-generated power.

- Vẽ biểu đồ Boxplot thể hiện phân phối của biến windmill_generated_power theo phân loại biến turbin_status:

Nhận xét: Đối với máy xay gió có loại tua bin là A:

- Năng lượng lớn nhất tạo ra từ máy xay gió là 20 kWh

- Năng lượng nhỏ nhất tạo ra từ máy xay gió là 3 kWh

- Có 25% máy xay gió có năng lượng tạo ra là 4.5 kWh

- Có 50% máy xay gió có năng lượng là 5.5 kWh

- Có 75% máy xay gió có năng lượng 7 kWh Đối với máy xay gió có loại tua bin là A2:

- Năng lượng lớn nhất tạo ra từ máy xay gió là 18 kWh

- Năng lượng nhỏ nhất tạo ra từ máy xay gió là 2 kWh

- Có 25% máy xay gió có năng lượng tạo ra là 4 kWh

- Có 50% máy xay gió có năng lượng là 5 kWh

- Có 75% máy xay gió có năng lượng 6.5 kWh

Biểu đồ boxplot cho thấy phân phối của công suất gió phát điện từ tua bin gần như đồng nhất ở các loại động cơ khác nhau Điều này cho thấy rằng trạng thái của tua bin có thể không ảnh hưởng đến công suất gió phát điện.

The scatter plot indicates a weak linear relationship between windmill_generated_power and the variables wind_speed, area_temperature, motor_torque, and blade_breadth We predict that these factors may influence the energy produced by the windmill.

Để đánh giá ảnh hưởng của các yếu tố đến biến phụ thuộc windmill_generated_power, chúng ta sẽ xây dựng mô hình hồi quy đa biến với các biến liên quan.

Biến độc lập: wind_speed, area_temperature, motor_torque, blade_breadth, cloud_level turbine_status.và

Mô hình hồi quy được biểu diễn như sau:

- Ta thực hiện ước lượng cho các hệ số hồi quy

Như vậy, phương trình hồi quy ước lượng được biểu diễn như sau:

Từ kết quả cho ta thấy được các giá trị thống kê của sai số hồi quy:

Giả thuyết cho rằng tất cả các hệ số đều bằng 0 và ít nhất một hệ số khác 0 cho thấy giá trị thống kê F nhỏ hơn nhiều so với mức ý nghĩa, điều này chứng tỏ rằng ít nhất một biến dự báo trong mô hình có khả năng giải thích đáng kể cho biến windmill_generated_power.

Tiếp đến, ta sẽ kiểm định cho giả thuyết:

– hệ số hồi quy không có ý nghĩa thống kê.

– hệ số hồi quy có ý nghĩa thống kê.

Kết quả cho thấy biến turbine_status có giá trị lớn hơn mức ý nghĩa, do đó chúng ta chưa thể bác bỏ giả thuyết rằng turbine_status không có ý nghĩa thống kê trong mô hình Vì vậy, có thể xem xét loại bỏ biến turbine_status khỏi mô hình đang xây dựng.

- Ta tiếp tục xây dựng mô hình 2 bằng cách loại bỏ đi biến turbine_status khỏi mô hình 1.

- Hai mô hình m1 và m2 có hiệu quả giống nhau.

- Hai mô hình m1 và m2 có hiệu quả khác nhau.

Chúng ta chưa có cơ sở để bác bỏ giả thuyết rằng mô hình 1 và mô hình 2 có hiệu quả tương đương Biến turbin_status trong mô hình 1 không có ý nghĩa, do đó việc loại bỏ biến này sẽ không ảnh hưởng đến tính chính xác của mô hình Vì vậy, mô hình 2 được lựa chọn là mô hình phù hợp hơn.

5 Kiểm tra các giả định của mô hình hồi quy.

Nhắc lại các giả định của mô hình hồi quy:

1) Tính tuyến tính của dữ liệu: mối quan hệ giữa biến dự báo X và biến phụ thuộcY được giả sử là tuyến tính.

2) Sai số có kỳ vọng bằng 0.

3) Phương sai của các sai số là hằng số:

4) Sai số có phân phối chuẩn

5) Các sai số độc lập với nhau.

- Ta thực hiện phân tích thặng dư để kiểm tra các giả định của mô hình Vẽ các đồ thị cho mô hình đã chọn

Đồ thị thứ 1 (Residuals vs Fitted) hiển thị các giá trị sai số so với các giá trị dự báo, nhằm kiểm tra giả thuyết tuyến tính của dữ liệu và xác nhận rằng sai số có kỳ vọng bằng 0.

+ Ta nhận thấy rằng đường màu đỏ là đường cong nên giả định về tính tuyến tính của dữ liệu chưa được thỏa mãn.

+ Đường màu đỏ không trùng với đường nằm ngang nên giả định sai số có kỳ vọng bằng 0 chưa được thỏa mãn.

+ Các điểm sai số phân tán tập trung gần đường màu đỏ nên giả định về phương sai của sai số là hằng số cũng chưa được thỏa mãn

- Đồ thị thứ 2 (Normal Q – Q) vẽ sai số đã được chuẩn hóa, dùng để kiểm tra giả định sai số có phân phối chuẩn

+ Có rất nhiều điểm sai số bị lệch khỏi đường phân phối chuẩn, nên giả định về sai số có phân phối chuẩn chưa được thỏa mãn.

- Đồ thị thứ 3 (Scale – Location) vẽ căn bậc hai của sai số được chuẩn hóa dùng để kiểm tra giả định phương sai của sai số là hằng số.

Các điểm phân tán không ngẫu nhiên mà tập trung chủ yếu quanh đường màu đỏ cho thấy giả định về phương sai của sai số không được thỏa mãn.

- Đồ thị thứ 4 (Residuals vs Leverage) dùng để xác định các điểm có ảnh hưởng cao.

Ngày đăng: 10/02/2025, 15:59