1. Trang chủ
  2. » Luận Văn - Báo Cáo

XÁC SUẤT THỐNG kê (MT2013) báo cáo bài tập lớnđề tài 6

40 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Báo cáo bài tập lớn đề tài 6
Tác giả Nguyễn Thị Vân Anh, Võ Nguyễn Phương Long Vĩnh, Nguyễn Xuân Thắng, Nguyễn Thanh Tùng, Nguyễn Lâm Tùng
Người hướng dẫn GVHD: Nguyễn Kiều Dung
Trường học Đại học Quốc gia TP. Hồ Chí Minh
Chuyên ngành Xác suất thống kê
Thể loại báo cáo
Năm xuất bản 2022
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 40
Dung lượng 3,93 MB

Cấu trúc

  • 1.1.1. Phân tích phương sai – ANOVA một nhân tố (0)
  • 1.1.2. Mô hình hồi quy tuyến tính bội (4)
  • 1.2. Thực hiện (7)
    • 1.2.1. Đọc và làm sạch dữ liệu, thực hiện các thống kê mô tả (7)
    • 1.2.2. Chia bộ dữ liệu (12)
    • 1.2.3. Chọn mô hình (13)
    • 1.2.4. Kiểm tra giả thiết của mô hình (17)
    • 1.2.5. Dự báo (Prediction) (19)
  • 2. HOẠT ĐỘNG 2 (22)
    • 2.1. Tổng quan về đề bài hoạt động 2 (0)
    • 2.2. Cơ sở lí thuyết (23)
      • 2.2.1. Mô hình hồi quy tuyến tính bội (23)
      • 2.2.2. Đánh giá sự phù hợp của mô hình (0)
      • 2.2.3. Phương pháp bình phương nhỏ nhất (26)
      • 2.2.4. Các giả định của mô hình hồi quy (27)
    • 2.2. Thực hiện (28)
      • 2.3.1. Đọc dữ liệu (Import data) (28)
      • 2.3.2. Làm sạch dữ liệu (Data cleaning) (29)
      • 2.3.3. Làm rõ dữ liệu (Data visualization) (31)
      • 2.3.4. Mô hình hồi quy tuyến tính (37)

Nội dung

Mô hình hồi quy tuyến tính bội

Hồi quy tuyến tính bội là một phương pháp mở rộng của hồi quy tuyến tính đơn, cho phép dự đoán giá trị của một biến phản hồi dựa trên nhiều biến giải thích khác nhau Biến phản hồi, hay còn gọi là biến phụ thuộc, là giá trị mà chúng ta muốn dự đoán, trong khi các biến giải thích, hay biến dự báo, là những yếu tố được sử dụng để thực hiện dự đoán này.

Ví dụ: sử dụng hồi quy bội số để dự đoán kết quả kỳ thi XSTK dựa trên thời gian ôn tập, niên khóa, giới tính của sinh viên.

Hồi quy bội giúp xác định sự phù hợp tổng thể của mô hình, đồng thời đánh giá đóng góp tương đối của từng yếu tố dự báo và tổng phương sai được giải thích.

Một biến dự báo đơn lẻ không thể mô tả đầy đủ ảnh hưởng của nhiều biến dự báo quan trọng đến biến đáp ứng Do đó, các dự báo dựa trên mô hình chỉ sử dụng một biến dự báo riêng lẻ thường không chính xác Để khắc phục điều này, mô hình hồi quy tuyến tính bội được áp dụng, trong đó xem xét trường hợp có n - 1 biến dự báo X1, …, Xn-1.

 � � = � 0 + � 1 � �1 + � 2 � �2 + … + � �−1 � ��−1 + � � được gọi là mô hình bậc nhất với � − 1 biến dự báo.

 � = 1,2, …, � oKhi � − 1 = 1 mô hình hồi quy là: � � = � 0 + � 1 � �1 + � � là mô hình hồi quy tuyến tính đơn. o Giả sử: � � � = 0 , hàm đáp ứng với mô hình:

Mô hình hồi quy tuyến tính được biểu diễn bằng công thức E(Y) = β0 + β1X1 + β2X2 + … + βkXk, trong đó các tham số βi thể hiện sự thay đổi của trung bình đáp ứng E(Y) khi biến dự báo Xi tăng 1 đơn vị, trong khi các biến khác được giữ cố định Ảnh hưởng của mỗi biến dự báo lên trung bình đáp ứng là đồng nhất khi các biến khác không thay đổi, cho thấy mô hình này phù hợp cho những biến không có tương tác Ngoài ra, mô hình hồi quy tuyến tính tổng quát giả định rằng sai số chuẩn của các quan sát là độc lập, với trung bình bằng 0 và phương sai không đổi.

 Các biến dự báo định tính

Mô hình hồi quy tuyến tính tổng quát: � � = � 0 + � 1 � �1 + � 2 � �2 + … +

Biến dự báo định lượng và biến dự báo định tính là hai thành phần chính trong phân tích dữ liệu Để định nghĩa các lớp giá trị của biến định tính, chúng ta sử dụng các biến số nhận giá trị 0 và 1.

 Ước lượng các hệ số hồi quy Tiêu chuẩn bình phương cực tiểu được tổng quát hóa cho mô hình hồi quy tuyến tính tổng quát như sau:

Các ước lượng bình phương cực tiểu là các giá trị của

� 0 , � 1 , …, � �−1 làm cực tiểu hóa Q Ta biểu diễn vector ước lượng các hệ số hồi quy � 0 , � 1 , …, � �−1 là b:

 Bảng ANOVA cho mô hình hồi quy tuyến tính tổng quát

Nguồn biến đổi SS df MS

Kiểm định F được sử dụng để xác định sự tồn tại của mối quan hệ hồi quy giữa biến đáp ứng và các biến độc lập \(X_1, , X_{k-1}\) Mục tiêu là kiểm tra các giả thuyết liên quan đến sự ảnh hưởng của các biến độc lập đến biến đáp ứng.

� � : �ℎô�� �ℎ ả � � ấ � � ả � � , � = 1, …, � − 1 đề � � ằ �� �ℎô�� Ta dùng một thống kê kiểm định: � ∗= ��� ���

 Hệ số xác định bội � 2

Hệ số xác định bội cho biết các biến dự báo trong mô hình giải thích được bao nhiều phần tram sự thay đổi của biến đáp ứng.

Vì thế ta có: 0 ≤ � 2 ≤ 1 � 2 = 0 khi tất cả các giá trị � � = 0 (� =

1, …� − 1) � 2 = 1 khi tất cả các quan sát nằm trên mặt đáp ứng,

� ứ � � � = � � , � ớ � � ọ � � Thêm nhiều hơn các biến dự báo X vào mô hình có thể chỉ làm tăng thêm � 2

Hệ số xác định bội hiệu chỉnh, ký hiệu là � 2 � , điều chỉnh � 2 bằng cách chia mỗi tổng bình phương cho bậc tự do của nó:

Hệ số xác định bội hiệu chỉnh thực sự có thể nhỏ hơn khi biến X khác được đưa vào trong mô hình.

 Hệ số tương quan bội

Hệ số tương quan bội R được tính bằng công thức R = r² Khi mô hình hồi quy chỉ có một biến độc lập X (tức là khi k - 1 = 1), hệ số tương quan bội R sẽ bằng trị tuyệt đối của hệ số tương quan đơn r.

Thực hiện

Đọc và làm sạch dữ liệu, thực hiện các thống kê mô tả

Đọc dư liệu (Import data) Đọc tệp tin "auto_mpg.csv" và gán với tên grade.

Làm sach dư liệu (Data cleaning)

Từ dữ liệu trong mydata , trích ra một dữ liệu con bao gồm các biến chính của đề bài và đặt tên là "new_DF".

Nhận xét: Ta nhận thấy có 6 dữ liệu khuyết ở biến Horsepower(cụ thể là ở dòng 33

Trong nghiên cứu này, số lượng dữ liệu khuyết chiếm 0.01507538% tổng số quan sát Do dữ liệu khuyết hoàn toàn ngẫu nhiên (Missing at Random) và tỉ lệ khuyết thấp, chúng tôi quyết định xóa các quan sát có chứa dữ liệu khuyết để đảm bảo tính chính xác của phân tích.

Xóa dữ liệu khuyết trong tệp tin "new_DF".

Nhận xét: Sau khi xóa, ta thấy các dòng trong tệp tin "new_DF" chứa dữ liệu khuyết đa biến mất khỏi dữ liệu của tệp tin.

Các thống kê mô tả:

* Thống kê số lượng cho biến horsepower

Nhận xét: Dựa vào bảng thống kê ta có thể biết được: Công suất động cơ cùng số lượng các loại xe có chung công suất.

* Thống kê số lượng cho biến cylinders

* Thống kê số lượng cho biến displacement

Nhận xét: Dựa vào bảng thống kê ta có thể biết được: Các loại dung tích xy lanh cùng số lượng loại xe tương ứng.

* Thống kê số lượng cho biến weight

Nhận xét: Dựa vào bảng thống kê ta có thể biết được: bảng khối lượng các loại xe có trong danh sách.

* Thống kê số lượng cho biến acceleration

Nhận xét: Dựa vào bảng thống kê ta có thể biết được: Bảng giá tốc các loại xe trong danh sách.

* Thống kê số lượng cho biến model_year

Nhận xét: Dựa vào bảng thống kê ta có thể biết được: năm sản xuất(2 số cuối) của các loại xe trong danh sách.

* Thống kê số lượng cho biến origin

Nhận xét: Dựa vào bảng thống kê ta có thể biết được: 245 loại xe được sản xuất tại North America, 68 loại được sản xuất tại Europe, 79 tại Asia.

* Thống kê số lượng cho biến car_name

Nhận xét: Dựa vào bảng thống kê ta có thể biết được: tên các loại xe có trong danh sách.

Chia bộ dữ liệu

Mẫu huấn luyện (training dataset) gồm 200 mẫu quan trắc được đặt tên auto_mpg1. auto_mpg2 là mẫu thử gồm các mẫu quan trắc còn lại.

Chọn mô hình

Ta xây dựng hình hồi quy bội (gọi là mô hình 1) bao gồm:

- Biến dư báo (biến độc lập): mgp, cylinders, displacement, horsepower, weight, acceleration, model_year, origin, car_name.

- Mô hình được biểu diễn như sau: mgp = β 0 + β 1 × cylinders + β 2 × displacement + β 3 × horsepower + β 4 × weight + β 5 × acceleration + β 6 × model_year + β 7 × origin + β 8 × car_name;

Ta thực hiện ước lượng các hệ số β i , i = 0, ,7.

Kiểm định hệ số hồi quy:

Trong nghiên cứu này, chúng tôi kiểm tra hai giả thuyết: H0 (hệ số hồi quy không có ý nghĩa thống kê, βi = 0) và H1 (hệ số hồi quy có ý nghĩa thống kê, βi ≠ 0) Kết quả cho thấy Pr(>|t|) của các hệ số liên quan đến biến displacement, horsepower, acceleration và model_year đều nhỏ hơn mức ý nghĩa α = 0.05 Do đó, chúng tôi bác bỏ giả thuyết H0 và chấp nhận giả thuyết H1, xác nhận rằng các hệ số này có ý nghĩa trong mô hình hồi quy mà chúng tôi xây dựng.

Các hệ số ứng với biến cylinders (0.717389), weight (0.527367), origin (0.331375) và car_name đều có Pr(> |t|) lớn hơn mức ý nghĩa α = 0.05, cho thấy chúng không có ý nghĩa trong mô hình hồi quy Vì vậy, chúng tôi quyết định loại bỏ các biến này khỏi mô hình.

Mô hinh 2: Loại bỏ đi biến cylinders từ mô hình 1.

Mô hinh 3: Loại bỏ đi biến weight từ mô hình 1.

Mô hinh 4: Loại bỏ đi biến origin từ mô hình 1.

Mô hinh 5: Loại bỏ đi biến car_name từ mô hình 1.

So sánh giưa các mô hinh với nhau

* So sánh giưa mô hinh 1 và mô hinh 2

Giả thuyết H 0 : Mô hình 1 và mô hình 2 có hiệu quả như nhau Giả thuyết H 1 : Mô hình 1 và mô hình 2 có hiệu quả khác nhau.

Nhận xét: Vì p_value = 0.7174 lớn hơn mức ý nghĩa α = 0.05 nên chưa bác bỏ được giả thuyết H 0 , hai mô hình 1 và 2 có hiệu quả giống nhau.

* So sánh giưa mô hinh 2 và mô hinh 3

Giả thuyết H 0 : Mô hình 2 và mô hình 3 có hiệu quả như nhau Giả thuyết H 1 : Mô hình 2 và mô hình 3 có hiệu quả khác nhau.

Nhận xét: Vì p_value = 0.5846 lớn hơn mức ý nghĩa α = 0.05 nên chưa bác bỏ được giả thuyết H 0 , hai mô hình 2 và 3 có hiệu quả giống nhau.

* So sánh giưa mô hinh 3 và mô hinh 4

Giả thuyết H 0 : Mô hình 3 và mô hình 4 có hiệu quả như nhauGiả thuyết H 1 : Mô hình 3 và mô hình 4 có hiệu quả khác nhau.

Nhận xét: Hai mô hình 3 và 4 có hiệu quả giống nhau.

* So sánh giưa mô hinh 4 và mô hinh 5

Giả thuyết H 0 : Mô hình 4 và mô hình 5 có hiệu quả như nhau Giả thuyết H 1 : Mô hình 4 và mô hình 5 có hiệu quả khác nhau.

Nhận xét:Vì p_value = 0.0122 bé hơn mức ý nghĩa α = 0.05 nên bác bỏ giả thuyết

H 0 , mô hình 5 có hiệu quả tốt hơn mô hình 4.

⇒ Dựa trên việc so sánh các mô hinh, ta lựa chọn mô hinh 5 là mô hinh có hiệu quả cao nhất.

Kiểm tra giả thiết của mô hình

Các giả định của mô hình hồi quy: Y = β + β X +… + β X + ε ,i = 1, n.

+ Các sai số ε 1 , , ε n thì độc lập với nhau. Đồ thị 2 hàng 2 cột phân tích thặng dư.

Đồ thị 1 minh họa các giá trị sai số tương ứng với các giá trị dự báo, nhằm kiểm tra giả định tuyến tính của dữ liệu và xác nhận rằng các sai số có kỳ vọng bằng 0.

* Ta nhận thấy đường màu đỏ là đường thăng nên giả định tuyến tính của dữ liệu thỏa man.

* Các sai số tập trung xung quanh đường thăng y = 0 nên giả định các sai số có kỳ vọng bằng 0 thỏa man.

− Đồ thị 2 vẽ các sai số đa được chuẩn hóa kiểm tra giả định phân phối chuẩn.

Ta nhận thấy các sai số đa được chuẩn hóa gần nằm trên một đường thăng nên giả định này gần như thỏa man.

Đồ thị 3 thể hiện căn bậc hai của sai số, cho phép kiểm tra giả định rằng phương sai của sai số là hằng số Quan sát cho thấy các căn bậc hai sai số phân tán xung quanh đường thẳng màu đỏ, mặc dù không hoàn toàn ổn định nhưng vẫn có thể chấp nhận được.

− Đồ thị 4 xác định các điểm có ảnh hưởng cao nếu nó hiện diện trong bộ dữ liệu.

Các điểm 194, 51, 184 là các điểm có ảnh hưởng cao Tuy nhiên các điểm này chưa vượt qua Cook’s distance, không cần loại bỏ khi phân tích.

Kết luận: giả thiết của mô hinh tương đối chính xác.

Dự báo (Prediction)

Sử dụng mẫu kiểm tra thứ nhất 19.1;6;225;90.00;3381;18.7;80;1;dodge aspen thuộc

Dựa vào mô hình 5 đa được chọn, chúng tôi dự báo mức tiêu thụ nhiên liệu của mẫu xe theo đơn vị dặm trên galon (miles/galon) dựa trên các thông số kỹ thuật của xe.

"displacement" = 225, "horsepower" = "90.00", "acceleration" = 18.7,"model_year" = 80.

Nhận xét: Mức tiêu thụ nhiên liệu dự báo của mẫu thứ nhất là 19.33443, khoảng tin

Nhận xét: Mức tiêu thụ nhiên liệu dự báo của mẫu thứ hai là 21.03935, khoảng tin cậy cho giá trị dự báo (16.71344 - 25.36526)

Sử dụng mẫu kiểm tra thứ ba với các thông số 20.2;6;200;88.00;3060;17.1;81;1 của xe Ford Granada GL thuộc tập dữ liệu “auto_mpg2”, dựa trên mô hình hồi quy đa biến đã chọn, chúng ta dự đoán mức tiêu thụ nhiên liệu của xe này tính theo dặm trên galon (miles/gallon).

Nhận xét: Mức tiêu thụ nhiên liệu dự báo của mẫu thứ ba là 20.91698, khoảng tin cậy cho giá trị dự báo (18.65582 - 23.17814)

So sánh kết quả dự báo

Với kết quả dự báo thứ nhất là 19.33443, khoảng tin cậy cho giá trị dự báo (17.30619 - 21.36266), ta so sánh với giá trị thực tế trong auto_mpg2

⇒ Giá trị được dự báo gần như chính xác so với thực tế

Với kết quả dự báo thứ hai là 21.03935, khoảng tin cậy cho giá trị dự báo (16.71344

- 25.36526), ta so sánh với giá trị thực tế trong auto_mpg2

⇒ Giá trị được dự báo nằm trong khoảng tin cậy cho giá trị dự báo

Với kết quả dự báo thứ ba là 20.91698, khoảng tin cậy cho giá trị dự báo (18.65582

- 23.17814), ta so sánh với giá trị thực tế trong auto_mpg2

⇒ Giá trị được dự báo gần như chính xác so với thực tế

Nhận xét: mô hình sau khi được chọn tương đối phù hợp.

HOẠT ĐỘNG 2

Cơ sở lí thuyết

2.2.1 Mô hình hồi quy tuyến tính bội

Phương trình hồi quy tổng thể với k biến độc lặp có dạng như sau:

− β 0 : là hệ số tung độ góc

− β 1 : là hệ dốc của Y theo biến X 1 và giữa các biến X 2 , X 3 , ,X k không đổi.

− β 0 : là hệ dốc của Y theo biến X 2 và giữa các biến X 1 , X 3 , ,X k không đổi.

− β 3 : là hệ dốc của Y theo biến X 2 và giữa các biến X 1 , X 2 , ,X k không đổi.

− β k : là hệ dốc của Y theo biến X k và giữa các biến X 1 , X 2 , ,X k không đổi.

− � � : là thành phần ngẫu nhiên (yếu tố nhiễu), có kì vọng bằng 0 và phương sai không đổi σ 2

Giả sử có một mẫu quan sát với giá trị thực tế là (Y i , X 2i , X ki ) với (i=1,2,3, k) Chúng ta sẽ sử dụng thông tin từ mẫu để xây dựng các ước lượng cho các hệ số � � (với j=1,2,3, k) Từ các giá trị ước lượng này, có thể viết thành hàm hồi quy mẫu.

Trong đó � � là giá trị ước lượng cho Y i và sai lệch giữa hai giá trị này được gọi là

* Tính toán hệ số xác định bội

Khi mô hình có nhiều biến độc lập, hệ số xác định R² được sử dụng để xác định phần biến thiên trong biến phụ thuộc liên quan đến tất cả các biến độc lập Trong trường hợp này, R² được gọi là hệ số xác định bội Công thức tính toán hệ số xác định bội như sau:

Khi R² = 0,82, có thể kết luận rằng 82% sự biến thiên của biến phụ thuộc được giải thích bởi mối quan hệ tuyến tính với các biến độc lập trong mô hình Tuy nhiên, cần lưu ý rằng không phải tất cả các biến độc lập đều có vai trò quan trọng như nhau trong việc giải thích sự biến thiên này.

Sự gia tăng trong giá trị � 2 có thể không đủ để bù đắp cho thiệt hại do việc mất thêm bậc tự do khi thêm biến Tuy nhiên, giá trị � ��� 2 đã tính đến chi phí này và điều chỉnh một cách phù hợp.

Khi một biến độc lập không đóng góp đáng kể vào việc giải thích biến phụ thuộc, giá trị của R² sẽ giảm, mặc dù giá trị của R² có thể tăng Điều này cho thấy trong mô hình hồi quy đa biến, đặc biệt khi số lượng biến độc lập lớn so với kích thước mẫu, việc sử dụng R² để đánh giá khả năng giải thích của mô hình là rất quan trọng Do đó, khi đánh giá độ phù hợp của mô hình hồi quy bội, người ta thường xem xét cả R² và R² điều chỉnh để có cái nhìn toàn diện hơn.

* Đánh giá ý nghĩa toàn diện của mô hình

Mô hình hồi quy được xây dựng từ dữ liệu mẫu có thể bị ảnh hưởng bởi sai số lấy mẫu, do đó, việc kiểm định ý nghĩa thống kê của toàn bộ mô hình là cần thiết.

Chúng ta có thể dựng một giả thuyết như sau:

Nếu giả thuyết H0 đúng, tức là tất cả các hệ số độ dốc đều bằng 0, thì mô hình hồi quy đa biến không có khả năng dự đoán hay mô tả biến phụ thuộc Đại lượng F thống kê trong bảng ANOVA là chỉ số dùng để kiểm định giả thuyết về ý nghĩa toàn diện của mô hình hồi quy, với công thức được xác định như sau:

Trong phân tích hồi quy, SSR (tổng bình phương hồi quy) và SSE (tổng bình phương sai số) là hai chỉ số quan trọng, trong đó n là cỡ mẫu và k là số biến độc lập.

Để đưa ra quyết định, cần tra bảng thống kê F để tìm giá trị tới hạn tương ứng với mức ý nghĩa đã chọn Để thực hiện việc này, cần có thông tin về bậc tự do của tử số và mẫu số, trong đó bậc tự do của tử số được qui ước là k và bậc tự do của mẫu số là n = k = 1.

Từ đây, ta có quy trình đánh giá ý nghĩa toàn diện của mô hình như sau:

Bước 2 : Chọn độ tin cậy cho kiểm định từ đó có mức ý nghĩa α.

Bước 3 : Với bậc tự do xác định như trên, tra bảng phân phối F ta được giá trị F tới hạn.

Bước 4 : So sánh giá trị F kiểm định tính được theo công thức trên và giá trị F tới

Mô hình hồi quy được xây dựng nhằm xác định giá trị của biến phụ thuộc dựa trên các giá trị cụ thể của biến độc lập Để đánh giá hiệu quả của mô hình, người ta thường sử dụng độ lệch chuẩn (hay sai số chuẩn ước lượng) của mô hình hồi quy Giá trị ước lượng của độ lệch chuẩn này được tính toán từ thông tin mẫu.

Trong đó n là cỡ mẫu, k là biến độc lập trong mô hình.

Sai số chuẩn ước lượng đo lường sự phân tán của các giá trị thực tế quanh giá trị dự đoán bằng đường hồi quy Trong kiểm định F, nếu giả thuyết H1 được chấp nhận, điều này cho thấy mô hình toàn diện có ý nghĩa, tức là có ít nhất một biến độc lập có khả năng giải thích biến thiên của biến phụ thuộc Tuy nhiên, việc này không đảm bảo rằng tất cả các biến độc lập trong mô hình đều có ý nghĩa Để xác định biến độc lập nào là có ý nghĩa, chúng ta cần thực hiện kiểm định giả thuyết cụ thể.

Chúng ta có thể sử dụng kiểm định t để kiểm tra ý nghĩa của từng hệ số hồi quy với mức độ tin cậy đã xác định Giá trị t được tính toán theo một công thức cụ thể.

Hệ số dốc b j trong mô hình hồi quy đại diện cho ảnh hưởng của biến độc lập thứ j, trong khi sai số chuẩn ước lượng cho thấy độ tin cậy của hệ số này Giá trị t được tính toán sẽ được so sánh với giá trị t tới hạn từ bảng phân phối Student, sử dụng (n – k - 1) bậc tự do và mức ý nghĩa α 2 để xác định ý nghĩa thống kê của kết quả.

2.2.3 Phương pháp bình phương nhỏ nhất

Phương pháp bình phương nhỏ nhất, do nhà Toán học Đức Carl Friedrich Gauss phát triển, là một trong những phương pháp ước lượng hồi quy tuyến tính phổ biến nhất hiện nay.

Trong nghiên cứu, sai số được ký hiệu là e, trong khi phần dư trong mẫu nghiên cứu được ký hiệu là � Biến thiên phần dư được tính bằng tổng bình phương của tất cả các phần dư.

Thực hiện

2.3.1 Đọc dữ liệu (Import data): Đọc tệp Range-Queries-Aggregates.csv và lưu dữ liệu vào biến query.

> query head(query,3) # Xem 3 dong dau tien cua du lieu.

Hình 1: Kết quả khi xem 3 dòng đầu tiên của tệp tin " query "

2.3.2 Làm sạch dữ liệu (Data cleaning): a) Từ dữ liệu trong query, trích ra một dữ liệu con bao gồm các biến chính của đề bài và đặt tên là "new_DF" :

> new_DF apply(is.na(new_DF),2,which) #kiem tra NA va xuat vi tri dong chua NA.

> apply(is.na(new_DF),2,sum) #kiem tra va dem gia tri NA.

Hinh 3: Kết quả khi kiểm tra dữ liệu khuyết của tệp tin " new_DF "

Nhận xét: Ta thấy có 157 dữ liệu khuyết ở biến avg, số lượng dữ liệu khuyết chiếm

Với tỷ lệ dữ liệu khuyết chỉ 0.0785% so với tổng số quan sát, chúng tôi quyết định xóa các quan sát có dữ liệu khuyết trong tệp tin “new_DF”.

> new_DF apply(is.na(new_DF),2,sum) #kiem tra lai NA.

Hinh 4: Kết quả khi kiểm tra lại dữ liệu khuyết của tệp tin " new_DF " d) Kiểm tra tính chính xác của dữ liệu (Dữ liệu có là dạng số không?)

> is.numeric(new_DF$x_range)

> is.numeric(new_DF$y_range)

> is.numeric(new_DF$count)

> is.numeric(new_DF$sum_)

> is.numeric(new_DF$avg)

2.3.3 Làm rõ dữ liệu (Data visualization):

Trong thống kê mô tả, việc sử dụng thống kê mẫu cho các biến chính của dữ liệu là rất quan trọng, đặc biệt khi các biến này đều là biến liên tục Để phân tích dữ liệu, cần tính toán các giá trị thống kê mô tả như trung bình (mean), trung vị (median), độ lệch chuẩn (sd), giá trị lớn nhất (max) và giá trị nhỏ nhất (min) cho các biến liên tục Những giá trị này giúp cung cấp cái nhìn tổng quan về đặc điểm và sự phân bố của dữ liệu.

> median Q3 min max data.frame(mean, sd, Q1, median, Q3, min, max)

Kết quả thực thi: b) Vẽ biểu đồ Histogram thể hiện phân phối của biến AVG:

> hist(new_DF[,"avg"], xlab = "avg", main = "Histogram of avg", label = T, col =

Kết quả thực thi: c) Dùng lệnh pairs() vẽ phân phối của biến AVG lần lượt theo các biến x, y, x_range, y_range, count và sum_:

> pairs(new_DF$avg ~ new_DF$x, main = "Pairs of AVG for each category of x", col

> pairs(new_DF$avg ~ new_DF$y, main = "Pairs of AVG for each category of y", col

> pairs(new_DF$avg ~ new_DF$x_range, main = "Pairs of AVG for each category of x_range", col = "blue")

> pairs(new_DF$avg ~ new_DF$y_range, main = "Pairs of AVG for each category of y_range", col = "blue")

> pairs(new_DF$avg ~ new_DF$count, main = "Pairs of AVG for each category of

Khi sử dụng lệnh pair() để rút ra đồ thị phân tán, chúng ta nhận thấy rằng các biến x, y, x_range, y_range, count và sum_ đều có mối quan hệ tuyến tính với biến AVG Điều này cho thấy rằng khi các biến này tăng lên, biến AVG cũng có xu hướng tăng theo.

2.3.4 Mô hình hồi quy tuyến tính: a) Ta xây dựng mô hình hồi quy bội (gọi là mô hình 1) bao gồm:

- Biến độc lập: x, y, x_range, y_range, count và sum_.

- Mô hình được biểu diễn như sau: avg = � 0 + � 1 × x + � 2 × y + � 3 × x_range + � 4 × y_range + � 5 × count + � 6 × sum_

- Ta thực hiện ước lượng các hệ số � � , i = 0, …, 6.

> model_1 = lm(avg ~ x + y + x_range + y_range + count + sum_, new_DF) #Xay dung mo hinh 1 va luu voi ten model_1

> summary(model_1) #Ket qua mo hinh 1

Hệ số R 2 hiệu chỉnh là 0.7528 có nghĩa là 75.28% sự biến thiên của AVG được giải thích bởi mô hình 1 với các biến độc lập x, y, x_range, y_range, count, sum_.

Dựa vào kết quả mô hình hồi quy, giá trị Pr (> t ) của các hệ số biến độc lập đều nhỏ hơn 2.2×10 -16, cho thấy chúng có ý nghĩa thống kê cao hơn mức ý nghĩa 5% Do đó, chúng ta bác bỏ giả thiết H 0 và chấp nhận giả thiết H 1, khẳng định rằng tất cả các hệ số của biến độc lập đều có ý nghĩa thống kê, và không cần loại bỏ biến nào khỏi mô hình hồi quy Bên cạnh đó, cần kiểm tra các giả định của mô hình để đảm bảo tính chính xác của kết quả.

Nhắc lại các giả định của mô hình hồi quy: � � = � 0 + � 1 × � 1 + + � � × � �

− Tính tuyến tính của dữ liệu: mối quan hệ giữa biến dự báo X và biến phụ thuộc Y được giả sử là tuyến tính.

− Sai số có phân phối chuẩn.

− Phương sai của các sai số là hằng số.

− Các sai số ϵ có kỳ vọng = 0.

− Các sai số ϵ 1 , , ϵ � thì độc lập với nhau.

Ta thực hiện phân tích thặng dư để kiểm tra các giả định của mô hình.

> par(mfrow = c(2,2)) #xep 4 bieu do thanh 2 hang 2 cot.

> plot(model_3) #ve do thi phan tich thang du.

Biểu đồ 1 (Residuals vs Fitted) hiển thị các giá trị sai số so với các giá trị dự báo, nhằm kiểm tra giả định về tính tuyến tính của dữ liệu cũng như giả định rằng các sai số có kỳ vọng bằng 0.

* Ta nhận thấy đường màu đỏ gần như là đường thăng nên giả định tuyến tính của dữ liệu thỏa man.

* Các sai số tập trung xung quanh đường thăng y = 0 (ngoại trừ một số ngoại lai) nên giả định các sai số có kỳ vọng bằng 0 thỏa man.

Đồ thị 2 (Normal Q - Q) hiển thị các sai số đa được chuẩn hóa, nhằm kiểm tra giả định phân phối chuẩn Kết quả cho thấy các sai số đa này chưa hoàn toàn nằm trên một đường thẳng, điều này cho thấy sự không tuân thủ giả định phân phối chuẩn.

Ngày đăng: 23/12/2023, 23:07

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w