1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Bài tập lớn môn học xác suất và thống kê (mt2013)

61 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Trang 1

ĐẠI HỌC QUỐC GIA TP.HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA

Trang 3

MỤC LỤC

PHẦN ĐỀ BÀI 4

Hoạt động 1 (phần chung) 4

Hoạt động 2 (Khoa cơ khí): 5

NỘI DUNG BÁO CÁO 6

1 Cơ sở lí thuyết 6

1.1 Giới thiệu mô hình hồi quy tuyến tính bội 6

1.2 Ước lượng các tham số của mô hình hồi quy tuyến tính bội 7

1.2.1 Hàm hồi quy tổng thể (PRF – Population Regression Function) 7

1.2.2 Hàm hồi quy mẫu (SRF – Sample Regression Function): 7

1.2.3 Phương pháp bình phương nhỏ nhất (Ordinary Least Squares) 8

1.2.3.1 Các giả thiết của phương pháp bình phương nhỏ nhất cho mô hình hồi quy tuyến tính bội 8

1.2.3.2 Ước lượng 9

1.2.4 Độ phù hợp của mô hình 10

1.2.5 Khoảng tin cậy và kiểm định các hệ số hồi quy 11

1.2.5.1 Ước lượng khoảng tin cậy đối với các hệ số hồi quy 11

1.2.5.2 Kiểm định giả thiết đối với βj 11

1.2.6 Kiểm định ý nghĩa của mô hình 12

1.3 Sơ lược về P (P-value) 13

2 Hoạt động 1 14

2.1 Nhập và làm sạch dữ liệu: 14

2.1.1 Nhập dữ liệu: 14

2.1.2 Làm sạch dữ liệu: 15

2.1.2.1 Kiểm tra và xử lí dữ liệu khuyết : 15

2.2 Thống kê mô tả cho các biến: 19

2.3 Chia bộ dữ liệu làm hai phần: 23

2.4 Chọn mô hình để giải thích cho biến “mpg” 24

2.5 Kiểm tra các giả định (giả thiết) của mô hình: 28

2.5.1 Nhắc lại các giả định: 28

2.5.2 Kiểm tra các giả định: 29

2.6 Ý nghĩa của mô hình đã chọn: 32

2.7 Thực hiện dự báo (Prediction): 33

2.8 So sánh kết quả dự báo “predict_mpg” với giá trị thực tế của “mpg”: 34

Trang 4

3.1.2 Làm sạch dữ liệu: 36

3.1.2.1 Kiểm tra và xử lí dữ liệu khuyết : 36

3.1.2.2 Tìm và xử lí dữ liệu ngoại lai: 37

3.2 Thống kê mô tả cho các biến 39

3.3 Chọn mô hình để giải thích cho biến “windmill_generated_power” 43

3.4 Kiểm tra các giả định (giả thiết) của mô hình: 46

3.4.1 Nhắc lại các giả định: 46

3.4.2 Kiểm tra các giả định: 46

3.5 Ý nghĩa của mô hình đã chọn: 49

3.6 Thực hiện dự báo (Prediction) 50

3.6.1 Xây dựng thuộc tính X1, X2: 50

3.7 Mô hình ANOVA 51

3.7.1 Thực hiện kiểm tra giả định phân phối chuẩn: 51

3.7.2 Thực hiện kiểm tra giả định tính đồng nhất của phương sai 56

TÀI LIỆU THAM KHẢO 60

Trang 5

PHẦN ĐỀ BÀI Hoạt động 1 (phần chung)

Dữ liệu được cho trong file “auto-mpg.csv” là bộ dữ liệu tiêu thụ nhiên liệu của xe trong thành phố Dữ liệu được lấy từ UCI Machine Learning Repository

(https://archive.ics.uci.edu/ml/datasets/Auto+MPG) Bộ dữ liệu gồm 398 quan trắc trên 9 biến sau:

“mpg”: (continuous) mức tiêu thụ nhiên liệu tính theo dặm trên galon

(miles/gallon);

“cylinder”: (multi-valued discrete) số xy lanh;

“displacement”: (continuous) kích thước động cơ;

“horsepower”: (continuous) công suất động cơ;

“weight”: (continuous) khối lượng;

“acceleration”: (continuous) gia tốc xe;

“model_year”: (multi-valued discrete) năm sản xuất model (2 số cuối);

“origin”: (multi-valued discrete) nơi sản xuất: 1-North American, 2-Europe,

3-Asia;

“car name”: (multi-valued discrete) tên xe; Yêu cầu:

1 Nhập và “làm sạch” dữ liệu (lưu ý, biến “horsepower” có 6 quan trắc thiếu dữ

liệu; xét xem có dữ liệu ngoại lai không?), thực hiện các thống kê mô tả (chú ý các cột của file “auto-mpg.csv” được phân tách bởi dấu “;”, khi đọc file dữ liệu dùng lệnh “read.csv” cần thêm sep = “;”)

2 Chia bộ dữ liệu làm 2 phần: mẫu huấn luyện (training dataset) gồm 200 quan trắc đặt tên “auto_mpg1” và mẫu kiểm tra (validation dataset) gồm các quan trắc còn lại trong bộ dữ liệu ban đầu đã “làm sạch”, đặt tên “auto_mpg2”

3 Chọn mô hình tốt nhất giải thích cho biến phụ thuộc “mpg” thông qua việc chọn lựa các biến độc lập phụ hợp trong 8 biến độc lập còn lại từ mẫu huấn luyện

Trang 6

5 Nêu ý nghĩa của mô hình đã chọn

6 Dự báo (Prediction): Sử dụng mẫu kiểm tra (validation dataset) “auto_mpg2” và dựa vào mô hình tốt nhất được chọn trên đưa số liệu dự báo cho biến phụ thuộc “mpg” Gọi kết quả dự báo này là biến “predict_mpg”

7 So sánh kết quả dự báo “predict_mpg” với giá trị thực tế của “mpg” Rút ra nhận xét?

Hoạt động 2 (Khoa cơ khí):

Tệp tin train_data chứa các thông số về điều kiện môi trường, cấu tạo và năng

lượng tạo ra từ các máy xoay gió Dữ liệu được cung cấp tại trang web: https://www.kaggle.com/synergystud/a-fine-windy-day-hackerearth-ml-challenge

Các biến chính trong bộ dữ liệu:

 wind_speed: Tốc độ gió

 area_temperature: Nhiệt độ môi trường

 motor_torque: Công suất động cơ

 blade_breadth: chiều rộng cánh quạt

 turbine_status: Loại turbine

 could_level: Cấp độ mây

 windmill_generated_power: Năng lượng tạo ra từ cối xây gió

Yêu cầu:

1 Đọc dữ liệu (Import data):

2 Làm sạch dữ liệu (Data cleaning):

3 Làm rõ dữ liệu (Data visualization): Thống kê mô tả, dùng thống kê mẫu và dùng đồ thị

4 Mô hình hồi quy tuyến tính: phân tích các nhân tố ảnh hưởng đến năng lượng tạo ra từ cối xây gió

5 Dự báo: Thực hiện dự báo cho năng lượng gió tạo ra ở hai thuộc tính:

Trang 7

6 Mô hình anova: so sánh năng lượng gió trung bình tạo ra từ cối xây gió ở các điều kiện cấp độ mây Từ đó chỉ ra điều kiện cấp độ mây như thế nào có thể tạo ra lượng gió tốt nhất

NỘI DUNG BÁO CÁO

1 Cơ sở lí thuyết

Hồi quy chính là một phương pháp thống kê để thiết lập mối quan hệ giữa một biến phụ thuộc và một nhóm tập hợp các biến độc lập Mô hình với một biến phụ thuộc với hai hoặc nhiều biến độc lập được gọi là hồi quy bội (hay còn gọi là hồi quy đa biến)

Ví dụ: Chi tiêu của hộ gia đình về thực phẩm phụ thuộc vào quy mô hộ gia đình, thu nhập, vị trí địa lý,…; Tỷ lệ tử vong trẻ em của một quốc gia phụ thuộc vào thu nhập bình quân đầu người, trình độ giáo dục,…; Lương của một người phụ thuộc vào chức vụ, kinh nghiệm, độ tuổi,…

1.1 Giới thiệu mô hình hồi quy tuyến tính bội

Mô hình hồi quy tuyến tính bội có dạng tổng quát như sau: Y = β1 + β2X2 + β3X3 + … + βkXk + u

Trong đó:Y: biến phụ thuộc Xi: biến độc lập β1: hệ số tự do

βi: hệ số hồi quy riêng βi đo lường tác động riêng phần của biến Xi lên Y với điều kiện các biến số khác trong mô hình không đổi Cụ thể hơn, nếu các biến khác trong mô hình không đổi, giá trị kỳ vọng của Y sẽ tăng βi đơn vị nếu Xi tăng 1 đơn vị u: sai số ngẫu nhiên

Trang 8

sử dụng cho các trường hợp chúng ta muốn dự đoán một số lượng liên tục Ví dụ: dự đoán thời gian người dùng dừng lại một trang nào đó hoặc số người đã truy cập vào một website nào đó v.v Bằng dữ liệu thu thập được, ta đi ước lượng hàm hồi quy của tổng thể, đó là ước lượng các tham số của tổng thể: β1, β2,…, βk

1.2 Ước lượng các tham số của mô hình hồi quy tuyến tính bội

1.2.1 Hàm hồi quy tổng thể (PRF – Population Regression Function)

Với Y là biến phụ thuộc, X2, X3,…, Xk là biến độc lập, Y là ngẫu nhiên và có một phân phối xác suất nào đó Suy ra: Tồn tại E(Y|X2, X3,…, Xk) = giá trị xác định Do vậy, F(X2, X3,…, Xk) = E(Y|X2, X3,…, Xk) là hàm hồi quy tổng thể của Y theo X2,

1.2.2 Hàm hồi quy mẫu (SRF – Sample Regression Function):

Do không biết tổng thể, nên chúng ta không biết giá trị trung bình tổng thể của biến phụ thuộc là đúng ở mức độ nào Do vậy chúng ta phải dựa vào dữ liệu mẫu để ước lượng

Trên một mẫu có n cá thể, gọi Ŷ = F̂(X2, X3,…, Xk) làhồi quy mẫu

Với một cá thể mẫu Yi ≠ F̂(X2,i, X3,i,…, Xk,i) sinh ra ei = Yi – F̂(X2, X3,…, Xk); ei

gọi là phần dư SRF

Ta có hàm hồi quy mẫu tổng quát được viết dưới dạng như sau: ŷi = β̂1 + β̂2x2,i + β̂3x3,i + … + β̂kxk,i

Phần dư sinh ra: ei = yi – ŷi

Ký hiệu: β̂m là ước lượng của βm Chúng ta trông đợi β̂m là ước lượng không chệch của βm, hơn nữa phải là một ước lượng hiệu quả

Trang 9

Ước lượng SRF: chọn một phương pháp nào đó để ước lượng các tham số của F qua việc tìm các tham số của F̂ và lấy giá trị quan sát của các tham số này làm giá trị xấp xỉ cho tham số của F

1.2.3 Phương pháp bình phương nhỏ nhất (Ordinary Least Squares)

Phương pháp bình phương nhỏ nhất được đưa ra bởi nhà Toán học Đức Carl Friedrich Gauss Tư tưởng của phương pháp này là cực tiểu tổng bình phương của các phần dư Do đó có thể nói để có được hồi quy thích hợp nhất, chúng ta chọn các ước lượng có tung độ gốc và độ dốc sao cho phần dư là nhỏ

1.2.3.1 Các giả thiết của phương pháp bình phương nhỏ nhất cho mô hình hồi quy tuyến tính bội

Phương pháp bình phương nhỏ nhất (OLS) là phương pháp rất đáng tin cậy trong việc ước lượng các tham số của mô hình, tuy nhiên mô hình ước lượng phải thỏa mãn 7 giả thiết Khi thỏa mãn các giả thiết, ước lượng bình phương nhỏ nhất (OLS) là ước lượng tuyến tính không chệch có hiệu quả nhất trong các ước lượng Vì thế phương pháp OLS đưa ra ước lượng không chệch tuyến tính tốt nhất (BLUE)

Kết quả này được gọi là Định lý Gauss – Markov, theo lý thuyết này ước lượng OLS là BLUE, nghĩa là trong tất cả các tổ hợp tuyến tính không chệch của Y, ước lượng OLS có phương sai bé nhất Các giả thiết như sau:

1/ Hàm hồi quy là tuyến tính theo các hệ số

Điều này có nghĩa là quá trình thực hành hồi quy trên thực tế được miêu tả bởi mối quan hệ dưới dạng:

y = β1 + β2x2 + β3x3 + β4x4 + … + βkxk + u

hoặc mối quan hệ thực tế có thể được viết lại ví dụ như dưới dạng lấy loga cả hai vế

2/ E(ui) = 0 : Kỳ vọng của các yếu tố ngẫu nhiên ui bằng 0

Trung bình tổng thể sai số là bằng 0 Điều này có nghĩa là có một số giá trị sai số mang dấu dương và một số sai số mang dấu âm Do hàm xem như là đường trung bình nên có thể giả định rằng các sai số ngẫu nhiên trên sẽ bị loại trừ nhau, ở mức trung bình, trong tổng thể

3/ Var(ui) = σ2 : Phương sai bằng nhau và thuần nhất với mọi ui

Tất cả giá trị u được phân phối giống nhau với cùng phương sai σ2, sao cho:

Trang 10

thuyết trong những phạm vi mẫu là nhỏ Nhưng phạm vi mẫu lớn hơn, điều này trở nên không mấy quan trọng

5/ Giữa các ui thì độc lập với nhau

1.2.3.2 Ước lượng

Ta đặt: yi ký hiệu giá trị thực của biến y tại quan sát i ŷi ký hiệu giá trị của hàm hồi quy mẫu

ei ký hiệu phần dư yi – ŷi

Do đó cực tiểu hóa Σ(yi – ŷi)2 sẽ tương đương với cực tiểu Σei2 từ đó tìm ra β̂0, β̂1,…, β̂k

Ta có:

Σei2 = Σ(yi – (β̂1 + β̂2x2,i + β̂3x3,i + β̂4x4,i + … + β̂kxk,i))2

Chúng ta có thiết lập các điều kiện bậc nhất cho phép tính tối thiểu này như sau:

∂β̂k = -2(yi – (β̂1 + β̂2x2,i + β̂3x3,i + β̂4x4,i + … + β̂kxk,i)) xki = 0

Hệ phương trình mà chúng ta có được gọi là hệ phương trình chuẩn của hồi quy mẫu Chúng ta có thể giải k phương trình chuẩn này để tìm k hệ số β" chưa biết β̂1, β̂2,…, β̂k được gọi là các ước lượng bình phương nhỏ nhất

Trang 11

1.2.4 Độ phù hợp của mô hình

Để có thể biết mô hình giải thích được như thế nào hay bao nhiêu % biến động của biến phụ thuộc, người ta sử dụng R2

Ta có: Σ(yi – ӯ)2 = Σ[(yi – ŷi) + (ŷi – ӯ)]2 = Σ[ei + (ŷi – ӯ)]2

= Σei2 + 2Σei(ŷi – ӯ) + Σ(ŷi – ӯ)2

Đặt:

 Σ(yi – ӯ)2 : TSS – Total Sum of Squares

 Σ(ŷi – ӯ)2 : ESS – Explained Sum of Squares

 Σei2 : RSS – Residual Sum of Squares

Do Σei(ŷi – ӯ) = 0 ⇐ (Σeiŷi = 0; Σeiӯ = 0) Ta có thể viết: TSS = ESS + RSS Ý nghĩa của các thành phần:

 TSS là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Yi và giá trị trung bình

 ESS là tổng bình phương của tất cả các sai lệch giữa các giá trị của biến phụ thuộc Y nhận được từ hàm hồi quy mẫu và giá trị trung bình của chúng Phần này đo độ chính xác của hàm hồi quy

 RSS là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Y và các giá trị nhận được từ hàm hồi quy

 TSS được chia thành 2 phần: một phần do ESS và một phần do RSS gây ra Từ TTS = ESS + RSS, ta chia cả hai vế cho TSS, ta có:

(Σ(yi − ӯ)(yi − ŷ ))2 (Σ(yi − ӯ)2)(Σ(yi− ŷ )2)

Tỷ số giữa tổng biến thiên được giải thích bởi mô hình cho tổng bình phương cần được giải thích được gọi là hệ số xác định, hay là trị thống kê “good of fit” Từ định nghĩa R2 chúng ta thấy R2 đo tỷ lệ hay số % của toàn bộ sai lệch Y với giá trị trung bình được giải thích bằng mô hình Khi đó người ta sử dụng R2 để đo sự phù hợp của hàm hồi quy:

0 ≤ R2 ≤ 1

Trang 12

 Nếu R2 = 0, nghĩa là mô hình không đưa ra thông tin nào về sự thay đổi của biến phụ thuộc y rong mô hình hồi quy đa biến tỷ lệ của toàn bộ sự khác biệt của biến y do tất cả các biến x2 và x3 gây ra được gọi là hệ số xác định bội, ký

1.2.5 Khoảng tin cậy và kiểm định các hệ số hồi quy

1.2.5.1 Ước lượng khoảng tin cậy đối với các hệ số hồi quy

Mục đích của phân tích hồi quy không phải chỉ suy đoán về β1, β2,…, βk mà còn phải kiểm tra bản chất sự phụ thuộc Do vậy cần phải biết phân bố xác suất của β1, β2,…, βk Các phân bố này phụ thuộc vào phân bố của các ui

Với các giả thiết OLS, ui có phân phối N (0, σ2) Các hệ số ước lượng tuân theo phân phối chuẩn:

β̂j ~ N(βj, Se(β̂j)) β̂j − βj

Se(β̂j) ~ T(n − k)

Ước lượng phương sai sai số dựa vào các phần dư bình phương tối thiểu Trong đó k là số hệ số có trong phương trình hồi quy đa biến:

Trang 13

Kiểm định ý nghĩa thống kê của các hệ số hồi quy có ý nghĩa hay không: kiểm định rằng biến giải thích có thực sự ảnh hưởng đến biến phụ thuộc hay không Nói cách khác là hệ số hồi quy có ý nghĩa thống kê hay không

Có thể đưa ra giả thiết nào đó đối với βj, chẳng hạn βj = βj* Nếu giả thiết này

1.2.6 Kiểm định ý nghĩa của mô hình

Trong mô hình hồi quy đa biến, giả thuyết “không” cho rằng mô hình không có ý nghĩa được hiểu là tất cả các hệ số hồi quy riêng đều bằng 0

Ứng dụng kiểm định Wald (thường được gọi là kiểm định F) được tiến hành cụ thể như sau:

 Bước 1: Giả thuyết “không” là H0: β2 = β3 = … = βk = 0

Giả thuyết đối là H1: “có ít nhất một trong những giá trị β khác không”

 Bước 2: Trước tiên hồi quy Y theo một số hạng không đổi và X2, X3, …, Xk, sau đó tính tổng bình phương sai số RSSU, RSSR Phân phối F là tỷ số của hai biến ngẫu nhiên phân phối khi bình phương độc lập Điều này cho ta trị thống kê:

Fc = ~ F(α, k – m, n – k)

Trang 14

 Bước 3: Tra số liệu trong bảng F tương ứng với bậc tự do (k – 1) cho tử số và (n-k) cho mẫu số, và với mức ý nghĩa α cho trước

 Bước 4: Bác bỏ giả thuyết H0 ở mức ý nghĩa α nếu Fc > F(α, k-1, n-k) Đối với

phương pháp giá trị p, tính giá trị p = P(F>Fc|H0) và bác bỏ giả thuyết H0 nếu p < α

1.3 Sơ lược về P (P-value)

Chúng ta nhìn lại bài toán kiểm định 2 phía: H0: a= a0 ; H1: a ≠ a0 với trường hợp n ≥ 30 và chưa biết phương sai tổng thể Giả sử mức ý nghĩa đang được xem xét là α1=0,05 thì zα1 = 1,96 và miền bác bỏ tương ứng là Wα1 =(-∞; -1,96) ∪ (1,96; +∞)

Nếu từ một mẫu cụ thể ta tính được zqsA = 2,0 ∈ Wα1 thì giả thiết H0 tương ứng bị bác bỏ Giả thiết từ một mẫu cụ thể khác ta tính được zqsB = 10 chẳng hạn thì giả thiết H0 cũng bị bác bỏ Ta nhận thấy việc bác bỏ H0 trong trường hợp mẫu sau có vẻ “thuyết phục” hơn

Mặt khác, nếu thay đổi mức ý nghĩa đang được xem xét thành α2=0,02 thì zα2=2,33 và miền bác bỏ tương ứng là Wα2 =(-∞; -2,33) ∪ (2,33; +∞) Lúc này ta vẫn bác bỏ H0 nếu zqsB= 10 nhưng lại phải chấp nhận H0 nếu dùng zqsA = 2,0

Qua đó ta thấy việc bác bỏ H0 với zqsB= 10 khá thuyết phục nhưng việc bác bỏ H0

với zqsB = 2,0 lại ít thuyết phục hơn

Quá trình kiểm định như trên được gọi là kiểm định theo cách tiếp cận cổ điển Bây giờ ta tìm hiểu một cách tiếp cận khác bài toán kiểm định Thay vì kiểm định giả thiết với một mức ý nghĩa α định trước thì người ta cho rằng sau khi định rõ các giả thiết kiểm định H0 và giả thiết đối H1, ta thu thập các số liệu mẫu và xác định mức độ khẳng định việc bác bỏ giả thiết H0 Mức độ khẳng định này thường được gọi là giá trị xác suất P hay P-value

Ta nói rằng mức ý nghĩa nhỏ nhất tại đó giả thiết H0 bị bác bỏ được gọi là giá trị P kết hợp với mẫu quan sát được Người ta còn gọi giá trị P là mức ý nghĩa quan sát,

Trang 15

nó cho biết xác suất mắc sai lầm loại I tối đa khi bác bỏ giả thiết H0 với một mẫu quan sát cụ thể

Các phần mềm thống kê hiện nay đều đưa ra P-value cho mỗi bài toán kiểm định để độc giả tự đánh giá kết quả Ý tưởng chủ đạo là P-value càng nhỏ thì càng bác bỏ giả thiết mạnh, P-value càng lớn thì càng chấp nhận giả thiết mạnh

Thông thường người ta tiến hành kiểm định theo nguyên tắc:

 Nếu 0,1 ≤ P-value: ta thường thừa nhận H0

 Nếu 0,05 ≤ P-value < 0,1: cân nhắc cẩn thận trước khi bác bỏ H0.Nếu 0,01 ≤ P-value

 < 0,05: nghiêng về hướng bác bỏ H0 nhiều hơn

 Nếu 0,001 ≤ P-value < 0,01: có thể ít băn khoăn khi bác bỏ H0

 Nếu P-value < 0,001: có thể hoàn toàn yên tâm khi bác bỏ H0

2 Hoạt động 1

2.1 Nhập và làm sạch dữ liệu: 2.1.1 Nhập dữ liệu:

Vào session / set working directory / choose directory / “ đường dẫn thư mục chứa file auto_mpg.csv”

Sau đó nhập lệnh sau để thực hiện nhập dữ liệu:

Kết quả:

Trang 16

2.1.2 Làm sạch dữ liệu:

2.1.2.1 Kiểm tra và xử lí dữ liệu khuyết :

 Thay kí hiệu “?” của các dữ liệu bị khuyết bằng “NA”

Trang 17

Theo quan sát ta thấy có 6 vị trí dữ liệu nằm ở cột horsepower đó là các quan trắc thứ: 33, 127, 331, 337, 355 và 375 và chiếm tỉ lệ khoảng 1,51%, do tỉ lệ dữ liệu

khuyết rất bé so với bộ dữ liệu đang xét nên ta xử lí bằng cách xóa các quan trắc chứa dữ liệu khuyết

Tiến hành xóa và kiểm tra lại dữ liệu khuyết:

Ta được kết quả:

Vậy các dữ liệu khuyết đã bị xóa khỏi tập dữ liệu

2.1.3 Tìm và xử lí dữ liệu ngoại lai:

Trước tiên ta được cột horsepower về dạng dữ liệu số bằng lệnh:

Tiếp theo, ta kiểm tra biến horsepower có dữ liệu ngoại lai hay không

Vẽ boxplot cho các biến mpg, cylinders, horsepower, weight, acceleration,

model_year:

Trang 18

Ta được boxplot sau:

Trang 19

18

Trang 20

Dựa vào boxplot ta thấy biến horsepower và acceleration có các giá trị ngoại

lai, để xem cụ thể đó là những giá trị nào, ta nhập lệnh:

Và thu được các giá trị ngoại lai:

Ta sẽ xử lí bằng cách xóa các giá trị này ra khỏi tập dữ liệu, thực hiện như sau: Trước hết ta thay các giá trị ngoại lai thành “NA”

Và xóa các quan trắc chứa “NA” để hoàn thành xóa các giá trị ngoại lai:

Kết quả:

Vậy là các giá trị ngoại lai đã được xử lí

2.2 Thống kê mô tả cho các biến:

Ta thực hiện thống kê mô tả cho các biến định lượng, ta xuất các giá trị thống kê

Trang 21

Thực hiện code sau:

Và được kết quả như sau:

Ta vẽ biểu đồ boxplot đối với biến phân loại và biểu đồ phân tán (plot) để nắm

rõ sự phân phối của biến “mpg” theo 8 biến còn lại

Các boxplot:

Trang 22

Các plot:

Trang 23

22

Trang 24

Nhận xét: Dựa trên các đồ thị phân tán, ta thấy mpg mối quan hệ gần như tuyến

tính nghịch với các biến horsepower, displacement, weight và không có quan hệ tuyến tính với biến acceleration (các điểm phân tán khá rộng và ngẫu nhiên) Ta dự đoán rằng: các yếu tố horsepower, displacement, weight ít nhiều có ảnh hưởng đến mức tiêu thụ nhiên liệu còn acceleration thì có thể không ảnh hưởng

2.3 Chia bộ dữ liệu làm hai phần:

Để chia ngẫu nhiên bộ dữ liệu thành 2 phần, ta thực hiện nhập lệnh sau:

Kết quả thu được:

“auto_mpg1” (training dataset)

Trang 25

“auto_mpg2” (validation dataset)

2.4 Chọn mô hình để giải thích cho biến “mpg”

Để đánh giá sự ảnh hưởng các nhân tố lên biến phụ thuộc “mpg”, ta xem xét các

biến trong dữ liệu Ở đây ta thấy các biến độc lập trong dữ liệu là các biến định lượng và một số biến phân loại Và ngoài ra ở đây ta có nhiều nhân tố độc lập để xem xét đưa vào mô hình Do đó nhóm chọn phương án phân tích ở đây là xây dựng mô hình hồi quy tuyến tính bội

Ở mô hình hồi quy tuyến tính ta sẽ không đưa biến car_name vào chương trình

vì đây là biến phân loại với rất nhiều giá trị, khi đưa vào sẽ làm cho mô hình phức tạp hơn Ngoài ra, ta có thể nhận thấy tên xe có thể không ảnh hưởng đến mức tiêu thụ

nhiên của xe Do đó, ta xây dựng mô hình hồi quy hqtt_1 gồm biến phụ thuộc mpg và các biến độc lập là các biến (cylinders, displacement, horsepower, weight,

acceleration, model_year, origin) từ mẫu huấn luyện auto_mpg1

Mô hình được biểu diễn như sau:

Trang 26

Từ kết quả phân tích ta được:

Ta thấy rằng P-value tương ứng với thống kê F bé hơn 2,2e – 16 là có ý nghĩa rất cao Điều này chỉ ra rằng, ít nhất một biến dự báo trong mô hình có ý nghĩa giải thích

rất cao cho biến mpg

Giả thiết:

Trang 27

H0: “Hệ số βi không có ý nghĩa thống kê đối với mô hình” H1: “Hệ số βi có ý nghĩa thống kê đối với mô hình”

Vì P-value ứng với các biến cylinders, displacement và acceleration lớn hơn

0,05 nên ta chưa bác bỏ được giả thiết H0 cho nên ta tạm chấp nhận rằng các biến

cylinders, displacement và acceleration không có ý nghĩa đối với mô hình hồi quy ta

vừa xây dựng, do đó ta có thể loại bỏ các biến này ra khỏi mô hình hồi quy

Ta tiếp tục xây dựng các mô hình thông qua việc loại lần lượt từng biến:

hqtt_2 bằng cách bỏ đi biến cylinders

hqtt_3 bằng cách bỏ đi biến displacement từ hqtt_2

Trang 28

Ta sẽ so sánh các mô hình hqtt_1, hqtt_2, hqtt_3 và hqtt_4 với nhau để chọn ra mô hình tốt nhất giải thích cho biến mpg:

Giả thuyết Ho: Hai mô hình hqtt_i và hqtt_j hiệu quả giống nhau

Đối thuyết H1: Hai mô hình hqtt_i và hqtt_j hiệu quả khác nhau

Với i,j = 1, 2, 3, 4 và i ≠ j trong từng cặp so sánh Ta thực hiện lệnh:

Kết quả so sánh:

hqtt_1 với hqtt_2:

Nhận xét: ta thấy P-value = 0.6576 > 0,1 nên theo phần lí thuyết về P ta thừa

nhận giả thuyết H0 vì vậy ta kết luận rằng hiệu quả của hai mô hình hqtt_1 và hqtt_2

là giống nhau

Trang 29

hqtt_2 với hqtt_3:

Nhận xét: ta thấy P-value = 0,3319 > 0,1 nên theo phần lí thuyết về P ta thừa

nhận giả thuyết H0 vì vậy ta kết luận rằng hiệu quả của hai mô hình hqtt_2 và hqtt_3

là giống nhau

hqtt_3 với hqtt_4:

Nhận xét: ta thấy p-value = 0,5889 > 0,1 nên theo phần lí thuyết về P ta thừa

nhận giả thuyết H0 vì vậy ta kết luận rằng hiệu quả của hai mô hình hqtt_3 và hqtt_4

là giống nhau

Từ các so sánh trên ta nhận thấy hiệu quả của 4 mô hình là như nhau Vậy ta sẽ

chọn mô hình dựa vào hệ số R2 hiệu chỉnh, xét thấy R2 hiệu chỉnh = 0,8481 ở mô

hình hqtt_4 là cao nhất Vậy để phù hợp nhất ta chọn mô hình hqtt_4

2.5 Kiểm tra các giả định (giả thiết) của mô hình: 2.5.1 Nhắc lại các giả định:

Nhắc lại các giả định của mô hình hồi quy: Yi = β0+ β1 X1+ +βiXi + ϵi, i = 1, n

+ Tính tuyến tính của dữ liệu: mối quan hệ giữa biến dự báo X và biến phụ thuộc Y được giả sử là tuyến tính

+ Sai số có phân phối chuẩn

+ Phương sai của các sai số là hằng số: ϵi~N(0, σ2) + Các sai số ϵ1, … ϵn thì độc lập với nhau

Trang 30

Đồ thị biểu diễn sai số của mô hình hồi quy tương ứng với các giá trị dự báo, để kiểm tra các giả định về tính tuyến tính của dữ liệu, kỳ vọng của sai số bằng 0 và phương sai các sai số là hằng số:

Ngày đăng: 05/04/2024, 17:43

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w