Bài tập lớn môn học xác suất và thống kê (mt2013)

Ước lượng các tham số của mô hình hồi quy tuyến tính bội .... Các giả thiết của phương pháp bình phương nhỏ nhất cho mô hình hồi quy tuyến tính bội .... Các giả thiết của phương pháp bìn

Cơ sở lí thuyết

Giới thiệu mô hình hồi quy tuyến tính bội

Mô hình hồi quy tuyến tính bội có dạng tổng quát như sau:

Trong đó:Y: biến phụ thuộc

Xi: biến độc lập β1: hệ số tự do βi: hệ số hồi quy riêng βi đo lường tác động riêng phần của biến Xi lên Y với điều kiện các biến số khác trong mô hình không đổi Cụ thể hơn, nếu các biến khác trong mô hình không đổi, giá trị kỳ vọng của Y sẽ tăng βi đơn vị nếu Xi tăng 1 đơn vị u: sai số ngẫu nhiên sử dụng cho các trường hợp chúng ta muốn dự đoán một số lượng liên tục Ví dụ: dự đoán thời gian người dùng dừng lại một trang nào đó hoặc số người đã truy cập vào một website nào đó v.v Bằng dữ liệu thu thập được, ta đi ước lượng hàm hồi quy của tổng thể, đó là ước lượng các tham số của tổng thể: β1, β2,…, βk

Ước lượng các tham số của mô hình hồi quy tuyến tính bội

1.2.1 Hàm hồi quy tổng thể (PRF – Population Regression Function)

Với Y là biến phụ thuộc, X2, X3,…, Xk là biến độc lập, Y là ngẫu nhiên và có một phân phối xác suất nào đó Suy ra: Tồn tại E(Y|X2, X3,…, Xk) = giá trị xác định

Do vậy, F(X2, X3,…, Xk) = E(Y|X2, X3,…, Xk) là hàm hồi quy tổng thể của Y theo X2,

Với một cá thể i, tồn tại (X2,i, X3,i, …, Xk,i, Yi)

Ta có: Yi ≠ F(X2, X3,…, Xk) ⇒ ui = Yi – F

Do vậy: Yi = E(Y|X2, X3,…, Xk) + ui

Hồi quy tổng thể PRF:

1.2.2 Hàm hồi quy mẫu (SRF – Sample Regression Function):

Do không biết tổng thể, nên chúng ta không biết giá trị trung bình tổng thể của biến phụ thuộc là đúng ở mức độ nào Do vậy chúng ta phải dựa vào dữ liệu mẫu để ước lượng

Trên một mẫu có n cá thể, gọi Ŷ = F̂(X2, X3,…, Xk) làhồi quy mẫu

Với một cá thể mẫu Yi ≠ F̂(X2,i, X3,i,…, Xk,i) sinh ra ei = Yi – F̂(X2, X3,…, Xk); ei gọi là phần dư SRF

Ta có hàm hồi quy mẫu tổng quát được viết dưới dạng như sau: ŷi = β̂ 1 + β̂2x2,i + β̂3x3,i + … + β̂kxk,i

Phần dư sinh ra: ei = yi – ŷi

Ký hiệu: β̂m là ước lượng của βm Chúng ta trông đợi β̂m là ước lượng không chệch của βm, hơn nữa phải là một ước lượng hiệu quả Ước lượng SRF: chọn một phương pháp nào đó để ước lượng các tham số của F qua việc tìm các tham số của F̂ và lấy giá trị quan sát của các tham số này làm giá trị xấp xỉ cho tham số của F

1.2.3 Phương pháp bình phương nhỏ nhất (Ordinary Least Squares)

Phương pháp bình phương nhỏ nhất được đưa ra bởi nhà Toán học Đức Carl Friedrich Gauss Tư tưởng của phương pháp này là cực tiểu tổng bình phương của các phần dư Do đó có thể nói để có được hồi quy thích hợp nhất, chúng ta chọn các ước lượng có tung độ gốc và độ dốc sao cho phần dư là nhỏ

1.2.3.1 Các giả thiết của phương pháp bình phương nhỏ nhất cho mô hình hồi quy tuyến tính bội

Phương pháp bình phương nhỏ nhất (OLS) là phương pháp rất đáng tin cậy trong việc ước lượng các tham số của mô hình, tuy nhiên mô hình ước lượng phải thỏa mãn

7 giả thiết Khi thỏa mãn các giả thiết, ước lượng bình phương nhỏ nhất (OLS) là ước lượng tuyến tính không chệch có hiệu quả nhất trong các ước lượng Vì thế phương pháp OLS đưa ra ước lượng không chệch tuyến tính tốt nhất (BLUE)

Kết quả này được gọi là Định lý Gauss – Markov, theo lý thuyết này ước lượng OLS là BLUE, nghĩa là trong tất cả các tổ hợp tuyến tính không chệch của Y, ước lượng OLS có phương sai bé nhất Các giả thiết như sau:

1/ Hàm hồi quy là tuyến tính theo các hệ số Điều này có nghĩa là quá trình thực hành hồi quy trên thực tế được miêu tả bởi mối quan hệ dưới dạng: y = β1 + β2x2 + β3x3 + β4x4 + … + βkxk + u hoặc mối quan hệ thực tế có thể được viết lại ví dụ như dưới dạng lấy loga cả hai vế

2/ E(ui) = 0 : Kỳ vọng của các yếu tố ngẫu nhiên ui bằng 0

Trung bình tổng thể sai số là bằng 0 Điều này có nghĩa là có một số giá trị sai số mang dấu dương và một số sai số mang dấu âm Do hàm xem như là đường trung bình nên có thể giả định rằng các sai số ngẫu nhiên trên sẽ bị loại trừ nhau, ở mức trung bình, trong tổng thể

3/ Var(ui) = σ 2 : Phương sai bằng nhau và thuần nhất với mọi ui

Tất cả giá trị u được phân phối giống nhau với cùng phương sai σ 2 , sao cho: thuyết trong những phạm vi mẫu là nhỏ Nhưng phạm vi mẫu lớn hơn, điều này trở nên không mấy quan trọng

5/ Giữa các ui thì độc lập với nhau

Ta đặt: yi ký hiệu giá trị thực của biến y tại quan sát i ŷi ký hiệu giá trị của hàm hồi quy mẫu ei ký hiệu phần dư yi – ŷi

Do đó cực tiểu hóa Σ(yi – ŷi) 2 sẽ tương đương với cực tiểu Σei 2 từ đó tìm ra β̂0, β̂1,…, β̂k

Ta có: Σei2 = Σ(yi – (β̂1 + β̂2x2,i + β̂3x3,i + β̂4x4,i + … + β̂kxk,i)) 2

Chúng ta có thiết lập các điều kiện bậc nhất cho phép tính tối thiểu này như sau:

Hệ phương trình mà chúng ta có được gọi là hệ phương trình chuẩn của hồi quy mẫu Chúng ta có thể giải k phương trình chuẩn này để tìm k hệ số β" chưa biết β̂1, β̂2,…, β̂k được gọi là các ước lượng bình phương nhỏ nhất

1.2.4 Độ phù hợp của mô hình Để có thể biết mô hình giải thích được như thế nào hay bao nhiêu % biến động của biến phụ thuộc, người ta sử dụng R 2

Ta có: Σ(yi – ӯ) 2 = Σ[(yi – ŷi) + (ŷi – ӯ)] 2 = Σ[ei + (ŷi – ӯ)] 2

= Σei 2 + 2Σei(ŷi – ӯ) + Σ(ŷi – ӯ) 2 Đặt:

 Σ(yi – ӯ) 2 : TSS – Total Sum of Squares

 Σ(ŷi – ӯ) 2 : ESS – Explained Sum of Squares

 Σei 2 : RSS – Residual Sum of Squares

Do Σei(ŷi – ӯ) = 0 ⇐ (Σeiŷi = 0; Σeiӯ = 0) Ta có thể viết: TSS = ESS + RSS Ý nghĩa của các thành phần:

 TSS là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Yi và giá trị trung bình

 ESS là tổng bình phương của tất cả các sai lệch giữa các giá trị của biến phụ thuộc Y nhận được từ hàm hồi quy mẫu và giá trị trung bình của chúng Phần này đo độ chính xác của hàm hồi quy

 RSS là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Y và các giá trị nhận được từ hàm hồi quy

 TSS được chia thành 2 phần: một phần do ESS và một phần do RSS gây ra

Từ TTS = ESS + RSS, ta chia cả hai vế cho TSS, ta có:

Tỷ số giữa tổng biến thiên được giải thích bởi mô hình cho tổng bình phương cần được giải thích được gọi là hệ số xác định, hay là trị thống kê “good of fit” Từ định nghĩa R 2 chúng ta thấy R 2 đo tỷ lệ hay số % của toàn bộ sai lệch Y với giá trị trung bình được giải thích bằng mô hình Khi đó người ta sử dụng R 2 để đo sự phù hợp của hàm hồi quy:

Sơ lược về P (P-value)

Chúng ta nhìn lại bài toán kiểm định 2 phía: H0: a= a0 ; H1: a ≠ a0 với trường hợp n ≥ 30 và chưa biết phương sai tổng thể Giả sử mức ý nghĩa đang được xem xét là α1=0,05 thì zα1 = 1,96 và miền bác bỏ tương ứng là Wα1 =(-∞; -1,96) ∪ (1,96; +∞) Nếu từ một mẫu cụ thể ta tính được zqsA = 2,0 ∈ Wα1 thì giả thiết H0 tương ứng bị bác bỏ Giả thiết từ một mẫu cụ thể khác ta tính được zqsB = 10 chẳng hạn thì giả thiết H0 cũng bị bác bỏ Ta nhận thấy việc bác bỏ H0 trong trường hợp mẫu sau có vẻ

Mặt khác, nếu thay đổi mức ý nghĩa đang được xem xét thành α2=0,02 thì zα2=2,33 và miền bác bỏ tương ứng là Wα2 =(-∞; -2,33) ∪ (2,33; +∞) Lúc này ta vẫn bác bỏ H0 nếu zqsB= 10 nhưng lại phải chấp nhận H0 nếu dùng zqsA = 2,0

Qua đó ta thấy việc bác bỏ H0 với zqsB= 10 khá thuyết phục nhưng việc bác bỏ H0 với zqsB = 2,0 lại ít thuyết phục hơn

Quá trình kiểm định như trên được gọi là kiểm định theo cách tiếp cận cổ điển Bây giờ ta tìm hiểu một cách tiếp cận khác bài toán kiểm định Thay vì kiểm định giả thiết với một mức ý nghĩa α định trước thì người ta cho rằng sau khi định rõ các giả thiết kiểm định H0 và giả thiết đối H1, ta thu thập các số liệu mẫu và xác định mức độ khẳng định việc bác bỏ giả thiết H0 Mức độ khẳng định này thường được gọi là giá trị xác suất P hay P-value

Ta nói rằng mức ý nghĩa nhỏ nhất tại đó giả thiết H0 bị bác bỏ được gọi là giá trị

P kết hợp với mẫu quan sát được Người ta còn gọi giá trị P là mức ý nghĩa quan sát, nó cho biết xác suất mắc sai lầm loại I tối đa khi bác bỏ giả thiết H0 với một mẫu quan sát cụ thể

Các phần mềm thống kê hiện nay đều đưa ra P-value cho mỗi bài toán kiểm định để độc giả tự đánh giá kết quả Ý tưởng chủ đạo là P-value càng nhỏ thì càng bác bỏ giả thiết mạnh, P-value càng lớn thì càng chấp nhận giả thiết mạnh

Thông thường người ta tiến hành kiểm định theo nguyên tắc:

 Nếu 0,1 ≤ P-value: ta thường thừa nhận H0

 Nếu 0,05 ≤ P-value < 0,1: cân nhắc cẩn thận trước khi bác bỏ H0.Nếu 0,01 ≤ P- value

 < 0,05: nghiêng về hướng bác bỏ H0 nhiều hơn

 Nếu 0,001 ≤ P-value < 0,01: có thể ít băn khoăn khi bác bỏ H0

 Nếu P-value < 0,001: có thể hoàn toàn yên tâm khi bác bỏ H0.

Hoạt động 1

Nhập và làm sạch dữ liệu

Vào session / set working directory / choose directory / “ đường dẫn thư mục chứa file auto_mpg.csv”

Sau đó nhập lệnh sau để thực hiện nhập dữ liệu:

2.1.2.1 Kiểm tra và xử lí dữ liệu khuyết :

 Thay kí hiệu “?” của các dữ liệu bị khuyết bằng “NA”

 Kiểm tra và xuất vị trí của dữ liệu khuyết trong tập dữ liệu:

Và nhận được kết quả như sau:

Theo quan sát ta thấy có 6 vị trí dữ liệu nằm ở cột horsepower đó là các quan trắc thứ: 33, 127, 331, 337, 355 và 375 và chiếm tỉ lệ khoảng 1,51%, do tỉ lệ dữ liệu khuyết rất bé so với bộ dữ liệu đang xét nên ta xử lí bằng cách xóa các quan trắc chứa dữ liệu khuyết

Tiến hành xóa và kiểm tra lại dữ liệu khuyết:

Vậy các dữ liệu khuyết đã bị xóa khỏi tập dữ liệu

2.1.3 Tìm và xử lí dữ liệu ngoại lai:

Trước tiên ta được cột horsepower về dạng dữ liệu số bằng lệnh:

Tiếp theo, ta kiểm tra biến horsepower có dữ liệu ngoại lai hay không

Vẽ boxplot cho các biến mpg, cylinders, horsepower, weight, acceleration, model_year:

Dựa vào boxplot ta thấy biến horsepower và acceleration có các giá trị ngoại lai, để xem cụ thể đó là những giá trị nào, ta nhập lệnh:

Và thu được các giá trị ngoại lai:

Ta sẽ xử lí bằng cách xóa các giá trị này ra khỏi tập dữ liệu, thực hiện như sau:

Trước hết ta thay các giá trị ngoại lai thành “NA”

Và xóa các quan trắc chứa “NA” để hoàn thành xóa các giá trị ngoại lai:

Vậy là các giá trị ngoại lai đã được xử lí

Thống kê mô tả cho các biến

Ta thực hiện thống kê mô tả cho các biến định lượng, ta xuất các giá trị thống kê mô tả bao gồm: trung bình, trung vị, giá trị lớn nhất và giá trị nhỏ nhất Xuất kết quả dưới dạng bảng

Các biến định lượng bao gồm: mpg, displacement, horsepower, weight, acceleration

Và được kết quả như sau:

Ta vẽ biểu đồ boxplot đối với biến phân loại và biểu đồ phân tán (plot) để nắm rõ sự phân phối của biến “mpg” theo 8 biến còn lại

Nhận xét: Dựa trên các đồ thị phân tán, ta thấy mpg mối quan hệ gần như tuyến tính nghịch với các biến horsepower, displacement, weight và không có quan hệ tuyến tính với biến acceleration (các điểm phân tán khá rộng và ngẫu nhiên) Ta dự đoán rằng: các yếu tố horsepower, displacement, weight ít nhiều có ảnh hưởng đến mức tiêu thụ nhiên liệu còn acceleration thì có thể không ảnh hưởng.

Chia bộ dữ liệu làm hai phần

Để chia ngẫu nhiên bộ dữ liệu thành 2 phần, ta thực hiện nhập lệnh sau:

Chọn mô hình để giải thích cho biến “mpg”

Để đánh giá sự ảnh hưởng các nhân tố lên biến phụ thuộc “mpg”, ta xem xét các biến trong dữ liệu Ở đây ta thấy các biến độc lập trong dữ liệu là các biến định lượng và một số biến phân loại Và ngoài ra ở đây ta có nhiều nhân tố độc lập để xem xét đưa vào mô hình Do đó nhóm chọn phương án phân tích ở đây là xây dựng mô hình hồi quy tuyến tính bội Ở mô hình hồi quy tuyến tính ta sẽ không đưa biến car_name vào chương trình vì đây là biến phân loại với rất nhiều giá trị, khi đưa vào sẽ làm cho mô hình phức tạp hơn Ngoài ra, ta có thể nhận thấy tên xe có thể không ảnh hưởng đến mức tiêu thụ nhiên của xe Do đó, ta xây dựng mô hình hồi quy hqtt_1 gồm biến phụ thuộc mpg và các biến độc lập là các biến (cylinders, displacement, horsepower, weight, acceleration, model_year, origin) từ mẫu huấn luyện auto_mpg1

Mô hình được biểu diễn như sau:

Ta thực hiện ước lượng các hệ số β i , i = 0, … ,7

Từ kết quả phân tích ta được: β̂ = −16,631468 0 β 1 ̂ = 0,181597 β̂ = 0,003980 2 β̂ = −0,037378 3 β̂ = −0,005102 4 β̂ = −0,038849 5 β̂ = 0,724930 6 β̂ = 1,667806 7

Như vậy, đường thẳng hồi quy ước lượng cho bởi phương trình sau:

Ta thấy rằng P-value tương ứng với thống kê F bé hơn 2,2e – 16 là có ý nghĩa rất cao Điều này chỉ ra rằng, ít nhất một biến dự báo trong mô hình có ý nghĩa giải thích rất cao cho biến mpg

H0: “Hệ số β i không có ý nghĩa thống kê đối với mô hình”

H1: “Hệ số β i có ý nghĩa thống kê đối với mô hình”

Vì P-value ứng với các biến cylinders, displacement và acceleration lớn hơn 0,05 nên ta chưa bác bỏ được giả thiết H0 cho nên ta tạm chấp nhận rằng các biến cylinders, displacement và acceleration không có ý nghĩa đối với mô hình hồi quy ta vừa xây dựng, do đó ta có thể loại bỏ các biến này ra khỏi mô hình hồi quy

Ta tiếp tục xây dựng các mô hình thông qua việc loại lần lượt từng biến:

 hqtt_2 bằng cách bỏ đi biến cylinders

 hqtt_3 bằng cách bỏ đi biến displacement từ hqtt_2

Ta sẽ so sánh các mô hình hqtt_1, hqtt_2, hqtt_3 và hqtt_4 với nhau để chọn ra mô hình tốt nhất giải thích cho biến mpg:

Giả thuyết Ho: Hai mô hình hqtt_i và hqtt_j hiệu quả giống nhau Đối thuyết H1: Hai mô hình hqtt_i và hqtt_j hiệu quả khác nhau

Với i,j = 1, 2, 3, 4 và i ≠ j trong từng cặp so sánh

Nhận xét: ta thấy P-value = 0.6576 > 0,1 nên theo phần lí thuyết về P ta thừa nhận giả thuyết H0 vì vậy ta kết luận rằng hiệu quả của hai mô hình hqtt_1 và hqtt_2 là giống nhau

Nhận xét: ta thấy P-value = 0,3319 > 0,1 nên theo phần lí thuyết về P ta thừa nhận giả thuyết H0 vì vậy ta kết luận rằng hiệu quả của hai mô hình hqtt_2 và hqtt_3 là giống nhau

Nhận xét: ta thấy p-value = 0,5889 > 0,1 nên theo phần lí thuyết về P ta thừa nhận giả thuyết H0 vì vậy ta kết luận rằng hiệu quả của hai mô hình hqtt_3 và hqtt_4 là giống nhau

Từ các so sánh trên ta nhận thấy hiệu quả của 4 mô hình là như nhau Vậy ta sẽ chọn mô hình dựa vào hệ số R 2 hiệu chỉnh, xét thấy R 2 hiệu chỉnh = 0,8481 ở mô hình hqtt_4 là cao nhất Vậy để phù hợp nhất ta chọn mô hình hqtt_4.

Kiểm tra các giả định (giả thiết) của mô hình

2.5.1 Nhắc lại các giả định:

Nhắc lại các giả định của mô hình hồi quy: Y i = β 0 + β 1 X 1 + +β i X i + ϵ i , i 1, n

+ Tính tuyến tính của dữ liệu: mối quan hệ giữa biến dự báo X và biến phụ thuộc

Y được giả sử là tuyến tính

+ Sai số có phân phối chuẩn

+ Phương sai của các sai số là hằng số: ϵ i ~N(0, σ 2 )

+ Các sai số ϵ 1 , … ϵ n thì độc lập với nhau Đồ thị biểu diễn sai số của mô hình hồi quy tương ứng với các giá trị dự báo, để kiểm tra các giả định về tính tuyến tính của dữ liệu, kỳ vọng của sai số bằng 0 và phương sai các sai số là hằng số:

+ Đường màu đỏ là đường cong nên giả định về tính tuyến tính của dữ liệu không thỏa mãn

+ Đường màu đỏ không sát với đường “0” nên giả định các sai số có kỳ vọng bằng 0 là không thỏa mãn Đồ thị vẽ các sai số được chuẩn hóa để kiểm tra giả định các sai số có phân phối chuẩn:

Có một vài điểm sai số bị lệch khỏi đường phân phối chuẩn, tuy nhiên số điểm này so với tổng số là rất ít nên ta tạm chấp nhận giả thuyết sai số có phân phối chuẩn Đồ thị biểu diễn căn bậc hai của sai số để kiểm tra giả thiết phương sai các sai số là hằng số:

Các điểm phân tán một cách khá ngẫu nhiên quanh đường màu đỏ nên ta tạm chấp nhận giả thuyết phương sai của các sai số là hằng số Đồ thị biểu diễn những điểm ảnh hưởng cao trong bộ dữ liệu:

Không xuất hiện đường đứt ở góc phải nên bộ dữ liệu không chứa các điểm ảnh hưởng cao.

Ý nghĩa của mô hình đã chọn

Mô hình hồi quy tuyến tính về sự ảnh hưởng của các nhân tố horsepower, weight, acceleration, model_year và origin lên biến mpg:

Hệ số xác định hiệu chỉnh (adjusted R-squared): R 2 hiệu chỉnh = 0,8481 nghĩa là

84,81% sự biến thiên trong mức tiêu thụ nhiên liệu được giải thích bởi các biến độc lập Để xét sự ảnh hưởng của từng biến ta xét các hệ số hồi quy (β i ) và P-value tương ứng Hệ số hồi quy của một biến độc lập có thể được xem như ảnh hưởng trung bình lên biến phụ thuộc mpg khi tăng một đơn vị của biến dự báo đó với giả sử rằng các biến dự báo khác không đổi Cụ thể rằng: Ứng với biến weight có β 4 = −4.745e −3 thì với mỗi khi khối lượng động cơ tăng đơn vị ta có thể kì vọng rằng mức tiêu thụ nhiện liệu sẽ giảm đi 4.745e −3 đơn vị về mặt trung bình Ứng với biến model_year có β 6 = 7.216e −1 thì với mỗi khi năm sản xuất động cơ tăng 1 đơn vị ta có thể kì vọng rằng mức tiêu thụ nhiện liệu sẽ tăng lên 7.216e −1 đơn vị về mặt trung bình.

Thực hiện dự báo (Prediction)

Sử dụng mẫu kiểm tra “auto_mpg2” và dựa vào mô hình tốt nhất được chọn để dự báo cho biến phụ thuộc “mpg” Gọi kết quả này là biến “predict_mpg”

Tạo dữ liệu dự báo lấy từ mẫu kiểm tra

Thực hiện dự báo cho biến phụ thuộc mpg với tên predict_mpg

Thêm cột predict_mpg vào auto_mpg2

So sánh kết quả dự báo “predict_mpg” với giá trị thực tế của “mpg”

Để so sánh một cách trực quan ta vẽ biểu đồ thể hiện giữa quan sát và dự báo Nhập lệnh sau:

Ta được biểu đồ sau:

Dựa vào đồ thị ta thấy có rất ít các điểm phân tán nằm trên đường thẳng màu đỏ mà phần lớn là phân tán rộng xung quanh đường thẳng đó, chứng tỏ giá trị dự báo và quan sát chưa phù hợp với nhau, cần có nhiều hơn các quan trắc và phương thức thống như sau:

R 2 hiệu chỉnh = 0,8083 < 0,9 nên phần nói lên sự kém hiệu quả của mô hình qua đó ta có thể nhận thấy giá trị quan sát và giá trị dự báo chưa phù hợp với nhau

3.1 Nhập và làm sạch dữ liệu:

Vào session / set working directory / choose directory / “ đường dẫn thư mục chứa file train_data.csv”

Sau đó nhập lệnh sau để thực hiện nhập dữ liệu và lọc lấy các cột cần khảo sát:

3.1.2.1 Kiểm tra và xử lí dữ liệu khuyết :

+ Kiểm tra và xuất vị trí của dữ liệu khuyết trong tập dữ liệu:

Và nhận được kết quả như sau:

Theo quan sát ta thấy biến các biến wind_speed, motor_torque và windmill_generated_power có lần lượt: 273, 24 và 207 dữ liệu khuyết, vậy tổng dữ liệu khuyết ta có là 504 chiếm tỉ lệ khoảng 1,8%, do tỉ lệ dữ liệu khuyết rất bé so với bộ dữ liệu đang xét nên ta xử lí bằng cách xóa các quan trắc chứa dữ liệu khuyết

Tiến hành xóa và kiểm tra lại dữ liệu khuyết:

Vậy các dữ liệu khuyết đã bị xóa khỏi tập dữ liệu

3.1.2.2 Tìm và xử lí dữ liệu ngoại lai:

Tiếp theo, ta kiểm tra các biến có dữ liệu ngoại lai hay không

Vẽ boxplot cho các biến

Ta được các boxplot sau:

Dựa vào boxplot ta thấy biến wind_speed, area_temperature và windmill_generated_power có các giá trị ngoại lai

Ta xử lí ngoại lai bằng cách xóa các quan trắc này đi

Và xóa các quan trắc chứa “NA” để hoàn thành xóa các giá trị ngoại lai:

Vậy là các giá trị ngoại lai đã được xử lí.

Thống kê mô tả cho các biến

Ta thực hiện thống kê mô tả cho các biến định lượng, ta xuất các giá trị thống kê mô tả bao gồm: trung bình, trung vị, giá trị lớn nhất và giá trị nhỏ nhất Xuất kết quả dưới dạng bảng

Các biến định lượng bao gồm: wind_speed, area_temperature, motor_torque, blade_breadth và windmill_generated_power

Và được kết quả như sau:

Ta vẽ biểu đồ boxplot đối với biến phân loại và biểu đồ phân tán (plot) để nắm rõ sự phân phối của biến “windmill_generated_power” theo 6 biến còn lại

Nhận xét: Dựa trên các đồ thị phân tán, ta thấy windmill_generated_power có mối quan hệ tuyến tính yếu với các biến wind_speed, area_temperature, motor_torque và blade_breadth Ta dự đoán rằng: các yếu tố trên ít nhiều có ảnh hưởng đến năng lượng tạo ra từ cối xay gió.

Chọn mô hình để giải thích cho biến “windmill_generated_power”

Để đánh giá sự ảnh hưởng các nhân tố lên biến phụ thuộc

“windmill_generated_power”, ta xem xét các biến trong dữ liệu Ở đây ta thấy các biến độc lập trong dữ liệu là các biến định lượng, một số biến phân loại Và ngoài ra ở đây ta có nhiều nhân tố độc lập để xem xét đưa vào mô hình Do đó nhóm chọn phương án phân tích ở đây là xây dựng mô hình hồi quy tuyến tính bội

Ta xây dựng mô hình hồi quy hqtt_1 với các biến độc lập là các biến (wind_speed, area_temperature, motor_torque, blade_breadth, cloud_level và turbine_status) từ dữ liệu ban đầu “đã làm sạch”

Mô hình được biểu diễn như sau:

Ta thực hiện ước lượng các hệ số β i , i = 0, … , n

Từ kết quả phân tích ta được: β̂ = −1,346 0 β 1 ̂ = −1,289e −2 β̂ = 7,363e 2 −2 β̂ = 1,570e 3 −3 β̂ = 1,298 4

Và các hệ số ứng với các trạng thái của mây và tua-bin × 𝐚𝐫𝐞𝐚_𝐭𝐞𝐦𝐩𝐞𝐫𝐚𝐭𝐮𝐫𝐞 + 1,570e −3 × 𝐦𝐨𝐭𝐨𝐫_𝐭𝐨𝐫𝐪𝐮𝐞 + 1,298 ×

Ta thấy rằng P-value tương ứng với thống kê F bé hơn 2,2e – 16 là có ý nghĩa rất cao Điều này chỉ ra rằng, ít nhất một biến dự báo trong mô hình có ý nghĩa giải thích rất cao cho biến windmill_generated_power

H0: “Hệ số β i không có ý nghĩa thống kê đối với mô hình”

H1: “Hệ số β i có ý nghĩa thống kê đối với mô hình”

Vì phần lớn P-value ứng với các biến trạng thái của turbines_status lớn hơn 0,05 nên ta chưa bác bỏ được giả thiết H0 cho nên ta tạm chấp nhận rằng biến turbines_status không có ý nghĩa đối với mô hình hồi quy ta vừa xây dựng, do đó ta có thể loại bỏ các biến này ra khỏi mô hình hồi quy

Ta tiếp tục xây dựng mô hình hqtt_2 bằng cách bỏ đi biến turbine_status

So sánh các mô hình hqtt_1, hqtt_2 với nhau:

Giả thuyết Ho: Hai mô hình hqtt_1 và hqtt_2 hiệu quả giống nhau Đối thuyết H1: Hai mô hình hqtt_1 và hqtt_2 hiệu quả khác nhau

Nhận xét: ta thấy 0,01 < P-value = 0,0131 < 0,05, nên theo lí thuyết ta nghiêng về phương án bác bỏ H0 nhiều hơn do đó ta kết luận rằng hiệu quả của hai mô hình hqtt_1 và hqtt_2 là khác nhau

Mặc khác, như đã nói ở trên ta thấy biến turbine_status không có ý nghĩa đáng kể với mô hình Vậy để phù hợp nhất ta chọn mô hình hqtt_2.

Kiểm tra các giả định (giả thiết) của mô hình

3.4.1 Nhắc lại các giả định:

Nhắc lại các giả định của mô hình hồi quy: Y i = β 0 + β 1 X 1 + +β i X i + ϵ i , i 1, n

+ Tính tuyến tính của dữ liệu: mối quan hệ giữa biến dự báo X và biến phụ thuộc

Y được giả sử là tuyến tính

+ Sai số có phân phối chuẩn

+ Phương sai của các sai số là hằng số: ϵ i ~N(0, σ 2 )

+ Các sai số ϵ 1 , … ϵ n thì độc lập với nhau

3.4.2 Kiểm tra các giả định:

Ta thực hiện phân tích thặng dư để kiểm tra các giả định của mô hình

Vẽ các đồ thị cho mô hình đã chọn:

+ Đường màu đỏ là đường cong nên giả định về tính tuyến tính của dữ liệu không thỏa mãn

+ Đường màu đỏ không sát với đường “0” nên giả định các sai số có kỳ vọng bằng 0 là không thỏa mãn

+ Các điểm sai số phân tán tập trung rất nhiều gần đường màu đỏ nên giả định về phương sai của các sai số là hằng số cũng không thỏa mãn Đồ thị vẽ các sai số được chuẩn hóa để kiểm tra giả định các sai số có phân phối chuẩn:

Có rất nhiều điểm sai số bị lệch khỏi đường phân phối chuẩn, nên giả thuyết sai số có phân phối chuẩn không thỏa mãn Đồ thị biểu diễn căn bậc hai của sai số để kiểm tra giả thiết phương sai các sai số là hằng số: Đồ thị biểu diễn những điểm ảnh hưởng cao trong bộ dữ liệu:

Không xuất hiện đường đứt ở góc phải nên bộ dữ liệu không chứa các điểm ảnh hưởng cao vì mối quan hệ tuyến tính yếu đã dự đoán ở trên, tuy nhiên ta chưa nhận thấy được các điểm vượt khỏi đường này vì các giá trị ngoại lai đã được xử lí trước đó.

Ý nghĩa của mô hình đã chọn

Mô hình hồi quy tuyến tính về sự ảnh hưởng của các nhân tố wind_speed, area_temperature, motor_torque, blade_breadth và cloud_level lên biến windmill_generated_power

Hệ số xác định hiệu chỉnh (adjusted R-squared): R 2 hiệu chỉnh = 0,3411 nghĩa là

34,11% sự biến thiên trong năng lượng tạo ra từ cối xay gió được giải thích bởi các biến độc lập Để xét sự ảnh hưởng của từng biến ta xét các hệ số hồi quy (β i ) và p-value tương ứng Hệ số hồi quy của một biến độc lập có thể được xem như ảnh hưởng trung bình lên biến phụ thuộc windmill_generated_power khi tăng một đơn vị của biến dự báo đó với giả sử rằng các biến dự báo khác không đổi Cụ thể rằng: Ứng với biến motor_torque có β 3 = 1,569e − 03 thì với mỗi khi momen xoắn động cơ tăng 1 đơn vị ta có thể kì vọng rằng mức năng lượng tạo ra sẽ tăng lên 1,569e-

03 đơn vị về mặt trung bình

Giải thích tương tự đối với các hệ số của những biến còn lại.

Thực hiện dự báo (Prediction)

- Xây dựng và dự báo cho X1:

- Xây dựng và dự báo cho X2:

Nhận xét: Dựa vào kết quả dự báo, chiều dài khoảng tin cậy cho năng lượng gió tạo ra trung bình ở thuộc tính X1 = 0.0735 thấp hơn so với thuộc tính

X2 =0,2314 Như vậy, đối với thuộc tính X1 cho kết quả dự báo chính xác hơn.

Mô hình ANOVA

Giả thuyết H0: Năng lượng gió tạo ra trung bình ở các điều kiện cấp độ mây bằng nhau

Giả thuyết H1: Có ít nhất hai cấp độ mây có năng lượng gió tạo ra trung bình khác nhau

Các giả định cần kiểm tra:

+ Giả định về phân phối chuẩn: Năng lượng gió tạo ra ở các điều kiện cấp độ mây tuân theo phân phối chuẩn

+ Giả định về tính đồng nhất của phương sai: Phương sai năng lượng gió tạo ra ở các điều kiện cấp độ mây bằng nhau

3.7.1 Thực hiện kiểm tra giả định phân phối chuẩn:

- Đối với điều kiện cấp độ mây (Extremely Low):

Ta có đồ thị sau:

Nhận xét: Dựa trên đồ thị ta thấy các quan trắc không nằm trên đường thẳng kỳ vọng phân phối chuẩn Ta dự đoán Năng lượng gió tạo ra ở điều kiện cấp độ mây (Extremely Low) không tuân theo phân phối chuẩn

Hoặc kiểm tra bằng cách dùng hàm ad.test với:

+ Giả thuyết H0: Năng lượng gió tạo ra ở điều kiện cấp độ mây (Extremely Low) tuân theo phân phối chuẩn

+ Giả thuyết H1: Năng lượng gió tạo ra ở điều kiện cấp độ mây (Extremely Low) không tuân theo phân phối chuẩn

Vì p-value = 8,929e-16 < mức ý nghĩa 5% nên ta bác bỏ H0, chấp nhận H1 Vậy Năng lượng gió tạo ra ở điều kiện cấp độ mây (Extremely Low) không tuân theo phân phối chuẩn

- Đối với điều kiện cấp độ mây (Low):

Nhận xét: Dựa trên đồ thị ta thấy các quan trắc không nằm trên đường thẳng kỳ vọng phân phối chuẩn Ta dự đoán Năng lượng gió tạo ra ở điều kiện cấp độ mây (Low) không tuân theo phân phối chuẩn

+ Giả thuyết H0: Năng lượng gió tạo ra ở điều kiện cấp độ mây (Low) tuân theo phân phối chuẩn

+ Giả thuyết H1: Năng lượng gió tạo ra ở điều kiện cấp độ mây (Low) không tuân theo phân phối chuẩn

Vì p-value < 2.2e-16 < mức ý nghĩa 5% nên ta bác bỏ H0, chấp nhận H1 Vậy Năng lượng gió tạo ra ở điều kiện cấp độ mây (Low) không tuân theo phân phối chuẩn

- Điều kiện cấp độ mây (Medium):

Nhận xét: Dựa trên đồ thị ta thấy các quan trắc không nằm trên đường thẳng kỳ vọng phân phối chuẩn Ta dự đoán Năng lượng gió tạo ra ở điều kiện cấp độ mây (Medium) không tuân theo phân phối chuẩn

+ Giả thuyết H0: Năng lượng gió tạo ra ở điều kiện cấp độ mây (Medium) tuân theo phân phối chuẩn

+ Giả thuyết H1: Năng lượng gió tạo ra ở điều kiện cấp độ mây (Medium) không tuân theo phân phối chuẩn

Vì p-value < 2.2e-16 < mức ý nghĩa 5% nên ta bác bỏ H0, chấp nhận H1 Vậy Năng lượng gió tạo ra ở điều kiện cấp độ mây (Medium) không tuân theo phân phối chuẩn

- Điều kiện cấp độ mây (High):

Nhận xét: Dựa trên đồ thị ta thấy các quan trắc không nằm trên đường thẳng kỳ vọng phân phối chuẩn Ta dự đoán Năng lượng gió tạo ra ở điều kiện cấp độ mây (High) không tuân theo phân phối chuẩn

+ Giả thuyết H0: Năng lượng gió tạo ra ở điều kiện cấp độ mây (Medium) tuân theo phân phối chuẩn

+ Giả thuyết H1: Năng lượng gió tạo ra ở điều kiện cấp độ mây (Medium) không tuân theo phân phối chuẩn

Vì p-value = 0,0001641 bé mức ý nghĩa 5% nên ta bác bỏ H0, chấp nhận H1 Vậy Năng lượng gió tạo ra ở điều kiện cấp độ mây (High) không tuân theo phân phối chuẩn

3.7.2 Thực hiện kiểm tra giả định tính đồng nhất của phương sai

Giả thuyết H0: Phương sai năng lượng gió tạo ra ở các điều kiện cấp độ mây bằng nhau

Giả thuyết H1: Có ít nhất hai cấp độ mây có phương sai năng lượng gió tạo ra khác nhau

Vì pvalue < 2.2e-16 < mức ý nghĩa 5% nên ta bác bỏ H0, chấp nhận H1 Vậy có ít nhất hai cấp độ mây có phương sai năng lượng gió tạo ra khác nhau

Mặc dù các giả định kiểm tra không thoả mãn, ta vẫn sẽ tiếp tục thực hiện Anova và cân nhắc kết quả ta thực hiện

Vì P-value < 2.2e-16 < mức ý nghĩa 5% nên ta bác bỏ H0, chấp nhận H1 Vậy có ít nhất hai cấp độ mây có năng lượng gió tạo ra trung bình khác nhau

Sự khác nhau giữa năng lượng gió trung bình ở điều kiện cấp độ mây High và Extremely Low:

Giả thiết H0: Năng lượng gió trung bình ở điều kiện cấp độ mây High và Extremely Low bằng nhau

Giả thiết H1: Năng lượng gió trung bình ở điều kiện cấp độ mây High và Extremely Low khác nhau

Ta nhận thấy p adj = 0,0000000 < mức ý nghĩa 5%, nên ta bác bỏ giả thiết H0, chấp nhận giả thuyết H1 Năng lượng gió trung bình ở điều kiện cấp độ mây High và Extremely Low khác nhau

Mặt khác ta dựa vào diff = 4,20863036 > 0 nên ta có thể kết luận năng lượng gió trung bình ở điều kiện cấp độ mây High > năng lượng gió trung bình ở điều kiện cấp độ mây Extremely Low

Sự khác nhau giữa năng lượng gió trung bình ở điều kiện cấp độ mây Low và Extremely Low:

Giả thiết H0: Năng lượng gió trung bình ở điều kiện cấp độ mây Low và Extremely Low bằng nhau

Giả thiết H1: Năng lượng gió trung bình ở điều kiện cấp độ mây Low và Extremely Low khác nhau

Ta nhận thấy p adj = 0,0000000 < mức ý nghĩa 5%, nên ta bác bỏ giả thiết H0, chấp nhận giả thuyết H1 Năng lượng gió trung bình ở điều kiện cấp độ mây Low và Extremely Low khác nhau

Mặt khác ta dựa vào diff = 4,35941436 > 0 nên ta có thể kết luận năng lượng gió trung bình ở điều kiện cấp độ mây Low > năng lượng gió trung bình ở điều kiện cấp độ mây Extremely Low

Sự khác nhau giữa năng lượng gió trung bình ở điều kiện cấp độ mây Medium và Extremely Low:

Giả thiết H0: Năng lượng gió trung bình ở điều kiện cấp độ mây Medium và Extremely Low bằng nhau

Giả thiết H1: Năng lượng gió trung bình ở điều kiện cấp độ mây Medium và Extremely Low khác nhau

Mặt khác ta dựa vào diff = 4,45020183 > 0 nên ta có thể kết luận năng lượng gió trung bình ở điều kiện cấp độ mây Medium > năng lượng gió trung bình ở điều kiện cấp độ mây Extremely Low

Sự khác nhau giữa năng lượng gió trung bình ở điều kiện cấp độ mây Low và High:

Giả thiết H0: Năng lượng gió trung bình ở điều kiện cấp độ mây Low và High bằng nhau

Giả thiết H1: Năng lượng gió trung bình ở điều kiện cấp độ mây Low và High khác nhau

Ta nhận thấy p adj = 0,7890659 > mức ý nghĩa 5%, nên ta chưa bác bỏ được giả thiết H0 Năng lượng gió trung bình ở điều kiện cấp độ mây Low và High bằng nhau

Sự khác nhau giữa năng lượng gió trung bình ở điều kiện cấp độ mây Medium và High:

Giả thiết H0: Năng lượng gió trung bình ở điều kiện cấp độ mây Medium và High bằng nhau

Giả thiết H1: Năng lượng gió trung bình ở điều kiện cấp độ mây Medium và High khác nhau

Ta nhận thấy p adj = 0,4442614 > mức ý nghĩa 5%, nên ta chưa bác bỏ được giả thiết H0 Năng lượng gió trung bình ở điều kiện cấp độ mây Medium và High bằng nhau

Sự khác nhau giữa năng lượng gió trung bình ở điều kiện cấp độ mây Medium và Low:

Giả thiết H0: Năng lượng gió trung bình ở điều kiện cấp độ mây Medium và Low bằng nhau

Giả thiết H1: Năng lượng gió trung bình ở điều kiện cấp độ mây Medium và Low khác nhau

Ta nhận thấy p adj = 0,0251436 > mức ý nghĩa 5%, nên ta chưa bác bỏ được giả thiết H0 Năng lượng gió trung bình ở điều kiện cấp độ mây Medium và Low bằng nhau

Dựa trên việc so sánh bội sau anova, ta nhận thấy đối với điều kiện cấp độ mây (Extremely Low) sẽ cho thấy năng lượng gió tạo ra thấp hơn so với điều kiện cấp độ mây (Low, medium, High).

Tiêu đề	Bài Tập Lớn Môn Học: Xác Suất Và Thống Kê
Tác giả	Bùi Duy Nhựt, Lư Hữu Thuận, Nguyễn Thành Chung, Nguyễn An Khang, Tô Nghĩa Nhân
Người hướng dẫn	PTS. Nguyễn Kiều Dung
Trường học	Đại Học Quốc Gia Tp. Hồ Chí Minh, Trường Đại Học Bách Khoa, Khoa Khoa Học Ứng Dụng
Chuyên ngành	Xác Suất Và Thống Kê
Thể loại	Bài tập lớn
Năm xuất bản	2022
Thành phố	Tp. Hồ Chí Minh

Định dạng
Số trang	61
Dung lượng	3,96 MB