1. Trang chủ
  2. » Giáo Dục - Đào Tạo

BÀI TẬP LỚN MÔN XÁC SUẤT THỐNG KÊ Đề Tài Hồi Quy Tuyến Tính Bội Và Anova Ứng Dụng Mô Hình Hồi Quy Tuyến Tính Và Hàm Anova Trong Phân Tích Lưu Lượng Giao Thông

75 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Trang 1

TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH



BÀI TẬP LỚN MÔN XÁC SUẤT THỐNG KÊ Đề Tài: Hồi Quy Tuyến Tính Bội Và Anova

Ứng Dụng Mô Hình Hồi Quy Tuyến Tính Và Hàm Anova Trong Phân Tích Lưu Lượng Giao Thông

Sinh viên thực hiện: Phó Vạn Thông (NT) Giảng viên hướng dẫn: TS NGUYỄN BÁ THI

Thành phố Hồ Chí Minh – 2022

Trang 2

Mục lục

LỜI NÓI ĐẦU 2

A CƠ SỞ LÝ THUYẾT I Hồi quy tuyến tính bội 3

II Phân tích phương sai một yếu tố 10

Trang 3

LỜI NÓI ĐẦU

Thống kê là nghiên cứu của tập hợp nhiều lĩnh vực khác nhau, bao gồm phân tích, giải thích, trình bày và tổ chức dữ liệu Trong thực tiễn, thống kê có rất nhiều ứng dụng vào nhiều lĩnh vực khác nhau, đặc biệt rất cần thiết cho sinh viên các ngành khoa học, kỹ thuật Môn học Xác suất & thống kê cung cấp kiến thức cơ bản vềlý thuyết, giới thiệu một số hàm phân phối xác suất thông dụng, kiểm định giả thuyết, ước lượng khoảng tin cậy, v.v Thông qua thống kê, các dữ liệu thu thập được phân tích theo nhiều tiêu chí khác nhau giúp người sử dụng có cái nhìn tổng quan về dữ liệu của họ, đưa ra được ước lượng về tổng thể lớn hơn hay dự đoán mô hình và kiểm định lại giả thuyết theo các mức ý nghĩa khác nhau

Báo cáo của nhóm tập trung vào việc tìm hiểu hai phương pháp được sử dụng phổ biến trong Thống kê là Phân tích phương sai và Hồi quy tuyến tính bội Từ đó vận dụng chúng vào việc xử lý tệp dữ liệu cho sẵn, đưa ra những giá trị thống kê mô tả, đánh giá đặc điểm, tính chất của đối tượng thống kê, vẽ các đồ thị để có cái nhìn trực quan, v.v bằng phần mềm R/Rstudio.

Trang 4

A CƠ SỞ LÝ THUYẾTI Hồi quy tuyến tính bội

Hồi quy tuyến tính bội là phần mở rộng của hồi quy tuyến tính đơn Nó được sử dụng khi chúng ta muốn dự đoán giá trị của một biến phản hồi dựa trên giá trị của hai hoặc nhiều biến giải thích Biến chúng ta muốn dự đoán gọi là biến phản hồi (hoặc biến phụ thuộc) Các biến mà chúng ta đang sử dụng để dự đoán giá trị của biến phản hồi được gọi là các biến giải thích (hoặc biến dự báo, biến phụ thuộc)

Mô hình hồi quy tuyến tính bội có dạng tổng quát như sau:

Y = β1 + β2X2 + β3X3 + + βkXk + u Trong đó:

+ βi: Hệ số hồi quy riêng +Y: Biến phụ thuộc + Xi: Biến độc lập

+ β1:Hệ số tự do (hệ số chặn)

Như vậy, "Hồi quy tuyến tính" là một phương pháp để dự đoán giá trị biến phụ thuộc (Y) dựa trên giá trị của biến độc lập (X)

1 Hàm hồi quy tổng thể (PRF-Population Regression Function)

Với Y là biến phụ thuộc X2, X3,…, là biến độc lập, Y ngẫu nhiên và có một phân phối xác suất nào đó

Suy ra: Tồn tại E(Y | X2,X3, ,Xk) = giá trị xác định

Do vậy, F(X2,X3, ,Xk)=E(Y | X2,X3, ,Xk) là hàm hồi quy tổng thể của Y

Trang 5

+ Y = E(Y| X)+ U + E(Y | X) =F(X)

2 Hàm hồi quy mẫu (SRF-Sample Regression Function)

Do không biết tổng thể, nên chúng ta không biết giá trị trung bình tổng thể của biến phụ thuộc là đúng ở mức độ nào Do vậy chúng ta phải dựa vào dữ liệu mẫu để ước lượng Trên một mẫu có n cá thể, gọi 𝑌̂ = 𝐹̂(𝑋2, 𝑋3, … 𝑋𝑘) là hồi quy mẫu.Với một cá thể mẫu 𝑌𝑖 ≠ 𝐹̂(𝑋2,𝑖, 𝑋3,𝑖, … 𝑋𝑘,𝑖) sinh ra 𝑒𝑖 − 𝑌𝑖 −𝐹̂(𝑋2, 𝑋3, … 𝑋𝑘); 𝑒𝑖 gọi là phần dư SRF Ta có hàm hồi quy mẫu tổng quát được viết dưới dạng như sau:

𝑦̂ = 𝛽𝑖 ̂ + 𝛽1 ̂𝑥2 2,𝑖+ 𝛽̂𝑥3 3,𝑖+… 𝛽̂𝑥𝑘 𝑘,𝑖

Phần dư sinh ra: 𝑒𝑖 = 𝑦𝑖− 𝑦̂ Ký hiệu: 𝛽𝑖 ̂ là ước lượng của 𝛽𝑚 𝑚 Chúng ta trông đợi 𝛽̂ là ước lượng không chệch của 𝛽𝑚 𝑚, hơn nữa phải là một ước lượng hiệu quả Ước lượng SRF: chọn một phương pháp nào đó để ước lượng các tham số của F qua việc tìm các tham số của F̂ và lấy giá trị quan sát của các tham số này làm giá trị xấp xỉ cho tham số của F

3 Các giả thiết của phương pháp bình phương nhỏ nhất cho mô hình hồi quy tuyến tính bội

Trong khi xây dựng mô hình hồi quy đa biến cần kiểm tra các giả thiết như sau:

3.1 Hàm hồi quy là tuyến tính theo các tham số

Điều này có nghĩa là quá trình thực hành hồi quy trên thực tế được miêu tả bởi mối

quan hệ dưới dạng: y = β1 + β2x2 + β3x3 + β4x4 + + βkxk + u

3.2 Kỳ vọng của các yếu tố ngẫu nhiên ui bằng 0

Trung bình tổng thể sai số là bằng 0 Điều này có nghĩa là có một số giá trị sai số mang dấu dương và một số sai số mang dấu âm Do hàm xem như là đường trung

Trang 6

bình nên có thể giả định rằng các sai số ngẫu nhiên trên sẽ bị loại trừ nhau, ở mức trung bình, trong tổng thể

3.3 Các sai số độc lập với nhau

3.4 Các sai số có phương sai bằng nhau

Tất cả giá trị u được phân phối giống nhau với cùng phương sai 𝜎2, sao cho:

𝑉𝑎𝑟(𝑢𝑖) = 𝐸(𝑢𝑖2) = 𝜎2

3.5 Các sai số có phân phối chuẩn

Điều này rất quan trọng khi phát sinh khoảng tin cậy và thực hiện kiểm định giả thuyết trong những phạm vi mẫu là nhỏ Nhưng phạm vi mẫu lớn hơn, điều này trở nên không mấy quan trọng

4 Độ phù hợp của mô hình

Để có thể biết mô hình giải thích được như thế nào hay bao nhiêu % biến động của biến phụ thuộc, người ta sử dụng 𝑅2

Ta có:

+∑(𝑦𝑖 − 𝑦̅)2: TSS - Total Sum of Squares +∑(𝑦̂ − 𝑦̅)𝑖 2: ESS - Explained Sum of Squares +∑𝑒𝑖2: RSS - Residual Sum of Squares

Ta có thể viết: TSS = ESS + RSS

Ý nghĩa của các thành phần:

+ TSS là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Yi và giá trị trung bình

+ ESS là tổng bình phương của tất cả các sai lệch giữa các giá trị của biến phụ thuộc Y nhận được từ hàm hồi quy mẫu và giá trị trung bình của chúng Phần này đo độ

Trang 7

chính xác của hàm hồi quy

+ RSS là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Y và các giá trị nhận được từ hàm hồi quy

+ TSS được chia thành 2 phần: một phần do ESS và một phần do RSS gây ra 𝑅2 được xác định theo công thức:

𝑅2 =𝐸𝑆𝑆

𝑇𝑆𝑆 = 1 − 𝑅𝑆𝑆 𝑇𝑆𝑆

Tỷ số giữa tổng biến thiên được giải thích bởi mô hình cho tổng bình phương cần được giải thích được gọi là hệ số xác định, hay là trị thống kê “good of fit” Từ định nghĩa 𝑅2 chúng ta thấy 𝑅2 đo tỷ lệ hay số % của toàn bộ sai lệch Y với giá trị trung bình được giải thích bằng mô hình Khi đó người ta sử dụng 𝑅2 để đo sự phù hợp của hàm hồi quy:

+ 0 ≤ 𝑅2 ≤ 1

+ 𝑅2 cao nghĩa là mô hình ước lượng được giải thích được một mức độ cao biến động của biến phụ thuộc

+ Nếu 𝑅2 = 1, nghĩa là đường hồi quy giải thích 100% thay đổi của y

+ Nếu 𝑅2 = 0, nghĩa là mô hình không đưa ra thông tin nào về sự thay đổi của biến phụ thuộc y

5 Khoảng tin cậy và kiểm định các hệ số hồi quy

5.1 Ước lượng khoảng tin cậy đối với các hệ số hồi quy:

Mục đích của phân tích hồi quy không phải chỉ suy đoán về 𝛽1, 𝛽1, … 𝛽𝑘 mà còn phải kiểm tra bản chất sự phụ thuộc Do vậy cần phải biết phân bố xác suất của 𝛽1, 𝛽1, … 𝛽𝑘 Các phân bố này phụ thuộc vào phân bố của các 𝑢𝑖

Với các giả thiết OLS, 𝑢𝑖 có phân phối 𝑁(0, 𝜎2) Các hệ số ước lượng tuân theo phân phối chuẩn:

𝛽̂ ~𝑁 (𝛽𝑗 ̂ , 𝑆𝑒(𝛽𝑗 ̂ )) 𝑗

Trang 8

𝛽̂ − 𝛽𝑗 𝑗

𝑆𝑒(𝛽̂ )𝑗 ~𝑇(𝑛 − 𝑘)

Ước lượng phương sai sai số dựa vào các phần dư bình phương tối thiểu Trong đó k là số hệ số có trong phương trình hồi quy đa biến:

5.2 Kiểm định giả thiết đối với Qj

Kiểm định ý nghĩa thống kê của các hệ số hồi quy có ý nghĩa hay không: kiểm định rằng biến giải thích có thực sự ảnh hưởng đến biến phụ thuộc hay không Nói cách khác là hệ số hồi quy có ý nghĩa thống kê hay không Có thể đưa ra giả thiết nào đó đối với 𝛽𝑗, chẳng hạn 𝛽𝑗 = 𝛽𝑗∗ Nếu giả thiết này đúng thì:

Trang 9

Giả thuyết H0: 𝛽𝑗 = 0 < => 𝑥𝑗 không tác động

Giả thuyết H0: 𝛽𝑗 ≠ 0 < => 𝑥𝑗 không tác động

𝛽𝑗 < 0 < => 𝑥𝑗 có tác động ngược

𝛽𝑗 < 0 < => 𝑥𝑗 có tác động thuận

6 Kiểm định mức độ ý nghĩa chung của mô hình (trường hợp đặc biệt của kiểm định WALD)

6.1 Khái quát về kiểm định WALD

Giả sử chúng ta có 2 mô hình dưới đây: (U) : Y = 𝛽1 + 𝛽2𝑋2 + 𝛽3𝑋3 + 𝛽4𝑋4 + 𝑢

(R) : Y = 𝛽1 + 𝛽2𝑋2 + 𝑣

Mô hình U được gọi là mô hình không giới hạn (Unrestrict), và mô hình R được gọi là mô hình giới hạn (Restrict) Đó là do 𝛽3 và 𝛽4 buộc phải bằng 0 trong mô hình R Ta có thể kiểm định giả thuyết liên kết 𝛽3 = 𝛽4 = 0 với giả thuyết đối là ít nhất một trong những hệ số này không bằng 0 Kiểm định giả thuyết liên kết này được gọi là kiểm định Wald, thủ tục như sau

Đặt các mô hình giới hạn và không giới hạn là:

(U) : Y = β1 + β2X2 + + βmXm + βm+1Xm+1+ + 𝛽𝑘𝑋𝑘+ u

(R) : Y = β1 + β2X2 + + βmXm +v Mô hình (R) có được bằng cách bỏ bớt một số biến ở mô hình (U), đó là: Xm+1, Xm+1, X𝑘

Giả thiết H0: βm+1=…= βk=0

Giả thuyết H1: “Không phải đồng thời các tham số bằng 0”

Lưu ý rằng (U) chứa k hệ số hồi quy chưa biết và (R) chứa m hệ số hồi quy chưa biết Do đó, mô hình R có ít hơn (k−m) thông số so với U Câu hỏi chúng ta nêu ra là (k−m) biến bị loại ra có ảnh hưởng liên kết có ý nghĩa đối với Y hay không Trị thống

Trang 10

𝐹𝑐 =[𝑅𝑆𝑆𝑅− 𝑅𝑆𝑆𝑈]/(𝑘 − 𝑚)

𝑅𝑆𝑆𝑈/(𝑛 − 𝑘) ~𝐹(𝛼, 𝑘 − 𝑚, 𝑛 − 𝑘) =

𝑅𝑈2 − 𝑅𝑅2/(𝑘 − 𝑚) 1 − 𝑅𝑈2/(𝑛 − 𝑘) Với 𝑅2 là số đo độ thích hợp không hiệu chỉnh Với giả thuyết không, Fc có phân phối F với (k−m) bậc tự do đối với tử số và (n−k) bậc tự do đối với mẫu số

Bác bỏ giả thuyết H0 khi:

𝐹𝑐 > 𝐹(𝛼, 𝑘 − 𝑚, 𝑛 − 𝑘)

Hoặc giá trị p-value của thống kê F nhỏ hơn mức ý nghĩa cho trước

6.2 Kiểm định ý nghĩa của mô hình

Trong mô hình hồi quy đa biến, giả thuyết “không” cho rằng mô hình không có ý nghĩa được hiểu là tất cả các hệ số hồi quy riêng đều bằng 0

Ứng dụng kiểm định Wald (thường được gọi là kiểm định F) được tiến hành cụ thể như sau:

Bước 1: Giả thuyết H0: β2 = β3 = = βk = 0

Giả thuyết H1: “có ít nhất một trong những giá trị β khác không”

Bước 2: Trước tiên hồi quy Y theo một số hạng không đổi và X2, X3, , Xk, sau đó tính tổng bình phương sai số 𝑅𝑆𝑆𝑈 , 𝑅𝑆𝑆𝑅 Phân phối F là tỷ số của hai biến ngẫu nhiên phân phối khi bình phương độc lập Điều này cho ta trị thống kê:

𝐹𝑐 =[𝑅𝑆𝑆𝑅 − 𝑅𝑆𝑆𝑈]/(𝑘 − 𝑚)

𝑅𝑆𝑆𝑈/(𝑛 − 𝑘) ~𝐹(𝛼, 𝑘 − 𝑚, 𝑛 − 𝑘)

Vì H0: β2= β3 = = βk = 0, nhận thấy rằng trị thống kê kiểm định đối với giả thuyết này sẽ là:

Trang 11

𝐹𝑐 = 𝐸𝑆𝑆/(𝑘 − 1)

𝑅𝑆𝑆/(𝑛 − 𝑘)~𝐹(𝛼, 𝑘 − 𝑚, 𝑛 − 𝑘)

Bước 3: Tra số liệu trong bảng F tương ứng với bậc tự do (k−1) cho tử số và (n−k)

cho mẫu số, và với mức ý nghĩa α cho trước

Bước 4: Bác bỏ giả thuyết H0 ở mức ý nghĩa α nếu 𝐹𝐶 > 𝐹(𝛼, 𝑘 − 1, 𝑛 − 𝑘)

Đối với phương pháp giá trị p-value, tính giá trị p = P (F >𝐹𝐶 |H0) và bác bỏ giả thuyết H0 nếu p bé hơn mức ý nghĩa α

II Phân tích phương sai một yếu tố

1 Lý thuyết về ANOVA (phân tích phương sai)

Mục tiêu của phân tích phương sai (Analysis of Variance - ANOVA) là so sánh trung bình của nhiều nhóm (tổng thể) dựa trên các trị trung bình của các mẫu quan sát từ các nhóm này và thông qua kiểm định giả thuyết của kết luận và sự bằng nhau của các trung bình tổng thể này

ANOVA thực ra là một mở rộng của phương pháp kiểm định t cho các mẫu độc lập khi so sánh trung bình của các nhóm gồm các quan sát độc lập Không như phương pháp kiểm định t, ANOVA có thể so sánh nhiều hơn hai nhóm Lưu ý rằng ANOVA không so sánh các phương sai, mà là phân tích các phương sai để so sai để so sánh các kỳ vọng

Ta có các mô hình phân tích phương sai: phân tích phương sai một yếu tố và hai yếu tố Cụm từ yếu tố ở đây ám chỉ số lượng yếu tố nguyên nhân ảnh hưởng đến yếu tố kết quả đang nghiên cứu

2 Phân tích phương sai một yếu tố

Phân tích phương sai được dùng trong các trắc nghiệm để so sánh các giá trị trung bình của hai hay nhiều mẫu được lấy từ các phân số Đây có thể được xem như phần mở rộng trắc nghiệm t hay z (so sánh hai giá trị trung bình)

Trang 12

2.1 Trường hợp k tổng thể có phân phối chuẩn và phương sai bằng nhau

Giả sử rằng chúng ta muốn so sánh trung bình của k tổng thể (với ví dụ trên thì k3) dựa trên những mẫu ngẫu nhiên độc lập gồm n1, n2, n3, , nk quan sát từ k tổng thể Cần ghi nhớ ba giả định Giả sau đây về các nhóm tổng thể được tiến hành phân tích ANOVA

+ Các tổng thể này có phân phối bình thường + Các phương sai tổng thể bằng nhau

+ Các quan sát được lấy mẫu là độc lập nhau

Nếu trung bình của các tổng thể được ký hiệu là µ1 = µ2 = = µk thì khi các giả định trên được đáp ứng, mô hình phân tích phương sai một yếu tố ảnh hưởng được mô tả dưới dạng kiểm định giả thuyết như sau:

H0: µ1 = µ2 = = µk

Giả thuyết 𝐻0 cho rằng trung bình của k tổng thể đều bằng nhau (về mặt nghiên cứu liên hệ thì giải thuyết này cho rằng yếu tố nguyên nhân không có tác động gì đến vấn đề ta đang nghiên cứu) Và giả thuyết đối là:

H1: Tồn tại ít nhất một cặp trung bình tổng thể khác nhau

Các bước thực hiện:

Bước 1: Tính các trung bình mẫu của các nhóm (xem như đại diện của các tổng thể)

Trước hết ta xem cách tính các trung bình mẫu từ những quan sát của k mẫu ngẫu nhiên độc lập (ký hiệu 𝑥̅ , 𝑥1 ̅̅̅, … 𝑥2 ̅̅̅) và các trung bình chung của k mẫu quan sát (ký 𝑘

hiệu 𝑥̅) từ trường hợp tổng quát như sau:

Bảng 2 Bảng số liệu tổng quát thực hiện phân tích phương sai

Trang 13

Bước 2: Tính các tổng các chênh lệch bình phương (hay gọi tắt là tổng bình

phương) Tính tổng các chênh lệch bình phương trong nội bộ nhóm 𝑆𝑆𝐸1 và tổng

Trang 14

+ Tổng các chênh lệch bình phương trong nội bộ nhóm (SSE) được tính bằng cách cộng các chênh lệch bình phương giữa các giá trị quan sát với trung bình mẫu của từng nhóm, rồi sau đó lại tính tổng cộng kết quả tất cả các nhóm lại SSE phản ánh phần biến thiên Tổng các chênh lệch bình phương trong nội bộ nhóm (SSE) được tính bằng cách cộng các chênh lệch bình phương giữa các giá trị quan sát với trung bình mẫu của từng nhóm, rồi sau đó lại tính tổng kết quả tất cả các nhóm lại SSE phản ánh biến thiên của yếu tố kết quả do ảnh hưởng của các yếu tố khác, chứ không phải do yếu tố nguyên nhân đang nghiên cứu (là yếu tố dùng để phân biệt

Tương tự như vậy ta tính cho đến nhóm thứ k được 𝑆𝑆𝑘 Vậy tổng các chênh lệch bình phương trong nội bộ các nhóm được tính như sau:

𝑆𝑆𝐸 = 𝑆𝑆1+ 𝑆𝑆2+ 𝑆𝑆𝑘

+ Tổng các chênh lệch bình phương giữa các nhóm (SSTr) được tính bằng cách cộng các chênh lệch được lấy bình phương giữa các trung bình mẫu của từng nhóm với trung bình chung của k nhóm (các chênh lệch này đều được nhận thêm với số quan sát tương ứng cả từng nhóm) SSTr phản ánh phần biến thiên của yếu tố kết quả do ảnh hưởng của yếu tố nguyên nhân đang nghiên cứu

𝑆𝑆𝑇𝑟 = ∑ 𝑛𝑖(𝑥̅ − 𝑥̅)𝑖 2

+ Tổng các chênh lệch bình phương toàn bộ SST được tính bằng cách cộng tőng các chênh lệch đã lấy bình phương giữa từng giá trị quan sát của toàn bộ mẫu

nghiên cứu (xij) với trung bình toàn bộ (x) SST phản ánh biến thiên của yếu tố kết quả do ảnh hưởng của tất cả các nguyên nhân

Trang 15

Có thể dễ dàng chứng minh là tổng các chênh lệch bình phương toàn bộ bằng tổng cộng tổng các chênh lệch bình phương trong nội bộ các nhóm và tổng các chênh lệch bình phương giữa các nhóm

SST = SSE + SSTr

Như vậy công thức trên cho thấy, SST là toàn bộ biến thiên của yếu tố kết quả đã được phân tích thành hai phần: phần biến thiên do yếu tố đang nghiên cứu tạo ra (SSTr) và phần biến thiên còn lại do các yếu tố khác không nghiên cứu ở đây tạo ra (SSE) Nếu phần biến thiên do yếu tố nguyên nhân đang xét tạo ra càng “đáng kể” so với phần biến thiên do các yếu tố khác không cét tạo ra, thì chúng ta càng có cơ sở đe bác bỏ H0 và kết luận là yếu tố nguyên nhân đang nghiên cứu ảnh hưởng có ý nghĩa đến yếu tố kết quả

Bước 3: Tính các phương sai (là trung bình của các chênh lệch bình phương)

Các phương sai được tính bằng cách lấy các tổng chênh lệch bình phương chia cho bậc tự do tương ứng

Tính phương sai trong nội bộ nhóm (MSE) bang cách lấy tőng các chênh lệch bình phương trong nội bộ các nhóm (SSE) chia cho bậc tự do tương ứng là n - k (n là số quan sát, k là số nhóm so sánh) MSE là ước lượng phần biến thiên của yếu tố kết quả do các yếu tố khác gây ra

𝑀𝑆𝐸 = 𝑆𝑆𝐸 𝑛 − 𝑘

Tính phương sai giữa các nhóm (MSTr) bằng cách lấy tổng các chênh lệch bình phương giữa các nhóm chia cho bậc tự do tương ứng là k - 1 MSTr là ước lượng phần biến thiên của yếu tố kết quả do yếu tố nguyên nhân đang nghiên cứu gây

Trang 16

Giả thuyết về sự bằng nhau của k trung bình tổng thể được quyết đinh dựa trên tỉ số của hai phương sai: phương sai giữa các nhóm (MSTr) và phương sai trong nội bộ nhóm (MSE) Tỉ số này goi là tỉ số F vì nó tuân theo định luật Fisher – Snedecor với bậc tự do k - 1 ở tử số và n - k ở mẫu số

𝐹 =𝑀𝑆𝑇𝑟 𝑀𝑆𝐸

Ta bác bỏ giả thuyết H0 cho rằng trị trung bình của k tổng thể bằng nhau khi:

𝐹 > 𝐹𝑘−1;𝑛−𝑘;𝛼

𝐹 > 𝐹𝑘−1;𝑛−𝑘;𝛼 là giá trị giới hạn với bậc tự do k tra theo hàng đầu tiên và n – k tra theo cột đầu tiên, nhớ chọn bảng với mác ý nghĩa phù hợp

Sau đây là dạng bảng kết quả tőng quát của ANOVA khi phân tích bằng chương trình Excel hay SPSS

2.3 Kiểm tra các giả định của phân tích phương sai

Chúng ta có thể kiểm tra nhanh các giả định này bằng đồ thị Histogram là phương pháp tốt nhất để kiểm tra giả định về phân phối chuẩn của dữ liệu nhưng nó đòi hỏi một số lượng quan sát khá lớn Biểu đồ thân lá hay biểu đồ hộp và râu là một thay thế tốt trong tình huống so quan sát ít hơn Nếu công cụ đồ thị cho thấy tập dữ liệu mẫu khá phù hợp với phân phối bình thường thì ta có thế xem giả định phân phối bình thường đã thỏa mãn

Trang 17

Bảng 3 Bảng kết quả tổng quát của ANOVA khi phân tích bằng Excel hay SPSS

Một phương pháp kiểm định tham số chắc chắn hơn cho giả định phương sai bằng nhau là kiểm định Levene về phương sai của các tőng thể Kiểm định này xuất phát từ giả thuyết sau

𝐻0: 𝜎12, 𝜎22, … 𝜎𝑘2

𝐻1: có ít nhất một cặp phương sai khác nhau

Để quyết định chấp nhận hay bác bỏ H0 ta tính toán giá trị kiểm định F theo công thức:

𝐹𝑚𝑎𝑥 =𝑆𝑚𝑎𝑥

Trong đó:

𝑆𝑚𝑎𝑥2 là phương sai lớn nhất trong các nhóm nghiên cứu và 𝑆𝑚𝑖𝑛2 là phương sai nhỏ nhất trong các nhóm nghiên cứu

Giá trị F tính được được đem so sánh với giá trị 𝐹𝑘;𝑑𝑓;𝛼 α tra được từ bảng phân phối Hartley 𝐹𝑚𝑎𝑥 Trong đó, k là so nhóm so sánh, bậc tự do df tính theo công thức:

𝑑𝑓 = 𝑛̅ − 1

Trang 18

Trong tình huống, các nhóm có số quan sát khác nhau thì 𝑛̅ = ∑𝑘𝑖=1𝑛𝑖

𝑘 (chú ý là nếu kết quả tính 𝑛̅ là một số thập phân thì ta lấy phần nguyên)

Quy tắc quyết định:

𝐹𝑚𝑎𝑥 > 𝐹𝑘;𝑑𝑓;𝛼 thì bác bỏ giả thuyết H0 cho rằng phương sai bằng nhau và ngược lại

Nếu chúng ta không chắc chắn về các giả định hoặc nếu kết quả kiểm định cho thấy các giả định không được thỏa mãn thì một phương pháp kiểm định thay the cho ANOVA là phương pháp kiểm định phi tham so Kruskal - Wallis sẽ được áp dụng

2.4 Phân tích sâu ANOVA

Mục đích của phân tích phương sai là kiểm định giả thuyết H0 rằng trung bình của tőng thể bằng nhau Sau khi phân tích và kết luận, có hai trường hợp xảy ra là chấp thuận giả

thuyết H0 hoặc bác bỏ giả thuyết H0 Nếu chấp nhận giả thuyết H0 thì phân tích kết thúc

Nếu bác bỏ giả thuyết H0, bạn kết luận trung bình của các tőng thể không bằng nhau Vì vậy, vấn đề tiếp theo là phân tích sâu hơn để xác minh nhóm (tổng thể) nào khác nhóm nào, nhóm nào có trung bình lớn hơn hay nhỏ hơn

Có nhiều phương pháp để tiếp tục phân tích sâu ANOVA khi bác bỏ giả thuyết H0 Trong phần này chỉ đề cập đến một phương pháp thôn dụng đó là phương pháp Tukey, phương pháp này còn được gọi là kiểm định HSD (Honestly Significant Differences) Nội dung của phương pháp này là so sánh từng cặp các trung bình nhóm ở mác ý nghĩa nào đó cho tất cả các cặp kiểm định có thể dễ phát hiện ra những nhóm khác nhau Nếu có k nhóm nghiên cứu và chúng ta so sánh tất cả các cặp nhóm thì số lượng cặp cần phải so sánh là

Trang 19

Trong đó:

+ 𝑞∝;𝑘;𝑛−𝑘 là giá trị tra bảng phân phối kiểm định Tukey ở mác ý nghĩa, với bậc tự do k và n – k, với n là tőng số quan sát mẫu (𝑛 = ∑ 𝑛𝑖)

+ 𝑀𝑆𝑊 là phương sai trong nội bộ nhóm

+ 𝑛i là số quan sát trong một nhóm (tổng thể), trong trường hợp mọi nhóm có số quan sát ni khác nhau, sử dụng giá trị 𝑛i nhỏ nhất

Tiêu chuẩn quyết định là bác bỏ giả thuyết H0 khi độ lệch tuyệt đối giữa các cặp trung bình mẫu lớn hơn hay bằng T giới hạn

Bên cạnh việc kiểm định để phát hiện ra những nhóm khác biệt, chúng ta có thể tìm khoảng ước lượng cho chênh lệch giữa các nhóm có khác biệt có ý nghĩa thống kê Ước lượng khoảng về chênh lệch giữa hai trung bình nhóm có khác biệt tính theo công thức:

𝜇1− 𝜇2 = (𝑥̅1− 𝑥̅2) ± 𝑡𝑛−𝑘;∝/2√2𝑀𝑆𝑊 𝑛𝑖

Trong đó, t là giá trị được tra tà bảng phân phoi Student t với (n - k) bậc tự do Trong chương trình Excel không có các lệnh phân tích sâu ANOVA Chúng ta có thể thực hiện phân tích này bằng chương trình SPSS Ngoài ra kết quả của SPSS còn cung cấp cho các bạn một kiểm định chính thức về sự bằng nhau của các phương sai tőng thể là kiểm định Levene

Trang 20

B THỰC HÀNH

I Phần chung

1 Hoạt động 1: Hồi quy tuyến tính bội 1.1 Đề bài

Trang 21

1.2 Thực hiện

1.2.1 Đọc dữ liệu (Import data): “gia_nha.csv”

Trang 22

Giải thích: Code R và kết quả đọc dữ liệu và hiện 6 dòng đầu tiên của dữ liệu

1.2.2 Làm sạch dữ liệu (Data cleaning)

a Trích dữ liệu con bao gồm các biến chính trong phần giới thiệu dữ liệu và đặt tên là

new_DF

Giải thích: Tạo một dữ liệu mới chỉ bao gồm các biến chính mà ta quan tâm, lưu với tên

là new_DF rồi xuất ra 6 dòng đầu tiên

b Kiểm tra dữ liệu khuyết

Giải thích: Kiểm tra dữ liệu khuyết trong new_DF

Trang 23

Giải thích: Thống kê số lượng và tỉ lệ dữ liệu khuyết trong các biến

Nhận xét: Dựa vào kết quả thu được sau khi kiểm tra dữ liệu khuyết trong new_DF, ta

nhận thấy có 20 giá trị dữ liệu khuyết tại biến price Vậy nên ta cần xử lý dữ liệu khuyết tại đó Phương pháp xử lý được đề xuất là thay thế giá trị trung bình ở các quan sát còn lại của biến price vào vị trí chứa dữ liệu khuyết

Giải thích: Thay thế giá trị trung bình của biến price ở các quan sát còn lại ở vị trí chứa dữ liệu khuyết và kiểm tra lại xem đã xử lý hết dữ liệu khuyết chưa

Nhận xét: Sau khi xử lý dữ liệu, ta nhận thấy không còn dữ liệu khuyết

1.2.3 Làm rõ dữ liệu (Data visualization):

a Tạo một data mới tên new_DF1 từ new_DF rồi chuyển các biến price, sqft_above,

sqft_living, sqft_living15 sang dạng log(x)

Giải thích: Tạo một data mới tên new_DF1 từ new_DF và chuyển các biến price,

sqft_above, sqft_living, sqft_living15 sang dạng log(price), log(sqft_above), log(sqft_living), log(sqft_living15)

b Dùng hàm mean(_), sd(_), min(_), max(_), median(_) tính các giá trị thống kê mô tả gồm: trung bình, trung vị, độ lệch chuẩn, giá trị lớn nhất, giá trị nhỏ nhất và dùng hàm data.frame(_) để xuất kết quả dưới dạng bảng

Trang 24

Giải thích: Tính các giá trị thống kê mô tả (trung bình mẫu, độ lệch chuẩn, min, max, trung vị) của các biến price, sqft_above, sqft_living, sqft_living15

Giải thích: Xuất kết quả vừa tính dưới dạng bảng

Giải thích: Tính các giá trị thống kê mô tả (trung bình mẫu, độ lệch chuẩn, min, max, trung vị) của các biến price, sqft_above, sqft_living, sqft_living15

đã chuyển sang dạng log(x)

Giải thích: Xuất kết quả vừa tính dưới dạng bảng

c Dùng hàm table(_) lập bảng thống kê số lượng cho từng chủng loại của các biến

Trang 25

Giải thích: Code R và hình vẽ đồ thị histogram biểu hiện phân phối biến price.

Giải thích: Code R và hình vẽ đồ thị histogram biểu hiện phân phối biến log(price) Nhận xét:Dựa trên biểu đồ histogram của biến price, ta nhận thấy phân phối của

Trang 26

nhau, và chỉ có số ít ngôi nhà có giá trị cao hơn Trong khi với biểu đồ log(price) có dạng phân phối chuẩn tập trung phần lớn trong khoảng từ 12 đến 14 và thấp dần về phía 2 đầu

e Dùng hàm boxplot(_) vẽ phân phối biến price theo biến floors và condition

Giải thích:Biểu đồ boxplot thể hiển phân phối chuẩn của biến price theo từng phân loại của biến floors

Trang 27

Giải thích: Biểu đồ boxplot thể hiển phân phối chuẩn của biến log(price) theo từng phân loại của biến floors

Nhận xét: Đối với biểu đồ log(price) theo floors, ta thấy phân phối của

log(price) khác biệt đối với những ngôi nhà có số tầng khác nhau Ta dự đoán floors là một nhân tố ảnh hưởng đến log(price)

Trang 28

Giải thích:Biểu đồ boxplot thể hiển phân phối chuẩn của biến price theo từng phân loại của biến condition.

Trang 29

Giải thích: Biểu đồ boxplot thể hiển phân phối chuẩn của biến log(price) theo từng phân loại của biến condition

Nhận xét: Đối với biểu đồ log(price) theo condition, ta thấy phân phối của

log(price) khác biệt đối với những ngôi nhà có điều kiện khác nhau Ta dự đoán condition là một nhân tố ảnh hưởng đến log(price)

f Dùng lệnh pairs(_) vẽ các phân phối của biến price lần lượt theo các biến sqft_above, sqft_living, sqft_living15 trước và sau khi chuyển sang dạng log(x)

Giải thích: Đồ thị thể hiện phân phối của biến price theo biến sqft_above

Trang 30

Giải thích: Đồ thị thể hiện phân phối của biến price theo biến log(sqft_above) Nhận xét: Dựa trên đồ thị phân tán của biến price và sqft_above, ta chưa nhận thấy mối quan hệ tuyến tính của 2 biến được biểu hiện rõ ràng Tuy nhiên với đồ thị phân tán của log(price) và log(sqft_above), ta nhận thấy rõ hơn mối quan hệ tuyến tính giữa 2 biến này (cụ thể là quan hệ đồng biến)

Trang 31

Giải thích: Đồ thị thể hiện phân phối của biến price theo biến sqft_living

Trang 32

Giải thích: Đồ thị thể hiện phân phối của biến price theo biến log(sqft_living) Nhận xét: Dựa trên đồ thị phân tán của biến price và sqft_living, ta chưa nhận thấy mối quan hệ tuyến tính của 2 biến được biểu hiện rõ ràng Tuy nhiên với đồ thị phân tán của log(price) và log(sqft_living), ta nhận thấy rõ hơn mối quan hệ tuyến tính giữa 2 biến này (cụ thể là quan hệ đồng biến)

Giải thích: Đồ thị thể hiện phân phối của biến price theo biến sqft_living15

Trang 33

Giải thích: Đồ thị thể hiện phân phối của biến price theo biến log(sqft_living15) Nhận xét: Dựa trên đồ thị phân tán của biến price và sqft_living15, ta chưa nhận thấy mối quan hệ tuyến tính của 2 biến được biểu hiện rõ ràng Tuy nhiên với đồ thị phân tán của log(price) và log(sqft_living15), ta nhận thấy rõ hơn mối quan hệ tuyến tính giữa 2 biến này (cụ thể là quan hệ đồng biến)

Tóm lại dựa trên những nhận xét về các đồ thị trên, ta nhận thấy việc chuyển đổi các biến sang dạng log(x) sẽ giúp việc phân tích mối quan hệ tuyến tính giữa biến phụ thuộc và các biến độc lập có hiệu quả cao hơn

1.2.4 Xây dựng các mô hình hồi quy tuyến tính (Fitting linear regression models) Vậy, mối quan hệ giữa các biến độc lập với biến phụ thuộc có phải là ngẫu nhiên hay thực sự có mối quan hệ tuyến tính giữa chúng ? Để trả lời câu hỏi này, ta sẽ dùng mô hình hồi quy tuyến tính để kiểm tra mối quan hệ giữa giá nhà và các biến độc lập thông qua đánh giá các khoảng tin cậy và các phép kiểm định Hơn nữa, việc thiết lập mô hình hồi quy tuyến tính còn cho phép ta ước lượng giá trị biến phụ thuộc (giá nhà) theo các biến độc lập (số tầng, diện tích, điều kiện kiến trúc, của ngôi nhà)

Trang 34

Để tìm hiểu xem có những nhân tố tác động nào và tác động như thế nào đến giá nhà quận King, ta xét mô hình hồi quy tuyến tính bao gồm:

- Biến phụ thuộc: price tương ứng log(price) trong bộ dữ liệu new_DF1

- Biến độc lập: sqft_above, sqft_living, sqft_living15, floors và condition ở dạng

log(x) tương ứng trong bộ dữ liệu new_DF1

a Dùng lệnh lm(_) để thực thi mô hình hồi quy tuyến tính bội Mô hình được biểu diễn như sau:

log(price) = β0 + β1 × floors + β2 × condition + β3 × log(sqft_above) + β4 × log(sqft_living) + β5 × log(sqft_ living15)

Ta thực hiện ước lượng các hệ số βi, i=0,…,5 dựa trên tệp tin new_DF1:

Giải thích: Code R và kết quả xuất ra khi thực hiện xây dựng mô hình hồi quy tuyến tính

Từ phân tích trên ta có thể viết được phương trình đường thẳng hồi quy ước lượng như sau:

Log(price) = 5.451345 + 0.136870 × floors + 0.085407 × condition – 0.178314 × log(sqft_above) + 0.685977 × log(sqft_living) + 0.429764 × log(sqft_ living15)

b Loại khỏi mô hình những biến tương ứng độ tin cậy α = 0.05 Tiến hành kiểm định các hệ số hồi quy:

- Giả thuyết 𝐻0: βi = 0 i=0,…,5 (Hệ số hồi quy không có ý nghĩa thống kê) - Giả thuyết 𝐻1: βi ≠ 0 i=0,…,5 (Hệ số hồi quy có ý nghĩa thống kê)

Trang 35

Ta thấy Pr(> |t|) của các hệ số ứng với các biến đều bé hơn mức ý nghĩa α = 0.05 nên ta bác bỏ giả thuyết 𝐻0, chấp nhận H1 Do đó hệ số ứng với các biến này đều có ý nghĩa với mô hình hồi quy ta xây dựng và ta sẽ giữ lại tất cả các biến

c Dùng hàm Anova(_) chọn mô hình hồi quy hợp lý: Ta có:

- Mô hình M1 chứa tất cả các biến còn lại là biến độc lập (ta đã xét mô hình này ở câu a)

- Mô hình M2 chưa dữ liệu như mô hình M1 nhưng loại trừ biến condition Để xây dựng mô hình M2, ta thực hiện như sau:

Giải thích: code R và kết quả mô hình hồi quy tuyến tính M2

Từ phân tích trên ta có thể viết được phương trình đường thẳng hồi quy ước lượng như sau:

Log(price) = 5.810420 + 0.112811 × floors – 0.203136 × log(sqft_above) + 0.721355 × log(sqft_living) + 0.414445 × log(sqft_ living15)

Tiếp theo ta dùng lệnh Anova(_) để tìm ra mô hình phù hợp hơn:

Trang 36

Giải thích: code R và kết quả xuất ra màn hình khi dùng lệnh Anova(_) lần lượt lên mô hình M1 và M2

d Từ sự tác động của các biến lên giá nhà, chọn mô hình hợp lý hơn từ câu c Từ số liệu Pr(>F) của cả 2 mô hình cho thấy cả 2 đều có ý nghĩa trong việc dự báo biến phụ thuộc, tuy nhiên giá trị R2 hiệu chỉnh của mô hình M2 bé hơn của mô hình M1 (0.4881 < 0.4983)

Nhắc lại, R2 hiệu chỉnh có ý nghĩa giải thích sự biến thiên của một biến phụ thuộc bởi bao nhiêu % từ sự biến thiên các biến độc lập Từ kết quả phân tích ta thấy giá trị R2 hiệu chỉnh của 2 mô hình M1 và M2 lần lượt 0,4983 Nghĩa là trong 100% sự biến thiên của biến log(price): ở M1 có 49.83% nguyên nhân là do các biến độc lập trong mô hình gây nên, còn lại là do các yếu tố như sai số hồi quy hoặc các biến độc lập khác chưa đưa vào mô hình; trong khi đó ở M2 chỉ có 48.81% nguyên nhân là do các biến độc lập đã đưa vào mô hình gây nên

=> Chọn mô hình M1

Phân tích sự tác động của các biến lên giá nhà (xét trên M1):

- Ta thấy rằng p – value tương ứng với thống kê F bé hơn 2.2e – 16 đồng thời p – value tương ứng hệ số βi của từng biến độc lập đều bé hơn 2e – 16 chứng tỏ ảnh hưởng của các biến này lên giá trị biến price có ý nghĩa rất lớn

- Hệ số hồi quy βi của một biến dự báo cũng có thể được coi như là có ảnh hưởng lên biến phụ thuộc khi thay đổi giá trị biến dự báo tương ứng Ta thấy hệ số βi tương ứng của các biến floors, condition, sqft_living, sqft_living15 >0 nên khi tăng giá trị các biến

Trang 37

này thì giá nhà sẽ tăng và ngược lại, còn hệ số βi tương ứng của sqft_above <0 nên khi sqft_above tăng thì giá nhà sẽ giảm

- Như đã phân tích ở trên thì R2 hiệu chỉnh cũng có ý nghĩa giải thích ảnh hưởng của các biến lên giá nhà

e Dùng lệnh plot(_) để vẽ đồ thị biểu thị sai số hồi quy (residuals) và giá trị dự báo (fitted values) của mô hình M1

Giải thích: code R và kết quả đồ thị Residuals và Fitted values của mô hình M1 Nhận xét:

Nhắc lại các giả định của mô hình hồi quy:

𝑌𝑖 = 𝛽0 + 𝛽1.𝑋1 + 𝛽𝑖 .𝑋𝑖+ 𝜀𝑖, i = 1, n

• Tính tuyến tính của dữ liệu: mối quan hệ giữa biến dự báo X và biến phụ thuộc Y được giả sử là tuyến tính

• Sai số có kì vọng = 0 (𝜇 = 0)

• Sai số có phân phối chuẩn 𝜀𝑖 ∼ N (0, 𝜎2)

• Phương sai của các sai số là hằng số (𝜎2 = 𝑐𝑜𝑛𝑠𝑡)

Ngày đăng: 21/04/2024, 18:02

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w