t T ng các chênh lổ ệch bình phương của tàng nhóm được tính theo công thác: Tương tự như vậy ta tính cho đển nhóm thá k được SSk.. Vậy t ng ổ các chênh lệch bình phương trong nội bộcác
Trang 1TRƯNG ĐI HC BCH KHOA
STT MÃ S SINH VIÊN Ố H VÀ TÊN Ọ QUÁ TRÌNH TIẾN TRÌNH
Trang 2MỤC LỤC
MỤC LỤC i
DANH MỤC HÌNH ẢNH iii
CHƯƠNG 1 GIỚI THIỆU DỮ LIỆU 1
1.1 CƠ SỞ LÝ THUYẾT 1
1.1.1 H i qui tuy n tính b i 1ồ ế ộ 1.1.2 Hàm h i quy t ng th (PRF- Population Regression Function) 1ồ ổ ể 1.1.3 Hàm h i quy m u (SRF - Sample Regression Function): 1ồ ẫ 1.1.4 Các gi ả thiết củ phươnga pháp bình phương nh nh t ỏ ấ cho mô hình h i quy tuy n ồ ế tính bội 2
1.1.5 Độ phù h pợ c a ủ mô hình 2
1.1.6 Khoảng tin cậy và kiểm định cáchệ số h i ồ quy 3
1.1.7 Kiểm định mức độ ý nghĩa chung c a ủ mô hình (trường hợp đặc biệt c a ki m ủ ể định WALD) 5
CHƯƠNG 2 MÔ TẢ 8
2.1 PHÂN TCH PHƯƠNG SAI MỘT YẾU T 8
2.1.1 Lý thuyết về ANOVA (Phân tích phương sai) 8
2.1.2 Phân tích phương sai m t y u t 8ộ ế ố 2.1.3 Phân tích sâu ANOVA 13
2.2 Mô hình hồi quy tuyến tính bội 14
2.3 Hệ số xác định 15
CHƯƠNG 3 THNG KÊ MÔ TẢ 16
3.1 TH NG KÊ D Ữ LIỆU 16
3.1.1 KI M TRA GIÁ TR CÒN B Ể Ị Ị THIẾU 17
3.1.2 LOI BỎ BIẾN KHÔNG ĐNG KỂ
3.1.3 T o Bi n m i 17ạ ế ớ 3.2 Mô t d u ả ữ liệ 3.3 TH NG KÊ D Ữ LIỆU MỚI
3.3.1 Biểu đồ ữ liệ d u
3.3.2 Ma trận tương quan: 19 3.4 TH NG KÊ SUY LU N 23 Ậ
Trang 3trang ii
3.4.1 Ta s xây d ng mô hình hẽ ự ồi quy trong đó 233.4.2 Mô hình h i quy ồ được biểu diễn như sau 233.4.3 Ta xây d ng mô hình 2 24ự3.4.4 Ta xây d ng mô hình 3 25ự3.4.5 Ta xây d ng mô hình 4 26ự3.4.6 T vi c so sánh các mô hình, ta nh n th y mô hình 3 có hi u qu ừ ệ ậ ấ ệ ả cao nhất 263.5 Ki m tra các gi nh c a mô hình 27ể ả đị ủ
Trang 4trang iii
DANH M C HÌNH Ụ ẢNH
Hình 3.1: Đoạn code thống kê dữ liệu 16 Hình 3.2: Đoạn dữ liệu xem nhanh các giá trị 16 Hình 3.3 Đoạn d u kiữ liệ ểm tra bị khuy t và t ng hàng, c t 17 ế ổ ộHình 3.4: Biểu Heatmap 18 đồHình 3.5: Datafram sau khi x ử lýHình 3 6 T o d u m i 19 ạ ữ liệ ớHình 3.7: Biểu đồ Boxplot 20
Trang 5Hồi qui tuy ến tính bội
Mô hình H i quy tuy n tính b iồ ế ộ có d ạng ổng quát như t sau:
Hàm h i quy t ng th (PRF- Population Regression Function) ồ ổ ể
Với Y là biến ph thu cụ ộ X2, X3, ,Xk là biến độc lập, Y là ngẫu nhiên và cómột phân phối xác suất nào đó
Suy ra: T n t i E ồ ạ (Y X2, X3, , Xk) = giá xác nh.trị đị
Do vậy, F (X2, X3, , Xk)=E (Y X2, X3, , Xk) là hà m hồi quy t ng ổ thể của
Y theo X2, X3, ,Xk Với một cá thể i, t n t i ồ ạ (X2,i, X3,i, , Xk,i, Yi)
Hàm h i ồ quy m u (SRF - Sample Regression Function): ẫ
Do không biết t ng th , nên chúng ta không bi t giá tr trung bình t ng th c a bi n ph ổ ể ế ị ổ ể ủ ế
thu c là ộ đúng ở mức độ nào Do v y chúng ta ph ậ ải dựa vào d uữ liệ mẫu để ước lượ ng Trên một mẫu có n cá thể, gọi Yˆ = Fˆ (X2, X3, , Xk) là hồi quy mẫu Với một cá thể m u ẫ Yi /= Fˆ
(X2,i, X3,i, , Xk,i) sinh ra ei Yi Fˆ (X2, X3, , Xk); ei gọi là phần dư SRF Ta có
hà m hồi quy m u t ng quát ẫ ổ được viết dướ ại d ng như sau:
yˆi = βˆ1 + βˆ2x2,i + βˆ3x3,i + + βˆkxk,i
Trang 6trang 2
−
−
−
Phần dư sinh ra: ei = yi yˆi Ký hiệu: βˆm là ước lượng c ủa βm Chúng ta trông đợi
βˆm là ước lượng không ch cchệ c a ủβm, hơn nữa phải là một ước lượng hiệu qu ả Ướ lượng c SRF: chọn một phương pháp nào đó để ước lượng các tham số của F qua việc tìm các tham số của Fˆ
và lấy gi á trị quan sát c aủcác tham s này làm giá x p x cho tham s c a ố trị ấ ỉ ố ủ F
Các giả thi t c a ế ủ phương pháp bình phương nhỏ nhất cho mô hình h i quy tuy n tính ồ ế
bội
Trong khi xây d ng ự mô hình h i quy ồ đa bi n c n ế ầ kiểm tra các ả gi thi t ế như sau:
Hàm h i quy tuy n ồ là ế tính theo các tham ố s
Điều này có nghĩa là quá trình thực hành hồi quy trên thực tế được miêu tả bởi mối quan
Các sai ố có s phân ph i ố chuẩn Điều này r t quan ấ trọng khi phát sinh khoảng tin ậ c y và t
hi n ki m nh gi thuy t ệ ể đị ả ế trong nh ng ph m vi m u ữ ạ ẫ là nhỏ Nhưng phạm vi mẫu l n ớ hơn, Điều này trở nên không m y quan ấ trong
Độ phù hợp c a ủ mô hình
Để có thể bi t ế mô hình giải thích đượ nhưc thể nào hay bao nhiêu % biến ng c a biếnđộ ủ
ph ụ thuộc, ngườ ta ử ụ Ri s d ng 2
Ta có:
+ Σ (yi y¯)2 : TSS – Total Sum of Squares
+ Σ (yˆi y¯)2 : ESS – Explained Su of Squares m
+ Σe2 : RSS Residual Sum Squares – of Ta có thể viết: TSS = ESS+RSS
Ý nghĩa ủ c a các thành ph n:ầ
Trang 7trang 3
≤ ≤
+ TSS là tổng bình phương ủ c a t t cấ ả các sai lệch gi a ữ các giá quan trị Ysáti và giá trịtrung bình
+ ESS là t ng bình ổ phương ủ c a t t cấ ả các sai lệch gi a ữ các giá c a bitrị ủ ến ph thu c ụY ộ
nh n ậ đượ tàc hàm h i quy m u và giá trung bình c a chúng ồ ẫ trị ủ Phần này độ chính xác c a đo ủhàm h i quy ồ
+ RSS t ng bình là ổ phương ủ c a t t cấ ả các sai ệch ữ các l gi a giá quan trị Y và sátcác giá trị
+ 0 R2 1
+ R2 cao nghĩa là mô hình ướ lượng được c giải thích đượmột mức độ cao c biế động n của biến phụ thuộc
+ Nếu R2 = 1, nghĩa là đường h i ồ quy giải thích 100% thay i c a đổ ủ y
+ Nếu R2 = 0, nghĩa là mô hình không đưa ra thông tin nào v s thay i c a ề ự đổ ủ biến phthu c ộ y
Phía trái β1 ≥ βi∗ β1 < βi ∗ t < −tα;n−k
Ta có thể s dử ụng giá P-value: P-value trị < mác ý nghĩa thì bác bỏ giả thi t Hế0
Khoảng tin cậy và kiểm định các hệ số h i ồ quy
- Ước lượng kho ảng tin cậy đối với các hệ số h i quy: ồ
M c ụ đích ủ c a phân tích h i quy không ph i ồ ả chỉ suy đoán ề β v 1, β2, , βk mà còn
ph i kiả ểm tra ả chấ b n t s phự ụ thuộc Do ậ v y c n ph i bi t phân bo xác ầ ả ế suất c a ủ β1, β2,
Trang 8trang 4
, βk Các phân b này ố phụ thu cộ vào phân bố của các ui Với các giả thiế OLS, ut i có
phân phối N 0, σ2 Các h sệ ố ước lượng tuân theo phân ph i chuố ẩn:
Ước lư ng ợ phươngsai sai s dựa vào ố các phần bình dư phương ố t i thiểu Trong k đó
là s h s trong ố ệ ố có phương trình ồ h i quy bi n: đa ế
+ ước lượng 2 phía , ta tìm được t (n-k) thỏa mãn
Khoảng tin ậ c y 1 − α của βj là:
Kiểm định giả thiết đối v iớ βj:
Kiể địm nh ý nghĩa th ng kê c a các h s h i quy có ý nghĩa hay không: ki m nh r ng ố ủ ệ ố ồ ể đị ằ
bi n gi i thích có th c s ế ả ự ự ảnh hưởng đển bi n ph thu c hay không Nói cách khác là h s hế ụ ộ ệ ố ồi quy có ý nghĩa thống kê hay không
Có thể đưa ra gi thi t ả ế nào đó đoi với βj, chȁng h n ạ βj = βj∗ N u gi thi t nàế ả ế y đúng thì:
Ta có b ng ả sau:
B ng 1: B ng tóm t t giả ả ắ ả thuyết và miền bác bỏ tương ứng
βˆj − t α (n − k) Se(βˆj); βˆj + tα (n − k ) Se(βˆj )
Trang 9trang 5
Loại gia thi tế Giả thi tH ế 0 Giả thi ếtđoi H1 Mien bác bo
Bước 1: Giả thuy t Hế 0: β2 = β3 = = βk = 0
Giả thuy t Hế 1: “có ít nhất m t trong ộ nh ngữ giá trị β khác không”
Bước 2: Trư c ớ tiên hồi quy Y theo m t số hạng không ộ đổi và X2, X3, , Xk, sau
Khái quát về kiểm định WALD:
- Giả s chúng ử ta có 2 mô hình dướ đâyi
(U) : Y = β1 + β2X2 + β3X3 + β4X4 + u
(R) : Y = β1 + β2X2 + v
Mô hình U được g i ọ là mô hình không giới h n (Unrestrict), ạ và mô hình R được
gọi là mô hình giới hạn (Restrict) Đó là do β3 và β4 bu c ph i b ng 0 trong mô hình R Ta ả ằ
có th ể kiểm định gi thuy t liên kả ế ết β3 = β4 = 0 v i gi thuyớ ả ết đối là ít nh t m t trong ấ ộnhững h s ệ ốnày không b ng 0 ằ Kiểm định giả thuy t liên k t này ế ế được g i ọ là kiểm địnhWald, thủ ụ như t c sau
Đặt các mô hình giới hạn và không giới hạn là:
(U) : Y = β1 + β2X2 + + βmXm + βm+1Xm+1 + + βkXk + u
(R) : Y = β1 + β2X2 + + βmXm + v Mô hình (R) có được bằng cách b ỏ bớt một số biến ởmô hình
(U), đó là:Xm+1, Xm+1, Xk
Giả thuy t Hế 0 : βm+1 = = βk = 0
Trang 10trang 6
Giả thuyết H : 1 “Không ph i ả đồng thờ cáci tham s bố ằng 0”
Lưu ý rằng (U) cháa k hệ s h i quy ố ồ chưa biết và (R) chứa m hệ s h i quy ố ồ chưa
biết Do đó,mô hình R có ít hơn (k m) thông s s v i ố ố ớU Câu h i ỏ chúng ta nêu ra là(k - m) bi n bế ị ại lo ra có ảnh hưởng liên ết k có ý nghĩa đoi ớY hay không v i
Trị thống kê kiểm định đối v i gi ớ ả thiết này là:
Với R2 là số đo đ thích h p không ợ hiệ chỉu nh V i giớ ả thuyết không, Fc có phân
ph i ố F v i ớ (k − m)
B c tậ ự do đoi ớ ả ố v i t s và (n − k) b c tậ ự do đoi ớ v i m u s ẫ ố
Bác bỏ giả thuy t Hế 0 khi:
Fc > F (α, k − m, n − k)
Hoặc giá tr p-value của thống kêị F nhỏ hơn mác ý nghĩa cho trước
Trong mô hình h i quy bi n, gi thuy t ồ đa ế ả ế “không” cho ằ r ng mô hình không có ý nghĩa được hiểu tlà ất cả các h s hồi quy riêng u bằng 0 ệ ố đề
sai số RSSU , RSS Phân ph i F R ố là t ố ủ s c a hai bi n ng u nhiên phân ph i khi bình ế ẫ ốphương độc lập Điều này cho ta trị thống kê:
Vì H : = = 0 β2 β3 = = 0, nh n βk ậ thay ằ r ng trị thống kê ki m nh ể đị đoi ớ giả v i thuyết này sẽ là:
sai số RSSU , RSS Phân ph i F R ố là t ố ủ s c a hai bi n ng u nhiên phân ph i khi bình ế ẫ ốphương độc lập Điều này cho ta trị thống kê:
Vì H : = = 0 β2 β3 = = 0, nh n βk ậ thay ằ r ng trị thống kê ki m nh ể đị đoi ớ giả v i thuyết này sẽ là:
Trang 11Bước 4: Bác bỏ giả thuyết H0 ởmác ý nghĩa α n u ếFc > F (α, k − 1, n − k)
Đoi với phương pháp giá p-value, tính giá trị trị p = P (F > Fc H0) và bác b ỏgiả thuy t Hế 0 n u p ế bé hơn mác ý nghĩa α
Trang 12trang 8
CHƯƠNG 2 MÔ TẢ
PHÂN TÍCH PHƯƠNG SAI M T Y U T Ộ Ế Ố
Lý thuy t vế ề ANOVA (Phân tích phương sai)
Mục tiêu của phân tích phương sai (Analysis of Variance - ANOVA) là s sánh trung bình ốcủa nhieu nhóm (tổng thể) d a ự trên các trị trung bình c a ủ các m u quan ẫ sát tà các nhóm nàthông qua ki m nh ể đị giả thuyết c a k t ủ ế luận v s b ng nhau c a các ề ự ằ ủ trung bình t ng ổ thể này
Ta có các mô hình phân tích phương sai: phân tích phương sai m t y u t và hai y uộ ế ố ế
t C m t y u tố ụ ừ ế ố ở đây ám chỉ ố lượng ế ố s y u t nguyên nhân nh ả hưởng n y u t k t quđể ế ố ế ả đangnghiên c u ứ
Phân tích phương sai m t y u t ộ ế ố
Phân tích phương sai một yếu tố (One way ANOVA) là phân tích ảnh hưởng của một yếu
t nguyên ố nhân (dạng bi n nh tính) nh ế đị ả hưởng n m t y u t k t qu để ộ ế ố ế ả (dạng ế đị bi n nh lượng) đang nghiên cứu
Trườ ng hợp k t ng th có phân ph i chu n và ổ ể ố ẩ phương sai bằng nhau:
- Giả sử rằng chúng ta muon s sánh trung bình của k t ng th (với ví d trên thì ố ổ ể ụ
= 3) d a ự trên nh ng m u ngữ ẫ ẫu nhiên độc lập gom n1, n2, n3, , nk quan sát tà k t ng ổthể C n ghi nh ba gi ầ ớ ảđịnh sau đây ề v các nhóm tổng th được tiến hành phân ộ ểtích ANOVA
+ Các tổng thể này có phân phối bình thườ ng
+ Các phương sai tổng thể ằng b nhau
+ Các quan sát đượ layc m u ẫ làđộc l p nhau ậ
- Nếu trung bình c a ủ các t ng ổ thể được ký hi u ệ là µ= µ1 2 = = µk thì khi các gi ảđịnh trên được đáp áng, mô hình phân tích phương sai một y u t ế ố ảnh hưởng được mô t ảdưới dạng kiểm đ nh giảị thuy t ế như sau: H0: µ1 = µ2 = = µk và gi thuy t i ả ế đố là
Trang 13Tính trung bình m u cẫ ủa tàng nhóm x¯1x¯2, x¯k theo công thức:
Và trung bình chung ủ c a k m u ẫ (trung bình chung ủ toàn c a b m u kh o sát): ẫ ả
Bước 2: Tính các t ng các chênh lổ ệch bình phương (hay gọ ất là tổng bình phương) Tính i t
t ng các ổ chênh lệch bình phương trong nội bộnhóm SSW 1và tổ các chênh lng ệch bình phương ữa gicác nhóm SSG2
Tổng các chênh lệch bình phương trong n i bộ ộ nhóm (SSW) được tính b ng cách ằ cộng các chênh lệch bình phương ữ gi a các giá quan trị sát ớ v i trung bình mẫu c a ủ tàng nhóm, r i ồ sau đótính t ng ổ cộng k t qu t t c các nhóm l SSW ph n ánh ph n bi n thiên c a y u t k t ế ả ấ ả ại ả ầ ế ủ ế ố ế quả do ảnh hưởng của các yếu t khác, chá không phố ải do yếu tố nguyên nhân đang nghiên cứu (là y u t ế ốdùng để phân biệt các ổng thể / nhóm đang số sánh) t
T ng các chênh lổ ệch bình phương của tàng nhóm được tính theo công thác:
Tương tự như vậy ta tính cho đển nhóm thá k được SSk Vậy t ng ổ các chênh lệch bình phương trong nội bộcác nhóm được tính như sau:
Trang 14trang 10
SSW = SS1 + SS2 + + SSk
Tổng các chênh lệch bình phương giữa các nhóm (SSG) được tính b ng cách c ng các chênhằ ộ
lệch được lấy bình phương giữa các trung bình mẫu c a tàng nhóm vủ ới trung bình chung của k nhó(các chênh lệch này đều được nhân thêm với số quan sát tương ứng c ả tàng nhóm) SSG phản ánh
ph n bi n thiên c a y u t k t quầ ế ủ ế ố ế ả do ảnh hưởng c a y u t nguyên nhân ủ ế ố đang nghiên cứu.Tổng các chênh lệch bình phương toàn bộ SST được tính bằng cách c ng t ng các chênh lộ ổ ệ
đã lấy bình phương giữa tàng giá trị quan sát của toàn bộ mẫu nghiên cứu (xij) v i trung bình ớtoàn b (x) SST ph n ộ ả ánh bi n ế thiên c a y u t k t qu do nh ủ ế ố ế ả ả hưởng c a t t củ ấ ả các nguyên nhân
Có thể d dàng ch ng ễ ứ minh là tổng các chênh lệch bình phương toàn b b ng t ng c ng ộ ằ ổ ộ
t ng ổ các chênh lệch bình phương trong nội bộ các nhóm và t ng các ổ chênh ệch l bình phương gicác nhóm SST = SSW + SSG
Như vậy công thác trên cho thấy, SST là toàn b bi n thiên cộ ế ủa yếu t kố ết quả đã được phântích thành hai ph n: ầ phần bi n thiên do y u t ế ế ố đang nghiên c u t o (SSG) và ph n bi n ứ ạ ra ầ ế thiêcòn lại do các yếu t khác không nghiên c u ố ứ ở đây tạo ra (SSW) N u phế ần biến thiên do y u t ế ốnguyên nhân đang xét t o càng ạ ra “đáng kể” ố ớ s v i ph n bi n thiên do ầ ế các ế ố y u t khác không x
t o ạ ra, thì chúng càng ta có cơ ở để s bác bỏ H0 và k t ế luậ là ến y u t nguyên nhân ố đang nghiêncứu nh ả hưởng có ý nghĩa để n yếu t kết quả ố
Bước 3: Tính các phương sai (là trung bình của các chênh lệch bình phương) Các phương sai được tính ằng cách lay b các tổng chênh ệch bình l phương chia cho bậctự do tương áng Tính phương sai trong nội bộnhóm (MSW) b ng ằ cách ấ l y t ng ổ các chênh lệch bình phươntrong nội bộ các nhóm (SSW) chia cho b c t do ậ ự tương ứng là n - k (n s quan là ố sát, k s là ốnhóm số sánh) MSW là ướ lược ng phân bi n ế thiên ủ c a y u t k t qu do các y u t khác gây ế ố ế ả ế ố
Trang 15trang 11
Tính phương sai giữa các nhóm (MSG) bằng cách lay t ng các chênh lổ ệch bình phương giữacác nhóm chia cho bậctự do tương ứnglà k - 1 MSG là ướ lược ng phan biến thiên ủ c a y u t kế ố ế
qu do y u t nguyên nhân ả ế ố đang nghiên c u gây ứ ra
Giả thuyết ve s b ng nhau c a k trung bình t ng th ự ằ ủ ổ ể được quyết định ựa trên tỉ ố ủa hai phươn d s csai:phươngsai gi a các nhóm (MSG) và ữ phương sai trong n i b nhóm (MSW) T s này g i ộ ộ ỉ ố ọ
t s F vì nó tuân ỉ ố theo định lu t Fisher Snedecor v i b c t do k - 1 t s và n - k m u sậ – ớ ậ ự ở ả ố ở ẫ
Ta bác bỏ giả thuy t ế H0 cho rằng trị trung bình c a k tủ ổng thể ằng b nhau khi:
F > Fk−1;n−k;α
F > Fk−1;n−k;α là giá ị gi i h n v i b cttr ớ ạ ớ ậ ự do k tra theo hàng u tiên và n k tra theo c t đầ – ộ
đầu tiên, nhớ ch n b ng với mác ý ọ ả nghĩa phù hợp
Sau đây là ạ d ng b ng k t qu t ng quát c a ANOVA khi phân tích b ng ả ế ả ổ ủ ằ chương tình Excel hay SPSS
Kiểm tra các gia nh c a đị ủ phân tích phương sai:
Chúng ta có thể ki m tra nhanh các gi nh này bể ả đị ằng đo thị Histogram là phương pháp tốt
nhấ ểt đ kiểm tra giả định v phân ph i ề ố chuẩn c a d u ủ ữ liệ nhưng nó đòi ỏ h i m t sộ ố lượng quan skhá l n ớ Biểu thân hay biđồ lá ểu đồ ộ h p và râu là m t ộ thay thể tot trong tình hu ng s quan ố ố s
ít hơn N u công cế ụ đothị chothay t p dậ ữ ệu m u khá phù h p v i phân li ẫ ợ ớ phối bình thường thì
có thể xem giả định phân ph i bình ố thường đã thỏ mãn.a
Trang 16trang 12
−
Bảng 3: ảng ế quả ổng B k t t quát c a ANOVA ủ khi phân tích bằng Excel hay SPSS
Nguon bi n thiên ế T ng bình ổ phương Bậct do ự Phương sai T s Fỉ ố
H1:
H1: có ít nhất m t cộ ặp phương sai khác nhau
Để quyết nh ch p nh n hay bác bỏ Hđị ấ ậ 0 ta tính toán giá trị kiểm định F theo công thác:
Giá F tính trị đượ đượ đểc c m s sánh v i giá ố ớ trịFk;df;α tra đượ tà ảc b ng phân ph i ố
Hartley Fmax Trong đó, k là số nhóm số sánh, b cậ tự do df tính theo công thức df (=n− 1)
Trong tình huong, các nhóm có số quan sát khá c nhau thì
(chú ý là nếu kết quả tính n¯ là
một số thập phân thì ta lay ph n nguyên) ầ
Quy tac quy t nh: ế đị
Fmax > Fk;df;α thì bác bỏ giả thuy t ế H0 cho rằng phương sai bằng nhau và ngượ ại.c l
N u chúng không ế ta chắc ch n các giắ ả định ho c n u k t qu ki m nh cho thay các giặ ế ế ả ể đị ả địnkhông đượ thỏc a mãn thì m t ộ phương pháp ki m nh thay ể đị thể cho ANOVA là phương pháp ki m nể địphi tham s Kruskal - Wallis số ẽ đượ áp ục d ng
Trang 17trang 13
Phân tích sâu ANOVA
M c ụ đích ủ c a phân tích phương sai là ki m nh giể đị ả thuyếHt 0 rằng trung bình c a t ng ủ ổ
thể b ng nhau Sau khi phân tích và k t ằ ế luận, có hai trường h p x y ra là ch p thu n gi thuy t ợ ả ấ ậ ả H0 ếhoặc bác bỏ giả thuy t ếH0 Nếu chấp nh n ậ giả thuyết H0 thì phân tích k t thúc N u bác b gi ế ế ỏ ảthuyết H0, b n k t luạ ế ận trun bình c a g ủ các ổ thể không b ng nha.Vì v y v t ng ằ ậ ấn đề tiếp theo là phân tích sâu hơn để xác minh nhóm (t ng thể) nào khác nhóm nào, nhóm nào trung bình lổ có ớn hơn
nhỏ hơn
Có nhi u ề phương pháp để tiếp t c phân ụ tích sâuANOVA khi bác b giỏ ả thyế Ht 0 Trong ph n này ch cầ ỉ để ập đến một phương pháp thôn dụng đó là phương pháp Tukey, phương pháp này còn được g i ki m nh ọ là ể đị HSD (Honestly Significầnt Differences) N i dung c a ộ ủ phươngpháp này là so sánh ừ t ng c p ặ các trung bình nhóm ở mác ý nghĩa nào đó cho ấ ả các ặ t t c c p k
định có thể phát hiện nhđể ra ững nhóm khác nhau Nếu có k nhóm nghiên cứu và chúng tasánh t t cấ ả các ặ c p nhóm hì số lượng c p c n ph i sầ ả ố sánh là tő h p ợ chập 2 c a k nhóm ủ
Trong đó:
- qα;k;n−k là giá ịtr tra bảng phân ph i kiểm nh Tukey ố đị ởmác ý nghĩa, v i b c t doớ ậ ự
k và n k, v i n t ng s quan – ớ là ổ ố sát m u (ẫ = Σnn i)
- MSW là phương sai trong nội bộ nhóm
- ni là s quan sát trong m t nhóm (t ng thố ộ ổ ể), trong trường h p m i nhóm có s quanợ ố ốsát ni khác nhau, s dử ụng giá ntrịi nh nhỏ ất
Tiêu chuẩn quyet định là bác bỏ giả thuyết H0 khi đ lệch tuyệt đối gi a ữ các cặp trung bình mẫu l n ớ hơn hay b ng ằ T gi i h n ớ ạ
Bên c nh vi c ki m ạ ệ ể định để phát hi n ệ ra nh ng nhóm khác bi ữ ệt, chúng ta có thể tìm kho ng ả
ước lượng cho chênh lệch ữ gi a các nhóm có khác bi t ệ có ý nghĩa thống kê Ước lượng kho ng v ả ềchênh lệch giữa hai trung bình nhóm có khác bi t ệ tính theo công thức:
Trang 18trang 14
Trong đó, t là giá trị được tra tà bảng phân phối Student t với (n - k) bậctự do Trong chương trình Excel không có các l nh phân tích sâu ANOVA Chúng ta có th ệ ểthực hiện phân tích này bằchương trình SPSS Ngoài kra ết quả c a SPSS ủ còn cung cap ho ác ạn m t kiểm nh c c c b ộ địthác v s bề ự ằng nhau c a ủ các phương sai ổ t ng th làể ki m nh Levene ể đị
Mô hình hồi quy tuyến tính bội
Hồi quy chính là một phương pháp thống kê để thiế ập m i quan h git l ố ệ ữa một biến ph ụ thuộc
và m t nhóm t p h p các biộ ậ ợ ến độc lập Mô hình với một bi n phế ụ thuộc với hai hoặc nhiều biến độc
lập được gọi là h i quy bồ ội (hay còn gọi là hồi quy đa biến)
Ví dụ: Chi tiêu c a hủ ộ gia đình về thực phẩm ph ụ thuộc vào quy mô h ộ gia đình, thu nhập, vịtrí địa lý…Tỷ lệ tử vong trẻ em c a m t quốủ ộ c gia ph thu c vào thu nhập bình quân đầu người, trìnhụ ộ
độ giáo d c…Lương của m t ngư i ph thuộc vào chức v , kinh nghiệm, đ tu i,… ụ ộ ờ ụ ụ ộ ổ
Ví dụ: Chi tiêu c a hủ ộ gia đình về thực phẩm ph ụ thuộc vào quy mô h ộ gia đình, thu nhập, vịtrí địa lý…; Tỷ lệ tử vong trẻ em của một quốc gia phụ thuộc vào thu nhập bình quân đầu người, trình độ giáo dục…; Lương của một người ph thu c vào chức vụ, kinh nghiụ ộ ệm, độ tuổi,…
Mô hình hồi quy tuyến tính bội có dạng tổng quát như sau:
Như vậy, "Hồi quy tuyến tính" là một phương pháp để dự đoán giá trị biến phụ thuộc (Y) d a trên giá ựtrị của biến độc lập (X) Thuật ngữ tuyến tính dùng để chỉ rằng bản chất của các thông số của tổng thể β1 và βi là tuyến tính (bậc nhất) Nó có thể đượ ử dụng cho các trường hợp chúng ta muốn dự đoán c smột số ợng liên tục Ví dụ: dự đoán thời gian người dùng dừng lại một trang nào đó hoặc số ngườlư i
đã truy cập vào một website nào đó v.v Bằng dữ ệu thu thập được, ta đi ước lượng hàm hồi quy củli a tổng thể, đó là ước lượng các tham số củ ổng thể β1, β2,…, βa t :
Phương pháp bình phương nhỏ ất (Ordinary Least Squares)nh
Phương pháp bình phương nhỏ nhất được đưa ra bởi nhà Toán học Đức Carl Friedrich Gauss Tư tưởng của phương pháp này là cực tiểu tổng bình phương của các phần dư Do đó có thể nói để có được hồi quy thích hợp nhất, chúng ta chọn các ước lượng có tung độ gốc và độ dốc sao cho phần dư là nhỏ