1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Báo cáo bài tập lớn xác xuất thống kê mục tiêu của phân tích phương sai (analysis of variance anova) là so sánh trung bình của nhiều nhóm (tổng thể)

47 2 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Báo cáo bài tập lớn xác xuất thống kê: Mục tiêu của phân tích phương sai (Analysis of Variance ANOVA) là so sánh trung bình của nhiều nhóm (tổng thể)
Tác giả Trần Quang Khải, Nguyễn Tâm Nhân, Nguyễn Văn Khải
Người hướng dẫn PTS. Nguyễn Thị Kiều Dung
Trường học Đại học Quốc gia Thành phố Hồ Chí Minh, Trường Đại học Bách khoa, Khoa Khoa học Ứng dụng
Chuyên ngành Xác suất thống kê
Thể loại Báo cáo bài tập lớn
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 47
Dung lượng 585,09 KB

Nội dung

Cơ sở lý thuyếtAnova Mục tiêu của phân tích phương sai Analysis of Variance ANOVA là so sánhtrung bình của nhiều nhóm tổng thể dựa trên các trị trung bình của các mẫu quan sát từcác nhóm

Trang 1

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA KHOA HỌC ỨNG DỤNG

*********

BÁO CÁO BÀI TẬP LỚN Xác xuất thống kêGiáo viên hướng dẫn: Nguyễn Thị Kiều Dung

Danh sách thành viên

Trang 2

Cơ sở lý thuyết

Anova

Mục tiêu của phân tích phương sai (Analysis of Variance ANOVA) là so sánhtrung bình của nhiều nhóm (tổng thể) dựa trên các trị trung bình của các mẫu quan sát từcác nhóm này, và thông qua kiểm định giả thuyết để kết luận về sự bằng nhau của cáctrung bình tổng thể này Trong nghiên cứu, phân tích phương sai được dùng như mộtcông cụ để xem xét ảnh hưởng của một yếu tố nguyên nhân (định tính) đến một yếu tốkết quả (định lượng)

Trong chương này chúng ta đề cập đến hai mô hình phân tích phương sai: phântích phương sai một yếu tố và hai yếu tố Cụm từ yếu tố ở đây ám chỉ số lượng yếu tốnguyên nhân ảnh hưởng đến yếu tố kết quả đang nghiên cứu

1 PHÂN TÍCH PHƯƠNG SAI MỘT YẾU TỐ

Phân tích phương sai một yếu tố (One-way ANOVA) là phân tích ảnh hưởng củamột yếu tố nguyên nhân (dạng biến định tính) ảnh hưởng đến một yếu tố kết quả (dạngbiến định lượng) đang nghiên cứu Ta đi vào lý thuyết như sau:

1.1 Trường hợp k tổng thể có phân phối bình thường và phương sai bằng nhau

Giả sử rằng chúng ta muốn so sánh trung bình của k tổng thể dựa trên những mẫungẫu nhiên độc lập gồm n1, n2, , nk quan sát từ k tổng thể này Cần ghi nhớ ba giảđịnh sau đây về các nhóm tổng thể được tiến hành phân tích ANOVA:

- Các tổng thể này có phân phối bình thường;

- Các phương sai tổng thể bằng nhau;

- Các quan sát được lấy mẫu là độc lập nhau

Nếu trung bình của các tổng thể được kí hiệu là μ1, μ2, , μk thì khi các giảđịnh trên được đáp ứng, mô hình phân tích phương sai một yếu tố ảnh hưởng được mô tảdưới dạng kiểm định giả thuyết như sau:

Trang 3

H0: μ1 = μ2 = = μk

Giả thuyết H0 cho rằng trung bình của k tổng thể đầu bằng nhau (về mặt nghiêncứu liên hệ thì giả thuyết này cho rằng yếu tố nguyên nhân không có tác động gì đến vấn

đề ta đang nghiên cứu) Và giả thuyết đối là:

H1: Tồn tại ít nhất một cặp trung bình tổng thể khác nhau

Hai giả định đầu tiên để tiến hành phân tích phương sai được mô tả như hình dướiđây, bạn thấy ba tổng thể đều có phân phối bình thường với mức độ phân tán tương đốigiống nhau, nhưng ba vị trí chênh lệch của chúng cho thấy ba trị trung bình khác nhau

Rõ ràng là nếu bạn thực sự có các giá trị của 3 tổng thể và biểu diễn được phân phối củachúng như hình dưới thì bạn không cần phải làm gì nữa mà kết luận được ngay là bạn bác

bỏ H0 hay 3 tổng thể này có trị trung bình khác nhau

Nhưng bạn chỉ có mẫu đại diện được quan sát, nên để kiểm định giả thuyết này, ta thực hiện các bước sau:

Bước 1 : Tính các trung bình mẫu của các nhóm (xem như đại diện của các tổng thể)

Trước hết ta xem cách tính các trung bình mẫu từ những quan sát của k mẫu ngẫu

Trang 4

nhiên độc lập (kí hiệu ´x1, ´x2, , ´x k) và trung bình chung của k mẫu quan sát (kí hiệu ´x) từtrường hợp tổng quát như sau:

Bảng 1: Bảng số liệu tổng quát thực hiện phân tích phương sai

ni

xi

Trang 5

Dĩ nhiên bạn có thể tính trung bình chung của k mẫu theo cách khác là: cộng tất cả các

xij trên Bảng 1 lại rồi đem chia cho ∑ ni với (i=1, 2,…,k) Kết quả là như nhau

Bước 2: Tính các tổng các chênh lệch bình phương ( hay gọi tắt là tổng bình phương)

Tính tổng các chênh lệch bình phương trong nội bộ nhóm SSW1 và tổng các chênh lệch bìnhphương giữa các nhóm SSG

- Tổng các chênh lệch bình phương trong nội bộ nhóm (SSW) được tính bằng cáchcộng các chênh lệch bình phương giữa các giá trị quan sát với trung bình mẫu củatừng nhóm, rồi sau đó lại tính tổng cộng kết quả tát cả các nhóm lại SSW phảnánh phần biến thiên của yếu tố kết quả do ảnh hưởng của các yếu tố khác, chứkhông phải do yếu tố nguyên nhân đang nghiên cứu (là yếu tố dùng để phân biệtcác tổng thể/ nhóm đang so sánh)

- Tổng các chênh lệch bình phương của từng nhóm dược tính theo công thức:

Nhóm 1: SS1 = ∑n1 (x1j − x̅1)2

Nhóm 2: SS2 = ∑n2 (x2j - x̅2)2

Tương tự như vậy ta tính cho đến nhóm thứ k được SSk Vậy tổng các chênh lệch bình

phương trong nội bộ các nhóm được tính như sau:

SSW = SS1 + SS2 + … + SSk

Hay viết tổng quát theo công thức ta có

k niSSW = ∑ ∑(xij − x̅1)2

i=1 j=1

Trang 7

- Tổng các chênh lệch bình phương giữa các nhóm (SSG) được tính bằng cách cộngcác chênh lệch được lấy bình phương giữa các trung bình mẫu của từng nhóm vớitrung bình chung của k nhóm (các chênh lệch này đều được nhận thêm với số quansát tương ứng của từng nhóm) SSG phản ánh phần biến thiên của yếu tố kết quả

do ảnh hưởng của yếu tố nguyên nhân đang nghiên cứu

kSSG = ∑ ni(xi − x̅)2

i=1

- Tổng các chênh lệch bình phương toàn bộ SST được tính bằng cách cộng tổng cácchênh lệch đã lấy bình phương giữa từng giá trị quan sát của toàn bộ mẫu nghiêncứu (xij) với trung bình chung toàn bộ (x̅) SST phản ánh biến thiên của yếu tố kếtquả do ảnh hưởng của tất cả các nguyên nhân

k niSST = ∑ ∑(xij − x̅ )2

i=1 j=1

Có thể dễ dàng chứng minh là tổng các chênh lệch bình phương toàn bộ bằng tổngcộng tổng các chênh lệch bình phương trong nội bộ các nhóm và tổng các chênh lệchbình phương giữa các nhóm

SST = SSW + SSGNhư vậy công thức trên cho thấy, SST là toàn bộ biến thiên của yếu tố kết quả đãđược phân tích thành 2 phần: phần biến thiên do yếu tố đang nghiên cứu tạo ra (SSG) vàphần biến thiên còn lại do các yếu tố khác không nghiên cứu ở đây tạo ra (SSW) Nếuphần biến thiên do yếu tố nguyên nhân đang xét tạo ra căng "đáng kể” so với phần biếnthiên do các yếu tố khác không xét tạo ra, thì chúng ta càng có cơ sở để bác bỏ H0 và kếtluận là yếu tố nguyên nhân đang nghiên cứu ảnh hưởng có ý nghĩa đến yếu tố kết quả

Bước 3 : Tính các phương sai (là trung bình của các chênh lệch bình phương)

Trang 8

Các phương sai được tính bằng cách lấy các tổng các chênh lệch bình phương chiacho bậc tự do tương ứng.

Tình phương sai trong nội bộ nhóm (MSW) bằng cách lấy tổng các chênh lệch bìnhphương trong nội bộ các nhóm (SSW) chia cho bậc tự do tương ứng là n-k (n là số quansát, k là số nhóm so sánh) MSW là ước lượng phần biến thiên của yếu tố kết quả do cácyếu tố khác gây ra (hay giải thích)

n − k

Tính phương sai giữa các nhóm (MSG) bằng cách lấy tổng các chênh lệch bìnhphương giữa các nhóm chia cho bậc tự do tương ứng là k – 1 MSG là ước lượng phầnbiến thiên của yếu tố kết quả do yếu tố nguyên nhân đang nghiên cứu gây ra (hay giảithích được)

k − 1

Trang 9

Bước 4 : Kiểm định giả thuyết

Giả thuyết về sự bằng nhau của k trung bình tổng thể được quyết định dựa trên tỉ sốcủa hai phương sai: phương sai giữa các nhóm (MSG) và phương sai trong nội bộ nhóm(MSW), TI số này được gọi là tỷ số F vì nó tuần theo qui luật Fisher– Snedecor với bậc

Trang 10

Bảng 2: Dạng bảng kết quả ANOVA từ chương trình Excel, SPSS

Bảng gốc bằng tiếng Anh:

Variation

Sum of squares(SS)

Freedom (df)

Mean Squares(MS)

F ratio

SSGMSG =

k − 1

MSG

F =MSW

SSWMS

=

n −k

Bậc tự do (df)

Phương sai(MS)

Tỉ sốF

=

k −1

MSGF

=MSWTrong nội bộ

SSWMSW =

k − 1

Trang 11

Ý nghĩa của công thức và logic của các tính toán trong bảng trên cần được hiểu rõ để

có thể vận dụng và giải thích các kết quả phân tích một cách súc tích

1.2 Kiểm tra các giả định của phân tích phương sai

Chúng ta có thể kiểm tra nhanh các giả định này bằng đồ thị Histogram là phươngpháp tốt nhất để kiểm tra giả định về phân phối bình thường của dữ liệu nhưng nó đòi hỏimột số lượng quan sát khá lớn Biểu đồ thân lá hay biểu đồ hộp và râu là một thay thế tốttrong tình huống số quan sát ít hơn Nếu công cụ đồ thị cho thấy tập dữ liệu mẫu khá phùhợp với phân phối bình thường đã thỏa mãn Hình dưới mô tả biểu đồ hộp râu cho tập dữliệu mẫu về ba nhóm sinh viên trong tập dữ liệu của chúng ta Đồ thị cho thấy ngoại trừnhóm có thời gian tự học TB có hình dáng phân phối của dữ liệu hơi lệch sang trái, cònhai nhóm còn lại có phân phối khá cân đối Với số quan sát không nhiều thì biểu hiện nhưthế này của dữ liệu là khả quan và có thể chấp nhận được

Để khảo sát giả định bằng nhau của phương sai, biểu đồ hộp và râu cũng cho cảmnhận ban đầu nhanh chóng, với ba biểu đồ này, mức độ phân tán của dữ liệu trong trongmỗi tập dữ liệu mẫu không khác biệt nhau nhiều

Một phương pháp kiểm định tham số chắc chắn hơn cho giả định phương sai bằngnhau là kiểm định Levene về phương sai của các tổng thể Kiểm định này xuất phát từ giả

Trang 12

H 1 : Không phải tất cả các phương sai đều bằng nhau

Để quyết định chấp nhận hay bác bỏ H0 ta tính toán giá trị kiểm định F theo công thức

Giá trị F tính được được đem so sánh với giá trị F (k;df); α tra được từ bảng phân phối

Hartley Fmax (là bảng số 5 trong phần phụ lục) Trong đó k là số nhóm so sánh, bậc tự do df tính theo

công thức df = (´n− 1) Trong tình huống các nhóm ni khác nhau thì

Fmax > F (k;df); α thì ta bác bỏ H0 cho rằng phương sai bằng nhau và ngược lại

Nếu chúng ta không chắc chắn về các giả định hoặc nếu kết quả kiểm định cho thấycác giả định hoặc nếu kết quả kiểm định cho thấy các giả định không được thỏa mãn thìmột phương pháp kiểm định thay thế cho ANOVA là phương pháp kiểm định phi tham sốKrusksl-Wallis sẽ được áp dụng Tuy nhiên trong ví dụ này ở đây, ta có thể xem các giảđịnh để tiến hành phân tích phương sai đã được thỏa mãn

1.3 Phân tích sâu ANOVA

Mục đích của phân tích phương sai là kiểm định giả thuyết H0 rằng trung bình củacác tổng thể bằng nhau Sau khi phân tích và kết luận, có hai trường hợp xảy ra là chấpnhận giả thuyết H0 hoặc bác bỏ giả thuyết H0 Nếu chấp nhận giả thuyết H0 thì phân tíchkết thúc Nếu bác bỏ giả thuyết H0, bạn kết luận trung bình của các tổng thể không bằngnhau Vì vậy, vấn để tiếp theo là phân tích sâu hơn để xác định nhóm (tổng thể) nào khác

Trang 13

nhóm nào, nhóm nào có trung bình lớn hơn hay nhỏ hơn.

Trang 14

Có nhiều phương pháp để tiếp tục phân tích sâu ANOVA khi bác bỏ giả thuyết H0.Trong chương này chỉ để cập đến 1 phương pháp thông dụng đó là phương pháp Tukey,phương pháp này còn được gọi là kiểm định HSD (Honestly Significant Differences) Nộidung của phương pháp này là so sánh từng cặp các trung bình nhóm ở mức ý nghĩa α nào

đó cho tất cả các cặp kiểm định có thể để phát hiện ra những nhóm khác nhau Nếu có knhóm nghiên cứu, và chúng ta so sánh tất cả các cặp nhóm thì số lương cặp cần phải sosánh là tổ hợp chập 2 của k nhóm

Trang 15

T =q α ,k , n− kMSW n i

Trong đó:

- qα,k,n−k là giá trị tra bảng phân phối kiểm định Tukey (Bảng tra số 9) ở mức ý nghĩa α, vớibậc tự do k và n-k, với n là tổng số quan sát mẫu (n = ∑ ni)

- MSW là phương sai trong nội bộ nhóm

- ni là số quan sát trong 1 nhóm (tổng thể), trong trường hợp mỗi nhóm có số quansát ni

là kiểm định Levene (Bạn đọc có thể xem cách thức tiến hành kiểm tra giả định của phântích ANOVA một yếu tố và phân tích sâu ANOVA trong sách Phân tích dữ liệu nghiêncứu với SPSS của cùng tác giả)

Phân tích phướng sai với kiểm định F chỉ có thể áp dụng khi các nhóm so sánh cóphân phối bình thường và phương sai bằng nhau Trong trường hợp không thỏa điều kiệnnày, chúng ta có thể chuyển đổi dữ liệu của yếu tố kết quả từ dạng định lượng về dạngđịnh tính (dữ liệu thứ bậc) và áp dụng một kiểm định phi tham số phù hợp tên là Kruskal-Wallis Bạn đọc có thể tìm hiểu về kiểm định này ở Chương 10, kiểm định phi tham số

2.2 Hồi quy

Hồi quy chính là một phương pháp thống kê để thiết lập mối quan hệ giữa một biến phụthuộc và một nhóm tập hợp các biến độc lập Mô hình với một biến phụ thuộc với haihoặc nhiều biến độc lập được gọi là hồi quy bội (hay còn gọi là hồi quy đa biến)

Ví dụ: Chi tiêu của hộ gia đình về thực phẩm phụ thuộc vào quy mô hộ gia đình, thunhập, vị trí địa lý,…; Tỷ lệ tử vong trẻ em của một quốc gia phụ thuộc vào thu nhập bình

Trang 16

quân đầu người, trình độ giáo dục,…; Lương của một người phụ thuộc vào chức vụ, kinhnghiệm, độ tuổi,…

1 Giới thiệu mô hình hồi quy tuyến tính bội

Mô hình hồi quy tuyến tính bội có dạng tổng quát như

Như vậy, "Hồi quy tuyến tính" là một phương pháp để dự đoán giá trị biến phụ thuộc (Y)dựa trên giá trị của biến độc lập (X) Thuật ngữ tuyến tính dùng để chỉ rằng bản chất củacác thông số của tổng thể β1 và βi là tuyến tính (bậc nhất) Nó có thể được sử dụng chocác trường hợp chúng ta muốn dự đoán một số lượng liên tục Ví dụ: dự đoán thời gianngười dùng dừng lại một trang nào đó hoặc số người đã truy cập vào một website nào đóv.v Bằng dữ liệu thu thập được, ta đi ước lượng hàm hồi quy của tổng thể, đó là ướclượng các tham số của tổng thể: β1, β2,…, βk

2 Ước lượng các tham số của mô hình hồi quy tuyến tính bội

2.1 Hàm hồi quy tổng thể (PRF – Population Regression Function)

Với Y là biến phụ thuộc, X2, X3,…, Xk là biến độc lập, Y là ngẫu nhiên và có một phânphối xác suất nào đó Suy ra: Tồn tại E(Y|X2, X3,…, Xk) = giá trị xác định Do vậy,F(X2, X3,…, Xk) = E(Y|X2, X3,…, Xk) là hàm hồi quy tổng thể của Y theo X2, X3,…,Xk

Với một cá thể i, tồn tại (X2,i, X3,i, …, Xk,i, Yi)

Trang 18

2.2 Hàm hồi quy mẫu (SRF – Sample Regression Function):

Do không biết tổng thể, nên chúng ta không biết giá trị trung bình tổng thể của biến phụ thuộc là đúng ở mức độ nào Do vậy chúng ta phải dựa vào dữ liệu mẫu để ước lượng.Trên một mẫu có n cá thể, gọi Y = ^^ F¿,…,X K¿ là hồi quy mẫu

Với một cá thể mẫu Yi ≠ ^F(X2,i, X3,i,…, Xk,i) sinh ra ei = Yi –^F(X2, X3,…, Xk); ei gọi là phần dư SRF

Ta có hàm hồi quy mẫu tổng quát được viết dưới dạng như sau:

^y i= ^β1+ ^β2x2,i +…+^β kxk,i

Phần dư sinh ra: ei = yi – ŷi

Ký hiệu:^βm là ước lượng của βm Chúng ta trông đợi ^βm là ước lượng không chệch của

βm, hơn nữa phải là một ước lượng hiệu quả

Ước lượng SRF: chọn một phương pháp nào đó để ước lượng các tham số của F qua việctìm các tham số của ^F và lấy giá trị quan sát của các tham số này làm giá trị xấp xỉ chotham số của F

2.3 Phương pháp bình phương nhỏ nhất (Ordinary Least Squares)

Phương pháp bình phương nhỏ nhất được đưa ra bởi nhà Toán học Đức Carl FriedrichGauss Tư tưởng của phương pháp này là cực tiểu tổng bình phương của các phần dư Do

đó có thể nói để có được hồi quy thích hợp nhất, chúng ta chọn các ước lượng có tung độgốc và độ dốc sao cho phần dư là nhỏ

2.3.1 Các giả thiết của phương pháp bình phương nhỏ nhất cho mô hình hồi quy tuyến tính bội

Phương pháp bình phương nhỏ nhất (OLS) là phương pháp rất đáng tin cậy trong việcước lượng các tham số của mô hình, tuy nhiên mô hình ước lượng phải thỏa mãn 7 giảthiết Khi thỏa mãn các giả thiết, ước lượng bình phương nhỏ nhất (OLS) là ước lượngtuyến tính không chệch có hiệu quả nhất trong các ước lượng Vì thế phương pháp OLSđưa ra ước lượng không chệch tuyến tính tốt nhất (BLUE)

Trang 19

Kết quả này được gọi là Định lý Gauss – Markov, theo lý thuyết này ước lượng OLS làBLUE, nghĩa là trong tất cả các tổ hợp tuyến tính không chệch của Y, ước lượng OLS cóphương sai bé nhất Các giả thiết như sau:

1 Hàm hồi quy là tuyến tính theo các hệ số.

Điều này có nghĩa là quá trình thực hành hồi quy trên thực tế được miêu tả bởi mối quan

hệ dưới dạng:

y = β1 + β2x2 + β3x3 + β4x4 + … + βkxk + u

hoặc mối quan hệ thực tế có thể được viết lại ví dụ như dưới dạng lấy loga cả

hai vế với E(ui) = 0 : Kỳ vọng của các yếu tố ngẫu nhiên ui bằng 0

Trung bình tổng thể sai số là bằng 0 Điều này có nghĩa là có một số giá trị sai số mangdấu dương và một số sai số mang dấu âm Do hàm xem như là đường trung bình nên cóthể giả định rằng các sai số ngẫu nhiên trên sẽ bị loại trừ nhau, ở mức trung bình, trongtổng thể

với Var(ui) = σ2 : Phương sai bằng nhau và thuần nhất với mọi ui

Tất cả giá trị u được phân phối giống nhau với cùng phương sai σ2,

sao cho: Var(ui) = E(ui2) = σ2

với ui phân phối chuẩn

Điều này rất quan trọng khi phát sinh khoảng tin cậy và thực hiện kiểm định giả thuyếttrong những phạm vi mẫu là nhỏ Nhưng phạm vi mẫu lớn hơn, điều này trở nên khôngmấy quan trọng giữa các ui thì độc lập với nhau

2.3.2 Ước lượng

Ta đặt: yi ký hiệu giá trị thực của biến y tại quan

sát i ŷi ký hiệu giá trị của hàm hồi quy mẫu

ei ký hiệu phần dư yi – ŷi

Trang 20

Do đó cực tiểu hóa Σ(yi – ŷi)2 sẽ tương đương với cực tiểu Σei2 từ đó tìm ra ^β0, ^ β1, ^ β k ,

Ta có:

Σei2 = Σ(yi – (^β1+ ^β2x2,i +…+^β kxk,i))2

Chúng ta có thiết lập các điều kiện bậc nhất cho phép tính tối thiểu này như sau:

Trang 21

Ta có: Σ(yi – ӯ)2)2 = Σ[(yi – ŷi) + (ŷi – ӯ)2)]2 = Σ[ei + (ŷi – ӯ)2)]2

= Σei2 + 2Σei(ŷi – ӯ)2) + Σ(ŷi – ӯ)2)2Đặt:

 Σ(yi – ӯ)2)2 : TSS – Total Sum of Squares

 Σ(ŷi – ӯ)2)2 : ESS – Explained Sum of Squares

 Σei2 : RSS – Residual Sum of

Squares Do Σei(ŷi – ӯ)2) = 0 ⇐ (Σeiŷi = 0;

Trang 22

nhận được từ hàm hồi quy mẫu và giá trị trung bình của chúng Phần này đo độ chính xáccủa hàm hồi quy.

 RSS là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Y và các giá trị nhận được từ hàm hồi quy

 TSS được chia thành 2 phần: một phần do ESS và một phần do RSS

gây ra Từ TTS = ESS + RSS, ta chia cả hai vế cho TSS, ta có:

Trang 23

0 ≤ R2 ≤ 1.

 R2 cao nghĩa là mô hình ước lượng được giải thích được một mức độ cao biến động của biến phụ thuộc

 Nếu R2 = 1, nghĩa là đường hồi quy giải thích 100% thay đổi của y

 Nếu R2 = 0, nghĩa là mô hình không đưa ra thông tin nào về sự thay đổi của biến phụ thuộc y rong mô hình hồi quy đa biến tỷ lệ của toàn bộ sự khác biệt của biến y do tất cả các biến x2 và x3 gây ra được gọi là hệ số xác định bội, ký hiệu là R2

R2=1- ∑ei2

∑(yi − ´y )2

2.4 Khoảng tin cậy và kiểm định các hệ số hồi quy

2.4.1 Ước lượng khoảng tin cậy đối với các hệ số hồi quy

Mục đích của phân tích hồi quy không phải chỉ suy đoán về β1, β2,…, βk mà còn phảikiểm tra bản chất sự phụ thuộc Do vậy cần phải biết phân bố xác suất của β1, β2,…, βk.Các phân bố này phụ thuộc vào phân bố của các ui

Với các giả thiết OLS, ui có phân phối N (0, σ2) Các hệ số ước lượng tuân theo phân phối chuẩn:

Ước lượng phương sai sai số dựa vào các phần dư bình phương tối thiểu Trong đó k là số

hệ số có trong phương trình hồi quy đa biến:

^

σ2

=∑ei2

n − k

Ngày đăng: 12/11/2024, 15:02

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w