Mô hình hồi quy cho biến định tính và ứng dụng

Phân tích hồi quy là nghiên cứu mối liên hệ phụ thuộc của một biến gọi là biến phụ thuộc vào một hay nhiều biến khác gọi là biến độc lập.. Biến định tính thường biểu thị có hay không có

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

- - -

Nguyễn Thị Nhung

MÔ HÌNH HỒI QUY CHO BIẾN ĐỊNH TÍNH VÀ ỨNG DỤNG

LUẬN VĂN THẠC SỸ KHOA HỌC

Hà Nội – Năm 2016

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

- - -

MÔ HÌNH HỒI QUY CHO BIẾN ĐỊNH TÍNH VÀ ỨNG DỤNG

Chuyên ngành: LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ TOÁN HỌC

Mã số: 60460106

LUẬN VĂN THẠC SỸ KHOA HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC:

TS.TRẦN MẠNH CƯỜNG

Hà Nội – Năm 2016

Trang 3

Mục lục

LỜI MỞ ĐẦU 2

Chương 1 - Kiến thức chuẩn bị 5

1.1 Mô hình tuyến tính cổ điển 5

1.1.1 Mô hình 5

1.1.2 Ước lượng các tham số hồi quy 7

1.1.3 Tính chất ước lượng bằng phương pháp bình phương cực tiểu 9

1.1.4 Khoảng tin cậy của các hệ số hồi quy β 9

1.1.5 Kiểm định các giả thiết về hệ số hồi quy 11

1.1.6 Kiểm tra sự phù hợp của mô hình 12

1.2 Một số hàm phân bố 13

1.2.1 Phân bố beta 13

1.2.2 Phân bố chuẩn 14

1.2.3 Phân bố đa thức 14

1.3 Phân bố tiên nghiệm và phân bố hậu nghiệm 16

1.3.1 Phân bố tiên nghiệm 16

1.3.2 Phân phối hậu nghiệm 18

Chương 2 - Các mô hình hồi quy cho dữ liệu nhị phân 20

2.1 Giới thiệu mô hình 20

2.2 Ước lượng các tham số hồi quy 28

2.2.1 Phương pháp ước lượng hợp lý cực đại 30

2.2.2 Phương pháp Bayes 32

2.2.3 Ví dụ 34

2.3 Kiểm tra sự phù hợp của mô hình 39

2.3.1 Sử dụng phương pháp cổ điển 39

2.3.2 Phương pháp Bayesian 42

2.4 Biến giả 45

Chương 3 - Các mô hình hồi quy cho dữ liệu thứ tự 49

3.1 Dữ liệu thứ tự 49

3.2 Ước lượng các hệ số hồi quy 54

3.2.1 Phương pháp ước lượng hợp lý cực đại 56

3.2.2 Phương pháp Bayes 58

Trang 4

3.2.3 Ví dụ 62

Chương 4 - Sử dụng mô hình probit thứ tự để phân tích chất lượng sinh trưởng của cây rừng 66

4.1 Giới thiệu về địa bàn nghiên cứu và mục đích nghiên cứu 66

4.2 Mô tả dữ liệu 67

4.3 Phân tích chất lượng sinh trưởng của cây 70

KẾT LUẬN 76

TÀI LIỆU THAM KHẢO 77

LỜI MỞ ĐẦU

Trang 5

Trong phân tích hoạt động kinh doanh cũng như trong nhiều lĩnh vực khác, hồi quy là công cụ phân tích đầy sức mạnh không thể thay thế Nó là phương pháp thống kê dùng để ước lượng, dự báo những sự kiện xảy ra trong tương lai dựa vào quy luật quá khứ Phân tích hồi quy là nghiên cứu mối liên hệ phụ thuộc của một biến (gọi là biến phụ thuộc) vào một hay nhiều biến khác (gọi là biến độc lập) Trong phân tích hồi quy, có hai loại biến chính là biến định lượng và biến định tính

Biến định lượng là biến mà giá trị của những quan sát đó là những con số

Biến định tính thường biểu thị có hay không có một tính chất hoặc biểu thị các mức

độ khác nhau của một tiêu thức, thuộc tính nào đó, chẳng hạn như giới tính, tôn giáo, chủng tộc, nơi cư trú, Những biến định tính này cũng có sự ảnh hưởng đối với biến phụ thuộc và phải được đưa vào mô hình hồi quy

Trong luận văn này đưa ra một cách tiếp cận theo phương pháp thống kê là xây dựng mô hình hồi quy với biến phụ thuộc là biến định tính Từ đó đưa ra các phương pháp đánh giá hiệu quả, ít tốn kém và dễ thực hiện được áp dụng rộng rãi trong đời sống, xã hội Với mục tiêu như vậy, luận văn này có tên “Mô hình hồi quy cho các biến định tính và ứng dụng”

Luận văn được chia làm bốn chương Chương 1 giới thiệu về mô hình hồi quy tuyến tính cổ điển với biến phụ thuộc là biến định lượng, mô hình này được xem là nền tảng, cơ sở để xây dựng các mô hình hồi quy khác Trong chương này, ta nghiên cứu các bài toán ước lượng và kiểm định giả thiết cho sự phù hợp của mô hình Ngoài ra một phương pháp ước lượng theo hướng suy luận Bayes cũng được giới thiệu trong chương này

Chương 2 trình bày về mô hình hồi quy với biến phụ thuộc là biến nhị phân, chỉ nhận hai giá trị là 0 và 1 Trong mô hình này nghiên cứu cách thành lập mô hình, một số dạng mô hình phổ biến, các bài toán ước lượng và kiểm định kèm theo ví dụ minh họa

Trang 6

Chương 3 tiếp tục trình bày về mô hình hồi quy với biến phụ thuộc là biến định tính được săp thứ tự Các diễn giải về kết quả mô hình này được xem như là sự mở rộng đối với các diễn giải của mô hình hồi quy với dữ liệu nhị phân

Chương 4 là phần ứng dụng của mô hình hồi quy thứ tự để phân tích chất lượng sinh trưởng của cây rừng từ bộ dữ liệu được lấy thực tế Trong chương này, một số kết quả đạt được có ý nghĩa thực tế như chất lượng sinh trưởng của cây rừng phụ thuộc mạnh vào những yếu tố như đường kính tán, chiều cao, đường kính 1m3 Các loài cây khác nhau cũng có sự đánh giá khác nhau về chất lượng sinh trưởng, mức

độ quý hiếm của cây không có ý nghĩa trong việc đánh giá đó

Bản luận văn này được hoàn thành với sự hướng dẫn nghiêm khắc và chỉ bảo tận tình của Ts Trần Mạnh Cường Thầy đã dành rất nhiều thời gian quý báu của mình

để hướng dẫn, giải đáp thắc mắc cho tôi trong suốt quá trình bắt đầu tới khi hoàn thành luận văn Nhân dịp này, tôi xin tỏ lòng biết ơn sâu sắc nhất tới Thầy

Qua đây, tôi xin cảm ơn các Thầy, Cô khoa Toán- Cơ- Tin, trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội, đặc biệt là các Thầy đã tham gia giảng dạy khóa Cao học Toán 2013-2015

Tôi cũng xin cảm ơn gia đình, các bạn và mọi người đã giúp đỡ, cổ vũ để tôi có thể khắc phục những khó khăn gặp phải trong suốt quá trình học

Hà Nội, ngày 10 tháng 3 năm 2016

Học viên

Trang 7

Chương 1 - Kiến thức chuẩn bị

1.1 Mô hình tuyến tính cổ điển

1.1.1 Mô hình

Giả sử X1, …, Xk là k biến độc lập dùng để dự báo và Y là biến phụ thuộc cần dự

báo Ví dụ, ta giả sử Y là giá nhà ở Khi đó Y phụ thuộc vào các yếu tố sau:

• X1 là diện tích sử dụng (m2)

• X2 là vị trí vùng (thành phố )

• X3 là giá của năm trước

• X4 là chất lượng xây dựng

Sự phụ thuộc giữa biến Y theo các biến X1, …, Xk nói chung là rất phức tạp Tuy

nhiên có một số trường hợp sự phụ thuộc đó tương đối đơn giản Mô hình hồi quy

tuyến tính cổ điển khẳng định rẳng Y phụ thuộc tuyến tính vào các Xk (nghĩa là Y là

một biểu thức bậc nhất của X1, …, Xk ) và sai số ngẫu nhiên 𝜺 Như vây:

Y = β0 + β1X1 +…+ βkXk + 𝜺 (1.1)

Trong đó: βi, i = 0 ,…, k là các hệ số chưa biết gọi là các hệ số hồi quy; β0 gọi là hệ

số chặn; β1, …… , βk là các hệ số góc (độ dốc)

Bây giờ ta tiến hành n quan sát độc lập đồng thời về (k+1) biến X1, …, Xk, Y Giả

sử các số liệu quan sát tuân theo mô hình sau:

y1 = β0 + β1x11 +…+ βkx1k + 𝜺1

y2 = β0 + β1x21 +…+ βkx2k + 𝜺2 (1.2)

yn = β0 + β1xn1 +…+ βk xnk + 𝜺n

Trang 8

Trong đó các sai số: 𝜺1, …, 𝜺n thỏa mãn 3 điều kiện sau:

a, E(𝜺j) = 0 (Việc đo đạc không chịu sai lệch hệ thống)

b, D(𝜺j) = 𝜎2 (phương sai không đổi )

c, cov(𝜺i , 𝜺j) = 0 i ≠ j = 1, …, n (các sai lệch từng bước không ảnh hưởng đến nhau)

Mô hình (1.2) có thể viết dưới dạng ma trận như sau:

[ ]

= [

] [ ]

+ [ ]

Hoặc đơn giản hơn:

Y = X β + 𝜺, (1.3) trong đó:

X =

[

] được gọi là ma trận thiết kế cấp n (k+1) của các biến độc

lập

Y = [ y1, , yn ]Tgồm n vecto quan sát; β = [β0, …, βk]T gồm k vecto các hệ số hồi quy; 𝜺 = [𝜺1, …, 𝜺n]T gồm n vecto sai số ngẫu nhiên

Trang 9

Và:

i, E(𝜺) = 0

ii, cov(𝜺) = E(𝜺𝜺T) = 𝜎2In

1.1.2 Ước lượng các tham số hồi quy

Một bài toán trước tiên đặt ra là hãy dựa trên ma trận X và vecto Y của các giá trị

quan sát, hãy ước lượng vecto tham số β Ở đây, chúng ta sử dụng phương pháp bình phương cực tiểu

Nếu chúng ta sử dụng vecto b = (b0, …, bk) là giá trị thử của β thì giữa các quan sát

yj và b0 + b1xj1 +….+ bkxjk ; ( j=1,…,n) sẽ có một độ lệch:

yj - ( b0 + b1xj1 + … + bkxjk), nói chung độ lệch này sẽ khác 0

Nội dung của phương pháp bình phương cực tiểu là hãy chọn giá trị của vecto b sao

cho:

S(b) = ∑

= (Y-Xb)T(Y-Xb) → min

Đại lượng ̂ làm cực tiểu hóa phiếm hàm S(b) được gọi là ước lượng bình phương cực tiểu của β, còn:

̂ = yj – ( ̂ ̂ ̂ ); j =1, …, n gọi là các phần dư của phép hồi quy Trong trường hợp này, vì biểu thức theo

X1,…, Xk là tuyến tính, nên phương trình :

̂ = ̂ ̂ ̂ , được gọi là phương trình hồi quy tuyến tính mẫu

Trang 10

Vì phiếm hàm S(b) là hàm bậc 2 theo b nên dễ thấy ̂ có thể tìm được từ hệ phương

trình sau:

= 0; i = 0, …., k

Hoặc tương đương:

{

∑( )

Do đó: ∑ ( ) ∑

b0∑ + b1∑ + ……….+ bk∑ = ∑ .

………

b0∑ + b1∑ +……….+ bk∑ = ∑ .

Chú ý rằng nếu đặt: xj0 =1 cho j = 1,…, n ta có phương trình sau:

[ ∑

∑

∑ ][ ]

= [ ∑

∑

∑ ]

Trang 11

Hoặc dưới dạng ma trận:

XTXb = XTY (*)

Phương trình (*) gọi là phương trình chuẩn

Vì rank(X) = k + 1 ≤ n nên XT X là ma trận cấp (k + 1) (k + 1) có ma trận nghịch

đảo (XT X)-1

Từ (*), ta có nghiệm:

b = ̂ = (XT

X)-1XT Y

1.1.3 Tính chất ước lượng bằng phương pháp bình phương cực tiểu

i Ước lượng ̂ là ước lượng không chệch với :

E ̂ = β; cov( ̂) = 𝜎2

(XT X)-1

ii Phần dư ̂ có tính chất: ̂̅ = 0 (điều này cũng tương đương với ̅ ̂̅ )

E( ̂) = 0; cov( ̂) = 𝜎2

(I - H)

iii ̂ = ̂ ̂/(n - k - 1) = ∑ ̂ /(n - k - 1) là ước lượng không chệch của 𝜎2, tức là:

E ( ̂ ) = 𝜎2

iv ̂ và ̂ là không tương quan:

cov ( ̂ ̂) = 0; cov( ̂ ̂ ) = 0

1.1.4 Khoảng tin cậy của các hệ số hồi quy β

Trong phần này ta xét mô hình hồi quy cổ điển (1.2) và (1.3)với giả thiết thêm rằng: Các 𝜺j có cùng phân bố chuẩn N(0, 𝜎2

In) và độc lập tức là: 𝜺 = (𝜺1,…….,𝜺n )T

có phân bố chuẩn Nn(0, 𝜎2In)

Mệnh đề 1

i ̂ có phân bố chuẩn N (β, 𝜎2

(XT X)-1)

Trang 12

ii ̂

= ∑ ̂ có phân bố χ2 với n - k - 1 bậc tự do

iii ̂ và ̂ là độc lập

Mệnh đề 2

Xét mô hình hồi quy tuyến tính cổ điển Y = X β + 𝜺 với X có hạng là: k + 1 ≤ n và

𝜺 có phân bố chuẩn N(0, 𝜎2

In) Khi đó miền tin cậy đồng thời mức: 1 - α của β xác định bởi:

(β - ̂)T

XT X(β - ̂) ≤ (k + 1) ̂ Fk + 1, n - k - 1(α)

Trong đó: Fk + 1, n - k - 1(α) là phân vị trên mức α của phân bố F với k + 1 và n - k - 1 bậc tự do Nói cách khác, với độ tin cậy (1 - ) giá trị trân thực β phải nằm bên trong ellipsoid:

(x - ̂)TXT X(x - ̂) = (k + 1) ̂ Fk + 1, n - k - 1(α)

Hơn nữa, khoảng tin cậy đồng thời mức: 1 - α của các βi, i = 0, …, k được xác định bởi các mút:

̂ √ ̂ ̂

Trong đó: ̂ ̂ ký hiệu phần tử thứ i trên đường chéo chính của ma trận hiệp phương sai 𝜎2(XT X)-1 và là ước lượng không chệch của D( ̂)

Mệnh đề 3

Giả sử tn - k - 1( ) là phân vị trên mức

của phân bố Student với n - k -

1 bậc tự do Khi đó đồng thời ta có các khoảng tin cậy của β, với mức tin cậy (1 - α) cho bởi các đầu mút:

Trang 13

TÀI LIỆU THAM KHẢO

Tiếng Việt

[1] Đặng Hùng Thắng (2010), Thống kê ứng dụng,”” NXB Khoa học và kỹ thuật,

Vĩnh Phúc

[2] Đào Hữu Hồ (2009), Xác suất – Thống kê, NXB Đại học Quốc Gia Hà Nội, Hà

Nội

[3] Nguyễn Văn Hữu, Nguyễn Hữu Dư (2011), Phân tích thống kê và dự báo, NXB

Đại học Quốc Gia Hà Nội, Hà Nội

Tiếng Anh

[4] Alan Agresti (2010), Analysis of Ordinal Categorial Data, NXB Wiley,

Canada

[5] Ann A O’Connell (2006), Logistic regression models for ordinal response

variables, NXB Sage, London

[6] J Scott Long (1997), Regression models for Categorial and Limited dependent

variables, NXB Cambridge University Press, London

[7] S E Fienberg, D.Lievesley, J.Rolph (1999), Statistics for Social Science and

Public Policy, NXB Springer, New York

[8] Smita Skrivanek (2009), The Use of Dummy Variables in Regression Analysis,

NXB MoreSteam

[9] Walter A Shewhart and Samuel S Wilks (2013), Applied Logistic Regression,

NXB Wiley, Canada

Định dạng
Số trang	13
Dung lượng	1,21 MB