Phân tích hồi quy là nghiên cứu mối liên hệ phụ thuộc của một biến gọi là biến phụ thuộc vào một hay nhiều biến khác gọi là biến độc lập.. Biến định tính thường biểu thị có hay không có
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
- - -
Nguyễn Thị Nhung
MÔ HÌNH HỒI QUY CHO BIẾN ĐỊNH TÍNH VÀ ỨNG DỤNG
LUẬN VĂN THẠC SỸ KHOA HỌC
Hà Nội – Năm 2016
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
- - -
Nguyễn Thị Nhung
MÔ HÌNH HỒI QUY CHO BIẾN ĐỊNH TÍNH VÀ ỨNG DỤNG
Chuyên ngành: LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ TOÁN HỌC
Mã số: 60460106
LUẬN VĂN THẠC SỸ KHOA HỌC
NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS.TRẦN MẠNH CƯỜNG
Hà Nội – Năm 2016
Trang 3Mục lục
LỜI MỞ ĐẦU 2
Chương 1 - Kiến thức chuẩn bị 5
1.1 Mô hình tuyến tính cổ điển 5
1.1.1 Mô hình 5
1.1.2 Ước lượng các tham số hồi quy 7
1.1.3 Tính chất ước lượng bằng phương pháp bình phương cực tiểu 9
1.1.4 Khoảng tin cậy của các hệ số hồi quy β 9
1.1.5 Kiểm định các giả thiết về hệ số hồi quy 11
1.1.6 Kiểm tra sự phù hợp của mô hình 12
1.2 Một số hàm phân bố 13
1.2.1 Phân bố beta 13
1.2.2 Phân bố chuẩn 14
1.2.3 Phân bố đa thức 14
1.3 Phân bố tiên nghiệm và phân bố hậu nghiệm 16
1.3.1 Phân bố tiên nghiệm 16
1.3.2 Phân phối hậu nghiệm 18
Chương 2 - Các mô hình hồi quy cho dữ liệu nhị phân 20
2.1 Giới thiệu mô hình 20
2.2 Ước lượng các tham số hồi quy 28
2.2.1 Phương pháp ước lượng hợp lý cực đại 30
2.2.2 Phương pháp Bayes 32
2.2.3 Ví dụ 34
2.3 Kiểm tra sự phù hợp của mô hình 39
2.3.1 Sử dụng phương pháp cổ điển 39
2.3.2 Phương pháp Bayesian 42
2.4 Biến giả 45
Chương 3 - Các mô hình hồi quy cho dữ liệu thứ tự 49
3.1 Dữ liệu thứ tự 49
3.2 Ước lượng các hệ số hồi quy 54
3.2.1 Phương pháp ước lượng hợp lý cực đại 56
3.2.2 Phương pháp Bayes 58
Trang 43.2.3 Ví dụ 62
Chương 4 - Sử dụng mô hình probit thứ tự để phân tích chất lượng sinh trưởng của cây rừng 66
4.1 Giới thiệu về địa bàn nghiên cứu và mục đích nghiên cứu 66
4.2 Mô tả dữ liệu 67
4.3 Phân tích chất lượng sinh trưởng của cây 70
KẾT LUẬN 76
TÀI LIỆU THAM KHẢO 77
LỜI MỞ ĐẦU
Trang 5Trong phân tích hoạt động kinh doanh cũng như trong nhiều lĩnh vực khác, hồi quy là công cụ phân tích đầy sức mạnh không thể thay thế Nó là phương pháp thống kê dùng để ước lượng, dự báo những sự kiện xảy ra trong tương lai dựa vào quy luật quá khứ Phân tích hồi quy là nghiên cứu mối liên hệ phụ thuộc của một biến (gọi là biến phụ thuộc) vào một hay nhiều biến khác (gọi là biến độc lập) Trong phân tích hồi quy, có hai loại biến chính là biến định lượng và biến định tính
Biến định lượng là biến mà giá trị của những quan sát đó là những con số
Biến định tính thường biểu thị có hay không có một tính chất hoặc biểu thị các mức
độ khác nhau của một tiêu thức, thuộc tính nào đó, chẳng hạn như giới tính, tôn giáo, chủng tộc, nơi cư trú, Những biến định tính này cũng có sự ảnh hưởng đối với biến phụ thuộc và phải được đưa vào mô hình hồi quy
Trong luận văn này đưa ra một cách tiếp cận theo phương pháp thống kê là xây dựng mô hình hồi quy với biến phụ thuộc là biến định tính Từ đó đưa ra các phương pháp đánh giá hiệu quả, ít tốn kém và dễ thực hiện được áp dụng rộng rãi trong đời sống, xã hội Với mục tiêu như vậy, luận văn này có tên “Mô hình hồi quy cho các biến định tính và ứng dụng”
Luận văn được chia làm bốn chương Chương 1 giới thiệu về mô hình hồi quy tuyến tính cổ điển với biến phụ thuộc là biến định lượng, mô hình này được xem là nền tảng, cơ sở để xây dựng các mô hình hồi quy khác Trong chương này, ta nghiên cứu các bài toán ước lượng và kiểm định giả thiết cho sự phù hợp của mô hình Ngoài ra một phương pháp ước lượng theo hướng suy luận Bayes cũng được giới thiệu trong chương này
Chương 2 trình bày về mô hình hồi quy với biến phụ thuộc là biến nhị phân, chỉ nhận hai giá trị là 0 và 1 Trong mô hình này nghiên cứu cách thành lập mô hình, một số dạng mô hình phổ biến, các bài toán ước lượng và kiểm định kèm theo ví dụ minh họa
Trang 6Chương 3 tiếp tục trình bày về mô hình hồi quy với biến phụ thuộc là biến định tính được săp thứ tự Các diễn giải về kết quả mô hình này được xem như là sự mở rộng đối với các diễn giải của mô hình hồi quy với dữ liệu nhị phân
Chương 4 là phần ứng dụng của mô hình hồi quy thứ tự để phân tích chất lượng sinh trưởng của cây rừng từ bộ dữ liệu được lấy thực tế Trong chương này, một số kết quả đạt được có ý nghĩa thực tế như chất lượng sinh trưởng của cây rừng phụ thuộc mạnh vào những yếu tố như đường kính tán, chiều cao, đường kính 1m3 Các loài cây khác nhau cũng có sự đánh giá khác nhau về chất lượng sinh trưởng, mức
độ quý hiếm của cây không có ý nghĩa trong việc đánh giá đó
Bản luận văn này được hoàn thành với sự hướng dẫn nghiêm khắc và chỉ bảo tận tình của Ts Trần Mạnh Cường Thầy đã dành rất nhiều thời gian quý báu của mình
để hướng dẫn, giải đáp thắc mắc cho tôi trong suốt quá trình bắt đầu tới khi hoàn thành luận văn Nhân dịp này, tôi xin tỏ lòng biết ơn sâu sắc nhất tới Thầy
Qua đây, tôi xin cảm ơn các Thầy, Cô khoa Toán- Cơ- Tin, trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội, đặc biệt là các Thầy đã tham gia giảng dạy khóa Cao học Toán 2013-2015
Tôi cũng xin cảm ơn gia đình, các bạn và mọi người đã giúp đỡ, cổ vũ để tôi có thể khắc phục những khó khăn gặp phải trong suốt quá trình học
Hà Nội, ngày 10 tháng 3 năm 2016
Học viên
Nguyễn Thị Nhung
Trang 7Chương 1 - Kiến thức chuẩn bị
1.1 Mô hình tuyến tính cổ điển
1.1.1 Mô hình
Giả sử X1, …, Xk là k biến độc lập dùng để dự báo và Y là biến phụ thuộc cần dự
báo Ví dụ, ta giả sử Y là giá nhà ở Khi đó Y phụ thuộc vào các yếu tố sau:
• X1 là diện tích sử dụng (m2)
• X2 là vị trí vùng (thành phố )
• X3 là giá của năm trước
• X4 là chất lượng xây dựng
Sự phụ thuộc giữa biến Y theo các biến X1, …, Xk nói chung là rất phức tạp Tuy
nhiên có một số trường hợp sự phụ thuộc đó tương đối đơn giản Mô hình hồi quy
tuyến tính cổ điển khẳng định rẳng Y phụ thuộc tuyến tính vào các Xk (nghĩa là Y là
một biểu thức bậc nhất của X1, …, Xk ) và sai số ngẫu nhiên 𝜺 Như vây:
Y = β0 + β1X1 +…+ βkXk + 𝜺 (1.1)
Trong đó: βi, i = 0 ,…, k là các hệ số chưa biết gọi là các hệ số hồi quy; β0 gọi là hệ
số chặn; β1, …… , βk là các hệ số góc (độ dốc)
Bây giờ ta tiến hành n quan sát độc lập đồng thời về (k+1) biến X1, …, Xk, Y Giả
sử các số liệu quan sát tuân theo mô hình sau:
y1 = β0 + β1x11 +…+ βkx1k + 𝜺1
y2 = β0 + β1x21 +…+ βkx2k + 𝜺2 (1.2)
yn = β0 + β1xn1 +…+ βk xnk + 𝜺n
Trang 8Trong đó các sai số: 𝜺1, …, 𝜺n thỏa mãn 3 điều kiện sau:
a, E(𝜺j) = 0 (Việc đo đạc không chịu sai lệch hệ thống)
b, D(𝜺j) = 𝜎2 (phương sai không đổi )
c, cov(𝜺i , 𝜺j) = 0 i ≠ j = 1, …, n (các sai lệch từng bước không ảnh hưởng đến nhau)
Mô hình (1.2) có thể viết dưới dạng ma trận như sau:
[ ]
= [
] [ ]
+ [ ]
Hoặc đơn giản hơn:
Y = X β + 𝜺, (1.3) trong đó:
X =
[
] được gọi là ma trận thiết kế cấp n (k+1) của các biến độc
lập
Y = [ y1, , yn ]Tgồm n vecto quan sát; β = [β0, …, βk]T gồm k vecto các hệ số hồi quy; 𝜺 = [𝜺1, …, 𝜺n]T gồm n vecto sai số ngẫu nhiên
Trang 9Và:
i, E(𝜺) = 0
ii, cov(𝜺) = E(𝜺𝜺T) = 𝜎2In
1.1.2 Ước lượng các tham số hồi quy
Một bài toán trước tiên đặt ra là hãy dựa trên ma trận X và vecto Y của các giá trị
quan sát, hãy ước lượng vecto tham số β Ở đây, chúng ta sử dụng phương pháp bình phương cực tiểu
Nếu chúng ta sử dụng vecto b = (b0, …, bk) là giá trị thử của β thì giữa các quan sát
yj và b0 + b1xj1 +….+ bkxjk ; ( j=1,…,n) sẽ có một độ lệch:
yj - ( b0 + b1xj1 + … + bkxjk), nói chung độ lệch này sẽ khác 0
Nội dung của phương pháp bình phương cực tiểu là hãy chọn giá trị của vecto b sao
cho:
S(b) = ∑
= (Y-Xb)T(Y-Xb) → min
Đại lượng ̂ làm cực tiểu hóa phiếm hàm S(b) được gọi là ước lượng bình phương cực tiểu của β, còn:
̂ = yj – ( ̂ ̂ ̂ ); j =1, …, n gọi là các phần dư của phép hồi quy Trong trường hợp này, vì biểu thức theo
X1,…, Xk là tuyến tính, nên phương trình :
̂ = ̂ ̂ ̂ , được gọi là phương trình hồi quy tuyến tính mẫu
Trang 10Vì phiếm hàm S(b) là hàm bậc 2 theo b nên dễ thấy ̂ có thể tìm được từ hệ phương
trình sau:
= 0; i = 0, …., k
Hoặc tương đương:
{
∑( )
∑( )
∑( )
Do đó: ∑ ( ) ∑
b0∑ + b1∑ + ……….+ bk∑ = ∑ .
………
b0∑ + b1∑ +……….+ bk∑ = ∑ .
Chú ý rằng nếu đặt: xj0 =1 cho j = 1,…, n ta có phương trình sau:
[ ∑
∑
∑
∑
∑
∑
∑
∑
∑ ][ ]
= [ ∑
∑
∑ ]
Trang 11
Hoặc dưới dạng ma trận:
XTXb = XTY (*)
Phương trình (*) gọi là phương trình chuẩn
Vì rank(X) = k + 1 ≤ n nên XT X là ma trận cấp (k + 1) (k + 1) có ma trận nghịch
đảo (XT X)-1
Từ (*), ta có nghiệm:
b = ̂ = (XT
X)-1XT Y
1.1.3 Tính chất ước lượng bằng phương pháp bình phương cực tiểu
i Ước lượng ̂ là ước lượng không chệch với :
E ̂ = β; cov( ̂) = 𝜎2
(XT X)-1
ii Phần dư ̂ có tính chất: ̂̅ = 0 (điều này cũng tương đương với ̅ ̂̅ )
E( ̂) = 0; cov( ̂) = 𝜎2
(I - H)
iii ̂ = ̂ ̂/(n - k - 1) = ∑ ̂ /(n - k - 1) là ước lượng không chệch của 𝜎2, tức là:
E ( ̂ ) = 𝜎2
iv ̂ và ̂ là không tương quan:
cov ( ̂ ̂) = 0; cov( ̂ ̂ ) = 0
1.1.4 Khoảng tin cậy của các hệ số hồi quy β
Trong phần này ta xét mô hình hồi quy cổ điển (1.2) và (1.3)với giả thiết thêm rằng: Các 𝜺j có cùng phân bố chuẩn N(0, 𝜎2
In) và độc lập tức là: 𝜺 = (𝜺1,…….,𝜺n )T
có phân bố chuẩn Nn(0, 𝜎2In)
Mệnh đề 1
i ̂ có phân bố chuẩn N (β, 𝜎2
(XT X)-1)
Trang 12ii ̂
= ∑ ̂ có phân bố χ2 với n - k - 1 bậc tự do
iii ̂ và ̂ là độc lập
Mệnh đề 2
Xét mô hình hồi quy tuyến tính cổ điển Y = X β + 𝜺 với X có hạng là: k + 1 ≤ n và
𝜺 có phân bố chuẩn N(0, 𝜎2
In) Khi đó miền tin cậy đồng thời mức: 1 - α của β xác định bởi:
(β - ̂)T
XT X(β - ̂) ≤ (k + 1) ̂ Fk + 1, n - k - 1(α)
Trong đó: Fk + 1, n - k - 1(α) là phân vị trên mức α của phân bố F với k + 1 và n - k - 1 bậc tự do Nói cách khác, với độ tin cậy (1 - ) giá trị trân thực β phải nằm bên trong ellipsoid:
(x - ̂)TXT X(x - ̂) = (k + 1) ̂ Fk + 1, n - k - 1(α)
Hơn nữa, khoảng tin cậy đồng thời mức: 1 - α của các βi, i = 0, …, k được xác định bởi các mút:
̂ √ ̂ ̂
Trong đó: ̂ ̂ ký hiệu phần tử thứ i trên đường chéo chính của ma trận hiệp phương sai 𝜎2(XT X)-1 và là ước lượng không chệch của D( ̂)
Mệnh đề 3
Giả sử tn - k - 1( ) là phân vị trên mức
của phân bố Student với n - k -
1 bậc tự do Khi đó đồng thời ta có các khoảng tin cậy của β, với mức tin cậy (1 - α) cho bởi các đầu mút:
Trang 13TÀI LIỆU THAM KHẢO
Tiếng Việt
[1] Đặng Hùng Thắng (2010), Thống kê ứng dụng,”” NXB Khoa học và kỹ thuật,
Vĩnh Phúc
[2] Đào Hữu Hồ (2009), Xác suất – Thống kê, NXB Đại học Quốc Gia Hà Nội, Hà
Nội
[3] Nguyễn Văn Hữu, Nguyễn Hữu Dư (2011), Phân tích thống kê và dự báo, NXB
Đại học Quốc Gia Hà Nội, Hà Nội
Tiếng Anh
[4] Alan Agresti (2010), Analysis of Ordinal Categorial Data, NXB Wiley,
Canada
[5] Ann A O’Connell (2006), Logistic regression models for ordinal response
variables, NXB Sage, London
[6] J Scott Long (1997), Regression models for Categorial and Limited dependent
variables, NXB Cambridge University Press, London
[7] S E Fienberg, D.Lievesley, J.Rolph (1999), Statistics for Social Science and
Public Policy, NXB Springer, New York
[8] Smita Skrivanek (2009), The Use of Dummy Variables in Regression Analysis,
NXB MoreSteam
[9] Walter A Shewhart and Samuel S Wilks (2013), Applied Logistic Regression,
NXB Wiley, Canada