Trong chương 1, trình bày một số phương pháp phân tích hồi quy tham số: hồi quy đơn biến, hồi quy đa biến.. Trong chương này cũng trình bày một số kiến thức cơ bản về phương pháp bình ph
Trang 11
ĐẠI HỌC QUỐC GIA TP HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
Trang 2CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG -HCM
Cán bộ hướng dẫn khoa học : PGS.TS Tô Anh Dũng
Cán bộ chấm nhận xét 1:
Cán bộ chấm nhận xét 2 :
Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày tháng năm Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: 1
2
3
4
5
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên ngành sau khi luận văn đã được sửa chữa
CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA
Trang 3ĐẠI HỌC QUỐC GIA TPHCM CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG ĐẠI HỌC BÁCH KHOA Độc lập – Tự do – Hạnh phúc
Tp HCM, ngày 15 tháng 06 năm 2013
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: NGUYỄN TRỌNG VINH MSHV: 11240508
Ngày, tháng, năm sinh: 08 – 04 – 1986 Nơi sinh: Vĩnh Long Chuyên ngành: Toán Ứng Dụng Mã số : 604636
I TÊN ĐỀ TÀI:
HỒI QUY BÁN THAM SỐ VÀ ỨNG DỤNG
II NHIỆM VỤ VÀ NỘI DUNG:
III NGÀY GIAO NHIỆM VỤ : 08/ 2012
IV NGÀY HOÀN THÀNH NHIỆM VỤ: 06/ 2013
V CÁN BỘ HƯỚNG DẪN PGS.TS Tô Anh Dũng
CÁN BỘ HƯỚNG DẪN CHỦ NHIỆM BỘ MÔN ĐÀO TẠO
PGS.TS Tô Anh Dũng
TRƯỞNG KHOA:
Trang 4
LỜI CẢM ƠN
Tôi xin bày tỏ lòng biết ơn sâu sắc của mình tới Thầy hướng dẫn – PGS.TS
Tô Anh Dũng – Trưởng bộ môn Xác suất thống kê, Đại học Khoa học tự nhiên – Đại học Quốc Gia Tp Hồ Chí Minh, người đã luôn khuyến khích, quan tâm giúp
đỡ, truyền đạt kiến thức và tạo mọi điều kiện thuận lợi giúp tôi hoàn thành luận văn tốt nghiệp này
Tôi xin bày tỏ lòng biết ơn chân thành đến tập thể Thầy, Cô giáo bộ môn Toán ứng dụng – Khoa Khoa học Ứng Dụng, phòng Đào Tạo Sau Đại Học – trường Đại học Bách Khoa – Đại học Quốc Gia Tp.Hồ Chí Minh đã tận tình dạy dỗ, giúp đỡ, truyền đạt cho tôi trong suốt khóa học
Tôi xin gửi lời cảm ơn đến tập thể anh chị lớp Cao học khoá 2009 đã giúp đỡ, chia sẽ, động viên tôi vượt qua những khó khăn trong suốt quá trình học tập
Cuối cùng tôi xin bày tỏ lòng biết ơn sâu sắc đến gia đình đã luôn khích lệ và giúp đỡ tôi trong suốt thời gian học tập vừa qua
Nguyễn Trọng Vinh
Trang 5
TÓM TẮT
Luận văn gồm bốn chương Trong chương 1, trình bày một số phương pháp phân tích hồi quy tham số: hồi quy đơn biến, hồi quy đa biến Trong chương này cũng trình bày một số kiến thức cơ bản về phương pháp bình phương cực tiểu, ước lượng, kiểm định tham số Trong chương 2, trình bày về mô hình hồi quy phi tham
số bao gồm:một số phương pháp làm trơn, phương pháp Sline phạt, mô hình cộng Trong chương 3, trình bày mô hình hồi quy bán tham số, ước lượng trong mô hình hồi quy bán tham số chương 4 nêu 2 ví dụ thể hiện tính tối ưu của mô hình hồi quy bán tham số số với mô hình hồi quy tham số và phi tham số
Trang 6MỤC LỤC
Lời cảm ơn
Tóm tắt
Mục lục
Mở đầu
1 Tính cấp thiết của đề tài
2 Mục tiêu
3 Nội dung nghiên cứu
4 Phương pháp nghiên cứu
Chương 1: Hồi quy tham số 1
1.1 Phân tích hồi quy 1
1.2 Mô hình hồi quy đơn biến 1
1.2.1 Hồi quy tổng thể .1
1.2.2 Hàm hồi quy mẫu 1
1.2.3 Ước lượng và kiểm định giả thuyết mô hình hồi quy đơn biến 2
1.2.3.1 Phương pháp bình phương cực tiểu 2
1.2.3.2 Các giả thuyết của phương pháp bình phương cực tiểu 4
1.2.3.3 Phương sai và sai số chuẩn của các ước lượng .7
1.2.3.4 Hệ số xác định và hệ số tương quan 7
1.2.3.5 Phân phối xác suất của các ước lượng 9
1.2.3.6 Khoảng tin cậy của 0, 1 và 2 9
1.2.3.6.1 Khoảng tin cậy của 1 9
1.2.3.6.2 Khoảng tin cậy của 0 10
1.2.3.6.3 Khoảng tin cậy của 2 10
1.2.3.7 Kiểm định giả thuyết về các hệ số hồi quy 10
1.3 Mô hình hồi quy tuyến tính k biến 11
1.3.1 Hàm hồi quy tổng thể 11
1.3.2 Các giả thuyết 11
Trang 71.3.3 Ước lượng các tham số 12
1.3.4 Hệ số xác định hồi quy bội 13
1.3.5 Ma trận tương quan 13
1.3.6 Ma trận hiệp phương sai 14
1.3.7 Khoảng tin cậy và kiểm định giả thuyết 15
Chương 2 Hồi quy phi tham số 16
2.1 Làm trơn đơn giản 17
2.1.1 Phương pháp trung bình trượt 17
2.1.2 Xấp xỉ cơ bản 17
2.1.3 Tính thống nhất và tốc độ hội tụ 18
2.1.4 Chuẩn tiệm cận và khoảng tin cậy 19
2.1.5 Ma trận làm trơn 19
2.2 Làm trơn hạt nhân 20
2.2.1 Ước lượng 20
2.2.2 Tiệm cận chuẩn 21
2.2.3 So sánh với làm trơn trung bình trượt 22
2.2.4 Khoảng tin cậy 22
2.2.5 Đồng nhất dãy tin cậy 22
2.3 Phương pháp Sline phạt 23
2.3.1 Ý tưởng 23
2.3.2 Chọn số knot và vị trí knot 27
2.3.3 Hồi quy spline phạt .27
2.3.4 Cơ sở Spline bậc hai 28
2.4 Mô hình cộng 28
Chương 3: Hồi quy bán tham số 31
3.1 Mô hình hồi quy bán tham số 31
3.2 Ước lượng 32
3.3 Kết luận 35
3.3.1 Độ tin cậy và sai số chuẩn 36
Trang 83.3.2 Kiểm định giả thuyết 37
Chương 4: Một số ứng dụng của hồi quy bán tham số 40
4.1 Bài toán 1 40
4.2 So sánh giữa hồi quy tham số, phí tham số và bán tham số 41
4.3 Bài toán 2 42
Kết luận 46
Phụ lục A: Các số liệu trong luận văn 47
Phụ lục B: Các thuật toán 52
Tài liệu tham khảo 54
Trang 9MỞ ĐẦU
1 Tính cấp thiết của đề tài
Trong các ngành khoa học thì hồi quy được ứng dụng rộng rãi Hai mô hình thường được sử dụng là hồi quy tham số và hồi quy phi tham số Trong đó, hồi quy tham số được dùng nhiều hơn Tuy nhiên, trong một số trường hợp, hồi quy tham số không đưa ra được mối tương quan phù hợp với dữ diệu, khi đó người ta cần dùng đến mô hình hồi quy phi tham số Nhưng khi hồi quy phi tham số phù hợp với dữ liệu thì bậc của đường cong lớn, khó dự đoán các kết quả từ mô hình
Sự kết hợp giữa hồi quy tham số và phi tham số là một sự cần thiết
Hồi quy bán tham số là cầu nối giữa hai mô hình hồi quy tham số và phi tham
số Cho phép chúng ta làm tốt cả hai việc phân tích hồi quy tham số và phi tham
số, giúp làm giảm bớt sự phức tạp của bộ dữ liệu, giúp chúng ta có thể hiểu vấn đề
dễ dàng hơn, tìm ra mối tương quan phù hợp với bộ dữ liệu
Hồi quy bán tham số không có nghĩa là tìm ra những mô hình mới thay thế cho những mô hình cũ, mà chủ yếu đó là sự mở rộng những mô hình thống kê chuẩn
để giải quyết một số vấn đề khoa học
4 Phương pháp nghiên cứu
m hiểu cơ sở lý thuyết và thực tiễn
Trang 10quy
Chương 1 HỒI QUY THAM SỐ
1.1.Phân tích hồi quy:
Phân tích hồi quy là nghiên cứu sự phụ thuộc của một biến( biến phụ thuộc) vào một hay nhiều biến khác( các biến giải thích), với ý tưởng là ước lượng( hay
dự đoán) giá trị trung bình của biến phụ thuộc trên cơ sở các giá trị biết trước của các biến giải thích
1.2 Mô hình hồi quy đơn biến:
1.2.1 Hồi quy tổng thể:
Hàm hồi quy tổng thể có dạng: E(Y/X i ) = f(X i )
Hàm hồi quy tổng thể cho biết giá trị trung bình của biến phụ thộc Y sẽ thay đổi như thế nào khi biến độc lập X nhận các giá trị khác nhau
Xét trường hợp đơn giản, hàm hồi quy tổng thể có dạng tuyến tính:
/ i 0 1 i
E Y X X ( 1.1) Trong đó: 0, 1 là các tham số chưa biết nhưng cố định và gọi là hệ số hồi quy
Giá trị quan sát thứ i của biến phụ thuộc Y kí hiệu là Y i
Kí hiệu U i là đại lượng chênh lệch giữa Y i và E(Y/X i )
U i = Y i - E(Y/X i )
Hay: Y i = E(Y/X i )+ U i =0 1X iU i
U i gọi là sai số ngẫu nhiên, đại diện cho sự ảnh hưởng của của các yếu tố khác
mà không được đưa vào biến giải thích
1.2.2 Hàm hồi quy mẫu:
Trong thực tế, nhiều khi không có điều kiện điều tra toàn bộ tổng thể Khi đó chỉ có thể ước lượng giá trị trung bình của biến phụ thuộc từ số liệu của mẫu Hàm hồi quy được xây dựng trên cơ sở một mẫu được gọi là hàm hồi quy mẫu
Việc ước lượng hàm hồi quy tổng thể bằng hàm hồi quy mẫu phải thỏa điều kiện: tuyến tính, không chệch, có phương sai nhỏ nhất
Trang 11Nếu hàm hồi quy tổng thể có dạng tuyến tính thì hàm hồi quy mẫu có dạng:
ˆ ˆ0 ˆ1
Y X (1.2) Trong đó: ˆ
i
Y là ước lượng điểm của E(Y/X i );
ˆ0 là ước lượng điểm của 0; ˆ1 là ước lượng điểm của1
Dạng ngẫu nhiên của (1.2) là:
ˆ0 ˆ1
Y X e
Trong đó, e i là ước lượng điểm của U i và gọi là phần dư
1.2.3 Ước lượng và kiểm định giả thuyết mô hình hồi quy đơn biến:
1.2.3.1 Phương pháp bình phương cực tiểu:
Để tìm hàm ˆ ˆ0 ˆ1
Y X ta dùng phương pháp bình phương cực tiểu hoặc
OLS( Ordinary Least Square) như sau:
Giả sử có một mẫu gồm n cặp quan sát (Yi,Xi), i 1,n Theo phương pháp bình phương cực tiểu tìm Yˆi sao cho nó càng gần với giá trị thực Yi càng tốt, tức phần dư:
Điều kiện (*) có nghĩa là tổng các bình phương các sai lệch giữa giá trị thực tế
quan sát được ( Y i ) và giá trị tính theo hàm hồi quy mẫu ˆ
Trang 12+ ˆ ˆ0, 1.là nghiệm của hệ phương trình sau:
1 1
n
i i i
n
i i
Ma trận H xác định dương nên ( ˆ ˆ0, 1) xác định bằng công thức (1.3), (1.4) là
điểm cực tiểu của hàm f( ˆ ˆ0, 1)
Trang 13Ta có thể tính ˆ1 bằng công thức:
1 1
2 1
ˆ
n
i i i
n i i
1.2.3 2 Các giả thuyết của phương pháp bình phương cực tiểu:
+ Giá trị của biến giải thích X i là các số đã được xác định
+ Kỳ vọng của các yếu tố ngẫu nhiên U i bằng 0, tức là:
Định lý Gauss – Markov: Với 5 giả thiết trên của phương pháp OLS, các ước
lượng của phương pháp bình phương nhỏ nhất sẽ là các ước lượng tuyến tính, không chệch và có phương sai nhỏ nhất trong lớp các ước lượng tuyến tính không chệch
Đối với hàm hai biến, theo định lý trên thì ˆ ˆ0, 1 tương ứng là các ước lượng tuyến tính, không chệch và có phương sai nhỏ nhất của 0, 1
Chứng minh:
1) Chứng minh ˆ ˆ0, 1 là hàm tuyến tính của biến ngẫu nhiên Y
Trang 14i
i i
Vậy ˆ0 cũng là hàm tuyến tính của Y
2) Chứng minh ˆ ˆ0, 1 là không chệch của 0, 1:
Trang 15i i
là ước lượng tuyến tính không chệch của 1
Trang 161.2.3.3 Phương sai và sai số chuẩn của các ước lượng:
Với giả thuyết của phương pháp bình phương cực tiểu, phương sai và độ lệch chuẩn của các ước lượng được cho bởi công thức sau:
2 2 1
2 1 2
2 1
X
se x
se x
; se: sai số chuẩn( standard error)
Trong các công thức trên, nếu 2 chưa biết thì 2 được ước lượng bằng ước lượng không chệch của nó là ˆ 2
e n
TSS ( Total Sum of Squares) là tổng bình phương của tất cả các sai lệch giữa các
giá trị quan sát Yi với giá trị trung bình của chúng
2 2
2 1
ˆ ˆ
Trang 17ESS (Explained Sum of Squares) là tổng bình phương tất cả các sai lệch giữa giá trị của biến Y tính theo hàm hồi quy mẫu với giá trị trung bình Phần này đo độ
chính xác của hàm hồi quy
(1.11)
Đại lượng R 2 gọi là hệ số xác định ( coefficient of determination) và được sử dụng
để đo mức độ phù hợp của hàm hồi quy
Nếu R 2 = 1 thì đường hồi quy phù hợp hoàn hảo, tất cả các sai lệch của Y ( so
với giá trị trung bình) đều giải thích được bởi mô hình hồi quy Nếu R 2 = 0 chứng
tỏ X và Y không có quan hệ
Hệ số tương quan:
Hệ số tương quan r là số đo mức độ chặt chẽ của quan hệ tuyến tính giữa X và Y
và được xác định bởi công thức:
Trang 181.2.3.5 Phân phối xác suất của các ước lượng:
Phân tích hồi quy không chỉ là suy đoán về 0, 1 mà còn kiểm tra bản chất của sự phụ thuộc, còn phải thực hiện các dự đoán khác Do vậy cần phải biết phân phối xác suất của ˆ0, ˆ1 Các phân phối này phụ thuộc vào phân phối của các U i
Giả thiết: U i có phân phối 2
0,
N Với những giả thuyết đã nêu, các ước lượng ˆ0, ˆ1 và ˆ 2 có các tính chất sau: + Là ước lượng không chệch
+ Có phương sai cực tiểu
+ Khi số quan sát đủ lớn thì các ước lượng này xấp xỉ với giá trị thực của phân phối
2 ˆ
1.2.3.6 Khoảng tin cậy của 0, 1 và 2
1.2.3.6.1 Khoảng tin cậy của 1:
Với hệ số tin cậy 1, khoảng tin cậy của 1 là :
Trang 191.2.3.6.2 Khoảng tin cậy của 0:
Với hệ số tin cậy 1, khoảng tin cậy của 0 là :
ˆ 0 t / 2.se ˆ 0
1.2.3.6.3 Khoảng tin cậy của 2
Với hệ số tin cậy 1, khoảng tin cậy của 2 là :
1.2.3.7 Kiểm định giả thuyết về các hệ số hồi quy:
Kiểm định giả thuyết 1:
Loại giả thuyết Giả thuyết H0 Giả thuyết H1 Miền bác bỏ Hai phía
Kiểm định giả thuyết 0:
Loại giả thuyết Giả thuyết H0 Giả thuyết H1 Miền bác bỏ Hai phía
Kiểm định giả thuyết 2
Loại giả thuyết Giả thuyết H0 Giả thuyết H1 Miền bác bỏ Hai phía
Trang 201.3 Mô hình hồi quy tuyến tính k biến:
Giả sử, có n quan sát, mỗi quan sát gồm k giá trị ( Y i , X 1i ,…,X ki ), i = 1,2,…,n Khi
Trang 21+ Không có hiện tượng cộng tuyến giữa các biến giải thích hay hạng của ma
1.3.3 Ước lượng các tham số:
Hàm hồi quy mẫu có dạng:
Y Xˆ e (1.16)
Trong đó:
2 1
ˆ ˆ
Trang 221.3.4 Hệ số xác định hồi quy bội:
ˆ n ˆ n ˆ n
n i i
1 1
n i i n i i
e ESS ESS
R TSS TSS
Trang 23Kí hiệu r tj là hệ số tương quan giữa biến thứ t và biến thứ j Nếu t = 1 thì r 1j là hệ
số tương quan giữa biến Y và biến X j
1.3.6 Ma trận hiệp phương sai:
Ma trận hiệp phương sai của ˆ có dạng tổng quát như sau:
Trang 241.3.7 Khoảng tin cậy và kiểm định giả thuyết:
( 0,1, 2, , ) ˆ
Loại giả thuyết Giả thuyết H0 Giả thuyết H1 Miền bác bỏ
Hai phía Phía trái Phía phải
0
0( )
0( )
0
Trang 25Chương 2: HỒI QUY PHI THAM SỐ
Hồi quy phi tham số là một hình thức phân tích hồi quy, đòi hỏi giả thuyết về
dữ liệu ít hơn hồi quy tham số, dữ liệu không có phân phối chuẩn và do đó sẽ tốt hơn trong các tình huống mà sự phân bố là không biết hoặc không dễ dàng sử dụng xấp xỉ một phân bố xác suất
Mô hình hồi quy phi tham số có dạng:
Như vậy, trong hồi quy phi tham số, ta phải chọn một đường cong f sao cho vừa
phản ánh được bộ dữ liệu, vừa có thể sử dụng để dự đoán các quan sát khác Để
đạt được yêu cầu này, ta phải làm trơn đường cong và chọn hàm f càng gần đám
mây điểm dữ liệu càng tốt
Trang 26Có nhiều phương pháp để làm trơn độ phân tán (ước lượng f từ x, y ), ở đây,
ta tìm hiểu một số phương pháp làm trơn độ phân tán
2.1 Làm trơn đơn giản:
2.1.1 Làm trơn trung bình trượt:
Giả sử rằng ta có các cặp dữ liệu (y 1 , x 1 ), …, (y n , x n ) trên mô hình y i f x( )i i
Trong đó: x là vô hướng và các dữ liệu được sắp xếp sao cho x1x2 x n Giả
sử, các x i cách đều nhau trên từng khoảng đơn vị Xác định các ước lượng của f tại
x i là mức trung bình của k quan sát liên tiếp tập trung tại các x i Định nghĩa
Trang 27 là trung bình của k biến ngẫu nhiên độc lập và giống nhau, như
vậy phương sai của nó là
Tỉ số mà f xˆ( )i f x( )i 0 phụ thuộc vào thành phần thứ hai và thứ ba của
(2.7) hội tụ về 0 chậm hơn Tối ưu đạt được khi bình phương độ lệch và phương sai co lại đến 0 tại tỉ lệ giống nhau Sử dụng (2.8), điều này xảy ra nếu
( / ) P(1/ )
O k n O k , tối ưu có thể đạt được bằng cách chọn k = O(n 4/5 )
Trong trường hợp này :
Trang 28O(k 4 /n 4 ) =O(1/k), ta lại có k = O(n 4/5 ) Thay vào (2.9) được tỉ lệ hội tụ của
2
4/5 1 ˆ
2.1.4 Chuẩn tiệm cận và khoảng tin cậy:
Áp dụng định lí giới hạn trung tâm cho phần tử 1
i j
Nếu lựa chọn k tối ưu, k = n 4/5 , khi đó k 1/2 (k/n) 2 = 1 và xây dựng một khoảng tin
cậy cho f(x i ) thì phức tạp bởi phần tử f ''( )x i Tuy nhiên, nếu ta muốn k tăng chậm hơn n 4/5 ( ví dụ k = n3/4) khi đó 1/ 2 2
0, , 0,1 / , 1 / , 0 0, 0,1 / , ,1 /
Trang 29Ở đây, ta đang ước lượng hàm hồi quy tại điểm x 0 như là tổng trọng số của y i ,
các trọng số w i (x 0 ) phụ thuộc vào x 0 Để xây dựng một trọng số trung bình địa
phương ta dùng một hàm duy nhất tập trung tại 0 và giảm về hai phía, tỉ lệ được
điều khiển bởi một tham số Hàm như vậy thường gọi là hạt nhân, là những hàm
mật độ xác suất Đặt K là hàm biên tích hợp đến 1 và đối xứng quanh 0 Định
nghĩa trọng số :
0
0 1
1 1
i
i i
x x K
n w
x x K
Hình dạng của trọng số được xác định bởi K, độ lớn được kiểm soát bởi , gọi là
bandwidth Giá trị lớn các kết quả của trong các trọng số lớn hơn được đặt trên
những quan sát xa x 0 Sử dụng (2.15) hàm ước lượng hồi quy phi tham số trở thành :
0
0
0 1
1 ˆ( )
1
i
i n
i i
bandwidth qua những quan sát được tính trung bình Đơn giản nhất là hạt nhân
đồng đều có một giá trị của ½ trên [-1 ;1] và của 0 ở nơi khác
Phần lớn áp dụng làm trơn trung bình trượt trong các thiết lập hiện tại Với
khoảng cách bằng nhau trên khoảng đơn vị của x và hạt nhân đồng nhất,sự khác
biệt chủ yếu là định nghĩa của tham số làm trơn Hạt nhân đồng nhất chỉ đơn giản
là những trung bình quan sát nằm trong khoảng x Với n điểm dữ liệu trong
các khoảng đơn vị, tỉ lệ của những quan sát rơi vào khoảng có chiều rộng 2 và số
Trang 30quan sát sẽ là 2 n Nếu thay thế k = 2 n trong các đối số của phần (2.1.1) thì kết quả tương tự thu được cho phần ước lượng hạt nhân đồng nhất, trong trường hợp này gần giống như làm trơn trung bình trượt
sai của ước lượng dần đến 0
2.2.2 Tiệm cận chuẩn:
Giả sử rằng x có phân phối ngẫu nhiên ( trên khoảng đơn vị ) với mật độ xác suất p(x) Cho hạt nhân tổng quát,ước lượng hạt nhân Nadaraya-Watson (2.17) là phù hợp Tử số hội tụ về f(x 0 )p(x 0 ) và mẫu số hội tụ về p(x 0 )
Tỉ lệ của hội tụ là tối ưu nếu 1/5
O n
, trong trường hợp này tổng bình
phương sai số hội tụ tại tỉ lệ tối ưu là O P (n -4/5 ) Như trong (2.11) khoảng tin cậy có
Trang 312.2.3 So sánh với làm trơn trung bình trượt:
Ở (2.19) đòi hỏi phải ước lượng đạo hàm cấp một và cấp hai của hàm hồi quy Tuy nhiên, nếu co lại đến 0 nhanh hơn tỉ lệ tối ưu thì phần tử sai lệch sẽ biến mất Trong điều kiện như vậy, giả sử rằng hạt nhân đồng nhất mà b K = ½, ta viết
Xác suất để một quan sát sẽ rơi vào khoảng x0 là khoảng chiều cao của mật
độ gấp đôi banwidth hoặc 2p(x 0 ) Bây giờ xem xét phương sai của f xˆ( )0 được cho bởi (2.21) Mẫu số thì xấp xỉ số quan sát có kì vọng là trung bình khi tính toán
ước lượng của f tại x 0 So sánh điều này với phương sai của ước lượng trung bình trượt trong phần 2.1.1 là 2
/ k
2.2.4 Khoảng tin cậy:
Giả sử rằng phần tử sai lệch làm biến mất tiệm cận bằng cách cho
bandwidth co lại tại một tỉ lệ sao cho nó nhanh hơn tỉ lệ tối ưu Áp dụng (2.19)
định nghĩa sai số chuẩn của hàm hồi quy ước lượng tại một điểm là:
ˆ ( )
k f
2.2.5 Đồng nhất dãy tin cậy:
Một hình ảnh thú vị cho ước lượng không tham số là dãy tin cậy của hàm ước lượng Trong các mẫu được lặp lại, 95% dãy tin cậy ước lượng sẽ chứa hàm
Trang 32hồi quy đúng f Sự thật của một đặc điểm khác ( như là ước lượng tham số, ước
lượng đơn điệu hoặc lõm ) có thể được đánh giá thêm vào đặc điểm này trên đồ thị
để xem nó có nằm trong dãy Không mất tính tổng quát, giả sử miền của hàm hồi quy phi tham số là khoảng đơn vị Nhắc lại giả thiết rằng 0 với tốc độ nhanh hơn tối ưu ( nhưng đủ chậm để đảm bảo tính nhất quán), đồng nhất dãy tin cậy
95% được xây dựng xung quanh hàm f bằng cách sử dụng
2 ˆ
( '( )) 1
K u c
2.3 Phương pháp Sline phạt (penalized splines)