Hiện nay, có nhiều phương pháp dự báo khác nhau như dự báo bằng hệ chuyên gia, dự báo bằng phương trình hồi quy, dự báo bằng chuỗi thời gian… Nhưng dự báo bằng phương pháp hồi quy tuyến
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI 2
=== ===
NGUYỄN THỊ HUÂN
NGHIÊN CỨU MỘT SỐ MÔ HÌNH HỒI QUY
VÀ ỨNG DỤNG TRONG BÀI TOÁN DỰ BÁO
LUẬN VĂN THẠC SĨ MÁY TÍNH
HÀ NỘI - 2017
Trang 2BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI 2
=== ===
NGUYỄN THỊ HUÂN
NGHIÊN CỨU MỘT SỐ MÔ HÌNH HỒI QUY
VÀ ỨNG DỤNG TRONG BÀI TOÁN DỰ BÁO
Chuyên ngành: Khoa học máy tính
Mã số: 60 48 01 01
LUẬN VĂN THẠC SĨ MÁY TÍNH
Người hướng dẫn khoa học : TS NGUYỄN LONG GIANG
HÀ NỘI - 2017
Trang 3i
LỜI CẢM ƠN
Luận văn được hoàn thành tại Trường Đại học sư phạm Hà nội II Trước hết, em xin gửi lời cảm ơn chân thành đến các thầy cô giáo, Khoa công nghệ thông tin, Phòng sau đại học Trường Đại học Sư phạm Hà Nội 2 đã tận tình giảng dạy, truyền đạt những kiến thức, kinh nghiệm quý báu trong suốt thời gian em theo học tại trường Các kiến thức, kinh nghiệm quýbáu của các thầy cô giáo không chỉ giúp cá nhân em hoàn thiện hệ thống kiến thức trong học tập mà còn giúp em ứng dụng các kiến thức đó trong công tác hiện tại tại đơn vị Đặc biệt em xin bày tỏ lòng biết ơn chân thành và sâu sắc thầy hướng
dẫn khoa học TS Nguyễn Long Giang, Viện Công nghệ thông tin - Viện
Hàn lâm Khoa học và Công nghệ Việt Nam đã nhiệt tình, tâm huyết trong việc định hướng và giúp đỡ em hoàn thành luận văn này
Em cũng xin được bày tỏ tình cảm với gia đình, đồng nghiệp, bạn bè đã tạo điều kiện để cá nhân em có thể dành thời gian cho khóa học Xin chân thành cảm ơn tập thể lớp cao học K19- KHMT, trong 2 năm qua đã luôn luôn động viên, khích lệ và hỗ trợ em trong quá trình học tập
Trong quá trình thực hiện Luận văn mặc dù đã cố gắng hết mình, song chắc chắn luận văn của em vẫn còn thiếu sót Em rất mong nhận được sự chỉ bảo vào đóng góp tận tình của các thầy cô để luận văn của em được hoàn thiện hơn
Hà Nội, ngày 10 tháng 11 năm 2017
Học viên
Nguyễn Thị Huân
Trang 4ii
LỜI CAM ĐOAN
Tôi xin cam đoan những kết quả nghiên cứu được trình bày trong luận văn là hoàn toàn trung thực, của tôi, không vi phạm bất cứ điều gì trong luật
sở hữu trí tuệ và pháp luật Việt Nam Nếu sai, tôi hoàn toàn chịu trách nhiệm trước pháp luật
Học viên
Nguyễn Thị Huân
Trang 5iii
MỤC LỤC
MỞ ĐẦU 1
1 Lý do chọn đề tài 1
2 Mục đích nghiên cứu 2
3 Nhiệm vụ nghiên cứu 2
4 Đối tượng và phạm vi nghiên cứu 2
5 Phương pháp nghiên cứu 2
NỘI DUNG 3
Chương 1 TỔNG QUAN VỀ HỒI QUY TUYẾN TÍNH 4
1.1 Giới thiệu về bài toán hồi quy 4
1.2 Các mô hình hồi quy 6
1.2.1 Mô hình hồi quy tuyến tính 6
1.2.2 Mô hình hồi quy logistic 6
1.2.3 Mô hình Logarit kép 8
1.2.4 Mô hình Logarit-tuyến tính hay mô hình tăng trưởng 9
1.3 Các mô hình hồi quy tuyến tính 9
1.3.1 Mô hình hồi quy đơn giản 10
1.3.2 Mô hình hồi quy tuyến tính đa biến 14
1.3.3 Mô hình ARIMA 17
1.4 Một số đặc tính của mô hình hồi quy tuyến tính 25
1.5 Kết luận 26
Chương 2 TỔNG QUAN VỀ HỒI QUY PHI TUYẾN TÍNH 27
2.1 Hồi quy đa thức 27
2.2 Mô hình hồi quy cộng thêm (GAMs) 29
2.2.1 Splines trơn 29
2.2.2 Mô hình hồi quy địa phương 30
2.3 Vấn đề overfitting và regularization 31
2.4 Kết luận 33
Chương 3 ĐÁNH GIÁ HIỆU QUẢ CỦA MÔ HÌNH HỒI QUY 33
TRÊN DỮ LIỆU MẪU 33
3.1 Mục đích của thí nghiệm 33
3.2 Thu thập dữ liệu 33
Trang 6iv
3.3 Các tham số của thí nghiệm 37
3.4 Công cụ và môi trường thử nghiệm 38
3.4.1 Công cụ thử nghiệm 38
3.4.2 Môi trường thử nghiệm 40
3.5 Kết quả và nhận xét 40
3.5.1 Kết quả sử dụng phương pháp hồi quy tuyến tính 40
3.5.2 Kết quả sử dụng phương pháp hồi quy ARIMA 43
3.5.3 Kết quả thí nghiệm trên mô hình hồi quy đa thức 43
3.5.4 Kết quả thí nghiệm trên mô hình hồi quy sử dụng hàm GAMs 45
3.5.5 Kết quả sai số của 4 phương pháp 46
3.6 Kết luận 46
Chương 4 DỰ BÁO CHỈ SỐ CPI VIỆT NAM 49
4.1 Tổng quan về dự báo chuỗi thời gian 49
4.2 Bài toán dự báo chỉ số giá tiêu dùng CPI 50
4.3 Xây dựng bài toán và các tham số của bài toán 53
4.3.1 Xây dựng bài toán 53
4.3.2 Các tham số của bài toán 53
4.4 Công cụ và môi trường thử nghiệm 57
4.5 Mô hình dự báo và kết quả 57
4.5.1 Kết quả ứng dụng mô hình hồi quy tuyến tính 57
4.5.2 Kết quả ứng dụng mô hình hồi quy tuyến tính ARIMA 62
4.5.3 Kết quả ứng dụng mô hình hồi quy đa thức 63
4.5.4 Kết quả ứng dụng mô hình hồi quy sử dụng GAMs 64
4.5.5 Kết quả sai số ứng dụng 4 mô hình hồi quy 65
4.6 Kết luận 65
KẾT LUẬN, KHUYẾN NGHỊ 67
1 Kết luận 67
2 Khuyến nghị 67
TÀI LIỆU THAM KHẢO 69
Trang 7v
DANH MỤC BẢNG BIỂU
Bảng 3.1 Thông tin về một số file dữ liệu thực nghiệm 34
Bảng 3.2 Tạo các file thực nghiệm từ file dữ liệu thu thập 38
Bảng 3.3 Kêt quả của phương pháp hồi quy tuyên tính 41
Bảng 3.4 Mô hình hồi quy tuyến tính 42
Bảng 3.5 Kết quả của phương pháp hồi quy ARIMA 43
Bảng 3.6 Kết quả sử dụng phương pháp hồi quy đa thức 44
Bảng 3.7 Kết quả sử dụng phương pháp hồi quy sử dụng hàm GAMs 46
Bảng 3.8 Kêt quả sai số sử dụng 4 phương pháp hồi quy 48
Bảng 4.1 CPI của Việt Nam từ tháng 1 năm 1997 đến tháng 12 năm 2016 [8] 55 Bảng 4.2 Tạo các file thực nghiệm từ file dữ liệu thực tế CPI 57
Bảng 4.3 Mô hình hồi quy tuyến tính 61
Bảng 4.4 Kết quả phương pháp hồi quy tuyến tính 62
Bảng 4.5 Kết quả phương pháp hồi quy tuyến tính ARIMA 62
Bảng 4.6 Kết quả phương pháp hồi quy đa thức 63
Bảng 4.7 Kết quả phương pháp hồi quy GAMs 64
Bảng 4.8 Kết quả sai số của 4 phương pháp hồi quy 66
Trang 8vi
DANH MỤC HÌNH VẼ
Hình 1.1 Biểu diễn tập dữ liệu quảng cáo 4
Hình 1.2 Đồ thị của hàm sigmoid g(z) 8
Hình 1.3 Mô hình hồi quy tuyến tính đơn biến 10
Hình 1.4 Giá trị R 2 13
Hình 1.5 Phương pháp Bcillentine với R 2 , (a) R2 = 0, (f) R2=1 14
Hình 1.6 Mô hình ba chiều, gôm hai biến dự báo và một biến phụ thuộc 15
Hình 1.7 Quan hệ tuyến tính giữa X và Y 25
Hình 2.1 Đồ thị mô hình hồi quy đa thức 27
Hình 2.2 Hồi quy đa thức overfitting 32
Hình 3.1 Giao diện làm việc trên ngôn ngữ R 40
Hình 4.1 Chuỗi thời gian 51
Trang 9Dự báo thống kê là một phương pháp thống kê được dùng để lượng hóa
sự tiên đoán các nhân tố ảnh hưởng, các mối quan hệ nhân quả, các trạng thái hay quá trình mới, chiều hướng biến động của hiện tượng trên cơ sở phân tích thực trạng của đối tượng một cách khoa học Dự báo tốt sẽ giúp cho các tổ chức hoặc cá nhân có định hướng và kế hoạch phù hợp Trong kinh doanh hay trong lĩnh vực y học, dự báo là hết sức cần thiết, nó cung cấp cơ sở khoa học
để hoạch định chính sách kinh doanh phù hợp hoặc để có các phác đồ điều trị bệnh hợp lý
Hiện nay, có nhiều phương pháp dự báo khác nhau như dự báo bằng hệ chuyên gia, dự báo bằng phương trình hồi quy, dự báo bằng chuỗi thời gian… Nhưng dự báo bằng phương pháp hồi quy tuyến tính được ứng dụng rộng rãi trong nhiều lĩnh vực nhất là kinh doanh và y học, nó có cơ sở khoa học rõ ràng và mang lại kết quả với độ chính xác cao Mô hình hồi quy tuyến tính đưa ra các phương pháp ước lượng, kiểm định giả thiết và dự báo Thuật ngữ
“hồi quy” được nhà nghiên cứu Francis Galton sử dụng lần đầu tiên vào cuối thế kỷ 19 trong một nghiên cứu tại sao có sự ổn định chiều cao trung bình của dân số Từ đó trở đi, vấn đề hồi quy được quan tâm nhiều hơn và được nghiên cứu sâu hơn Trong đó, mô hình hồi quy tuyến tính được xem là nền tảng, là
cơ sở để xây dựng các đường hồi quy khác Để hiểu rõ về các mô hình hồi quy và ứng dụng trong dự báo chuỗi thời gian, luận văn đã lựa chọn đề tài
nghiên cứu, tiêu đề: “Nghiên cứu một số mô hình hồi quy và ứng dụng
trong bài toán dự báo”
Trang 102
2 Mục đích nghiên cứu
Áp dụng một số mô hình hồi quy tuyến tính vào ứng dụng trong bài toán
dự báo chuỗi thời gian
3 Nhiệm vụ nghiên cứu
Với nội dung và nhiệm vụ chủ yếu là nghiên cứu các vấn đề liên quan đến một số mô hình hồi quy tuyến tính, mô hình hồi quy phi tuyến và ứng dụng các mô hình này trong thực tế
4 Đối tượng và phạm vi nghiên cứu
Đối tượng và phạm vi nghiên cứu của đề tài luận văn này là một số mô hình hồi quy tuyến tính, tuyến tính ARIMA, đa thức, cộng thêm (GAMs)
5 Phương pháp nghiên cứu
Phương pháp nghiên cứu được sử dụng trong quá trình thực hiện luận văn là phương pháp nghiên cứu lý thuyết và phương pháp thực nghiệm
Bố cục của luận văn: Kết quả nghiên cứu đề tài của luận văn được trình bày trong 69 trang, bao gồm 11 hình vẽ, đồ thị và 16 bảng số liệu, bố cục thành
04 chương nội dung, cùng với các phần Mở đầu, Kết luận và Tài liệu tham khảo
Cụ thể, Chương 1 giới thiệu tổng quan về dự báo chuỗi thời gian, bài toán hồi quy, các mô hình hồi quy, các mô hình hồi quy tuyến tính và một số đặc tính của
mô hình hồi quy tuyến tính Trên cơ sở nghiên cứu tổng quan đó đưa ra kết luận; Chương 2 trình bày một số mô hình hồi quy phi tuyến trên cơ sở những hạn chế của mô hình hồi quy tuyến tính đưa ra một số các phương pháp mới nhằm khắc phục những hạn chế đó, tìm hiểu mô hình hồi quy đa thức và hồi quy cộng thêm (GAMs), đưa ra kết luận; Chương 3 phân tích hiệu quả của mô hình trên dữ liệu mẫu, thu thập dữ liệu và thiết lập các tham số của thí nghiệm, đưa ra kết quả và nhận xét, đánh giá; Chương 4 trình bày bài toán ứng dụng “Dự báo chỉ số CPI của Việt Nam”, giới thiệu về bài toán, đưa ra mô hình dự báo, các tham số của
mô hình, kết quả và nhận xét
Trang 113
NỘI DUNG
Luận văn gồm: Phần mở đầu, bốn chương chính, phần kết luận, danh
mục tài liệu tham khảo và phụ lục
Bố cục như sau:
Phần mở đầu: Nêu lý do chọn đề tài và bố cục luận văn
Chương 1 Tổng quan về hồi quy tuyến tính, giới thiệu tổng quan về dự
báo chuỗi thời gian, bài toán hồi quy, các mô hình hồi quy, các mô hình hồi quy tuyến tính và một số đặc tính của mô hình hồi quy tuyến tính Trên cơ sở nghiên cứu tổng quan đó đưa ra kết luận
Chương 2 Tổng quan về Mô hình hồi quy phi tuyến tính, trình bày một
số các phương pháp mới nhằm khắc phục những hạn chế của mô hình hồi quy tuyến tính
Chương 3 Đánh giá hiệu quả của mô hình trên dữ liệu mẫu, trình bày
thực nghiệm của các mô hình trên dữ liệu mẫu, qua đó đánh giá hiệu quả của các phương pháp hồi quy nghiên cứu
Chương 4 Dự báo chỉ số CPI Việt Nam, trong chương này, trình bày kết quả nghiên cứu và thảo luận về ứng dụng các mô hình hồi quy đã được trình bày ở trên vào bài toán cụ thể, đó là dự báo chỉ số CPI của Việt Nam Trong đó, kết quả cụ thể là tìm ra được mô hình dự báo và kết quả dự báo, trên cơ sở đó đưa ra nhận xét, đánh giá về nghiên cứu định hướng ứng dụng vào thực tiễn
Phần kết luận khuyên nghị: Tóm tắt các kết quả đạt được, hướng phát
triển tiếp theo
Tài liệu tham khảo
Trang 124
Chương 1 TỔNG QUAN VỀ HỒI QUY TUYẾN TÍNH
Chương 1 giới thiệu tổng quan về dự báo chuỗi thời gian, bài toán hồi quy, các mô hình hồi quy, các mô hình hồi quy tuyến tính và một số đặc tính của mô hình hồi quy tuyến tính Trên cơ sở nghiên cứu tổng quan đó đưa ra kết luận
1.1 Giới thiệu về bài toán hồi quy
Phân tích hồi quy là tìm quan hệ phụ thuộc của một biến, được gọi là biến phụ thuộc vào một hoặc nhiều biến khác, được gọi là biến độc lập nhằm mục đích ước lượng hoặc tiên đoán giá trị kỳ vọng của biến phụ thuộc khi biết trước giá trị của biến độc lập [2]
Một số tên gọi khác của biến phụ thuộc và biến độc lập như sau:
- Biến phụ thuộc: biến được giải thích, biến được dự báo, biến được hồi quy, biến phản ứng, biến nội sinh
- Biến độc lập: biến giải thích, biến dự báo, biến hồi quy, biến tác nhân hay biến kiểm soát, biến ngoại sinh
Hình 1.1 Biểu diễn tập dữ liệu quảng cáo
Để hiểu rõ hơn về bài toán hồi quy ta bắt đầu bằng một ví dụ sau: Một công
ty muốn được cung cấp lời khuyên về việc làm thế nào để cải thiện doanh số
Trang 135
bán hàng của một sản phẩm cụ thể Các dữ liệu quảng cáo bao gồm doanh số bán hàng (sales) của 200 sản phẩm khác nhau, cùng với ngân sách quảng cáo chi cho các sản phẩm trong ba phương tiện truyền thông, gồm có TV, radio, newspaper Dữ liệu được biểu diễn theo sơ đồ trong hình 1.1
Bài toán đặt ra là tìm mối liên hệ giữa doanh số bán hàng (sales) và quảng cáo, sau đó đưa cho họ một hướng dẫn để họ điều chỉnh ngân sách quảng cáo chi cho các phương tiện truyền thông, qua đó gián tiếp tăng doanh
số bán hàng Nói cách khác, mục tiêu của chúng ta là phát triển một mô hình chính xác mà có thể được sử dụng để dự đoán doanh số bán hàng trên cơ sở của ba ngân sách
Trong bài toán này, ngân sách quảng cáo là các biến đầu vào, doanh số bán hàng (sales) là một biến đầu ra Các biến đầu vào ta ký hiệu là X, trong đó
X1 là ngân sách TV, X2 là ngân sách radio, X3 là ngân sách newspaper Biến đầu ra sales (biến phụ thuộc) ta ký hiệu là Y
Tổng quát hơn, ta có một biến phụ thuộc Y và p biến độc lập, X1, X2,
X3 , Xp, có một mối liên hệ giữa Y và X = {X1, X2, X3 , Xp} mà có thể viết dưới dạng chung như sau:
Y= f(X) +𝜀 (1.1)
là sai số ngẫu nhiên f(X) là một giá trị mà chúng ta không xác định
được Từ tập dữ liệu đầu vào X ta xác định giá trị dự đoán trên cơ sở sai số bằng 0
Y = f (X ) (1.2)
Trong đó, f là ước lượng của f và Y là giá trị dự báo của Y [4]
Việc xây dựng được một mô hình hồi quy hợp lý không phải là một bài toán dễ Đối với trường hợp đơn biến ta dễ dàng xây dựng được mô hình hồi quy Nhưng với dữ liệu đa biến thì việc xây dựng mô hình hồi quy đủ tốt phụ
Trang 146
thuộc vào rất nhiều yếu tố như: mối liên hệ giữa các biến, biến nào ảnh hưởng nhiều đến mô hình, biến nào ít ảnh hưởng đến mô hình Sau khi xây dựng được mô hình phù hợp, bằng việc phân tích phần dư để đánh giá xem kết quả
dự báo có chính xác hay không
1.2 Các mô hình hồi quy
1.2.1 Mô hình hồi quy tuyến tính
Mô hình hồi quy tuyến tính gồm có hai dạng là hồi quy tuyến tính đơn biến và hồi quy tuyến tính đa biến [3]
Hồi quy tuyến tính đơn biến là tìm mối liên hệ giữa một biến phụ thuộc
và một biến độc lập Mô hình tổng quát được viết dưới dạng sau:
Y = ß0 + ß1X1 + ε (1.3)
Mô hình hồi quy tuyến tính đa biến là mối liên hệ giữa một biến phụ thuộc và nhiều biến độc lập, được viết dưới dạng sau:
Y = ß0 + ß1X1 + ß2X2 + … + ßpXp + ε (1.4) Trong đó, các giá trị ß0, ß1, ß2,… ßp là các tham số ước lượng của mô hình, được gọi là hệ số hồi quy riêng hay các hệ số góc Y là biến phụ thuộc, Xi là biến độc lập, ε là sai số ngẫu nhiên
1.2.2 Mô hình hồi quy logistic
Chúng ta đã biết phân tích hồi quy là một phân tích thống kê nhằm xác định mối quan hệ giữa một đối tượng đang được quan tâm (biến phụ thuộc)
và các đối tượng liên quan (các biến độc lập) để đưa ra kết luận có ý nghĩa thống kê Phương pháp hồi quy Logistic được sử dụng nhiều trong các bài toán khi các biến phụ thuộc là nhị phân hay rời rạc [3]
Hồi quy Logistic được ứng dụng rộng rãi trong nhiều lĩnh vực khác nhau bao gồm trang web, y tế, các lĩnh vực khoa khọc xã hội Ví dụ như hồi quy Logistic có thể được sử dụng để dự đoán liệu bệnh nhân có mắc bệnh nào đó (chẳng hạn như bệnh tiểu đường) dựa trên các chỉ số quan sát được từ bệnh
Trang 157
nhân bao gồm: Giới tính, chỉ số khối của cơ thể, kết quả xét nghiệm máu Một ví dụ khác, hồi quy Logistic có thể ứng dụng để dự đoán xem một cử tri người Mỹ sẽ bỏ phiếu cho đảng Dân chủ hay đảng Cộng hòa dựa vào tuổi tác, thu nhập, giới tính, chủng tộc, tình trạng cư trú, phiếu trong các cuộc bầu cử trước đó Mô hình này cũng được sử dụng trong kỹ thuật, đặc biệt là để dự đoán xác suất thất bại của một quy trình, một hệ thống hay một sản phẩm Nó cũng được sử dụng trong các ứng dụng tiếp thị như tiên đoán xu hướng của khách hàng sẽ mua một sản phẩm hay tạm ngừng một thuê bao Trong kinh
tế nó có thể được sử dụng để dự đoán khả năng vỡ nợ của một doanh nghiệp dựa vào những con số thế chấp Trong một dịch vụ ngân hàng trực tuyến nó được sử dụng dự đoán độ tin cậy cho phép để thực hiện một giao dịch trên các trang web căn cứ vào địa chỉ IP của người dùng, lịch sử giao dịch trong quá khứ…
Hồi quy logistic là một phương pháp tiếp cận để nghiên cứu p(Y|X)
trong trường hợp Y có giá trị rời rạc, Y là một biến boolean và Y∈{0, 1}, X = (X1, , Xd) là vector bất kỳ với các tham số là rời rạc hoặc liên tục
Mục tiêu của hồi quy logistic là ước tính trực tiếp xác suất p(Y|X) từ
dữ liệu huấn luyện Mô hình hồi quy logistic được định nghĩa như sau:
(1.5)
(1.6) Trong công thức (1.5) xác suất để nhãn dữ liệu nhận giá trị
là 1 cho mẫu dữ liệu đầu vào là X
Hàm g(z) được gọi là hàm logistic hoặc hàm sigmoid, với
Bằng cách quy ước cho X0 =1 (X =(X0, X1, , Xd))
Trang 168
Hình 1.2 Đồ thị của hàm sigmoid g(z)
Ta thấy g(z) có xu hướng hướng tới l khi z+, và g(z) có xu hướng hướng tới 0 khi z+ Có thể nhận thấy g(z) hay p(Y|X) luôn nằm trong đoạn [0, 1]
1.2.3 Mô hình Logarit kép
Mô hình logarit kép phù hợp với dữ liệu ở nhiều lĩnh vực khác nhau Ví
dụ đường cầu với độ co dãn không đổi hoặc hàm sản xuất Cobb-Douglas
Mô hình đường cầu:
2
1
Y X + eε (1.7) Không thể ước lượng mô hình theo OLS (ordinary least squares) vì nó phi tuyến trong tham số Tuy nhiên nếu chúng ta lấy logarit hai vế thì ta được
mô hình:
ln(Y) = ln(1) + 1 X + ε
Trang 17Mô hình này tuyến tính theo tham số nên có thể ước lượng theo OLS
Theo phương pháp tổng phần dư nhỏ nhất theo OLS ta xác đinh được các
biến có trong mô hình chúng ta xác định được các tham số 1 và 2 của mô
hình hồi quy cũng như các yếu tố khác có trong mô hình hồi quy
1.2.4 Mô hình Logarit-tuyến tính hay mô hình tăng trưởng
Gọi g là tốc độ tăng trưởng, t chỉ thời kỳ Mô hình tăng trưởng như sau:
Yt = (1 + g)tY0Lấy logarit hai vế của mô hình tăng trưởng trên, ta được:
ln(Y t) = t ln(1 + g) + ln(Y 0) Đặt *
1
Y = ln(Y t), 1= ln(Y0) và 2 = ln(1 + g)) ta được mô hình hồi
quy:
* 1
Y =1+2t + ε (1.10) Theo phương pháp tổng phần dư nhỏ nhất theo OLS ta xác đinh được
các biến có trong mô hình chúng ta xác định được các tham số1và2của mô
hình hồi quy cũng như các yếu tố khác có trong mô hình hồi quy:
1.3 Các mô hình hồi quy tuyến tính
Hồi quy là phương pháp toán học được áp dụng thường xuyên trong
thống kê để phân tích mối liên hệ giữa các hiện tượng kinh tế xã hội Hồi
quy tuyến tính được sử dụng rộng rãi trong thực tế do tính chất đơn giản
Trang 1810
hóa của hồi quy Hồi quy tuyến tính là một công cụ hữu ích để dự đoán và định lượng Hồi quy tuyến tính đã được ứng dụng trong nhiều lĩnh vực xã hội như trong y học, kinh tế học, xã hội học
1.3.1 Mô hình hồi quy đơn giản
Mô hình hồi quy đơn giản là giữa một biến phụ thuộc Y và một biến độc lập X Mối quan hệ giữa X và Y là tuyến tính [4] Mô hình hồi quy tuyến tính được viết như sau :
Y = 0 + 1X + ε (1.11)
Hình 1.3 Mô hình hồi quy tuyến tính đơn biến Trong đó,0là giá trị chặn (Intercept) và1là độ dốc (slope) của mô
hình, ε là sai số ngẫu nhiên ε là một biến số theo luật phân phối chuẩn với
trung bình 0 và phương sai 2
0
, 1 là hai giá trị không biết chính xác, do vậy từ giá trị X mà ta thu thập
được phải ước tính các hệ số của mô hình là 1,2,2
Trang 1911
y = 0+1x (1.12) Với y là biểu thị cho giá trị dự đoán Y, x= X
1.3.1.1 Ước tính các tham số 0, 1 của mô hình hồi quy tuyến tính đơn giản
(x j y j ), (x 2 y 2 ), (x 3 y 3 ) (x n y n ) là n cặp quan sát Mục đích của hồi quy
tuyến tính là ước tính các tham số 0, 1 của mô hình hồi quy tuyến tính sao
cho biểu thị đúng các cặp dữ liệu mà chúng ta quan sát được, y i = 0+1 i x
với i=1 n Ta có e i = y i - y là sai số (residual) thứ i Đây là sự khác biệt
giữa giá trị quan sát thứ i và giá trị thứ i được dự đoán bằng mô hình hồi quy
tuyến tính Ta gọi tổng bình phương của phần dư là ESS (residual sum of squares)
ESS = e12 +e22+….+ 2
n
e (1.13) ESS = (y1- 0-1 1x )2 + (y2- 0-1 2x )2 + … + (y n - 0-1 n x )2
Phương pháp bình phương tối thiểu (the least squares) chọn 0,1sao cho ESS đạt giá trị minimize [3] Các hệ số ước tính của mô hình hồi quy tuyến tính được tính theo phương pháp bình phương tối thiểu
0 1 1
0[y - ( + )]
Trang 20n i i
1.3.1.2 Đánh giá độ chính xác của mô hình hồi quy tuyến tính
Để đánh giá sự phù hợp của mô hình hồi quy tuyến tính ta tìm hiểu hai khái niệm là sai số chuẩn RSE (residual standard error) và hệ số xác định R2
(R squares) [4]
- Sai số chuẩn RSE (s hay 2) là ước tính độ lệch chuẩn hay phương sai của phần dư, đó là giá trị trung bình của các giá trị quan sát so với đường hồi quy, được tính theo công thức sau:
2 1
Trang 2113
(1.18)
Sai số chuẩn được coi là giải pháp để đánh giá sự đúng đắn của mô hình hồi quy tuyến tính, khi đó y i≈ yi, sai số càng nhỏ thì giá trị dự báo càng gần với giá trị quan sát, nghĩa là mô hình hồi quy là phù hợp
- Hệ số xác định R2
Một câu hỏi được đặt ra là làm thế nào chúng ta đo lường mức độ phù hợp của hàm hồi quy tìm được cho dữ liệu mẫu Thước đo độ phù hợp của mô hình đối với dữ liệu là R2 Để có cái nhìn trực quan về R2, chúng ta xem xét
TSS y y là tổng bình phương (total sum of squares), là tổng số các biến thiên của các giá trị yi so với giá trị trung bình
Hình 1.4 Giá trị R2
2 2 2
1 2 1
ESS e e e là tổng bình phương của phần dư ESS là tổng số biến
thiên không giải thích được sau khi thực hiện hồi quy Do đó, hiệu của TSS
và ESS biểu thị lượng biến thiên giải thích được bằng mô hình hồi quy R2
Trang 22cả hai trường hợp trên Thể hiện giá trị R2
theo phương pháp đồ thị Venn, hay
là Ballentine như sau:
Trong hình 1.5, vòng tròn Y tượng trưng cho biến thiên trong biến phụ thuộc Y và vòng tròn X tượng trưng cho biến thiên trong biến độc lập X Vùng chồng lên nhau của hai vòng tròn (vùng tối) chỉ rõ phạm vi mà
độ biến thiên trong Y được giải thích bởi biến thiên trong X (cho là theo hướng hồi quy các bình phương tối thiểu thông thường OLS) Phạm vi vùng chồng lên càng lớn, độ biến thiên trong Y được giải thích bởi X càng lớn R2đơn giản là đại lượng đo bằng số cho vùng tối này Trong hình, khi ta di chuyển từ trái sang phải, vùng tối tăng dần nghĩa là tỷ lệ biến thiên trong Y được giải thích bởi X tăng dần [3]
1.3.2 Mô hình hồi quy tuyến tính đa biến
Mô hình hồi quy tuyến tính đơn giản là một giải pháp hữu ích để dự báo trên cơ sở một biến dự báo duy nhất Tuy nhiên, trong thực tế chúng ta thường có nhiều hơn một yếu tố dự báo Ví dụ, trong bài toán ở phần 1.1 ta
Hình 1.5 Phương pháp Bcillentine với R 2
, (a) R 2 = 0, (f) R 2 =1
Trang 2315
thấy rằng có tới ba biến dự báo là TV, radio, newspaper (X1, X2, X3) và chúng ta muốn biết sự ảnh hưởng của cả ba yếu tố này tới doanh thu bán hàng (sales) Một giải pháp có thể được đưa ra là sử dụng 3 mô hình hồi quy đơn giản cho ba biến, tuy nhiên, cách tiếp cận của mỗi mô hình hồi quy tuyến tính đơn giản không hoàn toàn thảo mãn Trước hết, nó không rõ ràng và nó không là duy nhất cho mỗi phương tiện truyền thông vì mỗi phương tiện truyềnthông gắn với một hàm hồi quy riêng Thứ hai, một trong ba hàm hồi quy bỏ qua hai phương tiện truyền thông khác khi thực hiện phân tích tương quan Do vậy, thay vì sử dụng hồi quy tuyến tính đơn giản riêng biệt cho từng
dự báo, một cách tiếp cận tốt hơn là mở rộng mô hình hồi quy tuyến tính đơn giản để nó chứa nhiều hơn một yếu tố dự báo là mô hình hồi quy đa biến [4] Dạng tổng quan của mô hình hồi quy đa biến:
Y = 0 + 1X 1 +2X 2 + +p X p + ε (1.19)
Trong đó, Xj là các biến dự báo thứ j, và ßj là các hệ số của mô hình đa biến
1.3.2.1 Ước tính các hệ số hôi quy của mô hình tuyến tính đa biến
Cũng giống như mô hình hồi quy tuyến tính đơn giản mà đã được đề cập tại
phần các tham số ß 0 , ß 1 ,…, ß p không biết được, do vậy phải ước tính các hệ
số ß 0, 1,…, ß p và sử dụng công thức để dự báo sau:
y 0 1 1x 2 2x p x p (1.20)
Hình 1.6 Mô hình ba chiều, gôm hai biến dự báo và một biến phụ thuộc
Trang 24Vì có nhiều biến dự báo nên giá trị của X là một ma trận n x pphần tử
và được viết gọn lại Y X trong đó:
Áp dụng phương pháp bình phương tối thiểu để ước tính các giá trị
sao cho sai số là nhỏ nhất
2
( )
Tìm sao cho L( ) đạt giá trị nhỏ nhất
= argmin(L( )) = argmin ||y — X ||2
Trang 251.3.2.1 Đánh giá mức độ phù hợp của mô hình hồi quy tuyến tính đa biến
Tương tự như mô hình hồi quy tuyến tính đơn giản, ta cũng sử dụng hệ số xác định R2
để đánh giá sự phù hợp của mô hình hồi quy tuyến tính đa biến
TSS y y
2 1
cơ bản của cách tiếp cận Box-Jenkins đối với việc lập mô hình và dự báo [7]
1.3.3.1 Hàm tự tương quan ACF
Hàm tự tương quan đo lường phụ thuộc tuyến tính giữa các cặp quan sát yt và yt+p, ứng với thời đoạn k = 1, 2 (k còn gọi là độ trễ) Với mỗi độ trễ
k, hàm tự tương quan tại độ trễ k được xác định qua độ lệch giữa các biến
Trang 26Trong thực tế, ta có thể ước lượng hàm tự tương quan tại độ trễ thứ k qua phép biến đổi trung bình của tất cả các cặp quan sát, phân biệt bằng các
độ trễ p, với giá trị trung bình mẫu là μ, được chuẩn hóa bởi phương sai ε2
Chẳng hạn, cho mỗi chuỗi N điểm, giá trị rk của hàm tự tương quan tại độ trễ thứ k được tính như sau:
1 2
1
N k
t t
k
y N
t y N
t y N
yt: chuỗi thời gian dừng tại thời điểm t
yt+k: chuỗi thời gian dừng tại thời điểm t +k
𝜇: giá trị trung bình của chuỗi dừng
rk: giá trị tương quan giữa yt và yt+k tại độ trễ k
rk= 0 thì không có hiện tượng tự tương quan
1.3.3.2 Hàm tự tương quan từng phần PACF
Song song với việc xác định hàm tự tương quan giữa các cặp y(t) và y(t+k), ta xác định hàm tự tương quan từng phần cũng có hiệu lực trong việc can thiệp đến các quan sát y(t+1), , y(t+k-1) Hàm tự tương quan từng phần tại
độ trễ k, Ckk được ước lượng bằng hệ số liên hệ y(t) trong mối kết hợp tuyến tính bên dưới Sự kết hợp được tính dựa trên tầm ảnh hưởng của y(t) và các giá trị trung gian y(t+k)
y(t+k) = Ck1y(t+k-1) + Ck2y(t+k-2) + + Ckk-1y(t + 1) + Ckky(t) +𝜀i
Trang 2719 Giải phương trình hồi quy dựa trên bình phương tối thiểu vì hệ số hồi quy Ckj phải được tính ở mỗi độ trễ k, với j chạy từ 1 đến k
Giải pháp ít tốn kém hơn do Durbin phát triển dùng để xấp xỉ đệ quy
hệ số hồi quy cho mô hình ARIMA chuỗi dừng, sử dụng giá trị hàm tự tương quan tại độ trễ k, rk và hệ số hồi quy của độ trễ trước Dưới đây là phương pháp Durbin sử dụng cho 3 độ trễ đầu tiên
Độ trễ 1: Khởi tạo, giá trị của hàm tự tương quan từng phần tại độ trễ 1
có cùng giá trị với hàm tự tương quan tại độ trễ 1 vì không có trung gian giữa các quan sát kết tiếp: C11 = r1
Độ trễ 2: Hai giá trị C22 và C21 được tính dựa vào hàm tự tương quan
r2 và r1, cùng với hàm tự tương quan từng phần trước đó
22 11 1 22
11 11
Độ trễ 3: Tương tự, ba giá trị C33, C32, C31 được tính dựa vào các hàm
tự tương quan trước r3, r2, r1 cùng với các hệ số được tính ở độ trễ thứ 2: C22
và C21
3 21 2 22 1 33
21 2 21 11
rk: Hàm tự tương quan tại độ trễ k
Trang 281.3.3.3 Mô hình tự hôi quy AR(p)
Ý tưởng chính của mô hình AR(p) là hồi quy trên chính số liệu quá khứ ở những chu kì trước
y(t) = a0 + aly(t-l) + a2y(t-2) +.apy(t-p) + ε(t) (1.27) Trong đó :
y(t): quan sát dừng hiện tại
y(t-1), y(t-2), : quan sát dừng quá khứ (thường sử dụng không quá 2 biến này)
a0, a1, a2,.: các tham số phân tích hồi quy
ε(t): sai số dự báo ngẫu nhiên của giai đoạn hiện tại Giá trị trung bình được mong đợi bằng 0
y(t) là một hàm tuyến tính của những quan sát dừng quá khứ y(t-1).y(t- 2), Nói cách khác khi sử dụng phân tích hồi quy y(t) theo các giá trị chuỗi thời gian dừng có độ trễ, chúng ta sẽ được mô hình AR (yếu tố xu thế đã
Trang 29Điều kiện dừng là tổng các tham số phân tích hồi quy nhỏ hơn 1:
al + a2 + + ap < 1
Mô hình AR(1): y(t) = a0 + aly(t-l) + 𝜀(t)
Mô hình AR(2): y(t) = a0 + aly(t-l) + a2y(t-2) + 𝜀 (t)
1.3.3.4 Mô hình trung bình trượt MA(q)
Quan sát dừng hiện tại y(t) là một hàm tuyến tính phụ thuộc các biến sai
số dự báo quá khứ và hiện tại Mô hình bình quân di động là một trung bình trọng số của những sai số mới nhất
y(t) = b0 + e(t) + b1e(t-1) + b2e(t-2) + + bqe(t-q) (1.28) Trong đó:
y(t): quan sát dừng hiện tại
e(t): sai số dự báo ngẫu nhiên, giá trị của nó không được biết và giá trị trung bình của nó là 0
e(t-1), e(t-2) : sai số dự báo quá khứ (thông thường mô hình sẽ sử dụng không quá 2 biến này)
b0, b1, b2, : giá trị trung bình của y(t) và các hệ số bình quân di động q: sai số quá khứ được dùng trong mô hình bình quân di động, nếu ta
sử dụng hai sai số quá khứ thì sẽ có mô hình bình quân di động bậc 2 là
MA(2) Điều kiện cần là tổng các hệ số bình quân di động phải nhỏ hơn 1:
bl + b2 + + bq < 1
Mô hình MA(1): y(t) = b0 + e(t) + b1e(t-1)
Mô hình MA(2): y(t) = b0 + e(t) + ble(t-l) + b2e(t-2)
Trang 3022
1.3.3.5 Sai phân I(d)
Chuỗi thời gian được coi là chuỗi dừng nếu như trung bình và phương sai của nó không đổi theo thời gian và giá trị của đồng phương sai giữa hai thời đoạn chỉ phụ thuộc vào khoảng cách và độ trễ về thời gian giữa hai thời đoạn này chứ không phụ thuộc vào thời điểm thực tế mà đồng phương sai được tính
Sai phân chỉ sự khác nhau giữa giá trị hiện tại và giá trị trước đó Phân tích sai phân nhằm làm cho ổn định giá trị trung bình của chuỗi dữ liệu, giúp cho việc chuyển đổi chuỗi thành một chuỗi dừng
Sai phân bậc 1 (I(1)): Z(t) = y(t) - y(t-l)
Sai phân bậc 2 (I(2)): Z(t)2
= Z(t) - Z(t-1)Sai phân bậc d kí hiệu I(d)
1.3.3.6 Mô hình ARIMA
Mô hình ARMA(p,q): là mô hình hỗn hợp của AR và MA Hàm tuyến tính sẽ bao gồm những quan sát dừng quá khứ và những sai số dự báo quá khứ và hiện tại:
y(t)= a0 + a1y(t-l) + a2y(t-2)+ + apy(t-p) + e(t)
+ ble(t-l) +b2e(t-2) + + bqe(t-q) (1.29) Trong đó:
y(t): quan sát dừng hiện tại
y(t-p), và e(t-q):quan sát dừng và sai số dự báo quá khứ
a0, a1, a2, , b1, b2, : các hệ số phân tích hồi quy
Ví dụ: ARMA(1,2) là mô hình hỗn hợp của AR(1) và MA(2)
Đối với mô hình hỗn hợp thì dạng (p,q) = (1,1) là phổ biến Tuy nhiên, giá trị p và q được xem là những độ trễ cho ACF và PACF quan trọng sau cùng Cả hai điều kiện bình quân di động và điều kiện dừng phải được thỏa mãn trong mô hình hỗn hợp ARMA
Trang 3123
Mô hình ARIMA(p,d,q): Do mô hình Box-Jenkins chỉ mô tả chuỗi dừng hoặc những chuỗi đã sai phân hóa, nên mô hình ARIMA(p,d,q) thể hiện những chuỗi dữ liệu không dừng, đã được sai phân (d chỉ mức độ sai phân)
Khi chuỗi thời gian dừng được lựa chọn (hàm tự tương quan ACF giảm đột ngột hoặc giảm đều nhanh), chúng ta có thể chỉ ra một mô hình dự định bằng cách nghiên cứu xu hướng của hàm tự tương quan ACF và hàm tự tương quan từng phần PACF Theo lý thuyết, nếu hàm tự tương quan ACF giảm đột ngột và hàm tự tương quan từng phần PACF giảm mạnh thì chúng ta có mô hình tự tượng quan Nếu hàm tự tương quan ACF và hàm tự tương quan từng phần PACF đều giảm đột ngột thì chúng ta có mô hình hỗn hợp
Về mặt lý thuyết, không có trường hợp hàm tự tương quan ACF và hàm tự tương quan từng phần PACF cùng giảm đột ngột Trong thực tế, hàm
tự tương quan ACF và hàm tự tương quan từng phần PACF giảm đột biến khá nhanh Trong trường hợp này, chúng ta nên phân biệt hàm nào giảm đột biến nhanh hơn, hàm còn lại được xem là giảm đều Do đôi lúc sẽ có trường hợp giảm đột biến đồng thời khi quan sát biểu đồ hàm tự tương quan ACF và hàm
tự tương quan từng phần PACF, biện pháp khắc phục là tìm vài dạng hàm dự định khác nhau cho chuỗi thời gian dừng Sau đó, kiểm tra độ chính xác mô hình tốt nhất
Trong thực hành d lớn hơn 2 rất ít được sử dụng
Khi ta xem xét một chuỗi thời gian sẽ tuân theo một quá trình AR
Trang 3224
thuần túy (và nếu có thì giá trị của p bằng bao nhiêu) hay một quá trình MA thuần túy (và nếu có thì giá trị của q bằng bao nhiêu) hay một quá trình ARMA (và nếu có thì các giá trị của p và q bằng bao nhiêu) hay một quá trình ARIMA mà ta phải biết các giá trị của p, d và q Phương pháp Box - Jenkins (BJ) cho ta biết được các giá trị đó Phương pháp này gồm bốn bước:
• Bước 1: Xác định mô hình
• Bước 2: Ước lượng tham số
• Bước 3: Kiểm định độ chính xác
• Bước 4: Dự báo
Bước 1: Mô hình ARIMA chỉ được áp dụng đối với chuỗi dừng Mô
hình có thể trình bày theo dạng AR, MA hay ARMA Phương pháp xác định
mô hình thường được thực hiện qua nghiên cứu chiều hướng biến đổi của hàm tự tương quan ACF hay hàm tự tương quan từng phần PACF
Chuỗi ARIMA không dừng: trong trường hợp này cần phải được chuyển đổi thành chuỗi dừng trước khi tính ước lượng tham số bình phương tối thiểu Việc chuyển đổi này được thực hiện bằng cách tính sai phân giữa các giá trị quan sát dựa vào giả định các phần khác nhau của các chuỗi thời gian đều được xem xét tương tự, ngoại trừ các khác biệt ở giá trị trung bình Nếu việc chuyển đổi này không thành công, sẽ áp dụng tiếp các kiểu chuyển đổi khác (chuyển đổi logarithm chẳng hạn)
Bước 2: Tính những ước lượng khởi đầu cho các tham số a0, a1, , ap,
b1, , bq của mô hình dự định Sau đó, xây dựng những ước lượng sau cùng bằng một quá trình lặp
Bước 3: Sau khi các tham số của mô hình tổng quát đã xây dựng, ta
kiểm tra mức độ chính xác và phù hợp của mô hình với dữ liệu Chúng ta kiểm định phần dư
t t
y y và có ý nghĩa cũng như mối quan hệ các tham số Nếu bất cứ
Trang 3325
kiểm định nào không thỏa mãn, mô hình sẽ nhận dạng lại các bước trên và được thực hiện lại
Bước 4: Khi mô hình thích hợp với dữ liệu đã tìm được, ta sẽ thực hiện
dự báo tại thời điểm tiếp theo t Do đó, mô hình ARMA(p,q) có dạng:
y(t+1)= a0 + a1(t) + a2y(t-1)+ + apy(t-p+1) + e(t+1)
+ b1e(t) +b2e(t-1) + + bqe(t-q+1) (1.30)
1.4 Một số đặc tính của mô hình hồi quy tuyến tính
Một số đặc tính hay giả thiết được đưa ra với mô hình hồi quy tuyến tính như sau [4]:
- Mối liên hệ giữa X và Y phải là tuyến tính, được thể hiện bằng một hàm tuyến tính, về mặt hình học nó là một đường thẳng Còn có cách giải thích khác là tuyến tính theo các hệ số
100 101 102 103 104
X3
Hình 1.7 Quan hệ tuyến tính giữa X và Y
- X là một biến số cố định, nghĩa là không có sai sót ngẫu nhiên trong
đo lường
- Các giá trị Y là độc lập với nhau
Trang 34Mô hình hồi quy tuyến tính dễ xây dựng và cũng được ứng dụng nhiều trong thực tế bởi tính đơn giản của nó Tuy nhiên, khi ứng dụng có một số vấn đề nảy sinh như: Do hồi quy tuyến tính được xây dựng trên một hàm tuyến tính và biểu diễn bằng một siêu phẳng, nên mô hình thu được có thể không được sát với dữ liệu thực tế, dẫn đến hiệu quả dự báo không cao, sai số còn lớn Trong thực tế, xảy ra nhiều trường hợp quan hệ giữa biến phụ thuộc
và biến độc lập không phải là tuyến tính, do vậy mô hình tuyến tính là không phù hợp Trong chương 2 sẽ nghiên cứu một số phương pháp hồi quy phi tuyến tính nhằm khắc phục được một số hạn chế trên
Trang 3527
Chương 2 TỔNG QUAN VỀ HỒI QUY PHI TUYẾN TÍNH
Trong chương 1 đã nghiên cứu các vấn đề liên quan đến hồi quy tuyến tính, chương 2 trình bày một số các phương pháp mới nhằm khắc phục những hạn chế của mô hình hồi quy tuyến tính
2.1 Hồi quy đa thức
Trong thống kê, hồi quy đa thức là một dạng của hồi quy tuyến tính, trong đó các mối quan hệ giữa biến độc lập x và biến phụ thuộc y được mô phỏng như một đa thức bậc n [4] Hồi quy đa thức phù hợp với một mối quan
hệ không tuyến tính giữa các giá trị của x và giá trị trung bình có điều kiện tương ứng của y, được sử dụng để mô tả hiện tượng phi tuyến như tốc độ tăng trưởng của các mô, phân phối của cacbon, đồng vị trong trầm tích hồ và sự tiến triển của dịch bệnh Hồi quy đa thức được coi là một trường hợp đặc biệt của hồi quy tuyến tính Hồi quy đa thức thường được ứng dụng cho trường hợp một biến phụ thuộc và một biến độc lập, Ngoài ra nó cũng mở rộng sang hồi quy nhiều biến
Hình 2.1 Đồ thị mô hình hồi quy đa thức
Trang 36y X (2.2) với cách ước lượng tham số cũng giống cách ước lượng tham số trong
mô hình hồi quy tuyến tính
Ví dụ, ta nghiên cứu mô hình mồi quy đa thức bậc hai:
2
y x x (2.3)
Giá trị tham số 0 là E(y) khi x = 0, 1, 2là các hệ số của mô hình
- Ước tính các tham số trong mô hình đa thức
Ta cũng sử dụng phương pháp bình phương nhỏ nhất để ước tính các
tham số trong mô hình đa thức
Để xây dựng hàm hồi quy phi tuyến cần thay thế giá trị x bằng một hàm q(x) Số chiều của hàm q(x) từ n x d (n là số mẫu, d là chiều) tăng lên n x d(d+1)/2+d+1 Hàm hồi quy phi tuyến sẽ được viết dưới dạng sau:
d
x x
Trang 372.2 Mô hình hồi quy cộng thêm (GAMs)
GAMS là mô hình hồi quy phi tuyến tính khá linh hoạt dự đoán trên nhiều yếu tố dự báo X1, ,Xp, tạo khuôn mẫu chung để mở rộng mô hình hồi quy tuyến tính, là tạo tính phi tuyến trên mỗi yếu tố dự báo Hàm hồi quy cộng thêm được viết dưới dạng sau:
Trang 3830
+ Nếu g gồ ghề thì g'(t) thay đổi và gián đoạn, ,, 2
( )
g t là giá trị lớn + lớn thì g sẽ trơn tru và trơn, =0 không có hình phạt nên g
thô
2.2.2 Mô hình hồi quy địa phương
Hồi quy địa phương (Local Regression) là cách tiếp cận để tạo ra sự linh hoạt trên các hàm phi tuyến tính, tính toán phù hợp tại điểm x0 (điểm mục tiêu) dựa trên các điểm huấn luyện gần đó khi dự đoán
Mô hình hồi quy địa phương được mô tả trong thuật toán sau:
Thuật toán Local Regression tại X = x0
1 Tập hợp các phần s = k / n điểm đào tạo mà X là gần nhất với x0
2 Chỉ định một trọng số Ki0 = K(x, x0) cho mỗi điểm quanh khu vực này, điểm xa x0 có trọng số bằng không, và điểm gần nhất có trọng số cao nhất Tất cả những giá trị k láng giềng gần nhất có trọng số bằng không
3 Để phù hợp trọng số hồi quy bình phương nhỏ nhất của yi trên Xi bằng cách sử dụng trọng số trên, bằng cách tìm 0, 1 nhỏ nhất:
4 Các giá trị tại x0 được xác định bởi f x( )0 01 0x
- Nhịp s (span) như là tham số điều chỉnh giống tham số làm trơn
trong spline mịn, nó điều chỉnh tính linh hoạt phù hợp hàm phi tuyến tính Giá trị s nhỏ thì ước lượng hồi quy phi tham số sẽ không phù hợp vì phương sai tăng cao và ảnh hưởng độ tin cậy được ước lượng, s quá lớn thì ước lượng hồi quy phi tham số sẽ bị lệch Phương pháp dễ nhất và phổ biến nhất được sử dụng để lựa chọn s là phép thử trực quan Tiêu chuẩn thực hành cho phương pháp thử này là bắt đầu với một thiết lập s = 0.50 Nếu ước lượng hồi quy phi tham số được chọn làm phù hợp là quá thô, chúng ta tăng s bởi một số nhỏ
Trang 3931
với một mức tăng 0.10 là hợp lý Nếu sự phù hợp vẫn quá thô, tăng s một lần nữa Nếu thiết lập s ban đầu hoặc một sự gia tăng trong s đưa ra một phù hợp trơn, nên thấy rằng s có thể giảm mà không làm cho sự phù hợp quá thô Nếu thiết lập s ban đầu hoặc một sự gia tăng trong s đưa ra một phù hợp trơn, nên thấy rằng s có thể giảm mà không làm cho sự phù hợp quá thô
Khả năng của overfitting tồn tại bởi vì tiêu chí được sử dụng mô hình
để huấn luyện là không giống như là tiêu chí được sử dụng để đánh giá hiệu quả của một mô hình Khi ấy, mô hình không mang tính tổng quát, do vậy khi
áp dụng vào dữ liệu kiểm tra thì hiệu quả kém Hình 2.2 cho thấy mô hình đa thức là phù hợp nhưng về tổng thể thì mô hình tuyến tính lại khái quát hơn
Nguyên nhân của vấn đề overfitting gồm:
- Lỗi (nhiễu) trong tập huấn luyện phát sinh trong quá trình thu thập, xây dựng tập dữ liệu
- Số lượng dữ liệu của tập huấn luyện quá nhỏ, không đại diện cho toàn bộ tập dữ liệu có thể có hay toàn bộ phân bố dữ liệu của bài toán
- Mô hình quá phức tạp, sử dụng nhiều quá nhiều biến độc lập, trong
đó một số biến không có ảnh hưởng nhiều đến hiệu quả của mô hình