Trang 1 ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG TRẦN THỊ DIỆU THÚYPHƯƠNG PHÁP NGOẠI SUY VÀ ỨNG DỤNG TRONG DỰ BÁO Ở TRƯỜNG TRUNG HỌC PHỔ THÔNGLUẬN VĂN THẠC
Trang 1ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
Trang 2ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
NGƯỜI HƯỚNG DẪN KHOA HỌC: TS VŨ MẠNH XUÂN
THÁI NGUYÊN - 2022
Trang 3LỜI CAM ĐOAN
Em xin cam đoan Luận văn “Phương pháp ngoại suy và ứng dụng trong dự báo ở trường trung học phổ thông” đã được thực hiện theo đúng mục tiêu đề ra dưới
sự hướng dẫn của TS Vũ Mạnh Xuân Kết quả đạt được trong luận văn là sản phẩm của cá nhân em Trong toàn bộ luận văn, những điều đã được trình bày là của cá nhân và được tổng hợp từ nhiều nguồn tài liệu Tất cả các tài liệu tham khảo đều có xuất xứ rõ ràng và được trích dẫn hợp pháp
Em xin chịu hoàn toàn trách nhiệm và mọi hình thức kỷ luật theo quy định cho lời cam đoan của mình
Thái Nguyên, ngày 5 tháng 10 năm 2022
Người cam đoan
Trần Thị Diệu Thúy
Trang 4LỜI CẢM ƠN
Em xin bày tỏ lời cảm ơn chân thành tới tập thể các thầy, cô giáo trường Đại học công nghệ thông tin và truyền thông – Đại học Thái Nguyên đã tận tình giảng dạy cũng như tạo mọi điều kiện để em học tập và nghiên cứu trong hai năm học tại trường
Em xin chân thành gửi lời cảm ơn sâu sắc tới thầy giáo TS Vũ Mạnh Xuân đã cho em nhiều sự chỉ bảo quý báu, đã tận tình hướng dẫn và tạo điều kiện cho em hoàn thành luận văn tốt nghiệp này
Quá trình thực hiện đề tài không tránh khỏi những thiếu sót, em rất mong tiếp tục nhận được sự đóng góp ý kiến của các thầy, cô giáo, các bạn đồng nghiệp đối với đề tài của em để đề tài được hoàn thiện hơn
Em xin chân thành cảm ơn!
Trang 5MỤC LỤC
LỜI CAM ĐOAN i
LỜI CẢM ƠN iv
MỤC LỤC v
DANH MỤC CÁC BẢNG ix
DANH MỤC CÁC HÌNH x
MỞ ĐẦU 1
CHƯƠNG 1 BÀI TOÁN DỰ BÁO 4
1.1 Tổng quan chung về dự báo 4
1.1.1 Tổng quan về dự báo 4
1.1.2 Khái niệm dự báo 5
1.1.3 Đặc điểm của dự báo 6
1.1.4 Các loại dự báo 6
1.1.4.1 Căn cứ vào thời đoạn dự báo 6
1.1.4.2 Căn cứ vào nội dung công việc cần dự báo 6
1.1.5 Tình hình các phương pháp/mô hình dự báo ở Việt nam 7
1.1.5.1 Phương pháp ngoại suy 7
1.1.5.2 Phương pháp chuyên gia 7
1.1.5.3 Phương pháp mô hình hoá 8
1.1.6 Quy trình dự báo 8
1.2 Một số bài toán dự báo ở trường THPT 10
1.2.1 Thực trạng 10
1.2.2 Một số bài toán 12
1.3 Kết luận chương 13
CHƯƠNG II PHƯƠNG PHÁP NGOẠI SUY 14
2.1 Khái niệm ngoại suy 14
2.1.1 Khái niệm 14
2.1.2 Sử dụng ngoại suy trong dự báo 14
2.1.3 Ưu, nhược điểm của phương pháp ngoại suy 15
Trang 62.1.4 Tính chính xác của phương pháp ngoại suy 15
2.2 Phương pháp ngoại suy dựa vào mô hình hồi quy 17
2.2.1 Hồi quy tuyến tính đơn 18
2.2.1.1 Sắp xếp số liệu 18
2.2.1.2 Mô hình hồi quy tuyến tính đơn 18
2.2.1.3 Phương pháp bình phương bé nhất 19
2.2.1.4 Trường hợp X không phải biến ngẫu nhiên 20
2.2.2 Hồi quy phi tuyến tính 22
2.2.3 Hồi quy bội tuyến tính 23
2.2.4 Hồi quy đa thức 24
2.3 Phương pháp ngoại suy dựa vào mô hình ARIMA 25
2.3.1 Hàm tự tương quan ACF 25
2.3.2 Mô hình AR(p) 26
2.3.3 Mô hình MA(q) 27
2.3.4 Sai phân I(d) 28
2.3.5 Mô hình ARIMA 28
2.3.6 Các bước phát triển mô hình ARIMA 29
2.4 Phương pháp ngoại suy với mạng nơ ron (neural network) 30
2.4.1 Các ký hiệu và khái niệm 31
2.4.1.1 Layers 31
2.4.1.2 Units 32
2.4.1.3 Weights và Biases 32
2.4.2 Activation functions 33
2.4.2.1 Hàm sigmoid 33
2.4.2.2 Hàm tanh 34
2.4.3.3 Hàm ReLU 35
2.4.2.4 Hàm Leaky ReLU 36
2.4.3 Thuật toán backpropagation 36
2.5 Kết luận chương 2 37
Trang 7CHƯƠNG III ỨNG DỤNG PHƯƠNG PHÁP NGOẠI SUY VÀO BÀI TOÁN
DỰ BÁO Ở TRƯỜNG THPT 38
3.1 Bài toán dự báo số lượng tuyển sinh 38
3.1.1 Phân tích dữ liệu 39
3.1.2 Kết quả thử nghiệm 41
3.1.2.1 Ngoại suy bằng phương pháp hồi quy tuyến tính đơn 41
3.1.2.2 Ngoại suy bằng phương pháp hồi quy đa thức 43
3.1.2.3 Ngoại suy bằng phương pháp hồi quy phi tuyến tính 44
3.1.2.4 Ngoại suy bằng mô hình ARIMA 46
3.1.2.4 Ngoại suy bằng phương pháp mạng nơ ron 49
3.1.3 Nhận xét 50
3.2 Bài toán dự báo điểm thi tốt nghiệp 50
3.2.1 Phân tích dữ liệu 52
3.2.2 Kết quả thử nghiệm 53
3.2.2.1 Ngoại suy bằng phương pháp hồi quy bội tuyến tính 53
3.2.2.2 Ngoại suy bằng phương pháp mạng nơ ron 54
3.2.3 Nhận xét 55
3.3 Kết luận chương 55
KẾT LUẬN 57
TÀI LIỆU THAM KHẢO 58
PHỤ LỤC 59
Trang 8DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
ACF Auto Correlation Function
ARIMA AutoRegressive Intergrated Moving Average
Trang 9DANH MỤC CÁC BẢNG
Bảng 2.1: Bảng phân tích phương sai (1) 22
Bảng 2.2: Bảng phân tích phương sai (2) 24
Bảng 3.1: Dữ liệu từ năm 2006 đến năm 2021 38
Bảng 3.2: Kết quả và đánh giá sai số của hồi quy tuyến tính đơn 43
Bảng 3.3: Bảng kết quả và đánh giá sai số hồi quy đa thức với cách chia dữ liệu 1 43 Bảng 3.4: Bảng kết quả và đánh giá sai số hồi quy đa thức với cách chia dữ liệu 2 44 Bảng 3.5: Bảng kết quả và đánh giá sai số với hồi quy phi tuyến tính 45
Bảng 3.6: So sánh giá trị thống kê (Test Statistic) và giá trị tới hạn (Critical Value) 46
Bảng 3.7: So sánh giá trị thống kê (Test Statistic) và giá trị tới hạn (Critical Value) sau khi tính sai phân 47
Bảng 3.8: Bảng kết quả các tham số 49
Bảng 3.9: Bảng kết quả và đánh giá với mô hình ARIMA 49
Bảng 3.10: Bảng kết quả và đánh giá sai số với mạng nơ ron 50
Bảng 3.11: Bảng điểm năm 2020 tổng gồm 10 cột và 531 hàng dữ liệu 51
Bảng 3.12: Bảng điểm năm 2021 gồm 10 cột và 544 hàng dữ liệu 51
Bảng 3.13: Bảng điểm năm 2022 gồm 9 cột và 525 hàng dữ liệu 52
Bảng 3.14: Bảng đánh giá sai số với hồi quy bội tuyến tính 533
Bảng 3.15: Bảng kết quả dự báo điểm của học sinh với hồi quy bội tuyến tính 54
Bảng 3.16: Bảng đánh giá sai số với mạng nơ ron 534
Bảng 3.17: Bảng kết quả dự báo điểm của học sinh với mạng nơ ron 54
Bảng 3.18: Bảng phụ dự báo điểm thi tốt nghiệp môn Toán (hồi quy tuyến tính) 63
Bảng 3.19: Bảng phụ dự báo điểm thi tốt nghiệp môn Toán bằng mạng nơ ron 64
Trang 10DANH MỤC CÁC HÌNH
Hình 2.1: Mô hình tuyến tính 19
Hình 2.2: Hoạt động của các nơ ron 30
Hình 2.3: Mô hình mạng nơ ron với 2 hidden layers 31
Hình 2.4: Các ký hiệu sử dụng trong mạng nơ ron 32
Hình 2.5: Đồ thị hàm sigmoid 33
Hình 2.6: Đồ thị hàm tanh 34
Hình 2.7: Đồ thị hàm ReLU 35
Hình 2.8: Đồ thị hàm Leaky ReLU 36
Hình 3.1: Biểu đồ thể hiện chuỗi dữ liệu từ bảng 39
Hình 3.2: Minh họa đánh giá kết quả dự báo bằng hồi quy 39
Hình 3.3: Biểu đồ kiểm tra tính ổn định của dữ liệu 46
Hình 3.4: Biểu đồ kiểm tra tính ổn định của dữ liệu sau khi tính sai phân 47
Hình 3.5: Xác định giá trị ACF 47
Hình 3.6: Đồ thị của model MA(2) 47
Trang 11MỞ ĐẦU
1 Đặt vấn đề
Công tác dự báo đã được triển khai từ những năm đầu của thập kỷ 70 Dự báo được coi là một công cụ phục vụ đắc lực cho công tác xây dựng chỉ đạo thực hiện
kế hoạch của nhà nước Về mặt tổ chức đã hình thành nhiều cơ quan nghiêu cứu về
dự báo: Ban điều khiểu học trực thuộc Thủ tướng Chính phủ thập kỷ 70; Trung tâm Phân tích hệ thống thuộc Viện nghiên cứu quản lý kinh tế Trung ương; Ban Dự báo
và phân tích kinh tế vĩ mô - Viện Chiến lược phát triển thuộc Bộ kế hoạch và đầu tư; Viện Khoa học Việt Nam thuộc Uỷ ban Khoa học và kỹ thuật Nhà nước sau này
là Bộ Khoa học công nghệ và môi trường nay là Bộ khoa học và công nghệ…
Về phương pháp và công nghệ dự báo, nói chung ở nước ta đến nay các cơ quan nghiên cứu dự báo đã vận dụng các phương pháp như: Phương pháp mô hình hoá (gồm các mô hình như: kinh tế lượng, mô hình chuỗi thời gian, mô hình I/O ); Phương pháp chuyên gia (dựa trên việc thu thập và xử lý các ý kiến đánh giá của các chuyên gia giỏi có nhiều kiến thức và kinh nghiệm); Phương pháp kết hợp giữa
mô hình hoá và lấy ý kiến đánh giá của chuyên gia theo quy trình tiệm cận lặp
Dự báo trong lĩnh vực giáo dục có thể gồm nhiều bài toán như: dự báo tuyển sinh, dự báo tỷ lệ nghỉ học của học sinh, dự báo điểm thi tốt nghiệp, dự báo kết quả học tập của học sinh… Cho đến thời điểm hiện tại, có rất nhiều phương pháp dự báo đã được sử dụng trên mô hình toán học hay vật lý Trong nhiều trường hợp, kết quả nghiên cứu dự báo trên đã đạt được những thành công nhất định Tuy nhiên, phương pháp nào cũng có những hạn chế, do đó, bài toán dự báo vẫn là một nội dung được nghiên cứu hiện nay
Luận văn này được tác giả thực hiện dựa trên việc nghiên cứu các phương pháp ngoại suy để giải quyết bài toán dự báo tuyển sinh tại trường THPT để nhằm phục vụ công tác quản lý, hỗ trợ lên kế hoạch tuyển sinh, một nhiệm vụ năm học rất quan trọng với hầu hết tất cả các trường để chuẩn bị cho một năm học mới Bên cạnh đó, bài toán dự báo điểm thi tốt nghiệp THPT cũng là một bài toán mà tác giả muốn nghiên cứu để phục vụ công tác chuyên môn, điều chỉnh kế hoạch giảng dạy
Trang 12và giáo dục phù hợp cho đội ngũ nhà giáo; nhằm giúp học sinh định hướng và có kế hoạch học tập tốt, đạt kết quả cao trong kỳ thi
Các phương pháp ngoại suy mà tác giả đề cập trong luận văn nghiên cứu bao gồm: phương pháp hồi quy (tuyến tính đơn, bội tuyến tính, đa thức và phi tuyến tính), mô hình ARIMA và mạng nơ ron Từ đó, cho thấy phương pháp ngoại suy có thể ứng dụng khá đa dạng trong thực tế, cũng như các kết quả của nó có sự đóng góp đáng kể trong các kế hoạch, hoạt động, nhiệm vụ tại trường THPT
Với những lý do đó, tác giả luận văn chọn đề tài nghiên cứu: “Phương pháp
ngoại suy và ứng dụng trong dự báo ở trường trung học phổ thông”
2 Mục tiêu, nhiệm vụ của luận văn
Luận văn tập trung tìm hiểu các phương pháp ngoại suy và ứng dụng các phương pháp này vào bài toán dự báo ở trường THPT: dự báo số lượng tuyển sinh,
dự báo điểm thi tốt nghiệp THPT
3 Đối tượng, phạm vi nghiên cứu
- Đối tượng: Luận văn nghiên cứu các phương pháp ngoại suy như hồi quy tuyến tính đơn, hồi quy bội tuyến tính, hồi quy phi tuyến tính, hồi quy đa thức, mô hình ARIMA và mạng nơ ron
- Phạm vi nghiên cứu: Trường THPT Nguyễn Huệ - Đại Từ - Thái Nguyên
4 Phương pháp nghiên cứu
- Phương pháp nghiên cứu lí luận: Nghiên cứu các tài liệu liên quan đến bài toán dự báo và phương pháp ngoại suy để nắm rõ các mô hình, thuật toán áp dụng
- Phương pháp thử nghiệm: Lập trình thử nghiệm với một số bài toán thực tế
để kiểm chứng tính khả thi và hiệu quả của các phương pháp dự báo
5 Ý nghĩa khoa học, thực tiễn
Luận văn trình bày một số phương pháp ngoại suy và khả năng áp dụng của chúng vào bài toán dự báo ở trường THPT nhằm giúp việc xây dựng kế hoạch giáo dục, kế hoạch giảng dạy và học tập tại nhà trường đạt kết quả cao, phù hợp với thực
tế tại địa phương
Trang 136 Bố cục luận văn
Nội dung chính của luận văn gồm 3 chương ngoài phần mở đầu và kết luận:
Chương 1 Bài toán dự báo
Giới thiệu tổng quan về bài toán dự báo, đặt vấn đề về bài toán dự báo ở trường THPT
Chương 2 Phương pháp ngoại suy
Tìm hiểu một số phương pháp ngoại suy: mô hình hồi quy, mô hình ARIMA, mạng nơ ron
Chương 3 Ứng dụng phương pháp ngoại suy vào bài toán dự báo ở trường THPT
Ứng dụng phương pháp ngoại suy vào bài toán dự báo đã đặt vấn đề
Trang 14CHƯƠNG 1 BÀI TOÁN DỰ BÁO
Chương này nghiên cứu tổng quan chung về dự báo, bài toán dự báo để cung cấp những cái nhìn tổng quan về dự báo, khái niệm dự báo, đặc điểm dự báo, các loại dự báo, các phương pháp dự báo, quy trình dự báo Từ đó, đặt vấn đề về bài toán cần thử nghiệm với các phương pháp dự báo Những nội dung này được tham khảo từ tài liệu [1], [2], [3], [7], [8], [9]
1.1 Tổng quan chung về dự báo
là các ước đoán, những hy vọng thiếu căn cứ, những ước muốn viển vông thiếu cơ
sở khoa học mạng nặng tính kinh nghiệm Ngay từ thời cổ xưa dự báo đã được con người sử dụng ngay vào trong đời sống hàng ngày nhưng mang nặng màu sắc tôn giáo thần bí thể hiện ở các câu nói của các nhà tiên tri, lời nói của các “Thầy” bói toán Ngay từ thời cổ Hy lạp người ta đã phân chia lĩnh vực dự báo thành:
- Các hiện tượng tự nhiên: thời tiết, nhật thực, nguyệt thực
- Các hiện tượng xã hội: sự xuất hiện và kết thúc của các cuộc chiến tranh, sự hưng thịnh hay suy vong của một thể chế chính trị (ở nước Mỹ có những hội thảo tưởng chừng như là kỳ dị như hội thảo suy vong của nước Mỹ)
- Các hiện tượng về đời sống xã hội như khả năng giàu có, về bệnh tật, sinh tử,
về khả năng giàu có của các dòng họ
Suốt nhiều thế kỷ trước dự báo không được vận dụng một cách khoa học, ít tính tích cực, bởi vì đây là thời kỳ mà lý thuyết tôn giáo không tưởng và triết học duy tâm thống trị trong tư duy nhận thức thế giới Đến thế kỷ XVI, XVII khi các môn khoa học như toán học, vật lý, thiên văn học đã phát triển, các dự báo có tính
Trang 15khoa học mới dần xuất hiện Tuy nhiên lúc đầu các dự báo với độ chính xác cao thường được áp dụng trong vật lý cổ điển, hoá học và thường đặt trọng phạm vi không gian và thời gian rất khắt khe Sau đó xuất hiện nhiều dự báo mà hiện tượng
dự báo rất phức tạp chịu sự tác động của nhiều nhân tố: tiến bộ khoa học - kỹ thuật,
sự phát triển kinh tế xã hội, chính trị, sự thay đổi về tâm lý và chuẩn mực đạo đức
xã hội, đòi hỏi dự báo phải vận dụng các phương pháp thống kê, xác suất (dự báo với mật độ tin cậy nào đó chứ không hoàn toàn chính xác)
Ngày nay vai trò của dự báo ngày càng được khẳng định và tăng lên đáng kể trong mọi lĩnh vực của đời sống xã hội Đó là do quy mô của nền kinh tế ngày càng lớn, cấu trúc của nền kinh tế - xã hội ngày càng phức tạp Việc tổng hợp các nhân tố ảnh hưởng đến sự phát triển của xã hội, việc vạch ra các luận cứ để xây dựng chiến lược, quy hoạch và kế hoạch phát triển, việc lựa chọn các phương án để xem xét khả năng thực hiện các mục tiêu kinh tế - xã hội ngày càng tăng lên
1.1.2 Khái niệm dự báo
Dự báo là một khoa học và nghệ thuật tiên đoán những sự việc sẽ xảy ra trong tương lai, trên cơ sở phân tích khoa học về các dữ liệu đã thu thập được Khi tiến hành dự báo cần căn cứ vào việc thu thập, xử lý số liệu trong quá khứ và hiện tại để xác định xu hướng vận động của các hiện tượng trong tương lai nhờ vào một số mô hình toán học (định lượng) Tuy nhiên, dự báo cũng có thể là một dự đoán chủ quan hoặc trực giác về tương lai (định tính) và để dự báo định tính được chính xác hơn, người ta cố loại trừ những tính chủ quan của người dự báo
Dù định nghĩa có sự khác biệt nào đó, nhưng đều thống nhất về cơ bản là dự báo bàn về tương lai, nói về tương lai Dự báo trước hết là một thuộc tính không thể thiếu của tư duy của con người, con người luôn luôn nghĩ đến ngày mai, hướng về tương lai Trong thời đại công nghệ thông tin và toàn cầu hóa, dự báo lại đóng vai trò quan trọng hơn khi nhu cầu về thông tin thị trường, tình hình phát triển tại thời điểm nào đó trong tương lai càng cao Dự báo được sử dụng trong nhiều lĩnh vực khác nhau, mỗi lĩnh vực có một yêu cầu về dự báo riêng nên phương pháp dự báo được sử dụng cũng khác nhau
Trang 161.1.3 Đặc điểm của dự báo
- Không có cách nào để xác định tương lai là gì một cách chắc chắn (tính không chính xác của dự báo) Dù phương pháp chúng ta sử dụng là gì thì luôn tồn tại yếu tố không chắc chắn cho đến khi thực tế diễn ra
- Luôn có điểm mù trong các dự báo Chúng ta không thể dự báo một cách chính xác hoàn toàn điều gì sẽ xảy ra trong tương tương lai Hay nói cách khác, không phải cái gì cũng có thể dự báo được nếu chúng ta thiếu hiểu biết về vấn đề cần dự báo
- Dự báo cung cấp kết quả đầu vào cho các nhà hoạch định chính sách trong việc đề xuất các chính sách phát triển kinh tế, xã hội Chính sách mới sẽ ảnh hưởng đến tương lai, vì thế cũng sẽ ảnh hưởng đến độ chính xác của dự báo
1.1.4 Các loại dự báo
1.1.4.1 Căn cứ vào thời đoạn dự báo
- Dự báo ngắn hạn: thời đoạn dự báo thường không quá 3 tháng, ít khi đến 1 năm Loại dự báo này cần cho việc mua sắm, điều độ công việc, phân giao nhiệm
vụ, cân đối các mặt trong quản trị tác nghiệp
- Dự báo trung hạn: thời đoạn dự báo thường từ 3 tháng đến 3 năm, loại dự báo này cần thiết cho việc lập kế hoạch, dự trù tài chính tiền mặt và làm căn cứ cho các loại kế hoạch khác
- Dự báo dài hạn: thời đoạn dự báo từ 3 năm trở lên Loại dự báo này cần cho việc lập các dự án sản xuất sản phẩm mới, các định điểm cho các cơ sở mới, lựa chọn các dây chuyền công nghệ, thiết bị mới, mở rộng doanh nghiệp hiện có hoặc thành lập doanh nghiệp mới
1.1.4.2 Căn cứ vào nội dung công việc cần dự báo
- Dự báo kinh tế: dự báo kinh tế cho các cơ quan nghiên cứu, cơ quan dịch vụ thông tin, các bộ phận tư vấn kinh tế nhà nước thực hiện Những chỉ tiêu này có giá trị lớn trong việc hỗ trợ, tạo tiền đề cho công tác dự báo trung hạn, dài hạn của các doanh nghiệp
Trang 17- Dự báo kỹ thuật công nghệ: dự báo này đề cập đến mức độ phát triển khoa học kỹ thuật công nghệ trong tương lai Loại này rất quan trọng đối với các ngành
có hàm lượng kỹ thuật cao như năng lượng nguyên tử, tàu vũ trụ, dầu lửa, máy tính, nghiên cứu không gian, điện tử… Dự báo kỹ thuật, công nghệ thường do các chuyên gia trong các lĩnh vực đặc biệt thực hiện
- Dự báo nhu cầu sản phẩm: thực chất của dự báo nhu cầu là dự kiến, tiên đoán về doanh số bán ra của doanh nghiệp Loại dự báo này rất được các nhà quản trị sản xuất quan tâm Dự báo nhu cầu giúp cho các doanh nghiệp xác định được chủng loại và số lượng sản phẩm, dich vụ mà họ cần tạo ra trong tương lai Thông qua dự báo nhu cầu các doanh nghiệp sẽ quyết định được quy mô sản xuất, hoạt động của công ty, là cơ sở để dự kiến về tài chính, tiếp thị, nhân sự
1.1.5 Tình hình các phương pháp/mô hình dự báo ở Việt nam
Việt Nam hiện chủ yếu sử dụng 3 phương pháp (trong một phương pháp có thể có nhiều mô hình khác nhau) dự báo sau đây
1.1.5.1 Phương pháp ngoại suy
Bản chất của phương pháp ngoại suy là kéo dài quy luật đã hình thành trong quá khứ để làm dự báo cho tương lai Giả thiết cơ bản của phương pháp này là sự bảo toàn nhịp điệu, quan hệ và những quy luật phát triển của đối tượng dự báo trong quá khứ cho tương lai Thông tin cung cấp cho phương pháp ngoại suy là số liệu về động thái của đối tượng dự báo trong quá khứ qua một số năm nhất định, thông thường yêu cầu thời khoảng quá khứ có số liệu phải lớn hơn nhiều lần thời khoảng làm dự báo Phương pháp này thích hợp để dự báo những đối tượng phát triển theo kiểu tiệm tiến Phương pháp ngoại suy có ưu điểm là đơn giản, tuy nhiên, nhược điểm chính là không tính chính xác được ảnh hưởng của các yếu tố khách quan đến kết quả dự báo
1.1.5.2 Phương pháp chuyên gia
Bản chất của phương pháp chuyên gia là lấy ý kiến đánh giá của các chuyên gia để làm kết quả dự báo Phương pháp này được triển khai theo một quy trình chặt chẽ bao gồm nhiều khâu: thành lập nhóm chuyên gia, đánh giá năng lực chuyên gia,
Trang 18lập biểu câu hỏi và xử lý toán học kết quả thu được từ ý kiến chuyên gia Khó khăn của phương pháp này là việc tuyển chọn và đánh giá khả năng của các chuyên gia Phương pháp này được áp dụng có hiệu quả cho những đối tượng thiếu (hoặc chưa đủ) số liệu thống kê, phát triển có độ bất ổn lớn hoặc đối tượng của dự báo phức tạp không có số liệu nền Kết quả của phương pháp dự báo này chủ yếu phục vụ cho nhu cầu định hướng, quản lý vì thế cần kết hợp (trong trường hợp có thể) với các phương pháp định lượng khác
1.1.5.3 Phương pháp mô hình hoá
Bản chất của phương pháp này là kế thừa hai phương pháp nói trên Cách thức tiếp cận của phương pháp này là dùng hệ thức toán học để mô tả mối liên hệ giữa đối tượng dự báo với các yếu tố có liên quan Khó khăn của phương pháp này là phải viết được chính xác hệ thức toán học nói trên Phương pháp mô hình hoá áp dụng cho nghiên cứu kinh tế, tài nguyên-môi trường sẽ phải sử dụng nhiều phương trình của mô hình kinh tế lượng vì đối tượng dự báo (mối liên hệ giữa hoạt động kinh tế và chất lượng môi trường, sử dụng tài nguyên) có liên quan đến nhiều yếu tố kinh tế ví dụ GDP, giá cả … Phương pháp này yêu cầu số liệu của nhiều yếu tố hữu quan trong quá khứ trong khi đó, phương pháp ngoại suy chỉ yêu cầu một loại số liệu Tuy nhiên, phương pháp này cũng có ưu điểm, đó là có thể giải thích được kết quả dự báo và có thể phân tích ảnh hưởng của các yếu tố liên quan đến kết quả dự báo
1.1.6 Quy trình dự báo
Theo Wilson và Keating, quy trình dự báo gồm 9 bước:
1 Xác định mục tiêu
2 Xác định đối tượng dự báo
3 Xác định thời đoạn dự báo
4 Thu thập, khảo sát dữ liệu
5 Chọn mô hình
6 Đánh giá mô hình
7 Chuẩn bị dự báo
Trang 19Bước 2: Xác định nội dung dự báo
Xác định đối tượng hay biến dự báo cụ thể và phạm vi đối tượng dự báo
Ví dụ: trong trường THPT thực hiện dự báo tuyển sinh đầu vào với số lượng học sinh, số lượng lớp học…; dự báo điểm thi tốt nghiệp THPT quốc gia với điểm các bộ môn tham gia thi TN THPT, điểm thi thử TN…
Bước 3: Xác định thời đoạn
Xác định độ dài của dự báo như: dự báo ngắn hạn hay dự báo dài hạn; dự báo
có tính cấp thiết như thế nào
Bước 4: Thu thập, khảo sát dữ liệu
Chất lượng của dự báo phụ thuộc vào chất lượng của dữ liệu Dữ liệu có thể thu thập từ các nguồn nội bộ hoặc từ bên ngoài
Bước 5: Lựa chọn mô hình
Việc chọn mô hình tùy thuộc vào các tiêu chí sau:
Dạng phân bố của dữ liệu
Số lượng quan sát sẵn có
Độ dài của thời đoạn dự báo
Nếu dữ liệu phân bố thể hiện tính xu hướng thì có thể áp dụng các phương pháp bình quân di động, san bằng số mũ…
Bước 6: Đánh giá mô hình
Thông qua các thông số: Độ lệch tuyệt đối trung bình (MAD), sai số bình phương trung bình (MSE), …
Trang 20Bước 7: Chuẩn bị dự báo
Chuẩn bị các số liệu để phục vụ cho việc dự báo
Bước 8: Trình bày kết quả dự báo
Khi trình bày dự báo phải đảm bảo tính ngắn gọn, rõ ràng, chỉ ra được độ tin cậy của dự báo Có rất nhiều cách để trình bày kết quả dự báo như: Bảng biểu, đồ thị, hình ảnh minh họa và có thể trình bày ở dạng viết hoặc dạng nói
Bước 9: Theo dõi kết quả dự báo
Sau khi dự báo phải xem xét kết quả dự báo tức xem xét độ lệch giữa giá trị dự báo và giá trị thực Mục tiêu của việc theo dõi kết quả để tìm ra lí do tại sao lại có các sai số, qua đó bảo trì và nâng cấp hệ thống dự báo
Liên tục theo dõi, so sánh kết quả dự báo với giá trị thực tế Thay đổi phương pháp khi cần
1.2 Một số bài toán dự báo ở trường THPT
1.2.1 Thực trạng
Trong bài tham luận của Bộ trưởng Phùng Xuân Nhạ tại Đại hội Đảng toàn quốc lần thứ XIII đã nhận định một số những thành tựu và hạn chế của ngành giáo dục đào tạo như sau:
Trang 21- Công tác giáo dục chính trị tư tưởng, đạo đức, kỹ năng sống cho học sinh, sinh viên có nhiều chuyển biến tích cực;
- Tăng cường ứng dụng công nghệ thông tin, đẩy mạnh chuyển đổi số trong ngành giáo dục Toàn ngành Giáo dục đã đẩy mạnh ứng dụng công nghệ thông tin trong các hoạt động quản lý, dạy và học;
- Chủ động hội nhập và nâng cao hiệu quả hợp tác quốc tế trong giáo dục, đào tạo
- Công tác truyền thông về giáo dục còn hạn chế, chưa tạo được đồng thuận cao trong xã hội khi bắt đầu triển khai nhiều chủ trương, chính sách mới của ngành;
Thực tế mô hình giáo dục địa phương: có thể thấy quy mô của các trường THPT đều có một số lượng học sinh tương đối lớn, ví dụ như trường THPT Nguyễn Huệ nơi tác giả đang công tác, hàng năm nhà trường thường có số lượng học sinh trên 1600 Các công tác quản lý trong nhà trường bao gồm: quản lý học sinh, cán bộ công nhân viên, hệ thống cơ sở vật chất, … Có thể thấy, để vận hành được quy trình làm việc ổn định trong mô hình nhà trường vẫn luôn là bài toán đặt ra nhiều thách thức, khó khăn
+ Thuận lợi
- Sự quan tâm của Đảng và Nhà nước;
Trang 22- Sự đầu tư từ các cấp chính quyền;
- Đội ngũ cán bộ quản lý, công nhân viên có chất lượng;
- Đa số học sinh chăm ngoan, tích cực học tập;
- Hệ thống cơ sở vật chất, đồ dùng dạy học cơ bản đáp ứng được yêu cầu của thực tế
+ Nhược điểm:
- Công cụ hỗ trợ trong việc quản lý còn ít;
- Số lượng học sinh tương đối lớn;
- Các thiết bị số cấu hình cao chưa đáp ứng được nhu cầu cụ thể
1.2.2 Một số bài toán
Bài toán 1 Dự báo số lượng tuyển sinh
Đối với cấp học THPT, việc tuyển sinh lớp 10 là một nhiệm vụ năm học hàng năm các nhà trường luôn phải thực hiện Việc tuyển sinh đầu cấp không chỉ có ý nghĩa với vấn đề cho nhà trường THPT mà qua đó cũng phản ánh chất lượng đào tạo tại các nhà trường THCS, đánh giá kết quả học tập của học sinh để các em có những lựa chọn nhóm bộ môn học tập cho những năm tiếp theo
Kì thi tuyển sinh lớp 10 THPT là một kì thi quan trọng trong hệ thống giáo dục Việt Nam và dành cho học sinh lớp 9 cấp THCS Mục đích của kì thi này nhằm tuyển học sinh vào các trường THPT công lập và các trường THPT chuyên
Từ thực trạng hiện nay của ngành giáo dục nói chung đó là số lượng trường, lớp vẫn chưa đáp ứng được số lượng học sinh thực tế Vì vậy, việc định hướng ban đầu từ quy mô tuyển sinh với những con số cụ thể sẽ giúp cho công tác tuyển sinh tại mỗi nhà trường sẽ có nhiều thuận lợi hơn Bên cạnh đó, các em học sinh cũng có những lựa chọn phù hợp theo năng lực để học tập Căn cứ vào số lượng tuyển sinh hàng năm, tác giả thực hiện xây dựng bài toán dự báo số lượng tuyển sinh Ví dụ như trường THPT Nguyễn Huệ, địa bàn tuyển sinh không chỉ dừng lại số lượng học sinh của các xã, thị trấn trong huyện mà còn địa bàn huyện Định Hóa với các xã lân cận, vì vậy số lượng học sinh tham gia dự tuyển có nhiều biến động
Trang 23Bài toán 2 Dự báo điểm thi tốt nghiệp kỳ thi THPT quốc gia
Kỳ thi THPT quốc gia tại Việt Nam là một sự kiện quan trọng của ngành Giáo dục Việt Nam, được tổ chức bắt đầu vào năm 2015 Là kỳ thi 2 trong 1, được gộp bởi hai kỳ thi là Kỳ thi tốt nghiệp THPT và Kỳ thi tuyển sinh đại học và cao đẳng, kỳ thi này xét cho thí sinh hai nguyện vọng: tốt nghiệp THPT và tuyển sinh đại học, cao đẳng, nhằm giảm bớt tình trạng luyện thi, học tủ, học lệch và giảm bớt chi phí Ngày 26 tháng 2 năm 2015, Bộ Giáo dục và Đào tạo Việt Nam đã ban hành Quy chế thi của kỳ thi này Quy chế thi đã được sửa đổi cho phù hợp với thực tiễn từng năm
Để tham dự kỳ thi này, thí sinh phải thi ít nhất 4 bài thi gồm 3 bài thi độc lập bắt buộc là Toán, Ngữ văn, Ngoại ngữ và một bài thi tổ hợp: Khoa học tự nhiên (Vật lý, Hóa học, Sinh học) và Khoa học xã hội (Lịch sử, Địa lý, GDCD) Hình thức thi và lịch thi theo hướng dẫn của Bộ Giáo dục Việt Nam
Hàng năm, trước thời điểm kỳ thi tốt nghiệp diễn ra các nhà trường đều tổ chức cho học sinh 2 đến 3 lượt thi thử để kiểm tra, đánh giá hiệu quả của quá trình học tập và giảng dạy Tuy nhiên, hiện nay từ các kết quả đó để có những con số dự báo cho điểm thi tốt nghiệp của học sinh chưa có công cụ cụ thể Chính vì vậy, từ điểm học tập theo môn qua các kỳ học của học sinh, kết hợp điểm thi thử tác giả thực hiện xây dựng bài toán dự báo điểm thi tốt nghiệp của học sinh (cụ thể với môn Toán) Căn cứ vào kết quả dự báo thu được để giáo viên và Ban giám hiệu xây dựng những kế hoạch giảng dạy, giáo dục cụ thể nhằm nâng cao chất lượng cũng như đạt mục tiêu thực hiện nhiệm vụ năm học đề ra
1.3 Kết luận chương
Chương 1 đã trình bày các kiến thức làm nền tảng cho các chương tiếp theo Khái niệm dự báo, các đặc điểm, phương pháp dự báo và quy trình dự báo đã được định hướng cụ thể Bài toán dự báo ở trường THPT cũng bước đầu được xác định
để làm tiền đề cho việc tìm hiểu các phương pháp và lập trình thử nghiệm ở chương tiếp theo
Trang 24CHƯƠNG II PHƯƠNG PHÁP NGOẠI SUY
Chương này nghiên cứu tổng quan về phương pháp ngoại suy, vấn đề ngoại suy trong bài toán dự báo, một số phương pháp ngoại suy cụ thể: Hồi quy, mô hình ARIMA và mạng mạng nơ ron Những nội dung này được tham khảo từ các tài liệu [1], [2], [3], [4], [5], [6], [9], [11], [12]
2.1 Khái niệm ngoại suy
2.1.1 Khái niệm
Ngoại suy (Extrapolation) là dựa trên những số liệu đã có về một đối tượng được quan tâm để đưa ra suy đoán hoặc dự báo về hành vi của đối tượng đó trong tương lai Ngoại suy có 2 dạng chính là ngoại suy theo số liệu lát cắt và ngoại suy theo chuỗi số liệu lịch sử
Ngoại suy theo số liệu lát cắt (Extrapolation for cross-sectional data) là dựa trên hành vi của một số thành phần tại một thời điểm nào đó để ngoại suy về hành
vi của các thành phần khác cũng tại thời điểm đó
Ngoại suy theo chuỗi số liệu (Time-series extrapolation) là dựa trên chuỗi số liệu lịch sử và sử dụng kỹ thuật kinh tế lượng để đưa ra dự báo đối với biến quan tâm Giả thiết cơ bản là hành vi của biến được dự báo sẽ tiếp tục trong tương lai như
đã diễn ra trong quá khứ
2.1.2 Sử dụng ngoại suy trong dự báo
Thực tế là không phải lúc ta nào cũng sử dụng ngoại suy, mà chỉ nên sử dụng phương pháp ngoại suy khi gặp một trong các trường hợp sau:
- Số lượng cần dự báo rất lớn Chẳng hạn như một công ty sản xuất nhiều sản phẩm khác nhau và cần phải dự báo về sản lượng tiêu thụ và tồn kho các sản phẩm cho từng tuần Khi đó số lượng các dự báo là rất lớn Trong trường hợp này, quy trình dự báo bằng ngoại suy được tự động hoá là phù hợp vì nhanh chóng và đỡ tốn kém
- Tình huống cần dự báo tương đối ổn định Đó là vì ngoại suy dựa trên định
là trong tương lai tình huống sẽ tiếp tục diễn ra như đã xảy ra trong quá khứ
Trang 25- Khi các phương pháp khác có thể bị ảnh hưởng sai lệch của người dự báo Chẳng hạn dự báo chuyên gia thường bị ảnh hưởng sai lệch chủ quan của người dự báo, nếu người đó quá bi quan (hoặc ngược lại quá lạc quan) về tình huống cần dự báo Khi đó, dự báo bằng ngoại suy có lẽ là khách quan hơn
- Người dự báo không biết nhiều về tình huống cần dự báo Khi đó thì cách làm tương đối đơn giản và hợp lý là giả định rằng diễn biến trong tương lai cũng sẽ tương tự như trong quá khứ, tức là sử dụng ngoại suy
2.1.3 Ưu, nhược điểm của phương pháp ngoại suy
+ Nhược điểm
Ngoại suy có nhược điểm chính là nó chỉ lưu ý đến các hiện tượng xảy ra trong quá khứ mà bỏ qua các tác động mới xuất hiện trong hiện tại hoặc có thể xuất hiện trong tương lai Các tác động đó làm thay đổi sự vận động của hiện tượng cần
dự báo so với nó đã xảy ra trong quá khứ, do đó dự báo có thể sẽ không chính xác
Vì lý do này mà ngoại suy chỉ nên ứng dụng cho các dự báo ngắn hạn, khi các tác động mới chưa kịp xuất hiện, hoặc nếu đã xuất hiện thì chưa kịp gây tác động lớn đến hiện tượng cần dự báo
Ngoài ra, sai số có thể xảy ra của ngoại suy là tương đối khó dự đoán
2.1.4 Tính chính xác của phương pháp ngoại suy
Sai số dự báo là sự chênh lệch giữa giá trị thực (dữ liệu) và giá trị dự đoán nhằm đánh giá chất lượng hay sự phù hợp của mô hình dự báo tại cùng một thời
Trang 26điểm Sai số của dự báo cũng dự đoán cũng nhằm giúp điều chỉnh các thông số của
: sai số dự báo tại thời điểm t
Một mô hình dự báo được đánh giá tốt khi sai số dự báo nhỏ Ngoài ra tính ngẫu nhiên của sai số cũng là một tham số quan trọng để đánh giá độ chính xác của
dự báo
Thật vậy, khi tiến hành dự báo người ta thường giả định dữ liệu ban đầu ngẫu nhiên; các tính toán, đánh giá, kiểm định cũng đều dựa trên giả định này (ngẫu nhiên, phân phối chuẩn) nên nếu mô hình đúng thì sai số cũng phải không theo một chiều hướng nào cả
Tiêu chí đánh giá: các tiêu chí đánh giá sai số thường được sử dụng trong thực
tế dự báo như sau:
Sai số tuyệt đối trung bình MAE (Mean Absolute Error):
Trang 272.2 Phương pháp ngoại suy dựa vào mô hình hồi quy
Phân tích hồi quy là một phương pháp phân tích thống kê dự đoán các giá trị của một hoặc một số biến phụ thuộc (biến đáp ứng) theo một tập các biến độc lập (các biến dùng để ngoại suy) Nó cũng được vận dụng đánh giá hiệu quả tác động của biến độc lập với biến phụ thuộc
Khi nghiên cứu một tổng thể có thể theo dõi đồng thời nhiều biến Ta có thể chia các biến ra thành 3 nhóm:
Biến mà chúng ta chủ động cho thay đổi để theo dõi ảnh hưởng của chúng đến các biến khác Gọi các biến này là biến chủ động
Biến liên quan đến ngoại cảnh, nhìn chung loại biến này vượt khỏi tầm kiểm tra và chúng ta chỉ ghi lại một cách thụ động, tuy nhiên phải lưu tâm vì chúng ảnh hưởng đến kết quả nghiên cứu Gọi các biến này là biến kèm theo hay biến liên quan
Các biến chúng ta quan tâm, chúng là đối tượng theo dõi, là mục đích nghiên cứu Gọi các biến này là biến kết quả
Sau khi thu được số liệu về các biến người ta muốn thiết lập các mối quan hệ giữa các biến Các quan hệ này dựa trên số liệu thu được qua theo dõi, qua thí nghiệm nên có tính chất thực nghiệm
Có 2 bài toán liên quan chặt chẽ với nhau:
a) Xác định các hệ số đánh giá mối quan hệ giữa 2 biến X, Y (thí dụ hệ số
tương quan, tỷ số tương quan ) hay tổng quát hơn đánh giá mối quan hệ giữa một
biến Z và một bộ k biến X 1 , X 2 , , X k (thí dụ hệ số tương quan bội, hệ số tương quan
riêng )
b) Theo dõi biến kết quả Z và một bộ k biến X 1 , X 2 , …, X k tìm hàm f(X 1 , X 2 , …,
X k ) sao cho f(X 1 , X 2 , X k ) gần Z nhất (theo một tiêu chuẩn nào đó) Hàm này có thể
gọi một cách chung nhất là hàm hồi quy của Z theo bộ k biến X 1 , X 2 ,…, X k
Trang 282.2.1 Hồi quy tuyến tính đơn
2.2.1.2 Mô hình hồi quy tuyến tính đơn
Đây là loại quan hệ đơn giản nhất giữa X và Y, quan hệ đường thẳng, còn gọi
là quan hệ tuyến tính Trong quan hệ này, chúng ta coi Y phụ thuộc bậc nhất vào X
Mô hình của quan hệ này: Y i = a + bX i + ε i i = 1,…, n (2.4)
Trang 292 2
Trang 302 1
x x y y b
2.2.1.4 Trường hợp X không phải biến ngẫu nhiên
Giả sử X = x i thì Y là biến ngẫu nhiên phân phối chuẩn có kì vọng là hàm bậc nhất a+bx i và phương sai 𝞂2 Nói cách khác Y được tính theo mô hình:
Y i = a + bX i + ε i với giả thiết các εi độc lập, phân phối chuẩn N(0,𝞂2 )
Các hệ số a, b của đường thẳng y=a+bx được tính theo phương trình (2.6) hay theo công thức (2.9), cho cùng kết quả Vì các sai số ε i độc lập, phân phối chuẩn
N(0,𝞂2 ) nên các hệ số a,b và hệ số tương quan r XY đều mắc sai số
2
i i
e se
Có thể tính se 2 qua công thức sau:
Trang 31Kiểm định giả thiết H 0 : a=0 bằng giá trị T tna = a/sa
Kiểm định giả thiết H 0 : b=0 bằng giá trị T tnb = b/sb
Cả 2 giá trị thực nghiệm trên đều so với giá trị tới hạn T lt t( , n2) (2.18)
Khi cho một giá trị x 0 ngoài các giá trị x i đã cho có thể tính giá trị tương ứng
theo đường hồi quy, gọi là giá trị dự báo trung bình y 0 = a+ bx 0
Giá trị này mắc sai số:
2 0 0
Khoảng tin cậy y0 s y( 0)gọi là khoảng ước lượng
Nếu dùng y 0 làm giá trị dự báo cho y tại x 0 thì sai số của dự báo:
0 0
Khoảng tin cậy y0 sydb y( 0)gọi là khoảng dự
Đối với các giá trị rXY người ta dùng các biến đổi để đưa về biến chuẩn sau đó ước lượng và kiểm định
Nếu sai số quan sát không nhỏ có thể kiểm định giả thiết không tương quan
H 0 : r XY = 0 bằng giá trị Student
2
2 1
tnr
r n T
Thường lập bảng phân tích phương sai để tách riêng tổng bình phương SCEY
thành hai phần: Phần biến động do hồi quy tuyến tính và phần biến động do sai số
Trang 32ngẫu nhiên (còn được gọi là biến động các điểm trên đường hồi quy tuyến tính
( ,x y i i)
và biến động của các điểm thực nghiệm (x i , y i ) quanh đường hồi quy)
Phần do hồi quy tuyến tính được tính theo công thức:
2
SPEXY SSI
SCEX
Phần do sai số: SSE hay SSR = SCEY- SSI (hay (1-r 2 )SCEY) (2.22)
Bảng 2.1: Bảng phân tích phương sai (1)
Nguồn biến động Tổng bình phương Bậc tự do Trung bình F tn
Do hồi quy tuyến
smr sme
2
SSE sme
n
So sánh F lt với F tn ở mức tin cậy và các bậc tự do: 1 và n-2 để kiểm định xem
đường hồi quy có đáng tin cậy hay không (biến động do hồi quy vượt qua ngẫu nhiên do sai số)
Phép kiểm định này hoàn toàn tương đương với kiểm định Student của giả
Như vậy, bằng cách lấy logarit hai vế, ta đã đưa quan hệ Y = ae bX phi tuyến
đối với a và b, về dạng tuyến tính đối với A và B
Dạng hàm lũy thừa: Y = ab X , a > 0
Lấy logarit hai vế, nhận được: lgY = lga + Xlgb (2.26)
Khi đó, (2.25) có dạng: U = A + BX (2.28)
Trang 33Như vậy, cũng bằng cách lấy logarit hai vế, ta đã đưa quan hệ Y = ab X phi
tuyến đối với a và b về dạng tuyến tính đối với A và B
2.2.3 Hồi quy bội tuyến tính
Gọi biến phụ thuộc là Y, các biến độc lập X(X 1 ,X 2 ,…,X p )
Có thể viết hồi quy bội tuyến tính dưới dạng sau:
b i được gọi là các hệ số hồi quy riêng, thể hiện mức độ biến thiên Y khi biến X i
thay đổi một đơn vị, các biến còn lại không đổi
e là sai số, tương tự như với hồi quy tuyến tính đơn
Dùng phương pháp bình phương bé nhất tính được các hệ số của bi như sau:
1
b X X X Y và b0 Y ( b X1 1 b X2 2 b Xp p) (2.34) Tổng bình phương toàn bộ: SSTO y2với n-1 bậc tự do (2.35)
Tổng bình phương do hồi quy: ( i )2
i
SSR Y Y
với p bậc tự do (2.36)
Trang 34Bảng 2.2: Bảng phân tích phương sai (2)
Nguồn biến động Tổng bình phương Bậc tự do Trung bình Ftn
Do hồi quy bội
Sai số của một quan sát hay còn gọi là độ lệch chuẩn se
Sai số bình phương của các hệ số b i (i=1,p)
(Sb i ) 2 =C ii se 2 với C ii là phần tử (i,i) trên đường chéo của (x’x) -1
2.2.4 Hồi quy đa thức
Theo dõi quan hệ giữa biến độc lập X và biến phụ thuộc Y ngoài dạng tuyến tính Y= a+bX, còn có:
Trang 35Dạng hồi quy bậc 3: Y b0 b X1 b X2 2 b X3 3 (2.41)
Dạng hồi quy bậc m: Y b0 b X1 b X2 2 b X3 3 b X m m (2.42) Với các dạng hồi quy đa thức này, ta có thể dùng phương pháp bình phương
bé nhất để lập hệ phương trình tìm các hệ số Tuy nhiên, cũng có thể sử dụng hồi
quy tuyến tính bội để tìm các hệ số Muốn vậy, ta chỉ cần đặt X 1 = X, X 2 =X 2 , X 3 =
X 3 … Sau đó, tính hồi quy tuyến tính bội đối với các biến X 1 , X 2, …
Dạng hồi quy: Y b0 b1cosxb2sinx (2.43)
Lập luận tương tự như trên, để: 0 1 2 2
1
n i i
2.3 Phương pháp ngoại suy dựa vào mô hình ARIMA
Mô hình ARIMA có tên gọi là mô hình tự hồi quy kết hợp trung bình trượt ARIMA(p,d,q) có thể hiểu là tổng hợp chuỗi thời gian theo các thành phần: Tự tương quan AR(p); Trung bình trượt MA (q) và theo bậc sai phân (d) Mô hình ARIMA được Box và JenKin công bố vào năm 1970
ARIMA không chỉ mô phỏng tốt các thành phần quán tính mà nó còn mô phỏng được cả các thành phần mang tính chu kỳ, mùa vụ
2.3.1 Hàm tự tương quan ACF
Hàm tự tương quan đo lường phụ thuộc tuyến tính giữa các cặp quan sát y(t)
và y(t+k), ứng với thời đoạn k=1,2… (k còn gọi là độ trễ) Với mức độ trễ k, hàm tự
Trang 36tương quan tại độ trễ k được xác định qua độ lệch giữa các biến ngẫu nhiên y t , y t+k
so với các giá trị trung bình, và được chuẩn hóa qua phương sai
Dưới đây, giả thiết rằng các biến ngẫu nhiên trong chuỗi dừng thay đổi
quanh giá trị trung bình m với phương sai hằng số d 2 Hàm tự tương quan tại các độ trễ khác nhau sẽ có các giá trị khác nhau Trong thực tế, ta có thể ước lượng hàm tự
tương quan tại độ trễ thứ k qua phép biến đổi trung bình của tất cả các cặp quan sát, phân biệt bằng các độ trễ k, với giá trị trung bình mẫu là m, được chuẩn hóa bởi phương sai d 2 Chẳng hạn, cho mỗi chuỗi N điểm, giá trị r k của hàm tự tương quan
tại độ trễ thứ k được tính như sau:
N
(2.45)
Trong đó: y t là chuỗi dừng tại thời điểm t
y t+k là chuỗi dừng tại thời điểm t+k
m là giá trị trung bình của chuỗi
r k giá trị tương quan giữa y t và y t+k tại độ trễ k (r k =0 không có hiện
tượng tương quan)
Trong đó: y(t) là quan sát dừng hiện tại
y(t-1), y(t-2),… là quan sát dừng quá khứ
a 0 , a 1 , a 2 ,… là các tham số phân tích hồi quy
e t sai số ngẫu nhiên của giai đoạn hiện tại Giá trị trung bình mong đợi bằng 0
y(t) là một hàm tuyến tính với y(t-1), y(t-2),… (các quan sát dừng quá khứ)
Nói cách khác khi sử dụng phân tích hồi quy y(t) theo các giá trị chuỗi thời gian
Trang 37dừng có độ trễ, chúng ta sẽ được mô hình AR (yếu tố xu thế được tách khỏi yếu tố thời gian, chúng ta sẽ mô hình hóa những yếu tố còn lại – đó là sai số)
Số quan sát dừng quá khứ sử dụng trong hàm tương quan là bậc p của mô hình AR Nếu ta sử dụng hai quan sát dừng quá khứ, ta có mô hình tương quan bậc hai AR(2)
Điều kiện dừng là a 1 +a 2 +…+a p <1 (tổng các tham số phân tích hồi quy nhỏ
hơn 1)
Mô hình AR(1): y t( )a0 a y t1 ( 1) e t( ) (2.47)
Mô hình AR(2): y t( )a0 a y t1 ( 1) a y t2 ( 2) e t( ) (2.48)
2.3.3 Mô hình MA(q)
Quan sát dừng hiện tại y(t) là một hàm tuyến tính phụ thuộc các biến sai số
dự báo quá khứ và hiện tại Mô hình bình quân di động là một trung bình trọng số của những sai số mới nhất
y t b e t b e t b e t b e tq (2.49) Trong đó:
y(t)là quan sát dừng hiện tại
e(t)sai số dự báo ngẫu nhiên, giá trị của nó không được biết và trị trung bình mong đợi bằng 0
e(t-1), e(t-2),… là sai số dự báo quá khứ
b 0 , b 1 , b 2 ,… là giá trị trung bình của y(t) và các hệ số bình quân di động
q là sai số quá khứ được dùng trong mô hình bình quân di động, nếu ta sử
dụng hai sai số quá khứ thì sẽ có mô hình bình quân di động bậc 2 là MA(2)
Điều kiện cần là b 1 +b 2 +…+b q <1 (tổng các hệ số bình quân di động phải nhỏ
hơn 1)
Mô hình MA(1): y t( ) b0 e t( )b y t1 ( 1) (2.50)
Mô hình MA(2): y t( ) b0 e t( )b e t1 ( 1) b e t2 ( 2) (2.51)