Luận văn trình bày kết quả thực nghiệm của mô hình ARIMA được tự động sinh ra bởi chương trình so với phương pháp làm trơn hàm mũ Winters và so sánh giữa mô hình ARIMA khi có cập nhật lạ
Trang 1-
DƯƠNG HỚN MINH
TỰ ĐỘNG HÓA XÂY DỰNG MÔ HÌNH ARIMA
ĐỂ DỰ BÁO CHUỖI THỜI GIAN
Chuyên ngành: Khoa Học Máy Tính
Mã số: 60.48.01
LUẬN VĂN THẠC SĨ
TP HỒ CHÍ MINH, tháng 07 năm 2014
Trang 2-
DƯƠNG HỚN MINH
TỰ ĐỘNG HÓA XÂY DỰNG MÔ HÌNH ARIMA
ĐỂ DỰ BÁO CHUỖI THỜI GIAN
Chuyên ngành: Khoa Học Máy Tính
Mã số: 60.48.01
LUẬN VĂN THẠC SĨ
TP HỒ CHÍ MINH, tháng 07 năm 2014
Trang 3Cán bộ hướng dẫn khoa học: PGS TS Dương Tuấn Anh
Cán bộ chấm nhận xét 1: TS Phạm Văn Chung
Cán bộ chấm nhận xét 2: TS Lư Nhật Vinh
Luận văn thạc sĩ được bảo vệ tại: Trường Đại học Bách Khoa – ĐHQG TP.HCM,
ngày 14 tháng 07 năm 2014
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
1 PGS TS Dương Tuấn Anh
2 TS Phạm Văn Chung
3 TS Lư Nhật Vinh
4 TS Huỳnh Tường Nguyên
5 TS Nguyễn Văn Minh Mẫn
Xác nhận của Chủ tịch Hội đồng đánh giá luận văn và Trưởng Khoa quản lý chuyên ngành sau khi luận văn đã được sửa chữa (nếu có)
Trang 4_
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ và tên học viên: DƯƠNG HỚN MINH MSSV: 12070523
Ngày, tháng, năm sinh: 01/08/1989 Nơi sinh: An Giang
Chuyên ngành: Khoa Học Máy Tính Mã số: 60.48.01
I TÊN ĐỀ TÀI: Tự động hóa xây dựng mô hình ARIMA để dự báo chuỗi thời
gian
NHIỆM VỤ LUẬN VĂN: Tự động hóa xây dựng mô hình ARIMA để dự báo dữ
liệu chuỗi thời gian trong môi trường trực tuyến
II NGÀY GIAO NHIỆM VỤ: 20/01/2014 III NGÀY HOÀN THÀNH NHIỆM VỤ: 20/06/2014 IV CÁN BỘ HƯỚNG DẪN: PGS TS Dương Tuấn Anh
Tp HCM, ngày 14 tháng 07 năm 2014
PGS TS Dương Tuấn Anh
Trang 5LỜI CẢM ƠN
Tôi xin tỏ lòng biết ơn sâu sắc và chân thành đến thầy PGS TS Dương Tuấn Anh đã tận tâm hướng dẫn tôi trong quá trình thực hiện luận văn cao học và tạo điều kiện thuận lợi để tôi hoàn thành luận văn này
Tôi xin chân thành cảm ơn quý Thầy Cô ở Khoa Khoa Học Máy Tính - Trường Đại học Bách Khoa đã truyền đạt vốn kiến thức quý báu cho tôi trong suốt thời gian học tập tại trường
Sau cùng, tôi xin kính chúc quý Thầy Cô trong Khoa Khoa Học Máy Tính và thầy PGS TS Dương Tuấn Anh thật dồi dào sức khỏe để tiếp tục truyền đạt kiến thức cho thế hệ mai sau
Trang 6TÓM TẮT
Ngày nay, nhiều quốc gia phải vật lộn để phục hồi từ cuộc khủng hoảng tài chính toàn cầu Rõ ràng là chúng ta không muốn bị một cuộc khủng hoảng như thế trong tương lai Chúng ta phải nghiên cứu những gì xảy ra trong quá khứ để ngăn chặn khủng hoảng tài chính trong tương lai Qua đó, chúng ta có thể thấy việc dự báo dựa vào chuỗi dữ liệu thời gian đóng vai trò cực kỳ quan trọng không chỉ trong kinh tế, tài chính mà còn trong tất cả các lĩnh vực khác như y tế, giáo dục, môi trường, Nhiều phương pháp đã được đề xuất, mỗi phương pháp đều có những ưu nhược điểm riêng Trong đó, mô hình hồi qui tích hợp trung bình di động (ARIMA) được xem là phổ biến nhất trong dự báo dữ liệu chuỗi thời gian
Tuy nhiên, việc xây dựng mô hình ARIMA phải trải qua nhiều bước chi li, mỗi bước đòi hỏi phải có sự tham gia của con người Do đó mục tiêu của luận văn này là tự động hóa quá trình xây dựng mô hình ARIMA để dự báo chuỗi thời gian Luận văn trình bày kết quả thực nghiệm của mô hình ARIMA được tự động sinh ra bởi chương trình so với phương pháp làm trơn hàm mũ Winters và so sánh giữa mô hình ARIMA khi có cập nhật lại các hệ số và khi không cập nhật lại các hệ số trong môi trường trực tuyến
Luận văn đã hiện thực thành công chương trình tự động hóa quá trình xây dựng mô hình ARIMA để dự báo dữ liệu chuỗi thời gian
Trang 7ABSTRACT
Nowadays, many countries struggle to recover from the recent global financial crisis, Obviously, we do not want to suffer another crisis in the future We must study the past in order to prevent future financial crisis Thus, we see that the time series prediction plays extremely important role not only in economic and financial field but also in other fields as health, education, environment,….Many methods have been proposed to solve this problem and the Autoregressive Integrated Moving Average model (ARIMA) is the popular model in time series forecasting problem
However, ARIMA model needs many intermediate steps that require the participation of human decisions Thus, it’s necessary to automate the process of creating ARIMA model This thesis implements automatic program for creating ARIMA model and empirically compares with the Exponential Smoothing Winters method Furthermore, we compare the performance of ARIMA model without model-update to that of ARIMA model with model-update in online environment
This thesis has completed the automatic program for building ARIMA model to forecast time series
Trang 8LỜI CAM ĐOAN
Tôi cam đoan rằng, ngoại trừ các kết quả tham khảo từ các công trình khác như đã ghi rõ trong luận văn, các công việc trình bày trong luận văn là do chính tôi thực hiện và chưa có phần nội dung nào của luận văn này được nộp để lấy một bằng cấp ở trường này hoặc trường khác
Tp.HCM, ngày 14 tháng 07 năm 2014
Dương Hớn Minh
Trang 9Hình 2 5 Cơ chế hoạt động của bộ đệm xoay vòng 18
Hình 3 1 Các thành phần của mô hình SARIMA 20
Hình 3 2 Lấy hiệu của chuỗi dữ liệu có tính mùa 23
Hình 3 3 Hai cấp lấy hiệu 24
Hình 3 4 Phát hiện mùa bằng ACF 26
Hình 3 5 Thành phần khử mùa và xu hướng trong mô hình SARIMA 29
Hình 3 6 Quá trình ước lượng tham số mô hình SARIMA 30
Hình 3 7 Mô hình kết hợp ARIMA và mạng nơron 35
Hình 4 1 Giao diện chương trình 38
Hình 4 2 Đồ thị của chuỗi thời gian 39
Hình 4 3 Hệ số tự tương quan (ACF) của chuỗi thời gian 40
Hình 4 4 Hệ số tự tương quan riêng phần (PACF) của chuỗi thời gian 40
Hình 4 5 Bộ dữ liệu mực nước trung bình hàng tháng của hồ nước 42
Hình 4 6 Bộ dữ liệu nhiệt độ tối đa ở Melbourne 43
Hình 4 7 Bộ dữ liệu số lượng tạp chí hóa chất 43
Hình 4 8 Bộ dữ liệu số ca sinh mỗi tháng ở thành phố New York 44
Hình 4 9 Bộ dữ liệu chỉ số lượng sản xuất sữa bò của một nông trại 45
Hình 4 10 Bộ dữ liệu tổng mức tiêu thụ điện tại Mỹ 45
Hình 4 11 Bộ dữ liệu nồng độ Ozone ở Arosa 46
Hình 4 12 Bộ dữ liệu lượng tiêu thụ khí đốt tại Anh 46 Hình B 1 Ví dụ định dạng dữ liệu đầu vào B1Hình B 2 Giao diện chính của chương trình B2Hình B 3 Thể hiện chiều dài của chuỗi dữ liệu B3Hình B 4 Hệ số tự tương quan theo độ trễ B4
Trang 10Hình B 5 Hàm tự tương quan riêng phần theo độ trễ B5Hình B 6 Đồ thị lỗi của mô hình ARIMA B7Hình B 7 Kiểm tra tính chính xác của mô hình ARIMA B8Hình B 8: Nhập số thời đoạn cần dự báo B8Hình B 9 Kết quả dự báo B9Hình B 10 Kết quả dự báo trực tuyến B10 Hình C 1 Tuổi băng hà của 42 vị vua liên tiếp ở Anh C3Hình C 2 Kết quả dự báo bằng Holt-Winters C6Hình C 3 Kết quả dự báo doanh thu cho 48 tháng tiếp theo C7
Trang 11Bảng 4 2 Kết quả thực nghiệm dự báo nhiệt độ tối đa ở Melbourne 48
Bảng 4 3 Kết quả thực nghiệm dự báo số lượng tạp chí hóa chất 48
Bảng 4 4 Kết quả thực nghiệm dự báo số ca sinh mỗi tháng ở New York 49
Bảng 4 5 Kết quả thực nghiệm dự báo số lượng sản xuất sữa bò 49
Bảng 4 6 Kết quả thực nghiệm dự báo mức tiêu thụ điện tại Mỹ 50
Bảng 4 7 Kết quả thực nghiệm dự báo nồng độ Ozone 51
Bảng 4 8 Kết quả thực nghiệm dự báo lượng tiêu thụ khí đốt tại Anh 51
Bảng 4 9 Kết quả thực nghiệm dự báo trực tuyến mực nước trung bình hàng tháng của hồ nước tại Warroad 53
Bảng 4 10 Kết quả thực nghiệm dự báo trực tuyến nhiệt độ tối đa ở Melbourne 53
Bảng 4 11 Kết quả thực nghiệm dự báo trực tuyến số lượng tạp chí hóa chất 54
Bảng 4 12 Kết quả thực nghiệm dự báo số ca sinh mỗi tháng ở New York 54
Bảng 4 13 Kết quả thực nghiệm dự báo số lượng sản xuất sữa bò 55
Bảng 4 14 Kết quả thực nghiệm dự báo trực tuyến tổng mức tiêu thụ điện tại Mỹ 55Bảng 4 15 Kết quả thực nghiệm dự báo trực tuyến nồng độ Ozone 56Bảng 4 16 Kết quả thực nghiệm dự báo trực tuyến lượng tiêu thụ khí đốt tại Anh 56
Trang 12MỤC LỤC
LỜI CẢM ƠN ITÓM TẮT IIABSTRACT IIILỜI CAM ĐOAN IVDANH MỤC HÌNH ẢNH VDANH MỤC CÁC BẢNG VIIMỤC LỤC VIII
PHÁT BIỂU VẤN ĐỀ 1CHƯƠNG 1:
Dự báo dữ liệu chuỗi thời gian 11.1
Mục tiêu nghiên cứu 21.2
Phạm vi nghiên cứu 21.3
Phương pháp nghiên cứu 21.4
Những kết quả đạt được 31.5
Cấu trúc luận văn 31.6
CƠ SỞ LÝ THUYẾT 4CHƯƠNG 2:
Dữ liệu chuỗi thời gian 42.1
Các thành phần của dữ liệu chuỗi thời gian 52.2
Thành phần xu hướng (Trend component) 52.2.1
Thành phần mùa (Seasonal component) 52.2.2
Thành phần chu kỳ (Cycial component) 62.2.3
Thành phần bất thường (Regular component) 62.2.4
Các phương pháp đánh giá dự báo 62.3
Mean Absolute Error – MAE 62.3.1
Mean Squared Error – MSE 72.3.2
Mean Absolute Percentage Error – MAPE 82.3.3
Hệ s tự tương qu n h m tự tương qu n v h m tự tương qu n riêng 2.4
phần 8
Hệ số tự tương quan (Autocorelation) 82.4.1
Trang 13Hàm tự tương quan (Autocorrelation function – ACF) 82.4.2
Hệ số tự tương quan riêng phần 102.4.3
Quá trình có tính dừng và không có tính dừng 102.5
Mô hình ARIMA 112.6
Mô hình trung bình di động bậc q – MA(q) 112.6.1
Mô hình tự hồi quy bậc p, AR(p) 13
CÁC CÔNG TRÌNH LIÊN QUAN 19CHƯƠNG 3:
Tự động xây dựng mô hình ARIMA để dự báo 193.1
Thành phần nhận dạng mô hình 203.1.1
Thành phần khử mùa và xu hướng 293.1.2
Thành phần ước lượng tham số 293.1.3
Thành phần dự báo 313.1.4
Các công trình dự báo chuỗi thời gian khác 323.2
Phương pháp làm trơn hàm mũ Winters 323.2.1
Kết hợp mạng Neural nhân tạo (ANN) và mô hình ARIMA để dự báo 3.2.2
chuỗi thời gian 33
Kết luận 363.3
HIỆN THỰC VÀ THỬ NGHIỆM 37CHƯƠNG 4:
Quá trình hiện thực 374.1
Cấu trúc chương trình 374.2
Giao diện chương trình 374.2.1
Các module chính 384.2.2
Dữ liệu thực nghiệm 424.3
Kết quả thực nghiệm trong môi trường không trực tuyến 474.4
Trang 14Bộ dữ liệu mực nước trung bình hàng tháng của hồ nước tại Warroad 474.4.1
Bộ dữ liệu nhiệt độ tối đa ở Melbourne từ tháng một năm 1971 đến tháng 4.4.2
mười hai năm 1990 47
Bộ dữ liệu số lượng tạp chí hóa chất 484.4.3
Bộ dữ liệu số ca sinh mỗi tháng ở thành phố New York 494.4.4
Bộ dữ liệu số lượng sản xuất sữa bò của một nông trại 494.4.5
Bộ dữ liệu tổng mức tiêu thụ điện tại Mỹ 504.4.6
Bộ dữ liệu nồng độ Ozone ở Arosa từ năm 1932 đến 1972 504.4.7
Bộ dữ liệu lượng tiêu thụ khí đốt trung bình theo quý tại Anh 514.4.8
Đánh giá kết quả thực nghiệm 524.4.9
Kết quả thực nghiệm trong môi trường trực tuyến 524.5
Bộ dữ liệu mực nước trung bình hàng tháng của hồ nước tại Warroad 534.5.1
Bộ dữ liệu nhiệt độ tối đa ở Melbourne từ tháng một năm 1971 đến tháng 4.5.2
mười hai năm 1990 53
Bộ dữ liệu số lượng tạp chí hóa chất 544.5.3
Bộ dữ liệu số ca sinh mỗi tháng ở thành phố New York 544.5.4
Bộ dữ liệu số lượng sản xuất sữa bò của một nông trại 554.5.5
Bộ dữ liệu tổng mức tiêu thụ điện tại Mỹ 554.5.6
Bộ dữ liệu nồng độ Ozone ở Arosa từ năm 1932 đến 1972 564.5.7
Bộ dữ liệu lượng tiêu thụ khí đốt trung bình theo quý tại Anh 564.5.8
Đánh giá kết quả đạt được 574.5.9
KẾT LUẬN 58CHƯƠNG 5:
Đ NH GI ẾT QUẢ 585.1
Những công việc làm được 585.1.1
Mặt hạn chế 585.1.2
Hướng phát triển 595.1.3
TÀI LIỆU THAM KHẢO 60PHỤ LỤC A:QU ƯỚC VỀ THUẬT NGỮ V HIỆU A1PHỤ LỤC B:HƯỚNG DẪN SỬ DỤNG CHƯƠNG TRÌNH B1
Trang 15PHỤ LỤC C:CÁC LỆNH THỰC THI MÔ HÌNH HOLT-WINTERS TRÊN R C1LÝ LỊCH TRÍCH NGANG D1QU TRÌNH Đ O TẠO E1QUÁ TRÌNH CÔNG TÁC F1
Trang 16PHÁT BIỂU VẤN ĐỀ CHƯƠNG 1:
Dự báo dữ liệu chuỗi thời gian
1.1Dữ liệu tập hợp được thu thập, lưu trữ, quan sát và đo đạc theo sự tăng dần của thời gian là rất phổ biến [7] Trong kinh doanh, chúng ta quan sát tỷ lệ lãi xuất hàng tuần, giá cổ phiếu đóng cửa hàng ngày, doanh số bán hàng hàng năm, Trong khí tượng, chúng ta quan sát nhiệt độ cao và thấp hàng ngày, chỉ số lượng mưa, hạn hán hàng năm, và tốc độ gió hàng giờ Trong nông nghiệp, chúng ta ghi lại số liệu hàng năm cho cây trồng và chăn nuôi, xói mòn đất, và doanh thu xuất khẩu Trong hệ sinh thái, chúng ta ghi lại sự phong phú của một loài động vật Danh sách các lĩnh vực mà chuỗi thời gian được nghiên cứu là hầu như bất tận [8]
Dự báo là một khoa học và nghệ thuật tiên đoán những khả năng có thể sẽ xảy ra trong tương lai, trên cơ sở phân tích khoa học về các dữ liệu đã thu thập được Khi tiến hành dự báo ta căn cứ vào việc thu thập xử lý số liệu trong quá khứ và hiện tại để xác định xu hướng vận động của các hiện tượng trong tương lai nhờ vào một số mô hình toán học
Dự báo hay là ước lượng nhu cầu tương lai cho sản phẩm hoặc dịch vụ và các nguồn lực cần thiết để sản xuất sản phẩm hoặc dịch vụ đó, qua đó giúp các nhà quản trị doanh nghiệp chủ động trong việc đề ra các kế hoạch và các quyết định cần thiết Căn cứ vào nội dung phương pháp và mục đích của dự báo, người ta chia dự báo thành hai loại: phương pháp định tính và phương pháp định lượng [3]
Phương pháp định tính thường phụ thuộc rất nhiều vào kinh nghiệm của một hay nhiều chuyên gia trong lĩnh vực liên quan Phương pháp này thường được áp dụng, kết quả dự báo sẽ được các chuyên gia trong lĩnh vực liên quan nhận xét, đánh giá và đưa ra kết luận cuối
Phương pháp định lượng sử dụng những dữ liệu quá khứ theo thời gian, dựa trên dữ liệu lịch sử để phát hiện chiều hướng vận động của đối tượng phù hợp với một mô hình toán học nào đó và đồng thời sử dụng mô hình đó làm mô hình ước lượng Tiếp cận định lượng dựa trên giả định rằng giá trị tương lai của biến số dự báo sẽ phụ thuộc vào xu thế vận động của đối tượng đó trong quá khứ Phương pháp dự báo theo chuỗi thời gian là một phương pháp định lượng Ngày nay, dự báo là một nhu cầu không thể thiếu được của mọi
Trang 17hoạt động kinh tế - xã hội, khoa học - kỹ thuật, được tất cả các ngành khoa học quan tâm nghiên cứu
Các mẫu thức của dữ liệu trong chuỗi thời gian có nhiều thành phần Theo lý thuyết, bất cứ chuỗi thời gian nào cũng có thể phân rã thành: xu hướng, chu trình, tính mùa và bất thường Tuy nhiên, không thể phân rã trực tiếp vì các yếu tố này tác động lẫn nhau Do đó việc xây dựng một phương pháp mô hình hóa và dự báo là rất phức tạp Năm 1976, Box-Jenkins đã đề nghị mô hình ARIMA (Autoregressive
Integrated Moving Average - Tự hồi qui tích hợp Trung bình trượt) thích hợp với
dữ liệu có tính dừng (stationary) và dữ liệu không có tính dừng (non-stationary), dựa trên mô hình tự hồi quy AR và mô hình trung bình di động MA ARIMA là mô hình dự báo định lượng theo thời gian, giá trị tương lai của biến số dự báo sẽ phụ thuộc vào xu thế vận động của đối tượng đó trong quá khứ Mô hình ARIMA phân tích tính tương quan giữa các dữ liệu quan sát để đưa ra mô hình dự báo thông qua các giai đoạn nhận dạng mô hình, ước lượng các tham số từ dữ liệu quan sát và kiểm tra các tham số ước lượng để tìm ra mô hình thích hợp Tuy nhiên, mô hình ARIMA dự báo không tốt với chuỗi dữ liệu có tính mùa và xu hướng Mô hình SARIMA – mô hình mở rộng của mô hình ARIMA được xây dựng để khắc phục điều này
Mục tiêu nghiên cứu
1.2Mô hình ARIMA là mô hình có hệ thống và được ưa chuộng nhưng việc xây dựng mô hình ARIMA phải trải qua nhiều bước chi li, mỗi bước phải do con người tham gia vào Do đó, mục tiêu của bài luận văn này là tự động hóa quá trình xây dựng mô hình ARIMA để dự báo dữ liệu chuỗi thời gian
Phạm vi nghiên cứu
1.3Phạm vi nghiên cứu của luận văn là tự động hóa xây dựng mô hình ARIMA để dự báo dữ liệu chuỗi thời gian trong môi trường trực tuyến
Phương pháp nghiên cứu
1.4Dựa vào luận văn tự động hóa mô hình ARIMA để dự báo chuỗi thời gian với dữ liệu động của Nancy Ngoc Tran, 2002 [9] Trong đó, Nancy trình bày phương pháp tự động xây dựng mô hình ARIMA và dự báo chuỗi thời gian trực tuyến dựa trên việc cập nhật các tham số
Trang 18Những kết quả đạt được
1.5Tìm hiểu các phương pháp dự báo: làm trơn hàm mũ Winters và mô hình ARIMA
Hiện thực chương trình tự động xây dựng mô hình ARIMA cho bộ dữ liệu chuỗi thời gian được cung cấp
Hiện thực phương pháp làm trơn hàm mũ Winters dựa vào phần mềm hỗ trợ R Đánh giá kết quả dự báo chương trình hiện thực ARIMA và Winters trên các bộ mẫu dữ liệu khác nhau
Cấu trúc luận văn
1.6Bố cục của luận văn bao gồm 5 chương:
Chương 1: Phát biểu vấn đề trình bày tổng quan về bài toán dự báo, mục tiêu và
phương pháp nghiên cứu của luận văn
Chương 2: Cơ sở lý thuyết giới thiệu về các khái niệm, các thành phần của chuỗi
thời gian, các phương pháp đánh giá dự báo, cơ sở lý thuyết về mô hình ARIMA
Chương 3: Các công trình liên quan trình bày về công trình tự động xây dựng
mô hình ARIMA để dự báo, dự báo chuỗi thời gian dùng các mô hình của Winters và công trình lai ghép giữa mạng Nerual nhân tạo và mô hình ARIMA
Holt-Chương 4: Hiện thực và thử nghiệm trình bày tổng quan chương trình thực
nghiệm, dữ liệu và kết quả thực nghiệm
Chương 5: Kết luận đánh giá kết quả đạt được, các mặt hạn chế và hướng phát
triển của đề tài
Trang 19CƠ SỞ LÝ THUYẾT CHƯƠNG 2:
Trong chương này chúng tôi sẽ trình bày các khái niệm và các thành phần của chuỗi thời gian, các khái niệm về hàm tự tương quan, hàm tự tương quan riêng phần Ngoài ra, chương này còn trình bày cơ sở lý thuyết của mô hình ARIMA để có thể áp dụng vào bài toán dự báo cũng như cách đánh giá sai số của mô hình dự báo bất kỳ
Dữ liệu chuỗi thời gian
2.1Là những tập hợp dữ liệu được thu thập, lưu trữ, quan sát và đo đạc theo sự tăng
dần của thời gian Ví du: Trong kinh doanh, tỷ lệ lãi xuất được lưu trữ hàng tuần,
giá cổ phiếu đóng cửa được lưu trữ hàng ngày, doanh số bán hàng được lưu trữ hàng năm, hoặc trong khí tượng chỉ số lượng mưa, hạn hán được lưu trữ hàng năm là các dữ liệu chuỗi thời gian Hình 2.1là biểu đồ thể hiện lượng mưa hàng
năm tại Los Angeles- California [8]
Hình 2 1 Biểu đồ thể hiện lượng mư h ng năm tại Los Angeles- California
Ta ký kiệu chuỗi thời gian là {Xt} với t là các số tự nhiên tương ứng với các mốc
thời gian mà ta quan sát, đo đạc được hay còn gọi là độ trễ Xt là các biến ngẫu nhiên (random variable) rút ra từ một phân bố xác suất (probability distribution) tùy theo nhu cầu của người muốn phân tích trên dữ liệu chuỗi thời gian này Vì vậy, ta có thể sử dụng ba loại mô hình khác nhau cho việc dự báo: Mô hình hồi quy (Regression models), mô hình tất định (Deterministic models of time series), mô hình ngẫu nhiên (Stochastic models of time series)
Trang 20Các thành phần của dữ liệu chuỗi thời gian
2.2Theo lý thuyết, bất kỳ chuỗi thời gian nào cũng có thể phân tích chuỗi thời gian thành bốn thành phần:
Thành phần xu hướng (Trend component)
2.2.1Giải thích cho việc thay đổi dần dần của chuỗi dữ liệu thời gian, dữ liệu có hướng đi lên hoặc đi xuống trong một thời gian dài Xu hướng thường là kết quả của các yếu tố dài hạn như thay đổi dân số, công nghệ hoặc sở thích của người tiêu dùng [11] Hình 2.2minh họa thành phần xu hướng [15]
Hình 2 2 Th nh phần u hướng Thành phần mùa (Seasonal component)
2.2.2Giải thích cho việc các mẫu thức thường xuyên biến đổi trong một khoảng thời gian nhất định như một năm, hoặc một quý, một tuần, [11] Hình 2.3minh họa thành phần mùa [15]
Hình 2 3 Thành phần mùa
Trang 21Tính biến động không phải lúc nào cũng tương ứng với các mùa trong năm (như mùa xuân, mùa h , mùa thu, mùa đông) mà có thể theo ngày, theo tuần
Thành phần chu kỳ (Cycial component)
2.2.3Là chuỗi biến đổi dạng sóng lên xuống quanh xu hướng Trong thực tế thành phần này rất khó xác định và người ta thường xem nó như là một phần của thành
phần xu hướng [11] Hình 2.4minh họa thành phần chu kỳ [15]
Hình 2 4 Thành phần chu kỳ Thành phần bất thường (Regular component)
2.2.4Là thành phần thể hiện sự biến đổi ngẫu nhiên không thể đoán được của chuỗi thời gian [11]
Các phương pháp đánh giá dự báo
2.3Có rất nhiều phương pháp đánh giá dự báo ví dụ như dựa vào trực giác, kinh nghiệm trước đó, Dữ liệu thường được chia làm hai phần: phần khởi tạo (initialization part) và phần kiểm tra (test part) Chúng ta dùng các kỹ thuật dự báo để xác định các tham số xấp xỉ cho tập dữ liệu khởi tạo Sau đó, chúng ta sử dụng các kỹ thuật dự báo để dự báo trên tập dữ liệu kiểm thử và xác định các sai số dự báo để đưa ra kết luận về độ chính xác của kỹ thuật dự báo này Có 3 cách đánh giá tham số xấp xỉ của mô hính: MAPE, MAE, MSE Đối với ba phương pháp này thì phương pháp nào có sai số nhỏ nhất thì phương pháp đó tốt nhất [1]
Mean Absolute Error – MAE
2.3.1Phương pháp này được gọi là sai số tuyệt đối trung bình dùng để đánh giá mức độ chính xác trong một đơn vị dữ liệu, mô tả mức độ chấp nhận được của số lượng lỗi trên tập dữ liệu thực sự đó và nó có công thức như sau:
Trang 22Để khắc phục nhược điểm trên người ta còn sử dụng chỉ tiêu không phụ thuộc vào đơn vị đo của biến dự báo [2]
(2.1)
(2.2)
Trang 23Mean Absolute Percentage Error – MAPE
2.3.3Phương pháp này được gọi là sai số phần trăm tuyệt đối trung bình dùng để đánh giá mức độ chính xác đối với từng khoảng giá trị của dữ liệu chuỗi thời gian và nó được biểu diễn chính xác như là một tỷ lệ phần trăm có công thức như sau:
2.4.1Trong chuỗi thời gian các giá trị ở những thời điểm khác nhau có mối tương quan với nhau Sự tương quan này được đánh giá bằng hệ số tự tương quan
Tự tương quan là sự tương quan của một biến với chính nó theo những độ trễ thời gian khác nhau Hệ số tự tương quan là đại lượng biểu diễn mức độ tự tương quan và được tính theo công thức sau: [12]
[ ]√ Ở đây k là hệ số tự tương quan của X ở độ trễ k, là giá trị trung bình của Xt
Ký hiệu E(X) là kỳ vọng của biến ngẫu nhiên X, Var(X) là phương sai của biến ngẫu nhiên X
tự tương u n ut ti n un ti n – ACF)
2.4.2Các hệ số tự tương quan của một biến ngẫu nhiên theo các độ trễ khác nhau được biểu diễn trên một đồ thị có trục hoành là các độ trễ và trục tung là các hệ số tự tương quan làm thành hàm tự tương quan của biến đó Hàm tự tương quan là một công cụ quan trọng giúp xác định các thành phần cơ bản của chuỗi thời gian Hàm tự tương quan (ACF) là một đồ thị biểu diễn các hệ số tự tương quan theo các độ trễ
(2.3)
(2.4)
Trang 24khác nhau Trong thực tế ta thường không có điều kiện để thu thập các số liệu các số liệu của tổng thể mà chỉ thu thập các số liệu của mẫu
Công thức tính hệ số tự tương quan lấy mẫu:
∑ ̅ ̅
∑ ̅ Với
- là hệ số tự tương quan lấy mẫu ở độ trễ - ̅ là trung bình mẫu của
- là số phần tử của mẫu
Để kiểm tra xem hệ số tự tương quan ở độ trễ của một chuỗi thời gian có khác không hay không, ta dùng phép thử
√ ∑
Việc đánh giá các hệ số tự tương quan có ý nghĩa quan trọng trong việc phân tích chuỗi thời gian Hàm tự tương quan của dữ liệu giúp ta xác định được các thành phần của chuỗi thời gian từ đó có thể lựa chọn mô hình dự báo hợp lý cũng như việc đánh giá tính đầy đủ của mô hình
(2.5)
(2.6)
Trang 25Hệ s tự tương u n riêng phần
2.4.3Bởi vì hệ số tương quan dùng để tính độ tương quan giữa và chịu ảnh hưởng bởi các giá trị Do đó, ta cần phân tích thêm hệ số tự tương quan riêng phần được ước lượng bằng phương pháp tối thiểu lỗi thông qua công thức:
Tuy nhiên phương pháp này rất tốn chi phí tính toán cho mỗi hệ số Durbin đã đưa ra công thức xấp xỉ hệ số hồi quy thông qua hệ số tương quan và các hệ số đã tính trước đó [4]:
ta giả định rằng X1, X2,…XT trong chuỗi dữ liệu được sinh ra từ một phân bố xác suất Để mô hình hóa được quá trình này, chúng ta cố gắng mô tả các đặc tính của quá trình ngẫu nhiên đó Chúng ta có thể giả định rằng dữ liệu mà ta đo đạc được
như là một tập các biến ngẫu nhiên, các biến ngẫu nhiên được định nghĩa {Xt, t T}
với T là một tập hợp của chỉ số thời gian Chúng ta muốn biết dữ liệu chuỗi thời gian được tạo ra bởi quá trình ngẫu nhiên nền có bất biến theo thời gian không Nếu các đặc tính của quá trình ngẫu nhiên
thay đổi theo thời gian, thì quá trình đó là quá trình không có tính dừng
(nonstationary process), chúng ta sẽ rất khó để đại diện cho chuỗi dữ liệu thời gian
đó bằng các mô hình đại số đơn giản Ngược lại, nếu các đặc tính của quá trình
ngẫu nhiên cố định theo thời gian, thì quá trình đó là quá trình có tính dừng
(stationary process) Đối với dữ liệu thời gian có tính dừng ta có thể mô hình quá trình thông qua một phương trình với hệ số cố định mà có thể được ước tính từ dữ liệu quá khứ Tính dừng là các giá trị chuỗi thời gian xoay quanh 1 giá trị cố định
Về mặt toán học, một quá trình ngẫu nhiên được gọi là có tính dừng khi moment thứ nhất và moment thứ hai là cố định và không thay đổi theo thời gian Với
moment thứ nhất là kỳ vọng (mean) E[Xt] và moment thứ hai là hiệp phương sai
(2.7)
(2.8)
Trang 26(covariance) giữa Xt và Xt+k Loại hiệp phương sai mà áp dụng trên cùng một biến ngẫu nhiên thì được gọi là tự hiệp phương sai (auto-covariance) Phương sai
(variance) của một quá trình Var[Xt] là một trường hợp đặc biệt của tự hiệp phương
sai với độ trễ k = 0 Vì thế,quá trình được gọi là có tính dừng nếu:
Mean: E[Xt] = < , t
Variance: Var[Xt] = 2 < , t
Auto-covariance chỉ phụ thuộc duy nhất một độ trễ:
[ ] [ ]
Tập hợp tất cả của hệ số tự hiệp phương sai { k }, k = 0, 1, 2 tạo ra hàm tự
tương quan (autocorrelation function) của quá trình Chú ý: 0 = 2
Mô hình ARIMA
2.6Vào thời kỳ hoàng kim trong thập niên 60 và 70, việc xây dựng mô hình của nền kinh tế Hoa Kỳ dựa vào các phương trình đồng thời chiếm ưu thế trong dự báo kinh tế Nhưng sau này, sự hấp dẫn của phương pháp dự báo này đã suy giảm do các cú sốc dầu lửa năm 1973 và 1979 và do chỉ trích của Lucas Sự công kích của phê bình này là các tham số ước lượng từ một mô hình kinh tế lượng phụ thuộc vào chính sách áp dụng trong thời gian mô hình được ước lượng và sẽ thay đổi nếu có thay đổi về chính sách Nói ngắn gọn, các tham số ước lượng không cố định khi xuất hiện các thay đổi về chính sách
Phương pháp phân tích chuỗi thời gian do G.P.E Box và G, M Jenkins đề xuất đã mở ra một trang mới về các công cụ dự báo Phương pháp Box- Jenkins về kỹ thuật gọi là phương pháp ARIMA Phương pháp này không dựa vào một hoặc nhiều phương trình mà dựa vào việc phân tích tính ngẫu nhiên của tính dữ liệu [5]
Mô hình trung bình di động bậc q – MA(q)
2.6.1Một chuỗi dữ liệu thời gian được gọi là một quá trình trung bình di động bậc q Kí hiệu MA(q) nếu mỗi giá trị quan sát yt có thể được viết lại theo công thức sau :
Với: là một quá trình nhiễu trắng với trung bình bằng 0, phương sai là hằng số và tự hiệp phương sai với
: biến động ngẫu nhiên tại thời điểm i
(2.9)
Trang 27Quá trình nhiễu trắng không xảy ra thường xuyên nhưng tổng trọng số quá trình không nhiễu trắng có thể cung cấp một biểu diễn của các quá trình nhiễu trắng Vì vậy, trong MA(q) mỗi giá trị quan sát yt được sinh ra bằng cách lấy trọng số trung
bình của các biến động ngẫu nhiên ở q thời đoạn trước đó Chúng ta có thể viết lại
công thức (2.9):
Trong đó:
Là một đa thức bậc q trong B và B là toán tử trễ được sử dụng để mô tả độ trễ
trong thời gian với = Kỳ vọng của quá trình trung bình di động là độc lập với thời gian vì E[yt]= và
Mỗi được giả định sinh ra bởi cùng một quá trình nhiễu trắng vì thế [ ] và phương sai và hiệp phương sai với k ≠ 0 Từ những kết quả này, ta xác định phương sai của quá trình MA(q) như sau:
[ ] [ ]
( )
( ) (2.10) Từ phương trình (2.10), ta thấy rằng để MA(q) là một quá trình dừng thì cần phải thỏa mãn điều kiện sau:
∑ Kết quả này là tầm thường vì ta chỉ có hữu hạn các tham số θi và dĩ nhiên tổng
của chúng là hữu hạn Tuy nhiên, giả thuyết về số lượng cố định các tham số θi có
Trang 28(2.11) thể được xem xét để có thể xấp xỉ cho mô hình tổng quát hơn Một mô hình đầy đủ của hầu hết các quá trình ngẫu nhiên yêu cầu vô hạn các số hạng cho tất cả các độ
trễ, do đó đối với quá trình MA( ), ta cũng phải cần có tổng ∑ hội tụ để đảm bảo tính tĩnh cho quá trình MA
Sự hội tụ sẽ thường xảy ra nếu như các tham số càng nhỏ khi càng lớn Điều này cũng ngụ ý rằng nếu quá trình là tĩnh thì các hệ số tự tương quan càng nhỏ khi càng lớn
Hàm tự tương quan của một quá trình MA được xác định như sau:
Mô hình tự hồi quy bậc p, AR(p)
2.6.2Mô hình tự hồi quy bậc p là mô hình có dạng
Trong đó:
- là hằng số - là một quá trình nhiễu trắng với trung bình E[t] = 0,
phương sai và tự hiệp phương sai với - là các trọng số được ước lượng thể hiện sự ảnh hưởng của các giá trị lên
Trang 29(2.15) (2.15) (2.121) Ta có phương trình tự hiệp phương sai của (2.10) là:
Với k > p thì:
Chia hai vế của hệ (2.13) cho , ta dẫn ra được p phương trình mà ta có thể xác định p giá trị của ACF:
Với k > p ta suy ra từ phương trình (2.15): 6 Hệ phương trình (2.16) được gọi là hệ phương trình Yule-Walker Ta trình bày hệ phương trình này dưới dạng sau:
[
] [ ] [ ]
(2.13)
(2.14)
Trang 30Nếu biết , , …, thì ta sẽ giải hệ để xác định , , …, Tuy nhiên, ta
không biết trước được bậc p vì thế ta bắt đầu với giả thiết rằng p = 1, hệ (2.15) sẽ
trở thành hoặc sử dụng tự tương quan mẫu ̂ ̂ Do vậy, nếu giá trị tính toán được ̂ khác 0 đáng kể thì ta biết rằng quá trình AR có bậc ít nhất bằng 1 Ta ký hiệu giá trị ̂ là
Tiếp tục xét giả thiết p = 2 và giải hệ (2.15) với trường hợp p = 2 sẽ cho ta tập
các giá trị mới được ước lượng ̂ và ̂ Nếu ̂ khác 0 đáng kể thì ta biết rằng quá trình AR có bậc ít nhất bằng 2, trong khi nếu như ̂ xấp xỉ 0 thì ta kết luận
rằng p = 1 Ta ký hiệu giá trị ̂ là
Ta lặp lại quá trình này cho các giá trị p kế tiếp Với p = 3, ta đạt được ước
lượng ̂ , và ký hiệu là , … Ta gọi chuỗi là PACF và từ chuỗi này ta
có thể phỏng đoán bậc của quá trình tự hồi qui Đối với mô hình AR(p) thì dễ thấy
với k > p Do đó ta nói rằng PACF của mô hình AR(p) bằng không sau độ trễ p
Trong thực tế các hệ số tự tương quan riêng phần của mẫu có thể không bằng
không sau độ trễ p do sai biệt khi lấy mẫu Tuy nhiên, ta có thể kết luận hệ số tự
tương quan riêng phần bằng không ở mức ý nghĩa 5% nếu nó nằm trong khoảng √ , với là kích thước mẫu
Mô hình kết hợp tự hồi quy và trung bình di động, ARMA(p,q)
2.6.3Trong thực tế, nhiều quá trình ngẫu nhiên tĩnh ta không thể chỉ sử dụng mô hình trung bình di động hoặc tự hồi qui thuần túy vì chúng có đặc điểm của cả hai quá trình này Có nghĩa là giá trị biến dự báo không những phụ thuộc tuyến tính các giá trị trong quá khứ (tính chất của mô hình tự hồi quy) mà còn phụ thuộc vào các giá trị lỗi trong quá khứ (tính chất mô hình trung bình di động) Do đó ta sử dụng cùng
cả hai mô hình AR(p) và MA(q) để mô tả cho các quá trình ngẫu nhiên này tạo ra
mô hình pha trộn tự hồi qui – trung bình di động bậc (p,q) Ký hiệu là ARMA(p,q)
và được biểu diễn như sau:
Trang 31
Ý nghĩa của các ký hiệu giống như trong mô hình AR(p) và MA(q)
Mô hình ARMA(p,q) có chứa đựng mô hình AR(p) và MA(q) nên hàm tự tương
quan và hàm tự tương quan riêng phần của nó thể hiện cả hành vi của mô hình
AR(p) và của mô hình MA(q) Tức là hàm tự tương quan riêng phần và hàm tự
tương quan giảm dần về không
Mô hình tự hồi quy tích hợp với mô hình t ung bình di động,
2.6.4
ARIMA(p,d,q)
Mô hình ARMA(p,q) làm việc tốt với các dữ liệu tĩnh, tức là không có thành
phần xu hướng (trend) Nhưng trong thực tế dữ liệu thường có một xu hướng đi lên hay đi xuống nào đó, đặc biệt với các chuỗi thời gian trong kinh tế
Đối với các chuỗi thời gian có xu hướng tuyến tính ta cần chuyển nó thành tĩnh tuyến tính rồi mới áp dụng mô hình ARMA Một trong những cách chuyển một chuỗi thời gian có xu hướng về chuỗi thời gian tĩnh là phương pháp lấy hiệu Do đó
người ta đưa thêm một hệ số d vào mô hình ARMA(p,q) để tạo thành mô hình ARIMA(p,d,q), với d là số lần lấy hiệu để chuỗi thời gian trở thành chuỗi tĩnh Khi
d bằng không thì mô hình ARIMA(p,d,q) trở thành mô hình ARMA(p,q) Mô hình
ARIMA có thể làm việc tốt với dữ liệu tĩnh lẫn dữ liệu có xu hướng tuyến tính
Dạng toán học của mô hình ARIMA(p,d,q) là
Ý nghĩa của các ký hiệu giống như mô hình AR(p) và MA(q)
Mô hình ARIMA có tính mùa (SARIMA)
2.6.5Mô hình ARIMA có thể làm việc tốt với dữ liệu có xu hướng tuyến tính nhưng vẫn chưa xử lý tốt các chuỗi thời gian có tính mùa, tức là chuỗi thời gian có những thành phần thể hiện sự biến đổi lặp đi lặp lại tại từng thời điểm cố định theo từng
năm Do đó người ta đưa vào bốn hệ số P,D,Q,s vào mô hình ARIMA(p,d,q) để tạo thành mô hình ARIMA(p,d,q)×(P,D,Q)s Ở đây s chính là thời điểm mà thành phần mùa sẽ lặp lại, nếu dữ liệu được quan sát theo tháng thì s = 12, nếu dữ liệu quan sát
(2.17)
Trang 32theo quý thì s = 4 Mô hình ARIMA cho dữ liệu có tính mùa đôi khi còn được gọi
mô hình SARIMA
Dạng toán học của mô hình ARIMA(p,d,q)×(P,D,Q)s là
Với
Việc xác định các thông số P, D, Q tương tự như việc xác định các hệ số p, d, q
thông thường chỉ khác ở chỗ các dấu hiệu của hàm tự tương quan và hàm tự tương
quan riêng phần khác thể hiện theo các độ trễ là bội của s
Dự báo t ng ôi t ường trực tuyến
2.7Chúng ta đã biết dữ liệu trong môi trường trực tuyến thì luôn thay đổi và tăng dần theo thời gian Để dự báo trực tuyến (online prediction) được hiệu quả ta phải xem xét các dữ liệu thay đổi, theo dõi và thích ứng với những thay đổi đó Nếu chúng ta dùng một mô hình đã được xây dựng từ tập dữ liệu trong quá khứ và dùng mô hình này để dự báo cho tất cả các dữ liệu trong tương lai thì chắc chắn dự báo của chúng ta sẽ không còn chính xác vì mô hình này đã không còn nắm bắt được xu thế mới của dữ liệu Ngược lại nếu như chúng ta lưu tất cả dữ liệu – dữ liệu mới thì thêm vào, thì chúng ta sẽ gặp khó khăn trong việc lưu trữ và mất thời gian xây dựng lại mô hình mới dựa trên tập dữ liệu này Do đó, việc lưu trữ dữ liệu như thế nào và khi nào cần xây dựng lại mô hình là vấn đề mà chúng ta cần quan tâm
Khi dữ liệu mới đến sẽ được so sánh với dữ liệu mà chúng ta dự báo bằng mô hình ARIMA và để đảm bảo thời gian đáp ứng cho người dùng chúng ta sẽ loại bỏ dữ liệu cũ nhất và thay bằng những dữ liệu mới này Nếu kết quả dự báo tốt thì chúng ta sẽ dự báo cho dữ liệu tiếp theo Ngược lại ta sẽ xây dựng lại mô hình dựa trên dữ liệu mà chúng ta lưu trong bộ đệm
Trang 33Trong luận văn này, chúng tôi sử dụng một bộ đệm (buffer) thực hiện theo cơ
chế xoay vòng (round robin buffer) để giả lập dữ liệu chuỗi thời gian trực tuyến và
sai số phần trăm trung bình tuyệt đối MAPE được sử dụng làm ngưỡng
Hình 2 5 Cơ chế hoạt động của bộ đệm xoay vòng Kết luận
2.8Trong thực tế, chuỗi dữ liệu thời gian rất đa dạng và phức tạp, chuỗi dữ liệu có thể có tính mùa, xu hướng, bất thường, chu trình hoặc cả bốn tính chất trên, ngoài ra dữ liệu còn thay đổi tính chất và tăng dần theo thời gian do đó việc dự báo chính xác chuỗi thời gian là rất khó khăn Chúng ta đã biết mô hình SARIMA có thể dự báo tốt đối với chuỗi thời gian có các tính chất trên nên chương 3 luận văn sẽ tập trung trình bày về công trình tự động hóa xây dựng mô hình ARIMA để dự báo dữ liệu chuỗi thời gian
Trang 34CÁC CÔNG TRÌNH LIÊN QUAN CHƯƠNG 3:
Nội dung của chương này trình bày về công trình tự động xây dựng mô hình ARIMA để dự báo chuỗi thời gian của Nancy Ngoc Tran cũng như phương pháp làm trơn hàm mũ Winters và công trình kết hợp mạng Neural nhân tạo với mô hình SARIMA để dự báo
Tự động xây dựng ô hình RIM để dự báo
3.1Để tự động hóa quá trình xây dựng mô hình ARIMA, theo Nancy Ngoc Tran [9], cấu trúc của mô hình dự báo SARIMA gồm 4 thành phần chính:
Thành phần nhận dạng mô hình (Model identification): liên quan đến việc xác định cấu trúc mô hình, số lượng các dữ liệu quan sát và nhiễu trong quá khứ mà có tương quan mạnh với các dữ liệu hiện tại Hàm tự tương quan sẽ được dùng như một công cụ chính để bộc lộ sự phụ thuộc và cung cấp nhận dạng các mô hình khi vẽ đồ thị Một phương pháp phổ biến để ước tính một mô hình cấu trúc là kiểm tra số lượng biến động mạnh có ý nghĩa thống kê trong đồ thị Thành phần này nhận dạng được mô hình một cách tự động bằng cách phân tích hệ số tự tương quan và hệ số tự tương quan riêng phần theo các độ trễ khác nhau Do đó sẽ tránh được việc phải dựa vào các đồ thị dữ liệu để xác định mô hình
Thành phần ước lượng tham số (Parameter estimator): tự động ước lượng tham số của mô hình bằng giải thuật tối thiểu sai số đệ quy Giải thuật này sử dụng ưu điểm của đệ quy để giảm chi phí tính toán và kỹ thuật tối thiểu lỗi để tối thiểu tổng bình phương các ước lượng lỗi Giải thuật này có hai giả định là: mô hình phải tuyến tính với các tham số và chuỗi lỗi phải có phân phối tự nhiên với giá trị trung bình là 0 và phương sai không đổi Nếu hai giả định này không bị vi phạm thì mô hình ước lượng tham số tương đối chính xác
Thành phần khử mùa và xu hướng (Recursive differencer/integrator): dùng để chuyển đổi các chuỗi dữ liệu không tĩnh hoặc có tính mùa sang chuỗi dữ liệu tĩnh trước khi áp dụng các giải thuật để ước lượng các tham số cho mô hình Việc chuyển đổi được thực hiện bằng phương pháp lấy hiệu Mô hình ARIMA chỉ phù hợp với chuỗi dữ liệu tĩnh, nên ta phải khử mùa và xu hướng các thành phần bị loại
Trang 35bỏ khỏi chuỗi dữ liệu trong quá trình chuyển đổi phải được tích hợp lại vào dữ liệu khi dự báo
Thành phần dự báo nhiều thời đoạn (N-step ahead predictor): tạo giá trị dự báo cho các giai đoạn tiếp theo dựa vào mô hình đã ước lượng được
Hình 3.1 sẽ mô tả cấu trúc của mô hình dự báo SARIMA
Hình 3 1 Các thành phần của mô hình SARIMA Thành phần nhận dạng mô hình
3.1.1 Nhận dạng mô hình là cần thiết và quan trọng vì nhận dạng đúng mô hình sẽ giúp chúng ta dự báo được chính xác Nhận dạng mô hình là khâu đầu tiên trong quá
trình mô hình hóa SARIMA Chúng ta cần phải xác định các tham số p, d, q và P,
Q, D, s của mô hình SARIMA Những giá trị này được suy ra bằng cách trích rút
những hệ số tương quan có ý nghĩa trong chuỗi dữ liệu quan sát được Kỹ thuật truyền thống dùng để nhận dạng mô hình là quan sát đồ thị và trích rút các hệ số từ đồ thị Tuy nhiên, phương pháp này có nhược điểm là phụ thuộc vào độ hiểu biết và
Trang 36khả năng phân tích đồ thị của người dự báo Do đó cần phải tìm ra một phương pháp tự động, sử dụng các công thức toán học để trích rút ra các hệ số
ARIMA sử dụng tính chất của ACF và PACF để kết hợp một chuỗi dữ liệu
với một mô hình thích hợp: mô hình tự hồi quy AR(p), mô hình trung bình di động MA(q), mô hình kết hợp tự hồi quy và trung bình di động ARMA(p,q) Bảng 3.1
tóm tắt các thuộc tính quan trọng để hỗ trợ phân biệt các mô hình khác nhau Tính chất của các hàm tương quan được chia ra làm 3 loại: giảm gián đoạn (abrupt decay), giảm theo hình sin hoặc hàm mũ, giảm chậm Tùy theo tính chất của ACF và PACF mà chuỗi dữ liệu được kết hợp với 1 mô hình khác nhau
o Mô hình trung bình di động MA(q): ACF gián đoạn về không sau một
vài độ trễ, trong khi đó PACF với các độ trễ giảm về không theo hình sin hoặc theo hàm mũ
o Mô hình tự hồi quy AR(p): quá trình có ACF với các độ trễ giảm về
không theo hình sin hoặc theo hàm mũ, trong khi đó PACF gián đoạn về không sau một vài độ trễ
o Mô hình kết hợp tự hồi quy và trung bình di động ARMA(p,q): quá
trình có ACF và PACF giảm về không theo hình sin hoặc theo hàm mũ Nếu ACF giảm chậm thì chuỗi dữ liệu không tĩnh, có tính xu hướng chúng ta cần phải chuyển đổi trước khi ước lượng
AR(p) Giảm vể không theo
Bảng 3 1 Tính chất của ACF và PACF
Các khái niệm cơ bản lấy hiệu Có nhiều kỹ thuật được sử dụng để chuyển đổi chuỗi dữ liệu có tính xu hướng và mùa thành chuỗi dữ liệu có tính dừng Trong đó, lấy hiệu thường được
Trang 37sử dụng chuyển đổi cho chuỗi thời gian có phương sai ổn định, nhằm ổn định trung bình của chuỗi dữ liệu không có tính dừng và có tính mùa Nancy đề xuất khoảng lấy hiệu để phân biệt hai loại lấy hiệu khác nhau trong mô hình SARIMA
Lấy hiệu thường (regularly differenced) d lần cho chuỗi không dừng và
không có tính mùa Khoảng lấy hiệu là một Chúng ta quan sát liên tiếp dữ liệu chuỗi gốc được trừ để biến đổi thành chuỗi mới d(t)= y(t) - y(t-1) Ví dụ chúng ta có chuỗi dữ liệu có tính không dừng sau:
70.3, 100.5, 130.2, 160.7, 190.5, 220.2, 250.4 Sau một lần lấy hiệu thì chuỗi dữ liệu trên đã được chuyển đổi thành chuỗi
dữ liệu có tính dừng dao động xung quanh mức trung bình là 30 => d=1
100.5 130.2 160.7 189.5 220.2 250.4 - 70.3 100.5 130.2 160.7 189.5 220.2 30.2 29.7 30.5 28.8 30.7 30.2
Nếu chuỗi dữ liệu đã lấy hiệu một lần mà chưa có tính dừng thì ta lại tiếp tục
lấy hiệu cho đến khi chuỗi dữ liệu có tính dừng và số lần lấy hiệu chính là d mà
ta cần xác định
Lấy hiệu mùa s cho dữ liệu có tính mùa: Khoảng lấy hiệu s thì lớn hơn 1
Mỗi phần tử D(t) trong chuỗi dữ liệu được chuyển đổi là hiệu giữa các cặp quan
sát tách biệt nhau một khoảng s là chiều dài của mùa D(t) = y(t)- y(t-s) Ví dụ, ta
xét hình 3.2 mỗi vòng tròn tách biệt nhau 5 phần tử (50; 53.1; 56.4) phác họa một mùa Lấy hiệu giữa các điểm dữ liệu tách biệt nhau với chiều dài mùa là 5 ta được chuỗi dữ liệu có tính dừng dao động xung quanh trung bình là 3:
6.3 9.7 12.3 15.1 53.1 9.4 12.5 15.5 18.2 56.4
- 3.2 6.3 9.5 12.1 50.0 6.3 9.7 12.3 15.1 53.1
3.1 3.4 2.8 3.0 3.1 3.1 2.8 3.2 3.1 3.3
Trang 38Hình 3 2 Lấy hiệu của chuỗi dữ liệu có tính mùa
Trong hai ví dụ ở trên, chúng ta chỉ cần lấy hiệu một lần cho toàn bộ dữ liệu để ổn định trung bình của chuỗi dữ liệu đó Tuy nhiên, có rất nhiều chuỗi dữ liệu không dừng và mùa khác cần phải được lấy hiệu hơn một lần để đạt được tính dừng
Chúng tôi sẽ minh họa một chuỗi thời gian phức tạp hơn yêu cầu phải có hai cấp lấy hiệu để chuyển đổi Hình 3.3 chỉ ra các bước thực hiện lấy hiệu Chuỗi dữ liệu đầu tiên không có tính dừng, đặc điểm là chuỗi tăng dần với các đỉnh nhọn (spikes) mùa tách biệt nhau với một khoảng có chiều dài là 5- được chỉ rõ bởi các điểm khoanh tròn
Hai mức độ lấy hiệu được thực hiện: một lần lấy d và một lần lấy s Sau khi lấy hiệu d (với d=1) thì chuỗi dữ liệu được chuyển đổi (dòng thứ hai trong hình
3.3) vẫn còn chứa các thành phần theo mùa (9:8; 10:2; 10:4) mặc dù dữ liệu khác bên trong mùa (1:3; 1:2; 0:9; 1:0 || 1:2; 1:1; 1:0;1:3; || ) đạt trạng thái cân bằng Do đó, lấy hiệu mùa với một khoảng chiều dài bằng 5 là cần thiết Sau lần chuyển đổi thứ hai, ta được chuỗi dữ liệu có tính dừng dao động xung quanh trung bình 0.1
Trang 39Hình 3 3 Hai cấp lấy hiệu
Tự động hóa phân tích hệ số tự tương quan Quy trình nhận dạng mô hình đã được mô tả là một quá trình trực quan tốn nhiều công sức, nó cần phải được tự động để phục vụ cho một loạt các ứng dụng Mục tiêu của chúng ta là cho phép tự động phát hiện cấu trúc tương quan mà không đòi hỏi kiến thức chuyên sâu về phân tích tương quan Phương pháp của Nancy để tự động: a) xác định các mối tương quan đáng kể trong hàm tự tương quan bằng cách sử dụng các khoảng thống kê tin cậy, b) rút trích các mẫu dữ liệu từ các mối tương quan này
a) xác định các mối tương quan đáng kể Trực giác, dữ liệu ở gần nhau nhiều khả năng sẽ phụ thuộc nhau hơn là các dữ liệu ở xa nhau ngoại trừ các dữ liệu mùa Kết quả là hàm tự tương quan và hàm tự tương quan riêng phần của chuỗi dữ liệu tĩnh sẽ giảm về không tại độ trễ lớn Bartlett phát triển một công thức để ước tính độ lệch chuẩn của ACF và PACF cho các độ trễ khác nhau của chuỗi dữ liệu có tính dừng kích thước N
̂[ ] √ ( ∑
) √ (3.1)
Trang 40̂[ ] √ (3.2) Công thức 3.1 ước lượng độ lệch chuẩn của ACF tại độ trễ k, liên quan đến tất cả ước lượng tự tương quan trước đây Giá trị của nó cuối cùng hội tụ khi hàm tự tương quan nhỏ dần tại độ trễ lớn Ngược lại, độ lệch chuẩn được ước tính trong công thức 3.2 là không đổi và tỷ lệ nghịch với kích thước của chuỗi Tự động tách các tương quan đáng kể bằng cách chọn những giá trị nào vượt quá khoảng tin cậy (95%) của ACF và PACF
Vị trí tần xuất cao 0 1 2 8 10 20 30 40 50 60 68 70 80 90 Khoảng cách mức
o Kiểm tra khoảng cách mức 1: Chúng ta tính toán khoảng cách giữa các vị trí có tần số cao liên tiếp nhau Nếu khoảng cách nào xuất hiện nhiều lần thì khoảng cách đó sẽ được chọn là chiều dài mùa theo nguyên tắc số đông Bảng 3.2 là một danh sách tự động phát hiện 14 vị trí có tần số cao trong ACF với khoảng tin cậy 98%
Hình 3.4 thể hiện ACF dựa trên chuỗi dữ liệu đã được tính toán lấy hiệu từ chuỗi dữ liệu gốc có chiều dài là 700 Chúng ta có thể thấy có 7 lần xuất hiện khoảng cách mức 1 với chiều dài là 10, chiều dài 2 xuất hiện 2 lần, chiều dài 6 và 8 đều xuất hiện 1 lần Tất cả các khoảng cách có độ dài 1 được bỏ qua Do đó khoảng cách có chiều dài 10 được chọn làm chiều dài của mùa
Tuy nhiên nếu kiểm tra thất bại chúng ta có thể đến với kiểm tra kế tiếp