ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TRẦN THỊ THANH HUYỀN PHÁT HIỆN TRI THỨC TỪ CƠ SỞ DỮ LIỆU CHUỖI THỜI GIAN LUẬN VĂN THẠC SĨ Người hướng dẫn: TS Đỗ Văn Thành Hà Nội - 2005 z MỘT SỐ KÍ HIỆU VIẾT TẮT AC:tự tương quan ACF: hàm tự tương quan - Autocorrelation Function ARIMA: Autoregressive Integrated Moving Average CSDL: sở liệu PAC: tự tương quan riêng PACF: hàm tự tương quan riờng- Partial Autocorrelation Function z Mục lục Trang Mở đầu Ch-ơng I - Mô hình ARIMA 1.1 Kh¸i niệm 1.1.1 Chuỗi thời gian 1.1.2 C¸c tÝnh chất chuỗi 1.1.3 Chuỗi ngẫu nhiên túy 1.1.4 Chuỗi thời gian dừng 1.1.5 Một số vấn đề dự báo 1.1.6 Các công cụ để dù b¸o 1.1.7 Dự báo chuỗi thời gian dừng 14 1.2 Mô hình ARIMA 16 1.2.1 Quá trình tự hồi quy (AR) 17 1.2.2 Quá trình trung bình tr-ợt (MA) 18 1.2.3 Quá trình tự hồi quy trung bình tr-ợt ARMA (p,q) 19 1.2.4 Sai ph©n 20 1.2.5 Các b-ớc phát triển mô hình ARIMA 22 Ch-ơng - Giới thiệu EVIEWS - Phần mềm phân tích dự báo liệu 31 2.1 Giíi thiƯu chung 31 2.2 Các khái niệm b¶n EVIEWS 33 2.2.1 Dữ liệu File 33 2.2.2 Đối t-ợng 35 2.2.3 Kh¶o sát liệu 36 2.2.4 Làm việc với liệu 36 2.2.5 Hàm chuỗi 38 2.3 Xử lí chuỗi 38 2.3.1 T¹o biÕn mới, độ sớm, đỗ trễ sai phân 38 2.3.2 Xây dựng t-ơng quan đồ EVIEWS 40 2.3.3 Kiểm định nghiệm đơn vị 41 2.3.4 Kiểm định tính t-ơng quan chuỗi 41 z 2.3.5 Đặc tả ph-ơng trình EVIEWS 42 2.4 Ước l-ợng ph-ơng trình 44 2.4.1 Các ph-ơng pháp -ớc l-ợng 44 2.4.2 MÉu -íc l-ỵng 44 2.4.3 Ước l-ợng mô hình ARIMA 45 2.4.4 Làm việc với phát triển 46 2.5 Ph-ơng trình kết qu¶ 46 2.5.1 KÕt qu¶ hƯ sè 47 2.5.2 Kết tổng hợp 48 2.6 Kiểm định phần d- 51 2.6.1 T-ơng quan đồ thèng kª Q 51 2.6.2 Kiểm định tính t-ơng quan chuỗi LM 51 2.7 Đánh giá chuẩn đoán 52 2.8 Dù b¸o từ ph-ơng trình -ớc l-ợng 52 2.8.1 Thđ tơc dù b¸o 52 2.8.2 Ph-ơng pháp dù b¸o 53 2.8.3 TÝnh to¸n dù b¸o 53 2.8.4 Sai số ph-ơng trình dự báo 54 2.8.5 Đánh giá dự báo 54 Ch-ơng - áp dụng EVIEWS mô hình ARIMA giải toán dự báo giá số mặt hàng thực phẩm 58 3.1 Bài to¸n 58 3.2 Các b-ớc tiến hành để dự b¸o 62 3.3 Tiến hành dự báo 65 3.3.1 Dù b¸o gi¸ Võng 65 3.3.2 Dù b¸o gi¸ C¸ 72 3.3.3 Dự báo giá Vịt 78 3.3.4 Dù b¸o gi¸ Thãc 84 3.3.5 Dự báo giá Đỗ 89 KÕt luËn 95 Tài liệu tham khảo 97 Phô lôc z Trần Thị Thanh Huyền Luận văn thạc sĩ MỞ ĐẦU Phát tri thức từ CSDL lớn, đặc biệt sở liệu phụ thuộc thời gian hướng nghiên cứu ứng dụng quan trọng CNTT Hiện người ta xõy dựng hỡnh thành nhiều phương pháp kỹ thuật phát tri thức từ CSDL không phụ thuộc vào yếu tố thời gian, CSDL phụ thuộc yếu tố thời gian thỡ cỏc phương pháp kỹ thuật cũn nhiều hạn chế CSDL phụ thuộc yếu tố thời gian chia làm loại: CSDL chuỗi thời gian (time series Database) CSDL chuỗi( sequency Database) CSDL chuỗi bao gồm chuỗi kiện thứ tự khơng cần đũi hỏi khỏi niệm cụ thể thời gian Một CSDL chuỗi thời gian CSDL chuỗi ngược lại không Dự báo liệu liên quan đến CSDL chuỗi thời gian tốn quan trọng mang lại nhiều lợi ích thiết thực, giúp người nắm bắt quy luật vận động tự nhiên đời sống kinh tế xó hội, giỳp cỏc nhà kinh tế, doanh nghiệp tiờn đoán cách khoa học xu hướng phát triển tương lai đại lượng, thị trường… từ hoạch định sách phương hướng đầu tư cách đắn Những toán cần dự báo KT-XH từ CSDL chuỗi thời gian là:[26] Dự bỏo kinh tế tài chớnh Dự báo sử dụng lượng Dự bỏo bỏn hàng Phõn tớch ngõn sỏch Phân tích thị trường chứng khốn Cỏc dự ỏn sản xuất Nghiờn cứu tồn kho hàng húa Nghiờn cứu phỳc lợi Phân tích điều tra dân số Dự báo tượng thiên nhiên Chương 1: Mô hỡnh ARIMA z Trần Thị Thanh Huyền Luận văn thạc sĩ …… Hiện cú nhiều kỹ thuật nhằm phỏt tri thức từ CSDL chuỗi thời gian dựa trờn việc sử dụng cỏc phương phỏp thống kờ, mạng nơron, cõy định (dicision tree), phỏt luật kết hợp (mining association rules), phỏt liệu đa quan hệ (mining multi-relation data), Hiện cú nhiều sản phẩm phần mềm hỗ trợ việc Phỏt tri thức, phõn tớch dự bỏo liệu từ cỏc CSDL chuỗi thời gian dựa trờn cỏc phương phỏp trờn, đú nhiều sản phẩm phần mềm dựa trờn cỏc phương phỏp thống kờ thương mại hoỏ sử dụng rộng rói việc phõn tớch, dự bỏo cỏc liệu thống kờ kinh tế xó hội SAS, SPSS, EVIEWS, Điểm chung cỏc phần mềm hỗ trợ phõn tớch, dự bỏo dựa vào mụ hỡnh phõn tớch ARIMA (Autoregressive Integrated Moving Average) để phõn tớch dự bỏo Mục đớch luận văn nhằm trỡnh bầy cỏch hệ thống kỹ thuật Phỏt tri thức từ cỏc CSDL chuỗi thời gian việc sử dụng cỏc phương pháp thống kê Cụ thể luận văn tập trung giới thiệu vấn đề chủ yếu mụ hỡnh phõn tớch dự bỏo ARIMA, phần mềm phõn tớch dự bỏo kinh tế dựa trờn mụ hỡnh đú EVIEWS thử nghiệm ứng dụng mụ hỡnh phần mềm nờu việc dự bỏo giỏ số mặt hàng thực tế Việt Nam thời gian gần đõy Luận văn gồm: 98 trang kể phần mở đầu, chương nội dung, phần kết luận tài liệu tham khảo Chương 1: Mụ hỡnh ARIMA: từ trang đến trang 30 tập trung giới thiệu thành phần mô hỡnh ARIMA, cỏc tiến trỡnh để xây dựng mô hỡnh ARIMA (khụng cú tớnh vụ) Chương 2: Giới thiệu EVIEWS - Phần mềm phõn tớch dự bỏo liệu:từ trang 31 trang 57 thể hiển cách khảo sát, xử lý liệu chuỗi thời gian để tiến hành dự bỏo chuỗi cỏc hạng thức ARIMA Chương 3: Ứng dụng EVIEWS mụ hỡnh ARIMA giải toỏn dự bỏo giỏ số mặt hàng: từ trang 58 đến trang 96 Bằng kết hợp Chương 1: Mô hỡnh ARIMA z Trần Thị Thanh Huyền Luận văn thạc sĩ tính EViews kiến thức thiết lập mô hỡnh dự bỏo liờn quan đến thành phần ARIMA, mặt hàng cụ thể tiến hành dự báo giá là: thóc, cá, vịt, vừng, đỗ thị trường thành phố Nam Định cho tháng sở số liệu thực theo dừi từ tháng 01 năm 1999 đến tháng 10 năm 2004 Chương 1: Mô hỡnh ARIMA z Trần Thị Thanh Huyền Luận văn thạc sĩ CHƯƠNG Mễ HèNH ARIMA 1.1 Khái niệm 1.1.1 Chuỗi thời gian Chuỗi thời gian tập cỏc số ghi lại cỏc hoạt động đo khoảng thời gian với hoạt động phương pháp đo cố định.[29] Vớ dụ: Nhiệt độ Hà nội vào thời điểm t1, t2,…, tT Số lượng tội phạm thành phố Hồ Chí Minh ngày t1, t2,…, t T Lương thực xuất Việt Nam năm t1, t2,…, t T 1.1.2 Cỏc tớnh chất chuỗi [30] + Tính thời đoạn: tập liệu đo các điểm thời gian khác Đơn vị phân tích thời đoạn: hàng ngày, hàng tuần, hàng tháng, hàng năm… + Tớnh vụ: hành vi cú tớnh chu kỳ chuỗi thời gian sở năm lịch Chuỗi thể tính mùa vụ thơng thường có xu hướng nhắc lại khoảng thời gian theo mùa đặn + Tớnh dừng: Là chuỗi mà liệu biến thiờn quanh giỏ trị trung bỡnh hay mức khụng đổi + Tớnh xu thế: Tính xu thể liệu tăng giảm + Tính chu kỳ: Chuỗi liệu thể dạng hàm lượng giác: sin, cosin Chương 1: Mô hỡnh ARIMA z Trần Thị Thanh Huyền Luận văn thạc sĩ 1.1.3 Chuỗi ngẫu nhiờn tỳy [36] Là chuỗi liệu ban đầu xu hướng lẫn theo mùa phần dư xấp xỉ giá trị với mức tin cậy 95% Các giá trị phần dư thể không theo mẫu 1.1.4 Chuỗi thời gian dừng [21][35] Một quỏ trỡnh ngẫu nhiờn zt xem dừng trung bỡnh phương sai trỡnh khụng thay đổi theo thời gian giá trị hiệp phương sai hai thời đoạn phụ thuộc vào khoảng cách hay độ trễ thời gian hai thời đoạn không phụ thuộc vào thời điểm thực tế mà hiệp phương sai tính Cụ thể: ã Trung bỡnh: E(z t ) = · Phương sai: Var (z t ) = = const = const ã Hiệp phương sai: Covar (z t , zt-k ) = gk Tớnh dừng chuỗi thời gian cú thể nhận biết dựa đồ thị chuỗi thời gian, đồ thị hàm tự tương quan mẫu hay kiểm định DickeyFuller 1.1.5 Một số vấn đề dự báo 1.1.5.1 Khỏi niệm dự bỏo [2][22][29] Dự báo ước lượng giá trị tương lai z t+h, h biến ngẫu nhiờn dựa trờn cỏc quan sỏt cỏc giỏ trị quỏ khứ nú z 1, z2,…, zt Dự bỏo zt+h thường ký hiệu zˆ t (h) Chất lượng dự báo phụ thuộc vào nhiều yếu tố Trước hết phụ thuộc vào xu hướng phát triển chuỗi thời gian Nếu chuỗi thời gian hàm "đều đặn" Chương 1: Mô hỡnh ARIMA z Trần Thị Thanh Huyền Luận văn thạc sĩ theo thời gian thỡ dễ dự bỏo Vớ dụ tiến trỡnh phỏt triển kinh tế khụng cú biến động đặc biệt thỡ dễ dàng dự bỏo tổng sản phẩm quốc nội (GDP) cho năm sau Cho đến nay, phương pháp dự báo chuỗi thời gian chưa cho phép dự báo giá trị đột biến Chất lượng dự báo chuỗi thời gian cũn phụ thuộc vào xa gần thời gian Dự bỏo cỏc giỏ trị gần xác Như việc ước lượng GDP cho năm sau xác việc ước lượng GDP cho 10 năm sau Ngoài phương pháp ước lượng đóng vai trũ quan trọng Nếu chỳng ta sử dụng phương pháp dự báo tốt thỡ giỏ trị dự bỏo chớnh xỏc 1.1.5.2 Phõn loại cỏc kiểu dự bỏo 1.1.5.2.1 Dự bỏo ngắn hạn Dự bỏo dự bỏo cho khoảng thời gian thời kỳ (thớ dụ: thỏng quý) Dự bỏo ngắn hạn thường sử dụng cho kế hoạch cung cấp thiết bị kỳ Dự báo đũi hỏi thơng ti n xác có xét tới điều kiện kinh tế, khả ngân sách, đơn yêu cầu cũn chưa thực 1.1.5.2.2 Dự bỏo trung hạn Một kế hoạch lắp đặt bổ sung dùng cho thiết bị (tổng đài thiết bị truyền tin chẳng hạn) đũi hỏi dự bỏo cho khoảng thời gian từ 3-5 thời kỳ Do chỳng ta phải cú dự bỏo xa chút ta gọi dự báo trung hạn Đối với dự báo ngắn trung hạn, phương pháp chuỗi thời gian thườn g hay sử dụng Nó dùng xu hướng phát từ liệu có thời điểm làm sở cho việc đoán định giá trị tương lai (phép ngoại suy) Nhỡn từ gúc độ toàn quốc, dự báo có khả chịu ảnh hưởng điều kiện kinh doanh điều kiện kinh tế Dưới góc độ vựng thỡ nú chịu ảnh hưởng lớn kế hoạch phát triển khu vực thị có liên quan chặt chẽ với vùng 1.1.5.2.3 Dự bỏo dài hạn Chương 1: Mô hỡnh ARIMA z Trần Thị Thanh Huyền 96 Luận văn thạc sĩ Trong luận văn này, toán cụ thể có ý nghĩa trờn thực tế dự báo giá số thực phẩm hàng ngày thị trường tiến hành với kết hợp mụ hỡnh ARIMA phần mềm EViews cho kết thực nghiệm với giỏ trị dự bỏo xấp xỉ với giỏ trị trờn thực tế Sai số dự bỏo nhỏ Cần nhấn mạnh số cỏc theo dừi cho chuỗi dự bỏo luận văn chưa nhiều Nếu tập theo dừi lớn, chắn tớnh chớnh xỏc mụ hỡnh dự bỏo kết dự bỏo cao Do hạn chế mặt thời gian, luận văn đề cập đến mô hỡnh ARIMA khụng cú tớnh vụ (nonseasonal ARIMA) xử lý cỏc chuỗi thời gian khụng bị ảnh hưởng tính mùa vụ Nếu có điều kiện, nghiên cứu thêm mô hỡnh ARIMA cú tớnh vụ cỏc mụ hỡnh dự bỏo khỏc để xử lý tất chuỗi thời gian phức tạp thực tế Mặc dù vậy, ứng dụng vấn đề lý thuyết cỏc bước cần thực sử lý chuỗi để tiến hành dự báo thể luận văn hồn tồn áp dụng cho toán dự báo chuỗi thơig gian khác Người ta rằng, mụ hỡnh ARIMA mụ hỡnh đáng tin cậy có khả tốt dự báo ngắn hạn Chắc chắn luận văn cũn thiếu sút, chỳng tụi mong nhận ý kiến đóng góp nhằm hoàn thiện hiểu biết mỡnh Kết luận z Trần Thị Thanh Huyền Luận văn thạc sĩ 97 TÀI LIỆU THAM KHẢO Tiếng Việt [1] GS.TSKH.Vũ Thiếu, TS.Nguyễn Quang Dong, TS.Nguyễn Khắc Minh (2001), Kinh tế lượng, NXB Khoa học kỹ thuật [2] Nguyễn Văn Hữu, Nguyễn Hữu Dư (2003), Phõn tớch thống kờ dự bỏo, NXB Đại học Quốc Gia [3] PGS.TS.Bựi Cụng Cường, PGS.PTS.Bùi Minh Trí (1999), Giỏo trỡnh xỏc suất thống kờ ứng dụng, NXB Giao thụng vận tải [4] PTS.Nguyễn Quang Dong (1999), Bài giảng Kinh tế lượng [5] TS.Nguyễn Khắc Minh (2002), Các phương pháp phân tích dự báo kinh tế, NXB Khoa học Kỹ thuật Hà Nội [6] TS.Nguyễn Quang Dong (2002), Bài tập kinh tế lượng, NXB Khoa học Kỹ thuật [7] TS.Nguyễn Quang Dong (2002), Kinh tế lượng (Chương trỡnh nõng cao), NXB Khoa học Kỹ thuật Tiếng Anh [8] Alain HECQ (2004), Quantitative Models in Finance Department of Quantitative Economics University of Maastricht [9] Boris Kovalerchuk, Evgenii Vityaev (2001), Datamining in Finance Advances in Relational and Hybrid Method, Kluwer Acedamic Publishers, Boston/Dordrecnt/London [10] CIVE729, Time Series Analysis and Forecasting (I) [11] Cristian Nagstrup (2003), Manual Eviews 4.0 Description basic insight into Eviews Aarhus school of business [12] D.S.G.Pollock (1992), Economic Forecasting [13] Dr.Bill Hung (2004), Basic Use of Eviews [14] Eviews's 3.0 Help (User Guide) [15] G William Schwert (2004), Time Series Analysis:Autocorrelation, 585-275-2470 schwert@schwert.simon.rochester.edu [16] Gabriele Fiorentini, Christophe Planas, Alessandro Rossi (2003), Applied Time Series Applied Time Series Econometrics, European Commission, Joint Research Centre, Institute for Systems, Informatics and Safety, Applied Statistics Sector Tài liệu tham khảo z Trần Thị Thanh Huyền 98 Luận văn thạc sĩ [17] J Scott Armstrong (Updated: October 23, 2000 ), The Forecasting Dictionary, The Wharton School, University of Pennsylvania, Philadelphia PA 19104 [18] J.Penzer (2003), Time Series [19] Klaus G Troitzsch (2001), Introduction to Time Series Analysis,Universitat Koblenz Landau [20] Kurt Schmidheiny (2002), A Quick Guide to Eviews 4.0, Univesity of Bern Department of Economics [21] M.K.HABIB (2000), A modern approach to time series analysis, Department of Applied and Engineering Statistics George Mason University [22] MAT5102, Time series analysis forecasting method and applications, School of Engineering and Mathematics [23] Michael T Rosenstein and Paul R Cohen, Concepts From Time Series, Computer [24] Mr Data Star Trek (1992), Time Series Modeling ECON 175 – Prof Clar [25] Nikolinka Fertala PhD Scholar (2000), INTRODUCTION TO EVIEWS SOFTWARE [26] Paz Moral and Pilar Gozolez (2003), Univariate Time Series Modelling, MD*TECH Method and Data Technologies [27] Quantitative Microsoftware, Eviews, 2000 [28] Robert H Shumway (2003), A short course in applied time series analysis Department of Statistics University of California [29] Ronald Bewley, Time series Forecasting, UNSW, July 2000 Draft Science Department, LGRC University of Massachusetts [30] Seppo PynnÄonen (2003), ANALYSIS OF ECONOMIC TIME SERIES Analysis of Financial Time Series Nonlinear Univariate and Linear Multivariate Time Series [31] University of Wales Swansea Department of Economics ( 2002), ARIMA Modelling & Forecasting Practical, EC-M08: Economic Forecasting [32] http://oll.temple.edu/economics/notes/timeseries/Timeseri.HTM [33] http://www.duke.edu [34] http://www.itl.nist.gov/div898:ENGINEERING STATISTICS HANDBOOK [35] http://www.kinhtehoc.com [36] http://www2.chass.ncsu.edu/garson/pa765/time.htm Tài liệu tham khảo z Trần Thị Thanh Huyền Luận văn thạc sĩ PHỤ LỤC A Cách tiếp cận để thiết lập mô hỡnh BOX-JENKINS Đồ thị chuỗi No Phương sai ổn định? Chuyển đổi Yes Thu AC PAC No Trung bỡnh cú tớnh dừng? Sai phõn Yes Lựa chọn mụ hỡnh Ước lượng giỏ trị tham số Biến đổi mụ hỡnh No Phần dư không tương quan? Yes No Các tham số có nghĩa & khơng tương quan? Yes Dự bỏo Phụ lục z Trần Thị Thanh Huyền Luận văn thạc sĩ PHỤ LỤC B Quy luật nhận dạng số cỏc số hạng ARIMA 1.Quy luật nhận dạng bậc sai phõn QL1:Nếu chuỗi có tự tương quan đến độ trễ bậc cao, thỡ cú thể phải thực sai phõn với số bậc lớn QL2: Nếu tự tương quan độ trễ âm tự tương quan nhỏ không mẫu, thỡ chuỗi khụng cần đến bậc sai phân lớn Nếu tự tương quan độ trễ -0.5 nhỏ thỡ chuỗi cú thể "quỏ sai phõn" Hóy đề phũng trường hợp "quỏ phự hợp"!!!(overdifferencing) QL3: Bậc sai phân tốt thường bậc sai phân làm cho độ lệch chuẩn thấp QL4: Mụ hỡnh khụng cú bậc sai phõn thỡ chuỗi gốc cho có tính dừng Mơ hỡnh với bậc sai phõn thỡ chuỗi gốc cú xu hướng tuyến tính (xu hướng trung bỡnh số) Mụ hỡnh bậc sai phõn thỡ chuỗi gốc cú xu hướng bậc QL5: Mụ hỡnh khụng cú bậc sai phõn thường chứa hạng thức số Mô hỡnh bậc sai phõn thường không chứa hạng thức số Mô hỡnh với bậc sai phõn thỡ nờn chứa hạng thức số chuỗi có xu hướng trung bỡnh khỏc Nhận dạng số hạng thức AR MA Các tham số p q rút quan sát ACF PACF QL6: Nếu PACF chuỗi sai phân thể đỉnh nhọn bị tắt (cutoff) và/hoặc tự tương quan độ trễ dương Chẳng hạn chuỗi xuất "thiếu sai phân" không đáng kể thỡ cần bổ sung vào mụ hỡnh ớt hạng thức AR Sau độ trễ x, PACF bị tắt chứng tỏ hạng thức AR: p=x QL7: Nếu ACF chuỗi sai phân thể đỉnh nhọn bị tắt và/hoặc tự tương quan độ trễ âm, chẳng hạn chuỗi xuất "quá sai phân " không Phụ lục z Trần Thị Thanh Huyền Luận văn thạc sĩ đáng kể thỡ cần bổ sung hạng thức MA vào mụ hỡnh Sau độ trễ x, ACF bị tắt chứng tỏ hạng thức MA:q=x QL8: Nếu ACF PACF giảm chậm 0, ta sử dụng mụ hỡnh hồi quy trung bỡnh trượt ARMA(p,q) Cấp mô hỡnh tức số p q xác định cách xác định riêng rẽ cấp tự hồi quy AR(p) cấp trung bỡnh trượt MA(q).Nên bắt đầu thử mô hỡnh với số hạng thức AR MA thấp QL9: Nếu mụ hỡnh cú nghiệm đơn vị phần AR, chẳng hạn tổng hệ số AR 1, ta nên giảm số hạng thức AR tăng bậc sai phân lên QL10: Nếu mụ hỡnh cú nghiệm đơn vị phần MA, chẳng hạn tổng hệ số MA 1, ta nên giảm số hạng thức MA giảm bậc sai phân QL11: Nếu dự báo dài hạn xuất tính thất thường hay khơng ổn định, có nghiệm đơn vị hệ số AR MA Phụ lục z Trần Thị Thanh Huyền Luận văn thạc sĩ PHỤ LỤC C Ưu nhược điểm ARIMA - Ưu điểm ARIMA quy tắc ARIMA tính bao hàm tồn diện họ cỏc mụ hỡnh - Có nhiều nhược điểm ưu điểm "nặng ký" nhược điểm - Về bản, ARIMA thể ổn định khoảng 46% đến 54%.Việc định nghĩa ARIMA khó tốn nhiều thời gian Nhiều mô hỡnh khụng cú giải thớch cú cấu trỳc - ARIMA khó giải thích vấn đề khác - Việc xác định tính bị sai lệch nghiêm trọng ảnh hưởn g bên ngồi Các mơ hỡnh thể tương tự liệu gốc đưa dự báo khác hoàn toàn - Người sử dụng phải cân nhắc điều chấp nhận dùng mô hỡnh ARIMA dựa vào cỏc chiến lược xác định tự động chuyên gia thi hành ổn định theo hàm mũ thể Phụ lục z Trần Thị Thanh Huyền Luận văn thạc sĩ PHỤ LỤC D Bảng tổng kết nhận dạng số mụ hỡnh ARIMA ACF PACF (p,d,0) Giảm dạng mũ giảm hỡnh kk=0 với k>p sin (0,d,q) (1,d,1) k=0 Giảm dạng mũ giảm hỡnh sin với k>q Sau giảm dạng mũ giảm hỡnh sin (1,d,2) 1, Sau giảm dạng mũ Sau giảm dạng mũ 1, 11 Sau giảm dạng mũ giảm hỡnh sin giảm hỡnh sin (2,d,2) Sau giảm dạng mũ giảm hỡnh sin giảm hỡnh sin (2,d,1) 11 11 , 22 Sau giảm dạng mũ giảm hỡnh sin Sau giảm dạng mũ giảm hỡnh sin 11 , 22 Sau giảm dạng mũ giảm hỡnh sin Phụ lục z Trần Thị Thanh Huyền Luận văn thạc sĩ PHỤ LỤC E: CÁC BẢNG THỐNG KÊ Phụ lục z Trần Thị Thanh Huyền Luận văn thạc sĩ PHỤ LỤC A Cách tiếp cận để thiết lập mô hỡnh BOX-JENKINS Đồ thị chuỗi No Phương sai ổn định? Chuyển đổi Yes Thu AC PAC No Trung bỡnh cú tớnh dừng? Sai phõn Yes Lựa chọn mụ hỡnh Ước lượng giỏ trị tham số Biến đổi mụ hỡnh No Phần dư không tương quan? Yes No Các tham số có nghĩa & khơng tương quan? Yes Dự bỏo Phụ lục z Trần Thị Thanh Huyền Luận văn thạc sĩ PHỤ LỤC B Quy luật nhận dạng số cỏc số hạng ARIMA 1.Quy luật nhận dạng bậc sai phõn QL1:Nếu chuỗi có tự tương quan đến độ trễ bậc cao, thỡ cú thể phải thực sai phõn với số bậc lớn QL2: Nếu tự tương quan độ trễ âm tự tương quan nhỏ không mẫu, thỡ chuỗi khụng cần đến bậc sai phân lớn Nếu tự tương quan độ trễ -0.5 nhỏ thỡ chuỗi cú thể "quỏ sai phõn" Hóy đề phũng trường hợp "quỏ phự hợp"!!!(overdifferencing) QL3: Bậc sai phân tốt thường bậc sai phân làm cho độ lệch chuẩn thấp QL4: Mụ hỡnh khụng cú bậc sai phõn thỡ chuỗi gốc cho có tính dừng Mơ hỡnh với bậc sai phõn thỡ chuỗi gốc cú xu hướng tuyến tính (xu hướng trung bỡnh số) Mụ hỡnh bậc sai phõn thỡ chuỗi gốc cú xu hướng bậc QL5: Mụ hỡnh khụng cú bậc sai phõn thường chứa hạng thức số Mô hỡnh bậc sai phõn thường không chứa hạng thức số Mô hỡnh với bậc sai phõn thỡ nờn chứa hạng thức số chuỗi có xu hướng trung bỡnh khỏc Nhận dạng số hạng thức AR MA Các tham số p q rút quan sát ACF PACF QL6: Nếu PACF chuỗi sai phân thể đỉnh nhọn bị tắt (cutoff) và/hoặc tự tương quan độ trễ dương Chẳng hạn chuỗi xuất "thiếu sai phân" không đáng kể thỡ cần bổ sung vào mụ hỡnh ớt hạng thức AR Sau độ trễ x, PACF bị tắt chứng tỏ hạng thức AR: p=x QL7: Nếu ACF chuỗi sai phân thể đỉnh nhọn bị tắt và/hoặc tự tương quan độ trễ âm, chẳng hạn chuỗi xuất "quá sai phân " không Phụ lục z Trần Thị Thanh Huyền Luận văn thạc sĩ đáng kể thỡ cần bổ sung hạng thức MA vào mụ hỡnh Sau độ trễ x, ACF bị tắt chứng tỏ hạng thức MA:q=x QL8: Nếu ACF PACF giảm chậm 0, ta sử dụng mụ hỡnh hồi quy trung bỡnh trượt ARMA(p,q) Cấp mô hỡnh tức số p q xác định cách xác định riêng rẽ cấp tự hồi quy AR(p) cấp trung bỡnh trượt MA(q).Nên bắt đầu thử mô hỡnh với số hạng thức AR MA thấp QL9: Nếu mụ hỡnh cú nghiệm đơn vị phần AR, chẳng hạn tổng hệ số AR 1, ta nên giảm số hạng thức AR tăng bậc sai phân lên QL10: Nếu mụ hỡnh cú nghiệm đơn vị phần MA, chẳng hạn tổng hệ số MA 1, ta nên giảm số hạng thức MA giảm bậc sai phân QL11: Nếu dự báo dài hạn xuất tính thất thường hay khơng ổn định, có nghiệm đơn vị hệ số AR MA Phụ lục z Trần Thị Thanh Huyền Luận văn thạc sĩ PHỤ LỤC C Ưu nhược điểm ARIMA - Ưu điểm ARIMA quy tắc ARIMA tính bao hàm tồn diện họ cỏc mụ hỡnh - Có nhiều nhược điểm ưu điểm "nặng ký" nhược điểm - Về bản, ARIMA thể ổn định khoảng 46% đến 54%.Việc định nghĩa ARIMA khó tốn nhiều thời gian Nhiều mô hỡnh khụng cú giải thớch cú cấu trỳc - ARIMA khó giải thích vấn đề khác - Việc xác định tính bị sai lệch nghiêm trọng ảnh hưởn g bên ngồi Các mơ hỡnh thể tương tự liệu gốc đưa dự báo khác hoàn toàn - Người sử dụng phải cân nhắc điều chấp nhận dùng mô hỡnh ARIMA dựa vào cỏc chiến lược xác định tự động chuyên gia thi hành ổn định theo hàm mũ thể Phụ lục z Trần Thị Thanh Huyền Luận văn thạc sĩ PHỤ LỤC D Bảng tổng kết nhận dạng số mụ hỡnh ARIMA ACF PACF (p,d,0) Giảm dạng mũ giảm hỡnh kk=0 với k>p sin (0,d,q) (1,d,1) k=0 Giảm dạng mũ giảm hỡnh sin với k>q Sau giảm dạng mũ giảm hỡnh sin (1,d,2) 1, Sau giảm dạng mũ Sau giảm dạng mũ 1, 11 Sau giảm dạng mũ giảm hỡnh sin giảm hỡnh sin (2,d,2) Sau giảm dạng mũ giảm hỡnh sin giảm hỡnh sin (2,d,1) 11 11 , 22 Sau giảm dạng mũ giảm hỡnh sin Sau giảm dạng mũ giảm hỡnh sin 11 , 22 Sau giảm dạng mũ giảm hỡnh sin Phụ lục z Trần Thị Thanh Huyền Luận văn thạc sĩ PHỤ LỤC E: CÁC BẢNG THỐNG KÊ Phụ lục z ... xu hướng phát tri? ??n chuỗi thời gian Nếu chuỗi thời gian hàm "đều đặn" Chương 1: Mô hỡnh ARIMA z Trần Thị Thanh Huyền Luận văn thạc sĩ theo thời gian thỡ dễ dự bỏo Vớ dụ tiến trỡnh phỏt tri? ??n kinh... Tài liệu tham khảo 97 Phô lôc z Trần Thị Thanh Huyền Luận văn thạc sĩ MỞ ĐẦU Phát tri thức từ CSDL lớn, đặc biệt sở liệu phụ thuộc thời gian hướng nghiên cứu ứng dụng quan trọng CNTT Hiện. .. CSDL chuỗi thời gian (time series Database) CSDL chuỗi( sequency Database) CSDL chuỗi bao gồm chuỗi kiện thứ tự khơng cần đũi hỏi khỏi niệm cụ thể thời gian Một CSDL chuỗi thời gian CSDL chuỗi