Bài viết Một số vấn đề về dự báo dữ liệu chuỗi thời gian phân tích các cách tiếp cận lựa chọn mô hình và quy trình áp dụng dự báo dữ liệu chuỗi thời gian tập trung vào ứng dụng mạng nơron trong việc dự báo dữ liệu dạng này.
Kỷ yếu Hội nghị Quốc gia lần thứ VIII Nghiên cứu ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 9-10/7/2015 DOI: 10.15625/vap.2015.000182 MỘT SỐ VẤN ĐỀ VỀ DỰ BÁO DỮ LIỆU CHUỖI THỜI GIAN Trần Đức Minh (*), Trần Huy Dương (*), Vũ Đức Thi (**) (*) Phịng Cơng nghệ phần mềm quản lý, Viện CNTT, Viện Hàn lâm Khoa học Công nghệ Việt Nam (**) Viện CNTT, Đại học Quốc gia Hà Nội TÓM TẮT - Dự báo liệu chuỗi thời gian (time series prediction) toán phức tạp, bao gồm nhiều kỹ thuật áp dụng thực tế Trong báo chúng tơi phân tích cách tiếp cận lựa chọn mơ hình quy trình áp dụng dự báo liệu chuỗi thời gian tập trung vào ứng dụng mạng nơron việc dự báo liệu dạng I GIỚI THIỆU Dữ liệu chuỗi thời gian (time series) hiểu dãy vector (hoặc số thực) phụ thuộc vào thời gian: {x(t0), x(t1),…, x(ti-1), x(ti), x(ti+1), …} Trong đó, việc phân tích liệu chuỗi thời gian báo việc tìm hộp đen P, có khả tạo giá trị x(t) dựa liệu thu thập trước [2] P x(t) Trong thực tế, thấy có nhiều ví dụ liệu chuỗi thời gian như: liệu sử dụng điện thành phố, quốc gia; số lượng trẻ em sinh khoảng thời gian; liệu sử dụng băng thông nhà cung cấp dịch vụ internet,… Về chia liệu chuỗi thời gian thành hai dạng: rời rạc liên tục Các liệu rời rạc, chuỗi liệu có thời gian thu thập liệu khơng liền mạch, chẳng hạn liệu đóng cửa sàn giao dịch chứng khoán Các liệu liện tục thu thập theo khoảng thời gian liên tục, nhau, chẳng hạn liệu sử dụng băng thông nhà cung cấp dịch vụ internet Trong trường hợp liệu liên tục, t thời gian thực x(t) liệu liên tục, để lựa chọn chuỗi x(t), ta phải lấy liệu điểm rời rạc Nếu lấy mẫu đồng (uniform), giả sử thời gian lấy mẫu ∆t chuỗi thời gian biểu diễn sau: {x[t]} = {x(0), x(∆t) , x(2∆t), x(3∆t),…} Để đảm bảo x(t) nhận từ x[t], ∆t cần lựa chọn tuân theo Nyquist sampling theorem [11] Bên cạnh đó, liệu chuỗi thời gian phân loại theo dạng đơn điệu (deterministic) không đơn điệu (stochastic) hay tuyến tính phi tuyến tính,… Mạng nơron coi xấp xỉ đa năng, có khả giải tốn dự báo thực tế [1] Đặc điểm mạng nơron cho phép hoạt động liệu phi tuyến tính, không cần hiểu biết trước quan hệ liệu đầu vào Trong báo chúng tơi phân tích cách lựa chọn mơ phương pháp dự báo, tập trung vào sử dụng mạng nơron giải toán dự báo chuỗi thời gian Chúng tơi phần tích làm rõ khía cạnh thực tế áp dụng phương pháp II BÀI TOÁN DỰ BÁO CHUỖI THỜI GIAN SỬ DỤNG MẠNG NƠ RON Giả sử ta có chuỗi thời gian {x[t]), x[t-1],… } tính đến thời điểm t , nhiệm vụ dự báo giá trị x thời điểm tương lai xdb[t+s] =f(x[t], x[t−1],···) s: khoảng dự đoán (horizon of prediction) trường hợp s = 1, nghĩa ta dự báo 01 giá trị tương lai, đó, tốn rơi vào trường hợp tìm hàm xấp xỉ (function approximation) biểu diễn chuỗi thời gian, nói cách khác dự đoán giá trị tương lai từ giá trị thu thập trước chuỗi thời gian Để giải tốn dự báo chuỗi thời gian nói chung sử dụng mạng nơron nói riêng, cần thực bước tổng qt sau: Ư chọn mơ hình tổng quát Ö với x[ti] khứ, huấn luyện mơ hình với đầu vào giá trị trước đầu mong muốn, ti Ư sau huấn luyện mơ hình, chạy mơ hình với chuỗi {x[t], x[t−1],···} để thu giá trị dự đoán xdb[t+s] 468 MỘT SỐ VẤN ĐỀ VỀ DỰ BÁO DỮ LIỆU CHUỖI THỜI GIAN III MỘT SỐ MƠ HÌNH ỨNG DỤNG Trong thời điểm ban đầu, việc giải toán dự báo chuỗi thời gian, dự báo thực phương pháp làm trơn ngoại suy chuỗi liệu thời gian thơng qua việc làm khớp tồn cục (global fit) miền thời gian Sau này, phương pháp nói thay xuất mơ hình chuỗi thời gian tuyến tính (linear) với đặc điểm tích cực: dễ hiểu để phân tích liệu dễ để thực Điểm chưa tốt chúng làm việc không hiệu với chuỗi thời gian phi tuyến (non-linear) [2] Do vậy, mơ hình phi tuyến dần nghiên cứu áp dụng chuỗi thời gian phi tuyến tính, với mức độ phức tạp cao 3.1 Mơ hình tuyến tính Đối với hệ thống tuyến tính (Linear systems), thuộc phạm vi nghiên cứu lĩnh vực xử lý tín hiệu số (Digital Signal Processing - DSP) DSP quan tâm đến thao tác tuyến tính, chuyển dịch trạng thái dòng liệu Các thao tác thực lọc Việc phân tích, thiết kế lọc cách hiệu cốt lõi lĩnh vực Các mơ hình tuyến tính biểu diễn chuỗi thời gian tổ hợp tuyến tính biến thời gian trễ có khơng có việc kết hợp thêm đại lượng khác tổ hợp tuyến tính số hạng q trình nhiễu trắng (white noise) Các mơ hình tuyến tính tiêu biểu bao gồm: AR (auto regressive – tự hồi quy), MA (moving average – trung bình trượt) ARMA (autoregressive-moving average – Tự hồi quy trung bình trượt) a Mơ hình tự hồi quy (AR) Trong mơ hình tự hồi quy, chuỗi thời gian mơ tả phương trình sau: ⋯ Trong đó: tham số mơ hình : → : nhiễu trắng (white noise) Phương trình gọi phương trình biểu diễn mơ hình tự hồi quy bậc (AR( )) b Mơ hình trung bình di động (MA) gọi trình trung bình di động bậc Chuỗi thời gian trình MA(q) viết dạng sau: Với (MA( )) quan sát ⋯ trình nhiễu trắng (white noise) với trung bình 0, : → tham số mơ hình Phương trình cho thấy mơ hình MA hoạt động mà khơng cần thơng tin phản hồi Có nhiều chuỗi thời gian làm khớp dựa hồn tồn thơng tin phản hồi, điều thực thơng qua mơ hình tự hồi quy AR c Mơ hình tự hồi quy trung bình trượt (ARMA) Các chuỗi thời gian mơ hình hóa MA hay AR chúng có đặc tính hai q trình Khi đó, để biểu diễn, người ta sử dụng mơ hình ARMA, pha trộn hai mơ hình MA AR Khi đó, q trình ARMA(p,q) mơ tả sau: ⋯ ⋯ Lúc này, việc dự báo thực nhờ xác định p q Việc xác định thực người thực dự báo thơng qua kinh nghiệm Trong đó, p xác định dựa việc vẽ hàm tự tương quan phần (partial autocorrelation functions), đồng thời q xác định thông qua hàm tự tương quan (autocorrelation functions) Điều quan trọng mơ hình giải thích kết dự báo thơng qua cơng cụ trình diễn máy tính 3.2 Mơ hình phi tuyến tính Để mơ tả q trình phi tuyến tính, mơ hình giả thiết liệu chuỗi thời gian phi tuyến tính Điều phù hợp với thực tế chuỗi thời gian khơng thể biết trước chúng có đặc tính tuyến tính hay phi tuyến tính Tuy nhiên, đặc điểm mơ hình sử dụng nhiều tham số xây dựng mơ hình đó, khó giải thích q trình xác định tham số mơ hình Vì đặc tính này, mơ hình phi tuyến tính coi q trình hộp đen Dưới trình bày số mơ hình tiêu biểu sử dụng để dự báo liệu chuỗi thời gian, theo [2] Trần T Đức Minh, Trần T Huy Dương, Vũ Đức Thi 469 a Mơ hình h Markov ẩn (Hidden Maarkov Model) Mơ hìnnh Markov ẩn (HMM) cũngg sử dụn ng để dự báo liệu chuỗii thời gian [5]] Tuy vậy, mơ hình khơng k thích hợ ợp để giải quyếết vấn đề lliên quan đến d liệu liên tụcc Do vậy, cácc mơ hình HMM M hiệ ệu chỉnh để sử s dụng giải bàii toán dự báo chuỗi thời giaan Theo đó, mơ m hình tốn hhọc trởở nên phức tạp để áp dụng d thuật toáán forward-bacckward xác địnnh tham số, s độ phức tạp p giải thuuật O(N N2), nên kh hó mở rộng cho c tập liệu kích thướ ớc lớn Cũng có vài phương pháp khác khhông thông dụ ụng để dự báo phi tuyến M Một số đóó gọi ph hương pháp Analogues A [6] Cách tiếp cậnn đơnn giản có c vài tham số ố tự nhưngg áp dụng ccho chu kỳ thời gian ngắn n b Mạngg nơron nhân ttạo Việc sử dụng mạng nnơron nhân tạoo để dự báo ch huỗi thời gian nghiêên cứu nhiều, đặc điểm r phù hợp với v liệuu phi tuyến tínnh Có nhiều vvấn đề việc v xây dựng mạng nơron nnhân tạo áp dụụng dự báo b liệu n nêu [1][7][8][9] Trong phạm vi báo y, mô ô tả cách xây dựng mơ hìnhh sử dụng mạn ng nơron để th hực dự bááo chuỗi thời ggian Theo đóó, quan sáát x[t-s] sử dụng làm đầu đ vào để dự ự báo giá trị xddb[t] Người taa xây dựng tập liệu huấn h luyện mạạng phươ ơng pháp ssau: Ö Chuẩn C hóa liệu Ư Xác X định khoảnng dự báo (horizon of predicction) s Ö C Chia tập liệệu ban đầu thàành tập: hu uấn luyện (traiining) (> 50% số mẫu), kiểm m tra (test) (10 0% -> 30% s mẫu) tập kiểm định (vaalidation) số Ö Xây X dựng tập ddữ liệu với mẫẫu có đầu đ x[s], đầu vào làà x[s-1], x[ x[s-2],…, x[1] Ö Xây X dựng mơ hhình mạng nơ ron áp dụng cho c dự báo Việc xác định cấấu trúc tối ưu ccần trình th hử-sai Ư H Huấn luyện mạạng với thhông số khởi tạạo tập p liệu trainiing, xác định llỗi với tập liệu test để x định khả nnăng tổng qt hóa xác Ư Sau S huấn luuyện, thực hiệện kiểm định độ xác củ mơ hình với ới tập validationn Một kiếến trúc khác ccủa ANN cho dự báo chuỗi thời gian gọi mạng nơroon thời gian trễễ [3] [4], g độ trễ th hời gian gắn vào cấu ttrúc mạng Phâân loại kiến trúc mạng g nơron cho xử lý chuỗi thờời gian xem x [11] Các C phương phháp ggặp phải vvấn đề mộ ột mạng nơron n: thời gian huuấn luyện lâu, số lượng tham m số nhiều Thực T tế, trường hợp ggiải thuật W Wan [12], có 1105 tham số để khớp vào 1000 điểm ữ liệu Nghĩa l rủi ro q khớp (overrfitting) trình học mạng rấất lớn IV ĐẶ ẶC ĐIỂM ỨN NG DỤNG Các nghhiên cứu dự ự báo liệu chuỗi thời giaan sử dụng mạạng nơron choo thấy áp ddụng có số ố điểm đặc trrưng: Ư Q Q trình dự báo liệu m q trình hộp h đen Ư S Số lượng tham m số mơ hìình, trọng số nơ ơron, lớnn phụ thuộc vàào đặc trưng củ toán thhực tế Do vậyy khó giải thíchh q trình dẫn n đến kết Ö T Thích hợp với nhiều dạng chhuỗi thời gian n coi tất liệu thuộcc dạng phi tuyến tính Đặc biệt b c tập liệu lớn, phức tạp 470 MỘT SỐ VẤN ĐỀ VỀ DỰ BÁO DỮ LIỆU CHUỖI THỜI GIAN Ö Khi lựa chọn thông số cho mạng nơron, cần trình thử-sai thực chu kỳ huấn luyện – kiểm tra kiểm định kết Ư Đơi kết dự báo tập liệu chuỗi thời gian tuyến tính cho kết khơng tốt phương pháp tuyến tính V KẾT LUẬN Dự báo liệu chuỗi thời gian toán gặp nhiều thực tế Làm chủ kỹ thuật phân tích giải tốn dự báo chuỗi thời gian sử dụng mạng nơron phương pháp tốt dựa thực tế dạng liệu chuỗi thời gian thường khó nhận biết chúng có đặc điểm q trình tuyến tính hay phi tuyến tính, đặc biệt liệu lớn, phức tạp Quy trình áp dụng nêu báo mang tính tổng quát, nêu lên bước cần thiết áp dụng mạng nơron dự báo liệu chuỗi thời gian Trong nghiên cứu tới, xây dựng phần mềm ứng dụng kỹ thuật nêu thực đánh giá kết nhận áp dụng mạng nơron số tập liệu chuỗi thời gian VI REFERENCES [1] Lê Hải Khôi & Trần Đức Minh, Về phương pháp dự báo liệu sử dụng mạng nơron (Tạp chí Tin học Điều khiển học 20 (2004), N2) [2] G.E.P.Box, G.M.Jenkins and G.C.Reinsel Time Series Analysis: Forecasting and Control, San Francisco: HoldenDay, 1994 [3] K Lang and G Hilton A time-delay neural network architecture for speech recognition Technical Report CMUCS-88-152, Carnegie Mellon University, Pittsburgh, PA, 1988 [4] A.Waibel Modular construction of time-delay neural networks for speech recognition Neur Comp., 1(1):39-46, 1989 [5] A.M.Fraser and A.Dimitriadis Forecasting Probability Densities by Using Hidden Markov Models with Mixed States 1993 [6] E.J.Kostelich and D.P.Lathrop Time Series Prediction by Using the Method of Analogues 1993 [7] Kaastra, I., Boyd, M - Designing a neural network for forecasting financial and economic time series Neurocomputing 10 (1996), pp 215-236 [8] Morioka Y., Sakurai K., Yokoyama A Sekine Y., Next day peak load forecasting using a Multilayer neural network with an additional learning, IEEE, 0-7803-1217-1/93, 1993 [9] Takashi O., Next day’s peak load forecasting using an artificial neural network, IEEE 0-7803-1217-1/93, pp 284289, 1993 [10] Wikipedia, Nyquist–Shannon sampling theorem, https://en.wikipedia.org/wiki/Nyquist%E2%80%93Shannon_sampling_theorem [11] M.C Mozer Neural Network Architectures for Temporal Sequence Processing, pages 243-264 Addison Wesley, 1993 [12] E.A.Wan Time Series Prediction by Using a Connectionist Network with Internal Delay Line, pages 195-217 Addison Wesley, 1993 ...468 MỘT SỐ VẤN ĐỀ VỀ DỰ BÁO DỮ LIỆU CHUỖI THỜI GIAN III MỘT SỐ MƠ HÌNH ỨNG DỤNG Trong thời điểm ban đầu, việc giải toán dự báo chuỗi thời gian, dự báo thực phương pháp làm trơn ngoại suy chuỗi liệu. .. nhiều dạng chhuỗi thời gian n coi tất liệu thuộcc dạng phi tuyến tính Đặc biệt b c tập liệu lớn, phức tạp 470 MỘT SỐ VẤN ĐỀ VỀ DỰ BÁO DỮ LIỆU CHUỖI THỜI GIAN Ö Khi lựa chọn thơng số cho mạng nơron,... kết dự báo tập liệu chuỗi thời gian tuyến tính cho kết khơng tốt phương pháp tuyến tính V KẾT LUẬN Dự báo liệu chuỗi thời gian toán gặp nhiều thực tế Làm chủ kỹ thuật phân tích giải tốn dự báo chuỗi