Lýdo chọnđề tài
Chuỗi thời gian đã và đang đƣợc sử dụng nhƣ một công cụ hữu ích đểphân tích số liệu trong kinh tế, xã hội cũng nhƣ trong nghiên cứu lĩnh vựckhoa học ngày nay Chính vì vậy, nhiều tác giả đã đề xuất các công cụ phântíchchuỗithờigianđểtríchxuấtranhữngthôngtinquantrọngtừtrongd ãysố liệu đó Phương pháp chủ yếu để phân tích chuỗi thời gian là sử dụng cáccông cụ của thống kê như hồi quy, phân tích Fourie và một vài công cụ khác.Nhƣng hiệu quả nhất có lẽ là phương pháp sử dụng mô hình Arima của Box-Jenkins Mô hình này đã cho một kết quả khá tốt trong phân tích dữ liệu vàđang đƣợc sử dụng rất rộng rãi trong các ứng dụng thực tế Và bên cạnh đómô hình Arima kết hợp mạng nơron để tăng độ chính xác của dự báo nhƣ thếnào, đó là lí do tôi tìmhiểu về đề tài:
“Xâydựngmô hìnhkết hợpArimavà mạng nơroncho bàitoán dựbáo.”
2.TỔNGQUANTÀILIỆUVÀ TÌNHHÌNH NGHIÊNCỨU ĐỀ TÀI
Nguồn tài liệu chính của nghiên cứu này bao gồm các bài luận văn, luận án, báo khoa học, tạp chí khoa học và công nghệ trong và ngoài nước liên quan đến mô hình ARIMA, mạng nơron và các mô hình dự báo chuỗi thời gian khác.
Mô hình kết hợp ARIMA-mạng nơron được phát triển để nâng cao độ chính xác dự báo trong các ứng dụng thực tế Ý tưởng cơ bản của mô hình này là coi dữ liệu chuỗi thời gian là sự kết hợp của các thành phần tuyến tính và phi tuyến tính Qua quá trình thử nghiệm, mô hình kết hợp này đã thể hiện độ lỗi dự báo thấp hơn đáng kể so với từng mô hình thành phần riêng lẻ.
Mục đích nghiên cứu
Đề tài tập trung vào các mô hình Arima, mạng nơron, áp dụng phươngpháp học máy mạng nơron và ứng dụng vào bài toán dự báo Tìm hiểu môhình kết hợp Arima và mạng nơron với kỳ vọng có thể tăng độ chính xác củadự báo trong cácbài toán thực tế.
Đốitƣợngvàphạmvinghiêncứu
- Đốitƣợngnghiêncứu:MôhìnhArima,hệthốngmạngnơronvàsựkếthợpgi ữa Arima vàmạng nơrontrong dự báo.
- Phạmvinghiêncứu: S ựkết hợpg i ữ a Ar im av àm ạn g nơron tr on gd ự báo.
Phươngphápnghiêncứu
+Càiđặt,chạy,thửnghiệmvàsosánhvớicácmôhìnhdựbáođộc lập khác.
Ýnghĩa khoa họcvà thực tiễn củaluận văn
A r i m a t r o n g b à i t o á n dự báo để thấy đƣợc độ chuẩn xác khi kết hợp giữa hai phương pháp này vàcụthểhơnlàbàitoándựbáomựcnướctrạmsôngAnHòatỉnhBìnhĐịnh.
Bốcục luậnvăn
Lịchsửcủaquátrìnhdựbáo
Nhu cầu dự báo về một sự việc sẽ diễn tiến thế nào trong tương lai đãcó từ nhiều thế kỷ trước Những dự báo đầu tiên là dự báo về các hiện tƣợngtựnhiên,cáchiệntƣợngxãhộivàhiệntƣợngvềđờisốngxãhội.
Ban đầu dự báo chỉ dựa vào những kinh nghiệm của người dự báo, dần dầndựbáođãđƣợchỗtrợbởicôngnghệgiúpchokếtquảdựbáochínhxáchơn.
Có rất nhiều các phương pháp dự báo đã được nghiên cứu và cho rađời: Phương pháp hồi quy bội, phương pháp Delphi, phương pháp CrossImpact Matrices, phương pháp ARIMA (kết hợp của AR–
Dựa vào thời gian dự báo phân làm ba loại là: Dự báo dài hạn, dự báo trunghạnvà dự báo ngắn hạn.
Theo phương pháp dự báo lại được phân thành: Dự báo bằng phươngpháp chuyên gia, dự báo theo phương trình hồi quy, dự báo dựa vào dãy sốthờigian…
Dự báo là sự tiên đoán có căn cứ khoa học, mang tính chất xác suất vềmức độ, nội dung, các mối quan hệ, trạng thái, xu hướng phát triển của đốitƣợng nghiên cứu hoặc về cách thức và thời hạn đạt đƣợc các mục tiêu nhấtđịnhđã đềra trongtươnglai.
Mục đích dựbáo
Phân tích dự báo cung cấp thông tin chi tiết về đối tƣợng dự báo, từ đósẽ đƣa ra đƣợc hành động chiến lƣợc Phân tích dự báo đƣợc thực hiện liêntụcvàchokếtquảđángtincậynhờcósựhỗtrợcủakỹthuật.Cácquyết định sẽđƣợcđƣaramộtcáchnhấtquán,côngbằng.
Phân tích dự đoán có khả năng giải quyết các truy vấn phức tạp với độ chuẩn xác cao trong thời gian ngắn nhất Khoa học đã giúp đẩy nhanh nhiều quyết định mất nhiều ngày hoặc giờ xuống còn vài phút hoặc giây.
Cácphươngphápdựbáo
Trong phương pháp định tính, dữ liệu có thể không khả dụng hoặc không đầy đủ để phân tích và đánh giá Phương pháp này thường được sử dụng khi đối tượng dự báo chịu tác động bởi các yếu tố không định lượng được Nguyên tắc của phương pháp này là sử dụng ý kiến đánh giá của một hoặc nhiều chuyên gia trong lĩnh vực liên quan Để đảm bảo tính chính xác của dự báo, cần loại trừ ý kiến chủ quan của người dự báo.
Phương pháp định lượng:Sử dụng dữ liệu từ quá khứ hoặc thu thậpsố liệu của các đối tượng ở hiện tại để dự báo Với phương pháp địnhlƣợngsẽchokếtquảdự báonhanhvàcóthểđođƣợcđộchínhxáccaocủa dự báo Tuy nhiên, phương pháp này chỉ áp dụng cho dự báo ngắnhạnvàtrunghạn.
Phương pháp hồi quy tương quan:Các phương pháp dự báo trìnhbày trên đây đều xem xét sự biến động của đại lƣợng cần dự báo theothời gian thông qua dãy số thời gian thống kê đƣợc trong quá khứ Môhình hồi quy tương quan được sử dụng phổ biến nhất trong dự báo làmôhìnhhồiquy tươngquantuyếntính [4].
Những tháchthức trong phântích dựbáo
Mục đích của dự báo là để giúp cải tiến về hiệu quả Tuy nhiên,khôngphảilúcnàodựbáocũngchínhxác,mộtsốyếutốảnhhưởngđếnđộchí nh xác của dự báo là: Trở ngại trong quản lý, dữ liệu, xây dựng mô hình và quátrình triểnkhai.
Những trở ngại trong quản lý là khó khăn thường gặp khi triển khai mô hình dự báo Việc chuyển đổi này đòi hỏi các nguồn lực tổ chức và sự hỗ trợ từ nhà lãnh đạo để đưa các mô hình nghiên cứu vào vận hành thực tế.
Những trở ngại về dữ liệu Các mô hình thường yêu cầu dữ liệu dướidạng mộtbảng hoặc bảng có chứa hàng và cột (dữ liệu hai chiều) Nếu dữ liệuđược lưu trữ trong các cơ sở dữ liệu thì cần phải kết nối các cơ sở dữ liệu đểtạoramộtbảng.
Trở ngại trong việc xây dựng mô hình Trở ngại lớn nhất là quá tải, tứclà mô hình quá phức tạp và yêu cầu phải ghi nhớ dữ liệu huấn luyện Hai trởngại với mô hình là: Thứ nhất mô hình thực hiện kém với dữ liệu mới và việcgiải thích mô hình không đáng tin cậy Thứ hai, các nhà xâyd ự n g m ô h ì n h quá tham vọng vào mô hình đƣợc xây dựng trên dữ liệu có sẵn trong khoảngthời gian nhất định Cách tốt nhất để khắc phục là xây dựngmột mô hình đơngiảnsauđócóthểđƣợccảitiếnsaukhichạythửnghiệm.
Trở ngại trong triển khai mô hình Thông thường các mô hình khôngquá phức tạp về mặt tính toán Tuy nhiên, các mô hình phải đƣợc kiểm tra bởihệthốnghoạtđộngvàđƣaradựđoánphùhợpvớihệthốngđó.
Mộtsố môhình ứngdụng
1.6.1 Môhìnhtuyếntính Đối với các hệ thống tuyến tính (Linear systems), thuộc phạm vi nghiêncứucủalĩnhvựcxửlýtínhiệusố(DigitalSignalProcessing-DSP).DSPquantâm đến các thao tác tuyến tính, chuyển dịch trạng thái trên dòng dữ liệu Cácthao tác này đƣợc thực hiện bởi các bộ lọc Việc phân tích, thiết kế các bộ lọcmộtcáchhiệuquảlàcốtlõicủalĩnhvựcnày.
Cácmôhìnhtuyếntínhbiểudiễnchuỗithờigiannhƣmộttổhợptuyến tính của các biến thời gian trễ và có thể có hoặc không có việc kết hợp thêmmột đại lƣợng khác là tổ hợp tuyến tính của các số hạng của quá trình nhiễutrắng (white noise) Các mô hình tuyến tính tiêu biểu bao gồm: AR (autoregressive – tự hồi quy), MA (moving average – trung bình trƣợt) và ARMA(autoregressive-movingaverage–Tựhồiquyvàtrungbìnhtrƣợt)[8]. a Môhình tựhồiquy(AR)
Trongmôhìnhtự hồiquy,chuỗithờigian {Xt}đượcmôtảbởiphươngtrìnhsau:
Xt=ứ1Xt–1+ứ2Xt–2+⋯+ứpXt–p+Ɛt (1-1) ứ i::1→p làcỏcthamsốcủamụhỡnh Ɛt:nhiễutrắng(whitenoise)
Phươngtrìnhnàyđượcgọilàphươngtrìnhbiểudiễncủamôhìnhtựhồiq uybậc p (AR(p)). b Môhình trungbìnhdi động(MA)
Chuỗi thời gian {Xt} đƣợc gọi là quá trình trung bình di động bậc q(MA(q)) nếu như mỗi quan sát Xtcủa quá trình MA(q) được viết dướidạngnhưsau:
Xt=Ɛt+𝜃1Ɛt – 1+𝜃2st–2+⋯+𝜃qƐt – q(1-2) Với{Ɛt}l à mộtquátrìnhnhiễutrắng(whitenoise)vớitrungbìnhbằng
Có nhiều chuỗi thời gian đƣợc làm khớp dựa hoàn toàntrên các thông tin phản hồi, điều này đƣợc thực hiện thông qua mô hìnhtựhồi quyAR. c Môhìnhtựhồiquyvàtrungbìnhtrƣợt(ARMA)
CácchuỗithờigianđôikhikhôngthểmôhìnhhóađƣợcbằngMAhay AR do chúng có đặc tính của cả hai quá trình này Khi đó, để biểudiễn, người ta sử dụng mô hình ARMA, là sự kết hợp của cả hai môhình MAvà AR[1][10].
Xt=ứ 1Xt–1+⋯+ứ pXt–p+Ɛt+𝜃1Ɛt–1+⋯+𝜃qƐt–q(1-3) Lúc này, việc dự báo có thể thực hiện đƣợc nhờ xác địnhp và q.Việc xác định này được thực hiện bởi người thực hiện dự báo thông quakinh nghiệm Trong đó,pđƣợc xác định dựa trên việc vẽ các hàm tựtươngquanmộtphần(partialautocorrelationfunctions),đồngthờiqđượcxác định thông qua các hàm tự tương quan (autocorrelation functions).Điều quan trọng là các mô hình này có thể giải thích đƣợc kết quả dự báothôngquacáccôngcụtrìnhdiễntrênmáytính.Bàiluậnvănsẽphântíchkĩhơnởchƣ ơng2.
Mô hình Markov ẩn (HMM) cũng đƣợc sử dụng để dự báo dữ liệuchuỗi thờigian Tuy vậy, mô hình này không thích hợp để giải quyết các vấnđề liên quan đến dữ liệu liên tục Do vậy, các mô hình HMM đã đƣợc hiệuchỉnh để sử dụng trong giải quyết bài toán dự báo chuỗi thời gian Theo đó,môhìnhtoán họccủanótrởnênquá phứctạpđểápdụngthuậttoán forward-backward xác định các tham số, độ phức tạp của giải thuật này là O(N2), nênrấtkhómởrộngcho cáctậpdữliệukíchthướclớn [9]. b Mạngnơronnhântạo
Việc sử dụng mạng nơron nhân tạo để dự báo chuỗi thời gian đã đƣợcnghiêncứunhiều,dođặcđiểmrấtphùhợpvớicácdữ liệuphituyếntính.
(> 50% số mẫu), kiểm tra (test) (1 % -> 30% số mẫu) và tậpkiểmđịnh(validation).
Xây dựng tập dữ liệu với mẫu đầu tiên có đầu ra làx[s], cácđầuvào là cácx[s-1], x[s-2],…,x[1].
Xây dựng mô hình mạng nơ ron áp dụng cho dự báo Việc xácđịnhcấutrúctốiưucầnquátrìnhthử-sai.
Huấnluyệnmạngvớicácthôngsốkhởitạotrêncáctậpdữliệutraining, xác định lỗi với tập dữ liệu test để xác định khả năngtổngquáthóa.
Sau khi huấn luyện, thực hiện kiểm định độ chính xác củamôhình với tậpvalidation[3][6].
Quy trìnhthực hiệndựbáo
Xác định mục tiêu là xác định xem kết quả dự báo sẽ đƣợc sử dụng đểlàm gì Mục tiêu chung của dự báo là lập kế hoạch và có những quyết địnhhànhđộng hợp lý.
Để xây dựng hệ thống dự báo mức nước sông hàng năm, cần xác định rõ đối tượng dự báo là mực nước sông Hệ thống này sẽ sử dụng dữ liệu mực nước sông của những năm trước đó để đưa ra dự đoán về mực nước sông trong tương lai.
Bước3: Xác định khía cạnh thờigian
Xác định độ dài của dự báo nhƣ: Dự báo dài hạn hay dự báo ngắn hạnvàdựbáocó tính cấpthiết nhƣthếnào.
Xemxétdữliệulàxemxétđếncácyếutốcủadữliệunhư:Nguồncungcấp,cácbướ cphânloại,đánhgiá,xửlýdữliệutrướckhisửdụng.Trongluậnvăn này sử dụng nguồn dữ liệu thu thập đƣợc từ Chi cục thủy lợi Bình Định.Vì vậy, dữ liệu làchính xác vàđángtin cậy.
Bước5: Lựachọn mô hình Để lựa chọn mô hình thích hợp cho dự báo cần xem xét các yếu tố nhƣ:Dữ liệu đầu vào, các yêu cầu về thời gian, yêu cầu về kết quả đầu ra, tàinguyênsẵn có…
Quy trình lựa chọn mô hình dự báo có thể đƣợc lựa chọn dựa trên mộtsốchiếnlƣợcdựbáonhƣsau:
Tiền định: Dựa trên mối quan hệ mật thiết giữa hiện tại và tươnglai.Triệuchứng:Dựatrênnhữngdấuhiệuhiệntạiđểdựbáochotươnglai.
Hệthống:Tứclà chorằngxu hướngpháttriểntrongtươnglaisẽtuânthủtheomột quytắcnàođó, chẳnghạncáclýthuyếtvềgiáodục.
Với phương pháp dự báo định tính thì cần quan tâm đến việc đánh giámô hình nhưng với phương pháp định lượng thì phải đánh giá mức độ phù hợpcủa mô hình và độ chính xác của dự báo Nếum ô h ì n h k h ô n g p h ù h ợ p t h ì quay lại bước5. Để đánh giá độphù hợp củam ô h ì n h l u ậ n v ă n s ử d ụ n g 2 t i ê u c h í MRSE và MAPE.
Bước7: Chuẩn bị dự báo
Chuẩnbị cácsố liệuđểphục vụchoviệcdự báo.
Bước8: Trình bày kếtquả dự báo
Khi trình bày dự báo phải đảm bảo tính ngắn gọn, rõ ràng, chỉ ra đƣợcđộ tin cậy cảu dự báo Có rất nhiều cách để trình bày kết quả dự báo: Bảngbiểu, đồ thị hay hình ảnh minh họa và có thể trình bày ở dạng viết hoặc dạngnói.
Bước9: Theodõi kếtquả dự báo
Sau khi dự báo phải xem xét kết quả dự báo tức xem xét độ lệch giữagiátrịdựbáovàgiátrịthực.Mụctiêucủaviệctheodõikếtquảđểtìmralýdo tại sao lại có các sai số và xác định độ lớn của các sai số, qua đó bảo trì vànângcấp hệthống dự báo.
Kếtluậnchương1 12 CHƯƠNG2.MÔHÌNHDỰBÁOKẾTHỢPA R I M A V À M Ạ N G NƠRON 13
Dự báo dữ liệu chuỗi thời gian là một bài toán gặp rất nhiều trong thựctế.Làmchủ cáckỹthuậtphântíchvàgiảiquyếtcácbàitoándự báochuỗithờigian sử dụng mạng nơron và Arima là sự kết hợp tốt dựa trên thực tế rằng cácdạng dữ liệu chuỗi thời gian thường khó có thể nhận biết chúng có các đặcđiểm quá trình là tuyến tính hay phi tuyến tính, đặc biệt đối với các dữ liệulớn,phứctạp.
Môhình Arima
Lần đầu tiên giới thiệu về mô hình Arima (Box & Jenkins) trong phântích và dự báo chuỗi thời gian, được hiểu là phương pháp Box-Jenkins
[8].Mô hình ARIMAđƣợc kết hợpbởi 3 thành phầnchính: AR (thànhp h ầ n t ự hồi quy), I (tính dừng của chuỗi thời gian) và MA (thành phần trung bìnhtrƣợt) [1] Theo Gujarati (2006) và R.Carter Hill et al., (2011) để sử dụng môhìnhARIMAtrongdựbáochuỗithờigian,cầnqua4bướcsau[11]:
Bước 1 : Nhậndạng môhình ĐểsửdụngmôhìnhARIMA(p,d,q)làtìmcácgiátrịthíchhợpcủap,d, q, với d là bậc sai phân của chuỗi thời gian đƣợc khảo sát, p là bậc tự hồiqui và q là bậctrung bình trƣợt, trong dự báo cần nhận dạng ba thành phần p,d, q của mô hình Thành phần d của mô hình đƣợc nhận dạng thông qua kiểmđịnh tính dừng của chuỗi thời gian Nếu chuỗi thời gian dừng ở bậc
0 ta kýhiệu I(d=0),nếu sai phân bậc 1 của chuỗi dừng ta ký hiệu I(d=1), nếu sai phânbậc 2 của chuỗi dừng ta ký hiệu I(d=2), Để kiểm định tính dừng của chuỗi,luận văn sử dụng kiểm định nghiệm đơn vị Dickey–Fuller cải biên (ADF) vàkiểmđịnhPhillips-Perron[4]:
Kiểmđịnhgiảthuyết sửdụngthống kê student(ký hiệut)
Sauk hi kiểm địnhtí nh dừ ng ,ta sẽ xá cđ ịn hb ậc c ủa qu y t r ì n h tự h ồ i quy(AR)vàquytrìnhtrungbìnhtrượt(MA)thôngquabiểuđồtựtươngquan(ACF)vàbiểu đồtựtươngquanriêngphần(PACF).
Bảnc h ấ t c ủ a m ô h ì n h ( 2 ) l à k ế t h ợ p t u y ế n t í n h g iữ aYtv à c á c n h i ễ u trắ ng.Kếthợp(2)và(3)tacómôhìnhARMA(p,q) nhƣsau:
Việc xác địnhp vàq sẽ phụthuộc vàocácđồ thịPACF vàACF, chi tiếtđƣợcthểhiệnởBảng2.
AR(p) Giảmnhanh theo hàmmũ hoặc dạng hình sin, hoặc cảhai
MA(q) Cóđỉnh sautrễ q Giảmdầntheo hàmmũ
ARMA(p,q) Giảmnhanh theo hàmmũ Giảmnhanh theohàm mũ (Nguồn:Gujaratietal.,[2])
Quá trình lựa chọn mô hình là quá trình thực nghiệm và so sánh các tiêuchí R 2 hiệu chỉnh, AIC và Schwarz cho đến khi ta chọn đƣợc mô hình tốt nhấtchoviệc dự báo.
Bước 3 :Kiểmđịnhmôhình Để đảm bảo mô hình là phù hợp, sai số của mô hình phải là nhiễu trắng.Ta có thể sử dụng biểu đồ tự tương quan ACF hoặc kiểm định Breusch-Godfreykiểmtra tínhtựtương quancủasaisố.
Bên cạnh đó để đánh giá độ tin cậy của mô hình dự báo, nghiên cứu sửdụngchỉsốMAPE.TheoLewis(1983)thìMAPElớnhơnhoặcbằng50%thì dựbáokhôngchínhxác,20%-50%làhợplệ,10%-
(2-5) trong đó xt, làgiátrị thật và giá trịdự báo ở thời điểmt, n là tổng số dựbáo.
Sau khi kiểm định sai số của các mô hình dự báo, nếu phù hợp sẽ đƣợcsửdụng vào việcdựbáo.
Mô hình ARIMA xác định tham số p và q thông qua PACF và ACF, sau đó ước lượng các tham số của mô hình tự hồi quy và trung bình trượt dựa trên chuỗi thời gian Kiểm định mô hình sau khi ước lượng và cuối cùng dự báo giá trị tương lai của chuỗi thời gian bằng mô hình vừa xác lập.
Tổngquan về mạng nơron nhântạo
Mạng nơron nhân tạo (Artifical Neural Networks) mô phỏng lại mạngnơron sinh học là một cấu trúc khối gồm các đơn vị tính toán đơn giản đƣợcliên kết chặt chẽ với nhau, trong đó các liên kết giữa các nơron quyết địnhchứcnăng củamạng.
Gồmmột tập các đơnvị xử lý (cácnơron nhântạo).
Trạngthái kích hoạt hayđầu racủađơn vị xửlý.
Liênkếtgiữacácđơnvị.Xéttổngquát, mỗi liênkết đƣợcđịnhnghĩabởi một trọng số Wjkcho ta biết hiệu ứng mà tín hiệu của đơn vị j cótrên đơn vịk.
Mộtluậtlantruyềnquyếtđịnhcáchtínhtínhiệuracủatừngđơnvị từđầu vào của nó.
Một hàm kích hoạt, hay hàm chuyển (activation function, transferfunction), xác định mức độ kích hoạt khác dựa trên mức độ kích hoạthiệntại.
Mộtđơnvị điềuchỉnh(độ lệch)(bias, offset)của mỗi đơnvị.
Dòng dữ liệu từ đơn vị đầu vào đến đơn vị đầu ra chỉ đƣợctruyền thẳng Việc xử lý dữ liệu có thểm ở r ộ n g r a n h i ề u l ớ p , n h ƣ n g không có các liên kết phản hồi Nghĩa là, các liên kết mở rộng từ các đơnvịđầuratớicácđơnvịđầuvàotrongcùngmộtlớphaycáclớptrướcđólà không cho phép.
Có chứa các liên kết ngƣợc Khác với mạng truyền thẳng,cácthuộctính độngcủamạngmớiquantrọng.Trong mộtsố trườnghợp,các giá trị kích hoạt của các đơn vị trải qua quá trình nới lỏng (tăng giảm sốđơn vị và thay đổi các liên kết) cho đến khi mạng đạt đến một trạng tháiổn định và các giá trị kích hoạt không thay đổi nữa Trong các ứng dụngkhácmàcách chạyđộ ng tạothànhđầuracủamạngthìnhữngsự thayđổicác giátrị kích hoạt là đáng quan tâm.
Hình2.2Mạngnơron hồiquy (Recurrent neuralnetwork)
Một mạng truyền thẳng nhiều lớp bao gồm một lớp vào, một lớp ra vàmột hoặc nhiều lớp ẩn Các nơron đầu vào thực chất không phải các nơrontheo đúng nghĩa, bởi lẽ chúng không thực hiện bất kỳ một tính toán nào trêndữ liệu vào, đơn giản nó chỉ tiếp nhận các dữ liệu vào và chuyển cho các lớpkế tiếp Các nơron ở lớp ẩn và lớp ra mới thực sự thực hiện các tính toán,kếtquả đƣợc định dạng bởi hàm đầu ra (hàm chuyển) Cụm từ “truyền thẳng”(feed forward) (không phải là trái nghĩa của lan truyền ngƣợc) liên quan đếnmột thực tế là tất cả các nơron chỉ có thể đƣợc kết nối với nhau theo mộthướng: tới một hay nhiều các nơron khác trong lớp kế tiếp (loại trừ các nơronởlớpra).
W i :Matrậntrọngsốcủacácnơronlớpthứi.(S i xR i :Shàng(nơron)-Rcột(số đầu vào)) b i :Vector độlệch(bias)củalớpthứ i(S i x1: cho Snơron) n i :net input (S i x1) f i :Hàmchuyển(hàmkích hoạt) a i :net output(S i x1)
Mỗi liên kết gắn với một trọng số, trọng số này đƣợc thêm vào trongquá trình tín hiệu đi qua liên kết đó Các trọng số có thể dương, thể hiện trạngthái kích thích, hay âm, thể hiện trạng thái kiềm chế Mỗi nơron tính toán mứckích hoạt của chúng bằng cách cộng tổng các đầu vào và đƣa ra hàm chuyển.Một khi đầu ra của tất cả các nơron trong một lớp mạng cụ thể đã thực hiệnxong tính toán thì lớp kế tiếp có thể bắt đầu thực hiện tính toán của mình bởivì đầu ra của lớp hiện tại tạo ra đầu vào của lớp kế tiếp Khi tất cả các nơronđãthựchiệntínhtoánthìkếtquảđƣợctrảlạibởicácnơronđầura.Tuynhiên,có thể là chƣa đúng yêu cầu, khi đó một thuật toán huấn luyện cần đƣợc ápdụngđểđiều chỉnh cácthamsốcủamạng [5].
LMS).Thuậttoánnàythuộcdạngthuậttoánxấpxỉđểtìmcácđiểmmàtạiđóhiệunăngcủa mạnglàtốiưu.Chỉsốtốiưu(performanceindex)thườngđượcxácđịnhbởimộthàmsố củamatrậntrọngsốvàcácđầuvàonàođómàtrongquátrìnhtìmhiểubàitoánđặtra.
Khi đó, đầu ra của một lớp trở thành đầu vào của lớp kế tiếp.Phương trình thể hiện hoạt động này như sau (trong đó
Các nơron trong lớp thứ nhất nhận các tín hiệu từ bên ngoài(vớipchínhlàđiểmbắtđầucủaphươngtrìnhhình3.)
Thuật toán lan truyền ngƣợc sử dụng chỉ số hiệu năng là trungbình bình phương lỗi của đầu ra so với giá trị đích Đầu vào của thuậttoánchính là tập cáccặpmô tả hoạtđộng đúng của mạng:
Mỗi đầu vào đƣa vào mạng, đầu ra của mạngđối với nó đƣợcđem so sánh với đầu ra mong muốn Thuật toán sẽ điều chỉnh các thamsốcủa mạngđểtốithiểuhóatrungbìnhbìnhphươnglỗi.
Mạng thần kinh đƣợc huấn luyện bằng cách đƣa các cặp tín hiệu đầuvào và tín hiệu đầu ra vào mạng Các cặp số liệu này liên tục đƣợc đƣa vàomạng vàmạng nhanh chóng họcmối quanhệ giữa đầu vào và đầura,q u á trình này đƣợc gọi là quá trình mạng đƣợc huấn luyện Sau đó,khi ta đƣa tínhiệu vào mạng, mạng sẽ xử lý dựa trên mối quan hệ giữa biến vào và biến rađãh ọ c đểchoratín hiệuratươngứng Quátrìnhhuấnluyệnthựcchấtlàviệcđiều chỉnh các trọng số kết nối của mạng Trong quá trình huấn luyện, cáctrọng số đƣợc điều chỉnh đến khi đạt đƣợc các giá trị sao cho với mỗi tín hiệuđầu vào thì mạng sẽ cho ra tín hiệu đầu ra gần với giá trị đầu ra mục tiêu nhất;nói cách khác, sai số giữa giá trị đầu ra của mạng và giá trị đầu ra mục tiêu lànhỏ nhất.
Hàm truyền hay còn gọi là hàm kích hoạt là một thành phần không thểthiếu trong mô hình mạng thần kinh Hàm truyền giúp cho thông tin đƣợctruyềnt ừ n ơ - r o n n à y đ ế n c á c n ơ - r o n k h á c , v à k ế t q u ả c ủ a h à m truyềnl à thôngtinđầu ra củamỗi lớp ẩnvà lớp đầu ra.
Hàm truyền là các hàm có sẵn trong phần mềm mô hình ANN, có thể tuyến tính hoặc phi tuyến Các hàm truyền phổ biến là HyperTanh, Tanh, TanhAxon, LinearTanh, LinearSigmoid, Arctan, Arcotan, sin, cos.
Tổngquan FFNN
Một mạng truyền thẳng là một mạng lưới thần kinh nhân tạo trong đócác kết nối giữa các nút làm không tạo chu kỳ.Nhƣ vậy, nó khác với hậu duệcủa nó: mạng lưới thần kinh tái phát Mạng thần kinh feedforward là loạimạng thần kinh nhân tạo đầu tiên và đơn giản nhất đƣợc phát minh Trongmạng này, thông tin chỉ di chuyển theo một hướng,c h u y ể n t i ế p , t ừ c á c n ú t đầuvào,thôngquacácnútẩn(nếucó)vàđếncácnútđầura.Khôngcóchu kỳhoặc vòng lặptrong mạng.
Trong những năm gần đây, nhiều nghiên cứu đã áp dụng các mô hìnhmạng nơron nhân tạo trong dự báo chuỗi thời gian và đạt đƣợc một số kết quảnhất định Bogdan Oancea đã cài đặt mô hình mạng nơron với hai kiến trúcmạng là FFNN (Feedforward Neural Network)và RNN (Recurrent NeuralNetwork) cho việc dự báo chuỗi thời gian Tác giả chạy thực nghiệm trên tậpdữ liệu tỷ giá hối đoái giữa đồng EUR/RON và USD/RON Đầu tiên, tác giảchuẩnhóadữliệubằngcôngthứclogarittựnhiênđểnângcaođộchínhxá cdự báo Sau đó, mô hình FFNN đƣợc xây dựng với 20 nơron ở lớp đầu vào(input layer), 40 nơron ở lớp ẩn (hidden layer) và 1 nơron ở lớp đầu ra (outputlayer)làgiátrịdựbáochothờigiantiếptheot+1.Tácgiảchiatậpdữliệ uvới 80% cho huấn luyện (training) và 20% cho thử nghiệm (testing) Kế tiếp,mạng RNN đƣợc cài đặt với
20 nơron ở lớp đầu vào, 10 nơron trong lớp ẩnhồi quy và 1 nơron ở lớp đầu ra Sau khi thực nghiệm, tác giả khẳng định môhìnhRNNcho kếtquả dự báo tốt hơn FFNNtrên tập dữ liệu tỷgiá hốiđoái.
M.RaeesisửdụngmạngnơronFFNNđểdựbáodữliệugiaothôngởthànhp h ố M o n r o e , b a n g L o u i s i a n a , H o a K ỳ N g h i ê n c ứ u n à y đ ề x u ấ t m ộ t mạngn ơro n sử dụ ng dữ l i ệ u gi ao t h ô n g c ủ a n gà y h ô m nay,n gà y h ô m qua, tuầntrước,haituầntrước,batuầntrướcvàmộtthángtrướcđểlàmđầuvàochodựb áolưulượnggiaothôngcủangày mai.Kếtquảthựcnghiệmchothấymô hìnhmạngnơronđã xâydựng cóthể đƣợcsửdụng cho dựbáogiaothôngtạithànhphốMonroe.Tuynhiên,mộtvàitrườnghợpcókếtq uảdựbáovớisaisốlớndonhữngyếutốbấtthườngtácđộngnhưtainạn,thờitiế txấu,… KumarAbhishekcũngsửdụngmạngnơronFFNNvớigiảithuậtlantruyềnng ƣợc(back- propagation)trongdựbáochứngkhoántrêntậpdữliệucủatậpđoànMicrosoftt ừ1/1/2011đến31/12/2011gồm2lớpđơngiảntrongmạng(10 nơron lớp đầu vào, 1 nơron lớp đầu ra), độ chính xác dự báo lên đến99%.MôhìnhmạngnơronFFNNsửdụngđặctrƣngcholớpđầuvàolàcác giá trị ở những điểm thời gian trước điểm thời gian dự báo Mối liên hệ giữagiá trị đầu ra (yt) và các giá trị đầu vào (yt-1, yt-2, …, yt-p) đƣợc mô hình bởiphươngtrình : yt=+ ( + ) + (2-7) trong đó, (j=0, 1, 2, …, q) và (i=0, 1, 2, …, p, j=1, 2, …, q) là các thamsố của mô hình, p là số nơron lớp đầu vào và q là số nơron lớp ẩn,là sai số.Hàmkíchhoạtđƣợcsửdụngtrongcácnơronlớpẩnnhƣhàmsigmoid: g(x)= (2-8)
Do đó, mô hình mạng nơron FFNN trong dự báo chuỗi thời gian là mộtmô hình phi tuyến mô tả mối quan hệ giữa các giá trị trong quá khứ( yt-
1, yt-2,…,yt-p) vàgiá trịtương lai(yt): yt= f(yt-1, yt-2,…, yt-p, w)+ (2-9) với w là một vector chứa tất cả các tham số của mô hình FFNN, f là một hàmsốđƣợcxácđịnh bởicấutrúc mạng vàcácthamsố.
Việc chọn số nơron đầu vào p và số nơron của lớp ẩn q phụ thuộc vào tập dữliệu huấn luyện Mỗi tập dữ liệu chuỗi thời gian khi huấn luyện với mô hìnhmạng nơron sẽ có p, q khác nhau Chọn p, q để tìm đƣợc mô hình dự báochuỗithờigian tốtnhấtphải quathựcnghiệmvà so sánhgiữacácmô hình.Nhƣ vậy việc đầu tiên là cần xác định các biến đầu vào và các biến đầura cho mô hình, số lƣợng biến đầu vào đƣợc xác định dựa trên thực nghiệmđể tìm ra giá trị phù hợp.Việc kế tiếp là xác định số lớp ẩn vầ số nơron trongtừng lớp ẩn và chạy huấn luyện dữ liệu trên 1 lớp ẩn chạy lần lƣợt đến nodethứ5,cuốicùngtađƣợcnhữngkết quảthửnghiệm.Quachương3tasẽthấyrõhơn vềđiều đó.
Môhình dự báo kết hợpgiữa Arima vàmạng nơron
MôhìnhArimavàmôhìnhmạngnơronlànhữngkĩthuậtđƣợcsửdụng khá nhiều trong dự báo dữ liệu chuỗi thời gian Nhƣng mỗi mô hình chỉ phùhợpvớimộtsốtậpdữliệunhấtđịnh.MôhìnhArimaphùhợpvớiphântích và dự báo dữ liệu chuỗi thời gian dạng tuyến tính, còn mô hìnhm ạ n g n ơ r o n lại phù hợp với phân tích dự báo dữ liệu chuỗi thời gian dạng phi tuyến tính.Để tăng độ chính xác cao của dự báo trong các ứng dụng thực tế mô hình kếthợp giữa Arima và mạng nơron đã được đề xuất G Peter Zhang đã đưa ra ýtưởng và giới thiệu trong nghiên cứu [7] Kết quả cho thấy mô hình kết hợptăng độ chính xác và có độ lỗi dự báo ít hơn so với từng mô hình độc lậpArimavàmạng nơron.
Ý tưởng của mô hình kết hợp giữa các thành phần tuyến tính và phi tuyến tính Phương trình mô tả các thành phần này như sau:
(2-10) Trongđó: ytlà giátrị củachuỗi thờigian.
Ntlà thành phầnphi tuyến tính.
MôhìnhArimađƣợcdùngđểdựbáochothànhphầntuyếntính.Nhữnggiátrịd ựbáolỗitừ môhìnhArima sẽđƣợcdựbáobằngmạngnơron.
(2-11) Trong đó: làgiá trị dự báocho thànhphần tuyến tínhtại thời điểmt.
(2-12)Trongđó:f làmộthàmphituyếnđƣợcxácđịnhbằngmạngnơron. làgiátrị ngẫunhiên tại thờiđiểmt.
Kýhiệu làgiátrịdựbáochothànhphầnphituyếntính.Kếtquảgiátrị dự báotại thời điểmt( đượctínhbởiphươngtrình[12]:
Mô hình kết hợp Arima và mạng nơron theo hướng tiếp cận xây dựngmôhìnhkếthợp ARIMA_FFNN.Môhìnhkếthợp nàygiống vớiý tưởngcủa G.P e t e r Z h a n g đ ề x u ấ t , t ứ c l à á p d ụ n g m ô h ì n h A R I M A đ ể d ự b á o t h à n h phần tuyến tính, sau đó sử dụng mô hình mạng nơron dự báo lỗi của mô hình(thành phần phi tuyến).Kết quả thực nghiệm trên các tập dữ liệu cho kết quảđềucó độ lỗi dự báo thấphơnmô hình độc lập.
Kếtluậnchương 2
Trong chương này tìm hiểu tổng quan về mô hìnhm ạ n g A r i m a v à mạngnơron,cácđặctrƣngcơbảncũngnhƣcáchìnhtrạngcủachúng,vàcuốicùng đƣa ra mô hình dự báo kết hợp giữa Arima và mạng nơron với kỳ vọngsẽ cho độ chính xác cao hơn và ít lỗi hơn so với từng mô hình riêng lẻ.TínhhiệuquảcủamôhìnhkếthợpsẽđượckiểmchứngtrongChương3.
Giớithiệu về các sông tỉnh BìnhĐịnh
Cács ô n g t r o n g t ỉ n h đ ề u b ắ t n g u ồ n t ừ n h ữ n g v ù n g n ú i c a o c ủ a s ƣ ờ n phía đông dãy Trường Sơn Các sông ngòi không lớn, độ dốc cao, ngắn, hàmlượng phù sa thấp, tổng trữ lượng nước 5,2 tỷ m³, tiềm năng thuỷ điện 182,4triệu kw Ở thượng lưu có nhiều dãy núi bám sát bờ sông nên độ dốc rất lớn,lũ lên xuống rất nhanh, thời gian truyền lũ ngắn Ở đoạn đồng bằng lòng sôngrộngvànôngcónhiềuluồnglạch,mùakiệtnguồnnướcrất nghèonàn;nhưngkhi lũ lớn nước tràn ngập mênh mông vùng hạ lưu gây ngập úng dài ngày vìcác cửa sông nhỏ và các công trình che chắn nên thoát lũ kém Trong tỉnh cóbốn con sông lớn làsông Côn (bắt nguồn từ phía bắc xã An Toàn huyện AnLão,c h ả y v ề h ƣ ớ n g t â y n a m r ồ i n a m , v à h ợ p l ƣ u v ớ isôngS a y ởr ì a b ắ c xã Vĩnh Sơn huyện Vĩnh Thạnh Sau đó sông chảy theo hướng đông nam quahuyện Vĩnh Thạnh nơi có hồ Vĩnh Sơn, thủy điện Vĩnh Sơn, hồ Định Bình,huyện Tây Sơn để rồi gặp các nhánh nhỏ bắt nguồn từ An Khê và Vân Canhtạo thành dòng lớn hơn),Lại Giang (đƣợc hình thành từ sự hợp nhất của haidòng sông là An Lão và Kim Sơn),La Tinh (Sông La Tinh bắt nguồn từhồHội Sơnthuộc vùng núiphía TâyhuyệnPhù Cát Nhiềusuốinhỏ khởi nguồntừ các dãy núi thuộc hai xãCát SơnvàCát Lâmđã tập hợp tạo nênthƣợngnguồnsông La Tinh)vàHàThanh (Sông Hà Thanh bắt nguồn từ miền núiphíaTây NamhuyệnVân Canh,tỉnhBình Địnhở độ cao 500mso vớimựcnước biển, chảy theo hướngTâyNam–Đông Bắc)cùng các sông nhỏ nhƣChâu Trúchay Tam Quan Ngoàicác sông đángk ể n ó i t r ê n c ò n l ạ i l à h ệ thống các suối nhỏ chằng chịt thường chỉ có nước chảy về mùa lũ và mạnglưới các sông suối ở miền núi tạo điều kiện cho phát triển thuỷ lợi và thuỷđiện.Độchephủcủarừngđếnnaychỉcònkhoảngtrên40%nênhàngnă m các sông này gây lũ lụt, sa bồi, thuỷ phá nghiêm trọng Ngƣợc lại, mùa khônướccácsôngcạnkiệt,thiếunướctưới.
Dự báo mực nước sông đóng vai trò tối quan trọng đối với hệ thống sông miền Bình Định nói chung và sông An Hòa nói riêng, nhằm giảm thiểu tác động của lũ lụt cho người dân hạ lưu và ven biển Trong thủy văn, nhiều phương pháp dự báo mực nước sông được áp dụng Tuy nhiên, do đặc điểm ngắn và dốc của sông cùng số liệu hạn chế về lưu vực, các phương pháp thống kê như phân tích hồi quy đa biến thường được sử dụng.
Ngoài việc sử dụng phươngphápn ó i t r ê n , n g h i ê n c ứ u đ ã t i ế n hà nh ứ n g d ụ n g m ạ n g n ơr o n t h ầ n k i n h , l à mộtphươngphápmớiđểxây dựngcácphươngándựbáochosôngAnHòaởtỉnhBìnhĐịnh.Đây làcácphương phápđơngiảnnhưngtậndụngtriệtđểcácthông tin (dữ liệu đo đạc) hiện có trên lưu vực và đặc biệt rất thuận tiện choviệcdự báo tácnghiệp [7].
Phátbiểu bài toán
Bài toán được đặt ra là lấy số liệu cụ thể về mực nước tại trạm sôngAnHòa vào lúc 7 giờ 00 các ngày trong tháng 9, tháng 10, tháng 11, tháng 12 củanhữngnăm2016,năm2017,năm2018,năm2019vàdựđoánchonhữngthángmƣatiếpthe ocủanăm2020.
Tậpdữliệuhuấnluyệnđƣợcchiathànhnhữngkhoảngdữliệuthờigian,nhữngkho ảngthờigianđầuđƣợcdùnglàmhuấnluyệnchomôhìnhArima(chạyhuấnluyệnArima chọnmôhìnhphùhợp(tìmp,d,q)).Dữliệuthuộckhoảngthờigiancònlạisẽđƣợcchạy huấnluyệndữliệuvới môhìnhFFNNđểdựbáolỗichomôhìnhArimavừaxâydựng.SửdụngArimađãhuấnluyệ nđểdựbáogiátrịchocácđiểmthờigiantrongtậpdữliệuthửnghiệmvàmôhìnhnơroncũngđƣợ csửdụngđểdựbáolỗichomôhìnhArimatrongtậpdữliệuthửnghiệm.
Bảngdữliệugồmcácgiờtrongngày,mựcnướctạitrạmAnHòaH(m),củacácthá ng9,tháng10,tháng11,tháng12củacácnăm2016,2017,2018và2019đƣợcthểhiệnởbản gsau:
Côngcụmôphỏng bài toán
R là một công cụ rất mạnh cho học máy, thống kê và phân tích dữ liệu.Đây là một ngôn ngữ lập trình, cho phép chúng ta tương tác với nhiều nguồndữ liệu và các gói thống kê (SAS, SPSS), ngôn ngữ này rất phù hợp cho việcmôphỏngdữliệuquabảngbiểu.mộtvàitínhnăngthốngkênổibậtcủaRnhƣBasicStat istics,Static graphics, Probabilitydistributions,…
R có những package thống kê toàn diện nhất với công nghệ mới nhất,nhữngýtưởngmớithườngxuấthiệnđầutiêntrênR.
Rlàopen-source nên bấtkỳaicũng cóthể sửdụngvàcải tiếnnó.
Vìlàopen-sourcenênRcóthếđƣợcdùngmọilúcmọinơichobấtcứviệcgì, kể cả báncácsản phẩmtừR theo điều kiện của giấyphép.
Rcó thểchạy trênbất kỳ hệ điều hànhnào.
Thửnghiệmchương trình
Trongbàiluậnvănnày,cácmôhìnhdựbáochuỗithờigiansẽđƣợccàiđặtvàthựcn ghiệmtrêntậpdữliệumựcnướcsôngtạitrạmAnHòa(thuộchệthốngsông Bình Định) được thu thập từ các ngày trong tháng 9, tháng 10, tháng 11,tháng12củacácnăm2016,năm2017,năm2018,năm2019(31/12/2019,487ngày)dựat rênsốliệuthốngkêcủaChicụcthủylợiphòngchốngthiêntaiBìnhĐịnh:https:// pcttbinhdinh.gov.vn/chi-cuc-thuy-loi/.Tậpdữliệuthựcnghiệmsẽ đƣợc chia thành hai phần: 80% các điểm thời gian đƣợc sử dụng để huấnluyện,20%cácđiểmthờigiancònlạisẽđƣợcsửdụngchothửnghiệmmôhình.
3.4.2 Đánhgiácácmôhìnhdựbáo Đểđánhgiáchấtlƣợngdựbáo,bàiluậnvănsửdụngcácđộđolỗiRMSE(RootMeanSq uareError)vàMAPE(MeanAbsolutePercentageError):
Để đánh giá hiệu quả của phương pháp kết hợp, bài toán được dự báo bằng các mô hình độc lập: Arima, mạng nơ-ron và phương pháp kết hợp hai dạng trên Đối với phương pháp kết hợp, MAPE được tính theo công thức: MAPE= 100 (3-2) với n là số điểm thời gian thử nghiệm, là giá trị thực tế và là giá trị dự báo từ mô hình.
Sử dụng hàm ACF, PACF để xác định các giá trị q, p thích hợp cho môhình Kết quả từ chuỗi dữ liệu cho thấy q có thể nhận các giá trị 2, 1, 1 và pcó thể nhận các giá trị 3, 1, 1 Chúng ta cần tìm ra một mô hình Arima phùhợpđểdự báo mực nướcsông.
Sau khi chạy huấn luyện dữ liệu kiểm tra độ lỗi bằng RMSE ta thấyđƣợc Arima (3,1,1) có độ lỗi thấp hơn Arima (2,1,1) đƣợc thể hiệnquabảng 3.1.
Bảng3.1.Độ lỗidựbáo củamôhình ARIMA
Hình3.6Chạynơron1lớp 1node ĐộlỗiRMSEvàMAPE
Hình3.7Chạynơron1lớp 2node ĐộlỗiRMSEvàMAPE
Hình3.8Chạynơron 1lớp 3node ĐộlỗiRMSE vàMAPE
Hình3.9Chạynơron1lớp 4node ĐộlỗiRMSE vàMAPE
Hình3.10Chạynơron 1lớp 5node Độlỗi RMSEvà MAPE
Mô hình FFNN (p-r-q) với p là số lớp đầu vào, r là số lớp ẩn và q là sốlớp đầu ra, ta chạy kiểm tra bộ dữ liệu l lớp chạy từ node thứ 1 đến node thứ 5cho thấy đƣợc độ lỗi RMSE và MAPE của mô hình FFNN đƣợc tổng hợpBảng3.2.
Saukhihuấnluyệntậpdữliệumộtlớpchạytừnode1đếnnodethứ5tađo đƣợc độ lỗi RMSE ở node thứ 5 FFNN(1-5-1) là nhỏ nhất0.1396048vàMAPE0.0036271.
FFNN(p,d,q,r)trongđómôhìnhArima(p,d,q)vớiplàbậctựhồiquy,dbậcsaiphânchuỗit hờigiankhảosátvàqlàbậctrungbình trƣợtk ế t hợpvớicácthamsốgồm1lớpẩn(r),cácnodechạytừ1đến5và1lớpđầuracủa FFNN.KếtquảthựcnghiệmcủacácmôhìnhdựbáomựcnướcsôngtrạmAnHòađượcthểh iệnởBảng3.3.
Bảng3.3 Bảngsosánh độ lỗidựbáo củamôhìnhA-FFNN
Sau khi kết hợp giữa Arima và FFNN huấn luyện tập dữ liệu của Arimavà nơron, ta sử dụng nơron để dự báo độ lỗi cho Arima và kết quả đo đƣợc làtổng giá trị của chúng. Kết quả thực nghiệm cho thấy mô hình kết hợp A-FFNN cho kết quả dự báo tốt hơn các mô hình khác dựa vào độ đo RMSE vàMAPE(xemBảng 3.4).
Bảng3.4 Bảng so sánh độ lỗidựbáo củacácmô hình
KếtluậnChương 3
Trong Chương 3, ngoài việc thử nghiệm dự báo mực nước sông theothời gian bởi các mô hình độc lập, tôi đã thử nghiệm dự báo bằng mô hình kếthợp giữa ARIMA và Mạng nơron Kết quả thử nghiệm cho thấy sự kết hợpnày ít lỗi hơn sovới việc chạy từngmô hình độc lập.
Dự báo chuỗi thời gian là một bài toán khó nhƣng rất quan trọng trongcácl ĩ n h v ự c k i n h t ế v à t à i c h í n h G ầ n đ â y , d ự b á o v ề b i ế n đ ộ n g t h i ê n t a i nhận đƣợc nhiều quan tâm của các nhà nghiên cứu trong kinh tế và kể cảkhoahọcmáytính.Vớicácđặctrưngcủamình,mựcnướcbiếnđộngthườngxuyên dẫn đến việc dự báo gặp nhiều khó khăn Trong bài luận văn thựcnghiệm các mô hình dự báo ARIMA, FFNN, A-FFNN để dự báo mực nướcsông trong ngày tiếp theo Kết quả thực nghiệm cho thấy, các mô hình kếthợp Arima và mạng nơron đều có độ lỗi dự báo thấp hơn các mô hình riênglẻ, chứng tỏ mô hình kết hợp sẽ cho dự báo tốt hơn với các độ đo RMSE vàMAPE.
Nhìn chung, với chuỗi dữ liệu biến động lớn, các mô hình Arima vàmạng nơron còn gặp nhiều khó khăn trong dự báo trên tập dữ liệu này.Trongtươnglai,cácmôhìnhDeepLearningsẽđượcnghiêncứuthửnghiệmvớikỳvọng mang lại kếtquảdự báo tốt hơn.
[1] Nguyễn Quốc Dương, Lê Phương Thảo, Đinh Thị Quỳnh Như, Cao ThịÁi Loan, Phùng Thị Hồng Diễm,Lê Thanh Bính, Ứng dụng Shiny kết hợpvớimôhìnhARIMAđểdựbáođạidịchCOVID-
[2] Lê Hữu Vinh & Nguyễn Đình Thuân, Kỷ yếu Hội nghị Quốc gia lần thứXII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR) Huế, 07-08/06/2019.
[3] Lê Hải Khôi & Trần Đức Minh, Về một phương pháp dự báo dữ liệu sửdụng mạngnơron (TạpchíTin họcvàĐiềukhiểnhọc20(2004), N2).
[4] Trần Đức Minh, Trần Huy Dương, Vũ Đức Thi, Kỷ yếu Hội nghị
Quốcgia lần thứ VIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thôngtin(FAIR).Hà Nội, ngày09-10/07/2015.
[5] Nguyễn Quang Hoan (2005), Giáo trình mạng nơ ron nhân tạo, Học việncôngnghệbưu chínhviễnthông.
[6] Nguyễn Đình Thúc (2000), Mạng nơ ron nhân tạo – phương pháp và ứngdụng,Nhàxuất bản Giáodục.
[7] PGS.TS Lê Văn Nghinh, Ths Hoàng Thanh Tùng, Ks Nguyễn Ngọc
HảiNghiên cứu ứng dụng mạng Nơron thần kinh vào dự báo lũ các sông ởtỉnhBình Địnhvà Quảng Trị.
[8] G Box and Jenkin (1970), Time Series Analysis, Forecasting and
Control,4 ed., San Francisco: Holden-Day,1970, pp.234-239.
[9] D.N.GujaratiandD.C.Porter(2009),BasicEconometrics,5ed.,vol.5,
[10] D Dickey and W Fuller (1979), “Distribution of the Estimators forAutoregressive Time Series with a Unit Root”, Journal of the AmericanStatisticalAssociation, vol 74, pp 427-431.
[11] G Peter Zhang, “Times series forecasting using a hybrid ARIMA andneuralnetwork model”, Neurocomputing, vol.50, pp 159–75, 2003.
[12] Nitin Merh, Vinod P Saxena, Kamal Raj Pardasani, “A comparisonbetween hybrid approaches of ANN and ARIMA for Indian stock trendforecasting”, Journal of Business Intelligence, vol 3, no 2, pp 23–43,2010.