Với cách tiếp cận theo hướng rút trích đặc trưng đượchiệu quả hơn, công trình nghiên cứu [13] đã kết hợp mạng AutoEncoder, vớiphần lõi là bộ mã hóa LSTM và bộ giải mã LSTM, dùng để rút t
Trang 2Cán bộ hướng dẫn khoa học : PGS TS Dương Tuấn Anh
Cán bộ chấm nhận xét 1 : PGS TS Võ Thị Ngọc Châu
Cán bộ chấm nhận xét 2 : TS Bùi Công Giao
Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày 08 tháng 02 năm 2023
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
1 PGS TS Lê Hồng Trang - Chủ tịch hội đồng
2 TS Nguyễn Thị Ái Thảo - Thư ký
3 PGS TS Võ Thị Ngọc Châu – Phản biện 1
4 TS Bùi Công Giao – Phản biện 2
5 TS Nguyễn Thị Thanh Sang - Ủy viên
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên ngành sau khi luận văn đã được sửa chữa (nếu có)
VÀ KỸ THUẬT MÁY TÍNH
Trang 3NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: Nguyễn Đức Huy MSHV: 2070010
Ngày, tháng, năm sinh: 23/06/1996 Nơi sinh: Vĩnh Long
Chuyên ngành: Khoa học máy tính Mã số : 8480101
I TÊN ĐỀ TÀI: Dự báo chuỗi thời gian hỗn loạn dựa trên mạng LSTM,
AutoEncoder và lý thuyết hỗn loạn (Prediction of chaotic time series based on LSTM, AutoEncoder, and Chaos Theory)
II NHIỆM VỤ VÀ NỘI DUNG :
Nhiệm vụ : Nghiên cứu lý thuyết hỗn loạn áp dụng cho chuỗi thời gian hỗn loạn để đề xuất phương pháp dự báo dựa trên việc tái tạo không gian pha Huấn luyện mạng
AutoEncoder để xây dựng bộ rút trích đặc trưng từ dữ liệu không gian pha Huấn luyện
bộ dự báo dựa trên mạng LSTM Nghiên cứu được thực nghiệm trên tám bộ dữ liệu khác nhau bao gồm cả những bộ dữ liệu tổng hợp và những bộ dữ liệu thực tế
Nội dung :
1 Nghiên cứu lý thuyết hỗn loạn, áp dụng các độ đo thông tin tương hỗ trung bình(Average Mutual Information) để xác định độ trễ, và giải thuật lân cận gần nhấtgiả (False Nearest Neighbor) để tìm số chiều nhúng hợp lý
2 Tái tạo không gian pha từ chuỗi thời gian đơn biến ban đầu
3 Cài đặt và huấn luyện mạng AutoEncoder
4 Dùng bộ mã hóa lấy từ mạng AutoEncoder để rút trích đặt trưng Thực hiện một
số kỹ thuật sinh đặt trưng, chuẩn hóa dữ liệu chuẩn bị đầu vào cho bộ dự báo
5 Huấn luyện bộ dự báo trên tám bộ dữ liệu khác nhau
6 So sánh các phương pháp khác: mạng LSTM không dùng lý thuyết hỗn loạn,mạng LSTM dùng lý thuyết hỗn loạn, chỉ dùng mạng AutoEncoder và lý thuyếthỗn loạn
7 Thực nghiệm dùng mạng Bi-LSTM thay cho LSTM
III NGÀY GIAO NHIỆM VỤ : 14/02/2022
IV NGÀY HOÀN THÀNH NHIỆM VỤ: 10/12/2022
Trang 5Lời cảm ơn
Lời đầu tiên, tôi xin gửi lời cảm ơn chân thành đến thầy PGS TS DươngTuấn Anh, đã luôn kiên nhẫn hướng dẫn và giúp đỡ tôi xuyên suốt quá trìnhthực hiện luận văn tốt nghiệp Dù có nhiều khó khăn trong những năm dịchbệnh Covid-19, nhưng được sự hỗ trợ từ thầy, được thầy góp ý phản biệnliên tục đã giúp tôi có cơ hội phát triển và hoàn thiện đề tài tốt hơn Nếukhông có sự chỉ dẫn từ thầy, thì khó lòng công trình này có thể thành hình
Kế tiếp, tôi muốn dành lời cảm ơn đến gia đình, họ là những người luônbên cạnh, động viên để tôi luôn vững tin nghiên cứu Sự hy sinh thầm lặng,thời gian và công sức để tôi chuyên tâm vào công việc nghiên cứu của mình.Sau cùng, tôi xin kính chúc quý Thầy Cô trong khoa Khoa Học và KĩThuật Máy Tính thật nhiều sức khỏe, luôn giữ vững niềm tin để thực hiện
sứ mệnh cao cả, truyền đạt tri thức cho thế hệ mai sau
Một lần nữa, xin chân thành cảm ơn
Thành phố Hồ Chí Minh, ngày 27 tháng 03 năm 2022
Nguyễn Đức Huy
Trang 6Tóm tắt Luận văn
Dù được nghiên cứu từ rất sớm, nhưng cho đến hiện tại, dự báo chuỗithời gian, đặc biệt là chuỗi có tính chất hỗn loạn chưa bao giờ mất đi sựcần thiết và quan trọng, được trải dài trên các lĩnh vực như tài chính, thờitiết, thiên văn, môi trường Cách tiếp cận theo hướng phân tích chuỗi thờigian như một hệ thống hỗn loạn tất định và vận dụng mạng nơ-rơn học sâu
đã cho những cải thiện, tuy nhiên vẫn còn nhiều hạn chế Nghiên cứu này
sẽ vận dụng lý thuyết hỗn loạn giúp biểu diễn lại dữ liệu đầu vào, hay còngọi là tái tạo không gian pha, rồi từ đó áp dụng cả cách học không giám sát
và giám sát để cải thiện kết quả dự báo Ở quá trình học không giám sát,mạng AutoEncoder được huấn luyện và sử dụng bộ mã hóa như một công
cụ để rút trích những đặc trưng ẩn tự động, sau đó được qua bộ dự báo cấutạo từ các lớp mạng Long-Short Term Memory (LSTM) Nghiên cứu đượcthực nghiệm trên tám bộ dữ liệu mẫu khác nhau bao gồm dữ liệu tổng hợp
và dữ liệu thực tế Dựa trên kết quả, phương pháp đề xuất đã cho nhữngcải thiện đáng kể so với các cách tiếp cận học sâu trước đây
Trang 7Time-series forecasting, especially in a chaotic system, is a critical lem because of its application in ubiquitous real-world areas, namely finance,weather, astronomy, environment, etc There are many studies, but it is stillchallenging to reach a higher accuracy due to its chaotic characteristic which
prob-is very sensitive on the initial condition In thprob-is work, we propose an proach that takes advantage of chaos theory to represent data into phasespace and combines Long Short-Terms Memory (LSTM) networks and au-toencoder (AE) First of all, the process of phase-space reconstruction startswith determining appropriate time lag and embedding dimension by aver-age mutual information and false nearest neighbors algorithm Autoencoder,which is constructed by LSTM units, takes responsibility for latent-featureextraction from unsupervised learning task and feeds into LSTM-based fore-caster afterward The experimental results on eight datasets including bothsynthetic and real-world chaotic time series based on Mean Absolute Error(MAE), Root Mean Squared Error (RMSE), and Mean Absolute PercentageError (MAPE) reveal that our proposed method outperforms other methodsusing only AE, LSTM with or without chaos theory
Trang 8ap-Lời cam đoan
Tôi tên Nguyễn Đức Huy, học viên cao học khoa Khoa học và Kỹ thuậttrường Đại học Bách Khoa Tp.HCM, mã số học viên 2070010 Tôi xin camđoan rằng, luận văn thạc sĩ "Dự báo chuỗi thời gian hỗn loạn kết hợp mạngLSTM, AutoEncoder và lý thuyết hỗn loạn" là kết quả của tìm hiểu, nghiêncứu đọc lập của chính bản thân Tôi xin cam đoan:
1 Luận văn được thực hiện cho mục đích tìm hiểu và nghiên cứu ở bậccao học
2 Các công trình, bài báo tham khảo để xây dựng nên luận văn này đềuđược trích dẫn, tham khảo Tất cả các tài liệu được trích dẫn và có tính
kế thừa từ các tạp chí và các công trình nghiên cứu đã được công bố
3 Những công cụ, phần mềm thực hiện cho luận văn đều là phần mềm
mã nguồn mở
4 Hình ảnh và số liệu được trích dẫn nguồn tham khảo rõ ràng
5 Kết quả nghiên cứu được trình bày trung thực dựa trên số liệu thực tếkhi chạy chương trình
Thành phố Hồ Chí Minh, ngày 27 tháng 03 năm 2022
Nguyễn Đức Huy
Trang 9Mục lục
1.1 Giới thiệu vấn đề 1
1.2 Mục tiêu nghiên cứu 3
1.3 Các kết quả đạt được 4
1.4 Cấu trúc luận văn 5
2 Cơ sở lý thuyết 6 2.1 Chuỗi thời gian có tính hỗn loạn 6
2.2 Tái tạo không gian pha 10
2.2.1 Xác định độ trễ τ 11
2.2.2 Xác định số chiều nhúng m 12
2.2.3 Số mũ Lyapunov 13
2.3 Mạng Long-Short Term Memory (LSTM) 14
2.4 Mạng AutoEncoder 20
Trang 102.5 Một số độ đo đánh giá hiệu quả dự báo 22
3 Các công trình liên quan 24 3.1 Dự báo chuỗi thời gian hỗn loạn bằng mạng Radial Basic Function (RBF) 24
3.2 Dự báo chuỗi thời gian hỗn loạn bằng mạng học sâu Deep Belief Network (DBN) 27
3.3 Dự báo chuỗi thời gian hỗn loạn bằng mạng LSTM 29
3.4 Dự báo trên chuỗi thời gian dữ liệu tỉ giá ngoại tệ bằng mạng LSTM kết hợp AutoEncoder 32
3.5 Kết luận 34
4 Phương pháp giải quyết vấn đề 35 4.1 Tái tạo không gian pha và tiền xử lý dữ liệu 36
4.1.1 Tái tạo không gian pha 36
4.1.2 Tiền xử lý dữ liệu 39
4.2 Rút trích đặc trưng bằng mạng AutoEncoder 42
4.3 Huấn luyện bộ dự báo chuỗi thời gian hỗn loạn 44
5 Hiện thực và kết quả thực nghiệm 47 5.1 Giới thiệu dữ liệu và các mô hình so sánh 48
5.1.1 Giới thiệu dữ liệu 48
5.1.2 Các mô hình và phương pháp thực nghiệm 53
5.2 Tái tạo không gian pha 53
5.3 Tiền xử lý dữ liệu 57
5.4 Huấn luyện mạng AE và rút trích đặc trưng 63
5.4.1 Huấn luyện mạng AE 63
5.4.2 Rút trích đặc trưng 67
5.5 Huấn luyện bộ dự báo 68
5.6 Hiện thực các mô hình đối sánh 71
5.7 Kết quả thực nghiệm và đánh giá 74
Trang 115.8 Đánh giá kết quả 75
6.1 Những kết quả đạt được 816.2 Hướng phát triển 82Danh mục các công trình khoa học 84
Trang 12Danh sách hình vẽ
2.1 Quỹ đạo chuyển động của hệ thống Lorenz trên không gian
ba chiều 8
2.2 5000 điểm dữ liệu của Lorenz trên trục x 8
2.3 Biểu đồ nến dữ liệu tỉ giá ngoại tệ USD/GBP[14] 9
2.4 Dữ liệu vệt đen mặt trời theo từng tháng 10
2.5 Độ thông tin tương hỗ trung bình cho bộ dữ liệu Lorenz 12
2.6 Xác định số chiều nhúng dựa vào FNN 13
2.7 Xác định số mũ Lyapunov trên dữ liệu Lorenz 15
2.8 Cấu trúc hoạt động của mạng RNN [13] 15
2.9 Kiến trúc một đơn vị tế bào của mạng LSTM [13] 17
2.10 Mạng LSTM và mạng Bi-LSTM 19
2.11 Ví dụ cơ chế hoạt động của mạng AE một tầng 20
2.12 Kiến trúc tổng quát của mạng AE hai tầng [13] 21
3.1 Kiến trúc mạng RBF [3] 25
3.2 Kiến trúc mạng DBN [6] 28
3.3 Hai kỹ thuật huấn luyện được sử dụng [11] 30
3.4 Kiến trúc một tế bào của mạng D-LSTM [20] 31
3.5 Phương pháp đề xuất dự báo chuỗi thời gian tỉ giá ngoại tệ [13] 33 4.1 Sơ đồ tổng quát của phương pháp đề xuất 37
4.2 Minh họa ứng dụng lý thuyết hỗn loạn trong dự báo chuỗi thời gian 38
Trang 134.3 Minh họa quá trình tái tạo không gian pha 39
4.4 Minh họa quá trình ghép nối các đặc trưng 45
4.5 Xây dựng bộ dự báo 46
5.1 Bộ dữ liệu Lorenz 50
5.2 Bộ dữ liệu Mackey-Glass 50
5.3 Bộ dữ liệu Rossler 50
5.4 Bộ dữ liệu Hénon Map 51
5.5 Bộ dữ liệu AUDUSD 51
5.6 Bộ dữ liệu EURUSD 51
5.7 Bộ dữ liệu vệt đen mặt trời 52
5.8 Bộ dữ liệu IBM 52
5.9 Độ tương hỗ thông tin trung bình của bộ dữ liệu AUDUSD ứng với từng độ trễ τ 55
5.10 Tỉ lệ FFN trên bộ dữ liệu AUDUSD 55
5.11 Kết quả của bước tái tạo không gian pha của bộ dữ liệu AUDUSD 56
5.12 Độ trung bình tương hỗ thông tin của bộ dữ liệu Lorenz ứng với từng độ trễ τ 56
5.13 Tỉ lệ FFN trên bộ dữ liệu Lorenz 57
5.14 Phân chia bộ dữ liệu Lorenz 59
5.15 Phân chia bộ dữ liệu Mackey-Glass 59
5.16 Phân chia bộ dữ liệu Rossler 59
5.17 Phân chia bộ dữ liệu Hénon Map 59
5.18 Phân chia bộ dữ liệu AUDUSD 60
5.19 Phân chia bộ dữ liệu EURUSD 60
5.20 Phân chia bộ dữ liệu vệt đen mặt trời 60
5.21 Phân chia bộ dữ liệu IBM 60
5.22 Dữ liệu huấn luyện AUDUSD 63
5.23 Dữ liệu giá trị mục tiêu huấn luyện AUDUSD 64
5.24 Kiến trúc mạng AutoEncoder để dự báo 65
Trang 145.25 Lỗi trong quá trình huấn luyện AE của bộ dữ liệu AUDUSD 68
5.26 Kiến trúc bộ dự báo 69
5.27 Lỗi của bộ dự báo trong quá trình huấn luyện trên dữ liệu AUDUSD 71
5.28 Kiến trúc mạng AE của mô hình AEBiLSTM 72
5.29 Kiến trúc bộ dự báo của mô hình AEBiLSTM 73
5.30 Kết quả dự báo trên bộ dữ liệu Lorenz 77
5.31 Kết quả dự báo trên bộ dữ liệu Mackey-Glass 77
5.32 Kết quả dự báo trên bộ dữ liệu Rossler 78
5.33 Kết quả dự báo trên bộ dữ liệu Hénon Map 78
5.34 Kết quả dự báo trên bộ dữ liệu AUDUSD 79
5.35 Kết quả dự báo trên bộ dữ liệu EURUSD 79
5.36 Kết quả dự báo trên bộ dữ liệu Sunspots 80
5.37 Kết quả dự báo trên bộ dữ liệu IBM 80
6.1 Chứng nhận tham dự hội nghị 84
Trang 15Chương 1
Giới thiệu vấn đề
Dù trải qua một lịch sử lâu dài nghiên cứu và phát triển, đạt được một
số bước tiến nhất định, nhưng bài toán dự báo trên chuỗi thời gian vẫn làmột vấn đề thách thức bởi tính bất định, hỗn loạn và tính tương quan của
nó Sự phong phú của dữ liệu chuỗi thời gian có thể kể đến trong các lĩnhvực như tài chính (dữ liệu tỉ giá ngoại tệ, chứng khoán), khí hậu (dữ liệu dựbáo thời tiết), môi trường, thiên văn, Việc dự báo xấp xỉ gần chính xácdiễn tiến của một chuỗi thời gian mang lại giá trị, lợi ích rất lớn trên nhiềuphương diện khác nhau Do đó, dù còn nhiều giới hạn, đây vẫn là một lĩnhvực, bài toán quan trọng, có ý nghĩa thực tiễn sâu sắc
Cách tiếp cận cổ điển cho bài toán chuỗi thời gian thường dựa trên thống
kê, phân tích các tính chất (ổn định (stationary) hay không ổn định stationary)) của chuỗi, phân tách chuỗi thành các đường xu hướng, yếu tốchu kỳ và khử nhiễu Phương pháp thường dùng là mô hình tự hồi quy (Au-toregression) và mô hình trung bình di động (Moving Average - MA) Chođến thời điểm hiện tại, phương pháp đường trung bình di động kết hợp vớicác tham số ngắn hạn và dài hạn vẫn được sử dụng làm chỉ báo đảo chiều xuhướng trong đầu tư chứng khoán Tuy nhiên, khuyết điểm lớn nhất chính là
Trang 16(non-độ trễ, khi MA cho kết quả dự báo luôn đi sau thị trường Mô hình ARIMA(AutoRegressive Integrated Moving Average) và các biến thể, với sự kết hợpcủa hai phương pháp nêu trên đã cho kết quả khả dụng, nhưng vẫn bị giớihạn bởi những ràng buộc ban đầu khiến mô hình này khó vượt qua giới hạn.
Về sau, với sự ra đời của mạng nơ-ron truyền thẳng đã mang lại nhữngcải thiện đáng ghi nhận trong công tác dự báo Nhưng khó khăn nội tại vẫnnằm ở tính chất hỗn loạn của chuỗi thời gian Tiếp sau đó, việc áp dụng lýthuyết hỗn loạn ([1], [2]) và kết hợp với mạng RBF (Radial Basis Function)[3] đã mang lại kết quả đáng hy vọng Lý thuyết hỗn loạn là phương phápbiểu diễn lại chuỗi thời gian ban đầu thành một không gian khác, gọi làkhông gian pha, do đó, phương pháp này được gọi là tái tạo không gianpha
Sự ra đời của GPU đã thúc đẩy sự phát triển của mạng nơ-ron học sâuvới những đóng góp tích cực trên nhiều lĩnh vực khác nhau như xử lý hìnhảnh, chuyển đổi tiếng nói thành văn bản, xử lý ngôn ngữ tự nhiên hoặc ngay
cả trong dự báo chuỗi thời gian [4] Đối với dữ liệu chuỗi thời gian, mộtnghiên cứu [5] dựa trên mạng DBN (Deep Belief Network) đã cho hiệu quảnhất định khi sử mạng nơ-ron học sâu Công trình [6] đề xuất khi kết hợpmạng DBN và lý thuyết hỗn loạn đã cho kết quả cải thiện đáng kể trongcông tác dự báo chuỗi thời gian có tính hỗn loạn Với tính chất phụ thuộcvào thời gian, mạng nơ-ron hồi quy (Recurrent Neural Network) được sửdụng để tăng hiệu quả dự đoán Sau đó, RNN được cải tiến để giải quyếthai tồn tại chính, thứ nhất là phụ thuộc xa, thứ hai là tình trạng bùng nổ vàtriệt tiêu độ dốc, mạng LSTM [7] (Long-short term memory) và GRU(GatedRecurrent Unit) ra đời để khắc phục hai vấn đề này
Mạng LSTM được sử dụng khá phổ biến ở thời điểm hiện tại và thu đượcnhững cải thiện quan trọng [8] Hơn nữa, khi kết hợp với lý thuyết hỗn loạn,một số đề xuất ([9], [10]) cũng đạt kết quả tốt khi giải quyết bài toán dựbáo một bước (one-step ahead prediction), hoặc cả bài toán dự báo đa bước(multi-step ahead prediction) ([11], [12]) Nếu nhìn dưới góc độ học sâu,
Trang 17việc chuyển đổi một không gian ban đầu thành một không gian khác với sốchiều thích hợp có thể được xem là một cách rút trích đặc trưng thông quabiểu diễn lại dữ liệu Với cách tiếp cận theo hướng rút trích đặc trưng đượchiệu quả hơn, công trình nghiên cứu [13] đã kết hợp mạng AutoEncoder, vớiphần lõi là bộ mã hóa LSTM và bộ giải mã LSTM, dùng để rút trích đặctrưng và mạng LSTM để dự báo trên dữ liệu tỉ giá ngoại tệ.
Từ những ý tưởng và hạn chế của các nghiên cứu hiện tại, nhận thấy bàitoán dự báo một bước trên chuỗi thời gian, đặc biệt là chuỗi thời gian cótính hỗn loạn vẫn còn có thể cải thiện Do đó, luận văn này sẽ tập trung giảiquyết bài toán dự báo chuỗi thời gian hỗn loạn một bước Đây sẽ lànền tảng để mở rộng, phát triển thành dự báo nhiều bước trong tương lai
Đề tài sẽ đề xuất và thực nghiệm một phương pháp để nâng cao hiệu quả
dự báo bằng việc kết hợp lý thuyết hỗn loạn trong việc biểu diễn lại dữ liệu,sau đó sử dụng mạng AutoEncoder để rút trích đặc trưng và cuối cùng, tậndụng tính chất của mạng LSTM để huấn luyện bộ dự báo Hơn nữa, luậnvăn còn thực nghiệm trên mạng Bidirectional LSTM (Bi-LSTM) thay chomột số lớp mạng LSTM để có thể đánh giá toàn diện phương pháp này
Để đánh giá khách quan, phương pháp được đề xuất sẽ thực nghiệm trênnhiều bộ dữ liệu mẫu khác nhau, từ bộ dữ liệu tổng hợp cho đến dữ liệu thực
tế và đồng thời so sánh với những đề xuất trước đó Cụ thể, các mô hìnhđược dùng để đối sánh bao gồm: phương pháp dự báo chỉ sử dụng mạngAutoEncoder, phương pháp dự báo chỉ sử dụng LSTM để dự báo chuỗi thờigian có tính hỗn loạn có và không áp dụng lý thuyết hỗn loạn
Trang 18Để kiểm chứng được phương pháp, chúng tôi đã thử nghiệm trên bảy bộ
dữ liệu khác nhau bao gồm dữ liệu tổng hợp (Lorenz, Mackey-Glass, Rossler,Hénon Map) và dữ liệu thực tế (AUDUSD, EURUSD, Sunspots, IBM) đểđảm bảo tính đa dạng, tổng quát hóa Khi so sánh với các mô hình đối chiếubao gồm: mạng LSTM không dùng lý thuyết hỗn loạn, mạng LSTM dùng
lý thuyết hỗn loạn, mạng AutoEncoder như bộ dự báo dùng lý thuyết hỗnloạn; phương pháp đề xuất đã cho thấy kết quả vượt trội hơn những phươngpháp kể trên
Dựa vào kết quả thu được, một số kết quả quan trọng được rút ra nhưsau:
• Lý thuyết hỗn loạn giúp cải thiện đáng kể kết quả dự báo
• Việc tận dụng bộ mã hóa của mạng AutoEncoder để rút trích đặt trưng
ẩn, làm đầu vào cho bộ dự báo mang lại kết quả đáng chú ý
• Phương pháp đề xuất kết hợp AutoEncoder và lý thuyết hỗn loạn luôncho kết quả tốt nhất trong cả tám bộ dữ liệu, từ tổng hợp đến thực tế
• Tùy vào bộ dữ liệu mà mạng LSTM hoặc Bi-LSTM sẽ mang lại kết quảtốt hơn
• Lỗi tính trên sai số phần trăm tuyệt đối trung bình (MAPE) luôn thấphơn 0.12% đối với bộ dữ liệu tổng hợp, và thấp hơn 2.55% đối với bộ
dữ liệu thực tế thể hiện được tính khả dụng của phương pháp đề xuất
Trang 191.4 Cấu trúc luận văn
Luận văn gồm sáu chương Cấu trúc luận văn được tổ chức như sau:
• Chương 1 - Giới thiệu vấn đề: trình bày một cách tổng quan về tìnhhình nghiên cứu bài toán dự báo chuỗi thời gian từ cổ điển cho đến hiệntại Qua đó, đề xuất một cách tiếp cận mới để có thể cải thiện hiệu quả
dự báo cho chuỗi thời gian hỗn loạn
• Chương 2 - Cơ sở lý thuyết: trình bày những cơ sở lý thuyết quan trọngbao gồm lý thuyết hỗn loạn, phương pháp xác định độ trễ, số chiềunhúng Giải thích cơ chế hoạt động của mạng LSTM, mạng AutoEn-coder
• Chương 3 - Các công trình liên quan: nêu lên, xem xét một số các côngtrình liên quan, phân tích ưu điểm và hạn chế Từ đó làm động lực đềxuất cách tiếp cận của đề tài
• Chương 4 - Phương pháp đề xuất: trình bày cụ thể hơn cách tiếp cận đềxuất, đó là kết hợp lý thuyết hỗn loạn để có thể lấy được nhiều thôngtin nhất từ chuỗi thời gian hỗn loạn, sau đó sử dụng mạng AutoEnderrút trích đặc trưng rồi dùng những đặc trưng đó để tiếp tục huấn luyện
Trang 20Chương 2
Cơ sở lý thuyết
Chương này sẽ trình bày một số kiến thức quan trọng được sử dụng trongluận văn, bao gồm những nội dung: chuỗi thời gian và tính chất hỗn loạn,phương pháp tái tạo không gian pha, nguyên lý hoạt động của mạng LongShort-Term Memory (LSTM), mạng AutoEncoder và một số độ đo đánh giáđược dùng trong công trình này
Dữ liệu chuỗi (sequence data) là một chuỗi dữ liệu có các phần tử (thường
là số nguyên/thực) nối tiếp nhau, có tính thứ tự và phụ thuộc lẫn nhau.Nghĩa là thứ tự xuất hiện trước sau trong chuỗi có tính ý nghĩa, nếu thayđổi sẽ làm mất đi tính chất vốn có của chuỗi
Dữ liệu chuỗi thời gian (time-series data) là một dạng của dữ liệu chuỗikhi được gán thêm thông tin về thời gian Ví dụ: dữ liệu giá cổ phiếu theongày, tỉ giá ngoại tệ, thời gian mặt trời mọc theo ngày, dữ liệu lượng mưatại một khu vực được thu thập theo ngày/tháng
Tựu trung lại, hai tính chất quan trọng của dữ liệu chuỗi, đặc biệt là dữliệu chuỗi thời gian cần quan tâm khi giải quyết các bài toán liên quan sovới dữ liệu khác, như hình ảnh hay dạng cấu trúc:
Trang 21• Chiều dài không cố định
• Thông tin có thứ tự, phụ thuộc, có liên hệ với nhau
Chuỗi thời gian có tính hỗn loạn là chuỗi dữ liệu được sinh ra từ sự chuyểnđộng tất định của một hệ phi tuyến Trong đó, các quy luật hấp dẫn xácđịnh nên quỹ đạo hệ thống tạo nên một tập con phức tạp với số chiều lớnđược gọi là một vùng hấp thu bất thường (strange attractor) Một hệ thốnghỗn loạn có tính chất nhạy cảm với điều kiện khởi tạo, dữ liệu ban đầu sẽchuyển động, thay đổi theo hàm mũ ở những bước sau theo thời gian Do
đó, việc dự báo trên chuỗi thời gian có tính hỗn loạn vẫn là một thách thức.Một số chuỗi thời gian có tính hỗn loạn:
• Hệ thống Lorenz: Sự chuyển động của các điểm dữ liệu của hệ thốngLorenz được biểu diễn bằng 3 phương trình vi phân ở công thức 2.1.Với a, b, c lần lượt là các tham số của phương trình Thông thường,giá trị mặc định của a = 10, b = 28, c = 8/3 Hình 2.1 minh họa quỹđạo dữ liệu Lorez trên 3 chiều không gian Hình 2.2 biểu diễn dữ liệuLorenz trên trục x với 5000 điểm dữ liệu
dt = x(b − z) − y dz
Trang 22Hình 2.1: Quỹ đạo chuyển động của hệ thống Lorenz trên không gian bachiều
Hình 2.2: 5000 điểm dữ liệu của Lorenz trên trục x
Trang 23diễn bằng 3 phương trình vi phân ở công thức 2.3.
dt = x + ay dz
dt = b + z(x − c)
(2.3)
• Tỉ giá của các đồng tiền trên thế giới cũng được xem là chuỗi thời gian
có tính hỗn loạn Hình 2.3 biểu diễn sự biến động tỉ giá của đồng Đô-la
Mỹ và đồng Bảng Anh (USD/GBP) từ năm 2000 đến giữa năm 2021
Hình 2.3: Biểu đồ nến dữ liệu tỉ giá ngoại tệ USD/GBP[14]
• Dữ liệu vết đen mặt trời: Hình 2.4 trình bày một đoạn dữ liệu thống kê
số vết đen xuất hiện ở mặt trời hàng tháng
Trang 24Hình 2.4: Dữ liệu vệt đen mặt trời theo từng tháng
Phương pháp tái tạo không gian pha (Phase Space Reconstruction ) [1] làmột phương pháp được sử dụng phổ biến trong giải quyết bài toán với chuỗithời gian hỗn loạn Phương pháp này là một cách biểu diễn lại dữ liệu chuỗithời gian sao cho thể hiện được thông tin đầy đủ hơn, tường minh bằng cách
mở rộng một chiều phi tuyến của dữ liệu sang nhiều hơn một chiều Cụ thể,
để tạo nên một không gian pha mới tương đương từ một chuỗi thời gian đơnbiến xt, với t = 1,2,3, .N, mỗi phần tửxt sẽ được gán lại bằng một giá trịliền kề sau khoảng thời gian trễ để tạo nên một vec-tơ mới
Xt= {xt, xt+τ, xt+2τ, , xt+(m−1)τ} (2.4)
Trong công thức 2.4, Xt là vec-tơ mới tái tạo trong không gian pha vớicác phần tử x t , x t+τ , x 2t+τ , , xt+(m−1)τ tương ứng trong chuỗi thời gian banđầu, τ là độ trễ (delay time), m là số chiều nhúng (embedding dimension)
Trang 25Số chiều nhúngm của một chuỗi thời gian là số chiều cần thiết để xây dựngkhông gian pha đồng thời tái tạo ngược lại chiều ban đầu mà không làmmất đi đặc tính hình vị (topological properties) của dữ liệu.
Theo lý thuyết của Takens [1], trên một chuỗi thời gian một chiều vô tận,không nhiễu, tham số τ và m có thể chọn một cách ngẫu nhiên Nhưng trênthực tế, chuỗi thời gian là hữu hạn và hỗn loạn, nên hai tham số τ và m cầnđược xác định bằng những phương pháp riêng Giá trịτ và m ảnh hưởng rấtnhiều đến bài toán, nếu τ quá nhỏ sẽ không đủ tách biệt, tương quan giữacác điểm trên trục tọa độ lớn sẽ không thể đảm bảo mỗi không gian phacung cấp đủ thông tin Ngược lại, độ trể quá lớn sẽ dẫn đến tình trạng ngắtquãng thông tin, mất thông tin Đối với số chiều nhúngm, m nhỏ thì không
đủ thông tin, nhưng khi m quá lớn dù cung cấp nhiều thông tin hơn nhưnglại gặp trở ngại về độ phức tạp tính toán Với phương pháp tái tạo khônggian pha được Takens đề xuất, số chiều nhúng lí tưởng m nên lớn hơn hoặcbằng (2D +1), với D là chiều không gian bất thường
2.2.1 Xác định độ trễ τ
Phương pháp thường sử dụng để xác định độ trễ τ tối ưu được Fraser
và Swinney [2] đề xuất sử dụng lý thuyết thông tin tương hỗ trung bình(average mutual information - AMI) Giá trị thông tin tương hỗ ứng củamột chuỗi thời gian ứng với độ trễ τ, S(τ ) được tính bằng công thức 2.5
Giá trị hợp lý của độ trễ chính là giá trị được chọn khi độ tương hỗ thôngtin đạt cực tiểu hoặc để tránh trường hợp độ trễ quá lớn, có thể chọn giá
Trang 26trị khi S(τ ) đạt cực tiểu cục bộ đầu tiên Một số phương pháp khác dùng
để xác định thời gian trễ là hàm tự tương quan (Autocorrection), phươngpháp C-C
Hình 2.5 biểu diễn tương quan giữa S(τ )và trên tập dữ liệu Lorenz 10000điểm Dựa vào hình trên, giá trị cực tiểu của AMI đạt được khi độ trễ bằng
62 Nhưng do 62 khá lớn, nên độ trễ sẽ được chọn là 10, chính là giá trị cócực tiểu cục bộ đầu tiên
Hình 2.5: Độ thông tin tương hỗ trung bình cho bộ dữ liệu Lorenz
2.2.2 Xác định số chiều nhúng m
Phương pháp lân cận gần nhất giả (False Nearest Neighbor – FNN) [15]
có thể áp dụng để tìm số chiều nhúng tối thiểu phù hợp Phương pháp nàytìm số chiều nhúng m bằng cách kiểm tra sự thay đổi của các điểm lân cậntrong không gian pha khi dần dần tăng số chiều nhúng Những điểm lân cậngiả hay “hàng xóm giả” được xem là những điểm mà mỗi khi tăng số chiềunhúng, các điểm đó không còn là lân cận nữa
Giả sử m0 số chiều nhúng của chuỗi thời gian{xi} Ứng với mỗi vec-tơXi
là lân cận gần nhất trong không gian có độ trễ τ với m chiều Khoảng cách
Trang 27Euclid giữa Xi, ˆ Xi làdm(Xi, ˆ Xi) Để kiểm tra sự ảnh hưởng của việc thay đổi
m (cụ thể là tăng dần số chiều), công thức độ tăng của khoảng cách (2.6) ởmỗi lần tăng số chiều nhúng sẽ được áp dụng
Ri = dm+1(Xi, ˆXi) − dm(Xi, ˆXi)
dm(Xi, ˆ Xi) (2.6)
Để xác định đó có phải là một lân cận giả, R i sẽ so với R t, một ngưỡngthực nghiệm định trước Nếu Ri > Rt thì đó là một lân cận giả Số chiềunhúng khả dụng là số chiều mà độ chênh lệch giữa Ri và Rt bằng khônghoặc đủ nhỏ Hình 2.6 biểu diễn cách tìm số chiều nhúng phù hợp dựa theophương pháp FNN trên dữ liệu 10000 điểm của Lorenz
Hình 2.6: Xác định số chiều nhúng dựa vào FNN
2.2.3 Số mũ Lyapunov
Rất khó nhận biết những chuyển động hỗn loạn nếu chỉ dựa vào sự quansát trên không gian pha Để xác định một chuỗi thời gian có tính chất hỗn
Trang 28loạn hay không, số mũ Lyapunov được sử dụng như một cách để đánh giá.Phương pháp này được đề xuất bởi Rosenstein và cộng sự [16] dựa trên tìm
số mũ Lyapunov cực đại
Sau quá trình tái tạo không gian pha, một điểm dữ liệu x n0 được chọn,
x n là tập hợp các điểm dữ liệu là lân cận của x n0 giới hạn trong khoảng cách
r
S = 1N
là một đường tăng dần tuyến tính ban đầu sau đó dần đi ngang
Hình 2.7 mô tả tương quan của hệ số S và số lượng điểm N với tập dữliệu 10000 điểm của hệ thống Lorenz
Số mũ Lyapunov cực đại được xác định bằng cách tìm hệ số đường thẳngcủa một đường xấp xỉ bằng phương pháp bình phương tối thiểu (least-squaremethod) Nếu hệ số góc tìm được dương, thì chuỗi thời gian có tính chấthỗn loạn
Mạng nơ-ron hồi quy (RNN: Recurrent Neural Network) là mạng nơ-ronnhân tạo được thiết kế chuyên biệt để giải quyết dữ liệu dạng chuỗi (âmthanh, văn bản, chuỗi thời gian) Với tính chất ghi nhớ trạng thái, thôngtin diễn ra ở phía trước, RNN đã giải quyết khuyết điểm của mạng nơ-rontruyền thống, do được cấu tạo từ các vòng lặp nên dễ dàng lưu lại đượcthông tin Cụ thể hơn, hình 2.8 là một phần của mạng, mô tả hoạt độngcủa mạng nơ-ron hồi quy Trạng thái ẩn (hidden state) chính là kết quả của
dữ liệu đầu vào thông qua các bước tính toán kết hợp với trạng thái ẩn của
Trang 29Hình 2.7: Xác định số mũ Lyapunov trên dữ liệu Lorenz
bước phía trước Do cách hoạt động như vậy, thông tin của các bước phíatrước sẽ được ghi nhớ
Hình 2.8: Cấu trúc hoạt động của mạng RNN [13]
Giả sử x = x1, x2, , xt biểu diễn một chuỗi dữ liệu với độ dài là t, ht làtrạng thái ẩn (đầu ra của tầng ẩn) hay còn được xem là bộ nhớ của mạngnơ-ron hồi quy ứng với bước thời gian t h t được cập nhật theo công thứcnhư sau:
ht= σ(Wxxt+ Whht−1+ bt) (2.8)
Trang 30Trong đó, σ là một hàm phi tuyến (ví dụ: hàm sigmoid, tanh, ReLU) Wx
và Wh lần lượt là ma trận trọng số, bt là độ lệch (bias)
Với tính chất ghi nhớ thông tin theo thời gian nên mạng nơ-ron hồiquy đã được sử dụng để giải quyết các bài toán như dịch máy (machinetranslation), chuyển đổi tiếng nói thành văn bản (speech-to-text), chuyểnđổi văn bản thành giọng nói (text-to-speech),
Tuy nhiên, mạng RNN vẫn còn một số khuyết điểm nhất định Thứ nhất,vấn đề phụ thuộc xa hay có thể hiểu, RNN có một “trí nhớ ngắn hạn”, khigặp những dữ liệu dài, càng về sau RNN sẽ dễ dàng quên đi những thôngtin đã ghi nhớ phía trước Thứ hai, trong quá trình lan truyền ngược, lặp
đi lặp lại nhiều lần, tình trạng độ dốc triệt tiêu (vanishing gradient) và độdốc bùng nổ (exploding gradient) sẽ xảy ra dẫn đến khó hội tụ
Mạng LSTM được đề xuất năm 1997 từ công trình nghiên cứu của iter và Schmidhuber [7], là một dạng của RNN nhưng cải tiến hơn để giảiquyết những vấn đề tồn tại của RNN, đặc biệt là phụ thuộc xa Một kỹthuật mới được giới thiệu để điều phối thông tin, cho phép những thông tinquan trọng, có giá trị trong việc dự đoán được đi qua, được lưu lại ở nhữngbước tiếp theo Đồng thời loại bỏ đi những thông tin không cần thiết Ýtưởng cốt lỗi của mạng LSTM chính là trạng thái tế bào (cell state), và sựkết hợp của các cổng (gates)
Hochre-Hình 2.9 mô tả kiến trúc một đơn vị tế bào (cell/block) của mạng Mỗimột khối sẽ gồm 3 cổng: cổng nhập (input gate), cổng xuất (output gate)
và cổng quên (forget gate) Trạng thái tế bào (cell state) chính là đường nối
Ct−1 đến Ct, chạy xuyên qua một khối, xuyên suốt từ khối này đến khốikhác Ba cổng nêu trên có nhiệm vụ kiểm soát, duy trì và bảo vệ trạng tháicủa khối này bằng cách tính toán, thêm vào hoặc bỏ đi, điều chỉnh cẩn thậnthông tin ở mỗi cổng
Hoạt động của từng khối cụ thể như sau: Bước đầu tiên, LSTM sẽ đánh giáthông tin nào cần bỏ đi ở trạng thái tế bào Cổng quên có nhiệm vụ loại
bỏ đi những thông tin được xem là không cần thiết Với đầu vào là ht−1, xt
Trang 31Hình 2.9: Kiến trúc một đơn vị tế bào của mạng LSTM [13]
được gộp lại (concatenate) đi qua một hàm sigmoid với đầu ra nằm trongkhoảng [0,1], tương ứng 0 là quên toàn bộ thông tin này, 1 là ghi nhớ tất cảthông tin ở bước này Công thức 2.9 biểu diễn quá trình tính toán này, với
f t là đầu ra của cổng quên ở thời điểm hiện tại, σ là hàm sigmod, C t−1 và
ht−1 lần lượt là trạng thái tế bào và giá trị của tầng ẩn ở thời điểmt − 1,Wf
và bf là vec-tơ trọng số và độ lệch tương ứng từ tầng nhập đến cổng quên
it = σ(Wi[Ct−1, ht−1, xt] + bi) (2.10)
ˆ
Ct = tanh(Wc[ht−1, xt] + bc) (2.11)
Trang 32Trong đó,it là giá trị của đầu ra của cổng xuất,Wivà bilần lượt là vec-tơtrọng số và độ lệch của cổng nhập Cˆt là đầu ra của công đoạn thứ hai với
Wc và bc lần lượt là vec-tơ trọng số và độ lệch của trạng thái tế bào
Sau bước này, mạng LSTM sẽ tiến hành cập nhật trạng thái tế bào Côngthức 2.12 biểu diễn cách cập nhật kết hợp từ giá trị đầu ra của cổng quên
và cổng nhập
Ct= ft∗ Ct−1+ if ∗ ˆ Ct (2.12)Bước cuối cùng là tính giá trị đầu ra của tầng ẩn hiện tại h t Bước này
do tầng xuất phụ trách với nhiệm vụ tính toán giá trị dựa vừa trạng thái
tế bào hiện tại Ct, đầu vào hiện tại xt và đầu ra phía trước ht−1 Công thức2.13 và 2.14 biểu diễn cách tìm giá trịht, với ot là đầu ra của cổng xuất, Wo
và bo lần lượt là vec-tơ trọng số và độ lệch từ cổng nhập đến cổng xuất
ot = σ(Wo[Ct, ht−1, xt] + bo (2.13)
ht = ot∗ tanh(Ct) (2.14)Tóm lại, cổng quên dùng để quyết định giữ hay quên những thông tin từbước phía trước Cổng nhập sẽ xác định đó là thông tin nào, biểu diễn, rồikết hợp với cổng quên để cập nhật trạng thái tế bào hiện tại Cổng xuất sẽtính toán và trả về giá trị của tầng ẩn
Ưu điểm của mạng LSTM:
• Kiến trúc chuyên biệt cho dữ liệu dạng chuỗi
• Dữ liệu đầu vào không cần phải cố định
• Mô hình mạng độc lập với độ dài của dữ liệu đầu vào
• Quan tâm đến yếu tố phụ thuộc theo thời gian của dữ liệu
• Chia sẻ trọng số, giúp giảm lượng tham số, từ đó đảm bảo tính tổngquát hóa, tránh tình trạng quá khớp
Trang 33• So với mạng RNN, LSTM giải quyết được hai vấn đề Thứ nhất là phụthuộc xa, thứ hai là bùng nổ/suy giảm độ dốc
Khuyết điểm của mạng LSTM:
• Tính toán tuần tự, do dữ liệu đầu vào của bước tiếp theo phụ thuộcvào dữ liệu đầu ra của bước phía trước
• Chỉ tính toán theo một chiều, từ trước ra sau (forward) Trong nhiềutrường hợp, dữ liệu có sự phụ thuộc theo chiều ngược lại (backward) cóđóng góp quan trọng trong việc dự đoán
Để khắc phục nhược điểm trên, mạng LSTM sẽ được huấn luyện cả haichiều của dữ liệu Kiến trúc mạng như vậy được gọi là mạng LSTM haichiều [17] (Bidirectional LSTM hay Bi-LSTM)
Hình 2.10: Mạng LSTM và mạng Bi-LSTM
Hình 2.10 biểu diễn cơ chế hoạt động của một tầng mạng của mạng LSTM
và Bi-LSTM Có thể thấy, thay vì chỉ huấn luyện theo một chiều là chiềuthuận (forward) của dữ liệu, mạng Bi-LSTM còn tận dụng luôn cả chiềungược lại (backward) Thực chất, mạng Bi-LSTM chính là hai tầng LSTMtheo hai chiều ngược nhau kết hợp lại
Trang 342.4 Mạng AutoEncoder
AutoEncoder (AE) là một dạng của mạng nơ-ron nhân tạo (ANN) vớiđặc tính đầu vào và đầu ra giống nhau Nhiệm vụ của AE là nén véc-tơ đầuvào thành một khối có số chiều thấp hơn, sau đó tái tạo lại đầu ra, mục tiêu
là giống với đầu vào
AE gồm ba thành phần chính: bộ mã hóa (encoder), mã (code), bộ giải
mã (decoder) Bộ mã hóa có nhiệm vụ chuyển đổi, biểu diễn dữ liệu đầu vàothành mã Cách biểu diễn này gọi là biểu diễn không gian tiềm ẩn (laten-space representation) Bộ giải mã chịu trách nhiệm chuyển đổi, tái tạo mãngược lại thành dữ liệu đầu vào Hình 2.11 mô tả các hoạt động cụ thể củamạng AE một tầng cho một chuỗi thời gian
Hình 2.11: Ví dụ cơ chế hoạt động của mạng AE một tầng
Hình 2.12 mô tả tổng quát kiến trúc của mạng AE
Về mặt xây dựng, kiến trúc, mạng AE cần phương pháp mã hóa, phươngpháp giải mã và hàm lỗi dùng để so sánh đầu vào và đầu ra của mạng Do
Trang 35Hình 2.12: Kiến trúc tổng quát của mạng AE hai tầng [13]
• Dữ liệu đầu ra được tái tạo không hoàn toàn giống chính xác với dữliệu đầu vào
Thông thường, cả bộ mã hóa lẫn giải mã đều được xây dựng bằng mạngnơ-ron truyền thẳng với đầy đủ kết nối (fully-connected feed forward neuralnetworks) Tầng mã cũng là một tầng ANN, với số nốt được tùy chọn chophù hợp Với tính chất nêu trên, mạng AE có những siêu tham số cần phảiđược tinh chỉnh như sau:
• Số nút tầng mã (code size): Càng nhỏ thì số chiều thu giảm càng nhiều,nhưng quá nhỏ sẽ dẫn đến mất thông tin
• Số tầng của bộ mã hóa và giải mã
• Số nút ở mỗi tầng của bộ mã hóa và giải mã
• Hàm lỗi để so sánh dữ liệu đầu vào và dữ liệu đầu ra Thông thường,hàm MSE (mean squared error) sẽ được chọn để làm cơ sở đối chiếu
Trang 36Ngoài ra, tùy vào thực tế dữ liệu đầu vào, có thể thay kiến trúc mạng
AE bằng cách dùng đơn vị là đơn vị thuộc các loại mạng khác như LSTM,GRU,
Trong bài toán dự báo, để có thể đánh giá chất lượng mô hình, các độ
đo phổ biến thường được sử dụng như MAE (Mean Absolute Error), RMSE(Root Mean Squared Error) và MAPE (Mean Absolute Percentage Error).MAE, sai số tuyệt đối trung bình được hiểu là trung bình của tổng độ lớn
độ sai biệt giữa giá trị dự đoán và giá trị thực tế, với mỗi cặp giá trị (hiệusai biệt) có trọng số như nhau Độ đo này cho thấy độ chệnh lệch giữa dựbáo và thực tế nhưng lại không thể hiện chiều hướng sai lệch, nghĩa là giátrị dự báo lớn hơn nhỏ hơn so với giá trị thực
RM SE =
vuut
1 n
n
X
t=1 ( ˆ yt− yt) 2 (2.16)
Độ đọ MAE tuy thể hiện được sự khác biệt nhưng vẫn chưa bao hàm được
sự khác biệt về mặt đơn vị MAPE, sai số phần trăm tuyệt đối trung bình
là một độ đo chuẩn hóa về đơn vị, khắc phục hạn chế của MAE
Trang 37Cả ba độ đo trên đều là những độ đo tiêu cực (negative) Mục tiêu củacác bài toán dự báo là làm sao đạt được kết quả sai số thấp nhất, nghĩa làcủa MAE, RMSE và MAPE đều cần phải nhỏ.
Trang 38Chương 3
Các công trình liên quan
Trước khi đi vào phương pháp được đề xuất trong luận văn, chương này
sẽ trình bày tổng quan những công trình liên quan đã được nghiên cứu đểgiải quyết bài toán dự báo trên chuỗi thời gian Bốn nhóm công trình được
đề cập ở phần này lần lượt là:
• Dự báo chuỗi thời gian hỗn loạn sử dụng mạng Radial Basis Function
• Dự báo chuỗi thời gian hỗn loạn bằng mạng nơ-rơn học sâu, cụ thể làDeep Belief Network
• Dự báo chuỗi thời gian hỗn loạn bằng mạng LSTM
• Dự báo chuỗi thời gian ngoại hối bằng mạng LSTM kết hợp coder
mạng Radial Basic Function (RBF)
Công trình nghiên cứu của Nguyễn Văn Trực và Dương Tuấn Anh [3] đãcho thấy tính khả thi của việc ứng dụng lý thuyết hỗn loạn và mạng RBFvào công tác dự báo, kết quả đã cho những hiệu quả bước đầu khi so sánh
Trang 39với mạng ANN RBF là một dạng mạng của ANN, nhưng khác với ANN,quá trình huấn luyện của RBF được chia làm hai giai đoạn: giai đoạn họckhông giám sát và giai đoạn học giám sát Hình 3.1 trình bày kiến trúc củamột mạng RBF.
Hình 3.1: Kiến trúc mạng RBF [3]
Phương pháp được bài báo đề xuất là áp dụng lý thuyết hỗn loạn, xâydựng lại không gian pha bằng cách tìm độ trễ của chuỗi và không giannhúng khả dĩ bằng phương pháp thông tin tương hỗ và lân cận gần nhấtgiả Sau khi dùng phương pháp biến đổi của Takens, chuỗi thời gian banđầu {xt|t = 1, 2, , N } được biến đổi dưới dạng 3.1, tương đương với 3.2
Xt = {xt, xt+τ, x2t+τ, , xt+(m−1)τ}, t = 1, 2, , N − (m − 1)τ (3.1)
Trang 40Dữ liệu đem đi huấn luyện lần lượt là{(Xt, xt+1) : t = 1, 2, , N −(m−1)}.
Số mũ Lyapunov được tính để xác nhận tính chất hỗn loạn của các chuỗithời gian
Một điểm mới khác của công trình là cải tiến giải thuật lan truyền ngượctruyền thống (Basic Back-propagation algorithm) Sự khác biệt chính làchọn lọc dữ liệu huấn luyện để tiếp tục huấn luyện
Bộ dữ liệu để thí nghiệm bao gồm cả dữ liệu tổng hợp (được tạo ra từcác hàm toán học) và cả dữ liệu từ thực tế
Dữ liệu tổng hợp bao gồm:
• Hệ thống Lorenz (1000 điểm dữ liệu)
• Hệ thống Mackey-Glass (1001 điểm dữ liệu)
• Hệ thống Rossler (8192 điểm dữ liệu)
Dữ liệu thực tế được sử dụng bao gồm:
• Dữ liệu các vệt đen của mặt trời theo từng tháng từ tháng một năm
1749 đến tháng ba năm 1977
• Dữ liệu chỉ số tiêu dùng của Tây Ban Nha từ năm 1960 đến năm 2005
• Dữ liệu giá thị trường ngoại hối giữa cặp tiền USD/GBP (đô la Mỹ vàbảng Anh) theo tháng từ năm 1981 đếm 2005
• Dữ liệu giá đóng cửa của cổ phiếu IBM theo ngày từ tháng sáu năm
1959 đến cùng tháng năm 1960