LỜI CAM ĐOANTôi xin cam đoan rằng nội dung được trình bày trong luận văn "Dự báo luồng giao thông sử dụng chuỗi thời gian dựa trên các mô hình Transformer"là kết quảcủa quá trình nghiên
Trang 1ĐẠI HỌC QUỐC GIA TP HO CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
Trang 2LỜI CAM ĐOAN
Tôi xin cam đoan rằng nội dung được trình bày trong luận văn "Dự báo luồng
giao thông sử dụng chuỗi thời gian dựa trên các mô hình Transformer"là kết quảcủa quá trình nghiên cứu và thực nghiệm của chính bản thân tôi.
Trong quá trình thực hiện và viết luận văn này, tôi đã sử dụng và tríchdẫn các công trình khoa học từ nhiều nguồn tài liệu khác nhau Tất cả các thôngtin và tài liệu tham khảo đều được viện dẫn đầy đủ và rõ ràng theo quy định
Tôi cam kết rằng luận văn này không chứa bất kỳ tài liệu nào của người
khác mà không được trích dẫn theo đúng quy định của trường
Học viên
Trần Văn San
Trang 3LỜI CẢM ƠN
Trước hết, em xin gửi lời cảm ơn chân thành đến tất cả các thầy cô và
toàn thể cán bộ, nhân viên trường Đại học Công nghệ Thông tin, những người
đã tận tình hỗ trợ và hướng dẫn em trong suốt quá trình học tập Đặc biệt, em
vô cùng biết ơn thầy Đỗ Trọng Hợp, người đã nhiệt tình truyền đạt những kiếnthức quý giá và luôn đồng hành, hỗ trợ em hoàn thành luận văn này Em cũngxin gửi lời cảm ơn đến các em Trần Thị Thùy Dương, Trần Bình Hậu và TháiTrần Khánh Nguyên đã giúp đỡ trong quá trình thực hiện luận văn
Ngoài những kiến thức, kỹ năng đã tích góp được từ trước đến nay, em
cũng đã cố gắng tìm hiểu thêm những kiến thức mới để hoàn thành luận văn.
Dù em đã cố gắng hết sức và dành nhiều thời gian, công sức cho việc thực hiện luận văn này, nhưng chắc chắn không thể tránh khỏi những thiếu sót Em rất mong nhận được những ý kiến đóng góp từ quý thầy cô và các bạn để có thể
hoàn thiện và nâng cao chất lượng cho luận văn này
Em xin tri ân quý Thay/Cé, bạn bè, gia đình và xin gửi tới mọi người
những lời chúc tốt đẹp nhất Em chân thành cảm ơn!
TP HCM, ngày 05 tháng 10 năm 2024
Học viên
Trần Văn San
Trang 5MỤC LỤC
11 11
53 56 57 57
58 58
59
Trang 6MỤC LỤC
4.5 Thực nghiệm trên bộ dữ liệu traffic-minutel 75
Ứ/>xY TH 86
4.6.1 Sự phù hợp của mô hình| 86 4.6.2 Thuận lợi và khó khăn 86 4.6.3 Các bước áp dụng nghiên cứu - 87
89
Ce 89 Cee 89
ee 90
Trang 7Danh sách hình vẽ
2.3.1 Câu trúc tong the RNN đơn giản J6J|_
2.4.1 Câu trúc tong the CNN đơn giản Jđ|
3.1.2 Minh hoa cau trúc của LPU [28]
3.1.3 Cau trúc tong thé của TSMixer H 3.1.4 Cau trúc tong thể của TimeMixer IG} 00
3.2.1 Cau trúc tong the của SegRNN [L0} 2 2.
3.2.3 Minh hoa cau trúc 2D [19]) 2.
3.3.1 Câu trúc tong thể Transformer [L5)) 2 3.3.2 Cau trúc tong thé của Informer B27} 2 3.3.3 Cau trúc tong thể của Autoformer [2IJ) 002.
3.3.6 Mô hình PAM trong Pyraformer [[Í||
3.3.7 So sánh giữa Transformer gốc và iTransformer [[2||
giờ trên tập
Trang 8DANH SÁCH HÌNH VẼ
4.3.3 Truc quan hóa kết
Trang 9so với iTransformer (2024) 77
4.5.3 So sánh sự cải thiện hiệu suất của iTransformer (BS=16)} 794.5.4 Tong sô tham sô của Pyraformer và iTransformer trên traffic-hour| 804.5.5 So sánh kết quả của iTransformer với Pyraformer] 804.5.6 Các tham số và kích thước của Pyraformer (2022) trên tập traffic-hour| 824.5.7 Các tham sô và kích thước của iTransformer trên tập traffic-hour| 83
Trang 10DANH SÁCH BẢNG
Danh mục các ký hiệu, chữ viết tắt
Ký hiệu, chữ viết tắt Tên đầy đủ
ITS Intelligent Traffic System
NN Neural Network
DL Deep Learning
ML Machine Learning MLP Multilayer Perceptron CNN Convolutional Neural Network
AR Auto-regressive ARIMA Autoregressive Integrated Moving Average LSTM Long Short-Term Memory
RNN Recurrent Neural Network MSE Mean Square Error
MAE Mean Absolute Error
MTS Multivariate Time Series LTSF Long-term Time Series Forecasting
PeMS Performance Measurement System
MHA Multi-head Attention
DFT Discrete Fourier Transform
IDFT Inverse Discrete Fourier Transform
Trang 11pháp nhằm cải thiện hiệu quả luồng giao thông và giảm thiểu tắc nghẽn.
Dé tài "Du báo luồng giao thông sử dụng chuỗi thời gian dựa trên các mô
hình Transformer"được lựa chọn nhằm giải quyết khó khăn trong việc dự báo
luồng giao thông, đặc biệt là tính ngẫu nhiên và phức tạp của dữ liệu chuỗi thờigian Mặc dù các mô hình Học sâu đã đạt được nhiều thành tựu trong các lĩnhvực khác, việc áp dụng mô hình Transformer trong dự báo luồng giao thông vẫn
còn mới mẻ và đầy triển vọng.
Mục tiêu của nghiên cứu này là xây dựng và đánh giá mô hình iTransformer
để dự báo luồng giao thông dựa trên chuỗi thời gian, đồng thời so sánh hiệu quả
của nó với các phương pháp Học sâu hiện đại khác Nghiên cứu sẽ tiến hành
thí nghiệm trên dữ liệu hàng giờ do Bộ Giao thông vận tải California cung cấp,
nhằm kiểm chứng khả năng của mô hình ïTransformer trong việc cải thiện độ
chính xác của dự báo luồng giao thông
Trang 12Chương 1
TONG QUAN
1.1 Lich sử van đề
Trong bối cảnh phát triển kinh tế và đô thị hóa, các thành phố lớn trên thế
giới đang đối mặt với tình trạng tắc nghẽn giao thông ngày càng nghiêm trọng Vấn đề này không chỉ kéo dài thời gian di chuyển mà còn gây ra các hệ lụy xã
hội như gia tăng tai nạn giao thông và ô nhiễm môi trường, đe dọa đến sự phát
triển bền vững của đô thị Để khắc phục, nhiều biện pháp như nâng cấp hạ tầng,
thu phí tắc nghẽn, và thúc đẩy giao thông công cộng đã được triển khai, nhưng
chỉ mang tính ngắn hạn và chưa giải quyết triệt để van đề [Z6].
Hệ thống giao thông thông minh (ITS) đã nổi lên như một giải pháp toàn diện, dựa vào công nghệ và phân tích dữ liệu để tối ưu hóa quản lý giao thông.
Một yếu t6 cốt lõi của ITS là khả năng dự báo chính xác luồng giao thông, hỗtrợ quản lý hiệu quả Tuy nhiên, dự báo luồng giao thông vẫn là thách thức do
tính ngẫu nhiên và độ phức tạp của chuỗi thời gian, đòi hỏi các mô hình dự báo
có độ chính xác và tin cậy cao [H4].
Từ những năm 1970, các mô hình thống kê như AR, ARIMA, và chuỗi Markov
đã được sử dụng để dự báo luồng giao thông, nhưng chúng gặp hạn chế khi đối
mặt với tính phi tuyến và ngẫu nhiên của hệ thống giao thông [2] Với sự phát
triển của công nghệ, các phương pháp Hoc máy (ML) và Hoc sâu (DL) như
mạng nơ-ron nhân tao (NN), RNN, và LSTM đã được áp dụng, mang lại hiệu
Trang 13Chương 1 TỔNG QUAN
quả cao hơn [T7] Tuy nhiên, các mô hình này vẫn gặp khó khăn khi xử lý chuỗi
thời gian rất dài hoặc dữ liệu phức tạp
Gần đây, mô hình Transformer đã nổi lên như một phương pháp mạnh mẽ
trong dự báo luồng giao thông, với khả năng xử lý các mối quan hệ không
gian-thời gian phức tạp mà không cần cấu trúc tuần tự như RNN hay LSTM Ví dụ,
mô hình Traffic Transformer của Cai và cộng sự đã cho thấy khả năng nắm bắt
tính liên tục và tuần hoàn của chuỗi thời gian giao thông 2] Tương tự, Zhang
và cộng sự đã phát triển một mô hình Transformer đồ thị không gian-thời gian
dựa trên cơ chế attention, giúp cải thiện độ chính xác của dự báo luồng giao
thông [2ð] Mặc dù đã đạt được những kết quả khả quan, việc dự báo chính xác
và đáng tin cậy trong các hệ thống giao thông phức tạp vẫn là một thách thức
lớn.
Nghiên cứu này tập trung vào việc đánh giá mô hình iTransformer trong dựbáo luồng giao thông, sử dung dữ liệu từ các cảm biến đường cao tốc tại khuvực Vinh San Francisco Mô hình được so sánh với các mô hình dự báo khác,
nhằm phân tích và đánh giá tính ưu việt của Transformer trong việc hỗ trợ ra quyết định trong quản ly giao thông 26], [17].
1.2 Mục tiêu của đề tài
Nghiên cứu và phát triển mô hình dự báo luồng giao thông sử dụng chuỗi thời gian dựa trên các mô hình Transformer Cụ thể, đề tài tập trung vào:
« Xây dung và tối uu hóa mô hình Transformer phù hợp để du báo luồng giao
thông trên các chuỗi thời gian dài hạn.
« Đánh giá và so sánh hiệu quả của mô hình iTransformer với các mô hình
dự báo luồng giao thông khác, bao gồm các mô hình thống kê truyền thống
và các mô hình DL khác.
« Thử nghiệm mô hình trên dữ liệu thực tế từ các cảm biến giao thông tại
khu vực Vịnh San Francisco và xác định tiềm năng ứng dụng của mô hình
Trang 14Chương 1 TỔNG QUAN
trong việc hỗ trợ ra quyết định quản lý giao thông.
1.3 Nội dung nghiên cứu của đề tài
Bao gồm các nội dung sau:
« Khảo sát các phương pháp dự báo luồng giao thông hiện có, bao gồm các
mô hình thống kê truyền thống, ML, DL, và các mô hình kết hợp
« Xây dựng mô hình Transformer tùy chỉnh để phù hợp với đặc thù của dữ
liệu chuỗi thời gian giao thông, đồng thời triển khai các kỹ thuật tối ưu hóa
để nâng cao hiệu quả dự báo.
« Thực hiện thử nghiệm các mô hình dự báo trên dữ liệu giao thông thực tế,
đồng thời so sánh kết quả giữa các mô hình Kết quả so sánh này sẽ được
sử dụng dé đánh giá và đê xuât mô hình iTransformer.
« Đánh giá tiềm năng áp dung của mô hình iTransformer trong hệ thống giao
thông thông minh (ITS) va đề xuất những hướng nghiên cứu tiếp nd
1.4 Cấu trúc luận văn
Ngoài phần M6 dầu luận văn được chia thành 5 chương:
« Chương 1 — Tổng quan
« Chương 2 — Cơ sở lý thuyết
« Chương 3 — Các mô hình dự báo
« Chương 4 — Thực nghiệm và đánh giá kết qua
+ Chương 5 — Kết luận và hướng phát triển
Trang 15Chương 2
CƠ SỞ LÝ THUYET
2.1 Luong giao thông và chuỗi thời gian
2.1.1 Luéng giao thông
Luéng giao thong (Traffic Flow) mô ta chuyển động của phương tiện trên
đường trong một khoảng thời gian Các yếu tố cơ bản gồm:
¢ Lưu lượng (Traffic Volume): Số phương tiện di chuyển qua một điểm
cụ thể trong một khoảng thời gian, đo bằng phương tiện/giờ.
‹e Mật độ (Traffic Density): Số phương tiện trên một đơn vị chiều dài
đường, do bằng phương tiện/km hoặc phương tiện/dặm.
‹ Tốc độ (Traffic Speed): Tốc độ trung bình của phương tiện trên đoạn
đường, do bằng km/h hoặc mph.
Tập dữ liệu traffic-hour trong nghiên cứu này bao gồm 862 chuỗi thời gian
riêng biệt, mỗi chuỗi biểu thị tỷ lệ phần trăm thời gian mà phương tiện chiếm dụng một đoạn đường hoặc làn đường cụ thể trong mỗi giờ.
2.1.2 Chuỗi thời gian thời gian
Chuỗi thời gian (Time series) là một day T các quan sát X = {Z,#2, , 27}
được sắp xếp theo thời gian, trong đó z¿ € R đại diện cho giá trị tại thời điểm
5
Trang 16Chương 2 CƠ SỞ LÝ THUYẾT
t, với N là số lượng biến số (với dữ liệu traffic-hour, N = 862) Chuỗi thời gian
thực tế thường có dạng đa biến do thu thập từ nhiều cảm biến khác nhau
Trong dự báo chuỗi thời gian đa biến (MTSF), từ các quan sát lịch sử X =
{zi, , zr}, chúng ta dự đoán S' bước thời gian tương lai Y = {#r+1, ,#7+s}.
« Input: Chuỗi thời gian 7 quan sát X = {z\,za, ,#r}, với x; € RY voi N
là số lượng biến số Số bước dự đoán S
¢ Output: Giá trị của biến đầu vào và Š bước dự đoán tương lai Y =
{#Z7T+1, tae #Tm+8}:
2.1.3 Các yêu tổ cơ bản của chuỗi thời gian
Phân tích chuỗi thời gian cần tập trung vào các yêu tố chính sau:
« Tính dừng (Stationary): Chuỗi được coi là dừng khi các đặc tính thống
kê như giá trị kỳ vọng, phương sai, và tự tương quan không thay đổi theo
thời gian, điều này hỗ trợ mô hình hóa chính xác hơn
¢ Phụ thuộc thời gian (Temporal Dependency): Mối quan hệ giữa các
giá trị tại các thời điểm khác nhau, có thể là ngắn hạn hoặc dài hạn, ảnh
hưởng đến dự báo
¢ Tương quan biến số (Variate Correlation): Quan hệ giữa các biến
trong chuỗi đa biến, giúp nâng cao độ chính xác của dự báo
¢ Hàm tự tương quan (Autocorrelation Function): Do lường mức độ
liên quan giữa các giá trị ở các thời điểm khác nhau, hỗ trợ trong việc đánh
giá mối liên hệ có độ trễ nhất định
« Phân rã (Decomposition): Phân tách chuỗi thành các thành phần như
xu hướng (trend), mùa vu (seasonal), chu ky (cyclical) và biến động bất
thường (irregular), làm rõ các mẫu ẩn và cải thiện hiệu quả dự báo.
Trang 17Chương 2 CƠ SỞ LÝ THUYẾT
2.1.4 Biến đổi Fourier
Biến đổi Fourier là công cụ toán học mạnh để phân tích tín hiệu, chuyển đổi
giữa miền thời gian và tần số Công thức của Biến đổi Fourier Rời rac (DFT)
Trong đó, X;, là giá trị tại tần số k, z„ là giá trị tin hiệu tại thời điểm n, N 1A
số mẫu trong tín hiệu, va i là đơn vị ảo
DFT chuyển tín hiệu x, từ miền thời gian sang miền tần số để phát hiện các
thành phần tan số, còn IDFT phục hồi tín hiệu từ miền tan số về miền thời
gian:
1 Nel
ma = Tý 6M cử, n=0,1,2, ,N—1 (2.1.2)
Thuật toán Fast Fourier Transform (FFT) giảm độ phức tap tính toán từ O(N?)
xuống O(N log N), trở thành phương pháp hiệu qua để xử lý các tín hiệu lớn.
Phân tích Fourier nhận diện tần số nổi bật, biểu diễn dưới dạng phổ để xác
định chu kỳ và đặc tính tín hiệu.
2.2 Cấu trúc tổng thé Hoc sâu
2.2.1 Giới thiệu
Học sâu, một nhánh của Học máy, sử dụng mạng nơ-ron (NN) để mô phỏng
các vấn đề phức tạp trong thế giới thực, lấy cảm hứng từ hoạt động của não bộ
2.2.2 Nơ-ron nhân tao (Artificial Neuron)
No-ron nhân tạo (hay no-ron) được giới thiệu vào năm 1943 bởi Warren
McCulloch và Walter Pitts, mô phỏng hoạt động của tế bào thần kinh sinh học[3] Hình minh hoa cấu trúc của một nơ-ron bao gồm:
Trang 18Chương 2 CƠ SỞ LÝ THUYẾT
>> ° |
a NHEN: » ty > y= (x'v)
H
Hình 2.2.1 Mô hình cấu trúc của một nơ-ron [3]
1 Đầu vào (Input): No-ron nhận giá trị từ các nơ-ron khác hoặc từ dữ liệu
ban đầu, mỗi giá trị này có một trọng số liên kết.
2 Tính tổng trọng số (Weighted Sum): Công thức tính tổng trọng số là:
z= À ` 1tị - g¿ + Ù, (2.2.1)
i=l
trong đó z là tổng trọng số; œ; là trọng số ứng với đầu vào z;; b là hằng số
thiên vị (bias).
3 Hàm kích hoạt (Activation Function): Tổng trong số z được đưa qua
hàm kích hoạt để quyết định đầu ra cuối cùng của nơ-ron, giúp mô hình học các mẫu phi tuyến tính phức tạp Một số hàm kích hoạt phổ biến gồm
Sigmoid, ReLU, và Tanh.
4 Đầu ra (Output): Đầu ra của nơ-ron là kết quả của hàm kích hoạt, truyền
đên các nơ-ron khác hoặc trở thành dau ra cudi cùng của mạng.
2.2.3 Multi-Layer Perceptrons (MLP)
Mạng no-ron perceptron da tầng (MLP) là một loại NN gồm nhiều lớp nơ-ron
liên kết với nhau Đây là một trong những kiến trúc cơ bản và phổ biến nhất
trong DL Hình minh họa kiến trúc đơn giản của MLP với các lớp chính
1 Câu trúc MLP bao gồm:
Trang 19Chương 2 CƠ SỞ LÝ THUYET
Input Layer Hidden Layer #1 Hidden Layer #2 Output Layer
Hình 2.2.2 Kiến trúc MLP đơn giản [3]
« Lớp đầu vào (Input layer): Nhận dữ liệu và truyền vào mạng, mỗi
nơ-ron trong lớp này đại diện cho một đặc trưng của dữ liệu.
« Lớp ẩn (Hidden layer): Nằm giữa lớp đầu vào và lớp đầu ra, có thể
xuất hiện nhiều lần để tăng cường khả năng học của mạng.
« Lớp dau ra (Output layer): Tạo ra kết quả cuối cùng, như xác suất
trong bài toán phân loại hoặc giá trị dự đoán trong bài toán hồi quy
2 Quá trình huấn luyện (Training)
¢ Huấn luyện mạng: Điều chỉnh trọng số nơ-ron để tối ưu mô hình,
thường dùng Gradient Descent để giảm hàm mất mát.
- Lan truyền ngược (Backpropagation): Thuật toán điều chỉnh trọng
số bằng cách lan truyền sai số từ lớp đầu ra qua các lớp trước.
2.3 Mô hình RNN
2.3.1 Giới thiệu
Recurrent Neural Network (RNN) xử lý dữ liệu tuần tự bằng cách sử dụng thông tin từ các bước trước qua trạng thái ẩn, nắm bắt phụ thuộc thời gian.
Trang 20Chương 2 CƠ SỞ LÝ THUYẾT
2.3.2 Cấu trúc của RNN
Cấu trúc cơ bản của RNN được minh họa trong Hình
1 Lớp đầu vào: Nhận dữ liệu dưới dạng vector hoặc chuỗi vector.
2 Lớp ẩn: Lưu trữ thông tin từ các bước trước và kết hợp với thông tin hiện
tại để tính trạng thái an mới h¿ tại thời điểm í:
hy = tanh(Wn,h¿T— + WanXt + bn) (2.3.1)
trong đó, h¿_¡ là trạng thái ẩn trước đó, X; là đầu vào tại thời điểm t, Wan
và W,, là ma trận trọng số, b„ là giá trị thiên lệch
3 Lớp đầu ra: Tạo dự đoán từ trạng thái ẩn cuối cùng hoặc của mỗi bước
thời gian, theo công thức:
Y¡ = softmax(Wyh; + by) (2.3.2)
trong đó, Wp, là ma trận trọng số, by là giá trị thiên lệch.
RNN phù hợp để xử lý các chuỗi có phụ thuộc dài hạn, nhưng các mô hình
RNN đơn giản thường gặp khó khăn với vấn đề gradient
10
Trang 21Chương 2 CƠ SỞ LÝ THUYẾT
2.3.3 Các biến thể của RNN
Một số biến thể cơ bản:
«Ổ LSTM: Sử dung các cổng để kiểm soát và duy trì thông tin dai hạn.
« GRU: Biến thể đơn giản hơn của LSTM, xử lý thông tin dài hạn hiệu quả.
¢ BiRNN: Sử dung hai RNN để xử lý chuỗi theo cả hai chiều.
2.4 Mô hình CNN
2.41 Giới thiệu
Mạng nơ-ron tích chập (CNN) xử lý dữ liệu lưới như hình ảnh, tự động trích
xuất đặc trưng qua các lớp tích chập, giúp phát hiện mẫu và trở thành tiêu
chuẩn trong nhận dạng hình ảnh [ổ|.
2.4.2 Cấu trúc cơ bản
Kiến trúc co bản của CNN bao gồm các thành phần chính như sau Hình
1 Lớp tích chập: Lớp cốt lõi của CNN, nơi các bộ lọc áp dụng lên dữ liệu để
trích xuất đặc trưng như cạnh, góc, tạo bản đồ đặc trưng Phép toán tích
chập được định nghĩa như sau:
MN
m=1n=1
trong đó Z;; là giá trị tại vi tri (7,7) trong bản đồ đặc trưng, X là đầu vào,
W là bộ lọc kích thước M x N, và 6 là giá trị thiên lệch.
2 Lớp pooling: Đặt sau lớp tích chập để giảm kích thước, tham số và tính
toán Max Pooling là phép pooling phổ biến, được định nghĩa như sau:
2 = max(Xj4m—1,j+n—1); M,NE {1, Lee St (2.4.2)
11
Trang 22Chương 2 CƠ SỞ LÝ THUYẾT
Pooling layer
Detector layer: Nonlinearity
e.g., rectified linear
Affine transform
Input to layers
Hình 2.4.1 Cấu trúc tổng thể CNN đơn giản
trong đó S$ x Š là kích thước cửa số pooling.
3 Lớp kích hoạt (Activation Layer): Đưa tính phi tuyến vào mô hình
bằng hàm ReLU (Rectified Linear Unit), được định nghĩa như sau:
ƒ(z) = max(0, z) (2.4.3)
trong đó z là đầu vào.
4 Lớp làm phẳng (Flattening Layer): Chuyển đổi các bản đồ đặc trưng
2D thành một vector 1D để đưa vào lớp kết nối đầy đủ.
5 Lớp kết nỗi day đủ (Fully Connected Layer): Kết nối mọi nơ-ron giữa
các lớp Phép toán trong lớp này được tính như sau:
Uụ=W -xz+b, (2.4.4)
trong đó, là đầu ra, W là ma trận trọng số, z là vector đầu vào, và b là
giá trị thiên lệch.
6 Lớp đầu ra (Output Layer): Thường là lớp softmax trong các bài toán
phân loại, với đầu ra là phân phối xác suất trên các lớp Hàm softmax được
12
Trang 23Chương 2 CƠ SỞ LÝ THUYẾT
định nghĩa như sau:
softmax(z;) = exp (2) (2.4.5)
7= exp(z;)
trong đó z; là đầu vào của nơ-ron thứ i, và K 1a số lớp.
13
Trang 24Chương 3
CÁC MÔ HÌNH DỰ BÁO
Nghiên cứu này dựa trên đánh giá của Wang và cộng sự (2024) [l, phân
loại các mô hình chuỗi thời gian sâu thành ba nhóm chính: mô hình thống kê
và MLP, mô hình DL dựa trên RNN va CNN, và nhóm Transformer, được phat
triển dựa trên công trình của Vaswani và cộng sự giới thiệu năm 2017 H1.
3.1 Một số mô hình theo hướng tiếp cận thống
kê 3.1.1 Mô hình FiLM (2022)
Giới thiệu
Các mô hình DL gặp khó khăn trong dự báo dài hạn do mat thông tin lịch
sử và nhiễu Để khắc phục, Zhou và cộng sự phát triển FiLM (2022) [28|, sử dụng phép chiếu Legendre để bảo toàn thông tin, kết hợp biến đổi Fourier loại
bỏ nhiễu, và xấp xỉ hạng thấp để tăng tốc tính toán, cải thiện độ chính xác.
Câu trúc cơ bản
FiLM ánh xạ chuỗi X — Y, trong đó X,Y € RT*Ỷ, thông qua hai thành
phần chính: Legendre Projection Unit (LPU) và Fourier Enhanced Layer (FEL)
14
Trang 25Chương 3 CÁC MÔ HÌNH DỰ BÁO
LPU xử lý thông tin lịch sử ở các quy mô khác nhau, trong khi FEL loại bỏ
nhiễu và tăng tốc độ tính toán Một lớp chuẩn hóa dữ liệu tùy chọn (RevIN) có thể được sử dụng để tăng độ ổn định cho mô hình.
Input:
ae RnTxP
Output:
Y eRTM?
Hình 3.1.1 Cau trúc tổng thể của FiLM
Cấu trúc FiLM (Hình B.1.1) gồm LPU và FEL Dữ liệu đầu vào được chuẩn hóa, chiếu vào không gian đa thức Legendre (LPU), xử lý với FEL để tạo ra bộ
nhớ tinh chỉnh, và cuối cùng tái tạo chuỗi đầu ra
1 RevIN (Reversible Instance Normalization): Phương pháp chuẩn hóa
và đảo ngược nhằm cải thiện độ chính xác của dự báo chuỗi thời gian bằng cách giảm thiểu sự khác biệt giữa phân phối dữ liệu huấn luyện và kiểm
tra.
¢ Normalization (Chuẩn hóa):
(i) _kE ()
a = (pe VVar|zt) ] +e = eel + Hy (3.1.1)
Trong đó: x) là giá trị đầu vào của biến thứ k tại thời điểm t trong
chuỗi ¿ B(x) | là giá trị trung bình, Var[zl)] là phương sai, + và 3, là
các tham số học được.
« Denormalization (Đảo ngược chuẩn hóa):
of) = \JVarlzlp] +c- _== *) + E[z(?] (3.1.2)
k
Trong đó: i) là đầu ra của mô hình sau khi dự đoán, 9? la gid tri dau
ra đã được khôi phục về phân phối gốc.
15
Trang 26Chương 3 CÁC MÔ HÌNH DỰ BÁO
2 Legendre Projection: Được sử dụng trong FiLM để nén và biểu diễn lịch
sử chuỗi thời gian qua các đa thức Legendre, giúp giảm kích thước dữ liệu
mà vẫn bảo toàn thông tin quan trọng Ham xấp xỉ g(t)(x) được biểu diễn
qua các đa thức Legendre P,,(-):
g(t)(x) = 5 Cn(t) Pn on + 1) (3.1.3)
Các hệ số e„(£) được cập nhật qua phương trình động:
d 1 1
Tre) = ~GAe(t) + BF (t) (3.1.4)
Trong đó: P„(-) là đa thức Legendre bậc n, A và B 1a các ma trận xác định
trước trong mô hình Legendre Projection giúp giảm nhiễu và tối ưu hóa
việc lưu trữ thông tin chuỗi thời gian dài hạn trong PiLM.
3 LPU (Legendre Projection Unit): Cấu trúc LPU (Hinh|3.1.2)
là một mô hình không gian trạng thái: Œ; = Ä(Œ¡_1 + Bz¿, trong đó x, € R
là tín hiệu đầu vào, Œ; € RTM là đơn vị bộ nhớ, và M là số đa thức Legendre.
LPU chứa hai ma trận cố định không thể huấn luyện được là A và được
định nghĩa như sau:
Giai đoạn tiếp theo tái tạo tín hiệu từ đơn vị bộ nhớ: X,¿=LPU_ R(C).
4 FEL (Fourier Enhanced Layer): FEL cải thiện tốc độ và độ chính xác
bằng xấp xỉ hạng thấp và chọn lọc tần số.
¢ Low-rank Approximation: Giảm số lượng trọng số, làm giảm độ
phức tạp của mô hình mà ảnh hưởng nhỏ đến độ chính xác.
« Mode Selection: Chọn các chế độ tần số cu thể sau biến đổi Fourier
để giảm nhiễu và tăng tốc độ huấn luyện Sử dụng chế độ tần số thấp
kết hợp một số cao ngẫu nhiên cải thiện hiệu suất.
16
Trang 27Chương 3 CÁC MÔ HÌNH DỰ BÁO
Use Legendre Polynomials
LPU: State Space Model BX, to reconstruct:
Input : X e R?*? Coefficient : C € R?*?*% Reconstruct : X € R?*?
Hình 3.1.2 Minh hoa cấu trúc của LPU [Z8]
Phân tích tham số mô hình
Đánh giá tham số cơ bản mô hình giúp hiểu rõ mục đích và tác động của
chúng trong huấn luyện và dự báo dữ liệu traffic-hour
‹Ổ Các tham số chung không đổi: Đối với tất cả mô hình, các tham
số như độ dài chuỗi đầu vào (seq_len=96), số đầu vào cho encoder và
decoder (enc_in, dec_in=862), số kênh đầu ra (c_out=862), số lớp decoder
(d_layers=1), và hệ số giảm số chiều của tensor (factor=3) là không đổi.
« Các tham số chung thay đổi:
— Độ dài nhãn (label_len): Xác định phần dữ liệu cho học trước dự
báo.
— Độ dài dự báo (pred_1en): Xác định số bước thời gian dự báo
— Số lớp encoder (e_layers): Anh hưởng đến độ phức tap và khả năng
học của mô hình.
— Kích thước batch (batch_size): Ảnh hưởng đến hiệu suất và tốc độ
huấn luyện.
1 Tham số kiến trúc của mô hình FiLM:
‹Ổ HiPPO_LegT: Dùng để giảm kích thước dữ liệu và bảo toàn thông
tin lịch sử.
17
Trang 28Chương 3 CÁC MÔ HÌNH DỰ BÁO
« SpectralConvid: Áp dụng biến đổi Fourier, điều chỉnh kích thước
kênh và lọc tần số
2 Ảnh hưởng của tham số mô hình đến kiến trúc:
+ label_len (48) và pred_ len (5): Ảnh hưởng đến cấu trúc ma trận
trong HiPPO_LegT, xác định lượng dữ liệu cần thiết cho học và dựbáo.
„ồ e layers (2), batch_ size (2), và learning rate (0.0001): Định
hình khả năng xử lý thông tin và hiệu suất huấn luyện của mô hình
‹ồ d_ model (32) va d_ ff (64): Ảnh hưởng đến khả năng biểu diễn và
học phi tuyến tính của mô hình
¢« down_ sampling_ layers (3),down_ sampling_ method (avg), va
down_ sampling_ window (2): Quy định cách giảm mẫu dữ liệu đầu
vào, kiểm soát lượng thông tin giữ lại.
Các tham số không chỉ làm rõ ảnh hưởng đến hoạt động của mô hình FiLM
mà còn tối uu hóa hiệu suất va chất lượng dự báo thông qua mối quan hệ giữa cấu hình thực thi và kiến trúc.
3.1.2 Mô hình TSMixer (2023)
Giới thiệu
Dữ liệu chuỗi thời gian thực tế thường đa biến và có động thái phức tạp Để năm bắt điều này, các kiến trúc DL tuần tự như mạng hồi quy và Attention đã trở nên phổ biến Tuy nhiên, nghiên cứu gần đây chỉ ra rằng các mô hình tuyến tính đơn giản có thể vượt trội trên nhiều tiêu chuẩn học thuật TSMixer (Time Series Mixer), do Chen và cộng sự phát triển năm 2023 [đ], mở rộng từ nghiên
cứu về khả năng của mô hình tuyến tính trong dự báo thời gian TSMixer là
một kiến trúc mới sử dung các multilayer perceptrons (MLP) xếp chồng để trộn
thông tin theo chiều thời gian và đặc trưng, nhằm trích xuất thông tin hiệu quả.
18
Trang 29Chương 3 CÁC MÔ HÌNH DỰ BÁO
: (crc) | (ite ah ll
( Ee 8 Re g( ' —— —— (FCì| Boopout ) Z |f hao Vv Ÿ
l Dropout ' L7 Fe : †— tl
{Dropout )
Hình 3.1.3 Cau trúc tổng thể của TSMixer J]
1 Time-mixing MLP: MLP trộn thời gian mô hình hóa các mẫu trong
chuỗi, bao gồm lớp fully-connected, hàm kích hoạt và dropout Đầu vào
được hoán vị để áp dụng các lớp fully-connected theo chiều thời gian và
được chia sẻ bởi các đặc trưng Một MLP đơn lớp được sử dụng vì mô hình
tuyến tính đơn giản hiệu quả trong việc học các mẫu thời gian phức tạp
2 Feature-mixing MLP: MLP trộn đặc trưng được chia sẻ bởi các bước
thời gian để tận dụng thông tin đồng biến Tương tự mô hình Transformer, TSMixer sử dung MLP hai lớp để học các biến đổi đặc trưng phức tạp.
3 Temporal Projection: Chiếu thời gian áp dụng lớp fully-connected trên
miền thời gian, vừa học các mẫu thời gian vừa ánh xạ chuỗi từ độ dài đầu
vào L đến độ dai dự báo T.
19
Trang 30Chương 3 CÁC MÔ HÌNH DỰ BÁO
4 Residual Connections: Các kết nối dư giữa mỗi lớp trộn thời gian và trộn
đặc trưng giúp mô hình học các kiến trúc sâu hơn hiệu quả và bỏ qua cácthao tác trộn không cần thiết
Phân tích tham số mô hình
Đánh giá tham số mô hình TSMixer tập trung vào sự khác biệt so với mô
hình FiLM.
1 Tham số kiến trúc:
¢ ResBlock: Sử dụng hai lớp, lớp temporal và lớp channel, để xử lý tín
hiệu qua hoạt động biến đổi tuyến tính, kích hoạt ReLU, và dropout,
ngăn ngừa overfitting.
¢ ModuleList của ResBlock: Chita nhiều khối ResBlock theo số lượng
lớp encoder, giúp mô hình học được nhiều cấp độ đặc trưng của dữ liệu
2 Ảnh hưởng của tham số mô hình đến kiến trúc:
«ồ e_layers (3), d_ layers (1): TSMixer sử dụng 3 e_ layers, nhiều hơn
FiLM, cho phép học nhiều đặc trưng phức tap hơn Số d_ layers là 1cho cả hai mô hình.
« batch_ size (8), learning_ rate (0.01): TSMixer sử dụng batch_ size
lớn hơn (8 so với 2 của FiLM), va learning rate cao hơn (0.01 so với
0.0001 của FiLM), tăng tốc độ huấn luyện.
+ d model (32), d_ ff (64): Cho biết khả năng biểu diễn và học phi
tuyến của mô hình, với d_ model là 32 và d_ ff là 64, khác biệt so với
FiLM.
¢ down_sampling: Bao gồm _ layers (3), _method (avg), _ window (2)
quy định quá trình giảm mẫu trong TSMixer, giúp tập trung vào đặc
trưng quan trọng và giảm độ phức tạp dữ liệu.
Các tham số vừa làm rõ ảnh hưởng đến hoạt động của mô hình, vừa liên kết
cấu hình thực thi với kiến trúc để nâng cao hiệu suất và chất lượng dự báo.
20
Trang 31Chương 3 CÁC MÔ HÌNH DỰ BÁO
3.1.3 Mô hình TimeMixer (2024)
Giới thiệu
TimeMixer, do Wang và cộng sự giới thiệu vào tháng 3 năm 2024 Hổ], được
thiết kế để nâng cao dự báo chuỗi thời gian dài hạn (LTSF) Nhóm tác giả mở rộng các mô hình truyền thống bằng cách tiếp cận mới về pha trộn đa tỉ lệ (multiscale-mixing), dựa trên quan sát rằng chuỗi thời gian thể hiện các mẫu
khác biệt ở các tỉ lệ lấy mẫu
TimeMixer sử dụng kiến trúc MLP với các khối Past-Decomposable-Mixing
(PDM) và Future-Multipredictor-Mixing (FMM) Mô hình này khai thác chuỗi
đa tỉ lệ trong giai đoạn trích xuất quá khứ và dự đoán tương lai PDM phân
rã và trộn các thành phần mùa và xu hướng, trong khi FMM tận dụng các mô
hình để khai thác tối đa quan sát đa tỉ lệ.
Hình 3.1.4 Cấu trúc tổng thể của TimeMixer
1 Multiscale Mixing Architecture (Kiến trúc trộn đa tỉ lệ):
Như minh họa trong Hình |3.1.4| để phân rã các biến thể phức tạp trong
21
Trang 32Chương 3 CÁC MÔ HÌNH DỰ BÁO
chuỗi thời gian, đầu tiên các quan sát quá khứ z € R?** được giảm mẫu
(downsample) thành M tỉ lệ khác nhau bằng phương pháp gdp trung bình
(average pooling) Kết quả là một tập hợp chuỗi thời gian đa tỉ lệ X =
{xo, : , au}, trong đó mỗi chuỗi zm € Rl] xy với m € {0, -, M}.
Chuỗi thời gian ở mức thấp nhất x9 = x là chuỗi đầu vào ban đầu, chứa
các biến thể chi tiết nhất, trong khi chuỗi ở mức cao nhất x,y đại diện cho
các biến thể vĩ mô.
Tiếp theo, các chuỗi thời gian đa tỉ lệ này được chiếu thành các đặc trưng sâu
Xo thông qua lớp nhúng, được biểu diễn bằng công thức Xp = Embed(X).
Thiết kế này cho phép mô hình thu nhận các biểu diễn đa tỉ lệ của chuỗi
thời gian, giúp nắm bắt hiệu quả thông tin chỉ tiết và tổng quát.
2 Past Decomposable Mixing (PDM):
Các khối PDM xếp chong lên nhau để trộn thông tin quá khứ qua các tỉ lệ
khác nhau Đối với lớp thứ 1, đầu vào là X¡_¡ và quá trình PDM được biểu
diễn:
X, = PDM(X/-1), 1 € {0, - , L}, (3.1.6)
2 4A Be ray ` J As si 2
ở đây L là tong số lớp và X; = {z†, - ,aụ , VỚI xj” € Rat | Xdinouer, biéu
thị các biểu diễn quá khứ đã được trộn với dmode kênh.
3 Future Multipredictor Mixing (FMM):
Trong giai đoạn dự đoán tương lai, khối FMM kết hợp thông tin quá khứ
da tỉ lệ đã trích xuất từ Xz, để tạo ra các dự đoán Quá trình này được biểu
diễn như sau:
ê =FMM(X), (3.1.7)
trong đó # € R’*° đại diện cho dự đoán cuối cùng Thiết kế này cho phép
TimeMixer nắm bắt thông tin quá khứ thiết yếu từ các quan sát đa tỉ lệ đã
phân rã và sử dụng chúng để dự đoán tương lai hiệu quả.
22
Trang 33Chương 3 CÁC MÔ HÌNH DỰ BÁO
Phân tích tham số mô hình TimeMixer
Đánh giá tham số mô hình TimeMixer, nêu bật các khác biệt so với FiLM vaTSMixer.
1 Tham sô kién trúc:
¢ DET_ series decomp: Sử dụng biến đổi Fourier rời rac để phân tách
chuỗi thành thành phần mùa và xu hướng, giúp mô hình tách biệt vàhọc hiệu quả các yếu tố chu kỳ và xu hướng dài hạn
« MultiScaleSeasonMixing và MultiScaleTrendMixing: Ap dụng
chiến lược trộn mùa và xu hướng ở nhiều quy mô, cải thiện khả năng
mô hình hóa chu kỳ và xu hướng phức tạp.
2 Ảnh hưởng của tham số mô hình đến kiến trúc:
«ồ e_layers (3), d_ layers (1): TimeMixer sử dụng 3 lớp encoder, nhiều
hơn FiLM và giống TSMixer, giúp hoc được nhiều đặc trưng phức tạp
hơn.
¢ batch_ size (8) và learning_ rate (0.01): Lớn hơn FiLM, cho phép
huấn luyện với nhiều dữ liệu cùng lúc, tăng tốc độ huấn luyện
¢ d_ model (32) và d_ ff (64): Biểu diễn nhiều đặc trưng phức tạp hơn,
một điểm nổi bật so với FiLM.
¢ down_ sampling_ layers (3), down_sampling window (2): Giảm
mẫu dữ liệu đầu vào, đơn giản hóa dữ liệu và giữ thông tin quan trọng
TimeMixer nâng cao hiệu suất và chất lượng dự báo nhờ biến đổi Fourier và mô-đun trộn đa quy mô, cùng chiến lược giảm mẫu và kích thước mô hình tối
uu.
23
Trang 34Chương 3 CÁC MÔ HÌNH DỰ BÁO
3.2 Một số mô hình theo hướng tiếp cận Hoc
^
sau
3.2.1 M6 hình SegRNN (2023)
Giới thiệu
Các phương pháp RNN gặp khó khăn trong LTSF do phải xử lý chuỗi dự báo
quá dài Số lượng lặp lại lớn là nguyên nhân chính hạn chế RNN trong LTSF.
Gần đây, các phương pháp Transformer, MLP, và CNN đã được uu tiên hơn Lin
và cộng sự phát triển SegRNN (Segment Recurrent Neural Network) vào năm
2023 để cải thiện dự báo chuỗi thời gian bằng cách kết hợp RNN với phân
đoạn chuỗi dữ liệu Họ đề xuất hai chiến lược mới: Segment-wise Iterations và Parallel Multi-step Forecasting, giúp giảm số lần lặp lại trong RNN, từ đó cải
thiện độ chính xác va toc độ suy luận.
Trang 35Chương 3 CÁC MÔ HÌNH DỰ BÁO
1 Giai đoạn mã hoá
‹Ổ Segment partition và projection: Chuỗi dữ liệu Xứ) e JR# được
chia thành các đoạn XÍ?) € R"X", sau đó chuyển thành X ©) c R“xd
qua phép chiếu tuyến tính Wj?; và ham ReLU, với d là số chiều của,
trạng thái ẩn của GRU Thay vì lặp lại cho từng điểm dữ liệu, SegRNN
áp dụng theo từng phân đoạn, giúp giảm số vòng lặp, tăng hiệu quả
tính toán và khả năng hội tụ của mô hình.
« Recursive encoding: Sau khi biến đổi, X ©) được đưa vào GRU để
thực hiện các vòng lặp đệ quy, nắm bắt đặc trưng theo thời gian mà không cần nhiều lần lặp lại Điều này giúp SegRNN nắm bắt tốt hon
phụ thuộc dài hạn, giảm tích luỹ lỗi và cải thiện tốc độ suy luận Cụ
thể, với 2; € IR“ trong X oe quá trình trong tế bào GRU được biểu diễn
Nhờ chiến lược này, SegRNN không chỉ tăng độ chính xác dự báo mà
còn giảm thời gian suy luận và sử dụng bộ nhớ, vượt trội so với các môhình dựa trên Transformer trong nhiều tình huống
2 Decoding (Giai đoạn giải mã):
« Recurrent Multi-step Forecasting (RMF): Sử dụng y để dự đoán
đa bước, giảm số vòng lặp từ H xuống H/w bằng cách áp dụng kỹ thuật
phân đoạn từ giai đoạn mã hóa.
« Parallel Multi-step Forecasting (PME): Giảm tích luỹ lỗi và tăng
tốc độ suy luận bằng xử lý song song các đoạn đã mã hóa.
¢ Positional embeddings: Bổ sung nhúng vị trí để bảo tồn thứ tự tuần
tự trong giải mã và tăng khả năng nắm bắt quan hệ giữa các biến.
25
Trang 36Chương 3 CÁC MÔ HÌNH DỰ BÁO
« Parallel decoding: Áp dụng tế bào GRU như trong mã hóa, song song
hóa xử lý, nâng cao tôc độ và độ chính xác.
« Prediction và sequence recovery: Điều chỉnh qua Dropout và dự
đoán qua lớp tuyến tính để hoàn tất chuỗi.
Phân tích tham số mô hình SegRNN
Đánh giá tham số mô hình SegRNN so với FiLM, TSMixer, và TimeMixernhấn mạnh các khác biệt độc đáo
¢ predict: Dự đoán từ GRU qua lớp tuyến tính và dropout, nâng cao
linh hoạt và tổng quát.
2 Ảnh hưởng của tham số đến kiến trúc:
¢ d_ model (512): Biểu diễn chi tiết hơn với kích thước lớn, nổi bật so
với TSMixer và TimeMixer.
¢ dropout (0): Học toàn bộ thông tin mà không áp dung dropout, tránh
quá khớp.
‹ learning_ rate (0.001): Thấp hơn, đảm bảo hoc từ từ và ổn định.
SegRNN khác biệt với các mô hình khác nhờ phân đoạn dữ liệu, giúp GRU
hiệu quả hơn trong nhận dạng mẫu và dự báo ngắn hạn.
26
Trang 37Chương 3 CÁC MÔ HÌNH DỰ BÁO
3.2.2 Mô hình TimesNet (2023)
Giới thiệu
Phân tích chuỗi thời gian rất quan trọng nhưng việc mô hình hóa chuỗi 1D
gặp khó khăn do mẫu phức tạp TimesNet, do Wu và cộng sự giới thiệu năm
2023 [Ø|, chuyển đổi chuỗi 1D sang không gian 2D, giúp mô hình hóa các biến đổi qua chu kỳ dễ dàng hơn và đạt kết quả tiên tiến trong nhiều nhiệm vụ.
Câu trúc cơ bản
TimesNet được thiết kế để tổng quát hóa các nhiệm vụ phân tích chuỗi thời
gian, đạt hiệu suất cao trong các tác vụ như dự báo, điền dữ liệu, phân loại và
Inception block <i xi: 2 xe
2D Space o ADD eh)
In
Xip
Hình 3.2.2 Cau trúc tổng thể của TimesNet
1 Biến đổi chuỗi thời gian 1D thành 2D: TimesNet chuyển đổi chuỗi
thời gian 1D thành tập hợp các tensor 2D dựa trên tính chu kỳ đa chiều,
giúp tách biệt các biến đổi ngắn hạn và dài hạn, hỗ trợ xử lý hiệu quả các
mẫu thời gian phức tạp Hình minh họa cách phát hiện và biến đổi
tính chu kỳ của chuỗi thời gian 1D thành các tensor 2D, tối ưu hóa xử lý
bằng các hạt nhân 2D và có thể áp dụng cho MTS bằng cách thực hiện biến
đổi tương tự trên tất cả các biến số.
27
Trang 38Chương 3 CÁC MÔ HÌNH DỰ BÁO
Frequency | ®———Reshape 5 Temporal 2D-variations
Trong đó: Xịp € RTM** là chuỗi thời gian 1D với 7 là chiều dài va N là
số lượng biến FFT(-) là hàm biến đổi Fourier nhanh Amp(-) tính biên
độ của tín hiệu Avg(-) lấy giá trị trung bình của biên độ trên các biến
Biến đổi không gian 1D thành không gian 2D:
{fi,. , fr} = argTop, (A), THÍ ¡€{I, ,k} (3.23)
X}p = Reshape,, ; (Padding(Xip)) (3.2.4)
Trong đó: Xấp € R?*/*% là tensor 2D đã biến đổi từ chuỗi thời gian
1D Xịp Padding(-) thêm các giá trị 0 vào chuỗi thời gian để phù hợp với kích thước yêu cầu cho việc biến đổi.
2 TimesBlock:
« TimesBlock là thành phần chính của TimesNet, được thiết kế để khám
phá các chu kỳ đa chiều và trích xuất các biến đổi thời gian phức tạp
28
Trang 39Chương 3 CÁC MÔ HÌNH DỰ BÁO
từ các tensor 2D TimesBlock sử dụng một Inception Block hiệu quả về
tham số để xử lý các tensor 2D này.
« Trong TimesBlock, các tensor 2D được xử lý bằng các hạt nhân 2D (2D
kernels), cho phép mô hình hóa đồng thời các biến đổi ngắn hạn (trong
chu kỳ) và dài hạn (giữa các chu kỳ) Quá trình xử lý tensor 2D với
Inception Block được thực hiện như sau:
Ẩjp = Inception(Xjø) (3.2.5)
Sau khi xử lý, tensor 2D được biến đổi ngược lại thành chuỗi thời gian
1D:
Xin= Trunc(Reshapey x (f,.p,)(X3p)) (3.2.6)
trong đó hàm Trune(-) loại bỏ phần đệm để khôi phục lại chiều dài ban
đầu của chuỗi thời gian.
3 Adaptive Aggregation (Kết hợp thích ứng): Sau khi xử lý tensor 2D,
các đặc trưng từ các chu kỳ khác nhau được kết hợp dựa trên tầm quan
trọng, thường xác định qua biên độ Quá trình này tổng hợp thông tin đa chiều, giúp mô hình nim bắt các biến đổi thời gian đầy đủ.
Đầu tiên, các biểu diễn từ các chu kỳ khác nhau được kết hợp lại như sau:
^
Ân, ,Ây = Softmax(Ay,, , Az,) (3.2.7)
Biểu diễn cuối cùng cho lớp TimesBlock được tính bằng cách kết hợp các
biểu diễn 1D từ các chu kỳ khác nhau:
k
Xtp = Vo Ap Xv (3.2.8)
i=1
Phân tích tham số mô hình TimesNet
Đánh giá tham số mô hình TimesNet, tập trung vào sự khác biệt so với FiLM,TSMixer, TimeMixer và SegRNN.
1 Tham sô kién trúc:
29
Trang 40Chương 3 CÁC MÔ HÌNH DỰ BÁO
¢ DataEmbedding: Nhúng thời gian va vi trí cải thiện độ chính xác du
báo, khác biệt với FiLM và SegRNN.
s« Inception_ Block_ VI: Sử dụng lớp tích chập đa kích thước, tăng
tính linh hoạt so với FiLM, SegRNN, và khác biệt với ResBlock của TSMixer.
« TimesBlock: Kết hợp biến đổi Fourier và tích chập để phân tích chu
kỳ, vượt trội so với SegRNN và FiLM.
2 Ảnh hưởng của tham số mô hình đến kiến trúc:
e e layers (2) và d_ layers (1): TimesNet sử dụng ít lớp encoder hơn
TSMixer và TimeMixer, tối ưu hóa giữa hoc và tính toán
¢ d_ model (512) và d_ ff (512): Kích thước lớn giúp biểu diễn đặc
trưng phức tạp, phù hợp cho dữ liệu đa dạng.
« top_k (5): Chọn loc đặc trưng quan trọng, tập trung vào thành phần
quan trọng của dữ liệu.
‹ learning rate (0.001): Mức chậm hơn đảm bảo hội tụ ổn định, so
với 0.01 của TSMixer và TimeMixer.
Tham số như TimesBlock và top_k giúp TimesNet xử lý hiệu quả chu kỳ và
nổi bật các đặc trưng quan trọng, nâng cao khả năng dự báo trong bối cảnh
traffic-hour.
3.3 Một số mô hình theo hướng tiếp cận Transformer
3.3.1 Mô hình Transformer (2017)
Giới thiệu
Transformer, giới thiệu bởi Vaswani và cộng sự vào năm 2017 Hỗ], là một
kiến trúc học sâu nổi bật trong xử lý ngôn ngữ tự nhiên Vượt trội hơn RNN
và LSTM, Transformer giải quyêt van đề nam bắt các môi quan hệ dài hạn và
30