1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Khoa học máy tính: Dự báo luồng giao thông sử dụng chuỗi thời gian dựa trên các mô hình Transformer

126 3 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Dự báo luồng giao thông sử dụng chuỗi thời gian dựa trên các mô hình Transformer
Tác giả Trần Văn San
Người hướng dẫn TS. Đỗ Trọng Hợp
Trường học Đại học Quốc gia TP. Hồ Chí Minh
Chuyên ngành Khoa học máy tính
Thể loại luận văn thạc sĩ
Năm xuất bản 2024
Thành phố TP. HCM
Định dạng
Số trang 126
Dung lượng 41,73 MB

Nội dung

LỜI CAM ĐOANTôi xin cam đoan rằng nội dung được trình bày trong luận văn "Dự báo luồng giao thông sử dụng chuỗi thời gian dựa trên các mô hình Transformer"là kết quảcủa quá trình nghiên

Trang 1

ĐẠI HỌC QUỐC GIA TP HO CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

Trang 2

LỜI CAM ĐOAN

Tôi xin cam đoan rằng nội dung được trình bày trong luận văn "Dự báo luồng

giao thông sử dụng chuỗi thời gian dựa trên các mô hình Transformer"là kết quảcủa quá trình nghiên cứu và thực nghiệm của chính bản thân tôi.

Trong quá trình thực hiện và viết luận văn này, tôi đã sử dụng và tríchdẫn các công trình khoa học từ nhiều nguồn tài liệu khác nhau Tất cả các thôngtin và tài liệu tham khảo đều được viện dẫn đầy đủ và rõ ràng theo quy định

Tôi cam kết rằng luận văn này không chứa bất kỳ tài liệu nào của người

khác mà không được trích dẫn theo đúng quy định của trường

Học viên

Trần Văn San

Trang 3

LỜI CẢM ƠN

Trước hết, em xin gửi lời cảm ơn chân thành đến tất cả các thầy cô và

toàn thể cán bộ, nhân viên trường Đại học Công nghệ Thông tin, những người

đã tận tình hỗ trợ và hướng dẫn em trong suốt quá trình học tập Đặc biệt, em

vô cùng biết ơn thầy Đỗ Trọng Hợp, người đã nhiệt tình truyền đạt những kiếnthức quý giá và luôn đồng hành, hỗ trợ em hoàn thành luận văn này Em cũngxin gửi lời cảm ơn đến các em Trần Thị Thùy Dương, Trần Bình Hậu và TháiTrần Khánh Nguyên đã giúp đỡ trong quá trình thực hiện luận văn

Ngoài những kiến thức, kỹ năng đã tích góp được từ trước đến nay, em

cũng đã cố gắng tìm hiểu thêm những kiến thức mới để hoàn thành luận văn.

Dù em đã cố gắng hết sức và dành nhiều thời gian, công sức cho việc thực hiện luận văn này, nhưng chắc chắn không thể tránh khỏi những thiếu sót Em rất mong nhận được những ý kiến đóng góp từ quý thầy cô và các bạn để có thể

hoàn thiện và nâng cao chất lượng cho luận văn này

Em xin tri ân quý Thay/Cé, bạn bè, gia đình và xin gửi tới mọi người

những lời chúc tốt đẹp nhất Em chân thành cảm ơn!

TP HCM, ngày 05 tháng 10 năm 2024

Học viên

Trần Văn San

Trang 5

MỤC LỤC

11 11

53 56 57 57

58 58

59

Trang 6

MỤC LỤC

4.5 Thực nghiệm trên bộ dữ liệu traffic-minutel 75

Ứ/>xY TH 86

4.6.1 Sự phù hợp của mô hình| 86 4.6.2 Thuận lợi và khó khăn 86 4.6.3 Các bước áp dụng nghiên cứu - 87

89

Ce 89 Cee 89

ee 90

Trang 7

Danh sách hình vẽ

2.3.1 Câu trúc tong the RNN đơn giản J6J|_

2.4.1 Câu trúc tong the CNN đơn giản Jđ|

3.1.2 Minh hoa cau trúc của LPU [28]

3.1.3 Cau trúc tong thé của TSMixer H 3.1.4 Cau trúc tong thể của TimeMixer IG} 00

3.2.1 Cau trúc tong the của SegRNN [L0} 2 2.

3.2.3 Minh hoa cau trúc 2D [19]) 2.

3.3.1 Câu trúc tong thể Transformer [L5)) 2 3.3.2 Cau trúc tong thé của Informer B27} 2 3.3.3 Cau trúc tong thể của Autoformer [2IJ) 002.

3.3.6 Mô hình PAM trong Pyraformer [[Í||

3.3.7 So sánh giữa Transformer gốc và iTransformer [[2||

giờ trên tập

Trang 8

DANH SÁCH HÌNH VẼ

4.3.3 Truc quan hóa kết

Trang 9

so với iTransformer (2024) 77

4.5.3 So sánh sự cải thiện hiệu suất của iTransformer (BS=16)} 794.5.4 Tong sô tham sô của Pyraformer và iTransformer trên traffic-hour| 804.5.5 So sánh kết quả của iTransformer với Pyraformer] 804.5.6 Các tham số và kích thước của Pyraformer (2022) trên tập traffic-hour| 824.5.7 Các tham sô và kích thước của iTransformer trên tập traffic-hour| 83

Trang 10

DANH SÁCH BẢNG

Danh mục các ký hiệu, chữ viết tắt

Ký hiệu, chữ viết tắt Tên đầy đủ

ITS Intelligent Traffic System

NN Neural Network

DL Deep Learning

ML Machine Learning MLP Multilayer Perceptron CNN Convolutional Neural Network

AR Auto-regressive ARIMA Autoregressive Integrated Moving Average LSTM Long Short-Term Memory

RNN Recurrent Neural Network MSE Mean Square Error

MAE Mean Absolute Error

MTS Multivariate Time Series LTSF Long-term Time Series Forecasting

PeMS Performance Measurement System

MHA Multi-head Attention

DFT Discrete Fourier Transform

IDFT Inverse Discrete Fourier Transform

Trang 11

pháp nhằm cải thiện hiệu quả luồng giao thông và giảm thiểu tắc nghẽn.

Dé tài "Du báo luồng giao thông sử dụng chuỗi thời gian dựa trên các mô

hình Transformer"được lựa chọn nhằm giải quyết khó khăn trong việc dự báo

luồng giao thông, đặc biệt là tính ngẫu nhiên và phức tạp của dữ liệu chuỗi thờigian Mặc dù các mô hình Học sâu đã đạt được nhiều thành tựu trong các lĩnhvực khác, việc áp dụng mô hình Transformer trong dự báo luồng giao thông vẫn

còn mới mẻ và đầy triển vọng.

Mục tiêu của nghiên cứu này là xây dựng và đánh giá mô hình iTransformer

để dự báo luồng giao thông dựa trên chuỗi thời gian, đồng thời so sánh hiệu quả

của nó với các phương pháp Học sâu hiện đại khác Nghiên cứu sẽ tiến hành

thí nghiệm trên dữ liệu hàng giờ do Bộ Giao thông vận tải California cung cấp,

nhằm kiểm chứng khả năng của mô hình ïTransformer trong việc cải thiện độ

chính xác của dự báo luồng giao thông

Trang 12

Chương 1

TONG QUAN

1.1 Lich sử van đề

Trong bối cảnh phát triển kinh tế và đô thị hóa, các thành phố lớn trên thế

giới đang đối mặt với tình trạng tắc nghẽn giao thông ngày càng nghiêm trọng Vấn đề này không chỉ kéo dài thời gian di chuyển mà còn gây ra các hệ lụy xã

hội như gia tăng tai nạn giao thông và ô nhiễm môi trường, đe dọa đến sự phát

triển bền vững của đô thị Để khắc phục, nhiều biện pháp như nâng cấp hạ tầng,

thu phí tắc nghẽn, và thúc đẩy giao thông công cộng đã được triển khai, nhưng

chỉ mang tính ngắn hạn và chưa giải quyết triệt để van đề [Z6].

Hệ thống giao thông thông minh (ITS) đã nổi lên như một giải pháp toàn diện, dựa vào công nghệ và phân tích dữ liệu để tối ưu hóa quản lý giao thông.

Một yếu t6 cốt lõi của ITS là khả năng dự báo chính xác luồng giao thông, hỗtrợ quản lý hiệu quả Tuy nhiên, dự báo luồng giao thông vẫn là thách thức do

tính ngẫu nhiên và độ phức tạp của chuỗi thời gian, đòi hỏi các mô hình dự báo

có độ chính xác và tin cậy cao [H4].

Từ những năm 1970, các mô hình thống kê như AR, ARIMA, và chuỗi Markov

đã được sử dụng để dự báo luồng giao thông, nhưng chúng gặp hạn chế khi đối

mặt với tính phi tuyến và ngẫu nhiên của hệ thống giao thông [2] Với sự phát

triển của công nghệ, các phương pháp Hoc máy (ML) và Hoc sâu (DL) như

mạng nơ-ron nhân tao (NN), RNN, và LSTM đã được áp dụng, mang lại hiệu

Trang 13

Chương 1 TỔNG QUAN

quả cao hơn [T7] Tuy nhiên, các mô hình này vẫn gặp khó khăn khi xử lý chuỗi

thời gian rất dài hoặc dữ liệu phức tạp

Gần đây, mô hình Transformer đã nổi lên như một phương pháp mạnh mẽ

trong dự báo luồng giao thông, với khả năng xử lý các mối quan hệ không

gian-thời gian phức tạp mà không cần cấu trúc tuần tự như RNN hay LSTM Ví dụ,

mô hình Traffic Transformer của Cai và cộng sự đã cho thấy khả năng nắm bắt

tính liên tục và tuần hoàn của chuỗi thời gian giao thông 2] Tương tự, Zhang

và cộng sự đã phát triển một mô hình Transformer đồ thị không gian-thời gian

dựa trên cơ chế attention, giúp cải thiện độ chính xác của dự báo luồng giao

thông [2ð] Mặc dù đã đạt được những kết quả khả quan, việc dự báo chính xác

và đáng tin cậy trong các hệ thống giao thông phức tạp vẫn là một thách thức

lớn.

Nghiên cứu này tập trung vào việc đánh giá mô hình iTransformer trong dựbáo luồng giao thông, sử dung dữ liệu từ các cảm biến đường cao tốc tại khuvực Vinh San Francisco Mô hình được so sánh với các mô hình dự báo khác,

nhằm phân tích và đánh giá tính ưu việt của Transformer trong việc hỗ trợ ra quyết định trong quản ly giao thông 26], [17].

1.2 Mục tiêu của đề tài

Nghiên cứu và phát triển mô hình dự báo luồng giao thông sử dụng chuỗi thời gian dựa trên các mô hình Transformer Cụ thể, đề tài tập trung vào:

« Xây dung và tối uu hóa mô hình Transformer phù hợp để du báo luồng giao

thông trên các chuỗi thời gian dài hạn.

« Đánh giá và so sánh hiệu quả của mô hình iTransformer với các mô hình

dự báo luồng giao thông khác, bao gồm các mô hình thống kê truyền thống

và các mô hình DL khác.

« Thử nghiệm mô hình trên dữ liệu thực tế từ các cảm biến giao thông tại

khu vực Vịnh San Francisco và xác định tiềm năng ứng dụng của mô hình

Trang 14

Chương 1 TỔNG QUAN

trong việc hỗ trợ ra quyết định quản lý giao thông.

1.3 Nội dung nghiên cứu của đề tài

Bao gồm các nội dung sau:

« Khảo sát các phương pháp dự báo luồng giao thông hiện có, bao gồm các

mô hình thống kê truyền thống, ML, DL, và các mô hình kết hợp

« Xây dựng mô hình Transformer tùy chỉnh để phù hợp với đặc thù của dữ

liệu chuỗi thời gian giao thông, đồng thời triển khai các kỹ thuật tối ưu hóa

để nâng cao hiệu quả dự báo.

« Thực hiện thử nghiệm các mô hình dự báo trên dữ liệu giao thông thực tế,

đồng thời so sánh kết quả giữa các mô hình Kết quả so sánh này sẽ được

sử dụng dé đánh giá và đê xuât mô hình iTransformer.

« Đánh giá tiềm năng áp dung của mô hình iTransformer trong hệ thống giao

thông thông minh (ITS) va đề xuất những hướng nghiên cứu tiếp nd

1.4 Cấu trúc luận văn

Ngoài phần M6 dầu luận văn được chia thành 5 chương:

« Chương 1 — Tổng quan

« Chương 2 — Cơ sở lý thuyết

« Chương 3 — Các mô hình dự báo

« Chương 4 — Thực nghiệm và đánh giá kết qua

+ Chương 5 — Kết luận và hướng phát triển

Trang 15

Chương 2

CƠ SỞ LÝ THUYET

2.1 Luong giao thông và chuỗi thời gian

2.1.1 Luéng giao thông

Luéng giao thong (Traffic Flow) mô ta chuyển động của phương tiện trên

đường trong một khoảng thời gian Các yếu tố cơ bản gồm:

¢ Lưu lượng (Traffic Volume): Số phương tiện di chuyển qua một điểm

cụ thể trong một khoảng thời gian, đo bằng phương tiện/giờ.

‹e Mật độ (Traffic Density): Số phương tiện trên một đơn vị chiều dài

đường, do bằng phương tiện/km hoặc phương tiện/dặm.

‹ Tốc độ (Traffic Speed): Tốc độ trung bình của phương tiện trên đoạn

đường, do bằng km/h hoặc mph.

Tập dữ liệu traffic-hour trong nghiên cứu này bao gồm 862 chuỗi thời gian

riêng biệt, mỗi chuỗi biểu thị tỷ lệ phần trăm thời gian mà phương tiện chiếm dụng một đoạn đường hoặc làn đường cụ thể trong mỗi giờ.

2.1.2 Chuỗi thời gian thời gian

Chuỗi thời gian (Time series) là một day T các quan sát X = {Z,#2, , 27}

được sắp xếp theo thời gian, trong đó z¿ € R đại diện cho giá trị tại thời điểm

5

Trang 16

Chương 2 CƠ SỞ LÝ THUYẾT

t, với N là số lượng biến số (với dữ liệu traffic-hour, N = 862) Chuỗi thời gian

thực tế thường có dạng đa biến do thu thập từ nhiều cảm biến khác nhau

Trong dự báo chuỗi thời gian đa biến (MTSF), từ các quan sát lịch sử X =

{zi, , zr}, chúng ta dự đoán S' bước thời gian tương lai Y = {#r+1, ,#7+s}.

« Input: Chuỗi thời gian 7 quan sát X = {z\,za, ,#r}, với x; € RY voi N

là số lượng biến số Số bước dự đoán S

¢ Output: Giá trị của biến đầu vào và Š bước dự đoán tương lai Y =

{#Z7T+1, tae #Tm+8}:

2.1.3 Các yêu tổ cơ bản của chuỗi thời gian

Phân tích chuỗi thời gian cần tập trung vào các yêu tố chính sau:

« Tính dừng (Stationary): Chuỗi được coi là dừng khi các đặc tính thống

kê như giá trị kỳ vọng, phương sai, và tự tương quan không thay đổi theo

thời gian, điều này hỗ trợ mô hình hóa chính xác hơn

¢ Phụ thuộc thời gian (Temporal Dependency): Mối quan hệ giữa các

giá trị tại các thời điểm khác nhau, có thể là ngắn hạn hoặc dài hạn, ảnh

hưởng đến dự báo

¢ Tương quan biến số (Variate Correlation): Quan hệ giữa các biến

trong chuỗi đa biến, giúp nâng cao độ chính xác của dự báo

¢ Hàm tự tương quan (Autocorrelation Function): Do lường mức độ

liên quan giữa các giá trị ở các thời điểm khác nhau, hỗ trợ trong việc đánh

giá mối liên hệ có độ trễ nhất định

« Phân rã (Decomposition): Phân tách chuỗi thành các thành phần như

xu hướng (trend), mùa vu (seasonal), chu ky (cyclical) và biến động bất

thường (irregular), làm rõ các mẫu ẩn và cải thiện hiệu quả dự báo.

Trang 17

Chương 2 CƠ SỞ LÝ THUYẾT

2.1.4 Biến đổi Fourier

Biến đổi Fourier là công cụ toán học mạnh để phân tích tín hiệu, chuyển đổi

giữa miền thời gian và tần số Công thức của Biến đổi Fourier Rời rac (DFT)

Trong đó, X;, là giá trị tại tần số k, z„ là giá trị tin hiệu tại thời điểm n, N 1A

số mẫu trong tín hiệu, va i là đơn vị ảo

DFT chuyển tín hiệu x, từ miền thời gian sang miền tần số để phát hiện các

thành phần tan số, còn IDFT phục hồi tín hiệu từ miền tan số về miền thời

gian:

1 Nel

ma = Tý 6M cử, n=0,1,2, ,N—1 (2.1.2)

Thuật toán Fast Fourier Transform (FFT) giảm độ phức tap tính toán từ O(N?)

xuống O(N log N), trở thành phương pháp hiệu qua để xử lý các tín hiệu lớn.

Phân tích Fourier nhận diện tần số nổi bật, biểu diễn dưới dạng phổ để xác

định chu kỳ và đặc tính tín hiệu.

2.2 Cấu trúc tổng thé Hoc sâu

2.2.1 Giới thiệu

Học sâu, một nhánh của Học máy, sử dụng mạng nơ-ron (NN) để mô phỏng

các vấn đề phức tạp trong thế giới thực, lấy cảm hứng từ hoạt động của não bộ

2.2.2 Nơ-ron nhân tao (Artificial Neuron)

No-ron nhân tạo (hay no-ron) được giới thiệu vào năm 1943 bởi Warren

McCulloch và Walter Pitts, mô phỏng hoạt động của tế bào thần kinh sinh học[3] Hình minh hoa cấu trúc của một nơ-ron bao gồm:

Trang 18

Chương 2 CƠ SỞ LÝ THUYẾT

>> ° |

a NHEN: » ty > y= (x'v)

H

Hình 2.2.1 Mô hình cấu trúc của một nơ-ron [3]

1 Đầu vào (Input): No-ron nhận giá trị từ các nơ-ron khác hoặc từ dữ liệu

ban đầu, mỗi giá trị này có một trọng số liên kết.

2 Tính tổng trọng số (Weighted Sum): Công thức tính tổng trọng số là:

z= À ` 1tị - g¿ + Ù, (2.2.1)

i=l

trong đó z là tổng trọng số; œ; là trọng số ứng với đầu vào z;; b là hằng số

thiên vị (bias).

3 Hàm kích hoạt (Activation Function): Tổng trong số z được đưa qua

hàm kích hoạt để quyết định đầu ra cuối cùng của nơ-ron, giúp mô hình học các mẫu phi tuyến tính phức tạp Một số hàm kích hoạt phổ biến gồm

Sigmoid, ReLU, và Tanh.

4 Đầu ra (Output): Đầu ra của nơ-ron là kết quả của hàm kích hoạt, truyền

đên các nơ-ron khác hoặc trở thành dau ra cudi cùng của mạng.

2.2.3 Multi-Layer Perceptrons (MLP)

Mạng no-ron perceptron da tầng (MLP) là một loại NN gồm nhiều lớp nơ-ron

liên kết với nhau Đây là một trong những kiến trúc cơ bản và phổ biến nhất

trong DL Hình minh họa kiến trúc đơn giản của MLP với các lớp chính

1 Câu trúc MLP bao gồm:

Trang 19

Chương 2 CƠ SỞ LÝ THUYET

Input Layer Hidden Layer #1 Hidden Layer #2 Output Layer

Hình 2.2.2 Kiến trúc MLP đơn giản [3]

« Lớp đầu vào (Input layer): Nhận dữ liệu và truyền vào mạng, mỗi

nơ-ron trong lớp này đại diện cho một đặc trưng của dữ liệu.

« Lớp ẩn (Hidden layer): Nằm giữa lớp đầu vào và lớp đầu ra, có thể

xuất hiện nhiều lần để tăng cường khả năng học của mạng.

« Lớp dau ra (Output layer): Tạo ra kết quả cuối cùng, như xác suất

trong bài toán phân loại hoặc giá trị dự đoán trong bài toán hồi quy

2 Quá trình huấn luyện (Training)

¢ Huấn luyện mạng: Điều chỉnh trọng số nơ-ron để tối ưu mô hình,

thường dùng Gradient Descent để giảm hàm mất mát.

- Lan truyền ngược (Backpropagation): Thuật toán điều chỉnh trọng

số bằng cách lan truyền sai số từ lớp đầu ra qua các lớp trước.

2.3 Mô hình RNN

2.3.1 Giới thiệu

Recurrent Neural Network (RNN) xử lý dữ liệu tuần tự bằng cách sử dụng thông tin từ các bước trước qua trạng thái ẩn, nắm bắt phụ thuộc thời gian.

Trang 20

Chương 2 CƠ SỞ LÝ THUYẾT

2.3.2 Cấu trúc của RNN

Cấu trúc cơ bản của RNN được minh họa trong Hình

1 Lớp đầu vào: Nhận dữ liệu dưới dạng vector hoặc chuỗi vector.

2 Lớp ẩn: Lưu trữ thông tin từ các bước trước và kết hợp với thông tin hiện

tại để tính trạng thái an mới h¿ tại thời điểm í:

hy = tanh(Wn,h¿T— + WanXt + bn) (2.3.1)

trong đó, h¿_¡ là trạng thái ẩn trước đó, X; là đầu vào tại thời điểm t, Wan

và W,, là ma trận trọng số, b„ là giá trị thiên lệch

3 Lớp đầu ra: Tạo dự đoán từ trạng thái ẩn cuối cùng hoặc của mỗi bước

thời gian, theo công thức:

Y¡ = softmax(Wyh; + by) (2.3.2)

trong đó, Wp, là ma trận trọng số, by là giá trị thiên lệch.

RNN phù hợp để xử lý các chuỗi có phụ thuộc dài hạn, nhưng các mô hình

RNN đơn giản thường gặp khó khăn với vấn đề gradient

10

Trang 21

Chương 2 CƠ SỞ LÝ THUYẾT

2.3.3 Các biến thể của RNN

Một số biến thể cơ bản:

«Ổ LSTM: Sử dung các cổng để kiểm soát và duy trì thông tin dai hạn.

« GRU: Biến thể đơn giản hơn của LSTM, xử lý thông tin dài hạn hiệu quả.

¢ BiRNN: Sử dung hai RNN để xử lý chuỗi theo cả hai chiều.

2.4 Mô hình CNN

2.41 Giới thiệu

Mạng nơ-ron tích chập (CNN) xử lý dữ liệu lưới như hình ảnh, tự động trích

xuất đặc trưng qua các lớp tích chập, giúp phát hiện mẫu và trở thành tiêu

chuẩn trong nhận dạng hình ảnh [ổ|.

2.4.2 Cấu trúc cơ bản

Kiến trúc co bản của CNN bao gồm các thành phần chính như sau Hình

1 Lớp tích chập: Lớp cốt lõi của CNN, nơi các bộ lọc áp dụng lên dữ liệu để

trích xuất đặc trưng như cạnh, góc, tạo bản đồ đặc trưng Phép toán tích

chập được định nghĩa như sau:

MN

m=1n=1

trong đó Z;; là giá trị tại vi tri (7,7) trong bản đồ đặc trưng, X là đầu vào,

W là bộ lọc kích thước M x N, và 6 là giá trị thiên lệch.

2 Lớp pooling: Đặt sau lớp tích chập để giảm kích thước, tham số và tính

toán Max Pooling là phép pooling phổ biến, được định nghĩa như sau:

2 = max(Xj4m—1,j+n—1); M,NE {1, Lee St (2.4.2)

11

Trang 22

Chương 2 CƠ SỞ LÝ THUYẾT

Pooling layer

Detector layer: Nonlinearity

e.g., rectified linear

Affine transform

Input to layers

Hình 2.4.1 Cấu trúc tổng thể CNN đơn giản

trong đó S$ x Š là kích thước cửa số pooling.

3 Lớp kích hoạt (Activation Layer): Đưa tính phi tuyến vào mô hình

bằng hàm ReLU (Rectified Linear Unit), được định nghĩa như sau:

ƒ(z) = max(0, z) (2.4.3)

trong đó z là đầu vào.

4 Lớp làm phẳng (Flattening Layer): Chuyển đổi các bản đồ đặc trưng

2D thành một vector 1D để đưa vào lớp kết nối đầy đủ.

5 Lớp kết nỗi day đủ (Fully Connected Layer): Kết nối mọi nơ-ron giữa

các lớp Phép toán trong lớp này được tính như sau:

Uụ=W -xz+b, (2.4.4)

trong đó, là đầu ra, W là ma trận trọng số, z là vector đầu vào, và b là

giá trị thiên lệch.

6 Lớp đầu ra (Output Layer): Thường là lớp softmax trong các bài toán

phân loại, với đầu ra là phân phối xác suất trên các lớp Hàm softmax được

12

Trang 23

Chương 2 CƠ SỞ LÝ THUYẾT

định nghĩa như sau:

softmax(z;) = exp (2) (2.4.5)

7= exp(z;)

trong đó z; là đầu vào của nơ-ron thứ i, và K 1a số lớp.

13

Trang 24

Chương 3

CÁC MÔ HÌNH DỰ BÁO

Nghiên cứu này dựa trên đánh giá của Wang và cộng sự (2024) [l, phân

loại các mô hình chuỗi thời gian sâu thành ba nhóm chính: mô hình thống kê

và MLP, mô hình DL dựa trên RNN va CNN, và nhóm Transformer, được phat

triển dựa trên công trình của Vaswani và cộng sự giới thiệu năm 2017 H1.

3.1 Một số mô hình theo hướng tiếp cận thống

kê 3.1.1 Mô hình FiLM (2022)

Giới thiệu

Các mô hình DL gặp khó khăn trong dự báo dài hạn do mat thông tin lịch

sử và nhiễu Để khắc phục, Zhou và cộng sự phát triển FiLM (2022) [28|, sử dụng phép chiếu Legendre để bảo toàn thông tin, kết hợp biến đổi Fourier loại

bỏ nhiễu, và xấp xỉ hạng thấp để tăng tốc tính toán, cải thiện độ chính xác.

Câu trúc cơ bản

FiLM ánh xạ chuỗi X — Y, trong đó X,Y € RT*Ỷ, thông qua hai thành

phần chính: Legendre Projection Unit (LPU) và Fourier Enhanced Layer (FEL)

14

Trang 25

Chương 3 CÁC MÔ HÌNH DỰ BÁO

LPU xử lý thông tin lịch sử ở các quy mô khác nhau, trong khi FEL loại bỏ

nhiễu và tăng tốc độ tính toán Một lớp chuẩn hóa dữ liệu tùy chọn (RevIN) có thể được sử dụng để tăng độ ổn định cho mô hình.

Input:

ae RnTxP

Output:

Y eRTM?

Hình 3.1.1 Cau trúc tổng thể của FiLM

Cấu trúc FiLM (Hình B.1.1) gồm LPU và FEL Dữ liệu đầu vào được chuẩn hóa, chiếu vào không gian đa thức Legendre (LPU), xử lý với FEL để tạo ra bộ

nhớ tinh chỉnh, và cuối cùng tái tạo chuỗi đầu ra

1 RevIN (Reversible Instance Normalization): Phương pháp chuẩn hóa

và đảo ngược nhằm cải thiện độ chính xác của dự báo chuỗi thời gian bằng cách giảm thiểu sự khác biệt giữa phân phối dữ liệu huấn luyện và kiểm

tra.

¢ Normalization (Chuẩn hóa):

(i) _kE ()

a = (pe VVar|zt) ] +e = eel + Hy (3.1.1)

Trong đó: x) là giá trị đầu vào của biến thứ k tại thời điểm t trong

chuỗi ¿ B(x) | là giá trị trung bình, Var[zl)] là phương sai, + và 3, là

các tham số học được.

« Denormalization (Đảo ngược chuẩn hóa):

of) = \JVarlzlp] +c- _== *) + E[z(?] (3.1.2)

k

Trong đó: i) là đầu ra của mô hình sau khi dự đoán, 9? la gid tri dau

ra đã được khôi phục về phân phối gốc.

15

Trang 26

Chương 3 CÁC MÔ HÌNH DỰ BÁO

2 Legendre Projection: Được sử dụng trong FiLM để nén và biểu diễn lịch

sử chuỗi thời gian qua các đa thức Legendre, giúp giảm kích thước dữ liệu

mà vẫn bảo toàn thông tin quan trọng Ham xấp xỉ g(t)(x) được biểu diễn

qua các đa thức Legendre P,,(-):

g(t)(x) = 5 Cn(t) Pn on + 1) (3.1.3)

Các hệ số e„(£) được cập nhật qua phương trình động:

d 1 1

Tre) = ~GAe(t) + BF (t) (3.1.4)

Trong đó: P„(-) là đa thức Legendre bậc n, A và B 1a các ma trận xác định

trước trong mô hình Legendre Projection giúp giảm nhiễu và tối ưu hóa

việc lưu trữ thông tin chuỗi thời gian dài hạn trong PiLM.

3 LPU (Legendre Projection Unit): Cấu trúc LPU (Hinh|3.1.2)

là một mô hình không gian trạng thái: Œ; = Ä(Œ¡_1 + Bz¿, trong đó x, € R

là tín hiệu đầu vào, Œ; € RTM là đơn vị bộ nhớ, và M là số đa thức Legendre.

LPU chứa hai ma trận cố định không thể huấn luyện được là A và được

định nghĩa như sau:

Giai đoạn tiếp theo tái tạo tín hiệu từ đơn vị bộ nhớ: X,¿=LPU_ R(C).

4 FEL (Fourier Enhanced Layer): FEL cải thiện tốc độ và độ chính xác

bằng xấp xỉ hạng thấp và chọn lọc tần số.

¢ Low-rank Approximation: Giảm số lượng trọng số, làm giảm độ

phức tạp của mô hình mà ảnh hưởng nhỏ đến độ chính xác.

« Mode Selection: Chọn các chế độ tần số cu thể sau biến đổi Fourier

để giảm nhiễu và tăng tốc độ huấn luyện Sử dụng chế độ tần số thấp

kết hợp một số cao ngẫu nhiên cải thiện hiệu suất.

16

Trang 27

Chương 3 CÁC MÔ HÌNH DỰ BÁO

Use Legendre Polynomials

LPU: State Space Model BX, to reconstruct:

Input : X e R?*? Coefficient : C € R?*?*% Reconstruct : X € R?*?

Hình 3.1.2 Minh hoa cấu trúc của LPU [Z8]

Phân tích tham số mô hình

Đánh giá tham số cơ bản mô hình giúp hiểu rõ mục đích và tác động của

chúng trong huấn luyện và dự báo dữ liệu traffic-hour

‹Ổ Các tham số chung không đổi: Đối với tất cả mô hình, các tham

số như độ dài chuỗi đầu vào (seq_len=96), số đầu vào cho encoder và

decoder (enc_in, dec_in=862), số kênh đầu ra (c_out=862), số lớp decoder

(d_layers=1), và hệ số giảm số chiều của tensor (factor=3) là không đổi.

« Các tham số chung thay đổi:

— Độ dài nhãn (label_len): Xác định phần dữ liệu cho học trước dự

báo.

— Độ dài dự báo (pred_1en): Xác định số bước thời gian dự báo

— Số lớp encoder (e_layers): Anh hưởng đến độ phức tap và khả năng

học của mô hình.

— Kích thước batch (batch_size): Ảnh hưởng đến hiệu suất và tốc độ

huấn luyện.

1 Tham số kiến trúc của mô hình FiLM:

‹Ổ HiPPO_LegT: Dùng để giảm kích thước dữ liệu và bảo toàn thông

tin lịch sử.

17

Trang 28

Chương 3 CÁC MÔ HÌNH DỰ BÁO

« SpectralConvid: Áp dụng biến đổi Fourier, điều chỉnh kích thước

kênh và lọc tần số

2 Ảnh hưởng của tham số mô hình đến kiến trúc:

+ label_len (48) và pred_ len (5): Ảnh hưởng đến cấu trúc ma trận

trong HiPPO_LegT, xác định lượng dữ liệu cần thiết cho học và dựbáo.

„ồ e layers (2), batch_ size (2), và learning rate (0.0001): Định

hình khả năng xử lý thông tin và hiệu suất huấn luyện của mô hình

‹ồ d_ model (32) va d_ ff (64): Ảnh hưởng đến khả năng biểu diễn và

học phi tuyến tính của mô hình

¢« down_ sampling_ layers (3),down_ sampling_ method (avg), va

down_ sampling_ window (2): Quy định cách giảm mẫu dữ liệu đầu

vào, kiểm soát lượng thông tin giữ lại.

Các tham số không chỉ làm rõ ảnh hưởng đến hoạt động của mô hình FiLM

mà còn tối uu hóa hiệu suất va chất lượng dự báo thông qua mối quan hệ giữa cấu hình thực thi và kiến trúc.

3.1.2 Mô hình TSMixer (2023)

Giới thiệu

Dữ liệu chuỗi thời gian thực tế thường đa biến và có động thái phức tạp Để năm bắt điều này, các kiến trúc DL tuần tự như mạng hồi quy và Attention đã trở nên phổ biến Tuy nhiên, nghiên cứu gần đây chỉ ra rằng các mô hình tuyến tính đơn giản có thể vượt trội trên nhiều tiêu chuẩn học thuật TSMixer (Time Series Mixer), do Chen và cộng sự phát triển năm 2023 [đ], mở rộng từ nghiên

cứu về khả năng của mô hình tuyến tính trong dự báo thời gian TSMixer là

một kiến trúc mới sử dung các multilayer perceptrons (MLP) xếp chồng để trộn

thông tin theo chiều thời gian và đặc trưng, nhằm trích xuất thông tin hiệu quả.

18

Trang 29

Chương 3 CÁC MÔ HÌNH DỰ BÁO

: (crc) | (ite ah ll

( Ee 8 Re g( ' —— —— (FCì| Boopout ) Z |f hao Vv Ÿ

l Dropout ' L7 Fe : †— tl

{Dropout )

Hình 3.1.3 Cau trúc tổng thể của TSMixer J]

1 Time-mixing MLP: MLP trộn thời gian mô hình hóa các mẫu trong

chuỗi, bao gồm lớp fully-connected, hàm kích hoạt và dropout Đầu vào

được hoán vị để áp dụng các lớp fully-connected theo chiều thời gian và

được chia sẻ bởi các đặc trưng Một MLP đơn lớp được sử dụng vì mô hình

tuyến tính đơn giản hiệu quả trong việc học các mẫu thời gian phức tạp

2 Feature-mixing MLP: MLP trộn đặc trưng được chia sẻ bởi các bước

thời gian để tận dụng thông tin đồng biến Tương tự mô hình Transformer, TSMixer sử dung MLP hai lớp để học các biến đổi đặc trưng phức tạp.

3 Temporal Projection: Chiếu thời gian áp dụng lớp fully-connected trên

miền thời gian, vừa học các mẫu thời gian vừa ánh xạ chuỗi từ độ dài đầu

vào L đến độ dai dự báo T.

19

Trang 30

Chương 3 CÁC MÔ HÌNH DỰ BÁO

4 Residual Connections: Các kết nối dư giữa mỗi lớp trộn thời gian và trộn

đặc trưng giúp mô hình học các kiến trúc sâu hơn hiệu quả và bỏ qua cácthao tác trộn không cần thiết

Phân tích tham số mô hình

Đánh giá tham số mô hình TSMixer tập trung vào sự khác biệt so với mô

hình FiLM.

1 Tham số kiến trúc:

¢ ResBlock: Sử dụng hai lớp, lớp temporal và lớp channel, để xử lý tín

hiệu qua hoạt động biến đổi tuyến tính, kích hoạt ReLU, và dropout,

ngăn ngừa overfitting.

¢ ModuleList của ResBlock: Chita nhiều khối ResBlock theo số lượng

lớp encoder, giúp mô hình học được nhiều cấp độ đặc trưng của dữ liệu

2 Ảnh hưởng của tham số mô hình đến kiến trúc:

«ồ e_layers (3), d_ layers (1): TSMixer sử dụng 3 e_ layers, nhiều hơn

FiLM, cho phép học nhiều đặc trưng phức tap hơn Số d_ layers là 1cho cả hai mô hình.

« batch_ size (8), learning_ rate (0.01): TSMixer sử dụng batch_ size

lớn hơn (8 so với 2 của FiLM), va learning rate cao hơn (0.01 so với

0.0001 của FiLM), tăng tốc độ huấn luyện.

+ d model (32), d_ ff (64): Cho biết khả năng biểu diễn và học phi

tuyến của mô hình, với d_ model là 32 và d_ ff là 64, khác biệt so với

FiLM.

¢ down_sampling: Bao gồm _ layers (3), _method (avg), _ window (2)

quy định quá trình giảm mẫu trong TSMixer, giúp tập trung vào đặc

trưng quan trọng và giảm độ phức tạp dữ liệu.

Các tham số vừa làm rõ ảnh hưởng đến hoạt động của mô hình, vừa liên kết

cấu hình thực thi với kiến trúc để nâng cao hiệu suất và chất lượng dự báo.

20

Trang 31

Chương 3 CÁC MÔ HÌNH DỰ BÁO

3.1.3 Mô hình TimeMixer (2024)

Giới thiệu

TimeMixer, do Wang và cộng sự giới thiệu vào tháng 3 năm 2024 Hổ], được

thiết kế để nâng cao dự báo chuỗi thời gian dài hạn (LTSF) Nhóm tác giả mở rộng các mô hình truyền thống bằng cách tiếp cận mới về pha trộn đa tỉ lệ (multiscale-mixing), dựa trên quan sát rằng chuỗi thời gian thể hiện các mẫu

khác biệt ở các tỉ lệ lấy mẫu

TimeMixer sử dụng kiến trúc MLP với các khối Past-Decomposable-Mixing

(PDM) và Future-Multipredictor-Mixing (FMM) Mô hình này khai thác chuỗi

đa tỉ lệ trong giai đoạn trích xuất quá khứ và dự đoán tương lai PDM phân

rã và trộn các thành phần mùa và xu hướng, trong khi FMM tận dụng các mô

hình để khai thác tối đa quan sát đa tỉ lệ.

Hình 3.1.4 Cấu trúc tổng thể của TimeMixer

1 Multiscale Mixing Architecture (Kiến trúc trộn đa tỉ lệ):

Như minh họa trong Hình |3.1.4| để phân rã các biến thể phức tạp trong

21

Trang 32

Chương 3 CÁC MÔ HÌNH DỰ BÁO

chuỗi thời gian, đầu tiên các quan sát quá khứ z € R?** được giảm mẫu

(downsample) thành M tỉ lệ khác nhau bằng phương pháp gdp trung bình

(average pooling) Kết quả là một tập hợp chuỗi thời gian đa tỉ lệ X =

{xo, : , au}, trong đó mỗi chuỗi zm € Rl] xy với m € {0, -, M}.

Chuỗi thời gian ở mức thấp nhất x9 = x là chuỗi đầu vào ban đầu, chứa

các biến thể chi tiết nhất, trong khi chuỗi ở mức cao nhất x,y đại diện cho

các biến thể vĩ mô.

Tiếp theo, các chuỗi thời gian đa tỉ lệ này được chiếu thành các đặc trưng sâu

Xo thông qua lớp nhúng, được biểu diễn bằng công thức Xp = Embed(X).

Thiết kế này cho phép mô hình thu nhận các biểu diễn đa tỉ lệ của chuỗi

thời gian, giúp nắm bắt hiệu quả thông tin chỉ tiết và tổng quát.

2 Past Decomposable Mixing (PDM):

Các khối PDM xếp chong lên nhau để trộn thông tin quá khứ qua các tỉ lệ

khác nhau Đối với lớp thứ 1, đầu vào là X¡_¡ và quá trình PDM được biểu

diễn:

X, = PDM(X/-1), 1 € {0, - , L}, (3.1.6)

2 4A Be ray ` J As si 2

ở đây L là tong số lớp và X; = {z†, - ,aụ , VỚI xj” € Rat | Xdinouer, biéu

thị các biểu diễn quá khứ đã được trộn với dmode kênh.

3 Future Multipredictor Mixing (FMM):

Trong giai đoạn dự đoán tương lai, khối FMM kết hợp thông tin quá khứ

da tỉ lệ đã trích xuất từ Xz, để tạo ra các dự đoán Quá trình này được biểu

diễn như sau:

ê =FMM(X), (3.1.7)

trong đó # € R’*° đại diện cho dự đoán cuối cùng Thiết kế này cho phép

TimeMixer nắm bắt thông tin quá khứ thiết yếu từ các quan sát đa tỉ lệ đã

phân rã và sử dụng chúng để dự đoán tương lai hiệu quả.

22

Trang 33

Chương 3 CÁC MÔ HÌNH DỰ BÁO

Phân tích tham số mô hình TimeMixer

Đánh giá tham số mô hình TimeMixer, nêu bật các khác biệt so với FiLM vaTSMixer.

1 Tham sô kién trúc:

¢ DET_ series decomp: Sử dụng biến đổi Fourier rời rac để phân tách

chuỗi thành thành phần mùa và xu hướng, giúp mô hình tách biệt vàhọc hiệu quả các yếu tố chu kỳ và xu hướng dài hạn

« MultiScaleSeasonMixing và MultiScaleTrendMixing: Ap dụng

chiến lược trộn mùa và xu hướng ở nhiều quy mô, cải thiện khả năng

mô hình hóa chu kỳ và xu hướng phức tạp.

2 Ảnh hưởng của tham số mô hình đến kiến trúc:

«ồ e_layers (3), d_ layers (1): TimeMixer sử dụng 3 lớp encoder, nhiều

hơn FiLM và giống TSMixer, giúp hoc được nhiều đặc trưng phức tạp

hơn.

¢ batch_ size (8) và learning_ rate (0.01): Lớn hơn FiLM, cho phép

huấn luyện với nhiều dữ liệu cùng lúc, tăng tốc độ huấn luyện

¢ d_ model (32) và d_ ff (64): Biểu diễn nhiều đặc trưng phức tạp hơn,

một điểm nổi bật so với FiLM.

¢ down_ sampling_ layers (3), down_sampling window (2): Giảm

mẫu dữ liệu đầu vào, đơn giản hóa dữ liệu và giữ thông tin quan trọng

TimeMixer nâng cao hiệu suất và chất lượng dự báo nhờ biến đổi Fourier và mô-đun trộn đa quy mô, cùng chiến lược giảm mẫu và kích thước mô hình tối

uu.

23

Trang 34

Chương 3 CÁC MÔ HÌNH DỰ BÁO

3.2 Một số mô hình theo hướng tiếp cận Hoc

^

sau

3.2.1 M6 hình SegRNN (2023)

Giới thiệu

Các phương pháp RNN gặp khó khăn trong LTSF do phải xử lý chuỗi dự báo

quá dài Số lượng lặp lại lớn là nguyên nhân chính hạn chế RNN trong LTSF.

Gần đây, các phương pháp Transformer, MLP, và CNN đã được uu tiên hơn Lin

và cộng sự phát triển SegRNN (Segment Recurrent Neural Network) vào năm

2023 để cải thiện dự báo chuỗi thời gian bằng cách kết hợp RNN với phân

đoạn chuỗi dữ liệu Họ đề xuất hai chiến lược mới: Segment-wise Iterations và Parallel Multi-step Forecasting, giúp giảm số lần lặp lại trong RNN, từ đó cải

thiện độ chính xác va toc độ suy luận.

Trang 35

Chương 3 CÁC MÔ HÌNH DỰ BÁO

1 Giai đoạn mã hoá

‹Ổ Segment partition và projection: Chuỗi dữ liệu Xứ) e JR# được

chia thành các đoạn XÍ?) € R"X", sau đó chuyển thành X ©) c R“xd

qua phép chiếu tuyến tính Wj?; và ham ReLU, với d là số chiều của,

trạng thái ẩn của GRU Thay vì lặp lại cho từng điểm dữ liệu, SegRNN

áp dụng theo từng phân đoạn, giúp giảm số vòng lặp, tăng hiệu quả

tính toán và khả năng hội tụ của mô hình.

« Recursive encoding: Sau khi biến đổi, X ©) được đưa vào GRU để

thực hiện các vòng lặp đệ quy, nắm bắt đặc trưng theo thời gian mà không cần nhiều lần lặp lại Điều này giúp SegRNN nắm bắt tốt hon

phụ thuộc dài hạn, giảm tích luỹ lỗi và cải thiện tốc độ suy luận Cụ

thể, với 2; € IR“ trong X oe quá trình trong tế bào GRU được biểu diễn

Nhờ chiến lược này, SegRNN không chỉ tăng độ chính xác dự báo mà

còn giảm thời gian suy luận và sử dụng bộ nhớ, vượt trội so với các môhình dựa trên Transformer trong nhiều tình huống

2 Decoding (Giai đoạn giải mã):

« Recurrent Multi-step Forecasting (RMF): Sử dụng y để dự đoán

đa bước, giảm số vòng lặp từ H xuống H/w bằng cách áp dụng kỹ thuật

phân đoạn từ giai đoạn mã hóa.

« Parallel Multi-step Forecasting (PME): Giảm tích luỹ lỗi và tăng

tốc độ suy luận bằng xử lý song song các đoạn đã mã hóa.

¢ Positional embeddings: Bổ sung nhúng vị trí để bảo tồn thứ tự tuần

tự trong giải mã và tăng khả năng nắm bắt quan hệ giữa các biến.

25

Trang 36

Chương 3 CÁC MÔ HÌNH DỰ BÁO

« Parallel decoding: Áp dụng tế bào GRU như trong mã hóa, song song

hóa xử lý, nâng cao tôc độ và độ chính xác.

« Prediction và sequence recovery: Điều chỉnh qua Dropout và dự

đoán qua lớp tuyến tính để hoàn tất chuỗi.

Phân tích tham số mô hình SegRNN

Đánh giá tham số mô hình SegRNN so với FiLM, TSMixer, và TimeMixernhấn mạnh các khác biệt độc đáo

¢ predict: Dự đoán từ GRU qua lớp tuyến tính và dropout, nâng cao

linh hoạt và tổng quát.

2 Ảnh hưởng của tham số đến kiến trúc:

¢ d_ model (512): Biểu diễn chi tiết hơn với kích thước lớn, nổi bật so

với TSMixer và TimeMixer.

¢ dropout (0): Học toàn bộ thông tin mà không áp dung dropout, tránh

quá khớp.

‹ learning_ rate (0.001): Thấp hơn, đảm bảo hoc từ từ và ổn định.

SegRNN khác biệt với các mô hình khác nhờ phân đoạn dữ liệu, giúp GRU

hiệu quả hơn trong nhận dạng mẫu và dự báo ngắn hạn.

26

Trang 37

Chương 3 CÁC MÔ HÌNH DỰ BÁO

3.2.2 Mô hình TimesNet (2023)

Giới thiệu

Phân tích chuỗi thời gian rất quan trọng nhưng việc mô hình hóa chuỗi 1D

gặp khó khăn do mẫu phức tạp TimesNet, do Wu và cộng sự giới thiệu năm

2023 [Ø|, chuyển đổi chuỗi 1D sang không gian 2D, giúp mô hình hóa các biến đổi qua chu kỳ dễ dàng hơn và đạt kết quả tiên tiến trong nhiều nhiệm vụ.

Câu trúc cơ bản

TimesNet được thiết kế để tổng quát hóa các nhiệm vụ phân tích chuỗi thời

gian, đạt hiệu suất cao trong các tác vụ như dự báo, điền dữ liệu, phân loại và

Inception block <i xi: 2 xe

2D Space o ADD eh)

In

Xip

Hình 3.2.2 Cau trúc tổng thể của TimesNet

1 Biến đổi chuỗi thời gian 1D thành 2D: TimesNet chuyển đổi chuỗi

thời gian 1D thành tập hợp các tensor 2D dựa trên tính chu kỳ đa chiều,

giúp tách biệt các biến đổi ngắn hạn và dài hạn, hỗ trợ xử lý hiệu quả các

mẫu thời gian phức tạp Hình minh họa cách phát hiện và biến đổi

tính chu kỳ của chuỗi thời gian 1D thành các tensor 2D, tối ưu hóa xử lý

bằng các hạt nhân 2D và có thể áp dụng cho MTS bằng cách thực hiện biến

đổi tương tự trên tất cả các biến số.

27

Trang 38

Chương 3 CÁC MÔ HÌNH DỰ BÁO

Frequency | ®———Reshape 5 Temporal 2D-variations

Trong đó: Xịp € RTM** là chuỗi thời gian 1D với 7 là chiều dài va N là

số lượng biến FFT(-) là hàm biến đổi Fourier nhanh Amp(-) tính biên

độ của tín hiệu Avg(-) lấy giá trị trung bình của biên độ trên các biến

Biến đổi không gian 1D thành không gian 2D:

{fi,. , fr} = argTop, (A), THÍ ¡€{I, ,k} (3.23)

X}p = Reshape,, ; (Padding(Xip)) (3.2.4)

Trong đó: Xấp € R?*/*% là tensor 2D đã biến đổi từ chuỗi thời gian

1D Xịp Padding(-) thêm các giá trị 0 vào chuỗi thời gian để phù hợp với kích thước yêu cầu cho việc biến đổi.

2 TimesBlock:

« TimesBlock là thành phần chính của TimesNet, được thiết kế để khám

phá các chu kỳ đa chiều và trích xuất các biến đổi thời gian phức tạp

28

Trang 39

Chương 3 CÁC MÔ HÌNH DỰ BÁO

từ các tensor 2D TimesBlock sử dụng một Inception Block hiệu quả về

tham số để xử lý các tensor 2D này.

« Trong TimesBlock, các tensor 2D được xử lý bằng các hạt nhân 2D (2D

kernels), cho phép mô hình hóa đồng thời các biến đổi ngắn hạn (trong

chu kỳ) và dài hạn (giữa các chu kỳ) Quá trình xử lý tensor 2D với

Inception Block được thực hiện như sau:

Ẩjp = Inception(Xjø) (3.2.5)

Sau khi xử lý, tensor 2D được biến đổi ngược lại thành chuỗi thời gian

1D:

Xin= Trunc(Reshapey x (f,.p,)(X3p)) (3.2.6)

trong đó hàm Trune(-) loại bỏ phần đệm để khôi phục lại chiều dài ban

đầu của chuỗi thời gian.

3 Adaptive Aggregation (Kết hợp thích ứng): Sau khi xử lý tensor 2D,

các đặc trưng từ các chu kỳ khác nhau được kết hợp dựa trên tầm quan

trọng, thường xác định qua biên độ Quá trình này tổng hợp thông tin đa chiều, giúp mô hình nim bắt các biến đổi thời gian đầy đủ.

Đầu tiên, các biểu diễn từ các chu kỳ khác nhau được kết hợp lại như sau:

^

Ân, ,Ây = Softmax(Ay,, , Az,) (3.2.7)

Biểu diễn cuối cùng cho lớp TimesBlock được tính bằng cách kết hợp các

biểu diễn 1D từ các chu kỳ khác nhau:

k

Xtp = Vo Ap Xv (3.2.8)

i=1

Phân tích tham số mô hình TimesNet

Đánh giá tham số mô hình TimesNet, tập trung vào sự khác biệt so với FiLM,TSMixer, TimeMixer và SegRNN.

1 Tham sô kién trúc:

29

Trang 40

Chương 3 CÁC MÔ HÌNH DỰ BÁO

¢ DataEmbedding: Nhúng thời gian va vi trí cải thiện độ chính xác du

báo, khác biệt với FiLM và SegRNN.

s« Inception_ Block_ VI: Sử dụng lớp tích chập đa kích thước, tăng

tính linh hoạt so với FiLM, SegRNN, và khác biệt với ResBlock của TSMixer.

« TimesBlock: Kết hợp biến đổi Fourier và tích chập để phân tích chu

kỳ, vượt trội so với SegRNN và FiLM.

2 Ảnh hưởng của tham số mô hình đến kiến trúc:

e e layers (2) và d_ layers (1): TimesNet sử dụng ít lớp encoder hơn

TSMixer và TimeMixer, tối ưu hóa giữa hoc và tính toán

¢ d_ model (512) và d_ ff (512): Kích thước lớn giúp biểu diễn đặc

trưng phức tạp, phù hợp cho dữ liệu đa dạng.

« top_k (5): Chọn loc đặc trưng quan trọng, tập trung vào thành phần

quan trọng của dữ liệu.

‹ learning rate (0.001): Mức chậm hơn đảm bảo hội tụ ổn định, so

với 0.01 của TSMixer và TimeMixer.

Tham số như TimesBlock và top_k giúp TimesNet xử lý hiệu quả chu kỳ và

nổi bật các đặc trưng quan trọng, nâng cao khả năng dự báo trong bối cảnh

traffic-hour.

3.3 Một số mô hình theo hướng tiếp cận Transformer

3.3.1 Mô hình Transformer (2017)

Giới thiệu

Transformer, giới thiệu bởi Vaswani và cộng sự vào năm 2017 Hỗ], là một

kiến trúc học sâu nổi bật trong xử lý ngôn ngữ tự nhiên Vượt trội hơn RNN

và LSTM, Transformer giải quyêt van đề nam bắt các môi quan hệ dài hạn và

30

Ngày đăng: 24/12/2024, 00:03

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN