các mô hình dựa trên kiến trúc transformer cho bài toán dự báo dài hạn giá cổ phiếu

Nó đặt ra câu hỏi cốt lõi: "Làm thếnào chúng ta có thể dự đoán tương lai dựa trên quá khứ?" Bài toán này đòi hỏi khả năngdự đoán giá trị của một biến theo thời gian, dựa vào dữ liệu lịch

Giới thiệu

Bài toán dự đoán chuỗi thời gian(Time Series Forecasting), trong lĩnh vực khoa học dữ liệu và máy học, là một bài toán quan trọng và thú vị Nó đặt ra câu hỏi cốt lõi: "Làm thế nào chúng ta có thể dự đoán tương lai dựa trên quá khứ?" Bài toán này đòi hỏi khả năng dự đoán giá trị của một biến theo thời gian, dựa vào dữ liệu lịch sử của biến đó, thường được ghi nhận theo các khoảng thời gian đều đặn.

Bài toán dự đoán chuỗi thời gian giữ vai trò cốt yếu trong quá trình ra quyết định, tối ưu hóa và lập kế hoạch tại các tổ chức, doanh nghiệp Từ dự báo giá cổ phiếu, tỷ giá hối đoái trong lĩnh vực tài chính, quản lý hàng tồn kho trong thương mại điện tử, cho tới dự đoán thời tiết, nhu cầu sản phẩm, bài toán này sở hữu ứng dụng đa dạng và vô cùng quan trọng.

Ứng dụng

Dự đoán chuỗi thời gian đóng vai trò không thể thiếu và to lớn trong nhiều lĩnh vực:

• Tài chính: Trong lĩnh vực tài chính, dự đoán giá cổ phiếu, tỷ giá hối đoái và các yếu tố tài chính khác là bước cơ bản cho việc đầu tư và quản lý tài sản.

• Kinh tế: Dự đoán tình hình kinh tế quốc gia và toàn cầu, tỷ lệ thất nghiệp, sản lượng công nghiệp và giá tiêu dùng giúp quyết định chính trị và kế hoạch kinh tế.

• Thương mại điện tử: Trong thương mại điện tử, dự đoán nhu cầu sản phẩm, quản lý tồn kho và dự đoán xu hướng mua sắm giúp tối ưu hoá cung cấp và tăng hiệu suất.

• Năng lượng: Dự đoán nhu cầu năng lượng, quản lý sản xuất điện và tối ưu hoá việc sử dụng nguồn năng lượng là chìa khóa cho sự bền vững.

CHƯƠNG 1 BÀI TOÁN DỰ BÁO CHUỖI THỜI GIAN

• Y tế: Dự đoán lây lan của dịch bệnh, quản lý tài nguyên y tế và đáp ứng trong các tình huống khẩn cấp cứu chữa.

• Thời tiết: Dự đoán thời tiết giúp đối phó với thiên tai và đảm bảo an toàn công chúng.

Dự đoán chuỗi thời gian đóng vai trò quyết định trong việc đưa ra quyết định chiến lược, tối ưu hoá quy trình và tạo giá trị trong tổ chức và doanh nghiệp Nó là công cụ mạnh mẽ để cải thiện hiệu suất, dự đoán rủi ro và định hình tương lai dựa trên dữ liệu số.

Thách thức và Phát triển

Mặc dù có nhiều ứng dụng hứa hẹn, dự đoán chuỗi thời gian vẫn đầy thách thức Dữ liệu thường bị nhiễu và có thể bị ảnh hưởng bởi nhiều yếu tố khác nhau Chọn mô hình dự báo thích hợp và tinh chỉnh các tham số là một phần không thể thiếu để đạt được dự đoán chính xác Với sự phát triển của trí tuệ nhân tạo và học máy, việc áp dụng các mô hình học sâu đã giúp cải thiện hiệu suất dự đoán chuỗi thời gian, mở ra nhiều tiềm năng mới và thách thức đáng kể cho những người nghiên cứu và chuyên gia trong lĩnh vực này.

Mô hình hóa bài toán dự báo chuỗi thời gian cho dữ liệu cổ phiếu

Trong bài báo cáo này, chúng ta sẽ xây dựng và mô hình hóa bài toán dự báo chuỗi thời gian cho dữ liệu cổ phiếu Cụ thể, giả sử ta có dữ liệu lịch sử của S loại cổ phiếu khác nhau, được đánh số lần lượt là 1,2, , S Trong đó, ứng với mỗi loại cổ phiếu, ta có các trường dữ liệu bao gồm các thông tin cụ thể như: giá cao nhất, giá thấp nhất, giá mở cửa, và giá đóng cửa; được ký hiệu là H t s , L s t , O t s , và C t s tương ứng (H t s , L s t , O s t , C t s ∈ R).

Mục tiêu của chúng ta là dự đoán giá đóng cửa trong tương lai bằng cách xây dựng một mạng được ký hiệu là f Mạng này nhận các chuỗi dãy thời gian bao gồm m bước thời gian trong quá khứ làm đầu vào và dự đoán mức nước chon bước thời gian vào tương lai.

Cụ thể, xét bước thời gian T:

• Input.Dữ liệu chuỗi thời gian đầu vào sử dụng từ các trường thông tin high, low, open và close:

Transformer cho Dự báo chuỗi thời gian

Giới thiệu

Sự đổi mới của Transformer trong học sâu đã thu hút sự quan tâm lớn gần đây nhờ vào hiệu suất xuất sắc của nó trong xử lý ngôn ngữ tự nhiên (NLP), thị giác máy tính (CV),và xử lý giọng nói Trong vài năm qua, đã có nhiều biến thể của Transformer được đề xuất để đẩy mạnh đáng kể hiệu suất của nhiều nhiệm vụ Transformer đã thể hiện khả năng mô hình hóa xuất sắc cho các phụ thuộc xa và tương tác trong dữ liệu tuần tự và do đó rất phù hợp đối với việc mô hình hóa chuỗi thời gian Nhiều biến thể của Transformer đã được đề xuất để giải quyết các thách thức đặc biệt trong mô hình hóa chuỗi thời gian và đã được áp dụng thành công vào nhiều nhiệm vụ chuỗi thời gian, chẳng hạn như dự báo,phát hiện bất thường và phân loại Cụ thể, tính mùa vụ hoặc chu kỳ là một đặc điểm quan trọng của chuỗi thời gian Cách hiệu quả để mô hình hóa các phụ thuộc thời gian xa và gần đồng thời và nắm bắt tính mùa vụ vẫn là một thách thức.

Tổng quan về Transformer

Transformer

Transformer cơ bản tuân theo hầu hết các mô hình chuỗi neural cạnh tranh khác với cấu trúc mã hóa-giải mã Cả mã hóa và giải mã đều được tạo thành từ nhiều khối giống nhau.

Mỗi khối mã hóa bao gồm một mô-đun tự-chú ý đa đầu và một mạng truyền thẳng theo vị trí, trong khi mỗi khối giải mã chèn các mô hình chú ý chéo giữa mô-đun tự-chú ý đa đầu (multi-head self-attention) và mạng truyền thẳng theo vị trí (feed-forward network).

CHƯƠNG 2 TRANSFORMER CHO DỰ BÁO CHUỖI THỜI GIAN

Mã hóa đầu vào và mã hóa vị trí

Khác với LSTM hoặc RNN, Transformer cơ bản không có sự lặp lại Thay vào đó, nó sử dụng việc mã hóa vị trí được thêm vào trong các vectơ nhúng đầu vào để mô hình thông tin về chuỗi Dưới đây,tóm tắt một số cách mã hóa vị trí.

Mã hóa Vị trí Tuyệt đối (Absolute Positional Encoding) Trong Transformer cơ bản, đối với mỗi chỉ số vị trí t, vectơ mã hóa được xác định bởi

P E(t) i (sin(ω i t) nếu i%2 = 0 cos(ω i t) nếu i%2 = 1 trong đóω i là tần số được tạo thủ công cho mỗi chiều Một cách khác là học một tập hợp các vectơ nhúng vị trí cho mỗi vị trí, điều này linh hoạt hơn.

Mã hóa Vị trí Tương đối (Relative Positional Encoding) Theo sự hiểu biết rằng mối quan hệ vị trí theo cặp giữa các phần tử đầu vào có lợi hơn so với vị trí của từng phần tử, các phương pháp mã hóa vị trí tương đối đã được đề xuất Ví dụ, một trong các phương pháp như vậy là thêm một vectơ nhúng vị trí tương đối có khả năng học được vào các khóa của cơ chế tự-chú ý.

Ngoài mã hóa vị trí tuyệt đối và tương đối, còn có các phương pháp sử dụng mã hóa vị trí lai, kết hợp cả hai loại mã hóa này lại với nhau Thường, mã hóa vị trí được thêm vào các vectơ nhúng token và được đưa vào Transformer.

Chú ý đa đầu (Multi-head Attention)

Mô hình Query-Key-Value (kí hiệu lần lượt là: Q,K,V), mà Transformer sử dụng cho cơ chế tự-chú ý dựa trên tích vô hướng đã được mô tả như sau:

Trong đó, các vector truy vấn Q ∈ R N×D k , các vector khóa K ∈ R M×D k , các vector giá trịV ∈R M×D v ,N vàM lần lượt là độ dài của các truy vấn và các khóa (hoặc giá trị), và D k , D v lần lượt là số chiều của các khóa (hoặc truy vấn) và giá trị.

Transformer sử dụng tự-chú ý đa đầu (multi-head attention) với H bộ dự đoán đã học khác nhau thay vì một hàm chú ý đơn lẻ, như sau:

MultiHeadAttn(Q, K, V) =Concat(head 1 , , head H )W O Trong đó, head i =Attention(QW i Q , KW i K , V W i V và W O là ma trận trọng số dùng để kết hợp các kết quả từ các đầu tự-chú ý đa đầu.

Mạng truyền thẳng và Mạng phần dư (Feed-forward and Residual Network)

Mạng truyền thẳng (feed-forward network) là một mô-đun hoàn toàn kết nối và được biểu diễn như sau:

FFN(H ( ′ ) ) =ReLU(H ( ′ ) W 1 +b 1 )W 2 +b 2 , (3) trong đó H ( ′ ) là đầu ra của lớp trước đó, W 1 ∈ R D m ×D f , W 2 ∈ R D f ×D m , b 1 ∈ R D f , b 2 ∈ R D m là các tham số có thể học Trong một mô-đun sâu hơn, một mô-đun kết nối phần dư (residual connection module) được chèn vào xung quanh mỗi mô-đun, sau đó là một mô-đun chuẩn hóa lớp (layer normalization module) Cụ thể,

H =LayerNorm(FFN(H ( ′ ) ) +H ( ′ ) ), (5) trong đó SelfAttn(.) biểu thị mô-đun tự-chú ý và LayerNorm(.) biểu thị phép toán chuẩn hóa lớp.

Ứng dụng Transformer với chuỗi thời gian

Biến thể cấp mô-đun

Các biến thể cấp mô-đun của Transformer đã đem lại nhiều cách tiếp cận độc đáo để nâng cao hiệu suất trong nhiệm vụ dự đoán chuỗi thời gian và đồng thời giúp mô hình trở nên giải thích được hơn Các biến thể này bao gồm ba loại chính.

Loại đầu tiên tập trung vào thiết kế các mô-đun chú ý mới, với sáu công trình tiêu biểu bao gồm LogTrans, Informer, AST, Pyraformer, Quatformer và FEDformer Các công trình này khai thác các biểu đồ chú ý thưa hoặc gần gần để giảm nhiễu và cải thiện tính phức tạp tính toán.

Loại thứ hai tập trung vào cách chuẩn hóa dữ liệu chuỗi thời gian, với công trình Non-stationary Transformer sửa đổi cơ chế chuẩn hóa để cải thiện hiệu suất.

Loại thứ ba sử dụng sự thiên vị cho đầu vào mã thông báo, với các công trình như Autoformer, PatchTST và Crossformer Các phương pháp này cải thiện khả năng dự đoán bằng cách tận dụng các đặc điểm của dữ liệu đầu vào.

Các biến thể cấp mô-đun này cung cấp nhiều cách tiếp cận đa dạng để cải thiện hiệu suất mô hình Transformer trong nhiệm vụ dự đoán chuỗi thời gian và cung cấp khả năng giải thích cho dự đoán của mô hình Chúng là một phần quan trọng của tiến bộ trong lĩnh vực này và đang thu hút sự quan tâm của cộng đồng nghiên cứu chuỗi thời gian.

Biến thể cấp độ kiến trúc

Có một số công trình bắt đầu thiết kế một kiến trúc Transformer mới vượt ra ngoài phạm vi của Transformer cơ bản Trong đó, công trình Triformer thiết kế một cơ chế chú ý đặc biệt với hình dạng hình tam giác Nó có một cấu trúc dạng cây tam giác khi kích thước đầu vào sau đó giảm đi theo hình mũ và sử dụng một tập hợp các tham số đặc biệt cho từng biến số, giúp một Triformer đa tầng duy trì một cấu trúc nhẹ và tạo ra tính phức tạp tuyến tính.

Công trình Scaleformer đề xuất một khung việc tính nhiều tỷ lệ có thể áp dụng cho các mô hình dự đoán chuỗi thời gian dựa trên Transformer cơ bản (như FEDformer,Autoformer, ) Nó có khả năng cải thiện hiệu suất của mô hình cơ sở bằng cách tinh chỉnh lặp lại chuỗi thời gian dự đoán ở nhiều tỷ lệ khác nhau với trọng số được chia sẻ.

Thuật toán Informer và Autoformer trong Dự báo chuỗi thời gian dài hạn

Informer

Giới thiệu

Dự báo chuỗi thời gian là một yếu tố quan trọng trong nhiều lĩnh vực, như theo dõi mạng cảm biến, quản lý năng lượng và lưới điện thông minh, kinh tế và tài chính , và phân tích sự lây lan của các bệnh Trong những tình huống này, chúng ta có thể tận dụng một lượng lớn dữ liệu chuỗi thời gian về hành vi trong quá khứ để thực hiện dự đoán trong dài hạn, cụ thể là dự đoán chuỗi thời gian dài hạn (LSTF) Tuy nhiên, các phương pháp hiện có chủ yếu được thiết kế dưới dạng vấn đề ngắn hạn Sự gia tăng đáng kể về độ dài chuỗi đặt áp lực lên khả năng dự đoán của các mô hình đến mức xu hướng này đang kiểm soát nghiên cứu về LSTF.

Như một ví dụ thực nghiệm, Hình 3.1 hiển thị kết quả dự đoán trên một tập dữ liệu thực tế, trong đó mạng LSTM dự đoán nhiệt độ hàng giờ của một trạm biến áp điện từ giai đoạn ngắn hạn (12 điểm, 0.5 ngày) đến giai đoạn dài hạn (480 điểm, 20 ngày) Khi độ dài dự đoán lớn hơn 48 điểm (ngôi sao đậm trong Hình 3.1b), sự chênh lệch về hiệu suất tổng thể lớn, trong đó MSE tăng lên mức hiệu suất không đạt yêu cầu, tốc độ suy luận giảm đáng kể và mô hình LSTM bắt đầu thất bại.

Thách thức lớn nhất cho LSTF là nâng cao khả năng dự đoán để đáp ứng yêu cầu về chuỗi ngày càng dài, đòi hỏi (a) khả năng cân đối ở khoảng cách rất xa và (b) hoạt động hiệu quả trên đầu vào và đầu ra của chuỗi dài Gần đây, các mô hình Transformer đã thể hiện hiệu suất ưu việt trong việc nắm bắt sự phụ thuộc xa nhưng các mô hình RNN Cơ chế tự chú ý có thể giảm độ dài tối đa của đường đi truyền tín hiệu mạng xuống cấp lý thuyết tối thiểuO(1) và tránh cấu trúc lặp lại, từ đó Transformer thể hiện tiềm năng lớn trong việc giải quyết vấn đề LSTF Tuy nhiên, cơ chế tự chú ý vi phạm yêu cầu (b) do tính toán và sử dụng bộ nhớ L-bình phương trên đầu vào/đầu ra có độ dàiL Một số mô hình Transformer quy mô lớn tiêu tốn tài nguyên và cho kết quả ấn tượng trên các nhiệm

CHƯƠNG 3 THUẬT TOÁN INFORMER VÀ AUTOFORMER TRONG DỰ BÁO

CHUỖI THỜI GIAN DÀI HẠN vụ xử lý ngôn ngữ tự nhiên (NLP) (Brown et al 2020), nhưng việc huấn luyện trên hàng chục GPU và chi phí triển khai đắt đỏ khiến cho các mô hình này không thể đáp ứng được vấn đề

LSTF trong thực tế Tính hiệu quả của cơ chế tự chú ý và kiến trúc Transformer trở thành chướng ngại đối với việc áp dụng chúng vào các vấn đề LSTF Vì vậy, để tìm kiếm câu hỏi: liệu có thể cải thiện các mô hình Transformer để trở nên hiệu quả về tính toán, bộ nhớ và kiến trúc, đồng thời vẫn duy trì khả năng dự đoán cao hơn không?

Hình 3.1: (a) LSTF có thể bao phủ một khoảng thời gian mở rộng hơn so với việc dự đoán chuỗi ngắn, tạo ra sự khác biệt quan trọng trong quá trình lập kế hoạch chính sách và bảo vệ đầu tư (b) Khả năng dự đoán của các phương pháp hiện có giới hạn hiệu suất của LSTF Ví dụ, bắt đầu từ độ dàiH, sai số bình phương trung bình (MSE) tăng lên một cách không chấp nhận được cao, và tốc độ suy luận giảm đáng kể.

Transformer thông thường (Vaswani et al 2017) có ba hạn chế quan trọng khi giải quyết vấn đề LSTF (Dự đoán chuỗi thời gian dài hạn):

• Sự tính toán bậc hai của tự-chú ý (self-attention):Phép tính tự-chú ý cơ bản, cụ thể là tích vô hướng cổ điển, làm tăng độ phức tạp thời gian và sử dụng bộ nhớ cho mỗi lớp lênO(L 2 ).

- Hạn chế về bộ nhớ khi xếp nhiều lớp cho chuỗi đầu vào dài: Sự xếp chồng của J lớp mã hóa/giải mã làm tăng tổng sử dụng bộ nhớ lên O(J.L^2), giới hạn khả năng mở rộng của mô hình trong việc tiếp nhận đầu vào chuỗi dài.

• Sự giảm tốc trong việc dự đoán chuỗi đầu ra dài: Việc giải mã động của vanilla Transformer làm cho việc suy luận từng bước như mô hình dựa trên RNN (hình 3.1b).

Có một số công trước đây về việc cải thiện hiệu suất của tự-chú ý Sparse Transformer(Child et al 2019), LogSparse Transformer (Li et al 2019) và Longformer (Beltagy, Peters,và Cohan 2020) đều sử dụng một phương pháp ưu tiên để giải quyết hạn chế thứ nhất và giảm độ phức tạp của cơ chế tự-chú ý xuống O(Llog), tuy nhiên hiệu quả của họ bị

CHUỖI THỜI GIAN DÀI HẠN giới hạn (Qiu et al 2019) Reformer (Kitaev, Kaiser, và Levskaya 2019) cũng đạt được O(LlogL) với cơ chế tự-chú ý dựa trên băm nhạy địa phương, nhưng chỉ hoạt động trên dãy cực kỳ dài Gần đây hơn, Linformer (Wang et al 2020) tuyên bố có độ phức tạp tuyến tính O(L), nhưng ma trận chiếu không thể cố định cho đầu vào dãy thời gian thực tế, có thể có nguy cơ giảm xuống O(L 2 ) Transformer-XL (Dai et al 2019) và Compressive Transformer (Rae et al 2019) sử dụng trạng thái ẩn phụ trợ để nắm bắt phụ thuộc xa, điều này có thể làm tăng hạn chế thứ nhất và ngược lại làm suy yếu nút cổ chai về hiệu suất Tất cả những công trình này chủ yếu tập trung vào hạn chế thứ nhất, và hạn chế thứ hai và ba vẫn chưa được giải quyết trong vấn đề LSTF Để nâng cao khả năng dự đoán thì phải giải quyết tất cả những hạn chế này và đạt được sự cải thiện vượt trội về hiệu suất thông qua Informer đề xuất.

Hình 3.2: Tổng quan về mô hình Informer Bên trái: Bộ mã hóa nhận đầu vào là các dãy dài rất lớn (dãy màu xanh) Thay thế tự-chú ý cổ điển bằng tự-chú ý ProbSparse được đề xuất Hình nền màu xanh da trời là hoạt động tự-chú ý tinh lọc để trích xuất sự quan trọng của sự chú ý, giảm kích thước mạng một cách đáng kể Việc xếp chồng lớp nhân bản giúp tăng tính ổn định Bên phải:Bộ giải mã nhận đầu vào dãy dài, đệm các phần tử mục tiêu thành giá trị không, đo lường sự kết hợp trọng số của bản đồ đặc trưng và dự đoán ngay lập tức các phần tử đầu ra (dãy màu cam) theo kiểu tạo sinh.

Sơ bộ

Định nghĩa về vấn đề Dự đoán Chuỗi Thời gian Dài (LSTF) Dưới đây là mô tả vấn đề dự đoán LSTF trong một cài đặt dự đoán luân phiên với cửa sổ cố định Tại thời điểm t, đầu vào X t = {x t1 , , x tLx |x ti ∈ R dx }, và đầu ra là dự đoán chuỗi tương ứng Y t ={y t1 , , y tLy |y ti ∈ R dy } Vấn đề LSTF khuyến khích sử dụng độ dài đầu ra lớn hơn Ly so với các công trình trước và chiều đặc trưng không bị giới hạn chỉ cho trường hợp không gian đơn biến (dy≥1).

Kiến trúc Mã hóa-Giải mã: Rất nhiều mô hình phổ biến được thiết kế để "mã hóa" biểu diễn đầu vào X t thành biểu diễn ẩn H t và "giải mã" biểu diễn đầu ra Y t từ

CHUỖI THỜI GIAN DÀI HẠN

H t ={h t1 , , h tLh } Quá trình suy luận liên quan đến một quá trình từng bước được gọi là "giải mã động", trong đó bộ giải mã tính toán trạng thái ẩn mới h tk+1 từ trạng thái trước đóhtk và các đầu ra cần thiết từ bước thứk, sau đó dự đoán chuỗi(k+ 1)-th y k+1 t Biểu diễn Đầu vào: Một biểu diễn đầu vào thống nhất được cung cấp để cải thiện bối cảnh vị trí toàn cục và bối cảnh thời gian cục bộ của đầu vào chuỗi thời gian.

Kiến trúc Informer

Cơ chế tự chú ý thưa (ProbSparse Self-Attention)

Trong informer thay vì sử dụng Công thức 2.2.3, thì sử dụng Công thức 3.1 bằng cách để mỗi key chỉ chú ý đến u truy vấn quan trọng:

Bổ đề 1 Đối với mỗi truy vấn q i ∈R d và k j ∈R d trong tập hợp keys K, chúng ta có giới hạn như sau:lnL K ≤M(q i , K)≤max j n q i k T j

√ ij d o + lnL K Khiq i ∈K, nó cũng áp dụng.

Phương pháp đo lường max-mean từ bổ đề 1 như sau:

Phạm vi của Top-u gần như giữ nguyên Dưới phân phối, chỉ cần mẫu ngẫu nhiên U = L K lnL Q cặp tích vô hướng để tính toán M(q i , K), tức là điền các cặp khác bằng không Sau đó, chúng ta chọn Top-u thưa thớt từ chúng để tạo ma trận Q Toán tử max¯ trong M¯(q i , K) ít nhạy cảm hơn đối với giá trị bằng không và ổn định về mặt số học.

Trong thực tế, độ dài đầu vào của truy vấn và keys thường tương đương trong tính toán tự-chú ý, tức là LQ = LK = L, vì vậy tổng thời gian tính toán tự-chú ý ProbSparse và tính phức tạp không gian là O(LlnL).

Bộ mã hóa: Cho phép xử lý các đầu vào tuần tự dài hơn trong Giới hạn sử dụng bộ nhớ

Cách mà bộ mã hóa được thiết kế là để trích xuất sự phụ thuộc xa mạnh mẽ của các đầu vào dãy dài Hình 3.3 thể hiện kiến trúc sơ đồ của bộ mã hóa:

Hình 3.3: Ngăn xếp đơn lẻ trong bộ mã hóa của Informer (1) Ngăn xếp ngang đại diện cho một bản sao cá nhân của các bộ mã hóa trong Hình 3.2 (2) Bản sao được trình bày là ngăn xếp chính nhận toàn bộ chuỗi đầu vào Sau đó, ngăn xếp thứ hai lấy nửa lát của đầu vào, và các ngăn xếp tiếp theo lặp lại (3) Các tầng màu đỏ là ma trận tích chấp, và chúng giảm dần theo cấp bằng cách áp dụng phép tinh lọc tự chú ý lên từng tầng (4) Ghép tất cả các bản đồ đặc trưng của các ngăn xếp lại với nhau để tạo ra đầu ra của bộ mã hóa.

Bản đồ đặc trưng của bộ mã hóa có thêm các kết hợp giá trị V do cơ chế tự chú ý ProbSparse Hoạt động chắt lọc được sử dụng để ghi điểm cho những giá trị ưu việt có các đặc điểm chi phối và xây dựng một bản đồ đặc trưng tự chú ý tập trung trong tầng tiếp theo.

Từ Hình 3.3, có thể thấy rằng cấu trúc bao gồm một số khối Attention, Conv1d, và lớp MaxPooling để mã hóa dữ liệu đầu vào Các bản sao của ngăn xếp chính với việc chia đầu vào thành nửa giúp nâng cao tính đáng tin cậy của phép tinh chất (distilling operation).

Ngoài ra, liên tục, số lượng tầng tự chú ý tự động hóa giảm dần Ở cuối bộ mã hóa, các nhà nghiên cứu đã nối Bản đồ Đặc trưng để định hướng đầu ra của bộ mã hóa đến bộ giải mã.

Bộ giải mã: Tạo đầu ra tuần tự dài thông qua quy trình chuyển tiếp một lần

Cấu trúc bộ giải mã không phức tạp; đó là cấu trúc bộ giải mã tiêu chuẩn bao gồm một chồng hai lớp chú ý nhiều đầu (multi-head attention layers) giống hệt nhau Tuy nhiên,quá trình suy luận tổng quát được đề xuất để làm giảm bớt sự suy giảm tốc độ trong dự đoán dài hạn(Hình 3.2).

Cách mà trình giải mã được cung cấp bằng cách thu được phương trình dưới đây:

Đầu ra của Transformer tại thời điểm t là kết hợp giữa mã thông báo đầu vào (X token t) và vị trí đệm (X 0 t) có kích thước (L token + L y) × d model, trong đó X token t có kích thước L token × d model và X 0 t có kích thước L y × d model đóng vai trò là vị trí đệm để thay thế chuỗi mục tiêu (khởi tạo ban đầu là 0).

Thay vì sử dụng các cờ cụ thể làm mã thông báo, chuỗi dàiL(mã thông báo) được lấy mẫu theo chuỗi đầu vào, giống như lát cắt trước đó trước chuỗi đầu ra.

Giá trị của thuật toán Informer

Cơ chế tự-chú-ý ProbSparse trong mô hình thuật toán Informer có thể đạt được độ phức tạp thời gian và sử dụng bộ nhớO(L/logL), tạo sự điều chỉnh lớn đối với transformer về mặt độ phức tạp thời gian và bộ nhớ,trong khi cơ chế tự chú ý làm nổi bật đầu vào của lớp xếp tầng bằng cách giảm một nửa mức độ chú ý chiếm ưu thế và xử lý hiệu quả các chuỗi đầu vào quá dài Bộ giải mã sinh ra được đề xuất thực hiện một phép chuyển tiếp trên các chuỗi dài thay vì dự đoán bằng cách đi từng bước, điều này cải thiện đáng kể tốc độ dự đoán của các chuỗi dài.

Trước hết, cơ chế tự chú ý cải tiến giảm độ phức tạp và bộ nhớ, nhưng vẫn còn khả năng cải thiện về độ phức tạp và tiêu thụ bộ nhớ; thứ hai, mặc dù hiệu quả được cải thiện,nhưng vẫn còn vấn đề về sự phụ thuộc thời gian giữa chuyển tiếp thuận và ngược, dẫn đến một số sai lệch giữa kết quả dự đoán và kết quả thực tế, và độ chính xác vẫn cần được cải thiện Cuối cùng, cấu trúc của bộ giải mã sinh ra quá đơn giản, ít đổi mới và tương tự với transformer, do đó còn khả năng điều chỉnh cấu trúc.

Autoformer

Giới thiệu

Dự báo chuỗi thời gian đã được sử dụng rộng rãi trong việc kế hoạch tiêu thụ năng lượng, giao thông và kinh tế, dự báo thời tiết và sự lây lan của bệnh Trong những ứng dụng thực tế này, một yêu cầu cấp bách là mở rộng thời gian dự báo vào tương lai xa, điều này rất có ý nghĩa cho kế hoạch dài hạn và cảnh báo sớm Các mô hình dự báo sâu gần đây đã đạt được tiến bộ lớn, đặc biệt là các mô hình dựa trên Transformer Nhờ cơ chế tự chú ý (self-attention mechanism), Transformers có lợi thế lớn trong việc mô hình hóa các phụ thuộc xa trong dữ liệu tuần tự, điều này cho phép xây dựng các mô hình lớn mạnh hơn.

Tuy nhiên, nhiệm vụ dự báo trong bối cảnh dài hạn là rất khó khăn Trước hết, việc tìm ra các phụ thuộc thời gian trực tiếp từ chuỗi thời gian dài hạn là không đáng tin cậy do các phụ thuộc có thể bị che khuất bởi các mẫu thời gian lồng nhau Thứ hai, các Transformer thông thường với cơ chế tự chú ý tạo ra sự cản trở tính toán cho dự báo dài hạn do độ phức tạp bậc hai của độ dài chuỗi Các mô hình dự báo trước đây dựa trên Transformer chủ yếu tập trung vào việc cải thiện tự chú ý thành phiên bản thưa thớt (sparse version).

Mặc dù hiệu suất đã được cải thiện đáng kể, nhưng những mô hình này vẫn sử dụng tổng hợp biểu diễn theo cách điểm Do đó, trong quá trình cải thiện hiệu suất, họ sẽ hy sinh việc sử dụng thông tin do sự kết nối điểm thưa, dẫn đến sự hạn chế cho việc dự báo trong thời gian dài của chuỗi thời gian. Để tìm hiểu về các mẫu thời gian phức tạp, áp dụng ý tưởng về sự phân giải(decomposition),một phương pháp tiêu chuẩn trong phân tích chuỗi thời gian Phương pháp này có thể

CHUỖI THỜI GIAN DÀI HẠN được sử dụng để xử lý các chuỗi thời gian phức tạp và trích xuất các thành phần có thể dự đoán được hơn Tuy nhiên, trong bối cảnh dự báo, nó chỉ có thể được sử dụng như một bước tiền xử lý của các chuỗi quá khứ vì tương lai không được biết đến Cách sử dụng thông thường này giới hạn khả năng của phương pháp phân giải và bỏ qua các tương tác tiềm năng trong tương lai giữa các thành phần được phân giải Do đó, để vượt ra ngoài việc sử dụng tiền xử lý của phân giải và đề xuất một kiến trúc chung để trang bị cho các mô hình dự báo sâu khả năng phân giải tiến bộ Hơn nữa, phân giải có thể giúp giải quyết các mẫu thời gian phức tạp và làm nổi bật các đặc tính bản thân của chuỗi thời gian Từ điều này, tận dụng tính chu kỳ của chuỗi để cải tiến kết nối điểm trong tự chú ý Quan sát rằng các chuỗi con ở vị trí cùng một giai đoạn giữa các chu kỳ thường thể hiện các quy trình thời gian tương tự Do đó, xây dựng một kết nối ở cấp độ chuỗi dựa trên sự tương đồng về quy trình dẫn xuất từ tính chu kỳ của chuỗi.

Dựa trên lý do nêu trên, kiến trúc cơ bản Autoformer thay thế Transformer để dự báo chuỗi thời gian dài hạn Autoformer vẫn tuân theo cấu trúc encoder-decoder nhưng cải tiến Transformer thành một kiến trúc dự báo độ phân giải.

Bằng cách nhúng các khối phân giải, Autoformer có thể dần dần tách thông tin về xu hướng dài hạn ra khỏi biến số ẩn được dự đoán Thiết kế này cho phép mô hình xen kẽ giữa việc phân giải và làm sạch kết quả trung gian trong quá trình dự báo Dựa trên lý thuyết về quá trình ngẫu nhiên, Autoformer giới thiệu một cơ chếTự tương quan(Auto-Correlation mechanism) thay vì tự chú ý(self-attention), giúp phát hiện sự tương tự của các chuỗi con dựa trên tính chu kỳ của chuỗi và tổng hợp các chuỗi con tương tự từ các giai đoạn cơ bản Cơ chế này ở cấp độ chuỗi đạt được phức tạp O(LlogL) đối với chuỗi có độ dài L và phá vỡ hạn chế trong việc sử dụng thông tin bằng cách mở rộng tổng hợp biểu diễn theo cách điểm lên cấp độ chuỗi con Autoformer đạt được độ chính xác hàng đầu trong sáu bài kiểm tra.

Mô hình dự báo chuỗi thời gian

Bởi vì tầm quan trọng to lớn của việc dự báo chuỗi thời gian, đã có nhiều mô hình được phát triển tốt Nhiều phương pháp dự báo chuỗi thời gian bắt đầu từ các công cụ kinh điển ARIMA giải quyết vấn đề dự báo bằng cách biến đổi quá trình không ổn định thành quá trình ổn định thông qua sai phân Phương pháp lọc cũng được giới thiệu cho dự báo chuỗi Ngoài ra, các mô hình mạng nơ-ron hồi quy (RNNs) được sử dụng để mô hình hóa sự phụ thuộc thời gian cho chuỗi thời gian DeepAR kết hợp các phương pháp tự hồi quy và RNNs để mô hình phân phối xác suất của chuỗi trong tương lai LSTNet giới thiệu mạng nơ-ron tích chập (CNNs) với các kết nối truyền thốngp để nắm bắt các mẫu thời gian ngắn hạn và dài hạn Các RNNs dựa trên cơ chế tự chú ý giới thiệu sự chú ý thời gian để khám phá các phụ thuộc xa trong dự đoán Ngoài ra, nhiều công trình dựa trên mạng tích chập thời gian (TCN) cố gắng mô hình hóa tương quan thời gian với tích chập gây ra Những mô hình dự báo sâu này chủ yếu tập trung vào việc mô hình hóa mối quan hệ thời gian thông qua các kết nối lặp lại, sự chú ý thời gian hoặc tích chập gây ra.

Gần đây, các mô hình Transformers dựa trên cơ chế tự chú ý đã thể hiện sức mạnh lớn

CHUỖI THỜI GIAN DÀI HẠN trong dữ liệu tuần tự, chẳng hạn như xử lý ngôn ngữ tự nhiên, xử lý âm thanh, và thậm chí là thị giác máy tính Tuy nhiên, việc áp dụng tự chú ý vào dự báo chuỗi thời gian dài hạn đang gặp khó khăn về tính toán do sự phức tạp bậc hai của độ dài chuỗi L cả về bộ nhớ và thời gian LogTrans giới thiệu tích chập cục bộ vào Transformer và đề xuất tự chú ý LogSparse để chọn các bước thời gian theo các khoảng thời gian tăng theo quy luật mũ, giảm độ phức tạp xuống O(L(logL) 2 ) Reformer trình bày tự chú ý dựa trên local-sensitive hashing (LSH) và giảm độ phức tạp xuống O(LlogL) Informer mở rộngTransformer với cơ chế tự chú ý ProbSparse dựa trên KL-divergence và cũng đạt được độ phức tạpO(LlogL) Lưu ý rằng những phương pháp này dựa trên Transformer thông thường và cố gắng cải thiện cơ chế tự chú ý thành một dạng thưa , vẫn tuân theo phụ thuộc và tổng hợp theo các điểm Cơ chế tự tương quan dựa trên tính chu kỳ bẩm sinh của chuỗi thời gian và có thể cung cấp kết nối theo chuỗi.

Sự phân rã của chuỗi thời gian (Decomposition of Time Series)

Như một phương pháp tiêu chuẩn trong phân tích chuỗi thời gian, phân giải chuỗi thời gian phân chia một chuỗi thời gian thành nhiều thành phần, mỗi thành phần đại diện cho một trong các loại mẫu cơ bản mà có thể dự đoán tốt hơn Phương pháp này thường được sử dụng để khám phá sự biến đổi trong quá khứ theo thời gian Đối với các nhiệm vụ dự báo, phân giải thường được sử dụng như một bước tiền xử lý cho chuỗi lịch sử trước khi dự đoán chuỗi trong tương lai, chẳng hạn như Prophet với phân giải xu hướng mùa và N-BEATS với mở rộng cơ sở và DeepGLO với phân giải ma trận Tuy nhiên, việc tiền xử lý như vậy bị giới hạn bởi tác động phân giải đơn giản của chuỗi lịch sử và bỏ qua sự tương tác phân cấp giữa các mẫu cơ bản của chuỗi trong tương lai dài hạn Bài báo này đưa ra ý tưởng phân giải từ một góc độ tiến triển mới Mô hình Autoformer, sử dụng phân giải như một khối bên trong của các mô hình sâu, có khả năng phân giải từng bước tiến triển chuỗi ẩn trong toàn bộ quy trình dự đoán, bao gồm cả chuỗi quá khứ và kết quả trung gian dự đoán.

Kiến trúc Autoformer

Vấn đề dự báo chuỗi thời gian là dự đoán chuỗi dài O có xác suất cao nhất trong tương lai dựa trên chuỗi dài I trong quá khứ, được ký hiệu là input-I-predict-O Bối cảnh dự báo dài hạn là để dự đoán tương lai xa, tức là O lớn hơn Như đã đề cập trước đó, chúng ta đã làm nổi bật những khó khăn của việc dự đoán chuỗi thời gian dài hạn: xử lý các mẫu thời gian phức tạp và vượt qua sự hạn chế về hiệu suất tính toán và sử dụng thông tin Để giải quyết hai thách thức này, phân giải như một khối tích hợp vào mô hình dự báo sâu và đề xuấtAutoformer như một kiến trúc phân giải Ngoài ra,thiết kế cơ chế Tự tương quanđể khám phá các phụ thuộc dựa trên chu kỳ và tổng hợp các chuỗi con tương tự từ các chu kỳ cơ bản.

CHUỖI THỜI GIAN DÀI HẠN Kiến trúc phân giải (Decomposition Architecture)

Biến đổi mô hình Transformer thành một kiến trúc phân giải sâu (Hình 3.4), bao gồm khối phân giải chuỗi bên trong, cơ chế Tự tương quan và các phần tương ứng của Bộ mã hóa và Bộ giải mã.

Để dự đoán các mẫu chuỗi thời gian phức tạp trong bối cảnh dài hạn, khối phân giải chuỗi được đề xuất để tách chuỗi thành hai phần: xu hướng theo chu kỳ và theo mùa Tuy nhiên, việc phân giải trực tiếp không khả thi đối với tương lai do tính không xác định của nó Do đó, khối phân giải chuỗi được đưa vào Autoformer như một phép toán bên trong, có khả năng trích xuất xu hướng dài hạn ổn định từ các biến trung gian dự đoán theo tiến trình Để làm mờ các biến động chu kỳ và làm nổi bật các xu hướng dài hạn, trung bình động được áp dụng cho chuỗi đầu vào X ∈ R L×d có độ dài L.

X s =X−X t Ở đây,X s vàX t thuộcR L×d , lần lượt đại diện cho phần mùa vụ và phần xu hướng đã được trớch xuất.Sử dụng hàm AvgPool(ã) để thực hiện trung bỡnh động với thao tỏc padding để duy trì độ dài chuỗi không thay đổi Sử dụng X s , X t = SeriesDecomp(X) để tóm tắt các phương trình trên, đây là một khối bên trong của mô hình. Đầu vào của mô hình: Đầu vào của bộ mã hoá là I bước thời gian trong quá khứ X en ∈R I×d Như một kiến trúc phân giải (Hình 3.4), đầu vào của bộ giải mã Autoformer chứa cả phần mùa vụX des ∈R (I/2+O)×d và phần xu hướng X det ∈R (I/2+O)×d để được điều chỉnh Mỗi khởi tạo bao gồm hai phần: phần thành phần phân giải từ nửa sau của đầu vào của mã hoá Xen với độ dài I/2 để cung cấp thông tin gần đây, và các chỗ trống với độ dài O được điền bằng các giá trị số Cụ thể, nó được công thức hóa như sau:

X det =Concat(X ent , X Mean ) Ở đây X ens , X ent ∈ R I 2 ×d đại diện cho các phần mùa vụ và xu hướng của X en tương ứng, và X 0 , X Mean ∈R O×d đại diện cho các chỗ trống được điền bằng số không và giá trị trung bình của Xen tương ứng.

Hình 3.4: Kiến trúc của Autoformer Bộ mã hoá loại bỏ phần xu hướng dài hạn bằng các khối phân giải chuỗi (các khối màu xanh) và tập trung vào mô hình hóa các mẫu mùa vụ Bộ giải mã tích luỹ phần xu hướng được trích xuất từ biến ẩn theo cách tiến triển.

Thông tin mùa vụ từ quá khứ được sử dụng bởi khối Tự tương quan tự động mã hoá-giải mã (khối màu xanh lá cây ở giữa trong bộ giải mã).

Bộ mã hoá: Như được hiển thị trong Hình 3.4, bộ mã hoá tập trung vào mô hình hóa phần mùa vụ Đầu ra của bộ mã hoá chứa thông tin mùa vụ từ quá khứ và sẽ được sử dụng như thông tin giao động để giúp bộ giải mã làm rõ kết quả dự đoán Giả sử chúng ta cóN tầng mã hoá Các phương trình tổng quát cho tầng mã hoá thứllàX en l =Encoder(X en l−1 ).

Chi tiết được hiển thị như sau:

S en l,1 ,_=SeriesDecomp(Auto−Correlation(X en l−1 ) +X en l−1 ) S en l,2 ,_=SeriesDecomp(F eedF orward(S en l,1 ) +S en l,1 ) Ở đõy _ đại diện cho phần xu hướng bị loại bỏ X en l =S en l,2 , với l thuộc {1, ã ã ã , N} biểu thị đầu ra của tầng mã hoá thứl và X en 0 làXenđược embedded S en li , vớii∈1,2, đại diện cho thành phần mùa vụ sau khối phân giải chuỗi thứi trong tầng l tương ứng.

Bộ giải mã: Bộ giải mã bao gồm hai phần: cấu trúc tích luỹ cho các thành phần xu hướng và cơ chế Tự tương quan xếp chồng cho các thành phần mùa vụ (Hình 3.4) Mỗi tầng giải mã chứa Tự tương quan tự động bên trong và Tự tương quan tự động giữa mã hoá-giải mã, có thể làm rõ dự đoán và sử dụng thông tin mùa vụ từ quá khứ một cách tương ứng Lưu ý rằng mô hình trích xuất tiềm năng của xu hướng từ biến ẩn trung gian trong quá trình giải mã, cho phép Autoformer cải thiện dự đoán xu hướng một cách tiến triển và loại bỏ thông tin can thiệp cho việc phát hiện phụ thuộc vào chu kỳ trong Tự tương quan Giả sử có M tầng giải mã Với biến ẩn X en N từ bộ mã hoá, các phương trình

CHUỖI THỜI GIAN DÀI HẠN của tầng giải mã thứl có thể được tổng hợp như sau: X de l oder(X de l−1 , X en N ) Bộ giải mã có thể được công thức hóa như sau:

S de l,1 , T de l,1 =SeriesDecomp(Auto-Correlation(X de l,1 ) +X de l,1 ) S de l,2 , T de l,2 =SeriesDecomp(Auto-Correlation(S de l,1 , X en N ) +S de l,1 ) S de l,3 , T de l,3 =SeriesDecomp(FeedForward(S de l,2 ) +S de l,1 )

T de l =T de l−1 +Wl,1∗T de l,1 +Wl,2∗T de l,2 +Wl,3∗T de l,3

Trong đó,X de l =S de l,3 , vớil ∈ {1, , M}, biểu thị đầu ra của tầng giải mã thứl.X de 0 được nhúng từ Xdes để biến đổi sâu và T de 0 =Xdet dùng cho tích luỹ S de l,i , T de l,i , với i∈ {1,2,3}, đại diện cho thành phần mùa vụ và thành phần xu hướng sau khối phân giải chuỗi thứ i trong tầng l tương ứng W l,i , với i ∈ {1,2,3}, đại diện cho bộ chiếu cho xu hướng được trích xuất thứ i -T de l,i

Hình 3.5: Tự tương quan (bên trái) và Tích hợp Trễ thời gian (bên phải) Sử dụng Biến đổi Fourier Nhanh để tính toán tự tương quan R(τ), thể hiện sự tương đồng về trễ thời gian Sau đó, các tiến trình con tương tự được cuộn vào cùng một chỉ số dựa trên trễ được chọnτ và tổng hợp bằng R(τ).

Cơ chế Tự tương quan (Auto-Correlation Mechanism)

Như được thể hiện trong Hình 3.5,cơ chế Tự tương quan với kết nối theo chuỗi để mở rộng việc sử dụng thông tin Tự tương quan khám phá các phụ thuộc dựa trên chu kỳ bằng cách tính toán tự tương quan chuỗi và tổng hợp các chuỗi con tương tự bằng tổng hợp theo trễ thời gian.

Phụ thuộc dựa trên chu kỳ Được quan sát rằng vị trí pha giống nhau giữa các chu kỳ tự nhiên cung cấp các quy trình con tương tự Lấy cảm hứng từ lý thuyết quy trình ngẫu nhiên, đối với quy trình thời gian rời rạc thực tế X t , chúng ta có thể tính được tự

CHUỖI THỜI GIAN DÀI HẠN tương quan R XX (τ) theo các phương trình sau:

R XX (τ)phản ánh sự tương đồng về độ trễ thời gian giữa{X t }và chuỗi có độ trễτ {Xt−τ}.

Giá trị của thuật toán Autoformer

Mô hình thuật toán Autoformer dựa trên kiến trúc phân rã sâu và cơ chế tự tương quan đã giải quyết vấn đề về mô hình hóa các mẫu dữ liệu phức tạp trong dự đoán chuỗi thời gian dài hạn mà khó xử lý và tính toán hiệu quả Mô hình thuật toán Autoformer kết hợp cơ chế mã hóa-giải mã được cải thiện và cập nhật Thông qua phân rã và ghép nối cấp chuỗi, hiệu suất dự đoán chuỗi thời gian dài hạn được cải thiện đáng kể. Đồng thời, mô hình thuật toán Autoformer thể hiện kết quả xuất sắc trong dự đoán chuỗi thời gian dài hạn và mô hình này có tính đồng nhất mạnh mẽ và giá trị ứng dụng cao.

Chương 4 Kết quả thực nghiệm

Trong bối cảnh tài chính toàn cầu, dữ liệu về giá cổ phiếu của các công ty cổ phần đóng vai trò quan trọng trong việc quyết định các quyết định đầu tư Dự báo giá cổ phiếu có khả năng cung cấp thông tin quan trọng cho các nhà đầu tư, nhưng cũng đối diện với nhiều khó khăn do sự biến đổi phức tạp và không chắc chắn Mô hình Transformer-based đã thể hiện khả năng xuất sắc trong việc xử lý dữ liệu chuỗi thời gian dài hạn, và việc áp dụng nó vào dự báo giá cổ phiếu trở thành một phần quan trọng của nghiên cứu trong lĩnh vực tài chính và đầu tư.

Mục tiêu chính trong phần kết quả thực nghiệm là xây dựng và đánh giá hiệu suất của mô hình dự báo chuỗi thời gian dài hạn dựa trên kiến trúc Transformer-based, với tập trung vào dự đoán giá cổ phiếu của ba mã chứng khoán: AAPL (Apple Inc.), META(Meta Platforms, Inc.), và GOOG (Alphabet Inc.) Chương này cũng nhằm trình bày các kết quả thực nghiệm và các nhận xét quan trọng về khả năng dự đoán cũng như đánh giá tính khả thi của mô hình trong ngữ cảnh tài chính.

Mô tả dữ liệu

Thu thập dữ liệu

• Nguồn dữ liệu: Dữ liệu giá cổ phiếu của ba mã chứng khoán AAPL, META và GOOG có thể được thu thập từ nhiều nguồn khác nhau, chẳng hạn như dịch vụ tài chính trực tuyến (Yahoo Finance, Google Finance) hoặc API từ các sàn giao dịch chứng khoán (NASDAQ, NYSE).

• Phạm vi thời gian: Dữ liệu cổ phiếu sẽ được thu thập trong khoảng thời gian từ ngày 2/1/2013 đến ngày 9/10/2023 với đơn vị thời gian theo ngày Phạm vi thời gian này cho phép xây dựng mô hình dự báo cổ phiếu và thực hiện quá trình huấn luyện, đánh giá hiệu suất dự báo trên tập dữ liệu dài hạn.

CHƯƠNG 4 KẾT QUẢ THỰC NGHIỆM

Tiền xử lý dữ liệu

• Loại bỏ dữ liệu thiếu: Dữ liệu cổ phiếu có thể bị thiếu ở một số điểm dữ liệu, do ngày nghỉ lễ hoặc lỗi trong quá trình thu thập Trước khi tiến hành tiền xử lý, các dòng dữ liệu chứa giá trị cổ phiếu bị thiếu sẽ được loại bỏ hoặc điền giá trị bằng cách sử dụng các phương pháp như nội suy hoặc lấy giá trị trung bình từ các điểm dữ liệu lân cận, vân vân Cụ thể, đối với bộ dữ liệu trên, chúng ta thực hiện xử lý như sau: Ở mỗi giai đoạn ta lần lượt thực hiện kiểm tra các phần tử NULL trong dữ liệu và thực hiện forward fill (điền các phần tử trống bằng giá trị của phần tử đằng trước nó) và backward fill (điền các phần tử trống bằng giá trị của phần tử đằng sau nó).

• Chuyển đổi dữ liệu thành chuỗi thời gian: Dữ liệu giá cổ phiếu ban đầu thường được lưu trữ dưới dạng bảng với các cột như thời gian (Date), giá mở của (Open), cao nhất (High), thấp nhất (Low), đóng cửa (Close), giá đóng cửa hiệu chỉnh (Adj Close) và khối lượng giao dịch (Volume) và các biến khác Trong tiền xử lý, dữ liệu thời gian sẽ được biến đổi/mã hóa thành dạng số nguyên dương để thuận tiện cho mô hình trong quá trình huấn luyện.

• Chuẩn hóa dữ liệu: Dữ liệu giá cổ phiếu từ các mã chứng khoán có thể có phạm vi giá trị và biên độ khác nhau Để đảm bảo rằng mô hình dự báo hoạt động tốt, dữ liệu sẽ được chuẩn hóa Chuẩn hóa có thể sử dụng phép trừ trung bình và chia cho độ lệch chuẩn hoặc các phương pháp chuẩn hóa khác để đảm bảo rằng tất cả các dữ liệu đều có cùng phạm vi giá trị và biên độ Cụ thể, công thức chuẩn hóa dữ liệu dạng z-score (chuẩn hóa Gaussian) như sau:

X norm = X−à σ (4.1) trong đú, X norm là giỏ trị sau khi chuẩn húa,X là giỏ trị dữ liệu ban đầu.à, σ lần lượt là giá trị trung bình (mean) và độ lệch chuẩn (standard deviation) của dữ liệu.

Công thức này sẽ biến đổi dữ liệu ban đầu thành một phân phối có trung bình bằng 0 và độ lệch chuẩn bằng 1, làm cho dữ liệu dễ dàng so sánh và sử dụng trong các mô hình hoặc phân tích thống kê Bảng 4.1 là thống kê thể hiện các giá trị kỳ vọng và độ lệch chuẩn của trường dữ liệu giá đóng cửa với ba mã cổ phiếu GOOG, META, và AAPL tướng ứng.

• Chia dữ liệu thành tập train, validation và test: Dữ liệu bao gồm tất cả 2711 mốc thời gian, sẽ được chia thành ba tập: tập train (70%), tập validation (10%), và tập test (20%) Tập train (gồm 1898 mốc dữ liệu đầu) sẽ được sử dụng để huấn luyện mô hình, tập validation (271 mốc thời gian tiếp theo) dùng để tinh chỉnh mô hình và tập test (542 mốc còn lại) để đánh giá hiệu suất cuối cùng của mô hình dự báo.

Chia dữ liệu thành các tập này giúp kiểm tra và đánh giá mô hình một cách khách quan.

Bảng 4.1: Thống kê về kỳ vọng và độ lệch chuẩn của trường dữ liệu giá đóng cửa ứng với ba mã cổ phiếu GOOG, META, và AAPL. giá đóng cửa

Cấu hình thực nghiệm

Cài đặt

Mô hình được huấn luyện trên thiết bị GPU NVIDIA Tesla T4 với bộ nhớ RAM 15GB.

Trong quá trình huấn luyện, việc sử dụng hệ số kiên nhẫn và quản lý kích thước batch là những yếu tố quan trọng để nâng cao hiệu suất và duy trì sự ổn định trong quá trình huấn luyện Cụ thể, kích thước batch là 256 mẫu dữ liệu cho mỗi vòng cập nhật trọng số trong mô hình Ngoài ra, cấu hình tham số kiên nhẫn (patience) với giá trị là 5, và số epoch tối đa là 50 Điều này đồng nghĩa rằng, sau khi đánh giá hiệu suất của mô hình trên tập dữ liệu validation, nếu mô hình không có cải thiện trong ba epoch liên tiếp, quá trình huấn luyện sẽ bị dừng lại Sử dụng hệ số kiên nhẫn như vậy đảm bảo rằng mô hình không bị overfitting sau khi hội tụ, mà không cần phải đánh đổi đáng kể độ chính xác trên tập dữ liệu validation Trong các thực nghiệm, ta sử dụng tỷ lệ học (learning rate) là 1e-4, dựa trên việc quan sát sự biến đổi của đường cong loss trong giai đoạn huấn luyện của mô hình.

Lưu ý rằng các thực nghiệm dưới đây đều có mục tiêu là dự báo giá đóng cửa của cổ phiếu AAPL (việc dự báo giá đóng cửa cho GOOG và META có thể thực hiện tương tự).

Các tình huống triển khai thực nghiệm

Các thực nghiệm được triển khai theo ba tình huống sử dụng sau:

• TC1: Chỉ sử dụng trường dữ liệu giá đóng cửa của AAPL để dự báo cho chính nó.

• TC2: Kết hợp 4 trường high, low, open, và close của AAPL trong quá khứ để dự báo cho close trong tương lai.

• TC3: Sử dụng dữ liệu giá đóng cửa của ba loại cổ phiếu để dự báo cho AAPL. Ở TC1, mô hình chỉ học mối tương quan dữ liệu đóng cửa của quá khứ để dự báo cho chính trường đó trong tương lai, TC2 đồng thời thể hiện mối liên kết của 4 trường dữ liệu đối với khả năng dự báo cho trường close Và cuối cùng, mô hình với TC3 sẽ học ảnh hưởng của close trong cả ba loại cổ phiếu với AAPL.

Bảng 4.2: Các tình huống triển khai

TH 2 H AAP L in ,L AAP L in ,O AAP L in ,C AAP L in C AAP L out TH 3 C GOOG in ,C M ET A in ,C AAP L in

Độ đo đánh giá

Độ đo R 2

• Công thức: R 2 (Coefficient of Determination) thường được gọi là hệ số xác định hoặc hệ số tương quan bội số R bình phương Công thức R 2 được tính bằng cách so sánh sự biến đổi của mô hình dự đoán với sự biến đổi của dữ liệu thực tế Công thức cụ thể cho R 2 là:

Trong đó:yˆi, yi lần lượt là giá trị dự đoán và giá trị thực tế tại điểm dữ liệu thứ i, và y¯là giá trị trung bình của tât cả các giá trị thực tế.

• Ý nghĩa:R 2 giúp đo lường tỷ lệ phương sai của dự đoán mô hình so với tỷ lệ phương sai của dữ liệu thực tế Giá trịR 2 thường nằm trong khoảng từ 0 đến 1 Giá trị càng gần 1, mô hình càng phù hợp với dữ liệu Giá trị R 2 bằng 1 tương ứng với trường hợp mô hình dự đoán chính xác tất cả biến đổi của dữ liệu.

Sai số trung bình tuyệt đối

Công thức: MAE (Mean Absolute Error - MAE), hay Sai số trung bình tuyệt đối, là một phép đo thống kê đánh giá độ chênh lệch giữa dự đoán và giá trị thực trong một tập dữ liệu Để tính MAE, ta lấy giá trị tuyệt đối của sai số (hiệu số) giữa mỗi dự đoán và giá trị thực tế, sau đó tính trung bình của tất cả các giá trị tuyệt đối này.

X|ˆy i −y i | (4.3) với N là tổng số điểm dữ liệu.

• Ý nghĩa: Trong bối cảnh dự báo giá cổ phiếu, MAE sẽ cho biết giá trị trung bình của các sai số tuyệt đối giữa giá cổ phiếu dự đoán và giá cổ phiếu thực tế Điều này tức là MAE sẽ đo lường mức độ chính xác của mô hình dự đoán, trong đó sai số không thể hiện về dấu (dương hoặc âm) Ví dụ, nếu MAE cho một mô hình dự đoán là 2, điều này có nghĩa rằng trung bình mỗi dự đoán của mô hình sai lệch với giá trị thực tế khoảng 2 đơn vị MAE thường được sử dụng để đánh giá mức độ chính xác của các mô hình dự báo, và giá trị MAE càng thấp thì mô hình càng chính xác.

RMSE (Root Mean Squared Error)

• Công thức: RMSE đo lường sai số trung bình với trọng số giữa dự đoán và giá trị thực tế, sử dụng căn bậc hai của bình phương sai số Công thức chi tiết cho RMSE như sau:

• Ý nghĩa:Trong bài toán dự báo giá cổ phiếu, RMSE cho biết mức độ sai số trung bình của mô hình dự đoán so với giá cổ phiếu thực tế RMSE càng thấp, mô hình càng chính xác trong việc dự đoán giá cổ phiếu.

Kết quả

So sánh với một số loại mô hình khác (RQ1)

Trong phần này, chúng ta tiến hành một số thực nghiệm so sánh giữa các phương pháp dự đoán dựa trên Transformer và ba mô hình học sâu khác sử dụng RNN: Gated Recur- rent Unit (GRU), Long Short-Term Memory (LSTM) và Bidirectional Long-Short Term Memory (Bi-LSTM) Các kết quả này đều cho thấy những tín hiệu tích cực trong việc dự đoán chuỗi dài hạn, đặc biệt là khi làm việc với dữ liệu theo ngày.

Tất cả các mô hình liệt kê trong Bảng 4.3 đều thể hiện giá trị R2 cao, dao động từ 0,9439 đến 0,9564 Điều này cho thấy hiệu quả của tất cả các mô hình.

Informer 0.9554 6.8048 3.6783 Autoformer 0.9564 3.4024 2.6491 Bảng 4.3: Kết quả so sánh giữa một số mô hình dự báo trong việc giải thích sự biến đổi trong dữ liệu quan sát, với mô hình Autoformer đạt được điểm R 2 cao nhất, cho thấy mức độ phù hợp khá cao với dữ liệu Hơn nữa, khi xem xét các chỉ số RMSE và MAE, mô hình Autoformer vượt trội so với các mô hình dựa trên mạng nơ-ron hồi quy (RNN) Cụ thể, chỉ số RMSE giảm4lần (13.8364→3.4024), và chỉ số MAE giảm gần 4 lần (10.2455→2.6491) khi so sánh với mô hình GRU, mô hình RNN có hiệu suất cao nhất trong danh sách.

Tóm lại, bảng trên cung cấp một so sánh rõ ràng và có ý nghĩa về hiệu suất của các mô hình khác nhau, đặc biệt là mô hình Autoformer và mô hình Informer được xem xét là những lựa chọn hàng đầu cho dự đoán giá cổ phiếu trong ngữ cảnh của nghiên cứu của chúng tôi Kết quả này rất triển vọng và cho thấy tiềm năng để cải thiện phương pháp dự đoán giá cổ phiếu bằng cách sử dụng các mô hình dựa trên Transformer tiên tiến.

Dựa trên bảng kết quả so sánh này, từ các thực nghiệm về sau, khi thực hiện triển khai đánh giá với các tình huống (RQ2) hay khoảng thời gian (RQ2) khác nhau, chúng tôi sẽ chọn mô hình Autoformer để làm mô hình thực nghiệm chính do kết quả vượt trội của nó so với các mô hình khác.

Tác động của các trường hợp thử nghiệm đối với hiệu suất mô hình (RQ2)

Mục tiêu chính của thí nghiệm này là quan sát sự phụ thuộc hoặc tương quan giữa các trường dữ liệu khác nhau và tác động của chúng đối với khả năng dự đoán của mô hình trên giá cổ phiếu đóng cửa AAPL Ba mã cổ phiếu AAPL, GOOG, và META là ba trong số các công ty công nghệ lớn và đóng một vai trò quan trọng trong thị trường công nghệ và truyền thông Biến động giá cổ phiếu của GOOG và META có thể tạo ra tác động tâm lý lên nhà đầu tư và có thể ảnh hưởng đến quyết định đầu tư của họ đối với AAPL.

Thêm vào đó, giá cổ phiếu của các công ty công nghệ thường tương quan với nhau và với thị trường chung, và các thông tin và sự kiện thị trường cụ thể liên quan đến GOOG hoặc META có thể ảnh hưởng đến giá cổ phiếu của AAPL và quyết định đầu tư, phân bổ tài sản của nhà đầu tư Trong các trường hợp thử nghiệm khác nhau, TC1 đòi hỏi mô hình học từ dữ liệu giá đóng cửa close AAPL quá khứ để dự đoán trong tương lai TC2 bao gồm việc học thêm dữ liệu high, low và open trong khi TC3 sử dụng dữ liệu close của ba mã cổ phiếu AAPL, GOOG, META.

Kết quả trong Bảng 4.4 cho thấy rằng các điểmR 2 cho tất cả 3 trường hợp thử nghiệm

Bảng 4.4: So sánh các kết quả ứng với các tình huống triển khai

R 2 0.9564 0.9558 0.9503 RMSE 3.4024 3.4252 3.6348 MAE 2.6491 2.7154 2.8577 luôn cao hơn 0.95, cho thấy mô hình đã học tốt và phù hợp với dữ liệu đào tạo một cách hiệu quả Đặc biệt, ở TC1, kết quả cho tất cả ba tiêu chí đánh giá đều xuất sắc hơn so với các trường hợp khác, trong khi TC2 và TC3 có sự khác biệt tương đối nhỏ Từ bảng kết quả này, chúng ta có thể suy đoán rằng, đối với tập dữ liệu cụ thể này, việc thêm các trường dữ liệu bổ sung có thể đưa vào nhiễu trong quá trình đào tạo và dự đoán Một yếu tố góp phần vào hiện tượng này có thể là do độ lệch chuẩn lớn được quan sát ở một số trường.

Tuy nhiên, cần lưu ý rằng mỗi bài toán cụ thể và tập dữ liệu cần giải quyết đều có những đặc điểm riêng biệt Do đó, để cấu hình mô hình đạt hiệu suất tối ưu, việc thực hiện thử nghiệm và đánh giá, so sánh kết quả riêng biệt cho từng tập dữ liệu là rất cần thiết.

Khả năng dự đoán theo thời gian của mô hình (RQ3)

Một trong những ưu điểm của các mô hình dựa trên transformer nằm ở khả năng thực hiện dự đoán dài hạn Bảng 4.5 mô tả khả năng này bằng cách trình bày kết quả dự đoán của mô hình Autoformer với các khoảng thời gian chênh lệch khác nhau (time lags m= 4,6,9) và khoảng thời gian dự đoán (time leads n= 1,3,6).

• Chúng ta có thể thấy rằng khi n = 1 và m thay đổi, kết quả dự đoán cho đều tốt. Đặc biệt ở đây, khi m = 9 kết quả thu được là cao nhất, chứng tỏ mô hình phụ thuộc tốt hơn vào khoảng 9 mốc thời gian trong quá khứ.

• Với cùng giá trịm, khi khoảng thời gian dự đoán n tăng, khả năng dự đoán của mô hình dần giảm Điều này cho thấy rằng dữ liệu dự đoán cho close AAPL dựa nhiều hơn vào các điểm dữ liệu gần đó và khả năng dự đoán của mô hình sẽ giảm đi theo mốc thời gian dự báo tăng dần.

Trực quan hóa kết quả dự báo

Nghiên cứu này tập trung vào quan sát và dự đoán mức giá của cổ phiếu của AAPL với mục tiêu chính là cung cấp sự hỗ trợ và thông báo cho những người đầu tư và quản lý cổ phiếu Một mô hình hiệu quả không chỉ nên thể hiện các thước đo đánh giá tích cực mà còn phải thực hiện các dự đoán chính xác, ngay cả khi phải đối mặt với các điểm dữ liệu không bình thường, như giá cổ phiếu đạt đỉnh Biểu đồ mô 4.1 tả các đường dự đoán

Bảng 4.5: So sánh các kết quả với các độ dài m và n khác nhau m n R 2 RMSE MAE

Hình 4.1: Trực quan hóa kết quả dự báo

CHƯƠNG 4 KẾT QUẢ THỰC NGHIỆM được tạo ra bởi mô hình Autoformer cho các trường hợp thử nghiệm tương ứng (dữ liệu dự đoán từ ngày 17/5/2023 đến 10/9/2023), cùng với các giá trị quan sát thực tế (ở đây, chúng tôi sử dụng 3 trường hợp thử nghiệm để theo dõi và trực quan hóa dễ dàng hơn).

Dự đoán của mô hình khá tốt với đường quan sát thực tế và dự đoán gần đúng thời điểm đạt đỉnh giá cổ phiếu Đáng chú ý, trường hợp TC1 cho ra kết tốt về các thước đo đánh giá và về sự tương đồng về hình ảnh với đường quan sát thực tế Biểu đồ này làm nổi bật tính đa năng ấn tượng của mô hình, ngay cả khi phải xử lý các điểm dữ liệu đặc biệt đó.

[1] Masini, Ricardo P., Marcelo C Medeiros, and Eduardo F Mendes "Machine learning advances for time series forecasting." Journal of economic surveys 37.1 (2023): 76-111.

[2] Vaswani, Ashish, et al "Attention is all you need." Advances in neural information processing systems 30 (2017).

[3] R Sen, H F Yu, and I Dhillon, “Think globally, act locally: A deep neural network approach to high-dimensional time series forecasting,” Adv Neural Inf Process Syst., vol 32, no NeurIPS, pp 1–10, 2019.

[4] H Wu, J Xu, J Wang, and M Long, “Autoformer: Decomposition Transformers with Auto-Correlation for Long-Term Series Forecasting,” Adv Neural Inf Process Syst., vol 27, no NeurIPS, pp 22419–22430, 2021.

Haoyi Zhou, Shanghang Zhang, Jieqi Peng, Shuai Zhang, Jianxin Li, Hui Xiong, and Wancai Zhang present "Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting" in the 35th AAAI Conference on Artificial Intelligence (AAAI 2021) This research introduces Informer, an advanced model for forecasting long time series sequences Informer surpasses previous transformer-based models in efficiency and accuracy, demonstrating its potential for practical applications in time series forecasting tasks.

[6] Montgomery, Douglas C., Elizabeth A Peck, and G Geoffrey Vining Introduction to linear regression analysis John Wiley & Sons, 2021.

[7] Breiman, Leo "Random forests." Machine learning 45 (2001): 5-32.

[8] Friedman, Jerome H "Greedy function approximation: a gradient boosting machine."

[9] Zhang, G Peter "Time series forecasting using a hybrid ARIMA and neural network model." Neurocomputing 50 (2003): 159-175.

[10] Ouyang, Zuokun, Philippe Ravier, and Meryem Jabloun "STL decomposition of time series can benefit forecasting done by statistical methods but not by machine learning ones." Engineering Proceedings 5.1 (2021): 42.

[11] Zhou, Tian, et al "Fedformer: Frequency enhanced decomposed transformer for long- term series forecasting." International Conference on Machine Learning PMLR, 2022.

[12] Liu, Shizhan, et al "Pyraformer: Low-complexity pyramidal attention for long-range time series modeling and forecasting." International conference on learning representations 2021.

[13] Athiyarath, Srihari, Mousumi Paul, and Srivatsa Krishnaswamy "A comparative study and analysis of time series forecasting techniques." SN Computer Science 1.3 (2020): 175.

[14] Mehtab, Sidra, and Jaydip Sen "Analysis and forecasting of financial time series using CNN and LSTM-based deep learning models." Advances in Distributed Computing and Machine Learning: Proceedings of ICADCML 2021 Springer Singapore, 2022.

[15] Yamak, Peter T., Li Yujian, and Pius K Gadosey "A comparison between arima, lstm, and gru for time series forecasting." Proceedings of the 2019 2nd international conference on algorithms, computing and artificial intelligence 2019.

[16] Elsworth, Steven, and Stefan G¨uttel "Time series forecasting using LSTM networks:

A symbolic approach." arXiv preprint arXiv:2003.05672 (2020).

[17] Salinas, David, et al "DeepAR: Probabilistic forecasting with autoregressive recurrent networks." International Journal of Forecasting 36.3 (2020): 1181-1191.

[18] Zeng, Ailing, et al "Are transformers effective for time series forecasting?." Proceed- ings of the AAAI conference on artificial intelligence Vol 37 No 9 2023.

[19] Nie, Xingqing, et al "LogTrans: Providing Efficient Local-Global Fusion with Trans- former and CNN Parallel Network for Biomedical Image Segmentation." 2022 IEEE 24th Int Conf on High Performance Computing & Communications; 8th Int Conf on Data Science & Systems; 20th Int Conf on Smart City; 8th Int Conf on Dependability in Sensor, Cloud & Big Data Systems & Application (HPCC/DSS/SmartCity/De- pendSys) IEEE, 2022.

[20] Tang, Ze, et al "AST-transformer: Encoding abstract syntax trees efficiently for code summarization." 2021 36th IEEE/ACM International Conference on Automated Software Engineering (ASE) IEEE, 2021.

[21] Chen, Weiqi, et al "Learning to rotate: Quaternion transformer for complicated pe- riodical time series forecasting." Proceedings of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining 2022.

[22] Liu, Yong, et al "Non-stationary transformers: Rethinking the stationarity in time series forecasting." arXiv preprint arXiv:2205.14415 (2022).

[23] Nie, Yuqi, et al "A time series is worth 64 words: Long-term forecasting with transformers." arXiv preprint arXiv:2211.14730 (2022).

[24] Zhang, Yunhao, and Junchi Yan "Crossformer: Transformer utilizing cross-dimension dependency for multivariate time series forecasting." The Eleventh International Con- ference on Learning Representations 2022.

[25] Cirstea, Razvan-Gabriel, et al "Triformer: Triangular, Variable-Specific Attentions for Long Sequence Multivariate Time Series Forecasting–Full Version." arXiv preprint arXiv:2204.13767 (2022).

[26] Huang, Huimin, et al "ScaleFormer: revisiting the transformer-based backbones from a scale-wise perspective for medical image segmentation." arXiv preprint arXiv:2207.14552 (2022).

[27] Nguyen, Hanh H., and Christine W Chan "Multiple neural networks for a long term time series forecast." Neural Computing & Applications 13 (2004): 90-98.

[28] Child, Rewon, et al "Generating long sequences with sparse transformers." arXiv preprint arXiv:1904.10509 (2019).

[29] Li, Shiyang, et al "Enhancing the locality and breaking the memory bottleneck of transformer on time series forecasting." Advances in neural information processing systems 32 (2019).

[30] Beltagy, Iz, Matthew E Peters, and Arman Cohan "Longformer: The long-document transformer." arXiv preprint arXiv:2004.05150 (2020).

[31] Kitaev, Nikita, Lukasz Kaiser, and Anselm Levskaya "Reformer: The efficient transformer." arXiv preprint arXiv:2001.04451 (2020).

[32] Wang, Sinong, et al "Linformer: Self-attention with linear complexity." arXiv preprint arXiv:2006.04768 (2020).

[33] Dai, Zihang, et al "Transformer-xl: Attentive language models beyond a fixed-length context." arXiv preprint arXiv:1901.02860 (2019).

[34] Rae, Jack W., et al "Compressive transformers for long-range sequence modelling." arXiv preprint arXiv:1911.05507 (2019).

[35] Salinas, David, et al "DeepAR: Probabilistic forecasting with autoregressive recurrent networks." International Journal of Forecasting 36.3 (2020): 1181-1191.

[36] Sano, Hayato, and Jun Rokui "Multivariate time series forecasting accuracy improve- ment method based on LSTNet." IEICE Technical Report; IEICE Tech Rep 121.304 (2021): 71-76.

[37] Fan, Jin, et al "Parallel spatio-temporal attention-based TCN for multivariate time series prediction." Neural Computing and Applications 35.18 (2023): 13109-13118.

Tiêu đề	Các mô hình dựa trên kiến trúc Transformer cho bài toán dự báo dài hạn giá cổ phiếu
Tác giả	Bùi Quốc Bảo
Người hướng dẫn	TS. Tạ Anh Sơn
Trường học	Trường Đại học Bách Khoa Hà Nội
Chuyên ngành	Toán Ứng dụng và Tin Học
Thể loại	Đồ án đề xuất
Năm xuất bản	2023
Thành phố	Hà Nội

Định dạng
Số trang	37
Dung lượng	0,95 MB