Mô hình LSTF sử dụng kiến trúc Transformer cho dự báo giá cổ phiếu dài hạn

MỤC LỤC

Informer

Giới thiệu

Dự bỏo chuỗi thời gian là một yếu tố quan trọng trong nhiều lĩnh vực, như theo dừi mạng cảm biến, quản lý năng lượng và lưới điện thông minh, kinh tế và tài chính , và phân tích sự lây lan của các bệnh. Trong những tình huống này, chúng ta có thể tận dụng một lượng lớn dữ liệu chuỗi thời gian về hành vi trong quá khứ để thực hiện dự đoán trong dài hạn, cụ thể là dự đoán chuỗi thời gian dài hạn (LSTF). Khi độ dài dự đoán lớn hơn 48 điểm (ngôi sao đậm trong Hình 3.1b), sự chênh lệch về hiệu suất tổng thể lớn, trong đó MSE tăng lên mức hiệu suất không đạt yêu cầu, tốc độ suy luận giảm đáng kể và mô hình LSTM bắt đầu thất bại.

Thách thức lớn nhất cho LSTF là nâng cao khả năng dự đoán để đáp ứng yêu cầu về chuỗi ngày càng dài, đòi hỏi (a) khả năng cân đối ở khoảng cách rất xa và (b) hoạt động hiệu quả trên đầu vào và đầu ra của chuỗi dài. Cơ chế tự chú ý có thể giảm độ dài tối đa của đường đi truyền tín hiệu mạng xuống cấp lý thuyết tối thiểuO(1) và tránh cấu trúc lặp lại, từ đó Transformer thể hiện tiềm năng lớn trong việc giải quyết vấn đề LSTF.

THUẬT TOÁN INFORMER VÀ AUTOFORMER TRONG DỰ BÁO CHUỖI THỜI GIAN DÀI HẠN

  • Autoformer
    • Mô tả dữ liệu

      Trong thực tế, độ dài đầu vào của truy vấn và keys thường tương đương trong tính toán tự-chú ý, tức là LQ = LK = L, vì vậy tổng thời gian tính toán tự-chú ý ProbSparse và tính phức tạp không gian là O(LlnL). THUẬT TOÁN INFORMER VÀ AUTOFORMER TRONG DỰ BÁO CHUỖI THỜI GIAN DÀI HẠN Thay vì sử dụng các cờ cụ thể làm mã thông báo, chuỗi dàiL(mã thông báo) được lấy mẫu theo chuỗi đầu vào, giống như lát cắt trước đó trước chuỗi đầu ra. Cơ chế tự-chú-ý ProbSparse trong mô hình thuật toán Informer có thể đạt được độ phức tạp thời gian và sử dụng bộ nhớO(L/logL), tạo sự điều chỉnh lớn đối với transformer về mặt độ phức tạp thời gian và bộ nhớ,trong khi cơ chế tự chú ý làm nổi bật đầu vào của lớp xếp tầng bằng cách giảm một nửa mức độ chú ý chiếm ưu thế và xử lý hiệu quả các chuỗi đầu vào quá dài.

      Trước hết, cơ chế tự chú ý cải tiến giảm độ phức tạp và bộ nhớ, nhưng vẫn còn khả năng cải thiện về độ phức tạp và tiêu thụ bộ nhớ; thứ hai, mặc dù hiệu quả được cải thiện, nhưng vẫn còn vấn đề về sự phụ thuộc thời gian giữa chuyển tiếp thuận và ngược, dẫn đến một số sai lệch giữa kết quả dự đoán và kết quả thực tế, và độ chính xác vẫn cần được cải thiện. Dựa trên lý thuyết về quá trình ngẫu nhiên, Autoformer giới thiệu một cơ chếTự tương quan(Auto- Correlation mechanism) thay vì tự chú ý(self-attention), giúp phát hiện sự tương tự của các chuỗi con dựa trên tính chu kỳ của chuỗi và tổng hợp các chuỗi con tương tự từ các giai đoạn cơ bản. Như một phương pháp tiêu chuẩn trong phân tích chuỗi thời gian, phân giải chuỗi thời gian phân chia một chuỗi thời gian thành nhiều thành phần, mỗi thành phần đại diện cho một trong các loại mẫu cơ bản mà có thể dự đoán tốt hơn.

      Đối với các nhiệm vụ dự báo, phân giải thường được sử dụng như một bước tiền xử lý cho chuỗi lịch sử trước khi dự đoán chuỗi trong tương lai, chẳng hạn như Prophet với phân giải xu hướng mùa và N-BEATS với mở rộng cơ sở và DeepGLO với phân giải ma trận. Mô hình Autoformer, sử dụng phân giải như một khối bên trong của các mô hình sâu, có khả năng phân giải từng bước tiến triển chuỗi ẩn trong toàn bộ quy trình dự đoán, bao gồm cả chuỗi quá khứ và kết quả trung gian dự đoán. Như đã đề cập trước đó, chúng ta đã làm nổi bật những khó khăn của việc dự đoán chuỗi thời gian dài hạn: xử lý các mẫu thời gian phức tạp và vượt qua sự hạn chế về hiệu suất tính toán và sử dụng thông tin.

      Để giải quyết thách thức này, giới thiệu một khối phân giải chuỗi như một phép hoạt động bên trong Autoformer (Hình 3.4), có khả năng trích xuất xu hướng cố định dài hạn từ các biến ẩn trung gian được dự đoán một cách tiến triển. Lưu ý rằng mô hình trích xuất tiềm năng của xu hướng từ biến ẩn trung gian trong quá trình giải mã, cho phép Autoformer cải thiện dự đoán xu hướng một cách tiến triển và loại bỏ thông tin can thiệp cho việc phát hiện phụ thuộc vào chu kỳ trong Tự tương quan. Mô hình thuật toán Autoformer dựa trên kiến trúc phân rã sâu và cơ chế tự tương quan đã giải quyết vấn đề về mô hình hóa các mẫu dữ liệu phức tạp trong dự đoán chuỗi thời gian dài hạn mà khó xử lý và tính toán hiệu quả.

      Mô hình Transformer-based đã thể hiện khả năng xuất sắc trong việc xử lý dữ liệu chuỗi thời gian dài hạn, và việc áp dụng nó vào dự báo giá cổ phiếu trở thành một phần quan trọng của nghiên cứu trong lĩnh vực tài chính và đầu tư. Mục tiêu chính trong phần kết quả thực nghiệm là xây dựng và đánh giá hiệu suất của mô hình dự báo chuỗi thời gian dài hạn dựa trên kiến trúc Transformer-based, với tập trung vào dự đoán giá cổ phiếu của ba mã chứng khoán: AAPL (Apple Inc.), META (Meta Platforms, Inc.), và GOOG (Alphabet Inc.).

      Hình 3.2: Tổng quan về mô hình Informer. Bên trái: Bộ mã hóa nhận đầu vào là các dãy dài rất lớn (dãy màu xanh)
      Hình 3.2: Tổng quan về mô hình Informer. Bên trái: Bộ mã hóa nhận đầu vào là các dãy dài rất lớn (dãy màu xanh)

      KẾT QUẢ THỰC NGHIỆM

      • Cấu hình thực nghiệm
        • Độ đo đánh giá
          • Kết quả

            Trong quá trình huấn luyện, việc sử dụng hệ số kiên nhẫn và quản lý kích thước batch là những yếu tố quan trọng để nâng cao hiệu suất và duy trì sự ổn định trong quá trình huấn luyện. Điều này đồng nghĩa rằng, sau khi đánh giá hiệu suất của mô hình trên tập dữ liệu validation, nếu mô hình không có cải thiện trong ba epoch liên tiếp, quá trình huấn luyện sẽ bị dừng lại. Sử dụng hệ số kiên nhẫn như vậy đảm bảo rằng mô hình không bị overfitting sau khi hội tụ, mà không cần phải đánh đổi đáng kể độ chính xác trên tập dữ liệu validation.

            Trong các thực nghiệm, ta sử dụng tỷ lệ học (learning rate) là 1e-4, dựa trên việc quan sát sự biến đổi của đường cong loss trong giai đoạn huấn luyện của mô hình. Lưu ý rằng: Các thực nghiệm sau đây với mục tiêu là dự báo giá đóng cửa của cổ phiếu AAPL (việc dự báo giá đóng cửa cho GOOG và META có thể được thực hiện một cách tương tự). Ở TC1, mô hình chỉ học mối tương quan dữ liệu đóng cửa của quá khứ để dự báo cho chính trường đó trong tương lai, TC2 đồng thời thể hiện mối liên kết của 4 trường dữ liệu đối với khả năng dự báo cho trường close.

            Dưới đây, chúng ta sẽ giới thiệu và mô tả cụ thể về ba độ đo phổ biến:R2 (Hệ số xác định), MAE (Mean Absolute Error), và RMSE (Root Mean Squared Error), cung cấp công thức và ý nghĩa của từng độ đo. • Công thức: MAE (Mean Absolute Error - MAE), gọi là Sai số trung bình tuyệt đối, là một độ đo thống kê để đo lường độ lệch giữa các dự đoán và giá trị thực tế trong một tập dữ liệu. Nó được tính bằng cách lấy giá trị tuyệt đối của sai số (sự sai khác) giữa mỗi dự đoán và giá trị thực tế, sau đó tính trung bình của tất cả các giá trị tuyệt đối này.

            • Ý nghĩa: Trong bối cảnh dự báo giá cổ phiếu, MAE sẽ cho biết giá trị trung bình của các sai số tuyệt đối giữa giá cổ phiếu dự đoán và giá cổ phiếu thực tế. Ví dụ, nếu MAE cho một mô hình dự đoán là 2, điều này có nghĩa rằng trung bình mỗi dự đoán của mô hình sai lệch với giá trị thực tế khoảng 2 đơn vị. Trong phần này, chúng ta tiến hành một số thực nghiệm so sánh giữa các phương pháp dự đoán dựa trên Transformer và ba mô hình học sâu khác sử dụng RNN: Gated Recur- rent Unit (GRU), Long Short-Term Memory (LSTM) và Bidirectional Long-Short Term Memory (Bi-LSTM).

            Bảng 4.2: Các tình huống triển khai
            Bảng 4.2: Các tình huống triển khai

            15.8266 11.265 GRU 0.9535 13.8364 10.2455

            Tác động của các trường hợp thử nghiệm đối với hiệu suất mô hình (RQ2)

            Đặc biệt, ở TC1, kết quả cho tất cả ba tiêu chí đánh giá đều xuất sắc hơn so với các trường hợp khác, trong khi TC2 và TC3 có sự khác biệt tương đối nhỏ. Từ bảng kết quả này, chúng ta có thể suy đoán rằng, đối với tập dữ liệu cụ thể này, việc thêm các trường dữ liệu bổ sung có thể đưa vào nhiễu trong quá trình đào tạo và dự đoán. Một yếu tố góp phần vào hiện tượng này có thể là do độ lệch chuẩn lớn được quan sát ở một số trường.

            Tuy nhiên, quan trọng phải lưu ý rằng mỗi bài toán và tập dữ liệu cụ thể đều có đặc điểm riêng. Do đó, để cấu hình mô hình cho hiệu suất tối ưu, ta cần thực hiện các trường hợp thử nghiệm như vậy và đánh giá, so sánh kết quả cụ thể cho từng tập dữ liệu.