Việc dự báo giá chứng khoán là một trong những vấn đề quan trọng đối với các nhà đầu tư và các chuyên gia tài chính, giúp các nhà đầu tư đưa ra quyết định đầu tư hợp lí và tối ưu hóa lợi
GIỚI THIỆU ĐỀ TÀI
Giới thiệu chung
Vào những năm gần đây, thị trường chứng khoán nhanh chóng trở thành một kênh đầu tư hấp dẫn, thu hút rất nhiều nhà đầu tư cá nhân, nhỏ lẻ cho đến các nhà đầu tư chuyên nghiệp và các tổ chức với nhiều phong cách đầu tư khác nhau Họ đều mong muốn có lợi nhuận, mức sinh lời cao và dĩ nhiên kèm theo đó là rủi ro tiềm ẩn cũng không hề ít Do đó, việc dự báo xu hướng thị trường luôn được các cá nhân và tổ chức phân tích chứng khoán đặt lên hàng đầu nhằm giảm thiểu tối đa rủi ro trong quá trình đầu tư Thị trường chứng khoán là một trong những lĩnh vực tài chính có tính biến động cao và khó dự báo trước Việc dự báo giá chứng khoán là một trong những vấn đề quan trọng đối với các nhà đầu tư và các chuyên gia tài chính, giúp các nhà đầu tư đưa ra quyết định đầu tư hợp lí và tối ưu hóa lợi nhuận trên thị trường chứng khoán
Trong bối cảnh công nghệ thông tin đang phát triển mạnh mẽ, kĩ thuật học máy đang trở thành một công cụ hỗ trợ quan trọng cho việc dự báo giá cổ phiếu trên thị trường chứng khoán Ưu điểm của kĩ thuật học máy là giúp xử lí các lượng dữ liệu lớn và phức tạp, đồng thời đưa ra các dự báo chính xác hơn Mục tiêu của nghiên cứu này là xây dựng một mô hình dự báo được xu hướng của thị trường giúp cho các nhà đầu tư cá nhân hay tổ chức có được công cụ hỗ trợ, giảm rủi ro trong quá trình đầu tư Mô hình này sử dụng kĩ thuật học máy để học từ dữ liệu lịch sử và dự đoán xu hướng thị trường chứng khoán trong tương lai Nghiên cứu nhằm đạt được mục tiêu giúp các nhà đầu tư và chuyên gia tài chính có thể đưa ra quyết định đầu tư hợp lí và tối ưu hóa lợi nhuận trên thị trường chứng khoán
Giao dịch theo thuật toán dựa trên các chương trình máy tính thực hiện các thuật toán để tự động hóa một số hoặc tất cả các yếu tố của chiến lược giao dịch Thuật toán là một chuỗi các bước hoặc quy tắc được thiết kế để đạt được một mục tiêu Chúng có thể có nhiều hình thức và hỗ trợ tối ưu hóa trong quá trình đầu tư, từ việc tạo ra ý tưởng đến phân bổ tài sản, thực hiện giao dịch và quản lý rủi ro
Máy học (ML) liên quan đến các thuật toán học quy tắc hoặc mô hình từ dữ liệu để đạt được một mục tiêu như giảm thiểu sai số dự đoán Các phương pháp trong luận
2 văn này sẽ minh họa cách các thuật toán ML có thể trích xuất thông tin từ dữ liệu để hỗ trợ hoặc tự động hóa các hoạt động đầu tư quan trọng
Sự cạnh tranh giữa các nhà đầu tư tinh vi trên thị trường tài chính thúc đẩy việc đưa ra dự đoán chính xác đòi hỏi thông tin hữu ích, thông qua việc truy cập vào dữ liệu tốt, khả năng xử lý nó một cách xuất sắc, hoặc cả hai Đây là nơi Máy học xuất hiện: các ứng dụng của Máy học cho giao dịch (ML4T) thường nhằm mục tiêu sử dụng một loạt dữ liệu đa dạng nhanh chóng để tạo ra dự đoán cả về chất lượng và tính hành động cao hơn, từ đó cải thiện chất lượng quyết định và kết quả đầu tư
Hiện nay với sự phát triển của các hệ thống dự đoán ngày càng nhiều nhà đầu tư quan tâm đến Dưới đây là một số hình ảnh của các hệ thống dự đoán giá cổ phiếu đang có trên thị trường
Mô hình ví dụ của hệ thống dự đoán:
Minh họa ứng dụng hệ thống dự đoán doanh thu và lợi nhuận 3 năm trên nền tảng Simplize
Tổng quan về bài toán dự đoán giá cổ phiếu
Chúng ta đặt vấn đề như sau: Dữ liệu đầu vào: Tập S chứa các cổ phiếu mục tiêu mà chúng ta muốn dự đoán Tập {𝑋 }| 𝑠 ∈ 𝑆; 𝑡 ∈ 𝑇 Chứa các vector đặc trưng tóm tắt giá cổ phiếu lịch sử, với T là tập các ngày huấn luyện có sẵn Vector đặc trưng này bao gồm thông tin liên quan giá mở cửa, giá cao nhất, giá thấp nhất và giá đóng cửa của mỗi cổ phiếu
Tập E chứa các tweet, mỗi tweet đều đề cập ít nhất một cổ phiếu trong tập S
Mục tiêu: Dự đoán sự biến động giá của cổ phiếu vào ngày T+n
Thông tin sử dụng: Sử dụng các đặc trưng và tweet cho đến ngày
T để thực hiện dự đoán
Minh họa các bước thực hiện trong đề tài dự đoán xu hướng giá cổ phiếu
Mục tiêu và nhiệm vụ
Với sự đa dạng của bài toán dự đoán xu hướng giá cổ phiếu và bối cảnh thị trường cổ phiếu sử dụng các công cụ dự đoán các hệ thống dự đoán và đánh giá cổ phiếu ngày càng tinh vi, tác giả đã quyết định thực hiện luận văn tốt nghiệp thạc sĩ về đề tài Dự đoán xu hướng giá cổ phiếu ứng dụng học máy
Hiểu rằng hiệu suất của một cổ phiếu phản ánh một phản ứng từ phía các nhà đầu tư Nói cách khác, giá cổ phiếu phụ thuộc lớn vào kỳ vọng của các nhà đầu tư đối với một hoặc nhiều cổ phiếu Những kỳ vọng này không chỉ bị ảnh hưởng bởi các biến động thực tế xảy ra trong các ngành, mà còn bởi thông tin mà nhà đầu tư thu được từ tin tức, mạng xã hội, v.v Tuy nhiên, những nguồn thông tin này có thể không đáng tin cậy và gây khó khăn trong dự đoán cổ phiếu
Các nghiên cứu hiện tại đã phổ biến các yếu tố chính gây ra thay đổi giá cổ phiếu Dưới đây, tác giả tóm tắt cách thị trường hoạt động và các đặc trưng chính cần tập trung khi thực hiện dự đoán
Người ta thường cho rằng bản tin và khối lượng giao dịch lớn có ảnh hưởng đáng kể đến giá cổ phiếu Lý thuyết cho rằng giá di chuyển khi thông tin mới xuất hiện do các tác nhân tham gia thị trường, người ta sẽ phản ứng lại thông tin này Theo lý thuyết này, giá nên tăng lên sau khi một thông tin mới được công bố, có nghĩa là tin tức nên là yếu tố quyết định chính của biến động giá Chỉ một lượng nhỏ cổ phiếu trên thị trường sẽ phản ứng với sự kiện chính trị và thế giới Bằng chứng khác cho thấy các khối lượng giao dịch lớn không chịu trách nhiệm cho sự nhảy vọt lớn trong giá cổ phiếu Trên thực tế, khối lượng có sẵn trên thị trường rất nhỏ so với vốn hóa thị trường Tuy vậy một số cổ phiếu với khả năng thanh khoản cao vẫn có thể bị ảnh hưởng bởi các phản ứng của thị trường đặc biệt sự tác động lẫn nhau và phức tạp giữa các cổ phiếu với nhau và thị trường
Với sự hấp dẫn của việc dự đoán xu hướng giá cổ phiếu, có rất nhiều phương pháp sử dụng dữ liệu tin tức để dự đoán Bài báo tin tức cung cấp thông tin chính thức và đáng tin cậy, nhưng thông tin của chúng lan truyền chậm hơn so với truyền thông xã hội, nơi mọi người chia sẻ quan điểm thời gian thực của họ Nhóm cuối cùng, sử
5 dụng dữ liệu tweet để có thông tin kịp thời, nhưng có hai hạn chế trong dữ liệu tweet ngăn cản các phương pháp hiện có khỏi nhận được thông tin hữu ích: sự thưa thớt và không tin cậy
Vấn đề về sự thưa thớt xuất phát từ phân phối chệch của số lượng tweet đề cập đến mỗi cổ phiếu Hầu hết các tweet chỉ tập trung vào vài cổ phiếu phổ biến như AAPL hoặc GOOG, trong khi hầu hết các cổ phiếu khác không có đủ số lượng tweet Vấn đề về không tin cậy xuất phát từ đặc tính của Twitter, nơi bất kỳ người dùng nào cũng có thể đăng thông tin chưa được xác nhận về thị trường Không an toàn khi hoàn toàn phụ thuộc vào nội dung của tweet để rút ra tín hiệu dự đoán về diễn biến thị trường mà không xem xét rủi ro của việc có thông tin sai lệch
Với sự hấp dẫn của đề tài và các thách thức đặt ra kể trên đối với bài toán dự đoán xu hướng giá cổ, tác giả quyết định thực hiện luận văn tốt nghiệp thạc sĩ về đề tài
"Dự đoán xu hướng giá cổ phiếu ứng dụng học máy" Trong đề tài này tác giả trình bày về các phương pháp sử dụng học máy để dự đoán xu hướng giá cổ phiếu bằng cách kết hợp, phân tích và cải tiến các phương pháp đã có để cải thiện và đưa ra góc nhìn mới mẻ hơn với bài toán dự đoán giá cổ phiếu Cuối cùng tác giả sẽ đưa ra kết quả đánh giá và đối chiếu để đưa ra ưu nhược điểm của phương pháp này Để hoàn thành mục tiêu kể trên, tác giả sẽ lần lượt giải quyết các vấn đề sau:
Tìm hiểu bài toán dự đoán xu hướng và giá cổ phiếu nói chung
Tập trung giải quyết bài toán về dự đoán xu hướng hoặc giá cổ phiếu, tìm hiểu các phương pháp tiếp cận hiện có từ các công trình đã công bố trước đó
Sử dụng các dữ liệu đã thu thập để tập trung phân tích và khai thác thông tin từ các dữ liệu này
Tìm hiểu về mô hình dự đoán giá dựa trên và các mô hình khác để cải thiện và thiết kế mô hình phù hợp
Triển khai mô hình đã xây dựng trên tập dữ liệu đã có được tổng hợp từ nhiều nguồn
So sánh và đánh giá kết quả so với các mô hình truyền thống.
Giới hạn đề tài và đối tượng nghiên cứu
Trong phạm vi của một đề tài luận văn thạc sĩ, tác giả đề xuất giới hạn nội dung nghiên cứu cụ thể như sau:
Đề tài tập trung chủ yếu vào việc dự đoán giá cổ phiếu nhờ đó phát phiện xu hướng của cổ phiếu
Tập dữ liệu dùng để huấn luyện mô hình được lấy từ dữ liệu đã thu thập
Tìm hiểu các phương pháp truyền thống như Logistic regression,
LSTM, RandomForest và các mô hình đã triển khai khác
Xây dựng mô hình cải tiến dựa trên LSTM và các phương pháp khác
Thực nghiệm và cải tiến để nâng cao khả năng dự báo của hệ thống
Dựa vào các yếu tố trên, phạm vi cụ thể của đề tài hướng đến dự đoán là thi trường chứng khoáng Mỹ Trong đó:
- Các thông tin đầu vào cơ bản bao gồm: giá cổ phiếu và các tweet trên nên tảng như facebook, tiktok, twitter, các thông tin được thu thập ở dạng text
7 Bảng khảo sát các nền tảng mạng xã hội phổ biến ở mỹ
- Đối với các thông tin khác có thể được sử dụng để dự đoán giá cổ phiếu trong thời gian dài hơn, bao gồm các ảnh hưởng như: chính sách lãi suất của Feb, chính sách thuế và công nghệ, thị trường lao động và sự thất nghiệp, xuất nhập khẩu thương mại, các yếu tố chính trị và luật lệ, tâm lý thị trường và biến động Các thông tin này có thể được tích hợp trong giai đoạn phát triển của đề tài
- Về thị trường dự đoán tập trung vào thị trường ở Mỹ, với các tin tức được thu thập từ nền tảng tweeter – nền tảng có các thông tin hữu ích từ tin tức và dễ dàng thu thập.
Nội dung dự kiến của luận văn
Luận văn “HỆ THỐNG DỰ ĐOÁN XU HƯỚNG GIÁ CỔ PHIẾU ỨNG DỤNG HỌC MÁY” đề xuất nội dung của luận văn gồm tất cả 8 chương, cụ thể như sau:
Chương 1 Giới thiệu đề tài Chương đầu tiên sẽ đề cập đến lí do chọn đề tài Dự đoán giá/ xu hướng cổ phiếu dựa trên học máy Giới thiệu những thành tựu các công trình khác đã đạt được, những khó khăn, thách thức của đề tài và quá trình thực hiện nghiên cứu Sau đó trình bày về mục tiêu, phạm vi và cấu trúc luận văn
Chương 2 Cơ sở lý thuyết Ở chương này, trình bày các kiến thức nền tảng về bài toán dự đoán giá, các lí thuyết về mô hình học máy
Chương 3 Công trình nghiên cứu liên quan Cung cấp một cái nhìn tổng quát về những nghiên cứu liên quan đã và đang được thực hiện, cũng như xu hướng chung hiện nay trong việc giải quyết bài toán, trong đó cũng trình bày những quan điểm cá nhân đối với các phương pháp này
Chương 4 Dữ liệu Nghiên cứu Tập dữ liệu được sử dụng cho nghiên cứu này sẽ được giới thiệu, phân tích và so sánh với các tập dữ liệu khác Bên cạnh đó, cách xử lý dữ liệu cũng được trình bày rõ trong chương này
8 Chương 5 Mô hình đề xuất Tác giả giới thiệu về một mô hình có liên quan chặt chẽ đến bài toán cần giải quyết dựa trên kiến trúc RNN và đưa ra nhận xét về ưu nhược điểm giữa các mô hình và lựa chọn mô hình phù hợp
Quá trình hiện thực hóa hệ thống bao gồm xây dựng kiến trúc hệ thống, viết chương trình, thiết lập môi trường hệ thống sẽ được trình bày từng bước trong chương này Đồng thời nội dung của chương này liên quan đến việc huấn luyện mô hình và đánh giá kết quả trên những độ đo xác định Quá trình này sẽ được lặp lại liên tục cho đến khi đạt được lời giải tối ưu
Chương 6 Kết luận Trong chương cuối cùng, tác giả tổng kết mô hình được sử dụng trong đề tài, tổng kết kết quả thí nghiệm, đưa ra những điểm nổi bật và hạn chế của đề tài Bên cạnh đó còn đưa ra hướng phát triển, mở rộng của đề tài trong tương lai
Về tính mới của đề tài:
- Tính mới về nội dung với các điểm cải thiện từ dự án SLOT để dự đoán giá cổ phiếu, việc ứng dụng vào dự đoán thực tế giá cũng như xu hướng còn hạn chế Do đó với luận văn này tôi sẽ làm rõ các điểm hạn chế và việc tác động trên dữ liệu thực tế với thị trường Mỹ như thế nào Ứng dụng vào việc dự đoán sự dịch chuyển của xu hướng kinh tế
- Tính mới về phương pháp Cải thiện hiệu suất bằng các phương pháp khác nhau đem đến cái nhìn tổng quát trong việc sử dụng những phương pháp học máy đến việc dự đoán xu hướng của các nhân tố biến động lớn như cổ phiếu: Như sử dụng graph, sử dụng các công cụ chỉ số
- Tính mới về kết quả: Xác định được các yếu tố ngữ cảnh mới có ảnh hưởng đến giá cổ phiếu Với kết quả đạt được không chỉ đưa ra được xu hướng của cổ phiếu còn có cái nhìn tổng quan về thị trường xu
9 hướng dịch chuyển Việc xuất hiện một mã chứng khoán mới sẽ tác động như thế nào đến kết quả dự đoán
Dự án nghiên cứu này đặt ra những thách thức lớn đối với các phương pháp truyền thống trong việc dự đoán giá cổ phiếu Đồng thời, cần lưu ý rằng bài toán dự đoán cho thị trường chứng khoán là một thách thức cực kỳ khó khăn và vẫn đang được nghiên cứu và phát triển Việc dự đoán biến động của giá cổ phiếu đòi hỏi sự hiểu biết sâu sắc về các yếu tố tác động, cũng như khả năng ứng dụng linh hoạt của các mô hình học máy Bài toán này đặt ra nhiều thách thức, bao gồm sự biến động lớn, sự không chắc chắn trong thông tin và tác động của nhiều yếu tố khác nhau trên thị trường Điều này làm cho việc dự đoán chính xác trở thành một thách thức lớn, và các mô hình cần phải được thiết kế và tối ưu hóa một cách cẩn thận để có thể đối mặt với những đặc tính đặc biệt của thị trường chứng khoán Cần có sự hiểu biết sâu sắc về lĩnh vực tài chính và thị trường chứng khoán khi tiếp cận và xây dựng mô hình dự đoán giá cổ phiếu Đồng thời, bài toán dự đoán giá cổ phiếu còn đối mặt với nhiều ảnh hưởng từ các yếu tố không dự đoán được, như tin tức, sự biến động chính trị, và những biến động thị trường khác Các mô hình truyền thống thường không thể hiệu quả trong việc xử lý những yếu tố không lường trước này Ngoài ra, quá trình dự đoán giá cổ phiếu là một trong những thách thức khó khăn nhất trong lĩnh vực tài chính Có nhiều yếu tố ảnh hưởng đến giá cổ phiếu và các biến động thị trường, và những biến động này thường có tính chất ngẫu nhiên và khó dự đoán Mặc dù có sự tiến bộ đáng kể trong lĩnh vực học máy và trí tuệ nhân tạo, nhưng việc tạo ra một mô hình chính xác và đáng tin cậy để dự đoán giá cổ phiếu vẫn là một thách thức lớn
CƠ SỞ LÝ THUYẾT
Tổng quan các khái niệm về thị trường chứng khoán
Trong chương này, đầu tiên sẽ trình bày các nội dung lý thuyết tổng quát về thị trường chứng khoán Mục tiếp theo sẽ giới thiệu về phân tích kỹ thuật và ứng dụng trong việc dự báo chứng khoán
2.1.1 Tổng quan về thị trường chứng khoán
Tổng quan: Thị trường chứng khoán là một bộ phận quan trọng của Thị trường vốn, hoạt động của nó nhằm huy động những nguồn vốn tiết kiệm nhỏ trong xã hội tập trung thành nguồn vốn lớn tài trợ cho doanh nghiệp, các tổ chức kinh tế và Chính phủ để phát triển sản xuất, tăng trưởng kinh tế hay cho các dự án đầu tư
Thị trường chứng khoán là nơi diễn ra các hoạt động giao dịch mua bán các loại chứng khoán Việc mua bán được tiến hành ở hai thị trường sơ cấp và thứ cấp, do vậy thị trường chứng khoán là nơi chứng khoán được phát hành và trao đổi
Các loại thị trường chứng khoán:
Thị trường sơ cấp: người mua mua được chứng khoán lần đầu từ những người phát hành
Thị trường thứ cấp: nơi diễn ra sự mua đi bán lại các chứng khoán đã được phát hành ở Thị trường sơ cấp Hàng hóa giao dịch trên Thị trường chứng khoán bao gồm: các cổ phiếu, trái phiếu và một số công cụ tài chính khác có thời hạn trên 1 năm
Vị trí của Thị trường chứng khoán trong thị trường tài chính: Thị trường tài chính có hai thị trường lớn chính đó là Thị trường tài chính ngắn hạn (Thị trường tiền tệ) và Thị trường tài chính dài hạn (Thị trường vốn), chi tiết hai thị trường này như sau:
Thị trường Tài chính ngắn hạn (Thị trường tiền tệ): Là nơi diễn ra các hoạt động của cung và cầu về vốn ngắn hạn Vốn ngắn hạn bao gồm cả trái phiếu ngắn hạn, có kỳ hạn tức là mua bán những món nợ ngắn hạn rủi ro thấp, tính thanh khoản cao Thị trường tiền tệ diễn ra chủ yếu thông qua hoạt động của hệ 12 thống ngân hàng, vì các ngân hàng là chủ thể quan trọng nhất trong việc cung cấp và sử dụng vốn ngắn hạn
Thị trường Tài chính dài hạn (Thị trường vốn): Là nguồn cung vốn dài hạn chính cho hoạt động của doanh nghiệp Bao gồm Thị trường tín dụng dài hạn (gồm Thị trường cho vay thế chấp và thị trường cho thuê tài chính) và Thị trường chứng khoán
2.1.2 Đặc điểm của Thị trường chứng khoán
Thị trường chứng khoán có các đặc điểm chủ yếu sau:
Được đặc trưng bởi hình thức tài chính trực tiếp, người cần vốn và người cung cấp vốn đều trực tiếp tham gia thị trường, giữa họ không có trung gian tài chính
Là thị trường gần với Thị trường cạnh tranh hoàn hảo Mọi người đều tự do tham gia vào thị trường Không có sự áp đặt giá cả trên thị trường chứng khoán, mà giá cả ở đây được hình thành dựa trên quan hệ cung – cầu
Về cơ bản là một thị trường liên tục, sau khi các chứng khoán được phát hành trên thị trường sơ cấp, nó có thể được mua đi bán lại nhiều lần trên thị trường thứ cấp Thị trường chứng khoán đảm bảo cho các nhà đầu tư có thể chuyển chứng khoán của họ thành tiền mặt bất cứ lúc nào họ muốn Để phân tích đặc tính của thị trường chứng khoán, chúng ta cần xem xét nhiều yếu tố khác nhau, bao gồm cả yếu tố kinh tế, tài chính, chính trị, và các yếu tố khác ảnh hưởng đến giá cổ phiếu và xu hướng thị trường Dưới đây là một số điểm quan trọng cần xem xét:
Tình hình kinh tế quốc gia và toàn cầu: Tăng trưởng kinh tế, lạm phát, thất nghiệp, và các yếu tố khác có thể ảnh hưởng đến thị trường chứng khoán Chính sách tiền tệ: Các biện pháp của ngân hàng trung ương về lãi suất và tiền tệ có thể ảnh hưởng đến chi phí vốn và đầu tư
Hiệu suất doanh nghiệp: Lợi nhuận, doanh số bán hàng, và các chỉ số tài chính khác của các công ty cổ phiếu có thể ảnh hưởng đến giá cổ phiếu Nợ và tài chính công ty: Công ty có nợ nhiều hay ít, và khả năng thanh toán nợ là một yếu tố quan trọng
Chính Trị và Pháp Lý:
12 Biến động chính trị: Sự ổn định chính trị hoặc các biến động có thể tạo ra không chắc chắn cho thị trường Thay đổi trong các quy định và luật lệ: Sự thay đổi trong các quy định có thể ảnh hưởng đến ngành công nghiệp và doanh nghiệp
Tâm lý đám đông: Cảm xúc và tâm lý của các nhà đầu tư có thể tạo ra những biến động đột ngột trên thị trường Thị trường chứng khoán có thể chịu ảnh hưởng từ tin đồn, thông tin sai lệch, hoặc các sự kiện ngẫu nhiên
Các Yếu Tố Kỹ Thuật:
Phân tích đồ thị: Quan sát các biểu đồ và xu hướng giá có thể giúp dự đoán sự biến động của thị trường Các chỉ số kỹ thuật: Sử dụng các chỉ số như RSI, MACD, và các chỉ số khác để đánh giá tình trạng thị trường và cổ phiếu cụ thể
Cơ chế Attention trong học máy
2.2.1 Cơ chế và chức năng của Attention
Trong toán truyền tuần tự (sequence transduction) có thể được giải quyết bằng các mô hình mạng neural hồi quy RNN, LSTM, BiLSTM, và các loại khác Tuy nhiên, mặc dù các mô hình hồi quy này, kể cả LSTM và BiLSTM, có hiệu suất tốt trong nhiều trường hợp, nhưng chúng không hoạt động hiệu quả trên các chuỗi đầu vào quá dài Nguyên nhân chính là xác suất giữ lại hoặc nhớ ngữ cảnh của một từ ở xa so với từ hiện tại giảm dần theo khoảng cách Điều này dẫn đến việc trong các câu dài, mô
20 hình thường quên thông tin của các từ ở vị trí xa nhau trong chuỗi Vấn đề khác là với RNN và LSTM, việc xử lý câu là tuyến tính, không thể thực hiện song song, và không có mô hình rõ ràng về phụ thuộc giữa các từ trong văn bản theo cả phạm vi dài và ngắn Để giải quyết những vấn đề này, cơ chế attention đã được đề xuất Cơ chế này tập trung chú ý vào một nhóm từ cụ thể trong mỗi ngữ cảnh Ví dụ, khi dịch câu, tập trung chú ý vào từ đang dịch Khi sao chép bản ghi âm, tập trung chú ý vào phần đoạn đang được viết ra Cơ chế attention giúp giải quyết vấn đề của tính toán tuần tự, tận dụng khả năng tính toán song song của máy tính, cũng như tạo ra mô hình rõ ràng về phụ thuộc giữa các từ trong phạm vi dài và ngắn
Cơ chế attention được đề xuất lần đầu tiên bởi Bahdanau, Cho, & Bengio vào năm 2014 để cải thiện hiệu suất của bài toán dịch máy Bài báo "Attention Is All You Need" của Vaswani và cộng sự vào năm 2017 tiếp tục định hình cơ chế này Cả hai bài báo này đã đạt được sự chú ý lớn trong cộng đồng nghiên cứu và được trích dẫn rất nhiều, chứng tỏ hiệu quả của cơ chế attention trong nhiều bài toán xử lý ngôn ngữ tự nhiên Cơ chế này không chỉ áp dụng cho bài toán dịch máy mà còn cho nhiều bài toán khác có dạng chuỗi dữ liệu và mô hình học máy sử dụng RNN và Seq2Seq
Một hàm attention có thể được mô tả như là một ánh xạ giữa một truy vấn và một tập hợp các cặp khóa-giá trị đầu vào, với truy vấn, các khóa, giá trị, và đầu ra đều là các vector Đầu ra được tính toán như là tổng có trọng số của các giá trị, trong đó trọng số được gán cho mỗi giá trị được tính bằng một hàm tương thích của truy vấn với khóa tương ứng
(Trái) Attention theo dạng Scaled Dot-Product (Phải) Multi-Head Attention được tạo thành từ nhiều lớp Attention chạy song song
21 2.2.2 Attention theo dạng Scaled Dot-Product
Cơ chế được gọi là "Scaled Dot-Product" (Hình 2.1) Đầu vào bao gồm các truy vấn và các key(K) có kích thước dk, và các values(V) có kích thước dv Thực hiện tính các tích vô hướng của Query(Q) với tất cả các key(K), chia mỗi giá trị cho 𝐝 𝒌 và áp dụng hàm softmax để thu được trọng số cho các giá trị
Trong thực tế, việc tính toán hàm attention trên một tập hợp các Query đồng thời, được đóng gói cùng nhau thành một ma trận Q Các khóa và giá trị cũng được đóng gói cùng nhau thành các ma trận K và V Tính toán ma trận đầu ra như sau:
𝐝 𝒌 )𝑉 Thông thường 2 hàm attention chủ yếu là additive attention và dot-product atention Dot-product attention thông thường sẽ tương tự như thuật toán ở trên, ngoại trừ yếu tố tỉ lệ của
𝐝 𝒌 Addtitive attetion tính hàm tương thích bằng cách sử dụng mạng truyền thẳng với một lớp ẩn duy nhất
𝐴𝑑𝑑𝑖𝑡𝑖𝑣𝑒_𝐴𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛(𝑄, 𝐾, 𝑉) = 𝑉 tanh (𝑊 𝑄 + 𝑊 𝐾) Trong đó: o Wq và Wk là các ma trận trọng số cho các vector query và key tương ứng o V là một vector Values
Mặc dù cả hai đều tương tự về độ phức tạp, nhưng dot-product attention nhanh và hiệu quả hơn nhiều trong thực tế, vì nó có thể được triển khai bằng cách tối ưu hóa trong việc nhân ma trận Đối với các giá trị nhỏ của dk, cả hai cơ chế đều thực hiện tương tự Nhưng các nghiên cứu cho rằng đối với các giá trị lớn của dk, các tích vô hướng sẽ tăng lên với độ lớn của dk, đẩy hàm softmax vào các vùng có độ dốc cực kỳ nhỏ Do đó Để đối phó với hiệu ứng này, việc nhân của
𝐝 𝒌 cho những tích vô hướng sẽ có ích trong trường hợp này
2.2.3 Attention theo dạng Multi-Head Attention
22 Thay vì thực hiện một hàm attention với các khóa, giá trị và truy vấn, với việc chiếu tuyến tính truy vấn, khóa và giá trị thành h chiều khác nhau thì lúc này mô hình được học với các chiếu tuyến tính khác nhau thành dk, dk và dv, tương ứng, mang lại lợi ích Trên mỗi phiên bản đã chiếu này của truy vấn, khóa và giá trị, sau đó thực hiện hàm attention một cách song song và tạo ra chiều dv.
Mô hình học máy autoencoder
2.3.1 Giới thiệu mô hình học máy autoencoder
Lý thuyết thông tin là một lĩnh vực khoa học rất quan trọng vì được kỳ vọng sẽ cung cấp câu trả lời cho các vấn đề lưu trữ và phân tích dữ liệu ngày nay Cuối cùng, nó là lĩnh vực cung cấp cơ sở lý thuyết cho việc nén dữ liệu Có các phương pháp thuần thống kê, nhưng máy học cung cấp cấu trúc mạng nơ-ron linh hoạt có thể nén dữ liệu cho nhiều ứng dụng khác nhau
Trong hướng dẫn này, chúng ta sẽ thảo luận về chức năng, cấu trúc, siêu tham số, quá trình huấn luyện và ứng dụng của các loại autoencoder phổ biến khác nhau
Một autoencoder là một loại mạng nơ-ron nhân tạo được sử dụng để học các mã hóa dữ liệu theo cách không giám sát
Mục tiêu của một autoencoder là học một biểu diễn có số chiều thấp (mã hóa) cho một dữ liệu có số chiều cao hơn, thường là để giảm chiều dữ liệu, thông qua việc huấn luyện mạng để nắm bắt những phần quan trọng nhất của đầu vào
Có nhiều cách để nén dữ liệu và các phương pháp thuần thống kê như phân tích thành phần chính (PCA) có thể giúp xác định các đặc trưng chính giải thích phương sai trong dữ liệu và sử dụng chúng để biểu diễn thông tin bằng ít bit hơn Loại nén này có thể được gọi là "Giảm Chiều"
23 Tuy nhiên, giải pháp thay thế của máy học đề xuất các mô hình mạng nơ-ron được cấu trúc như autoencoder Autoencoder có thể học các đặc trưng mã hóa phong phú, phi tuyến tính Những đặc trưng này có thể tương quan với nhau và do đó không nhất thiết là vuông góc với nhau Bằng cách sử dụng những hàm này, chúng ta có thể biểu diễn dữ liệu phức tạp trong không gian ẩn
Ví dụ, khi thảo luận về Mạng Nơ-ron Tích chập (CNN) cho nhận diện khuôn mặt, chúng có thể được sử dụng như autoencoder cho dữ liệu hình ảnh Chúng có thể cho phép người dùng lưu trữ ảnh bằng cách sử dụng ít không gian hơn bằng cách mã hóa ảnh bằng cách giảm chất lượng một chút Sự khác biệt hoặc mất mát chất lượng giữa ảnh đầu vào và ảnh đầu ra được gọi là mất mát tái tạo
Mục tiêu chính của autoencoder là biểu diễn dữ liệu phức tạp bằng cách sử dụng ít mã hóa nhất có thể với mất mát tái tạo hoặc "nén" ít hoặc không có mất mát nào Để làm điều này, autoencoder phải nhìn vào dữ liệu và xây dựng một hàm có thể chuyển đổi một trường hợp cụ thể của dữ liệu thành một mã có ý nghĩa Chúng ta có thể coi đây như là một ánh xạ lại của dữ liệu gốc bằng cách sử dụng ít chiều hơn Chúng ta cũng có thể nhớ rằng mã này phải được giải thích sau này bởi một bộ giải mã để truy cập dữ liệu
Bộ Mã Hóa (Encoder): o Ánh xạ dữ liệu vào không gian biểu diễn thấp chiều o Học các đặc trưng quan trọng
P hần Giữa Hạn Chế (Bottleneck): o Giữ lại thông tin quan trọng o Chiều của không gian biểu diễn thấp
Bộ Giải Mã (Decoder): o Chuyển đổi biểu diễn thấp chiều trở lại dữ liệu gốc o Cố gắng phục hồi dữ liệu mà không làm mất mát quá nhiều thông tin
Mô hình cấu trúc tổng quát của autoencoder Các Loại autoencoder khác:
Những loại autoencoder này được thiết kế để mã hóa dữ liệu có nhiễu một cách hiệu quả để loại bỏ nhiễu ngẫu nhiên khỏi mã Bằng cách này, đầu ra của autoencoder được thiết kế để được làm sạch từ nhiễu và do đó khác biệt so với đầu vào Chúng ta có thể thấy một bản triển khai của điều này bằng cách sử dụng bộ dữ liệu phổ biến MNIST, như được thể hiện trong hình ảnh dưới đây:
Dữ liệu MNIST dataset trong Denoising Autoencoder
Loại autoencoder này thực hiện bằng cách loại bỏ một số các kết nối nút ẩn Điều này làm cho mô hình trở nên chặt chẽ, ngăn chặn overfitting với dữ liệu "sparsity penalty" này được thêm vào mất mát tái tạo để có được một hàm mất mát toàn cầu Một cách khác, có thể đơn giản là xóa một số kết nối trong lớp ẩn:
Chủ yếu đây là một phương pháp regularization mà có thể được sử dụng với nhiều loại bộ mã hóa khác nhau Các ứng dụng có thể thay đổi
Autoencoder sâu bao gồm hai mạng deep-belief đối xứng Cấu trúc này tương tự như biểu đồ "cấu trúc chung" của một autoencoder sử dụng các nút và kết nối như mô tả ở phía trên Các thành phần đối xứng này có thể được mô tả như hai máy Boltzmann hoạt động như bộ mã hóa và giải mã:
Autoencoder của loại này được sử dụng cho nhiều mục đích khác nhau như trích xuất đặc trưng, giảm chiều, và nén dữ liệu
Các autoencoder này có kích thước hidden nhỏ hơn so với đầu vào Điều này có nghĩa là chúng xuất sắc trong việc bắt gọn chỉ những đặc trưng quan trọng nhất có trong dữ liệu Loại autoencoder này thường không cần được chính quy hóa vì chúng không mục tiêu để tạo ra đầu ra tương tự như đầu vào mà thay vào đó phụ thuộc vào giai đoạn nén để bắt gọn các đặc trưng có ý nghĩa trong dữ liệu
Trích xuất đặc trưng là ứng dụng chính cho loại encoder này
Autoencoder dạng convolutional có thể sử dụng tổng của các tín hiệu khác nhau để mã hóa và giải mã Phiên bản phổ biến nhất của mô hình này có lẽ là mô hình convolutional U-Net Mô hình này, được phát triển cho các ứng dụng hình ảnh sinh học, sẽ giải thích kết quả của các bộ lọc khác nhau trên một hình ảnh để phân loại và cuối cùng là phân đoạn dữ liệu hình ảnh Các mô hình convolutional tương tự được sử dụng ngày nay để phân đoạn hình ảnh Đối với một số bài toán về cổ phiếu thì tiêu biểu là Stocknet
27 Rất giống với autoencoder thông thường
Xác suất tự nhiên của VAE được kích hoạt bằng cách sử dụng một lớp lấy mẫu thông thường
Mô hình ví dụ cho Variational Autoencoder
Mô hình LSTM
RNN với kiến trúc LSTM có các đơn vị phức tạp hơn để duy trì một trạng thái nội tại Chúng chứa các cổng để theo dõi sự phụ thuộc giữa các phần tử của chuỗi đầu vào và điều chỉnh trạng thái của cell tương ứng Các cổng này kết nối tái diễn với nhau thay vì các đơn vị ẩn mà chúng ta gặp trước đó Chúng nhằm giải quyết vấn đề về đạo hàm biến mất và đạo hàm bùng nổ do sự lặp lại của giá trị có thể rất nhỏ hoặc rất lớn bằng cách cho phép gradient đi qua mà không thay đổi (Hochreiter và Schmidhuber, 1996)
28 Luồng thông tin qua một ô LSTM được triển khai
Biểu đồ trong Hình 2.6 mô tả luồng thông tin cho một đơn vị LSTM được triển khai và mô tả cơ chế cổng điển hình của nó
Một đơn vị LSTM điển hình kết hợp bốn lớp được tham số hóa tương tác với nhau và trạng thái ô bằng cách biến đổi và chuyển tiếp các vector Thông thường, những lớp này bao gồm một cổng đầu vào, một cổng đầu ra và một cổng quên, nhưng cũng có các biến thể có thể bao gồm các cổng bổ sung hoặc không có một số cơ chế này Những nút màu trắng trong Hình 19.4 xác định các phép toán theo phần tử, và các yếu tố màu xám đại diện cho các lớp có tham số trọng số và bias được học trong quá trình huấn luyện:
Logic và toán học đằng sau một ô LSTM
Trạng thái của ô C chuyển tiếp theo đường kết nối ngang ở phía trên của ô Tương tác giữa trạng thái của ô với các cổng khác nhau dẫn đến một chuỗi quyết định đệ quy:
29 Cổng quên kiểm soát mức độ nào của trạng thái của ô nên bị loại bỏ để điều chỉnh bộ nhớ của mạng Nó nhận trạng thái ẩn trước đó, ht-1, và đầu vào hiện tại, xt, làm đầu vào, tính toán một kích hoạt sigmoid, và nhân giá trị kết quả, f_t, đã được chuẩn hóa vào khoảng [0, 1], với trạng thái của ô, giảm thiểu hoặc giữ nguyên nó tùy thuộc vào giá trị kết quả
Cổng đầu vào cũng tính toán một hàm sigmoid từ ht-1 và xt tạo ra ứng cử viên cập nhật Một hàm tanh trong khoảng từ [-1, 1] nhân với ứng cử viên cập nhật, u_t, và, tùy thuộc vào dấu kết quả, cộng hoặc trừ kết quả từ trạng thái của ô
Cổng đầu ra lọc trạng thái của ô đã được cập nhật bằng một kích hoạt sigmoid, o_t, và nhân nó với trạng thái của ô được chuẩn hóa vào khoảng [-1, 1] bằng một kích hoạt tanh.
Mô hình Graph Neural Network
Trong một tổ chức gồm nhiều cá thể có sự tương tác lẫn nhau sẽ phát sinh nhiều bài toán cần giải quyết Ví dụ như trong một ứng dụng mạng xã hội, nhà phát hành cần dự đoán được những người nó có khả năng quen biết nhau để đề xuất kết bạn; trong hệ thống giao dịch của ngân hàng, các kỹ sư cần phát hiện ra các giao dịch bất thường để xử lý; hay trong một đoạn mã gen người, việc phát hiện một cấu trúc gen đặc biệt có thể dẫn tới nhiều kết quả lớn về mặt sinh học và y khoa Các tổ chức gồm nhiều cá thể có sự tương tác như vậy hoàn toàn có thể được mô tả dưới dạng đồ thị một cách dễ dàng, từ đó phát sinh ra các dạng bài toán liên quan đến đồ thị, trong đó có ba nhóm bài toán chính: dự đoán ở mức đỉnh (nếu xem mỗi đỉnh như một hành vi giao dịch), dự đoán ở mức cạnh (nếu tồn tại một mối quan hệ quen biết trên mạng xã hội) và dự đoán ở mức đồ thị (các đoạn mãn gen đặc biệt giống như các đồ thị con trong một đồ thị)
Như đã đề cập trước đó trong lý thuyết đồ thị, các đỉnh, cạnh, thậm chí là cả đồ thị có thể được gán cho những giá trị, vector nào đó nhằm biểu thị một ý nghĩa nhất định Các giá trị này có thể được gán ngay từ đầu dựa vào đặc điểm, tính chất vốn có của từng đỉnh Chẳng hạn như một đỉnh đại diện cho một người trên mạng xã hội, nó có thể bao gồm thông tin về tuổi tác, giới tính, Hoặc cũng có thể được xây dựng từ đồ thị, ví dụ như bậc của đỉnh đó - tương đương với mối quan hệ của nó đối với những
30 đỉnh khác Những giá trị kể trên mang thông tin đặc trưng của một đỉnh và có thể dựa vào đó làm cơ sở cho các bài toán dự đoán Tuy nhiên, việc đặc trưng hóa các đỉnh, cạnh và đồ thị như vậy được xem là quá trình mã hóa ở mức “nông”, tức là chưa thể khai phá hết được thông tin “sâu” có thể có của nó mà đồ thị có thể mang lại, điển hình là mối quan hệ của đỉnh (cạnh, đồ thị) so với các đỉnh (cạnh, đồ thị) khác Những mối quan hệ “ẩn” này vốn không hiện hữu nếu không thông qua các phép tìm kiếm, phát hiện và đánh giá Hơn nữa, dù có thể thực hiện được các tác vụ kể trên cũng chưa đảm bảo sẽ dẫn tới một tiến trình tự động và đủ tổng quát cho toàn bộ các thành phần trong đồ thị Những thách thức này cũng chính là lí do cho sự ra đời của Graph Neural Network, như là một cách mã hóa thông tin hiệu quả ở các mức khác nhau trong đồ thị
Mô hình Graph Convolution Network (GCN) [6] được đề xuất bởi hai tác giả Thomas N Kipf 4 và Max Welling 4 cùng các cộng sự qua bài báo Semi-Supervised Classification with Graph Convolutional Networks năm 2017 tại hội nghị ICLR
Nội dung chính của bài báo xoay quanh về mô hình tổng hợp vector đặc trưng cho các đỉnh của đồ thị, lấy ý tưởng từ mô hình GNN truyền thống với cơ sở là cơ chế truyền thông điệp Các tác giả xây dựng một hệ thống mô tả lại quá trình hình thành nên vector đặc trưng thông qua các phép biến đổi, gọi là các tầng (layer) tương tự như mạng nơ ron hay mạng tích chập thường thấy, đó là lí do mô hình được đặt tên là Graph Convolution Network Trong bài báo, tác giả biểu diễn đồ thị dưới dạng ma trận kề, các phép biến đổi hoàn toàn dựa trên các tính toán liên quan đến ma trận nhằm hiện thực quá trình tổng hợp đặc trưng
Dưới đây là một số nhận xét về mô hình GCN như sau:
Trong báo cáo của mình, nhóm tác giả đưa ra cài đặt cho mô hình và triển khai các thí nghiệm trên nhiều tập dữ liệu Các kết quả thu được rất khả quan và có phần vượt trội trong bài toán phân loại đỉnh (Node
Tuy nhiên bên cạnh đó, cách biểu diễn và hiện thực dưới dạng ma trận như trong bài báo, khi cập nhật trọng số W đòi hỏi phải đưa toàn bộ ma
31 trận kề A vào trong mô hình Điều này trở nên khó khăn nếu như số lượng đỉnh của đồ thị là rất lớn và gần như không thể thực hiện được
Hướng xử lý chính của mô hình đang tập trung ở mức đỉnh, chưa quan tâm thông tin của các cạnh (ma trận kề A hiện chưa có trọng số)
Trong bài báo, tác giả cũng xác định rằng khi một đỉnh mới được thêm vào đồ thị, mô hình chưa có khả năng tổng quát hóa cao và bắt buộc phải thực hiện huấn luyện lại toàn bộ quá trình
CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN
CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN
Định nghĩa vấn đề cho các nghiên cứu liên quan
Trước khi trình bày về các kỹ thuật và nghiên cứu liên quan đến việc xây dựng một hệ thống dự đoán giá cổ phiếu, tác giả xin được phát biểu lại bài toán dự đoán xu hướng giá cổ phiếu như sau: Dữ liệu đầu vào: Tập S chứa các cổ phiếu mục tiêu mà chúng ta muốn dự đoán Tập {Xst}|s ∈ S; t ∈ T Chứa các vector đặc trưng tóm tắt giá cổ phiếu lịch sử, với T là tập các ngày huấn luyện có sẵn Vector đặc trưng này bao gồm thông tin về giá mở cửa, giá cao nhất, giá thấp nhất và giá đóng cửa của mỗi cổ phiếu Tập E chứa các tweet, mỗi tweet đều đề cập ít nhất một cổ phiếu trong tập S [1]
Mục tiêu: Dự đoán sự biến động giá của cổ phiếu vào ngày T+1
Thông tin sử dụng: Sử dụng các đặc trưng và tweet cho đến ngày T để thực hiện dự đoán
Với cách phát biểu trên và hàng loạt các bài báo đã giải quyết vấn đề này bằng các cách hướng tiếp cận khác nhau Các đánh giá khác nhau đối với từng phương pháp và cũng như ưu điểm và nhược điểm của các phương pháp Các bài toán được xây dựng dựa trên các phương pháp như sau:
Tìm hiểu bài toán dự đoán xu hướng và giá cổ phiếu nói chung
Tập trung giải quyết bài toán về dự đoán xu hướng hoặc giá cổ phiếu, tìm hiểu các phương pháp tiếp cận hiện có từ các công trình đã công bố trước đó
Sử dụng các dữ liệu đã thu thập để tập trung phân tích và khai thác thông tin từ các dữ liệu này
Tìm hiểu về mô hình dự đoán giá dựa trên và các mô hình khác để cải thiện và thiết kế mô hình phù hợp
Triển khai mô hình đã xây dựng trên tập dữ liệu đã có được tổng hợp từ nhiều nguồn
CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN
So sánh và đánh giá kết quả so với các mô hình truyền thống
Taxonomy các kĩ thuật sử dụng cho bài toán dự đoán giá/ xu hướng cổ phiếu
Các kỹ thuật của nhóm dự đoán giá cổ phiếu có 3 nhóm chính: Graph Base model, LLM Model Feature Base Trong đó các kỹ thuật sử dụng Graph cho thấy được mối liên hệ tương quan giữa các yếu tố với nhau Đối với phương pháp sử dụng LLM các kỹ thuật dựa trên mô hình này gồm các phương pháp turning và promtp để đưa ra các dự đoán dựa vào lượng dữ liệu lớn và mô hình khái quát hóa dựa trên ngôn ngữ Các phương pháp khác như sử dụng linear models, neural network model bao gồm CNN và RNN - LSTM sử được nghiên cứu và áp dụng nhiều nhất bởi các phương pháp này có hướng tiếp cận tổng quát rút trích được các đặc trưng từ quá khứ nhờ đó dự đoán được các mô hình trong tương lai Ngoài ra còn có các phương pháp như Tree-base Model có khả năng tương thích khá tốt với sự biến động cao của thị trường chứng khoán Còn phải kể đến các phương pháp khác như học không giám sát như (PCA hay clustering) cũng được ứng dụng để phân tích các đặc trưng giá trị và gộp các nhóm cổ phiếu lại nhờ đó tăng khả năng dự đoán xu hướng cho phương pháp Hơn nưa các phương pháp Reinforcement learning models còn được đưa ra để bổ sung vào quá trình thực hiện lệnh sau khi đã dự đoán được tình hình cổ phiếu nhưng hiện tại
CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN
34 phạm vi bài toán này sẽ không tập trung vào vấn đề này chỉ tập trung vào việc dự đoán giá hoặc xu hướng của cổ phiếu.
Phương pháp sử dụng Linear Model và Tree-Base Model Random-forest
Dựa trên bài báo "Algorithmic Trading Strategy Based On Massive Data
Mining" khi xem xét các mô hình máy học, xem xét cả các phương pháp hồi quy và phân loại, và triển khai nhiều thuật toán học có giám sát Để nắm bắt bản của thị trường tài chính, tác giả đã thiết kế cẩn thận các quy trình kiểm thử ngoại vi và chéo kiểm thử để đảm bảo rằng kết quả kiểm thử lịch sử của của tác giả là hợp lý và có thể đạt được trên thị trường thực tế
Các phương pháp này chủ yếu thực hiện dựa trên các đặc trưng của giá cổ phiếu và thực hiện các phương pháp như SVM hoặc RandomForest Để đơn giản, tác giả trước tiên thử các mô hình tuyến tính: hồi quy logistic là mô hình phân loại và hồi quy tuyến tính là mô hình hồi quy Sau đó, kiển khai mô hình SVM kết hợp để khám phá các quy luật phi tuyến bằng cách sử dụng kernel Trước khi đưa vào mô hình, tác giả đã chuẩn hóa các đặc trưng về giá trị trung bình là 0 và độ lệch chuẩn là 1 Tuy nhiên mô hình của tác giả sẽ là động thay vì cố định như thông thương Cụ thể, quy trình đào tạo và kiểm thử mô hình của tác giả được thực hiện như sau:
Xác định tham số cửa sổ đào tạo W
Để dự đoán hiệu suất của cổ phiếu vào ngày Ti, sử dụng mẫu trong Ti - 1, Ti
- 2, Ti - 3, , Ti - W như tập huấn luyện để đào tạo mô hình
Kết quả thu được các mô hình tuyến tính hoạt động khá tốt Thực tế, từ đồ thị lợi nhuận của danh mục, chúng ta có thể thấy rằng mô hình phân loại tuyến tính và mô hình hồi quy tuyến tính đưa ra kết quả tương tự Phương pháp hồi quy và phân loại đều có thể nắm bắt được các quy luật cơ bản
Trong khi đó SVM không hoạt động đủ tốt Một lý do có thể là với dữ liệu vô cùng nhiễu sóng này, các mô hình tuyến tính đơn giản có thể hoạt động tốt hơn Hiệu suất của bộ phân loại SVM đặc biệt kém Một lý do có thể là "độ tin cậy" của phân
CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN
35 loại, hay nói cách khác, hàm quyết định mà bài toán sắp xếp như một chỉ báo cho thành công tiềm năng không có nhiều ý nghĩa trong trường hợp phi tuyến tính Việc sử dụng nhiều dữ liệu để đào tạo mô hình hàng ngày có thể cải thiện hiệu suất của SVM, nhưng chi phí tính toán sẽ tăng đáng kể vì chúng ta đào tạo lại mô hình cho mỗi ngày giao dịch
Với phương pháp random-forest [2] bài báo sử dụng các feature được trích xuất từ các công cụ phân tích kỹ thuật đề làm đầu vào cho mạng với mã giả được cung cấp từ bài báo như sau:
Mã giả cho phương pháp sử dụng random forest
Tương tự bài toán sử dụng phương pháp random forest để dự đoán giá tăng hay giảm trong các ngày kế tiếp nhưng không tập trung xác định giá cụ thể
Với các phương pháp tuyến tính và sử dung Tree-Base model các mô hình này có khả năng khái quát khá tốt tình hình thị trường và đưa ra các dự đoán về xu hướng tốt Nhưng mặc dù vậy đối với các cổ phiếu có biến động lớn và đối với các dự đoán xa hơn các dự đoán này khả năng không có khả năng khái quát cần thiết phải điều chỉnh liên tục để phù hợp với xu hướng của thị trường tại thời diểm đó
Ngoài ra đối với các bài toán liên quan đến chuỗi thời gian có các tính chất như là chuỗi dừng thì mô hình sử dụng phương pháp ARIMA (AutoRegressive Integrated Moving Average) được thiết kế để mô hình hóa và dự đoán các chuỗi thời gian Đây là một phương pháp thống kê cổ điển và có những điều kiện quan trọng cần phải thỏa mãn:
CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN
36 ARIMA yêu cầu chuỗi thời gian phải là dữ liệu không có xu hướng và phương sai không đổi qua thời gian (tích phân cấp độ ít nhất một) Điều này có thể đạt được bằng cách thực hiện các bước tích phân đối với dữ liệu nếu cần thiết
AutoRegressive (AR) term (Mô hình tự hồi quy): Để xác định số lượng lags (khoảng cách thời gian trước đó) cần tính trong mô hình tự hồi quy, cần kiểm định và chọn giá trị phù hợp Sử dụng hàm tự tương quan (ACF - AutoCorrelation Function) để giúp xác định Moving Average (MA) term (Mô hình trung bình động): Xác định số lượng lags cần tính trong mô hình trung bình động bằng cách sử dụng hàm tự tương quan của phần dư (PACF - Partial AutoCorrelation Function)
Nếu có xu hướng theo mùa vụ, cần xác định chu kỳ mùa vụ và thêm các thành phần mùa vụ vào mô hình (ARIMA có thể được mở rộng thành SARIMA để xử lý mùa vụ)
Residuals (Phần dư): Phần dư của mô hình ARIMA cần phải là một chuỗi thời gian không có xu hướng và không có mô hình tự hồi quy hoặc trung bình động
Trước khi áp dụng ARIMA, quá trình kiểm tra và chọn mô hình phù hợp là quan trọng để đảm bảo rằng điều kiện cần thiết được đáp ứng Điều này thường liên quan đến việc sử dụng các kỹ thuật như kiểm định Dickey-Fuller để kiểm tra tích phân và xác định số lượng lags cho các thành phần AR và MA
Một số nghiên cứu đã áp dụng mô hình kết hợp ARIMA để trước hết loại bỏ tính tuyến tính trong bước mô hình hóa ARIMA, sau đó dự đoán các xu hướng phi tuyến tính trong Kết quả thử nghiệm cho thấy rằng mô hình kết hợp ARIMA thực sự hiệu quả hơn nhiều so với các mô hình tài chính tương đương khác Hiệu suất mô hình được xác nhận trên cả các khoảng thời gian khác nhau và các kết hợp khác nhau của tài sản với các thước đo khác nhau như MSE, RMSE và MAE Các giá trị gần như giảm một nửa so với mô hình Correlation Constant, mà trong thử nghiệm của khác, cho thấy hiệu suất tốt nhất giữa bốn mô hình tài chính
CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN
Phương pháp sử dụng các mô hình Neural Network - kiến trúc Recurrent
Trong các phương pháp sử dụng thì sử dụng RNN trong dự đoán cổ phiếu có rất nhiều ưu điểm bao gồm việc xử lý dữ liệu chuỗi thời gian trong đó RNN có khả năng mô hình hóa mối quan hệ phức tạp và phi tuyến giữa các biến đầu vào, giúp nắm bắt được các xy hướng và biến động trong dữ liệu cổ phiếu Nhưng với các điểm hạn chế trong RNN như khả năng mất mát thông tin trong quá trình huấn luyện làm cho mô hình RNN dễ bị mất đạo hàm, thêm nữa đối với các xu hướng dài hạn trong dữ liệu thì RNN có thế gặp khó khăn khi cố gắng mô hình hóa các xu hướng
Mô hình RNN Đồng thời các nhược điểm khác như khi thị trường chưa đựng nhiều nhiễu và sự chậm trễ, RNN có thể không linh hoạt đủ để đối mặt với những biến động trong thị trường Do đó phiên bản nâng cấp của của RNN là LSTM có các ưu điểm như ngăn
CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN
38 chặn vanishing Gradient mà RNN thường gặp phải nhờ vào cơ chế cổng trong kiến trúc của nó
Chính vì vậy mà một số tác giả sử dụng phương pháp LSTM và Bi-LSTM để dự đoán giá cổ phiếu như [3]
Mô hình LSTM và Bi-LSTM
Mô hình Long Short-Term Memory (LSTM) là một loại mô hình mạng nơ-ron thuộc họ mô hình RNN (Recurrent Neural Networks) Mục tiêu chính của LSTM là giải quyết vấn đề biến mất gradient, một vấn đề phổ biến khi huấn luyện các mô hình RNN truyền thống, đặc biệt là khi xử lý dữ liệu chuỗi dài
Dưới đây là mô tả sơ bộ về cấu trúc của mô hình LSTM:
Cell State (Trạng thái ô): Là một dạng bộ nhớ dài hạn và duy trì thông tin qua toàn bộ chuỗi đầu vào Điều này giúp LSTM giải quyết vấn đề biến mất gradient bằng cách giữ thông tin từ những bước trước đó
Hidden State (Trạng thái ẩn): Là trạng thái tạm thời được tạo ra từ trạng thái ô và chứa thông tin cần thiết cho việc dự đoán tại thời điểm hiện tại
Cổng Quên (Forget Gate): Xác định thông tin nào sẽ được loại bỏ hoặc giữ lại từ trạng thái ô trước đó
Cổng Đầu Vào (Input Gate): Xác định thông tin mới nào sẽ được thêm vào trạng thái ô
Cổng Đầu Ra (Output Gate): Quyết định trạng thái ẩn mới sẽ làm thế nào ảnh hưởng đến đầu ra của mô hình
CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN
39 Quy trình hoạt động của mô hình LSTM như sau:
Tại mỗi bước thời gian, mô hình nhận đầu vào và trạng thái trước đó
Sử dụng cổng quên, cổng đầu vào và cổng đầu ra để cập nhật trạng thái ô và trạng thái ẩn Trạng thái ẩn tại bước thời gian hiện tại sẽ trở thành đầu vào cho bước thời gian tiếp theo
Mô hình LSTM thường được sử dụng trong các ứng dụng đòi hỏi xử lý dữ liệu chuỗi, như dự đoán chuỗi thời gian, xử lý ngôn ngữ tự nhiên, và nhiều ứng dụng khác trong lĩnh vực trí tuệ nhân tạo và học máy
Dựa trên mô hình LSTM và kết hợp với các phương pháp attention LSTM (ALSTM) làm phương pháp dự đoán chính bổ sung các phương pháp phụ khác để lấy được các thông tin toàn cục nhờ đó tăng khả năng dự đoán cho mô hình Đồng thời tác giả cũng bổ sung các thông tin từ các kênh xã hội như tweets để bổ sung và các đặc trưng đầu vào
Cấu trúc tổng thể của SLOT [1]
CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN
Phương pháp dựa trên CNN cho dữ liệu chuỗi thời gian
Trong cuốn “ML for Trading - 2nd Edition” tác giả đã sử dụng phương pháp CNN để thực hiện dự đoán xu hướng cổ phiếu
Trong phần này, chúng ta đã tìm hiểu về Convolutional Neural Networks (CNNs) và cách chúng tương tự với mạng nơ-ron truyền thẳng CNNs được chủ yếu sử dụng cho việc phân loại hình ảnh và nhận diện đối tượng, với mỗi đơn vị trong mạng thực hiện phép toán tuyến tính và sau đó là một biến đổi phi tuyến Các tham số như trọng số và độ lệch được điều chỉnh trong quá trình huấn luyện để tối ưu hóa đầu ra cho một đầu vào nhất định dựa trên hàm mất mát
CNNs giả định rằng dữ liệu có một cấu trúc lưới giống như lưới và cấu trúc cục bộ quan trọng Điều này phù hợp cho việc xử lý hình ảnh, nơi các pixel tạo thành một lưới hai chiều CNNs sử dụng phép toán tích chập và pooling để học các đặc trưng cục bộ, giảm số lượng tham số và tăng hiệu suất tính toán Đặc biệt, phép toán tích chập là yếu tố quan trọng nhất, giúp mô hình giả định về cấu trúc lưới Không chỉ dành cho hình ảnh, CNNs cũng được mở rộng để xử lý dữ liệu chuỗi thời gian và âm thanh, nơi chúng có thể phân tích cấu trúc lưới theo trục thời gian hoặc tần số Điều này đã mở ra nhiều ứng dụng mới và mở rộng hiệu suất của CNNs vào các lĩnh vực khác ngoài thị giác máy tính
Phần này cũng đề cập đến sự tiến bộ trong thiết kế kiến trúc của CNNs và cách chúng đã đạt được cải thiện đáng kể trong hiệu suất qua thời gian Sự phổ biến của CNNs không chỉ trong thị giác máy tính mà còn trong nhiều ứng dụng khác, từ xử lý hình ảnh và âm thanh đến dữ liệu chuỗi thời gian
Thông tin chung và bố cục hai chiều cho chuỗi thời gian [5]
CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN
41 Bảng phải trong Hình 2.6 vẽ ra lưới đặc trưng hai chiều kích thước 15 x 15 mà tác giả sẽ đưa vào mô hình CNN của mình Như đã thảo luận trong phần đầu của chương này, CNN dựa vào sự cục bộ của các mẫu quan trọng thường được tìm thấy trong hình ảnh, nơi các pixel gần nhau thường có mối quan hệ chặt chẽ và thay đổi từ một pixel sang pixel tiếp theo thường diễn ra một cách dần dần Để tổ chức các chỉ số theo cách tương tự, tác giả sẽ tuân thủ phương pháp gom cụm phân cấp của Sezer và Ozbayoglu Mục tiêu là xác định các đặc trưng có hành vi tương tự và sắp xếp cột và hàng của lưới tương ứng
Dendrogram cho các đặc trưng hàng và cột
Dường như CNN có khả năng rút trích thông tin có ý nghĩa từ chuỗi thời gian của các đặc trưng được chuyển đổi thành một lưới hai chiều Thử nghiệm với các kiến trúc khác nhau và các tham số huấn luyện cho thấy kết quả không rất ổn định và các sửa đổi nhỏ có thể dẫn đến hiệu suất tồi tệ đáng kể
Các nỗ lực điều chỉnh cũng làm nổi bật những khó khăn đáng kể trong việc huấn luyện thành công một mạng nơ-ron sâu, đặc biệt là khi tỷ lệ tín hiệu đến nhiễu thấp: một mạng quá phức tạp hoặc tối ưu hóa sai có thể dẫn mạng CNN đến một cực tiểu cục bộ nơi nó luôn dự đoán một giá trị không đổi
Bước quan trọng nhất để cải thiện kết quả và đạt được hiệu suất gần với tác giả (sử dụng kết quả khác nhau) sẽ là xem xét lại các đặc trưng Có nhiều phương án khác nhau cho các khoảng thời gian khác nhau của một tập hợp hạn chế các chỉ số kỹ thuật Bất kỳ số lượng đặc trưng chuỗi thời gian phù hợp nào cũng có thể được sắp xếp dưới dạng một định dạng hình chữ nhật n×m và từ khả năng của CNN để học các mô hình cục bộ Sự chọn lựa của n chỉ số và m khoảng thời gian chỉ làm cho việc sắp xếp hàng và cột của lưới hai chiều trở nên dễ dàng hơn
CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN
42 Tóm lại, trong phần này, tác giả giới thiệu về CNNs, một kiến trúc NN chuyên biệt đã lấy cảm hứng từ sự hiểu biết của chúng ta về thị giác của con người và hoạt động đặc biệt hiệu quả trên dữ liệu dạng lưới Tác giả đề cập đến phép toán trung tâm là tích chập hoặc tương quan chéo làm nổi bật đặc trưng do các bộ lọc tạo ra từ đó phát hiện các đặc trưng hữu ích để giải quyết nhiệm vụ cụ thể.
Phương pháp dựa trên Graph Base Model
Mô hình mạng nơ-ron đồ thị (GNN) được giới thiệu lần đầu vào năm 2008 [5] Việc sử dụng rộng rãi của biểu diễn đồ thị thúc đẩy nghiên cứu về GNN Mô hình GNN là một phiên bản mở rộng của các phương pháp mạng nơ-ron hiện tại, cho phép mô hình xử lý dữ liệu trong lĩnh vực đồ thị Hiện nay, GNN đã được mở rộng thêm thành các mô hình cụ thể hơn như mạng nơ-ron tích chập đồ thị, Attention Graph, v.v Lựa chọn loại đồ thị (đồ thị có hướng, đồ thị có trọng số, v.v.) nên định hình lựa chọn của mô hình GNN Đồ thị có thể được tạo ra theo nhiều cách khác nhau Để định nghĩa một đồ thị thị trường chứng khoán, chúng ta nên xác định những đỉnh và cạnh đại diện cho cái gì Trong trường hợp của chúng ta, các đỉnh (hoặc nút) là các cổ phiếu được chọn, và các cạnh là khu vực dự định Vì chúng ta muốn sử dụng đồ thị để hỗ trợ trong việc dự đoán, định nghĩa của các cạnh có thể có các ảnh hưởng khác nhau đối với dự đoán Đồ thị dựa trên ngành hoặc ngành công nghiệp nhị phân là đồ thị đơn giản nhất, trong đó các cạnh giữa các cổ phiếu đại diện cho việc cổ phiếu thuộc cùng một ngành hoặc ngành công nghiệp hay không Hơn nữa, tác giả đã cố gắng bao gồm các đồ thị phức tạp hơn chứa nhiều thông tin ý nghĩa hơn
CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN
43 Cấu trúc của Multi-graph GCN
So với mô hình GCN thông thường chỉ sử dụng một đồ thị làm đầu vào, sự kết hợp của nhiều đồ thị có thể cung cấp cho mô hình thông tin nhiều hơn Với sự giúp đỡ của nhiều đồ thị, tác giả mong đợi có thể vượt qua mô hình GCN truyền thống theo kết quả
Một số bài toán khác được kết hợp với các mô hình nhúng giá cổ phiếu và các thông tin từ mạng xã hội từ đó có khả năng dự đoán và nhạy cảm hơn với các sự kiện của thị trường.
Tổng quan về MAN-SF: Cơ chế mã hóa, Cơ chế GAT, Tối ưu hóa Chung
CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN
Phương pháp dựa trên LLM (Large Language Model)
"Large Language Model" (LLM) là thuật ngữ dùng để mô tả các mô hình ngôn ngữ có kích thước lớn và khả năng xử lý ngôn ngữ tự nhiên (NLP) mạnh mẽ Các mô hình ngôn ngữ lớn này được đào tạo trên dữ liệu lớn và có hàng triệu hoặc thậm chí hàng tỷ tham số
Một số ví dụ về các Large Language Models nổi tiếng bao gồm:
GPT (Generative Pre-trained Transformer): GPT là một chuỗi các mô hình do OpenAI phát triển, như GPT-3 Được xây dựng trên kiến trúc Transformer, GPT-3 có số lượng tham số lớn và có khả năng thực hiện nhiều nhiệm vụ NLP khác nhau
BERT (Bidirectional Encoder Representations from Transformers): BERT, do Google phát triển, cũng là một mô hình ngôn ngữ lớn Nó được đào tạo để hiểu ngữ cảnh của từng từ trong một câu thông qua kiến trúc Transformer và đã đạt được hiệu suất cao trên nhiều bài kiểm tra NLP
XLNet: Một mô hình ngôn ngữ lớn khác dựa trên kiến trúc Transformer Nó sử dụng một kỹ thuật gọi là "permutation language modeling" để cải thiện khả năng hiểu ngữ cảnh
Các Large Language Models như vậy thường được sử dụng cho nhiều ứng dụng, bao gồm dịch máy, tóm tắt văn bản, trả lời câu hỏi, và nhiều tác vụ NLP khác Tuy nhiên, cũng có những thách thức và lo ngại liên quan đến độ tin cậy, ứng dụng công bằng, và an ninh khi triển khai các mô hình ngôn ngữ lớn này
Có hai phương pháp chính được sử dụng để tương tác với mô hình ngôn ngữ lớn như GPT-3: "Prompt Engineering" (Kỹ thuật Prompt) và "Fine-Tuning" (Điều chỉnh Tốt)
Prompt Engineering (Kỹ Thuật Prompt): o Mô Tả: Phương pháp này tập trung vào cách bạn đặt câu hỏi hoặc yêu cầu để thu được kết quả mong muốn Bạn cố gắng sử dụng các prompt (đoạn văn, câu hỏi, hoặc mô tả) một cách chi tiết để mô hình hiểu rõ yêu cầu của bạn
CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN
45 o Ưu Điểm: Linh hoạt và dễ triển khai Không yêu cầu quá trình đào tạo lại mô hình o Nhược Điểm: Đôi khi cần phải thử nghiệm nhiều prompt để đạt được kết quả tốt Có thể gặp hiểu lầm hoặc đầu ra không chính xác nếu prompt không rõ ràng
Fine-Tuning (Điều Chỉnh Tốt): o Mô Tả: Phương pháp này liên quan đến việc đào tạo lại mô hình trên một lượng nhỏ dữ liệu tùy chỉnh để tối ưu hóa cho một ứng dụng hoặc lĩnh vực cụ thể o Ưu Điểm: Cung cấp sự tùy chỉnh cao cho một ứng dụng cụ thể Có thể tăng độ chính xác và độ tin cậy o Nhược Điểm: Đòi hỏi một lượng dữ liệu đào tạo tương đối lớn và tài nguyên tính toán Cần kiến thức chuyên sâu về quá trình đào tạo mô hình
Cả hai phương pháp đều có ưu và nhược điểm của mình Việc lựa chọn giữa prompt engineering và fine-tuning phụ thuộc vào yêu cầu cụ thể của ứng dụng và tài nguyên có sẵn Một số ứng dụng có thể sử dụng cả hai phương pháp để đạt được hiệu suất tốt nhất
Bài báo này đã trình bày một nghiên cứu toàn diện về ứng dụng của ChatGPT cho dự đoán giá cổ phiếu đa dạng mô phỏng không cần dữ liệu đào tạo Tác giả đã nghiên cứu hiệu suất của ChatGPT trên ba bộ dữ liệu thử nghiệm và so sánh nó với các mô hình cơ sở để trả lời một số câu hỏi nghiên cứu liên quan đến tính hiệu quả, chiến lược gợi ý, và khả năng giải thích của ChatGPT trong ngữ cảnh dự đoán giá cổ phiếu Các kết quả của tác giả chỉ ra rằng, trong khi ChatGPT thể hiện một số tiềm năng trong lĩnh vực này, nó lại kém hiệu suất so với thậm chí các phương pháp truyền thống như hồi quy logistic và rừng ngẫu nhiên Điều này làm nổi bật những thách thức của việc sử dụng các mô hình ngôn ngữ lớn trong các nhiệm vụ tài chính phức tạp và làm nổi bật sự cần thiết của nghiên cứu và phát triển tiếp theo Tác giả cũng đã thăm dò các chiến lược khác nhau cho việc gợi ý và tích hợp thông tin tâm trạng của nhà đầu tư, để
CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN
46 hiểu rõ hơn cách hướng dẫn ChatGPT trong các nhiệm vụ dự đoán giá cổ phiếu đa dạng mô phỏng Nghiên cứu của tác giả chỉ ra rằng ChatGPT với chiến lược gợi ý CoT có thể mang lại dự đoán có tính giải thích hơn, điều này quan trọng trong các nhiệm vụ liên quan đến tài chính để hỗ trợ ra quyết định và tăng tính minh bạch Mặc dù có tiềm năng về khả năng giải thích, ChatGPT đối mặt với những thách thức về hiệu suất dự đoán do khả năng tích hợp thông tin đa dạng mô phỏng không hiệu quả Bằng cách đánh giá kỹ lưỡng khả năng của ChatGPT và khám phá các chiến lược gợi ý khác nhau trong một cài đặt không cần dữ liệu đào tạo, nghiên cứu của tác giả giúp hiểu rõ về những hạn chế và tiến bộ của các mô hình ngôn ngữ lớn trong các nhiệm vụ dự đoán giá cổ phiếu đa dạng mô phỏng Tác giả tin rằng nghiên cứu tương lai nên tập trung vào phát triển phương pháp để vượt qua những thách thức này và nâng cao hiệu suất cũng như tính ổn định của ChatGPT
DỮ LIỆU NGHIÊN CỨU
Thông tin về bộ dữ liệu
Bộ dữ liệu chứa thông tin về 50 cổ phiếu bao gồm giá cổ phiếu và tin tức
Dựa vào thông tin mô tả, bộ dữ liệu cho PM có 436 mẫu và 14 cột Dưới đây là một số điểm chính từ phân tích:
Loại dữ liệu của các cột: Dữ liệu kiểu ngày (date), Dữ liệu số thực
Thông tin về các cột:
Tất cả các cột đều có 436 giá trị, không có giá trị thiếu
Có một số cột như label có kiểu dữ liệu là số nguyên (int64)
Các giá trị trung bình và độ lệch chuẩn của các cột số thực khác nhau
Cột label có giá trị nằm trong khoảng [-1, 0, 1]
Cột closing_price_for_label có giá trị trung bình khoảng 80.45 với độ lệch chuẩn là 5.42
Dữ liệu duy nhất: Cột date có 436 giá trị duy nhất, không có trùng lặp, Các cột số thực có số lượng giá trị duy nhất khác nhau
Tóm tắt mẫu dữ liệu:
Các mẫu dữ liệu hiển thị các giá trị của các cột như date, c_open, c_high, , closing_price_for_label
Dữ liệu có vẻ đầy đủ và không có vấn đề nổi bật với dữ liệu thiếu hay lệch lạc Đây là một bước quan trọng để hiểu và chuẩn bị dữ liệu trước khi áp dụng mô hình dự đoán giá cổ phiếu
Các đặc điểm khác của dữ liệu:
Trong trường hợp của data set https://github.com/deeptrade-public/slot, các đặc điểm của data set bao gồm:
48 Thông tin về cổ phiếu:
- Mã cổ phiếu: AAP, ABB, ABB, AEP, AGF, AMG, AMZ, BA., BAB, BAC, BBL, BCH, BHP, BP., BRK, BSA, BUD, C.c, CAT, CEL, CHL, CHT, CMC, COD, CSC, CVX, D.c, DHR, DIS, DUK, EXC, FB., GD., GE., GOO, HD., HON, HRG, HSB, IEP, INT, JNJ, KO., LMT, MA., MCD, MDT, MMM, MO., MRK, MSF, NEE, NGG, NVS, ORC, PCG, PCL, PEP, PFE, PG., PIC, PPL, PTR, RDS, REX, SLB, SNP, SNY, SO., SPL, SRE, T.c, tex, TM., TOT, TSM, UL., UN., UNH, UPS, UTX, V.c, VZ., WFC, WMT, XOM
- Tương ứng với các tên cổ phiếu như sau:
Danh sách tên các cổ phiếu trong dữ liệu
- Ngành công nghiệp: dưới đây là cách phân loại các ngành công nghiệp của các cổ phiếu trên: o Công nghệ: Apple, Alphabet, Amazon, Microsoft, Nvidia, TSMC o Tài chính: Bank of America, Citigroup, Goldman Sachs, Morgan Stanley, Wells Fargo o Sức khỏe: Johnson & Johnson, Merck, Pfizer, UnitedHealth Group o Năng lượng: Exxon Mobil, Chevron, BP, Royal Dutch Shell o Tiêu dùng: Coca-Cola, PepsiCo, Procter & Gamble, Unilever o Bất động sản: AT&T, Verizon
49 o Dịch vụ: Home Depot, McDonald's, Walmart o Công nghiệp: Boeing, Caterpillar, General Electric, Honeywell, 3M o Khác: Alibaba, Berkshire Hathaway, Bitcoin Cash, Danaher, Schlumberger
Cách phân loại này dựa trên mã ngành của các công ty theo S&P Global Tuy nhiên, một số mã ngành có thể bao gồm nhiều công ty thuộc các ngành khác nhau Ví dụ, mã ngành "Information Technology" bao gồm các công ty thuộc lĩnh vực công nghệ thông tin, điện tử tiêu dùng, và phần mềm
Bảng khoảng giá của các nhóm cổ phiếu
Khoảng giá Giá đóng cửa (USD) Số cổ phiếu
Cao (trên 500 USD) 500 - 400,000 USD 3 o Cụ thể, các cổ phiếu thuộc khoảng giá thấp là: ABB, ABB, AEP, AGF, AMZ, BAB, BAC, BBL, BCH, BHP, BP., BSA, BUD, CEL, CMC, COD, CVX, EXC, GOO, IEP, INT, JNJ, LMT, MRK, MSF, NEE, NGG, PCL, PEP, PFE, PPL, REX, SLB, SNP, SNY, SO., tex, UL., UTX, VZ., WFC o Các cổ phiếu thuộc khoảng giá trung bình là: AAP, AMG, BA., C.c, CAT, CHL, CHT, CSC, D.c, DIS, DUK, FB., GD., GE., HON, HRG, HSB, KO., MCD, MDT, MMM, MO., NVS, ORC, PCG, PG., PIC, PTR, RDS, SPL, SRE, T.c, TM., TOT, TSM, UNH, UPS, V.c, WMT, XOM o Các cổ phiếu thuộc khoảng giá cao là: DHR, MA, UN.
Tiền xử lý dữ liệu
Các tiền xử lý dữ liệu được mô tả sơ bộ trong chương này như sau:
Xử lý cột ngày chuyển thành định dạng time
Kiểm tra các giá trị null của dữ liệu
Load các thông tin vào bộ nhớ và kiểm tra khả năng lưu trữ.
Phân tích dữ liệu
Các đặc trưng của cổ phiếu đã được tiền xử lý
Bảng tương quan giữa 5 cổ phiếu (JPM,PPL,ORCL,PCG,BA)
52 Biểu đồ phương sai của mức độ tăng trưởng giá cổ phiếu
MÔ HÌNH ĐỀ XUẤT CHO BÀI TOÁN DỰ ĐOÁN GIÁ CỔ PHIẾU
MÔ HÌNH ĐỀ XUẤT CHO BÀI TOÁN DỰ ĐOÁN GIÁ CỔ PHIẾU 53 5.1 Mô hình hóa bài toán
Kiến trúc sơ bộ mô hình
Về mô tả cấu trúc tổng thể của SLOT và trình bày các ý chính trong mô hình Hình 4 minh họa tổng quan về SLOT, nơi đầu vào là nhúng cổ phiếu và tweet được tạo ra từ việc học tự giám sát SLOT sử dụng Attention LSTM (ALSTM) làm bộ dự đoán chính, đã cho thấy hiệu suất tốt trong các nghiên cứu trước đó về dự đoán biến động giá cổ phiếu [2], [14] Tác giả giả định rằng mỗi cổ phiếu s vào ngày t chứa một đặc trưng giá xst mô tả sự biến động giá của nó cho đến ngày t Sau đó, ALSTM đưa ra dự đoán nhị phân từ các đặc trưng giá của những ngày gần đây và các đặc trưng xu hướng được tạo ra theo cách toàn cầu và cục bộ dựa trên các vectơ nhúng
Cấu trúc tổng thể của SLOT để đưa ra dự đoán yˆst cho cổ phiếu s vào ngày t 5.2.2 Đặc trưng giá cố phiếu:
Bảng 5.1 hiển thị thông tin của đặc trưng Xst cho mỗi cổ phiếu s vào ngày t [7], [8] Giá mở cửa (open), giá cao nhất (high), giá thấp nhất (low) và giá đóng cửa (close) biểu thị giá trong mỗi ngày, tương ứng adj close biểu thị giá đóng cửa đã được điều
MÔ HÌNH ĐỀ XUẤT CHO BÀI TOÁN DỰ ĐOÁN GIÁ CỔ PHIẾU
55 chỉnh để không bị ảnh hưởng bởi các sự kiện chia cổ phiếu Các yếu tố đặc trưng được phân loại thành ba nhóm dựa trên tính chất của chúng:
Sự biến động giá trong một ngày: c open, c high, c low
Sự biến động giá giữa các ngày: n close, n adj close
Sự biến động dài hạn: 5 ngày, 10 ngày, ã ã ã , 30 ngày
Tổng cộng, giá hàng ngày từ ngày t − 29 đến t được sử dụng để tạo ra mỗi vector đặc trưng Xst của ngày t
Vector đặc trưng Xst cho mỗi cổ phiếu s và ngày t Ở đây, w là kích thước cửa sổ của ALSTM, được chọn là một siêu tham số nằm giữa 10 và 15 trong các thí nghiệm bài báo
Tác giả sử dụng ALSTM như là bộ dự đoán chính cho dự đoán chuyển động cổ phiếu So với Transformer [9] hoặc các mô hình mạng nơ-ron tích chập [10] cũng đã được sử dụng cho dự đoán chuỗi thời gian, ALSTM có thể hiệu quả trong việc nắm bắt các mô hình phức tạp thay đổi theo thời gian của giá cổ phiếu bằng cách:
Cập nhật trạng thái ẩn theo thứ tự thời gian
Áp dụng Attention để chọn ra các bước thời gian quan trọng nhất trong lịch sử
Các ý chính của SLOT được thiết kế để cung cấp thông tin bổ sung cho ALSTM từ dữ liệu tweet, thông tin này không thể được nắm bắt từ giá cổ phiếu lịch sử, bằng cách tạo ra một vector đặc trưng đa cấp Xst cho mỗi cổ phiếu s ở ngày t Giả sử chúng ta đã tạo ra một vector xu hướng toàn cục Ot và một vector xu hướng cục bộ Cst cho cổ phiếu s và ngày t từ các đặc trưng giá của tất cả các cổ phiếu và tweet ở ngày t, dựa
MÔ HÌNH ĐỀ XUẤT CHO BÀI TOÁN DỰ ĐOÁN GIÁ CỔ PHIẾU
56 trên kết quả của việc học tự giám sát Nói cách khác, các tweet ở ngày t giúp chúng ta hiểu về mối quan hệ toàn cục và cục bộ giữa các cổ phiếu được hiển thị vào ngày t
Tác giả sử dung hàm mất mát theo (2) để huấn luyện ALSTM được trình bày trong bài báo như sau:
Trong đó θ là tập hợp các tham số có thể học của ALSTM, T là tập các ngày có sẵn trong dữ liệu huấn luyện, S là tập các cổ phiếu mục tiêu, Yst∈{−1,+1} là nhãn nhị phân của cổ phiếu s vào ngày t, và λ là một siêu tham số cho regularization Tác giả sử dụng mất mát "hinge loss" [11], giống như trong công việc trước đó [12] cho dự đoán chuyển động cổ phiếu Lưu ý rằng điểm số thực Y^st được sử dụng trực tiếp trong Phương trình (2), và y^st>0 đại diện cho việc dự đoán giá cổ phiếu đó sẽ tăng
Việc huấn luyện có giám sát của ALSTM được thực hiện riêng biệt so với việc học tự giám sát của các vectơ nhúng
Minh họa quá trình tự giám sát của việc học các vector nhúng
MÔ HÌNH ĐỀ XUẤT CHO BÀI TOÁN DỰ ĐOÁN GIÁ CỔ PHIẾU
57 Dựa trên mô hình tự giám sát mô hình cố gắng tối đa hóa đầu ra cho quá trình tự giám sát của việc học các vector nhúng (Stock embedding matrix)
Lợi ích của việc nhận diện cổ phiếu Tác giả kỳ vọng có hai lợi ích chính từ việc nhúng cổ phiếu và tweet Thứ nhất, chúng có thể được sử dụng xen kẽ trong mô hình chính để dự đoán sự dịch chuyển của cổ phiếu, vì tác làm cho nhúng tweet trở nên tương tự như nhúng cổ phiếu mục tiêu của chúng Điều này được thực hiện bằng cách tối đa hóa tích vô hướng giữa các nhúng trong quá trình huấn luyện Thứ hai, nhúng cổ phiếu truyền đạt thông tin về sự tương đồng giữa các cổ phiếu, vì các cổ phiếu thường được nhắc đến cùng nhau có khả năng có các vectơ nhúng tương tự Do đó các vector nhúng này sẽ có Key là các vector nhúng được tạo ra từ khối stock embeddings Hình 5.2 Điều này là một ưu điểm lớn của phương pháp tự giám sát của tác giả, vì việc bảo tồn sự tương đồng (và sự khác biệt) giữa các thực thể là một yêu cầu quan trọng nhất cho những nhúng tốt giữ nguyên các đặc tính ban đầu của chúng
5.2.6 Các khối trích xuất xu hướng toàn cục và cục bộ
Khối xu hướng toàn cục
Tổng quan về việc tổng hợp toàn cầu của tweet để tạo ra vector xu hướng toàn cầu Ot ở ngày t
MÔ HÌNH ĐỀ XUẤT CHO BÀI TOÁN DỰ ĐOÁN GIÁ CỔ PHIẾU
58 Khối toàn cục được sử dụng để đưa ra các đặc trưng mang tính toàn cục bởi vì các tin tức được đưa ra sẽ đánh giá một cách toàn cục tình trạng của cổ phiếu này
Khối xu hướng cục bộ
Tổng quan về việc tổng hợp tweet cục bộ để tạo ra vector xu hướng cục bộ
Cst cho cổ phiếu s ở ngày t
Các vector đặc trưng sẽ tự sử dụng hàm attention để tự khái quát được xu hướng cục bộ cho cả 2 không gian nhúng cho tweet và giá cả sau đó các vector này được xác định các đặc trưng quan trọng để tạo đầu ra cho xu hướng cục bộ.
Đề xuất 1: Thực hiện dự đoán cho n ngày kế tiếp không dựa vào ground truth: 58 1 Động lực và ý tưởng
Sơ đồ dự đoán không dựa vào ground truth (giá trị thực)
MÔ HÌNH ĐỀ XUẤT CHO BÀI TOÁN DỰ ĐOÁN GIÁ CỔ PHIẾU
59 Để mô hình thực sự có ý nghĩa thực tế bởi vì giá trị của các giá trị của dự đoán quá gần với giá trị thực tế sẽ làm cho việc mua bán hay đánh giá thị trường không còn ý nghĩa lớn, thông thường không có giá trị thực tế khi cần biết tại ngày thứ n
𝑌 𝑠𝑡 = 𝐴𝐿𝑆𝑇𝑀(𝑋 𝑠,𝑡−𝑤+1 , 𝑋 𝑠,𝑡−𝑤+2 , … , 𝑋 𝑠,𝑡−𝑤+3 ) Thay vì yst ∈ {−1, +1} sẽ có output là các đặc trưng sau:
Đề xuất 2
Sử dụng đặc bổ sung đặc trưng giá để dự đoán sát với giá của cổ phiếu tránh các sai số tích lũy khi chỉ sử dụng đặc trưng chênh lệch giá
Kết quả dự đoán dựa trên dự đoán chênh lệch tỉ giá
MÔ HÌNH ĐỀ XUẤT CHO BÀI TOÁN DỰ ĐOÁN GIÁ CỔ PHIẾU
Do đó việc sự đoán gây ra các vấn đề về tích lũy sai số khi cố gắng lấy thông tin về giá của cổ phiếu