Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 20 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
20
Dung lượng
815,89 KB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP HCM KHOA ĐÀO TẠO CHẤT LƯỢNG CAO - BÁO CÁO ĐỒ ÁN Ngành: Công nghệ kỹ thuật máy tính Đề tài: Multi-DQN: an Ensemble of Deep Q-Learning Agents for Stock Market Fore‐ casting SVTH MSSV Võ Chí Vỹ 19119151 TP.HỒ CHÍ MINH - 12/2022 LỜI CẢM ƠN Lời nhóm em xin chân thành cảm ơn Thầy Võ Minh Huân trường Đại học Sư Phạm Kỹ thuật TP.HCM hướng dẫn hỗ trợ nhiệt tình bảo em khắc phục vấn đề đồ án môn học Cảm ơn đến thầy hỗ trợ, giúp đỡ tạo điều kiện cho chúng em suốt trình thực đề tài Kiến thức nhận sau thực kinh nghiệm hành trang quý báu để nhóm chúng em phát triển công việc nghiệp tương lai sau Nhóm em xin chân thành cảm ơn! LỜI NÓI ĐẦU Trong nhiều Trong nhiều năm qua, dự báo thị trường tài thu hút quan tâm cao nhà nghiên cứu nhận dạng mẫu Thông thường, liệu sử dụng để phân tích thị trường, sau đánh cược vào xu hướng tương lai nó, cung cấp dạng chuỗi thời gian Nghiên cứu tốn thời gian, để sử dụng liêu dự đốn xác yếu tố tương lai diễn cần mơ hình DQL (Deep Q – Learning) Viết lại cho đoạn văn hay Để tìm hiểu sâu trí tuệ nhân tạo nói chung kĩ thuật dự đốn huấn luyện mơ hình, chúng em định lựa chọn đề tài:“ Áp dụng Học tăng cường sâu vào Giao dịch thuật toán” Do thời gian hạn hẹp việc thiếu nhiều kĩ xây dựng, hiểu biết mơ hình áp dụng hiểu biết AI, đề tài chúng em cịn nhiều thiếu sót hạn chế Rất mong nhận đóng góp ý kiến thầy để đề tài nhóm chúng em ngày hồn thiện LIỆT KÊ HÌNH Hình 2.1: Sơ đồ khối quy trình training TDQN Hình 2.2: truy xuất liệu từ data có sẵn Hình 2.3: truy xuất hệ số Hình 2.4: chọn action Hình 2.5: training để tối ưu hóa phần thưởng Hình 2.6: Các khối xây dựng cốt lõi học tăng cường Hình 3.1.1: Mơ hình DQL Hình 3.2.1: Mơ hình training Neuron Network giao dịch cổ phiếu Hình 4.1: training hiệu huất Hình 4.2: Thực thi thuật tốn TDQN cho cổ phiếu Hình 4.3: Hiệu suất dự kiến thuật toán TDQN LIỆT KÊ BẢNG Bảng 4.1: đánh giá hiệu suất MỤC LỤC CHƯƠNG 1: DỰ ĐOÁN GIÁ CỔ PHIẾU BẰNG THUẬT TOÁN DEEP Q – LEARNING I Giới thiệu II Phương pháp 1 Các hình thức giao dịch Tối ưu hóa phần thưởng .2 Train DQL (Deep Q – Learning) Kết đánh giá hiệu suất Tổng kết CHƯƠNG 1: DỰ ĐOÁN GIÁ CỔ PHIẾU BẰNG THUẬT TOÁN DEEP Q – LEARNING I Giới thiệu Trong suốt nhiều năm qua, việc dự báo thị trường tài thu hút quan tâm đặc biệt nhà nghiên cứu lĩnh vực nhận dạng mẫu Thông thường, để phân tích thị trường dự đốn xu hướng tương lai, sử dụng liệu chuỗi thời gian Tuy nhiên, tiến hành nghiên cứu nhiều thời gian Vì vậy, để ứng dụng hiệu liệu đưa dự đốn xác yếu tố tương lai, cần sử dụng mơ hình DQL (Deep Q – Learning) II Phương pháp Các hình thức giao dịch Có hình thức giao dịch sau: • Hành động mua bán (long action): Trong hình thức này, người giao dịch mua bán cổ phiếu trước thị trường đóng cửa ngày • Hành động bán mua ngược lại (short action): Đây hình thức giao dịch người giao dịch bán cổ phiếu trước thị trường đóng cửa, sau mua lại vào cuối ngày • Hành động khơng tham gia (opt-out action): Hình thức xảy người giao dịch không thực giao dịch mua hay bán ngày Mục tiêu chiến lược giao dịch tối đa hóa lợi nhuận kinh tế (tức tiền lãi) ngày Để đạt mục tiêu này, người giao dịch dựa giả định xu hướng giá ngày (nghĩa giá tăng giảm) Dựa giả định này, người giao dịch thực hành động mua tin giá tăng hành động bán tin giá giảm Trong trường hợp không đủ tự tin hành vi thị trường cho giá không thay đổi, người giao dịch thực hành động không tham gia (opt-out action) Tối ưu hóa phần thưởng Hình 2.1: Sơ đồ khối quy trình training TDQN Truy xuất liệu Hình 2.2: truy xuất liệu từ data có sẵn Truy xuất hệ số cần thiết cho trình chuẩn hóa H ì n h 2.3: Truy xuất hệ số Chọn action tốt nhất, tối ưu dựa policy RL(Reinforcement learning) Hình 2.4: Chọn action - Để xác định hành động cần áp dụng RL(Reinforcement learning) giao dịch Các định mua, bán không giao dịch biểu diễn dạng số (-1, 0, 1) - Sau xác định tối ưu phần thưởng từ định nghĩa đây: - Tham số γ hệ số chiết khấu (γ ∈ [0, 1]) Nó định tầm quan trọng phần thưởng tương lai Chẳng hạn, γ = 0, tác nhân RL cho cận thị xem xét phần thưởng loại bỏ hoàn toàn phần thưởng tương lai Khi hệ số chiết khấu tăng, tác nhân RL có xu hướng trở nên định hướng dài hạn Trong trường hợp cực đoan γ = 1, tác nhân RL xem xét phần thưởng Thông số quan trọng nên điều chỉnh Hình 2.5: Các khối xây dựng cốt lõi học tăng cường Train DQL (Deep Q – Learning) 3.1 Tổng quan DQL (Deep Q – Learning) Hình 3.1.1: Mơ hình DQL Đưa vào mạng state s lấy giá trị Q-value actions tương ứng Tác nhân chọn action sách thực action Mơi trường trả lại state s' phần thưởng r kết action a lưu experience tuple [s, a, r, s'] vào memory Thực lấy mẫu trải nghiệm thành vài batches tiến hành train mạng neuron Lặp lại đến kết thúc M episodes - Vì liệu đầu vào lớn nên train hết lần dẫn đến tình trạng overfitting, để xử lí vấn đề thay lần update states vào nhớ (memory) ta nên chia liệu thành minibatch nhỏ trình huấn luyện giúp tránh overfitting cải thiện khả tổng qt hóa mơ hình 3.2 Mơ hình Neuron Network (NN) Hình 3.2.1: - Mơ hình training Neuron Network giao dịch cổ phiếu Tuy nhiên mục đích ta bắt mạng neuron network học cách ước lượng Q-Value cho actions cách xác nên đương nhiên hàm Loss phải tính sai số Q-value thực tế dự đốn Hình 3.2.2: Tính sai số hàm Loss Tách riêng thuật toán Buy and Hold Hình : Hàm chọn hành động cho chiến lược Buy and Hold - Hàm chọn hành động cho chiến lược Buy and Hold, kết trả luôn nghĩa mua vào cổ phiếu Hình : Tính tốn thơng số cập nhật hành động cho thuật toán - Thuật toán rơi vào trường hợp b từ chưa thực hành động đến thực hành động mua vào lần giữ qua thời gian không bán Ta tính tốn số lượng cổ phiếu, tiền mặt, số cổ phiếu nắm giữ cập nhật hành động Bảng : Đánh giá hiệu suất chiến lược Buy and Hold Hình : Thực thi thuật tốn Buy and Hold cho cổ phiếu Tách riêng thuật toán TDQN Với tổng số tiền ban đầu 100000 sau thực giao dịch theo thuật tốn TDQN tổng số tiền lúc sau 316269, ta thấy sau thực giao dịch thu lợi nhuận 216269 - Nhận xét: Thuật toán TDQN đạt kết tốt giảm thiểu rủi ro, vượt trội so với tất chiến lược giao dịch chủ động thụ động chuẩn thấy chiến lược giao dịch DRL có khả phát xác hưởng lợi từ xu hướng chính, agent giao dịch thường chậm chút so với xu hướng thị trường, nghĩa thuật toán TDQN học cách phản ứng chủ động cổ phiếu cụ thể Cho nên RL định điều chỉnh giao dịch vị trí trước đảo ngược xu hướng cách nhận thấy gia tăng biến động, dự đốn chủ động Viết riêng thuật toán DQN Với tổng số tiền ban đầu 100000 sau thực giao dịch theo thuật tốn DQN tổng số tiền lúc sau 150226, ta thấy sau thực giao dịch thu lợi nhuận 50226 10 Nhận xét: Thuật toán DQN đạt kết tương đối tốt có khả học từ liệu cải thiện hiệu suất qua thời gian Bằng cách sử dụng mạng nơ-ron sâu, có khả học biểu diễn hàm giá trị hành động phức tạp, giúp tìm chiến lược tốt theo thời gian 11 Tuy nhiên, hiệu suất thuật tốn DQN phụ thuộc vào nhiều yếu tố kiến trúc mạng, kích thước nhớ lặp, cách cập nhật mạng tham số khác So sánh TDQN với DQN Sự khác biệt TDQN dùng mạng neuron, DQN dùng mạng neuron Sự khác biệt DQN TDQN nằm phương pháp cập nhật giá trị Q, với DQN sử dụng Q-learning replay memory, TDQN sử dụng phương pháp Temporal Difference để cập nhật giá trị Q dựa dự đoán giá trị Q thời điểm trước đó. Cụ thể, DQN sử dụng giá trị Q tối đa trạng thái giá trị phần thưởng để cập nhật giá trị Q Quá trình thực thơng qua việc tối ưu hóa mạng nơ-ron sử dụng hàm mát thuật toán lan truyền ngược (backpropagation) Trong TDQN sử dụng giá trị Q giá trị Q dự đoán thời điểm để tính tốn giá trị Q Phương pháp giúp TDQN có khả học tập nhanh ổn định Do có ổn định khả học nhanh nên lợi nhuận thuật toán TDQN cao so với thuật toán DQN Cụ thể kết chạy Hình Hình lợi nhuận TDQN 216269 cao nhiều so với lợi nhuận DQN 50226 Tổng kết Qua nghiên cứu thuật toán Trading Deep Q - Network(TDQN), giải pháp Deep Reinfor cement learning (DRL) cho vấn đề giao dịch, xác định vị trí tối ưu hoạt động giao dịch chứng khoán Sau kiểm tra đánh giá hiệu suất, chiến lược giao dịch đạt kết ổn Ngồi thuật tốn TDQN thể nhiều lợi ích so với phương pháp cổ điển hơn, chẳng hạn tính linh hoạt mạnh mẽ vượt trội cho giao dịch đa dạng chi phí Cách tiếp cận dựa liệu trình bày lợi việc 12 triệt tiêu nhiệm vụ phức tạp xác định quy tắc rõ ràng phù hợp với tài cụ thể thị trường xem xét 13 TÀI LIỆU THAM KHẢO [1].Multi-DQN: an Ensemble of Deep Q-Learning Agents for Stock Market Fore‐ casting (https://linkinghub.elsevier.com/retrieve/pii/S0957417420306321) Soure code: https://github.com/ThibautTheate/An-Application-of-DeepReinforcement-Learning-to-Algorithmic-Trading Link drive: https://drive.google.com/drive/u/2/folders/1mmEgIp2LwaKVRUX4x1e0aJ_YS Bikyz0P