TIỂU LUẬN học PHẦN dự đoán GIÁ CHỨNG KHOÁN BẰNG mô HÌNH LONG SHORT TERM MEMORY

35 5 0
TIỂU LUẬN học PHẦN dự đoán GIÁ CHỨNG KHOÁN BẰNG mô HÌNH LONG SHORT TERM MEMORY

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC ĐÀO TẠO ĐẠI HỌC NGUYỄN TẤT THÀNH KHOA CÔNG NGHỆ THÔNG TIN TIỂU LUẬN HỌC PHẦN DỰ ĐỐN GIÁ CHỨNG KHỐN BẰNG MƠ HÌNH LONG SHORT-TERM MEMORY Giảng viên hướng dẫn : ThS HỒ KHÔI Sinh viên thực : NGUYỄN HOÀNG HIẾU MSSV : 2000001425 Chuyên ngành : Khoa Học Dữ Liệu Môn học : Deep Learning Khoa học liệu Khóa : 2020 – 2024 TP.HCM, tháng 12 năm 2022 BỘ GIÁO DỤC ĐÀO TẠO ĐẠI HỌC NGUYỄN TẤT THÀNH KHOA CÔNG NGHỆ THÔNG TIN TIỂU LUẬN HỌC PHẦN DỰ ĐOÁN GIÁ CHỨNG KHOÁN BẰNG MƠ HÌNH LONG SHORT-TERM MEMORY Giảng viên hướng dẫn : ThS HỒ KHÔI Sinh viên thực : NGUYỄN HOÀNG HIẾU MSSV : 2000001425 Chuyên ngành : Khoa Học Dữ Liệu Môn học : Deep Learning Khoa học liệu Khóa : 2020 – 2024 TP.HCM, tháng 12 năm 2022 LỜI CẢM ƠN Em xin bày tỏ lòng kính trọng biết ơn giảng viên môn khoa công nghệ thông tin giúp đỡ tạo điều kiện cho chúng em học hỏi nhiều điều hướng chuyên ngành chọn ngành khoa học liệu Nhờ cố gắng thầy, mà sinh viên chúng em tự tin trang bị kiến thức cần có để chuẩn bị cho tập tới Cảm ơn ThS Hồ khơi tận tình hướng dạy môn học Deep Learning Khoa học liệu tụi em có nhìn tốt mơn học này, với nhiều tập ví dụ thực tế cho ứng dụng môn sống Nhờ mà em biết áp dụng mơn học Deep Learning giải số tốn thực tế bên ngồi sau làm Ngồi cảm ơn bạn nhóm khác hỗ trợ gặp số vấn đề khó giải Sản phẩm hồn thành có giúp đỡ bạn Sinh viên thực Nguyễn Hoàng Hiếu I TRƯỜNG ĐH NGUYỄN TẤT THÀNH KỲ THI KẾT THÚC HỌC PHẦN TRUNG TÂM KHẢO THÍ HỌC KỲ I NĂM HỌC 2022-2023 PHIẾU CHẤM THI TIỂU LUẬN / ĐỒ ÁN Môn thi : Deep Learning Khoa học liệu Lớp : 20DTH1D Sinh viên thực hiện: Nguyễn Hoàng Hiếu MSSV : 2000001425 Ngày thi: 28 / 12 / 2022 Phòng thi: L.903 Đề tài tiểu luận / báo cáo sinh viên : Dự đoán giá chứng khốn mơ hình Long Short-Term Memory Phần đánh giá giảng viên ( thang rubrics mơn học ) : Tiêu chí ( theo CĐR HP) Đánh giá GV Điểm tối Điểm đạt đa Cấu trúc báo cáo Nội dung Các nội dung thành phần Lập luận Kết luận Trình bày TỔNG ĐIỂM Giảng viên chấm thi (Ký , ghi rõ họ tên) II NHẬN XÉT GIÁO VIÊN TPHCM, Ngày …… tháng …… năm Giáo viên nhận xét (Ký, ghi rõ họ tên) III MỤC LỤC LỜI MỞ ĐẦU Chương I - PHƯƠNG PHÁP VÀ ĐỐI TƯỢNG DỰ ĐOÁN Phương pháp đề tài 2 Đối tượng phạm vi dự đoán 2.1 Đối tượng dự đoán 2.2 Phạm vi dự đoán Chương II – ỨNG DỤNG THUẬT TOÁN Mô tả toán Xây dựng liệu Áp dụng thuật toán vào toán Thực nghiệm với thư viện Python Chương III – XÂY DỰNG ỨNG DỤNG DỰ ĐỐN GIÁ CHỨNG KHỐN NETFLIX BẰNG MƠ HÌNH LONG SORT-TERM MEMORY ( LSTM ) 11 Môi trường thực chuẩn bị liệu 11 1.1 Google Colab 11 1.2 Chuẩn bị liệu 11 Xây dựng ứng dụng ( ngôn ngữ Python ) 12 IV KẾT LUẬN 24 HẠN CHẾ VÀ HƯỚNG PHÁT TRIỂN 24 Hạn chế 24 Hướng phát triển 24 TÀI LIỆU THAM KHẢO 26 SOURCE CODE DỰ ÁN 27 V DANH MỤC HÌNH Hình : Biểu đồ Time Series dân số Hoa Kỳ 1900 – 2000 Hình : Mơ hình khác RNN LSTM Hình : Giá chứng khoán Netflix từ năm 2010 - 2020 Hình : Biễu diễn kiến trúc bên Cell LSTM Hình : Dữ liệu biểu đồ giá đóng cửa AMZN ( Amazon ) Hình : Biểu đồ giá đóng cửa dựa đốn thực tế 10 Hình : Google Colab sử dụng để phát triển ứng dụng AI, ML, DL 11 Hình : Chi tiết liệu chứng khốn Netlix NFLX.CSV 12 Hình : Biểu đồ giá chứng khốn Netflix vịng 12 năm 16 Hình 10 : Biểu đồ dự đoán giá mở cửa Netflix từ năm 2017 - 2023 23 VI LỜI MỞ ĐẦU Lý chọn đề tài : Hiện nay, thời đại thời đại mang xu hướng tồn cầu hóa khu vực hóa Khi trở thành thành viên tổ chức thương mại giới đồng nghĩa Việt Nam gặp nhiều khó khăn đồng thời gặt hái nhiều thành công Để thu kết tốt từ trình hội nhập phải đánh giá, nhận định hội thách thức đặt ra, phải mạnh phải phát huy đâu điểm yếu cần phải khắc phục Và đặt biệt phải nhận định xu hướng chung giới, yếu tố nước trọng Chính điều đó, mà chúng em thấy thị trường chứng khoán giới Việt Nam thị trường nóng bỏng có nhiều triển vọng lên Nó khơng kênh huy động vốn có hiệu cho hoạt động đầu tư kinh tế mà nhân tố thúc đẩy hoạt động đầu tư kinh tế mà nhân tố thúc đầy hoạt động kinh tế diễn suôn sẻ Thị trường chứng khoán vào hoạt động với nhiều biến động đóng góp vào phát triển kinh tế nước ta Đến thị trường đóng vai trị kênh huy động vốn hiệu cho người cần vốn đồng thời mang lại mức lợi nhuận cao cho nhà đầu tư Chính thị trường không thu hút quan tâm nhà đầu tư nước mà cịn đơng đảo nhà đầu tư nước ngồi Do đó, đề tài “ Dự đốn giá chứng khốn mơ hình Long Short-Term Memory “ đề tài mà em nghiên cứu vào nhằm giúp cho nhà đầu tư dự báo giá chứng khoán cách tốt từ đưa định đầu tư Mục tiêu nghiên cứu đề tài : Hướng đến việc xây dựng mơ hình Neural Network phù hợp tập liệu Time Series để dự báo giá chứng khốn Mơ hình dự đốn Time Series áp dụng lĩnh vực khác liệu có thời gian CHƯƠNG I - PHƯƠNG PHÁP VÀ ĐỐI TƯỢNG DỰ ĐOÁN Phương pháp đề tài Để muốn phân tích thứ hay dự đốn điều chứng khốn, giá vàng, thời tiết, bệnh tim mạch, giá xe, giá nhà cần xác định kiểu tập liệu mà muốn dự đốn Vì tập liệu muốn dự đoán phân tích có dạng khác nhau, nên phương pháp dự đốn phân tích có cách riêng biệt cho kiểu liệu thực với chúng Chẳng hạn, ta muốn dự đoán giá nhà dựa vào liệu ta có : phịng tắm, phịng ngủ, diện tích, vị trí,… Và từ giá trị ta có giá nhà cụ thể cao hay thấp, giả sử ta có tập liệu nhiều giá nhà dựa giá trị nhìn chung kiểu liệu mà ta muốn dự đoán tập liệu gồm nhiều giá trị với từ cho giá nhà cụ thể, tập liệu thơng thường phương pháp sử dụng Linear Regresstion ( Hồi quy tuyến tính ) để dự đốn nhà mà ta muốn Đối tượng lần dự đốn chứng khốn Chúng ta hiểu chứng khoán kiểu liệu Time Series Time Series chuỗi điểm liệu xảy theo thứ tự liên tiếp khoảng thời gian Trong đầu tư, chuỗi thời gian theo dõi chuyển động điểm liệu chọn, chẳng hạn chứng khoán, khoản thời gian xác định với điểm liệu ghi lại theo khoảng thời gian xác định với điểm liệu ghi lại theo khoảng thời gian đặn Không có thời gian tối thiểu tối đa phải đưa vào, cho phép liệu thu thập theo cách nhà cung cấp thông tin mà nhà đầu tư nhà phân tích tìm kiếm kiểm tra hoạt động Điều theo dõi suốt thời gian ngắn, chẳng hạn giá chứng khoán vào suốt ngày làm việc thời gian dài giá chứng khoán vào lúc đóng cửa vào ngày cuối tháng q trình năm Phân tích Time Series hữu ích để xem tài sản, chứng khoán biến số kinh tế định thay đổi theo thời gian Nó sử dụng để kiểm tra xem thay đổi liên quan đến điểm liệu chọn so với thay đổi - Đọc file NFLX.CSV nhờ thư viện Pandas ( pd.read_csv) in dòng tập liệu 13 - In thông tin liệu cột file NFLX.CSV bao gồm 3260 dòng cột - Lấy cột bao gồm : Open, High, Low, Close, Adj Close để dùng làm đầu vào cho trình dự đốn Trích xuất cột Date dùng để định dạng từ kiểu liệu Object sang kiểu liệu Datetime64[ns] - Dùng danh sách cột Date định dạng trước áp vào liệu làm mục ( index ) cho tập liệu 14 - Trực quan hóa liệu lịch sử tăng giảm giá chứng khốn qua năm 15 Hình : Biểu đồ giá chứng khốn Netflix vịng 12 năm - Lấy cột chọn cho dự đoán tạo thành tập liệu bao gồm cột trích xuất : Open, High, Low, Close, Adj Close Và chuyển tập liệu sang dạng ma trận để dùng cho mơ hình LSTM - Vì mơ hình LSTM liệu trước đưa vào phải chuẩn hóa kết tốt sử dụng thư viện Sklearn dùng StandardScaler() để chuẩn hóa tập liệu trainig_set ( Feature Scaling ), chuẩn hóa liệu giá trị cột Open ( Target ) 16 - Chia tập liệu phần bao gồm : X_train, y_train liệu chuẩn hóa dạng ma trận đầy đủ theo yêu cầu mạng LSTM gồm hình dạng ( n_samples x dấu thời gian x n_features - ) Hình dạng X_train ( 3260, 60, ), 60 dấu thời gian với 60 ngày trước số cột ta dự đoán ( cột – cột ( Adj Close ) ) ( Multi – Variable ) Bước : Xây dựng mạng Neural dựa LSTM thực huấn luyện mơ hình - Đầu tiên khởi tạo mạng Neural dựa LSTM Senquence() Thêm lớp LSTM Layer với 64 nút return_sequences = True xác định xem trả đầu cuối 17 chuỗi đầu hay toàn chuỗi input_shape dạng tập huấn luyện ( X_train ) Input_shape có dạng ( dấu thời gian x n_future – 1) Tiếp tục thêm lớp LSTM Layer thứ hai với 32 nút return_sequences = False không trả đầu cuối chuỗi Thêm lớp Dropout = 0.25 tức 25% số lớp bị loại bỏ để tránh mô hình mạng học tủ Sau thêm lớp Dense với định đầu đơn vị hàm kích hoạt linear Kế tiếp biên dịch mơ hình với trình tối ưu hóa Adam với learning_rate = 0.01 Loss tính mean_square_error Cuối in thơng tin mơ hình Bắt đầu huấn luyện mơ hình với epochs = 500, batch_size = 256 18 - Bắt đầu huấn luyện mơ hình với epochs = 500, batch_size = 256, valid_split = 0.1, verbose = - Trực quan hóa q trình huấn luyện giá trị Loss Validition Loss 19 Bước : Dự đoán giá mở cửa tập huấn luyện dự đoán giá mở cửa ngày tương lai ( 28 ngày ) từ ngày 14 / 12 / 2022 đến 09 / 01 / 2023 với ngày cuối tập huấn luyện từ ngày 13 / 12 / 2022 - Tạo danh sách ngày tương 28 ngày kể từ ngày cuối tập huấn luyện định hình lại liệu Datetime Kế đến dự đoán giá mở cửa ngày tập huấn luyện dự đoán giá mở cửa 28 ngày tương lai - Sau dự đốn ta cần đảo ngược lại giá mở cửa ban đầu tập huấn luyện giá mở cửa 28 ngày tương lai sau ta sử dụng Sklearn để bình thường hóa liệu ( Normalize Data ) Thực đưa danh sách liệu thành DataFrame để so 20 sánh chênh lệch giá mở cửa thực tế giá mở cửa dự đoán tập huấn luyện từ ngày 01 / 11 / 2022 đến ngày 13 / 12 / 2022 21 - In DataFrame giá mở cửa dự đoán 28 ngày tương lai - Trực quan hóa liệu giá mở cửa dựa đốn ( đường vẽ màu Vàng ) giá mở cửa tương lai ( đường vẽ màu Đỏ ) giá mở cửa thực tế ( đường vẽ màu Xanh ) Với ngày bắt đầu trực quan biểu đồ từ 01 / 12 / 2017 cho 09 / 01 / 2023 22 - Cuối kết trực quan hóa với việc dự đốn giá mở cửa mơ hình LSTM Hình 10 : Biểu đồ dự đốn giá mở cửa Netflix từ năm 2017 - 2023 23 KẾT LUẬN Qua q trình phân tích liệu xử lý chuyển hóa liệu cho phù hợp để đưa vào mơ hình LSTM kết đạt nói khơng tốt mong đợi ta nhìn vào biểu đồ trực quan ( Hình 10 ) Và thấy nhận xét mơ hình LSTM dự đốn tốt giá mở cửa qua ngày tháng năm dựa theo ngày tháng năm trước Từng thời điểm ta thấy tăng giảm tương đồng giá mở cửa thực tế giá mở cửa dự đốn mơ hình Nhìn từ năm 2020 đến 2022 giá chứng khốn Netflix tăng cao dự kiến mà mơ hình khơng dự đốn năm năm đại dịch COVID – 19 bùng phát nên người nhà nhờ vào công ty chuyên cung cấp phim trực tuyến trang web Netflix nhiều người sử dụng vào năm đại dịch từ năm giá chứng khốn Netflix lên cao nên khó mơ hình ta đốn cao đến mức năm HẠN CHẾ VÀ HƯỚNG PHÁT TRIỂN Hạn chế Mơ hình LSTM khơng hoạt động tốt liệu có số giá trị bị thiếu khơng liên tục, thiết kế để học từ liệu thời gian liên tiếp Nếu liệu có số giá trị bị thiếu khơng liên tục, mơ hình khơng hiểu mối quan hệ giá trị khơng thể dự đốn xác giá chứng khốn tương lai Ngồi ra, mơ hình LSTM khơng hoạt động tốt liệu không đủ lớn không đạt chất lượng tốt Để huấn luyện mơ hình LSTM hiệu quả, cần có lượng liệu lớn đạt chất lượng tốt, bao gồm liệu quan trọng khơng quan trọng Nếu khơng có đủ liệu liệu khơng đạt chất lượng tốt, mơ hình khơng hoạt động tốt khơng thể dự đốn xác giá chứng khốn tương lai Hướng phát triển Mơ hình dự đốn giá chứng khốn LSTM trở thành cơng cụ phân tích thị trường chứng khoán phổ biến nay.Những nghiên cứu phát triển 24 mơ hình LSTM tìm cách cải thiện hiệu mơ hình giảm thiểu hạn chế Một số kể đến sau : Sử dụng mơ hình khác với LSTM : sử dụng mơ hình LSTM với mơ hình khác tăng hiệu dự đoán giá chứng khoán Sử dụng liệu đa dạng : để cải thiện hiệu mơ hình LSTM, sử dụng liệu đa dạng để huấn luyện mơ hình Sử dụng kỹ thuật xử lý liệu khác : để tăng độ hiệu mơ hình LSTM, sử dụng kỹ thuật xử lý liệu khác chuẩn hóa liệu, phân tích biểu đồ ( chart analysis ) hay giảm chiều liệu Sử dụng phương pháp ước lượng khác : mơ hình LSTM khơng hoạt động tốt số tình huống, sử dụng phương pháp ước lượng khác phương pháp ước lượng theo quy luật ( rule-based estimation ) phương pháp ước lượng ( basic estimaton ) để tăng hiệu dự đoán giá chứng khoán Sử dụng phương pháp huấn luyện khác : để cải thiện độ hiệu mơ hình LSTM, sử dụng phương pháp huấn luyện khác phương pháp huấn luyện theo lớp ( layer-wise training ) phương pháp huấn luyện theo điểm liệu ( instance-wise training ) Sử dụng kỹ thuật tăng cường mơ hình : để tăng khả dự đốn xác mơ hình LSTM, sử dụng kỹ thuật tăng cường mơ phân tích đa chiều ( multivariate analysis ), sử dụng lọc ( filter ) sử dụng phương pháp điều chỉnh trọng số ( weight adjustment ) 25 TÀI LIỆU THAM KHẢO [1] Đễ Thị Hương (2016), Phân tích báo cáo tài Cơng ty TNHH thương mại đâu tư Xuân Anh, Luận văn Thạc sĩ Kế toán, Đại học Lao Động Xã Hội [2] Nguyễn Văn Huân, Phạm Việt Bình (2011), Phân tích đữ liệu dự báo kinh tế, NXB Khoa học kỹ thuật [3] Nguyễn Văn Huân, Lê Anh Tú (2015), Giả? pháp xáy dựng hệ thống phân tích liệu dự báo doanh thu cho doanh nghiệp vừa nhỏ Việt Nam, Tạp chí Khoa học & Cơng nghệ, 135(05):191 — 198 [4] Trần Văn Lý, Lê Thị Hải Yên, Nguyễn Huyền Trang, Trần Kim Yến, Bùi Minh Trung Lâm Quốc Tồn (2016), Phân tích quy xu áp dụng thí vị, Tạp chí Khoa học Trường Đại học Cần Thơ, 45a:118-125 [5] Anonymous (2019), 77c Series Analywsis (TS) in Python - Linear Models to GARCH,,_ http://www.blackarbs.com/blog/time-series-analysis-in-python-linearmodels-to-garch/11/1/2016#AR=, access date: Nov 20, 2019 [6] Mark Borysiak (2019), 4RJAMA and LSTM Tìme Series Models for (oogle Trends, https://github.com/TbonGaray/Forecasting-T1me-SerIes-Python/ blob/ master/ Forecasting%20Time%20Serles.ipynb, access date: Dec 20,2019 [7] Vô danh (2020), Sử dụng mạng LSTM (Long Short Term Memory) đề dự đoán cổ phiếu, https://viblo.asia/s/su-dung-mang-lstm-long-short-term-memoryde-du-doan-co-phieu-241JDz06KPM, truy cập ngày: 20/01/2020 [8] Abhinav Sagar (2020), C7yprocurrency Price Predicfion Using LSTM neural nefwork, https://github.com/abhinavsagar/Cryptocurrency-Price-Prediction /blob/ masfer/price_ prediction.ipynb, access dafe: Jan 20,2020 26 SOURCE CODE DỰ ÁN https://drive.google.com/drive/folders/1NmZQJrsbaRt4vlX89axFWXe6pxM_wKvf?usp= share_link 27 ...BỘ GIÁO DỤC ĐÀO TẠO ĐẠI HỌC NGUYỄN TẤT THÀNH KHOA CÔNG NGHỆ THÔNG TIN TIỂU LUẬN HỌC PHẦN DỰ ĐỐN GIÁ CHỨNG KHỐN BẰNG MƠ HÌNH LONG SHORT- TERM MEMORY Giảng viên hướng dẫn... L.903 Đề tài tiểu luận / báo cáo sinh viên : Dự đốn giá chứng khốn mơ hình Long Short- Term Memory Phần đánh giá giảng viên ( thang rubrics môn học ) : Tiêu chí ( theo CĐR HP) Đánh giá GV Điểm... mạng Neural mơ hình Long Short- Term Memory ( LSTM ) để dự đoán giá chứng khoán LSTM dạng đặt biệt mạng nơ-ron hồi quy ( Recurrent Neural Network gọi RNN ) Để nói Long ShortTerm Memory mạng thần

Ngày đăng: 02/01/2023, 21:23

Tài liệu cùng người dùng

Tài liệu liên quan