1. Trang chủ
  2. » Luận Văn - Báo Cáo

Xây dựng ứng dụng và áp dụng giải thuật học máy cho thị trường chứng khoán việt nam

74 13 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Xây Dựng Ứng Dụng Và Áp Dụng Giải Thuật Học Máy Cho Thị Trường Chứng Khoán Việt Nam
Tác giả Lưu Minh Hồng
Người hướng dẫn TS. Trần Việt Trung
Trường học Trường Đại Học Bách Khoa Hà Nội
Chuyên ngành Mạng máy tính và An toàn thông tin
Thể loại luận văn thạc sĩ
Năm xuất bản 2021
Thành phố Hà Nội
Định dạng
Số trang 74
Dung lượng 2,01 MB

Nội dung

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ Xây dựng ứng dụng áp dụng giải thuật học máy cho thị trường chứng khoán Việt Nam LƯU MINH HỒNG hong.LMCB190235@sis.hust.edu.vn Chuyên ngành: Mạng máy tính An tồn thơng tin Giảng viên hướng dẫn: TS Trần Việt Trung Viện: Công nghệ Thông tin – Truyền thông HÀ NỘI, 12/2021 Chữ ký GVHD CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ Họ tên tác giả luận văn : Lưu Minh Hồng Đề tài luận văn: Xây dựng ứng dụng áp dụng giải thuật học máy cho thị trường chứng khốn Việt Nam Chun ngành: Mạng máy tính An tồn thơng tin Mã số SV: CB190235 Tác giả, Người hướng dẫn khoa học Hội đồng chấm luận văn xác nhận tác giả sửa chữa, bổ sung luận văn theo biên họp Hội đồng ngày 24/12/2021 với nội dung sau: Sửa “Chương Nguồn tham khảo” thành “Nguồn tham khảo” Bổ sung thêm lý thuyết phần 2.2.1 Dữ liệu chuỗi thời gian vào mục 2.2 Mơ hình LSTM Tại chương Kiểm thử đánh giá: a Tại mục 4.1 Chức phần mềm: Thực mô tả chi tiết chức hỗ trợ cho nhà đầu tư việc theo dõi tin tức xu hướng giá chứng khoán b Tại mục 4.2 Đánh giá mơ hình học máy: - Thực cập nhật mơ hình nhằm cải thiện kết phân tích sách thái tin tức Mơ tả chi tiết kết thực nghiệm - Mô tả chi tiết kết thực nghiệm với mơ hình dự đốn giá LSTM Sửa lỗi tả Ngày 17 tháng 01 năm 2022 Giáo viên hướng dẫn Tác giả luận văn CHỦ TỊCH HỘI ĐỒNG ĐỀ TÀI LUẬN VĂN Thông tin học viên Họ tên học viên: Lưu Minh Hồng Điện thoại liên lạc: 0328329017 Email: honglm1011@gmail.com Lớp: 19BATTT Hệ đào tạo: Thạc sĩ kỹ thuật Luận văn tốt nghiệp thực tại: viện Công nghệ thông tin, đại học Bách khoa Hà Nội Thời gian thực luận văn: Từ tháng 10/2020 đến tháng 12/2021 Mục đích nội dung luận văn tốt nghiệp  Xây dựng công cụ thu thập liệu tin tức số chứng khoán Việt Nam  Sử dụng giải thuật học máy phân tích sắc thái tin tức dự đốn giá từ xây dựng ứng dụng hỗ trợ người chơi chứng khoán Các nhiệm vụ cụ thể luận văn tốt nghiệp  Xây dựng khối thu thập liệu nhằm thu thập tin tức số chứng khoán từ website  Xây dựng khối mơ hình học máy nhằm phân tích sắc thái thông tin dự báo giá cổ phiếu ngắn hạn  Xây dựng ứng dụng giúp nhà đầu tư dễ dàng truy cập sử dụng tin tức phân loại theo sắc thái dự báo giá chứng khốn cơng cụ để đưa định đầu tư quản lý rủi ro cho danh mục chứng khoán Phạm vi nghiên cứu Luận văn sử dụng liệu mã cổ phiếu liệu tin tức thu thập thị trường chứng khoán Việt Nam từ năm 2010 đến năm 2021 Lời cam đoan học viên Tôi – Lưu Minh Hồng – Cam kết luận văn tốt nghiệp cơng trình nghiên cứu thân tơi hướng dẫn TS Trần Việt Trung Các kết nêu luận văn tốt nghiệp trung thực, khơng chép tồn văn cơng trình khác Hà Nội, ngày tháng Tác giả Lưu Minh Hồng năm 2021 Xác nhận giáo viên hướng dẫn mức độ hoàn thành luận văn tốt nghiệp phép bảo vệ Hà Nội, ngày tháng năm 2021 Giáo viên hướng dẫn TS Trần Việt Trung LỜI CẢM ƠN Tôi xin chân thành cảm ơn thầy Trần Việt Trung hướng dẫn giúp đỡ nhiều q trình thực đồ án TĨM TẮT NỘI DUNG LUẬN VĂN Thị trường chứng khốn ln thu hút nhà đầu tư khả sinh lời cao nhiên hàm chứa nhiều rủi ro, cần có cơng cụ thơng minh để giảm thiểu rủi ro tối đa hoá lợi nhuận Jesse Livermore, huyền thoại đầu tư chứng khoán nói “Khơng có xảy kinh doanh đầu đầu tư vào chứng khoán hàng hóa” Việc sử dụng liệu lịch sử cho việc dự đoán hiệu chất thị trường tâm lý đám đông không thay đổi Từ trước tới nay, hầu hết nhà phân tích tài dựa vào kinh nghiệm cá nhân công cụ cổ điển tin tức, MA, mơ hình nến, v.v Việc sử dụng cơng cụ cổ điển đem lại hiệu tốn nhiều thời gian độ xác thường khơng cao việc tìm mã cổ phiếu giúp đem lại lợi nhuận Ngày với phát triển lĩnh vực học máy, có nhiều giải thuật đưa dự đoán giá chứng khốn thị trường chứng khốn với độ xác cao giúp nhà đầu tư tiết kiệm thời gian, gia tăng hội hiệu đầu tư, quản trị rủi ro tốt Nội dung luận văn trình bày bước thu thập liệu thị trường chứng khốn, phân tích thiết kế xây dựng ứng dụng hỗ trợ cho nhà đầu tư chứng khoán, ứng dụng giải thuật đánh giá sắc thái tin tức, mơ hình LSTM đự đốn giá cho tương lai gần Sinh viên thực Ký ghi rõ họ tên MỤC LỤC CHƯƠNG GIỚI THIỆU ĐỀ TÀI Đặt vấn đề Mục tiêu phạm vi đề tài Giới thiệu chung thị trường chứng khoán Việt Nam 1.3.1 Các chủ thể tham gia thị trường chứng khoán 1.3.2 Một số thuật ngữ thường dùng chứng khoán CHƯƠNG CÁC MƠ HÌNH HỌC MÁY Mơ hình Word2Vec 2.1.1 Giới thiệu 2.1.2 Mơ hình Skip-gram 2.1.3 Mơ hình Cbow 10 Mơ hình LSTM 11 2.2.1 Dữ liệu chuỗi thời gian 11 2.2.2 Mạng nơron truy hồi RNN - Recurrent Neural Network 12 2.2.3 Mơ hình LSTM (Long short term memory) 13 CHƯƠNG XÂY DỰNG HỆ THỐNG HỖ TRỢ NHÀ ĐẦU TƯ CHỨNG KHOÁN 15 Tổng quan hệ thống 15 Xây dựng khối thu thập liệu 15 3.2.1 Thu thập tin tức 15 3.2.2 Thu thập số chứng khoán 17 Xây dựng khối mơ hình học máy 17 3.3.1 Mơ hình phân tích sắc thái 17 3.3.2 Mơ hình dự đoán giá 20 Xây dựng ứng dụng 22 3.4.1 Phân tích 22 3.4.2 Thiết kế 40 Công nghệ thư viện sử dụng 52 3.5.1 Web framework Spring Boot 52 3.5.2 Vuejs 53 3.5.3 Redis queue 53 3.5.4 Sklearn 53 3.5.5 Fasttext 54 3.5.6 Deeplearning4j 55 CHƯƠNG KIỂM THỬ VÀ ĐÁNH GIÁ 56 Chức phần mềm 56 4.1.1 Khối thu thập liệu 56 4.1.2 Khối ứng dụng hỗ trợ nhà đầu tư 57 Đánh giá mơ hình học máy 58 4.2.1 Đánh giá mơ hình phân tích sắc thái tin tức 58 4.2.2 Đánh giá mơ hình dự đoán giá với LSTM 59 CHƯƠNG KẾT LUẬN 62 TÀI LIỆU THAM KHẢO 64 DANH MỤC HÌNH VẼ Hình 2.1 Mơ hình biểu diễn thuật tốn Word2Vec[2] Hình 2.2 Biểu diễn ví dụ mơ hình Skip-gram[3] Hình 2.3 Kiến trúc cách thực training data mơ hình Skip-gram [3] Hình 2.4 Ma trận trọng số lớp ẩn mô hình Word2vec [3] Hình 2.5 Lớp ẩn mơ hình hoạt động bảng tra cứu [3] 10 Hình 2.6 Mối tương quan từ “ants” từ “car” [3] 10 Hình 2.7 Mơ hình Cbow [1] 10 Hình 2.8.Ví dụ chuỗi thời gian 11 Hình 2.9 Các dạng toán RNN [5] 13 Hình 2.10 Sơ đồ biểu diễn kiến trúc ô trạng thái LSTM [6] 14 Hình 3.1 Sơ đồ tổng quan hệ thống 15 Hình 3.2 Mơ hình thu thập liệu 16 Hình 3.3 Sơ đồ phương thức hoạt động crawler 16 Hình 3.4 Mơ hình đồng liệu 17 Hình 3.5 Mơ hình thu thập số chứng khoán 17 Hình 3.6 Mơ tả cách thức triển khai mơ hình phân tích sắc thái 18 Hình 3.7 Sơ đồ huấn luyện mơ hình dự đốn giá cổ phiếu 20 Hình 3.8 Biểu đồ use case tổng quát hệ thống 22 Hình 3.9 Biểu đồ use case xem tin tức 23 Hình 3.10 Biểu đồ use case quản lý watch list theo dõi 24 Hình 3.11 Biểu đồ use case xem báo cáo dự đốn 26 Hình 3.12 Biểu đồ use case quản lý Crawler 27 Hình 3.13 Biểu đồ use case quản lý user 29 Hình 3.14 Sơ đồ hoạt động cài đặt thơng tin crawler 31 Hình 3.15 Sơ đồ thu thập liệu từ website 32 Hình 3.16 Sơ đồ hẹn thu thập liệu website 33 Hình 3.17 Sơ đồ tự động cập nhật sắc thái tin tức 34 Hình 3.18 Sơ đồ người dùng xem tin tức tính tốn sắc thái 34 Hình 3.19 Sơ đồ admin cập nhật sắc thái tin tức thủ công 35 Hình 3.20 Sơ đồ tự động cập nhật dự đoán 35 Hình 3.21 Sơ đồ người dùng xem dự đốn giá 36 Hình 3.22 Sơ đồ cài đặt Crawler 36 Hình 3.23 Sơ đồ thu thập liệu từ website (Crawler) 37 Hình 3.24 Sơ đồ hẹn thu thập liệu website (Crawler) 37 Hình 3.25 Sơ đồ tự động cập nhật sắc thái tin tức 38 Hình 3.26 Sơ đồ người dùng xem tin tức tính tốn sắc thái 38 Hình 3.27 Sơ đồ Admin cập nhật sắc thái tin tức thủ cơng 39 Hình 3.28 Sơ đồ tự động cập nhật dự đoán 39 Hình 3.29 Sơ đồ người dùng xem dự đoán giá 40 Hình 3.30 Thiết kế cài đặt crawler 40 Hình 3.31 Thiết kế thu thập liệu crawler 41 Hình 3.32 Thiết kế người dùng xem tin tức tính tốn sắc thái 41 Hình 3.33 Thiết kế Admin cập nhật sắc thái tin tức thủ cơng 42 Hình 3.34 Thiết kế chức dự đoán giá 43 Hình 3.35 Lược đồ sở liệu quan hệ 43 Hình 3.36 Thiết kế giao diện danh sách bot 49 Hình 3.37 Thiết kế giao diện cài đặt bot 49 Hình 3.38 Thiết kế giao diện cài đặt chạy 50 Hình 3.39 Thiết kế giao diện xem tin tức theo nhóm tin tức 50 Hình 3.40 Thiết kế giao diện theo dõi tin tức cổ phiếu theo watch list 51 Hình 3.41 Thiết kế giao diện dự đoán giá cổ phiếu cho ngày 52 Hình 4.1 Danh sách thiết lập báo 56 Hình 4.2 Ví dụ tin tức nhóm cổ phiếu ngành ngân hàng 57 Hình 4.3 Ví dụ dự đốn giá ngày cổ phiếu MBB 57 Hình 4.4 Phương pháp đánh giá Precision Recall [13] 58 Hình 4.5 Kết dự báo giá cổ phiếu AAA từ ngày 12/03/2021 đến ngày 30/12/2021 60 Hình 4.6 Kết dự báo giá cổ phiếu BID từ ngày 12/03/2021 đến ngày 30/12/2021 61 Hình 4.7 Kết dự báo giá cổ phiếu ACB từ ngày 12/03/2021 đến ngày 30/12/2021 61 DANH MỤC BẢNG BIỂU Bảng 3.1 Bảng mô tả use case xem tin tức theo chủ đề 23 Bảng 3.2 Bảng mô tả use case xem tin tức theo cổ phiếu theo dõi 24 Bảng 3.3 Bảng mô tả use case tạo watch list 25 Bảng 3.4 Bảng mô tả use case sửa watch list 25 Bảng 3.5 Bảng mô tả use case xóa watch list 26 Bảng 3.6 Bảng mô tả use case xem báo cáo dự đoán 27 Bảng 3.7 Bảng mô tả use case thêm crawler 28 Bảng 3.8 Bảng mô tả use case sửa crawler 28 Bảng 3.9 Bảng mô tả use case hẹn tự động chạy 29 Bảng 3.10 Bảng mô tả use case thêm user nhà đầu tư 30 Bảng 3.11 Bảng mô tả use case sửa thông tin user 30 Bảng 3.12 Bảng mô tả use case xóa user nhà đầu tư 31 Bảng 3.13 Bảng post_group 44 Bảng 3.14 Bảng post_source 44 Bảng 3.15 Bảng company_post 44 Bảng 3.16 Bảng posts 45 Bảng 3.17 Bảng stock company 45 Bảng 3.18 Bảng industry 46 Bảng 3.19 Bảng watch_list 46 Bảng 3.20 Bảng post title sentiment 46 Bảng 3.21 Bảng watch list company 46 Bảng 3.22 Bảng stock_predictions 47 Bảng 3.23 Bảng stock index history 47 Bảng 3.24 Bảng filters 48 Bảng 3.25 Bảng roles 48 Bảng 3.26 Bảng user 48 Bảng 3.27 Bảng user roles 48 Bảng 4.1.1 Bảng mô tả giá trị đầu vào thử nghiệm……………………… 60 Trên hình Danh sác thiết lập báo, click vào biểu tượng setting cột Lần chạy tiếp, lên cửa sổ cấu hình lịch chạy tự động Hình 3.38 Thiết kế giao diện cài đặt chạy b Theo dõi cổ phiếu Khi người dùng vào trang chủ hệ thống thị danh sách tin tức liên quan đến thị trường chứng khốn Hình 3.39 Thiết kế giao diện xem tin tức theo nhóm tin tức 50 Trên nav-bar, click vào menu Watch List, trang web chuyển đến danh sách watch list Người dùng theo dõi tin tức gán nhãn cổ phiếu theo dõi Người dùng thêm cổ phiếu cần theo dõi vào watch list tạo watch list Hình 3.40 Thiết kế giao diện theo dõi tin tức cổ phiếu theo watch list 51 Khi click vào cột dự đoán, lên popup dự đoán giá cho ngày tiếp theo: Hình 3.41 Thiết kế giao diện dự đốn giá cổ phiếu cho ngày Cơng nghệ thư viện sử dụng 3.5.1 Web framework Spring Boot Spring Boot[7] Java framework phát triển Pivital Team dựa Java framework mã nguồn mở để tạo microservice, nhằm mục đích xây dựng ứng dụng Spring độc lập cách nhanh chóng có khả thực thi Sau sử dụng Spring Boot để lập trình ứng dụng Spring, bạn chạy ứng dụng mà khơng cần phải config (cấu hình) nhiều Những đặc điểm bật Spring boot:  Spring Boot phát triển tối ưu cho việc cấu hình XML trở nên đơn giản Spring  Spring Boot phát triển cho việc lập trình trở nên nhanh chóng dễ dàng  Gia tăng suất lập trình  Giảm thời gian lập trình xuống tối thiểu 52 3.5.2 Vuejs Vue[8] progressive framework dùng để xây dựng giao diện người dùng (UI) Không giống monolithic framework Core Vue tập trung vào lớp view mà dễ để làm quen hay tích hợp với thư viện project có sẵn.Hơn nữa, Vue lại chứa đựng sức mạnh lớn việc xây dựng Single-Page Applications kết hợp với công cụ build thư viện/component xây dựng cộng đồng Trước tồn hàng loạt framework, thư viện Javascript vô mạnh mẽ React, Angular, VueJS bật trở thành lựa chọn lý tưởng hàng đầu lâp trình viên phát triển ứng dụng lý sau  Hiệu suất vô cao: Là framework linh động với nhiều tính kế thừa từ đối thủ khả mở rộng cao, VueJS mang lại hiệu suất vô cao dự án phát triển Lập trình viên cần dùng framework để tạo app  Kho thư viện lớn, hỗ trợ xây dựng giao diện cách nhanh chóng  Đơn giản dễ học: VueJS đơn giản, dễ học dễ áp dụng vào dự án, tài liệu dễ hiểu 3.5.3 Redis queue Redis queue[9] dạng nosql key-value sử dụng phổ biến Mỗi value có key tương ứng Redis dạng in-memory database, data lưu trữ ram nên việc truy xuất nhanh Redis thường xuyên sử dụng nhớ đệm, secondary database, sử dụng queue để chung chuyển data 3.5.4 Sklearn Scikit-learn (Sklearn)[10] thư viện mạnh mẽ dành cho thuật toán học máy viết ngôn ngữ Python Thư viện cung cấp tập cơng cụ xử lý tốn machine learning statistical modeling gồm: classification, regression, clustering, dimensionality reduction Nhóm thuật toán xây dựng thư viện scikit-learn  Clustering: Nhóm thuật tốn Phân cụm liệu khơng gán nhãn Ví dụ thuật tốn KMeans 53  Cross Validation: Kiểm thử chéo, đánh giá độ hiệu thuật toán học giám sát sử dụng liệu kiểm thử (validation data) q trình huấn luyện mơ hình  Datasets: Gồm nhóm Bộ liệu tích hợp sẵn thư viện Hầu liệu chuẩn hóa mang lại hiêu suất cao trình huấn luyện iris, digit,  Dimensionality Reduction: Mục đích thuật tốn để Giảm số lượng thuộc tính quan trọng liệu phương pháp tổng hợp, biểu diễn liệu lựa chọn đặc trưng Ví dụ thuật toán PCA (Principal component analysis)  Ensemble methods: Các Phương pháp tập hợp sử dụng nhiều thuật toán học tập để có hiệu suất dự đốn tốt so với thuật toán học cấu thành  Feature extraction: Trích xuất đặc trưng Mục đích để định nghĩa thuộc tình với liệu hình ảnh liệu ngơn ngữ  Feature selection: Trích chọn đặc trưng Lựa chọn đặc trưng có ý nghĩa việc huấn luyện mơ hình học giám sát  Parameter Tuning: Tinh chỉnh tham số Các thuật toán phục vụ việc lựa chọn tham số phù hợp để tối ưu hóa mơ hình  Manifold Learning: Các thuật tốn học tổng hợp Phân tích liệu đa chiều phức tạp  Supervised Models: Học giám sát Mảng lớn thuật tốn học máy Ví dụ linear models, discriminate analysis, naive bayes, lazy methods, neural networks, support vector machines decision trees 3.5.5 Fasttext FastText[11] phương pháp nhúng từ khác phần mở rộng mơ hình word2vec tạo phịng thí nghiệm Nghiên cứu AI (FAIR) Facebook Thay học trực tiếp vectơ cho từ, fastText biểu thị từ dạng n-gam ký tự Điều giúp nắm bắt ý nghĩa từ ngắn cho phép nhúng hiểu hậu tố tiền tố Khi từ biểu diễn ký tự n-gram, mơ hình bỏ qua gram đào tạo để học cách nhúng Mơ hình coi mơ hình túi từ với cửa sổ trượt 54 từ khơng tính đến cấu trúc bên từ Miễn ký tự nằm cửa sổ này, thứ tự n-gram không quan trọng.FastText hoạt động tốt với từ Vì vậy, từ khơng nhìn thấy q trình đào tạo, chia nhỏ thành n-gram để nhúng 3.5.6 Deeplearning4j Deeplearning4j[12] thư viện học máy mã nguồn mở mạnh sử dụng java Nó cung cấp khung tính tốn cho thuật toán phát triển dựa học sâu khác Khung tính tốn phân tán thừa hưởng Apache Hadoop Spark framework cho mơ hình ML đào tạo Mơ-đun phát triển ngơn ngữ lập trình Java Nó có khả tương thích với ngôn ngữ JVM sử dụng Kotlin, Scala,… 55 CHƯƠNG KIỂM THỬ VÀ ĐÁNH GIÁ Chức phần mềm 4.1.1 Khối thu thập liệu a Dữ liệu tin tức Hệ thống cung cấp thu thập tin tức từ trang tin tức chứng khoán lớn Việt Nam Dữ liệu tin tức thu thập khoảng 400.000 viết đến từ đầu báo lớn Việt Nam: tinnhanhchungkhoan.vn, cafef.vn, fireant.vn, vietstock.vn Hình 4.1 Danh sách thiết lập báo Độ trễ thu thập từ báo hệ thống cấu hình mặc định 15 phút lấy tin tức lần Admin thiết lập lại cấu hình từ trang quản lý crawler Admin dễ dàng cấu hình tắt bật thu thập theo dõi trạng thái thu thập trang báo b Dữ liệu số mã chứng khoán Hệ thống thu thập thông tin lịch sử theo ngày 1600 mã cổ phiếu đến từ sàn Hose, Upcom Hnx khoảng 10 năm, ngày 16/11/2010 đến 30/12/2021 Các thông tin lịch sử mã cổ phiếu bao gồm: giá đóng cửa, giá mở cửa, ngày, khối lượng, giá cao ngày, giá thấp ngày số thông tin khác Dữ liệu thông tin mã cổ phiếu thu thập định kỳ ngày vào lúc 15:00 (sau giao dịch) 56 4.1.2 Khối ứng dụng hỗ trợ nhà đầu tư Dữ liệu tin tức tổng hợp phân loại theo nhóm Người dùng tạo nhóm tin tức cho nhóm cổ phiếu riêng để theo dõi Hình ảnh bên tin tức nhóm cổ phiếu ngành ngân hàng Rất nhiều tin tích đưa ra, kỳ vọng xu tăng phiên tới họ cổ phiếu ngân hàng Hình 4.2 Ví dụ tin tức nhóm cổ phiếu ngành ngân hàng Người dùng xem thêm dự đốn giá cho cổ phiếu quan tâm Hình ảnh bên cho dự đoán giá ngày (T+1, T+2, T+3) cổ phiếu MBB Hình 4.3 Ví dụ dự đoán giá ngày cổ phiếu MBB 57 Đánh giá mơ hình học máy 4.2.1 Đánh giá mơ hình phân tích sắc thái tin tức a Cơ sở lý thuyết Cách đánh giá mơ hình phân tích sắc thái tin tức luận văn thông qua độ đo Precision, Recall Hình 4.4 Phương pháp đánh giá Precision Recall [13] Trong Precision định nghĩa tỉ lệ số điểm Positive mơ hình dự đốn tổng số điểm mơ hình dự đốn Positive Recall định nghĩa tỉ lệ số điểm Positive mơ hình dự đốn tổng số điểm thật Positive (hay tổng số điểm gán nhãn Positive ban đầu) [13] Precision cao đồng nghĩa với việc độ xác điểm tìm cao Recall cao đồng nghĩa với việc True Positive Rate cao, tức tỉ lệ bỏ sót điểm thực positive thấp 58 b Kết thực nghiệm Thử nghiệm cấu hình fastest nêu bước cài đặt (mục 3.3.1) với liệu test gán thủ cơng loại nhãn: - Tích cực: 80 - Tiêu cực: 80 - Tích cực: 80 Kết thu được: Precision = 0.703125, Recall = 0.703125 4.2.2 Đánh giá mơ hình dự đốn giá với LSTM a Cơ sở lý thuyết Để đánh giá mô hình LSTM, luận văn tơi xin sử dụng phương pháp đánh giá MAE (Mean Absolute Error, sai số trung bình tuyệt đối) phương pháp tính RMSE(Root Mean Squared Error, sai số bình phương trung bình gốc) MAE đo lường mức độ trung bình lỗi tập hợp dự đốn, mà khơng xem xét hướng chúng Đó trung bình mẫu thử nghiệm khác biết tuyệt đối dự đốn lượng quan sát thực tế, tất khác biệt với trọng số [14] RMSE đánh giá chất lượng ước lượng (ví dụ, hàm toán học lập đồ mẫu liệu tham số dân số từ liệu lấy mẫu) yếu tố dự báo (ví dụ, đồ chức có số liệu vào tùy ý để mẫu giá trị số biến ngẫu nhiên) Định nghĩa RMSE khác với tương ứng cho dù mô tả ước lượng, hay yếu tố dự báo [14] 59 b Kết thực nghiệm Dữ liệu thử nghiệm thử nghiệm luận văn lấy từ website fireant.vn (web site tổng hợp thơng tin thị trường chứng khốn Việt Nam) Thử nghiệm dùng chuỗi 22 ngày liên tiếp (~ tháng) để dự đốn giá đóng cửa ngày sau Bảng bên mô tả giá trị đầu vào thử nghiệm với model thu bước cài đặt (mục 3.3.2) Bảng 4.1 Bảng mô tả giá trị đầu vào thử nghiệm Stt Mã thị trường Công ty CTCP Nhựa An Phát Xanh Ngày Ngày bắt đầu kết thúc Dữ liệu đầu vào AAA Giá mở cửa Ngân hàng TMCP Đầu tư Giá đóng cửa BID Phát triển Việt Nam (BIDV) 22/04/2021 31/12/2021 Giá cao Giá thấp Ngân hàng thương mại cổ phần Khối lượng ACB Á Châu Mã AAA: RMSE: 1.45 MAE: 183.77 Hình 4.5 Kết dự báo giá cổ phiếu AAA từ ngày 22/04/2021 đến ngày 31/12/2021 60 Mã BID: RMSE: 2.69 MAE: 373,82 Hình 4.6 Kết dự báo giá cổ phiếu BID từ ngày 22/04/2021 đến ngày 31/12/2021 Mã ACB: RMSE: 2.32 MAE: 292.93 Hình 4.7 Kết dự báo giá cổ phiếu ACB từ ngày 22/04/2021 đến ngày 31/12/2021 Kết thu với độ xác chưa cao, phần dự đoán xu hướng mã cổ phiếu 61 CHƯƠNG KẾT LUẬN Luận văn trình bày phương pháp tiếp cận ứng dụng kỹ thuật học máy vào việc thu thập, phân loại tin tức đưa dự báo số giá cổ phiếu áp dụng cho nhà đầu tư thị trường chứng khoán Việt Nam Trong q trình thực luận văn, tơi gặp phải nhiều vấn đề việc tiếp cận toán, nghiên cứu lý thuyết, tài liệu liên quan mã nguồn mở để tìm giải pháp phù hợp Với nỗ lực thân hướng dẫn tận tình giảng viên hướng dẫn, tơi hồn thành luận văn tốt nghiệp với kết đạt sau:  Các kết đạt luận văn:   - Về nghiên cứu: Tìm hiểu kỹ thuật để thu thập liệu từ website Tìm hiểu bước triển khai để xây dựng mơ hình phân loại ngơn ngữ Nắm phương pháp triển khai mạng LSTM để xử lý chuỗi liệu Về ứng dụng: Trên sở nghiên cứu lý thuyết quan sát thực tiễn, luận văn xây dựng - công cụ thu thập liệu từ trang website đơn giản Xây dựng ứng dụng hỗ trợ theo dõi phân loại tin tức chứng khoán số khác thị trường chứng khốn, từ giúp nhà đầu tư nắm bắt tin tức theo nhóm tin tức theo cổ phiếu watch list theo dõi - Xây dựng công cụ dự báo số giá cổ phiếu ngắn hạn, nhằm hỗ trợ nhà đầu tư việc đưa định đầu tư quản lý rủi ro cho danh mục đầu tư  Những điểm hạn chế:  Do điều kiện trang thiết bị có hạn, liệu thị trường thu thập chưa lớn  Số lượng kết dự đoán chưa nhiều dẫn đến việc đánh giá độ xác mơ hình dự đốn giá cịn hạn chế  Định hướng phát triển tương lai:  Hiện giá cổ phiếu dự báo ngắn hạn sở liệu khối lượng giao dịch, giá mở cửa, giá đóng cửa, giá cao phiên, giá thấp phiên Trong thời gian tới, với việc tìm hiểu thêm kỹ thuật thu thập phân tích liệu với quan sát đánh giá từ thực tiễn, việc dự báo giá cổ phiếu mở rộng sử dụng nhiều công cụ 62 báo nhằm tăng tính xác cho việc dự báo, giúp nhà đầu tư có cơng cụ hiệu việc đưa định đầu tư giảm thiểu rủi ro  Tối ưu lại bước trực quan hóa liệu cho mơ hình LSTM để tăng hiệu việc dự báo  Thu thập thêm thơng tin bình luận nhà đầu tư thị trường chứng khốn từ kênh khác, từ đánh giá phân tích tâm lý nhà đầu tư ảnh hưởng loại thông tin đến việc dự báo giá chứng khoán 63 TÀI LIỆU THAM KHẢO [1] Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean, Efficient Estimation of Word Representations in Vector Space [2] Tomas Mikolov, Quoc V, Le, Ilya Sutskever, Exploiting Similarities among Languages for Machine Translation Paper [3] McCormick, C, (2016, April 19), Word2Vec Tutorial - The Skip-Gram Model, [4] Alex Sherstinsky, Fundamentals of Recurrent Neural Network (RNN) and Long Short-Term Memory (LSTM) network (Published in the Elsevier journal “Physica D: Nonlinear Phenomena”, Volume 404, March 2020) [5] https://www.cs.toronto.edu/~lczhang/360/lec/w06/rnn.html [6] ThomasFischer, ChristopherKrauss, Deep learning with long short-term memory networks for financial market predictions [7] https://spring.io/projects/spring-boot [8] https://vuejs.org/ [9] https://redis.io/documentation [10] https://scikit-learn.org/stable/user_guide.html [11] https://fasttext.cc/docs/en/support.html [12] https://deeplearning4j.konduit.ai/ [13] https://machinelearningcoban.com/ [14] Wenjie Lu, Jiazheng Li, Yifan Li, Aijun Sun and Jingyang Wang, A CNN-LSTMBased Model to Forecast Stock Prices [15] Murtaza Roondiwala, Harshal Patel, Shraddha Varma, Predicting Stock Prices Using LSTM 64 ... động thị trường chứng khoán sở giải thuật sử dụng liệu lịch sử Vì vậy, đề tài này, tơi trình bày vài phương pháp nhằm ứng dụng học máy việc xây dựng cơng cụ để dự đốn biến động thị trường chứng. .. chứng khoán Việt Nam từ năm 2010 đến Giới thiệu chung thị trường chứng khoán Việt Nam Chứng khốn tên gọi chung chứng chuyển đổi thành tiền, chứng khoán bao gồm loại cổ phiếu, trái phiếu, chứng. .. thu thập liệu thị trường chứng khoán, phân tích thiết kế xây dựng ứng dụng hỗ trợ cho nhà đầu tư chứng khoán, ứng dụng giải thuật đánh giá sắc thái tin tức, mơ hình LSTM đự đoán giá cho tương lai

Ngày đăng: 04/04/2022, 12:47

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean, Efficient Estimation of Word Representations in Vector Space Sách, tạp chí
Tiêu đề: Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean
[2] Tomas Mikolov, Quoc V, Le, Ilya Sutskever, Exploiting Similarities among Languages for Machine Translation Paper Sách, tạp chí
Tiêu đề: Tomas Mikolov, Quoc V, Le, Ilya Sutskever, Exploiting Similarities among Languages for Machine Translation
[14] Wenjie Lu, Jiazheng Li, Yifan Li, Aijun Sun and Jingyang Wang, A CNN-LSTM- Based Model to Forecast Stock Prices Sách, tạp chí
Tiêu đề: Wenjie Lu, Jiazheng Li, Yifan Li, Aijun Sun and Jingyang Wang
[15] Murtaza Roondiwala, Harshal Patel, Shraddha Varma, Predicting Stock Prices Using LSTM Sách, tạp chí
Tiêu đề: Murtaza Roondiwala, Harshal Patel, Shraddha Varma
[6] ThomasFischer, ChristopherKrauss, Deep learning with long short-term memory networks for financial market predictions Khác

HÌNH ẢNH LIÊN QUAN

CHƯƠNG 2. CÁC MƠ HÌNH HỌC MÁY - Xây dựng ứng dụng và áp dụng giải thuật học máy cho thị trường chứng khoán việt nam
2. CÁC MƠ HÌNH HỌC MÁY (Trang 17)
Đầu vào của mơ hình Skip-gram[2] là một từ trong câu. Thuật toán sẽ nhìn vào số - Xây dựng ứng dụng và áp dụng giải thuật học máy cho thị trường chứng khoán việt nam
u vào của mơ hình Skip-gram[2] là một từ trong câu. Thuật toán sẽ nhìn vào số (Trang 18)
2.1.2 Mô hình Skip-gram - Xây dựng ứng dụng và áp dụng giải thuật học máy cho thị trường chứng khoán việt nam
2.1.2 Mô hình Skip-gram (Trang 18)
Hình 2.4. Ma trận trọng số của lớp ẩn của mơ hình Word2vec [3] - Xây dựng ứng dụng và áp dụng giải thuật học máy cho thị trường chứng khoán việt nam
Hình 2.4. Ma trận trọng số của lớp ẩn của mơ hình Word2vec [3] (Trang 19)
Hình 2.9. Các dạng bài toán RNN [5] - Xây dựng ứng dụng và áp dụng giải thuật học máy cho thị trường chứng khoán việt nam
Hình 2.9. Các dạng bài toán RNN [5] (Trang 23)
Hình 3.4. Mơ hình đồng bộ dữ liệu - Xây dựng ứng dụng và áp dụng giải thuật học máy cho thị trường chứng khoán việt nam
Hình 3.4. Mơ hình đồng bộ dữ liệu (Trang 27)
Bảng 3.1. Bảng mô tả use case xem tin tức theo chủ đề - Xây dựng ứng dụng và áp dụng giải thuật học máy cho thị trường chứng khoán việt nam
Bảng 3.1. Bảng mô tả use case xem tin tức theo chủ đề (Trang 33)
Bảng 3.3. Bảng mô tả use case tạo watchlist - Xây dựng ứng dụng và áp dụng giải thuật học máy cho thị trường chứng khoán việt nam
Bảng 3.3. Bảng mô tả use case tạo watchlist (Trang 35)
Bảng 3.8. Bảng mô tả use case sửa crawler - Xây dựng ứng dụng và áp dụng giải thuật học máy cho thị trường chứng khoán việt nam
Bảng 3.8. Bảng mô tả use case sửa crawler (Trang 38)
Bảng 3.7. Bảng mô tả use case thê m1 crawler - Xây dựng ứng dụng và áp dụng giải thuật học máy cho thị trường chứng khoán việt nam
Bảng 3.7. Bảng mô tả use case thê m1 crawler (Trang 38)
Hình 3.13. Biểu đồ use case quản lý user - Xây dựng ứng dụng và áp dụng giải thuật học máy cho thị trường chứng khoán việt nam
Hình 3.13. Biểu đồ use case quản lý user (Trang 39)
Bảng 3.9. Bảng mô tả use case hẹn giờ tự động chạy - Xây dựng ứng dụng và áp dụng giải thuật học máy cho thị trường chứng khoán việt nam
Bảng 3.9. Bảng mô tả use case hẹn giờ tự động chạy (Trang 39)
Bảng 3.10. Bảng mô tả use case thêm user nhà đầu tư - Xây dựng ứng dụng và áp dụng giải thuật học máy cho thị trường chứng khoán việt nam
Bảng 3.10. Bảng mô tả use case thêm user nhà đầu tư (Trang 40)
Bảng 3.11. Bảng mô tả use case sửa thông tin user - Xây dựng ứng dụng và áp dụng giải thuật học máy cho thị trường chứng khoán việt nam
Bảng 3.11. Bảng mô tả use case sửa thông tin user (Trang 40)
Bảng 3.12. Bảng mơ tả use case xóa user nhà đầu tư - Xây dựng ứng dụng và áp dụng giải thuật học máy cho thị trường chứng khoán việt nam
Bảng 3.12. Bảng mơ tả use case xóa user nhà đầu tư (Trang 41)
Hình 3.18. Sơ đồ người dùng xem tin tức đã tính tốn sắc thái - Xây dựng ứng dụng và áp dụng giải thuật học máy cho thị trường chứng khoán việt nam
Hình 3.18. Sơ đồ người dùng xem tin tức đã tính tốn sắc thái (Trang 44)
Hình 3.26. Sơ đồ người dùng xem tin tức đã tính tốn sắc thái - Xây dựng ứng dụng và áp dụng giải thuật học máy cho thị trường chứng khoán việt nam
Hình 3.26. Sơ đồ người dùng xem tin tức đã tính tốn sắc thái (Trang 48)
Hình 3.25. Sơ đồ tự động cập nhật sắc thái tin tức - Xây dựng ứng dụng và áp dụng giải thuật học máy cho thị trường chứng khoán việt nam
Hình 3.25. Sơ đồ tự động cập nhật sắc thái tin tức (Trang 48)
Hình 3.30. Thiết kế cài đặt crawler - Xây dựng ứng dụng và áp dụng giải thuật học máy cho thị trường chứng khoán việt nam
Hình 3.30. Thiết kế cài đặt crawler (Trang 50)
Hình 3.31. Thiết kế thu thập dữ liệu crawler - Xây dựng ứng dụng và áp dụng giải thuật học máy cho thị trường chứng khoán việt nam
Hình 3.31. Thiết kế thu thập dữ liệu crawler (Trang 51)
Hình 3.32. Thiết kế người dùng xem tin tức đã tính tốn sắc thái - Xây dựng ứng dụng và áp dụng giải thuật học máy cho thị trường chứng khoán việt nam
Hình 3.32. Thiết kế người dùng xem tin tức đã tính tốn sắc thái (Trang 51)
Hình 3.33. Thiết kế Admin cập nhật sắc thái tin tức thủ công - Xây dựng ứng dụng và áp dụng giải thuật học máy cho thị trường chứng khoán việt nam
Hình 3.33. Thiết kế Admin cập nhật sắc thái tin tức thủ công (Trang 52)
Bảng 3.16. Bảng posts - Xây dựng ứng dụng và áp dụng giải thuật học máy cho thị trường chứng khoán việt nam
Bảng 3.16. Bảng posts (Trang 55)
Bảng 3.22. Bảng stock_predictions - Xây dựng ứng dụng và áp dụng giải thuật học máy cho thị trường chứng khoán việt nam
Bảng 3.22. Bảng stock_predictions (Trang 57)
Ở màn hình này sẽ hiển thị danh sách các báo đang được thu thập - Xây dựng ứng dụng và áp dụng giải thuật học máy cho thị trường chứng khoán việt nam
m àn hình này sẽ hiển thị danh sách các báo đang được thu thập (Trang 59)
Hình 3.36. Thiết kế giao diện danh sách bot - Xây dựng ứng dụng và áp dụng giải thuật học máy cho thị trường chứng khoán việt nam
Hình 3.36. Thiết kế giao diện danh sách bot (Trang 59)
tạo các nhóm tin tức cho từng nhóm cổ phiếu riêng để theo dõi. Hình ảnh bên dưới là - Xây dựng ứng dụng và áp dụng giải thuật học máy cho thị trường chứng khoán việt nam
t ạo các nhóm tin tức cho từng nhóm cổ phiếu riêng để theo dõi. Hình ảnh bên dưới là (Trang 67)
Hình 4.2. Ví dụ tin tức về nhóm cổ phiếu ngành ngân hàng - Xây dựng ứng dụng và áp dụng giải thuật học máy cho thị trường chứng khoán việt nam
Hình 4.2. Ví dụ tin tức về nhóm cổ phiếu ngành ngân hàng (Trang 67)
Bảng bên dưới mô tả giá trị đầu vào thử nghiệm với model thu được ở bước - Xây dựng ứng dụng và áp dụng giải thuật học máy cho thị trường chứng khoán việt nam
Bảng b ên dưới mô tả giá trị đầu vào thử nghiệm với model thu được ở bước (Trang 70)
Hình 4.7. Kết quả dự báo giá cổ phiếu ACB từ ngày 22/04/2021 đến ngày 31/12/2021  - Xây dựng ứng dụng và áp dụng giải thuật học máy cho thị trường chứng khoán việt nam
Hình 4.7. Kết quả dự báo giá cổ phiếu ACB từ ngày 22/04/2021 đến ngày 31/12/2021 (Trang 71)
w