Dự đoán xu hướng chứng khoán rổ VN30 tại sàn HOSE dựa trên tin tức tài chính Huỳnh Đức Huy Cao Hùng Thiên Bảo Dương Thị Xuân Thoại Trần Thành Tân Trường Đại Học Công Nghệ Thông Tin... Mụ
Trang 1Dự đoán xu hướng chứng khoán rổ VN30 tại sàn HOSE
dựa trên tin tức tài chính
Huỳnh Đức Huy
Cao Hùng Thiên Bảo
Dương Thị Xuân Thoại
Trần Thành Tân
Trường Đại Học Công Nghệ Thông Tin
Trang 2Nội dung trình bày
Trang 3Nội dung trình bày
Trang 5Đặt vấn đề
3
Mô hình
dự đoán hiệu quả
Quyết định đầu tư
đúng đắn
Trang 6Nội dung trình bày
Trang 7Mục tiêu nghiên cứu
4
• Nghiên cứu, phát triển một hệ thống có khả năng dự báo xu hướng chứng khoán của trong rổ VN30 thuộc sàn chứng khoán HOSE dựa trên tin tức tài chính và giá lịch sử của
cổ phiếu theo ngày.
• Đảm bảo độ tin cậy, chính xác cho mô hình
sử dụng các giải thuật cải tiến.
Trang 8Nội dung trình bày
Trang 9Các phương pháp tiếp cận
5
Trang 10Nội dung trình bày
Trang 11Phương pháp thực hiện
6
Giảm số chiều vector đặc trưng
Giá cổ phiếu
Từ điển trọng số
Máy học SVM
Mô hình SVM Kiểm tra
Sơ đồ hệ thống
HTML Tách từ, loại từ dừng Phân lớp Delta TFIDF[7]
LibSVM[1]
OCFS[6]
Support vectors[2]
Độ chính xác
Trang 12Loại tag
VnTokenizer[4
]
Danh sách từ
Loại từ dừng
Quy trình tiền xử lý văn bản
Danh sách từ
đã được tối ưu hóa
1 Loại bỏ thẻ trong định dạng html tin tức (.txt)
2 Tách từ bằng VnTokenizer danh sách các từ.
3 Loại bỏ từ dừng (à, ừ,…) danh sách các từ đã được tối ưu.
Trang 13lớp +1: tăng -1: giảm
Giá chứng khoán
Tính vector đặc trưng sử dụng phương pháp Delta TFIDF[7]
Giá đóng cửa – giá mở cửa
Phân lớp dựa trên ngày ra bản tin và ngày giao dịch
Trang 14Từ điển gồm các từ đã được gán trọng số
Trang 15Đánh trọng số từ
10
Delta TFIDF[7] là thuật toán tăng độ quan trọng của từ được phân bố không đều giữa lớp giảm và lớp tăng và giảm độ quan trọng của từ được phân bố đều giữa lớp giảm và lớp tăng.
Công thức tính:
Trong đó:
Ct,d là số lần luật t xuất hiện trong tin tức d,
Pt là số văn bản được gán nhãn tăng mà luật t xuất hiện,
|P| là số văn bản được gán nhãn tăng trong toàn bộ văn bản,
Nt là số văn bản được gán nhãn giảm mà luật t xuất hiện,
|N| là số văn bản được gán nhãn giảm trong toàn bộ văn bản,
Vt,d là trọng số cho luật t trong văn bản d
Trang 16Phương pháp giảm số chiều vector
OCFS[6] là phương pháp trích chọn đặc trưng trực chuẩn - thuật toán giảm số chiều tối ưu cả về lưu trữ và thời gian xử lý so với các
phương pháp truyền thống IG, CHI
Nội dung chính của thuật toán:
• Tính centroid m=1, 2,…, c cho mỗi phân lớp của bộ huấn luyện
• Tính centroid m cho tất cả các phân lớp của bộ huấn luyện
• Tính điểm của từng luật i-th
• Chọn K luật có điển cao nhất
Trang 17Nội dung trình bày
Trang 19Các độ đo
13
Trang 20Delta TFIDF kết hợp trọng số
Độ chính xác cao
Trang 21So sánh các hướng tiếp cận
15
TFIDF Delta TFIDF Delta TFIDF + Trọng số
0 10 20 30 40 50 60 70 80 90
Biểu đồ so sánh các hướng tiếp cận theo khoản thời gian
Phương pháp Delta TFIDF kết hợp với trọng số cho kết quả tốt nhất ở tất cả các khoản thời gian
Trang 22So sánh độ chính xác theo thời gian
Mẫu 1 (5 tháng) Mẫu 2 (10 tháng) Mẫu 3 (15 tháng)
Mẫu thời gian theo tháng
Trang 23So sánh theo xu hướng giá
17
Biểu đồ tương quan giữa dự đoán xu hướng và giá thực tế của rổ VN30
Điểm đánh dấu tròn là thời điểm giá chứng khoán thay đổi xu hướng
Dự đoán sai
Dự đoán đúng
Trang 24Kết quả dự đoán 5 mã có ảnh hướng nhất
Dự đoán
Mở cửa
Đóng cửa
Dự đoán
Mở cửa
Đóng cửa
Dự đoán
Mở cửa
Đóng cửa
Dự đoán
Mở cửa
Đóng cửa
Dự đoán
Trang 25Nội dung trình bày
Trang 26Kết luận
Nghiên cứu của nhóm phản ánh đúng thực trạng sàn HOSE – nơi có chỉ số tài chính tốt và tính thanh khoản cao.
Đặc biệt khi áp dụng vào rổ VN30 mang lại độ chính xác
Bằng việc kết hợp phương pháp Delta TFIDF với đánh trọng số từ, nghiên cứu đã cho kết quả cải thiện độ
Trang 27Tài liệu tham khảo chính
[3] Dien Dinh, Hoang Kiem, “Vietnamese Word Segmentation.” NLPRS Vol 1 2001
[4] Le Hong Phuong, Azim Roussanaly, “A hybrid approach to word segmentation of Vietnamese texts.” Language and Automata Theory and Applications Springer Berlin Heidelberg, 2008 240-249
[5] Kaya, MI Yasef, “Stock price prediction using financial news articles.” Information and Financial Engineering (ICIFE), 2010 2nd IEEE International Conference on IEEE, 2010
[6] Yan, Jun, “OCFS: optimal orthogonal centroid feature selection for text categorization.” Proceedings of the 28th annual international ACM SIGIR conference
on Research and development in information retrieval ACM, 2005
Trang 28Tài liệu tham khảo chính
[7] Martineau, Justin, “Delta TFIDF: An Improved Feature Space for Sentiment Analysis.” ICWSM 2009
[8] Lauren, Stefan, “Stock trend prediction using simple moving average supported by news classification.” Advanced Informatics: Concept, Theory and Application (ICAICTA), 2014 International Conference of IEEE, 2014
[9] Lin, Yuling, “An SVM-based approach for stock market trend prediction.” Neural Networks (IJCNN), The 2013 International Joint Conference on IEEE, 2013
[10] Thomas, James D., “Integrating genetic algorithms and text learning for financial prediction.” Data Mining with Evolutionary Algorithms(2000): 72-75
[11] Le-Hong, Phuong, “An empirical study of maximum entropy approach for speech tagging of Vietnamese texts.” Traitement Automatique des Langues Naturelles-TALN 2010 2010
Trang 29part-of-Kết thúc báo cáo
Trân trọng cảm ơn Thầy và các bạn đã lắng nghe!
Trang 30Phụ lục