Dự đoán xu hướng chứng khoán rổ VN30 tại sàn HOSE dựa trên tin tức tài chính

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	30
Dung lượng	1,67 MB

Nội dung

Dự đoán xu hướng chứng khoán rổ VN30 tại sàn HOSE dựa trên tin tức tài chính Huỳnh Đức Huy Cao Hùng Thiên Bảo Dương Thị Xuân Thoại Trần Thành Tân Trường Đại Học Công Nghệ Thông Tin... Mụ

Trang 1

Dự đoán xu hướng chứng khoán rổ VN30 tại sàn HOSE

dựa trên tin tức tài chính

Huỳnh Đức Huy

Cao Hùng Thiên Bảo

Dương Thị Xuân Thoại

Trần Thành Tân

Trường Đại Học Công Nghệ Thông Tin

Trang 2

Nội dung trình bày

Trang 3

Trang 5

Đặt vấn đề

3

Mô hình

dự đoán hiệu quả

Quyết định đầu tư

đúng đắn

Trang 6

Trang 7

Mục tiêu nghiên cứu

4

• Nghiên cứu, phát triển một hệ thống có khả năng dự báo xu hướng chứng khoán của trong rổ VN30 thuộc sàn chứng khoán HOSE dựa trên tin tức tài chính và giá lịch sử của

cổ phiếu theo ngày.

• Đảm bảo độ tin cậy, chính xác cho mô hình

sử dụng các giải thuật cải tiến.

Trang 8

Trang 9

Các phương pháp tiếp cận

5

Trang 10

Trang 11

Phương pháp thực hiện

6

Giảm số chiều vector đặc trưng

Giá cổ phiếu

Từ điển trọng số

Máy học SVM

Mô hình SVM Kiểm tra

Sơ đồ hệ thống

HTML Tách từ, loại từ dừng Phân lớp Delta TFIDF[7]

LibSVM[1]

OCFS[6]

Support vectors[2]

Độ chính xác

Trang 12

Loại tag

VnTokenizer[4

]

Danh sách từ

Loại từ dừng

Quy trình tiền xử lý văn bản

Danh sách từ

đã được tối ưu hóa

1 Loại bỏ thẻ trong định dạng html  tin tức (.txt)

2 Tách từ bằng VnTokenizer  danh sách các từ.

3 Loại bỏ từ dừng (à, ừ,…)  danh sách các từ đã được tối ưu.

Trang 13

lớp +1: tăng -1: giảm

Giá chứng khoán

Tính vector đặc trưng sử dụng phương pháp Delta TFIDF[7]

Giá đóng cửa – giá mở cửa

Phân lớp dựa trên ngày ra bản tin và ngày giao dịch

Trang 14

Từ điển gồm các từ đã được gán trọng số

Trang 15

Đánh trọng số từ

10

Delta TFIDF[7] là thuật toán tăng độ quan trọng của từ được phân bố không đều giữa lớp giảm và lớp tăng và giảm độ quan trọng của từ được phân bố đều giữa lớp giảm và lớp tăng.

Công thức tính:

Trong đó:

Ct,d là số lần luật t xuất hiện trong tin tức d,

Pt là số văn bản được gán nhãn tăng mà luật t xuất hiện,

|P| là số văn bản được gán nhãn tăng trong toàn bộ văn bản,

Nt là số văn bản được gán nhãn giảm mà luật t xuất hiện,

|N| là số văn bản được gán nhãn giảm trong toàn bộ văn bản,

Vt,d là trọng số cho luật t trong văn bản d

Trang 16

Phương pháp giảm số chiều vector

OCFS[6] là phương pháp trích chọn đặc trưng trực chuẩn - thuật toán giảm số chiều tối ưu cả về lưu trữ và thời gian xử lý so với các

phương pháp truyền thống IG, CHI

Nội dung chính của thuật toán:

• Tính centroid m=1, 2,…, c cho mỗi phân lớp của bộ huấn luyện

• Tính centroid m cho tất cả các phân lớp của bộ huấn luyện

• Tính điểm của từng luật i-th

• Chọn K luật có điển cao nhất

Trang 17

Trang 19

Các độ đo

13

Trang 20

Delta TFIDF kết hợp trọng số

Độ chính xác cao

Trang 21

So sánh các hướng tiếp cận

15

TFIDF Delta TFIDF Delta TFIDF + Trọng số

0 10 20 30 40 50 60 70 80 90

Biểu đồ so sánh các hướng tiếp cận theo khoản thời gian

Phương pháp Delta TFIDF kết hợp với trọng số cho kết quả tốt nhất ở tất cả các khoản thời gian

Trang 22

So sánh độ chính xác theo thời gian

Mẫu 1 (5 tháng) Mẫu 2 (10 tháng) Mẫu 3 (15 tháng)

Mẫu thời gian theo tháng

Trang 23

So sánh theo xu hướng giá

17

Biểu đồ tương quan giữa dự đoán xu hướng và giá thực tế của rổ VN30

Điểm đánh dấu tròn là thời điểm giá chứng khoán thay đổi xu hướng

Dự đoán sai

Dự đoán đúng

Trang 24

Kết quả dự đoán 5 mã có ảnh hướng nhất

Dự đoán

Mở cửa

Đóng cửa

Dự đoán

Mở cửa

Đóng cửa

Dự đoán

Mở cửa

Đóng cửa

Dự đoán

Mở cửa

Đóng cửa

Dự đoán

Trang 25

Trang 26

Kết luận

 Nghiên cứu của nhóm phản ánh đúng thực trạng sàn HOSE – nơi có chỉ số tài chính tốt và tính thanh khoản cao.

 Đặc biệt khi áp dụng vào rổ VN30 mang lại độ chính xác

 Bằng việc kết hợp phương pháp Delta TFIDF với đánh trọng số từ, nghiên cứu đã cho kết quả cải thiện độ

Trang 27

Tài liệu tham khảo chính

[3] Dien Dinh, Hoang Kiem, “Vietnamese Word Segmentation.” NLPRS Vol 1 2001

[4] Le Hong Phuong, Azim Roussanaly, “A hybrid approach to word segmentation of Vietnamese texts.” Language and Automata Theory and Applications Springer Berlin Heidelberg, 2008 240-249

[5] Kaya, MI Yasef, “Stock price prediction using financial news articles.” Information and Financial Engineering (ICIFE), 2010 2nd IEEE International Conference on IEEE, 2010

[6] Yan, Jun, “OCFS: optimal orthogonal centroid feature selection for text categorization.” Proceedings of the 28th annual international ACM SIGIR conference

on Research and development in information retrieval ACM, 2005

Trang 28

Tài liệu tham khảo chính

[7] Martineau, Justin, “Delta TFIDF: An Improved Feature Space for Sentiment Analysis.” ICWSM 2009

[8] Lauren, Stefan, “Stock trend prediction using simple moving average supported by news classification.” Advanced Informatics: Concept, Theory and Application (ICAICTA), 2014 International Conference of IEEE, 2014

[9] Lin, Yuling, “An SVM-based approach for stock market trend prediction.” Neural Networks (IJCNN), The 2013 International Joint Conference on IEEE, 2013

[10] Thomas, James D., “Integrating genetic algorithms and text learning for financial prediction.” Data Mining with Evolutionary Algorithms(2000): 72-75

[11] Le-Hong, Phuong, “An empirical study of maximum entropy approach for speech tagging of Vietnamese texts.” Traitement Automatique des Langues Naturelles-TALN 2010 2010

Trang 29

part-of-Kết thúc báo cáo

Trân trọng cảm ơn Thầy và các bạn đã lắng nghe!

Trang 30

Phụ lục

Ngày đăng: 24/08/2015, 22:46

Nguồn tham khảo

Tài liệu tham khảo

Loại

Chi tiết

[1] Chang, C. C., C. J. Lin, “LIBSVM: a library for support vector machines. ACM transactions on intelligent systems and technology 2: 27: 1–27: 27.” (2012)

Sách, tạp chí

Tiêu đề:	LIBSVM: a library for support vector machines. ACM transactions on intelligent systems and technology 2: 27: 1–27: 27

[2] Cortes, Vladimir Vapnik, “Support-vector networks.” Machine learning 20.3 (1995): 273-297

Sách, tạp chí

Tiêu đề:	Support-vector networks
Tác giả:	Cortes, Vladimir Vapnik, “Support-vector networks.” Machine learning 20.3
Năm:	1995

[3] Dien Dinh, Hoang Kiem, “Vietnamese Word Segmentation.” NLPRS. Vol. 1. 2001

Sách, tạp chí

Tiêu đề:	Vietnamese Word Segmentation

[4] Le Hong Phuong, Azim Roussanaly, “A hybrid approach to word segmentation of Vietnamese texts.” Language and Automata Theory and Applications. Springer Berlin Heidelberg, 2008. 240-249

Sách, tạp chí

Tiêu đề:	A hybrid approach to word segmentation of Vietnamese texts

[5] Kaya, MI Yasef, “Stock price prediction using financial news articles.” Information and Financial Engineering (ICIFE), 2010 2nd IEEE International Conference on. IEEE, 2010

Sách, tạp chí

Tiêu đề:	Stock price prediction using financial news articles

[6] Yan, Jun, “OCFS: optimal orthogonal centroid feature selection for text categorization.” Proceedings of the 28th annual international ACM SIGIR conference on Research and development in information retrieval. ACM, 2005

Sách, tạp chí

Tiêu đề:	OCFS: optimal orthogonal centroid feature selection for text categorization

[7] Martineau, Justin, “Delta TFIDF: An Improved Feature Space for Sentiment Analysis.” ICWSM. 2009

Sách, tạp chí

Tiêu đề:	Delta TFIDF: An Improved Feature Space for Sentiment Analysis

[8] Lauren, Stefan, “Stock trend prediction using simple moving average supported by news classification.” Advanced Informatics: Concept, Theory and Application (ICAICTA), 2014 International Conference of. IEEE, 2014

Sách, tạp chí

Tiêu đề:	Stock trend prediction using simple moving average supported by news classification

[9] Lin, Yuling, “An SVM-based approach for stock market trend prediction.” Neural Networks (IJCNN), The 2013 International Joint Conference on. IEEE, 2013

Sách, tạp chí

Tiêu đề:	An SVM-based approach for stock market trend prediction

[10] Thomas, James D., “Integrating genetic algorithms and text learning for financial prediction.” Data Mining with Evolutionary Algorithms(2000): 72-75

Sách, tạp chí

Tiêu đề:	Integrating genetic algorithms and text learning for financial prediction
Tác giả:	Thomas, James D., “Integrating genetic algorithms and text learning for financial prediction.” Data Mining with Evolutionary Algorithms
Năm:	2000

[11] Le-Hong, Phuong, “An empirical study of maximum entropy approach for part-of- speech tagging of Vietnamese texts.” Traitement Automatique des Langues Naturelles-TALN 2010. 2010

Sách, tạp chí

Tiêu đề:	An empirical study of maximum entropy approach for part-of-speech tagging of Vietnamese texts

Xem thêm