THỬ NGHIỆM VÀ ĐÁNH GIÁ

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Dự báo xu hướng chứng khoán tại Việt Nam bằng phương pháp học máy 04 (Trang 46)

Chƣơng này thảo luận về các kết quả của các mô phỏng thực nghiệm. Đầu tiên là giới thiệu về dữ liệu đƣợc sử dụng trong thực nghiệm. Tiếp theo chúng tôi giới thiệu về quá trình thực nghiệm. Sau đó kết quả đƣợc trình bày và phân tích ở phần cuối cùng của chƣơng.

4.1. Thu thập dữ liệu

Trong thử nghiệm của mình chúng tôi thực hiện thu thập dữ liệu giao dịch lịch sử của các mã chứng khoán trên sàn giao dịch tại Sở giao dịch chứng khoán Hà Nội (HNX - http://hnx.vn và Sở giao dịch chứng khoán Hồ Chí Minh (HSX - http://www.hsx.vn). Các dữ liệu sử dụng là các giao dịch của các công ty đƣợc niêm yết trên sàn chứng khoán và đƣợc công khai trên mạng Internet, nguồn chính chúng tôi thu thập dữ liệu là tại http://stox.vn.

Dữ liệu đƣợc sử dụng bao gồm các dữ liệu giá chứng khoán giao dịch hàng ngày, giá mở cửa (OPEN), giá thấp ( LOWEST), giá cao nhất (HIGHEST), giá đóng cửa (CLOSE). Ở đây chúng tôi đã thực hiện thu thập ngẫu nhiên 5 mã chứng khoán đƣợc giao dịch trên sàn chứng khoán trong khoảng thời gian từ 2007 tới thời điểm hiện tại với 1631 quan sát, 5 mã đƣợc dùng thử nghiệm nhƣ sau:

Mã CP Tên công ty

ACB Ngân hàng Thƣơng mại Cổ phần Á Châu REE Công ty Cổ phần Cơ điện Lạnh

SAM Công ty Cổ phần Đầu tƣ và Phát triển SACOM SSI Công ty Cổ phần chứng khoán Sài Gòn

STB Ngân hàng Thƣơng mại Cổ phần Sài Gòn Thƣơng Tín

Dữ liệu đƣợc thu thập về gồm các giá trị nhƣ sau ( Ví dụ với một đoạn dữ liệu của mã cổ phiếu ACB):

Ngày Giá đóng cửa Thay đổi ( +/-/%)

Giámở

cửa Giá cao nhất Giá thấp nhất

KLGDkhớ p lệnh (CP) GTGD khớp lệnh(triệu VNĐ) KLGD thỏa thuận (CP) GTGDthỏa thuận (triệu VNĐ) 29/07/2013 15883 83 15800 16000 15800 152682 24,250,737 0 0 26/07/2013 15800 0 15900 15900 15700 403600 63,776,154 67 0,0010354 25/07/2013 15800 -200 15900 16000 15800 231700 36,866,184 236 0,0033984 24/07/2013 16000 0 16000 16000 16000 413100 66,102,048 42 0,0006048 23/07/2013 16000 -100 16100 16100 16000 150900 241,795 50 0,00072 22/07/2013 16000 -100 16100 16100 16000 423700 6,780,735 97 0,001455 19/07/2013 16000 0 16000 16100 16000 228500 36,625,244 376 0,0054144 18/07/2013 16000 -100 16100 16200 16000 232100 5,098,332 94076 1,364,102 17/07/2013 16100 100 16000 16200 15900 450900 7,193,263 115 0,001683 16/07/2013 15900 0 15900 16000 15900 68100 10,838,798 72 0,0010398 15/07/2013 15900 -100 16000 16000 15900 124200 19,779,052 133 0,0019152 …….

4.2. Tiền xử lý dữ liệu

Từ dữ liệu thu thập đƣợc trên tác giả thực hiện tính toán các chỉ số kỹ thuật dùng cho mô hình dựa trên các công thức tính chỉ số đã nêu ở trên và việc tính toán này đƣợc chúng tôi thực hiện bằng tay trên Excel, dữ liệu sau khi đƣợc tính toán và gán nhãn có các giá trị nhƣ sau:

Closed SMA12 SMA26 Bollinger up 20

Bollinger

down20 RSI MACD

MACD – Histogram Label 177500 163130.00 163130.00 191870 134390 90 48308.82 -100424.30 0 184000 165027.27 165027.27 202972.73 127081.82 34.6 49001.22 -106785.28 0 194000 167441.67 167441.67 220558.33 114325 37.9 49834.04 -113595.16 0 202000 171166.67 170100.00 233900 106300 50.9 50609.13 -120534.23 1 194000 174333.33 171807.14 216192.86 127421.43 48.5 50050.44 -125664.25 -1 191000 177000.00 173086.67 208913.33 137260 60.6 48843.27 -129928.48 -1 ….

Bảng 4.3: Dữ liệu sau khi được xử lý của một mã CP

Sau đó dữ liệu đƣợc chuyển sang dạng file *. ARFF để chạy với công cụ hỗ trợ Weka nhƣ sau:

Hình 4.1: Dữ liệu được đưa về định dạng *.arff

4.3. Phƣơng thức phân hoạch dữ liệu

Mỗi tập dữ liệu, ở đây chúng tôi sử dụng phƣơng thức đánh giá chéo k – fold, chia tập dữ liệu làm 10 fold, sau đó tiến hành huấn luyện với 10 lần lặp. Mỗi lần, sử

4.4. Kết quả thử nghiệm

4.4.1. Kết quả chạy thực nghiệm so sánh SVR với mô hình khác

Chúng tôi thực hiện thử nghiệm dự đoán với các mô hình khác nhau bao gồm:

- Mô hình SVR hàm nhân là hàm nhân đa thức (Polynomial - Poly) để ánh xạ dữ liệu nhƣ là các biến đầu vào xi trong mô hình SVR. Thử nghiệm thực hiện với giải thuật SMO cho mô hình hồi quy vector hỗ trợ.

- Mô hình Cây quyết định với thuật toán J48

- Mô hình ANN với hàm MultiLayer Perception và số lớp ẩn là 10.

- Thử nghiệm dự đoán với các chu kỳ là 1 ngày, dữ liệu đầu vào đƣợc lấy từ ngày 1/1/2007 đến 30/11/2013 từ trang web http://stox.vn bao gồm tổng là 1631 quan sát. Đánh giá bằng phƣơng pháp k-fold cross validation với k =10 với 20 điểm dữ liệu trong quá khứ. Kết quả trung bình thu đƣợc thể hiện dƣới bảng sau:

SVR Decision Tree ANN

ACB SAM REE SSI STB ACB SAM REE SSI STB ACB SAM REE SSI STB

Precision 0,702 0,652 0,701 0,664 0,725 0,598 0,534 0,601 0,711 0,595 0,591 0,541 0,613 0,548 0,618 Recall 0,663 0,649 0,672 0,571 0,621 0,483 0,529 0,541 0,521 0,492 0,573 0,529 0,592 0,513 0,539 F-measure 0,635 0,64 0,667 0,538 0,586 0,534 0,531 0,569 0,601 0,539 0,582 0,535 0,602 0,530 0,576 RMSE 0,3999 0,4059 0,3996 0,428 0,4227 0,4021 0,4513 0,4225 0,4123 0,4213 0,3962 0,4529 0,3893 0,4572 0,4322 R 0,7339 0,7308 0,7216 0,776 0,9172 0,6511 0,7423 0,7105 0,7135 0,6103 0,6514 0,6701 0,6331 0,7038 0,6612 MAE 0,3078 0,3129 0,3078 0,3313 0,3268 0,371 0,3125 0,2988 0,3111 0,3812 0,3092 0,3146 0,3201 0,3313 0,3098

Để trực quan hóa, từ bảng kết quả trên chúng tôi thể hiện bằng biểu đồ sau:

Hình 4.2: Biểu đồ thể hiện kết quả thử nghiệm dự đoán với các mô hình khác nhau

4.4.2. Kết quả dự đoán 1 ngày và 5 ngày tiếp theo của các mã với SVR

Ở đây SVR đƣợc chúng tôi đƣa ra kết quả dự đoán từ sau ngày 29/07/2013, các ngày dự đoán là ngày 30/07/2013 và ngày 02/08/2013 với các mã chứng khoán trên. Kết quả dự đoán dựa trên 20 điểm dữ liệu trong quá khứ:

ACB SAM REE SSI STB

1 ngày 5 ngày 1 ngày 5 ngày 1 ngày 5 ngày 1 ngày 5 ngày 1 ngày 5 ngày Dự đoán -1 1 0 -1 1 -1 0 1 -1 0 Thực tế -1 1 0 1 1 1 1 -1 1 0

Bảng 4.5: Kết quả dự đoán của từng mã với thuật toán SVR

Chú thích: 1 : Là xu hướng tăng -1 : Là xu hướng giảm

0 : Là không có xu hướng (Có thể là không thay đổi)

Kết luận chương 4

Với kết quả đánh giá trên ta thấy giá trị kết quả đều khá tốt, mô hình chạy cho kết quả ổn định với các dữ liệu đầu vào khác nhau. Ở đây ta dễ nhận thấy mô hình SVR cho kết quả tốt hơn 2 mô hình còn lại là Random Tree và ANN do mô hình thuật toán SVR cho chỉ số R cao hơn, còn chỉ số MAE và RMSE thấp hơn so với hai mô hình Random Tree và ANN. Từ kết quả trên ta thấy mô hình SVR là đƣợc đánh giá là tốt, phù hợp hơn các mô hình kia trong bài toán toán dự báo với dữ liệu phi tuyến nhƣ bài toán dự báo xu hƣớng chứng khoán trên.

KẾT LUẬN

Luận văn với định hƣớng nghiên cứu vào một số phƣơng pháp học máy và tập trung vào phƣơng pháp Máy véc tơ hồi quy hỗ trợ. Chúng tôi đã áp dụng mô hình kết hợp các chỉ số kỹ thuật này với mô hình máy véc tơ hồi quy hỗ trợ (SVR) để giải quyết bài toán dự báo xu hƣớng chứng khoán. Luận văn đã đạt đƣợc những kết quả là:

 Đã giới thiệu các kiến thức tổng quát về thị trƣờng chứng khoán.

 Nghiên cứu và giới thiệu chi tiết các chỉ số kỹ thuật quan trọng và thông dụng dùng trong phân tích, dự báo chứng khoán.

 Nghiên cứu về khai phá dữ liệu và một vài kỹ thuật cơ bản dùng trong khai phá dữ liệu, đặc biệt với mô hình máy véc tơ hỗ trợ.

 Nghiên cứu xây dựng mô hình thử nghiệm dự báo chỉ số chứng khoán. Kết quả thu đƣợc có chỉ số đánh giá tƣơng đối tốt, song đây chỉ đƣợc coi là một yếu tố dùng tham khảo cho quyết định mua bán chứng khoán trong thực tế, do sự biến động của giá chứng khoán còn phụ thuộc vào nhiều yêu tố khác nữa nhƣ chính trị, kinh tế, tâm lý đám đông …

Với các kết quả thu đƣợc, đã giúp tác giả có những định hƣớng tốt trong việc nghiên cứu ứng dụng các thuật toán học máy trong việc giải quyết các bài toán dự báo đang ngày càng đƣợc quan tâm hiện nay.

Do thị trƣờng chứng khoán Việt Nam hiện này còn non trẻ, thói quen đƣa ra bình luận, nhận xét nghiêm túc và có giá trị tham khảo trên các diễn đàn còn hạn chế nên việc áp dụng với các dạng dữ liệu là siêu dữ liệu đƣợc thu thập từ các trang web hoặc các diễn đàn gặp nhiều khó khăn. Trong thời gian tới chúng tôi sẽ tiếp tục nghiên cứu các phƣơng pháp học máy dùng trong khai phá dữ liệu và kết hợp với khai phá các dữ liệu trên mạng xã hội nhƣ Face book, các diễn đàn chuyên về chứng khoán tại Việt Nam. Nhằm nâng cao kết quả dự báo xu hƣớng chỉ số chứng khoán tại Việt Nam đƣợc tốt hơn.

TÀI LIỆU THAM KHẢO Tiếng Việt

[1] Hoài, N.T., Bình, P.T & Duy, N.K. (2009), Dự Báo và Phân Tích Dữ Liệu trong Kinh Tế và Tài Chính, NXB Thống Kê.

[2] The McGraw Hill Companies (2007), Phân tích kỹ thuật từ A đến Z (Technical Analysis From A to Z, Vietstock dịch và xuất bản.

[3] TS. Lê Văn Phùng; ThS. Quách Xuân Trƣởng (2012), Khai phá dữ liệu, NXB Thông tin và Truyền thông.

Tiếng Anh

[4] Anurag Srivastava, Eui- Hong Han, Vipin Kumar, Vieet Singh. Parallel Formulations of Decision-Tree Classification Algorithm. Kluwer Academic Publisher, 1999.

[5] Ailun Yi (2009), Stock Market Prediction Based on Public Attentions: a Social Web Mining Approach, Master of Science School of InformaticsUniversity of Edinburgh

[6] Colby R. W.(2003), The Encyclopedia of Technical Market Indicators 2nd Edition, McGraw-Hill.

[7] MacQueen J. B. (1967), Some Methods for classification and Analysis of Multivariate Observations, Proceedings of 5-th Berkeley Symposium on Mathematical Statistics and Probability, Berkeley, University of California Press. [8] Robert J. Van Eyden (1996). The Application of Neural Networks in the Forecasting of Share Prices. Finance and Technology Publishing.

[9] The Morgan Kaufmann Series in Data Management Systems, Jim Gray (2000),

Datamining - Concepts and Techniques, Chapter 7 - Classification and Prediction, Series Editor Morgan Kaufmann Publishers.

[10] Vapnik V.N., Jordan M., Lauritzen S.L., Lawless J.F. (1999), Nature of Statistical Learning Theory. Berlin: Springer.

[11] Vatsal H. Shah (2007), Machine Learning Techniques for Stock Prediction,

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Dự báo xu hướng chứng khoán tại Việt Nam bằng phương pháp học máy 04 (Trang 46)

Tải bản đầy đủ (PDF)

(52 trang)