Đánh giá mô hình

Ƣớc lƣợng độ chính xác của mô hình là quan trọng ở chỗ nó cho phép dự đoán đƣợc độ chính xác của các kết quả dự báo những dữ liệu tƣơng lai. Độ chính xác còn giúp so sánh các mô hình phân lớp khác nhau. Có 2 phƣơng pháp đánh giá phổ biến là

holdout và k-fold cross-validation. Cả 2 kỹ thuật này đều dựa trên các phân hoạch ngẫu nhiên tập dữ liệu ban đầu [9]:

Trong phƣơng pháp holdout, dữ liệu dƣa ra đƣợc phân chia ngẫu nhiên thành 2 phần là: tập dữ liệu đào tạo và tập dữ liệu kiểm tra. Thông thƣờng 2/3 dữ liệu cấp cho tập dữ liệu đào tạo, 1/3 dữ liệu còn lại cho tập dữ liệu kiểm tra.

Trong phƣơng pháp k-fold cross validation tập dữ liệu ban đầu đƣợc chia ngẫu nhiên thành k tập con (fold) có kích thƣớc xấp xỉ nhau S1, S2, …, Sk. Quá trình học và test đƣợc thực hiện k lần. Tại lần lặp thứ i, Si là tập dữ liệu kiểm tra, các tập còn lại hợp thành tập dữ liệu đào tạo. Có nghĩa là, đầu tiên việc dạy đƣợc thực hiện trên các tập S2, S3 …, Sk, sau đó test trên tập S1; tiếp tục quá trình dạy đƣợc thực hiện trên tập S1, S3, S4,…, Sk, sau đó test trên tập S2; và cứ thế tiếp tục.

Độ chính xác là toàn bộ số phân lớp đúng từ k lần lặp chia cho tổng số mẫu của tập dữ liệu ban đầu.

Hình 3.2: Phương pháp K-Fold

Nếu độ chính xác của mô hình đƣợc coi nhƣ là chấp nhận đƣợc, mô hình có thể đƣợc sử dụng để phân lớp các mẫu về sau mà nhãn lớp là chƣa biết. Dữ liệu nhƣ vậy cũng đƣợc biết đến trong học máy nhƣ là các dữ liệu chƣa biết “unknown” hoặc dữ liệu trƣớc đây chƣa tồn tại “previously unseen”.

Các tiêu chuẩn sau để đánh giá mô hình:

- Độ chính xác dự đoán (predictive accuracy): Độ chính xác là khả năng của mô hình để dự đoán chính xác nhãn lớp của dữ liệu mới hay dữ liệu chƣa biết.

- Tốc độ (speed): Tốc độ là những chi phí tính toán liên quan đến quá trình tạo ra và sử dụng mô hình.

- Sức mạnh (robustness): Sức mạnh là khả năng mô hình tạo ta những dự đoán đúng từ những dữ liệu noise hay dữ liệu với những giá trị thiếu.

- Khả năng mở rộng (scalability): Khả năng mở rộng là khả năng thực thi hiệu quả trên lƣợng lớn dữ liệu của mô hình đã học.

- Tính hiểu được (interpretability): Tính hiểu đƣợc là mức độ hiểu và hiểu rõ những kết quả sinh ra bởi mô hình đã học.

- Tính đơn giản (simplicity): Tính đơn giản liên quan đến kích thƣớc của cây quyết định hay độ cô đọng của các luật.

Độ đo chất lƣợng phân lớp tiêu chuẩn thể hiện thông qua:

- Độ chính xác (accuracy): là tỷ lệ các cặp khái niệm đƣợc phân loại đúng trên tổng số các cặp khái niệm.

- Độ hồi nhớ (recall): Đo tỷ lệ các tƣơng ứng đƣợc tìm thấy đúng trong tổng số tƣơng ứng đƣợc mong đợi của tập tham chiếu

- Độ đúng đắn (precision): Đo tỷ lệ các tƣơng ứng đƣợc tìm thấy đúng trên tổng số tƣơng ứng đƣợc trả về.

- Độ đo F-measure: là trung bình điều hoà có trọng số của precision và recall, đƣợc sử dụng để đánh giá tổng quát các hệ thống.

Các độ đo đƣợc định nghĩa dựa trên công thức nhƣ hình dƣới. Chúng ta xem các lớp trong một vấn đề phân lớp nhị phân nhƣ là lớp dƣơng “positive” và âm “negative” tƣơng ứng.

Actual result / classification

Predictive result / Classification

yes no

yes tp (true positive) fp (false positive) no fn (false negative) tn (true negative)

Bảng 3.1: Ma trận hỗn hợp trong phân lớp Công thức tính các độ đo: Accuracy = fn fp tn tp tn tp     ; Recall = fn tp tp  ; Precision = tp fp tp F-Measure = 2* recall precision recall precision  * ;

- Sai số căn quân phƣơng

( Root mean squared error - RMSE)

- Sai số tƣơng quan

(Relative absolute error - R)

- Sai số tuyệt đối trung bình

(Mean absolute error - MAE)

Trong đó, yi và fi chỉ giá trị thực và giá trị dự báo tại thời điểm i, , là giá trị trung bình của giá trị thực và giá trị dự báo.

Phƣơng pháp dự báo tốt là phƣơng pháp nhận đƣợc sai số R lớn còn sai số RMSE và MAE nhỏ (càng gần về không càng tốt).

Kết luận chương 3

Chƣơng này chúng tôi đƣa ra mô hình sử dụng cho việc dự báo chỉ số chứng khoán. Các bƣớc xây dựng mô hình đƣợc giới thiệu một cách khá chi tiết. Kết quả cuối cùng là một mô hình kết hợp giữa mô hình SVR với việc sử dụng một số chỉ số cơ bản làm dữ liệu đầu vào. Đây là mô hình đƣợc dùng để xây dựng chƣơng trình dự báo chỉ số chứng khoán và đƣa ra hỗ trợ quyết định đầu tƣ và kinh doanh chứng khoán.

Chƣơng 4. THỬ NGHIỆM VÀ ĐÁNH GIÁ

Chƣơng này thảo luận về các kết quả của các mô phỏng thực nghiệm. Đầu tiên là giới thiệu về dữ liệu đƣợc sử dụng trong thực nghiệm. Tiếp theo chúng tôi giới thiệu về quá trình thực nghiệm. Sau đó kết quả đƣợc trình bày và phân tích ở phần cuối cùng của chƣơng.

4.1. Thu thập dữ liệu

Trong thử nghiệm của mình chúng tôi thực hiện thu thập dữ liệu giao dịch lịch sử của các mã chứng khoán trên sàn giao dịch tại Sở giao dịch chứng khoán Hà Nội (HNX - http://hnx.vn và Sở giao dịch chứng khoán Hồ Chí Minh (HSX - http://www.hsx.vn). Các dữ liệu sử dụng là các giao dịch của các công ty đƣợc niêm yết trên sàn chứng khoán và đƣợc công khai trên mạng Internet, nguồn chính chúng tôi thu thập dữ liệu là tại http://stox.vn.

Dữ liệu đƣợc sử dụng bao gồm các dữ liệu giá chứng khoán giao dịch hàng ngày, giá mở cửa (OPEN), giá thấp ( LOWEST), giá cao nhất (HIGHEST), giá đóng cửa (CLOSE). Ở đây chúng tôi đã thực hiện thu thập ngẫu nhiên 5 mã chứng khoán đƣợc giao dịch trên sàn chứng khoán trong khoảng thời gian từ 2007 tới thời điểm hiện tại với 1631 quan sát, 5 mã đƣợc dùng thử nghiệm nhƣ sau:

Mã CP Tên công ty

ACB Ngân hàng Thƣơng mại Cổ phần Á Châu REE Công ty Cổ phần Cơ điện Lạnh

SAM Công ty Cổ phần Đầu tƣ và Phát triển SACOM SSI Công ty Cổ phần chứng khoán Sài Gòn

STB Ngân hàng Thƣơng mại Cổ phần Sài Gòn Thƣơng Tín

Dữ liệu đƣợc thu thập về gồm các giá trị nhƣ sau ( Ví dụ với một đoạn dữ liệu của mã cổ phiếu ACB):

Ngày Giá đóng cửa Thay đổi ( +/-/%)

Giámở

cửa Giá cao nhất Giá thấp nhất

KLGDkhớ p lệnh (CP) GTGD khớp lệnh(triệu VNĐ) KLGD thỏa thuận (CP) GTGDthỏa thuận (triệu VNĐ) 29/07/2013 15883 83 15800 16000 15800 152682 24,250,737 0 0 26/07/2013 15800 0 15900 15900 15700 403600 63,776,154 67 0,0010354 25/07/2013 15800 -200 15900 16000 15800 231700 36,866,184 236 0,0033984 24/07/2013 16000 0 16000 16000 16000 413100 66,102,048 42 0,0006048 23/07/2013 16000 -100 16100 16100 16000 150900 241,795 50 0,00072 22/07/2013 16000 -100 16100 16100 16000 423700 6,780,735 97 0,001455 19/07/2013 16000 0 16000 16100 16000 228500 36,625,244 376 0,0054144 18/07/2013 16000 -100 16100 16200 16000 232100 5,098,332 94076 1,364,102 17/07/2013 16100 100 16000 16200 15900 450900 7,193,263 115 0,001683 16/07/2013 15900 0 15900 16000 15900 68100 10,838,798 72 0,0010398 15/07/2013 15900 -100 16000 16000 15900 124200 19,779,052 133 0,0019152 …….

4.2. Tiền xử lý dữ liệu

Từ dữ liệu thu thập đƣợc trên tác giả thực hiện tính toán các chỉ số kỹ thuật dùng cho mô hình dựa trên các công thức tính chỉ số đã nêu ở trên và việc tính toán này đƣợc chúng tôi thực hiện bằng tay trên Excel, dữ liệu sau khi đƣợc tính toán và gán nhãn có các giá trị nhƣ sau:

Closed SMA12 SMA26 Bollinger up 20

Bollinger

down20 RSI MACD

MACD – Histogram Label 177500 163130.00 163130.00 191870 134390 90 48308.82 -100424.30 0 184000 165027.27 165027.27 202972.73 127081.82 34.6 49001.22 -106785.28 0 194000 167441.67 167441.67 220558.33 114325 37.9 49834.04 -113595.16 0 202000 171166.67 170100.00 233900 106300 50.9 50609.13 -120534.23 1 194000 174333.33 171807.14 216192.86 127421.43 48.5 50050.44 -125664.25 -1 191000 177000.00 173086.67 208913.33 137260 60.6 48843.27 -129928.48 -1 ….

Bảng 4.3: Dữ liệu sau khi được xử lý của một mã CP

Sau đó dữ liệu đƣợc chuyển sang dạng file *. ARFF để chạy với công cụ hỗ trợ Weka nhƣ sau:

Hình 4.1: Dữ liệu được đưa về định dạng *.arff

Khai phá dữ liệu (Data Mining)

Mô hình cây quyết định (Decision Tree Algorithm):