Ký hiệu Thuộc tính Cơng thức tính
𝑥1 EMA100 𝑃𝑖− 𝐸𝑀𝐴̅̅̅̅̅̅̅̅̅̅̅̅̅̅100(𝑖) 𝑥2 RDP-5 (𝑃(𝑖) − 𝑃(𝑖 − 5))/𝑃(𝑖 − 5) ∗ 100 𝑥3 RDP-10 (𝑃(𝑖) − 𝑃(𝑖 − 10))/𝑃(𝑖 − 10) ∗ 100 𝑥4 RDP-15 (𝑃(𝑖) − 𝑃(𝑖 − 15))/𝑃(𝑖 − 15) ∗ 100 𝑥5 RDP-20 (𝑃(𝑖) − 𝑃(𝑖 − 20))/𝑃(𝑖 − 20) ∗ 100 𝑦 RDP+5 (𝑃(𝑖 + 5)̅̅̅̅̅̅̅̅̅̅̅ − 𝑃(𝑖)̅̅̅̅̅̅)/𝑃(𝑖)̅̅̅̅̅̅ ∗ 100 𝑣ớ𝑖 𝑃(𝑖)̅̅̅̅̅̅ = 𝐸𝑀𝐴̅̅̅̅̅̅̅̅̅̅̅3(𝑖)
Trong đó, 𝑃(𝑖) là chỉ số giá đóng phiên của ngày thứ i, và 𝐸𝑀𝐴𝑚(𝑖) là m-day exponential moving average của giá đóng phiên ngày thứ i.
Theo sự phân tích và đánh giá của L.J. Cao và Francis E.H. Tay trong [26], việc chuyển đổi chỉ số giá ngày thành tỷ lệ sai biệt trung bình 5 ngày (5-day relative difference in percentage of price – RDP) sẽ mang lại một số hiệu quả nhất định, đặc biệt là cải thiện được hiệu quả dự báo. Trong mơ mình này, trên cơ sở những đánh giá trong [26], đồng thời để thuận tiện cho việc so sánh đánh giá hiệu quả của mơ hình, luận án lựa chọn các biến đầu vào và đầu ra theo đề xuất và tính tốn của L.J. Cao và Francis E.H. Tay trong [26].
3.5.2. Lựa chọn các thơng số đánh giá hiệu quả mơ hình
Để đánh giá hiệu quả của các mơ hình dự đốn, cụ thể là trong bài toán dự báo giá cổ phiếu, nhiều tác giả khác nhau đã lựa chọn các thông số khác nhau, phổ biến
3 thông số này để đánh giá kết quả dự báo của mơ hình cịn có mục đích so sánh với các mơ hình đề xuất của các tác giả trong [26] và [45]. Các thông số MAE và NMSE được tính tốn theo các cơng thức (3.3) và (3.6) tương ứng đã được nêu ở mục 3.2.2. Theo đó, độ chính xác của mơ hình dự báo càng cao nếu giá trị sai số NMSE và MAE càng nhỏ. Riêng thông số DS nhằm mục tiêu đo lường tỷ lệ dự báo đúng xu hướng (giữ chiều hay đảo chiều) của giá trị cần dự báo RDP+5. Giá trị của DS lớn chứng tỏ tỷ lệ dự báo đúng xu hướng của giá cổ phiếu cao, điều này chứng tỏ mơ hình dự báo tốt. Cơng thức tính giá trị DS như sau:
𝐷𝑆 = 100 𝑘 ∑ 𝑑𝑡 𝑘 𝑡=1 với 𝑑𝑡 = { 1 0 𝑛ế𝑢 ((𝑦𝑡− 𝑦𝑡−1)(𝑦̂𝑡− 𝑦̂𝑡−1)) ≥ 0 𝑛ế𝑢 𝑛𝑔ượ𝑐 𝑙ạ𝑖 (3.7)
3.6. Triển khai thực nghiệm 3.6.1. Dữ liệu thực nghiệm 3.6.1. Dữ liệu thực nghiệm
Nguồn dữ liệu thực nghiệm được chọn từ bốn mã cố phiếu của các tập đồn và tổ chức tài chính lớn của Mỹ, bao gồm: IBM Corporation stock (IBM), The Apple inc. stock (APPL), The Standard & Poor’s stock index (S&P500) và The Down Jones Industrial Average index (DJI) (xem Bảng 3.2). Tất cả các dữ liệu trên được thu thập trực tiếp từ kho dữ liệu lịch sử của sàn chứng khoán Yahoo Finance (http://finance.yahoo.com/). Dữ liệu được thu thập và sử dụng là giá đóng phiên của các mã cổ phiếu lựa chọn trong khoảng thời gian 10 năm. Sau khi thu thập, tất cả dữ liệu được tiền xử lý bằng công cụ Excel qua các bước sau:
1) Loại bỏ những dữ liệu trong các khoảng thời gian mã cổ phiếu bị khóa giao dịch
2) Tính tốn các giá trị thuộc tính dữ liệu vào - ra theo Bảng 3.1
3) Scale toàn bộ các giá trị dữ liệu vào - ra trong phạm vi [-0.9, 0.9] như đề xuất trong [26] và [45]. Việc scale dữ liệu này cũng nhằm mục đích đáp ứng
tốt điều kiện áp dụng thuật toán huấn luyện máy học véc-tơ hỗ trợ của thư viện LIBSVM [20].
4) Trích lập dữ liệu thành 3 tập dữ liệu riêng biệt, gồm: Tập dữ liệu huấn luyện, Tập dữ liệu xác thực và Tập dữ liệu thử nghiệm (Bảng 3.2).
3.6.2. Phân tích kết quả thực nghiệm
Thực nghiệm được tiến hành trên từng mã cổ phiếu riêng biệt. Dữ liệu huấn luyện của mỗi mã cổ phiếu sẽ được sử dụng để huấn luyện và trích xuất ra các mơ hình mờ riêng biệt, sau đó tập dữ liệu xác thực sẽ được dùng để chạy thử nghiệm và chọn ra các giá trị tối ưu của tham số epsilon và số phân cụm k. Cuối cùng tập dữ liệu thử nghiệm tương ứng của từng mã cổ phiếu được dùng để thử nghiệm dự báo và tính tốn các giá trị thơng số đánh giá mơ hình.