Phƣơng pháp dự báo dựa vào mô hình SVR

5. Ý nghĩa khoa học và thực tiễn của đề tài

2.6. Phƣơng pháp dự báo dựa vào mô hình SVR

Chúng tôi xây dựng luồng tiến trình giải quyết bài toán dự báo giá cổ phiếu sử dụng các hàm kernel với SVR nhƣ hình 2.7 dƣới đây:

Hình 2.7: Sơ đồ khối của phƣơng pháp

Các bƣớc chính trong quy trình:

 Bƣớc (1): Lấy dữ liệu đầu vào

 Bƣớc (3): Xử lý dữ liệu cho mô hình SVR

 Bƣớc (4):

o Chạy mô hình SVR hàm RBF o Chạy mô hình SVR hàm Linear o Chạy mô hình SVR hàm Polynomial

 Bƣớc (5): So sánh độ chính xác của ba mô hình

Dữ liệu đầu vào là lịch sử giá cổ phiếu của một công ty bất kỳ đƣợc niêm yết trên các sàn chứng khoán trong nƣớc hoặc quốc tế. Lịch sử giá có thể nằm trong khung thời gian bất kỳ từ vài ngày, một tuần, một tháng, một quý hoặc một năm, … . Lịch sử giá cổ phiếu là một dạng dữ liệu chuỗi thời gian, cụ thể thuộc lĩnh vực tài chính, có giá trị đƣợc theo dõi giám sát và ghi nhận theo từng thời điểm trong một khung thời gian xác định.

Hình 2.8: Mô hình chuỗi thời gian của lịch sử giá cổ phiếu công ty Apple

Hiệu suất thực hiện của mô hình SVR phụ thuộc nhiều vào một số siêu tham số (hyperparameter) nhƣ . Cả ba tham số này đều ảnh hƣởng đến độ chính xác dự đoán của mô hình và cần phải chọn lựa kỹ càng. Tuy nhiên, đối với bất kỳ loại cụ thể nào của nhân các giá trị của và ảnh

hƣởng đến độ phức tạp của mô hình cuối cùng.

 Nếu C quá lớn thì sẽ ƣu tiên vào phần độ lỗi huấn luyện, dẫn đến mô hình phức tạp, dễ bị quá khớp. Còn nếu C quá nhỏ thì lại ƣu tiên vào phần độ phức tạp mô hình, dẫn đến mô hình quá đơn giản, giảm độ chính xác dự đoán.

 Ý nghĩa của ε cũng tƣơng tự C. Nếu ε quá lớn thì có ít vectơ hỗ trợ, làm cho mô hình quá đơn giản. Ngƣợc lại, nếu ε quá nhỏ thì có nhiều vectơ hỗ trợ, dẫn đến mô hình phức tạp, dễ bị quá khớp.

Việc lựa chọn các giá trị tối ƣu cho các siêu tham số huấn luyện này ( và ) sẽ đảm bảo các mô hình ít phức tạp hơn và chính xác hơn.

Các siêu tham số là các tham số nằm ngoài mô hình và không phụ thuộc vào tập dữ liệu huấn luyện, có thể đƣợc thiết lập tùy ý bởi ngƣời phát triển trƣớc khi đào tạo mô hình tùy thuộc vào bài toán giải quyết cụ thể; khác với tham số thông thƣờng đƣợc sinh ra từ chính tập dữ liệu khi chạy mô hình. Tập siêu tham số tối ƣu là khác nhau giữa các mô hình, và cũng khác nhau khi huấn luyện một mô hình nhƣng trên các tập dữ liệu khác nhau. Vì vậy, chúng ta hoàn toàn không thể biết đƣợc đối với một bài toán và tập dữ liệu cụ thể thì hyperparameter nhƣ thế nào là tối ƣu nhất. Kĩ thuật để ƣớc lƣợng giá trị tối ƣu cho tập siêu tham số là xác thực chéo, có thể kể đến các kỹ thuật nhƣ k-fold, hold-out hay ở đây phƣơng pháp chúng tôi sử dụng là GridSearch.

Hình 2.9: Sơ đồ sử dụng phƣơng pháp GridSearch

GridSearch đƣợc coi là một phƣơng pháp tối ƣu hóa siêu tham số truyền thống vì về cơ bản chúng ta đang “brute force” tất cả các kết hợp có thể có. Sau đó, các mô hình đƣợc đánh giá thông qua xác nhận chéo. Mô hình có độ chính xác cao nhất đƣơng nhiên đƣợc coi là tốt nhất.

Phƣơng pháp dự báo dựa vào mô hình SVR

Vector hỗ trợ hồi quy (SVR)

Cơ sở toán học của hàm kernel