CHƯƠNG 3: DỰ BÁO CHO DỮ LIỆU CHUỖI THỜI GIAN
3.3. ĐO LƯỜNG TÍNH CHÍNH XÁC CỦA MÔ HÌNH DỰ BÁO
Tính chính xác của một mô hình dự báo phụ thuộc vào giá trị dự báo Y^t gần với giá trị Yt như thế nào. Trong thực tiễn thì hiệu số giữa giá trị thực tế và giá trị dự báo được định nghĩa là sai số dự báo:
^
t t t
e = −Y Y
Một mô hình dự báo được coi là tốt nếu sai số dự báo sẽ tương đối nhỏ 3.3.2. Các phương pháp thống kê để đo tính chính xác của dự báo
Luận văn sẽ sử dụng một số thước đo về độ chính xác của dự báo dược sử dụng phổ biến và rộng rãi trong học thuật. Những thước đo này thường sử dụng giá trị tuyệt đối của sai số (et ) hoặc bình phương sai số (et2)
▪ Giá trị trung bình của sai số tuyệt đối (Mean Absolute Error):
1 n
t t
e
MAE n
==
▪ Giá trị trung bình của phần trăm sai số tuyệt đối (Mean Absolute Percentage Error):
1 n
t
t t
e MAPE Y
n
= =
▪ Giá trị trung bình của bình phương sai số (Mean Square Error):
2 1 n
t t
e
MSE n
= =
▪ Sai số chuẩn (Root Mean Square Error):
2 1 n
t t
e
RMSE n
= =
Trong đó:
• et: là sai số dự báo trong thời kỳ t
• n: là số quan sát dự báo trong thời kỳ ước lượng
• Yt: là giá trị thực tế trong thời kỳ t 3.4. Kết quả của bài toán
Bảng 3.1: Kết quả sai số của các mô hình
MAE MAPE MSE RMSE
Mô hình 1 6,78 0,0069 80,103 8,95
Mô hình 2 7,21 0,0074 97,51 9,87
Mô hình 3 6,54 0,0067 73,17 8,55
Mô hình 4 5,99 0,0061 64,84 8,05
Mô hình 5 6,04 0,0062 66,71 8,16
Mô hình 6 5,66 0,0058 58,52 7,65
Nguồn : Tính toán của tác giả
Hình 3.1. Kết quả dự báo mô hình 1
Nguồn: Tính toán của tác giả
Hình 3.2. Kết quả dự báo mô hình 2
Nguồn: Tính toán của tác giả
Hình 3.3. Kết quả dự báo mô hình 3
Nguồn: Tính toán của tác giả
Hình 3.4. Kết quả dự báo mô hình 4
Nguồn: Tính toán của tác giả
Hình 3.5. Kết quả dự báo mô hình 5
Nguồn: Tính toán của tác giả
Hình 3.6. Kết quả dự báo mô hình 6
Nguồn: Tính toán của tác giả
3.5. Nhận xét kết quả
Dường như mô hình sử dụng dữ liệu quá khứ của 20 ngày trước đó cho ra một kết quả khả quan hơn các mô hình còn lại. Tuy nhiên điều đó có thể không thật sự chính xác do các thông số của mạng là một quá trình thử sai và ngay cả khi có thể chạy mô hình của rất nhiều tổ hợp các thông số của mô hình như: số lớp, số nút mỗi lớp, các hàm kích hoạt điều mà gần như là không thể thì cũng vẫn chưa thể kết luận được mô hình nào tốt hơn mô hình nào do quá trình tối ưu hóa tham số bằng phương pháp giảm gradient dù có thể xuất phát từ rất nhiều điểm khác nhau nhưng chưa chắc đã đạt được tối ưu toàn cục. Chúng ta chỉ có thể chấp nhận điểm tối ưu cục bộ tìm được gần nhất với điểm tối ưu toàn cục cũng như việc chúng ta chấp nhận thông số của một mô hình mà ta thấy đó là đủ tốt cho quá trình dự báo.
Trong 6 mô hình với các tham số cài đặt chỉ định mà học viên sử dụng trong luận văn này thì mô hình thứ 6 mà học viên trình bày bên trên là mô hình tốt nhất.
Các tham số của mô hình sẽ không được xuất ra như với bài toán phân loại sử dụng ANN ở chương 2 do số lượng tham số của mô hình là rất lớn nhưng kết quả sẽ tương tự như kết quả xuất ra ở chương 2.
Luận văn so sánh kết quả sai số của mô hình 6 với kết quả được đưa ra bởi PGS.TS Huỳnh Quyết Thắng của Viện Công nghệ Thông tin và Truyền thông, trường Đại học Bách khoa Hà Nội trong bài viết ‘Dự đoán xu thế chỉ số chứng khoán Việt Nam VN-Index sử dụng phân tích hồi quy Gaussian Process và mô hình tự hồi quy trung bình động ARMA’ trên chuyên san ‘Các công trình nghiên cứu và phát triển Công nghệ Thông tin và Truyền thông’ đăng tháng 11/2018. Trong bài viết này tác giả sử dụng phương pháp ARMA (Autoregressive moving average), GPR (Gaussian process regression) và phương pháp kết hợp GPR-ARMA để dự báo cho chỉ số VN-Index với tập huấn luyện là các giá trị trong ngày giao dịch từ 02/02/2015 đến 13/04/2016 và tập kiểm tra là từ ngày 14/04/2016 đến 09/08/2016.
Bảng 3.2. Kết quả so sánh mô hình 1 và bài báo [13]
RMSE MAPE
GPR 8.176 0.0102
GPR-ARMA 6.015 0.0073
Mô hình 1 7.65 0.0058
Nguồn: [13]
Mô hình 6 hay là mô hình sử dụng giá quá khứ 20 ngày trước để dự báo cho giá trị của VN-Index cần dự báo của học viên có kết quả RMSE cao hơn so với mô hình tốt nhất là GPR-ARMA của [13] nhưng lại có MAPE thấp hơn so với mô hình này.
Điều này phần nào thể hiện sự tích cực, hiệu quả của các mô hình mạng nơ ron trong việc dự báo cho dữ liệu chuỗi thời gian. Tuy nhiên mô hình mạng nơ ron nhân tạo vẫn sẽ có những hạn chế của riêng mình.
3.6. Nhận xét về mô hình ANN
Mạng nơ ron nhân tạo luôn được coi là một công cụ mạnh để giải quyết các bài toán có tính phi tuyến, phức tạp và đặc biệt trong các trường hợp mà mối quan hệ giữa các quá trình không dễ thiết lập. Tuy nhiên chính vì thế mà mô hình học máy ANN vẫn luôn được coi là một quá trình học hộp đen khi không đưa ra những phân tích thống kê một cách rõ ràng.
Ưu điểm của mạng nơ ron:
✓ Có khả năng tự học và tự điều chỉnh các tham số để kết quả tính toán phù hợp với thực tế mà không phụ thuộc vào ý kiến chủ quan của con người.
✓ Thích hợp với nhiều dạng dữ liệu trong đó có cả dữ liệu chuỗi thời gian. Làm việc tốt với dữ liệu chuỗi thời gian phi tuyến do mô hình ANN chính là một mô hình không tuyến tính tối ưu các tham số sao cho kết quả sai số giữa dự báo và giá trị quan sát là nhỏ nhất.
Hạn chế của mạng nơ ron:
✓ Số lượng các tham số của mô hình thường là rất lớn phụ thuộc vào các đặc trưng của bài toán thực tế vì vậy khó để giải thích tường minh quá trình dẫn tới kết quả.
✓ Việc lựa chọn các thông số của mạng nơ ron nhân tạo là một quá trình thử sai khi không có câu trả lời chung nhất cho việc chọn các thông số cho mô hình như thế nào là tốt nhất cho các chu kì huấn luyện, kiểm tra và kiểm định lại kết quả.
3.7. Đánh giá việc xây dựng mô hình dự báo tài chính bằng phương pháp học máy
Hai bài toán tại chương 2 và chương 3 của luận văn là hai bài toán điển hình của loại bài toán phân loại và bài toán hồi quy trong học máy mà học viên muốn đưa ra để cho thấy rằng các mô hình học máy rất đa dạng, có nguyên lý hoạt động tương đối phức tạp và kèm theo đó là sự hiệu quả trong việc giải quyết các bài toán trên cả lý thuyết lẫn thực tế đã được minh chứng trong các bài báo khoa học, các công trình nghiên cứu. Đối với bài toán phân loại ngoài mô hình hồi quy logistic vẫn thường được biết đến là mô hình logit trong kinh tế lượng thì học máy đã bổ sung thêm tương đối nhiều các mô hình khác như: KNN, Decision Tree, Random Forest, SVM, ANN, Softmax, … là các mô hình đã được tạo ra với các thuật toán chuyên biệt cho việc phân loại được xây dựng từ cơ sở lý thuyết vững chắc điều đó tạo ra sự hiệu quả, độ chính xác tốt hơn của các mô hình này so với mô hình phân loại hiện đang được sử dụng trong kinh tế lượng. Đối với bài toán hồi quy, sự ra đời của mạng nơ ron nhân tạo và các cải tiến của mạng học sâu này đã được công nhận là có sự chính xác vượt trội so với các mô hình hồi quy trong kinh tế lượng truyền thống do khả năng tự học hỏi và điều chỉnh tham số của mô hình cũng như khả năng nhận dạng rất tốt với dữ liệu cả tuyến tính và phi tuyến tính nhờ vào số lượng rất lớn các tham số tham gia vào mô hình, số lượng tham số có thể lên tới hàng triệu, hàng chục triệu, hàng trăm triệu tham số điều hoàn toàn khác biệt so với các mô hình kinh tế lượng truyền thống. Vì vậy các thuật toán học máy được tạo ra có xu
hướng xử lý tốt với các dữ liệu lớn, phức tạp hơn các mô hình thống kê và kinh tế lượng truyền thống.
Học máy là một phương pháp phân tích dữ liệu tự động hóa việc xây dựng mô hình phân tích. Một trong những mô hình tự động dựa trên những trình bày tại chương 2 của học viên là khi hệ thống ghi nhận thông tin của một khách hàng thì hệ thống có thể tự động trả về quyết định có cho khách hàng này vay hay không? vay bao nhiêu? với lãi suất là bao nhiêu? phụ thuộc vào những cài đặt cho trước về khẩu vị rủi ro, chiến lược sản phẩm của tổ chức tài chính và dựa trên những thông tin về khả năng trả nợ của khách hàng được tính toán bởi các mô hình học máy. Học máy là việc dạy máy tính cách học hỏi từ dữ liệu để đưa ra dự đoán, từ đó đưa ra quyết định một cách hợp lý. Chính vì vậy nguồn nguyên liệu đầu vào không thể thiếu của học máy chính là dữ liệu và dữ liệu hiện nay được coi là nguồn tài nguyên, tài sản còn quý hơn cả dầu mỏ trong thời đại công nghiệp 4.0. Do đó học máy cần có nguồn dữ liệu đầu vào lớn, dồi dào, đáng tin cậy để có thể huấn luyện, thử nghiệm và đưa ra dự báo đạt đạt độ chính xác cao. Càng có nhiều dữ liệu thì các mô hình học máy sẽ càng chính xác.
Ngày nay không ai có thể phủ nhận tầm quan trọng của Dữ liệu lớn (Big Data). Tuy nhiên để khai thác Dữ liệu lớn một cách có hiệu quả, nó phải được vận hành bằng những phương pháp phân tích vượt quá khả năng phân tích của các mô hình thống kê và kinh tế lượng truyền thống. Và học máy hiện đang được coi là một trong những giải pháp hữu ích cho những vấn đề kinh doanh có tính chất dữ liệu lớn và phức tạp.
3.8. Một số khuyến nghị chính sách
Với những lý do phía trên, học viên xin đưa ra một số khuyến nghị chính sách nhằm góp phần vào sự phát triển chung của ngành tài chính – ngân hàng như sau:
• Cơ quan quản lý nhà nước cũng như các tổ chức tài chính – ngân hàng cần có những quan điểm, chiến lược đúng đắn về nguồn tài sản rất có giá trị của mình đó là dữ liệu. Cần xây dựng các hệ cơ sở dữ liệu để có thể lưu trữ dữ liệu một cách khoa học, chính xác từ đó làm nền tảng để có thể thấy được
bức tranh toàn cảnh rõ nét về cả hệ thống tài chính – ngân hàng nói chung và các định chế tài chính – ngân hàng nói riêng.
• Đẩy mạnh ứng dụng các tiến bộ của khoa học kỹ thuật phát triển trên thế giới điển hình là học máy trong việc dự báo và ra quyết định trong lĩnh vực tài chính – ngân hàng. Các mô hình học máy sẽ giúp cho các tổ chức tài chính – ngân hàng ra quyết định hoàn toàn tự động, giúp cho quá trình giải quyết công việc nhanh hơn, chính xác hơn, tối ưu hóa nguồn lực lao động. Với tốc độ phát triển nhanh chóng của các nguồn dữ liệu hiện nay cộng thêm sự hoàn thiện của các thuật toán học máy và năng lực tính toán của máy tính.
Việc khai thác những ứng dụng của học máy sẽ giúp cho ngành tài chính – ngân hàng có được sự hỗ trợ hiệu quả trong việc phân tích, xử lý thông tin và đưa ra những quyết định đúng đắn một cách kịp thời mang lại nhiều giá trị và lợi thế. Vì những lý do đó học máy sẽ giữ vai trò quan trọng trong việc phân tích và dự báo trong lĩnh vực tài chính – ngân hàng trong thời gian tới.