3 Trong khoa học về ứng dụng ANN, một tập hợp gồm toàn bộ các mẫu dữ liệu được gọi bằng thuật ngữ Epoch Mỗi mẫu trong bộ dữ liệu được gọi bằng tên Exemplar.
2.6.3. Mô hình mạng thần kinh nhân tạo
Phần nghiên cứu này lựa chọn cấu trúc mạng ANN truyền thẳng đa lớp vì đây là cấu trúc được sử dụng phổ biến nhất và có thể ước lượng được mối quan hệ phi tuyến của phần lớn các biến số. Các biến số đầu vào của mơ hình sẽ bao gồm các chỉ báo phân tích kỹ thuật đã được đề cập đến ở phần trên. Bên cạnh đó, mơ hình cịn kết hợp thêm hai biến đầu vào nữa là sự thay đổi của trung bình di động VNI 15 ngày và 200 ngày tại thời điểm t so với thời điểm t1.
Biến đầu ra của mơ hình được xác định là giá trị logarit tự nhiên của chuỗi số VNI tại thời điểm t+1. Đó là do mơ hình được xây dựng nhằm mục đích dự báo chuỗi giá trị VNI trong ngắn hạn – 1 ngày.
Sau khi thiết lập các biến đầu vào và đầu ra cho mơ hình, vấn đề tiếp đến là xây dựng cấu trúc của mơ hình – thiết lập số lớp ẩn và số neuron cho mỗi lớp ẩn. Theo lý thuyết, mơ hình mạng ANN một lớp ẩn với số lượng neuron đủ lớn sẽ có thể ước lượng bất cứ một hàm liên tục nào (Iebeling, 1996) và trong thực tế mơ hình mạng ANN với một lớp ẩn hoặc thỉnh thoảng hai lớp ẩn đã được ứng dụng rộng rãi và cho kết quả khá tốt. Một sự gia tăng hơn nữa số lớp ẩn rất có thể sẽ dẫn đến tình trạng hàm số được ước lượng để phản ánh mối quan hệ giữa biến đầu vào và biến đầu ra trở nên “quá khít” với các mẫu quan sát được sử dụng để huấn luyện nhưng lại thiếu khả năng khái quát hóa để phản ánh đầy đủ đặc điểm của các biến. Từ đó, dẫn đến kết quả là mơ hình được ước lượng sẽ cho kết quả khơng tốt khi tiến hành kiểm định ngồi mẫu và sẽ khơng có ý nghĩa cho việc dự báo trong thực tế. Do vậy, phần nghiên cứu này của luận án sử dụng mô hình mạng thần kinh truyền thẳng với chỉ một lớp ẩn, tùy thuộc vào kết quả của mơ hình sẽ có sự điều chỉnh nếu cần thiết.
Sau khi thiết lập được số lớp ẩn cho mơ hình, điều tiếp theo cần làm là xác định số neuron cần thiết cho mỗi lớp ẩn. Thực tế là không tồn tại một lý thuyết hoặc phương pháp chung cho việc xác định số neuron phù hợp cho một mơ hình. Theo Shih (1994), mơ hình mạng ANN thơng thường nên có dạng một kim tự tháp. Theo đó, lớp đầu tiên sẽ có số lượng neuron lớn nhất tương ứng với các biến đầu vào và các lớp tiếp theo sau sẽ có số neuron ít hơn. Trong khi đó, Azoff (1994) lại đề nghị rằng số lượng quan sát trong tập dữ liệu dùng để huấn luyện mô hình mạng cần phải ít nhất gấp 10 lần tổng số lượng các trọng số. Hoặc Katz (1992) đưa ra nguyên tắc rằng
số lượng neuron ẩn tối ưu nên nằm trong khoảng từ một nửa cho đến gấp ba lần số neuron đầu vào và JingTao (2000) đưa ra ngun tắc rằng với mơ hình mạng truyền thẳng một lớp duy nhất, số lượng neuron phù hợp có thể là N/2, N/2 +1, N/2 – 1, N/2 +2, N/2 – 2,… với N là số lượng neuron đầu vào. Nhìn chung là việc xác định số lượng neuron địi hỏi q trình tiến hành cách thử và sai liên tục để rút ra được mơ hình tương đối tốt nhất.
Trước khi đi vào xây dựng mơ hình, tập hợp dữ liệu thu thập được gồm khoảng 670 quan sát được tiến hành xáo trộn ngẫu nhiên. Ưu điểm của cách tiếp cận này là góp phần làm gia tăng khả năng khái qt hóa của mơ hình đồng thời cũng sẽ cho ra kết quả kiểm định ngoài mẫu đối với tập dữ liệu kiểm tra lại được chính xác hơn (Iebeling, 1996). Ví dụ, trong trường hợp tập dữ liệu được sử dụng để kiểm tra lại thể hiện một xu hướng đi lên trong chỉ số giá thì khi đó, việc kiểm định đối với tập dữ liệu này sẽ chỉ cho kết quả tốt khi mơ hình đã được xây dựng ban đầu cũng mang đặc tính tương tự. Điều này khiến cho việc đánh giá chất lượng của mơ hình trở nên khơng đáng tin cậy.
Sau khi được xáo trộn một cách ngẫu nhiên, tập dữ liệu thu thập được sẽ được chia làm ba tập hợp nhỏ bao gồm: tập các quan sát dùng để huấn luyện, tập các quan sát dùng để xác nhận và cuối cùng là tập hợp các quan sát dùng để kiểm tra lại. Theo JingTao (2000) thì tỷ lệ các tập hợp này trong tổng số dữ liệu thu thập được vào khoảng lần lượt là 70%, 20% và 10%. Tuy nhiên, tỷ lệ được sử dụng trong bài nghiên cứu này đối với ba tập hợp trên lần lượt là 80%, 10% và 10%.
Tiếp đến, dựa trên các ứng dụng của phần mềm Neural Solution, phần nghiên cứu này tiến hành thử nghiệm các mơ hình mạng truyền thẳng một lớp với số lượng neuron khác nhau. Tiêu chí để so sánh, lựa chọn cấu trúc mạng được đề cập trong phần 2.2.4.
Bảng 2.17: Kết quả mơ hình mạng ANN một lớp ẩn với số lượng các neuron khác nhau
Số Training Cross Validation Testing
neuro của
lớp ẩn MSE r MAE MSE r MAE MSE r MAE
6 0,000315 0,997661 0,014077 0,000493 0,996367 0,016358 0,000563 0,995534 0,018178 7 0,000331 0,997558 0,014205 0,00063 0,99528 0,018847 0,000542 0,995607 0,018018 8 0,000254 0,998115 0,012628 0,000668 0,994901 0,020025 0,000583 0,995353 0,018186 9 0,00025 0,998149 0,012277 0,000621 0,995308 0,01968 0,000691 0,994704 0,020182 10 0,000386 0,997134 0,015409 0,00067 0,994872 0,02023 0,000464 0,99643 0,016741 11 0,000196 0,998556 0,010907 0,000565 0,995722 0,018186 0,000525 0,995674 0,016515
Kết quả trên cho thấy: với 15 biến đầu vào và 1 biến đầu ra được xác định thì mơ hình mạng truyền thẳng một lớp ẩn với 10 neuron sẽ cho kết quả tốt nhất. Cụ thể kết quả của mơ hình mạng ANN truyền thẳng một lớp ẩn với 10 neuron được thể hiện trong bảng sau:
Bảng 2.18: Kết quả mơ hình mạng truyền thẳng một lớp ẩn với 10 neuron Training Cross Val. Testing
Số quan sát 538 67 67
MSE 0,000386 0,00067 0,000464
Correlation (r) 0,997134 0,994872 0,99643
Min Absolute Error 1,69E05 0,000447 0,00119 Max Absolute Error 0,057417 0,074171 0,055145 Mean Absolute Error (MAE) 0,015409 0,02023 0,016741