CHƯƠNG 4. HIỆN THỰC VÀ THỬ NGHIỆM
4.5. KẾT QUẢ THỰC NGHIỆM VÀ NHẬN XÉT
4.5.1. Kết quả thực nghiệm khả năng kết hợp thứ nhất
Bảng 4.3 là kết quả thực nghiệm của khả năng kết hợp thứ nhất, là khả năng thu giảm số chiều trên tập dữ liệu dùng để huấn luyện mạng nơron.
Bảng 4.3 Kết quả RMSE của khả năng kết hợp thứ nhất, với nhiều tập dữ liệu khác nhau
Tập dữ liệu Hệ số thu giảm ANN-PIP ANN-PAA
RMSE-Train- ANN-PIP RMSE-Test-
ANN-PIP RMSE-Train-
ANN-PAA RMSE-Test-
ANN-PAA
Treasury
Không thu giảm 102.362 0.163 102.362 0.163
2 157.246 0.078 108.741 0.126
5 241.041 0.209 227.056 0.079
10 335.683 0.205 316.002 0.020
Pay roll
Không thu giảm 144.734 0.124 144.734 0.124
2 221.628 0.235 206.579 0.074
5 321.976 0.268 325.406 0.072
10 443.236 0.295 466.506 0.157
Sales
Không thu giảm 203.953 0.110 203.953 0.110
2 166.277 0.184 112.136 0.090
5 251.728 0.279 31.210 0.167
10 355.467 0.256 14.156 0.230
VNINDEX
Không thu giảm 2,444.885 0.068 2,444.885 0.068
2 154.574 0.058 880.850 0.042
5 103.717 0.080 85.630 0.071
10 127.545 0.145 86.031 0.146
20 171.588 0.193 106.280 0.153
ExchangeRates
Không thu giảm 2,898.804 0.059 2,898.804 0.059
2 4,147.517 0.059 2,927.641 0.033
5 6,544.998 0.107 6,480.127 0.047
10 9,255.075 0.115 9,153.170 0.070
20 13,088.279 0.156 12,959.442 0.066
Memory
Không thu giảm 2913.849 0.225 2913.849 0.225
2 4226.180 0.128 1425.465 0.154
5 6685.860 0.142 2262.667 0.100
10 9455.502 0.125 3202.048 0.164
20 13360.183 0.043 4524.856 0.150
Chương 4. Hiện thực và thử nghiệm 57
Nhận xét và phân tích kết quả tập Treasury
Kết quả RMSE khi dùng tập dữ liệu Treasury được nêu trong Bảng 4.4.
Bảng 4.4 Kết quả RMSE khi dùng tập dữ liệu Treasury
Tập dữ liệu Hệ số thu giảm ANN-PIP ANN-PAA
RMSE-Train- ANN-PIP RMSE-Test-
ANN-PIP RMSE-Train-
ANN-PAA RMSE-Test-
ANN-PAA
Treasury
Không thu giảm 102.362 0.163 102.362 0.163
2 157.246 0.078 108.741 0.126
5 241.041 0.209 227.056 0.079
10 335.683 0.205 316.002 0.020
Ở trường hợp này, tập Treasury là tập nhỏ, có 180 điểm dữ liệu, biến thiên khá nhiều ở mức độ chi tiết.
RMSE-Train-ANN-PAA tỏ ra tốt hơn RMSE-Train-ANN-PIP trong việc huấn luyện do khả năng biểu diễn sự biến thiên chi tiết dữ liệu của PAA tốt hơn PIP. Kết quả và sự giải thích cũng tương tự đối với giai đoạn kiểm tra của mạng nơron (RMSE-Test-ANN-PAAđa số tốt hơnRMSE-Test-ANN-PIP).
So với ANN, thì ANN-PAA lại cho kết quả dự báo tốt hơn (RMSE-Test-ANN-PAA nhỏ hơn). Điều này có thể là do tập Treasury là tập có thành phần xu hướng nên PAA vẫn phản ánh được hình dạng tổng quát của dữ liệu mà không cần nhiều điểm, tương ứng với hệ số thu giảm cao là 5 và 10.
Nhận xét chung trong trường hợp tập dữ liệu nhỏ này là: ANN-PAA huấn luyện và dự báo tốt hơn ANN-PIP. ANN-PAA dự báo tốt hơn ANN.
Nhận xét và phân tích kết quả tập Payroll
Kết quả RMSE khi dùng tập dữ liệu Pay roll được nêu trong Bảng 4.5.
Bảng 4.5 Kết quả RMSE khi dùng tập dữ liệu Pay roll
Tập dữ liệu Hệ số
thu giảm
ANN-PIP ANN-PAA
RMSE-Train- ANN-PIP RMSE-Test-
ANN-PIP RMSE-Train-
ANN-PAA RMSE-Test-
ANN-PAA
Pay roll
Không
thu giảm 144.734 0.124 144.734 0.124
2 221.628 0.235 206.579 0.074
5 321.976 0.268 325.406 0.072
10 443.236 0.295 466.506 0.157
thiên ở mức độ chi tiết nhưng biến thiên rõ nét ở mức độ tổng quát.
RMSE-Train-ANN-PIP tỏ ra tốt hơn trong việc huấn luyện do khả năng biểu diễn hình dạng tổng quát (biến thiên tổng quát) dữ liệu của PIP tốt hơn PAA. Kết quả và sự giải thích cũng tương tự đối với giai đoạn kiểm tra của mạng nơron.
Ngoài ra, ở hệ số thu giảm cao (5 và 10), tương ứng với việc dùng ít điểm dữ liệu hơn để biểu diễn hình dạng tổng quát của dữ liệu, thì phương pháp PIP càng thể hiện ưu thế tổng quát hóa của mình.
So với ANN, thì ANN-PAA lại cho kết quả dự báo tốt hơn. Điều này có thể là do tập Pay roll là tập có thành phần xu hướng nên PAA vẫn phản ánh được hình dạng tổng quát của dữ liệu mà không cần nhiều điểm. Hơn nữa, khi số điểm dữ liệu ít đi, do thu giảm, thì tổng lỗi trong quá trình kiểm tra cũng dễ dàng nhỏ hơn trường hợp không thu giảm. Ngoài ra, nếu hệ số thu giảm cao quá (hệ số 10) thì RMSE-Test-ANN-PAA của quá trình kiểm tra cũng không còn tốt so với ANN. Điều này cho thấy, chúng ta phải cân nhắc việc thu giảm, có nên thu giảm nhiều hay ít. Nếu thu giảm nhiều quá, sẽ làm mất đi ý nghĩa của dữ liệu.
Nhận xét chung trong trường hợp này: ANN-PAA tốt hơn ANN-PIP. ANN-PAA có khả năng dự báo tốt hơn ANN, ở một hệ số thu giảm vừa phải.
Nhận xét và phân tích kết quả tập Sales
Kết quả RMSE khi dùng tập dữ liệu Sales được nêu trong Bảng 4.6.
Bảng 4.6 Kết quả RMSE khi dùng tập dữ liệu Sales
Tập dữ liệu Hệ số thu giảm ANN-PIP ANN-PAA
RMSE-Train- ANN-PIP RMSE-Test-
ANN-PIP RMSE-Train-
ANN-PAA RMSE-Test-
ANN-PAA
Sales
Không thu giảm 203.953 0.110 203.953 0.110
2 166.277 0.184 112.136 0.090
5 251.728 0.279 31.210 0.167
10 355.467 0.256 14.156 0.230
Ở trường hợp này, tập Sales là tập hơi nhỏ, có 301 điểm dữ liệu, biến thiên phức tạp ở mức độ chi tiết.
Chương 4. Hiện thực và thử nghiệm 59
RMSE-Train-ANN-PAA tỏ ra tốt hơn trong việc huấn luyện do khả năng biểu diễn sự biến thiên chi tiết dữ liệu của phương pháp PAA tốt hơn phương pháp PIP. Kết quả và sự giải thích cũng tương tự đối với giai đoạn kiểm tra của mạng nơron (RMSE-Test-PAAtốt hơn).
So với ANN, thì ANN- PAA lại cho kết quả RMSE của quá trình huấn luyện và kiểm tra tốt hơn (RMSE-Train-ANN-PAA vàRMSE-Test-ANN-PAAtốt hơn). Điều này có thể có là do (1) phương pháp PAA vẫn giữ được khả năng biểu diễn chi tiết biến thiên của dữ liệu và (2) tập dữ liệu huấn luyện của mạng nơron kết hợp thu giảm nhỏ hơn tập dữ liệu huấn luyện của mạng nơron không kết hợp thu giảm, nên tổng lỗi RMSE của giai đoạn huấn luyện là nhỏ hơn.
Ngoài ra, nếu hệ số thu giảm cao quá (hệ số 10) thì RMSE-Test-ANN-PAA của quá trình kiểm tra cũng không còn tốt so với ANN. Điều này cho thấy, chúng ta phải cân nhắc việc thu giảm. Nếu thu giảm nhiều quá, kết quả sau khi thu giảm sẽ không phản ánh tốt hình dạng tổng quát của của dữ liệu ban đầu.
Nhận xét chung trong trường hợp này: ANN-PAA tốt hơn ANN-PIP. ANN-PAA có khả năng dự báo tốt hơn ANN, ở một hệ số thu giảm vừa phải.
Nhận xét và phân tích kết quả tập VNINDEX
Kết quả RMSE khi dùng tập dữ liệu VNINDEX được nêu trong Bảng 4.7.
Bảng 4.7 Kết quả RMSE khi dùng tập dữ liệu VNINDEX
Tập dữ liệu Hệ số thu giảm ANN-PIP ANN-PAA
RMSE-Train- ANN-PIP RMSE-Test-
ANN-PIP RMSE-Train-
ANN-PAA RMSE-Test-
ANN-PAA
VNINDEX
Không thu giảm 2,444.885 0.068 2,444.885 0.068
2 154.574 0.058 880.850 0.042
5 103.717 0.080 85.630 0.071
10 127.545 0.145 86.031 0.146
20 171.588 0.193 106.280 0.153
Ở trường hợp này, tập VNINDEX là tập dữ liệu khá lớn, có 2906 điểm dữ liệu, biến thiên phức tạp ở mức độ chi tiết, không tuân theo quy luật nào trên cả phương diện tổng thể.
thiên chi tiết dữ liệu của phương pháp PAA tốt hơn phương pháp PIP. Kết quả và sự giải thích cũng tương tự đối với giai đoạn kiểm tra của mạng nơron (RMSE-Test-PAAtốt hơn).
So với ANN, thì ANN-PAA và ANN-PIP đều cho kết quả RMSE của quá trình huấn luyện tốt hơn (RMSE-Train-ANN-PIPvà RMSE-Train-ANN-PAAtốt hơn). Điều này có thể là do (1) số điểm dữ liệu ban đầu lớn, nên sau khi thu giảm, số lượng PIPs và PAA vẫn còn tương đối nhiều, dẫn đến kết quả dữ liệu thu giảm của cả phương pháp PIP hoặc PAA vẫn còn phản ánh được hình dạng tổng quát lẫn sự biến thiên chi tiết của dữ liệu ban đầu, và (2) tập dữ liệu huấn luyện của ANN-PIP, ANN-PAA nhỏ hơn tập dữ liệu huấn luyện của ANN, nên tổng lỗi RMSE của giai đoạn huấn luyện là nhỏ hơn.
So với ANN, dựa vào các kết quả RMSE ở giai đoạn kiểm tra, ta thấy khả năng dự báo của hầu hết ANN-PIP và ANN-PAA kém hơn. Điều này có thể là do, trong thực tế, dữ liệu VNINDEX biến thiên khôn lường, không theo quy luật nào, nên mạng nơron khó có khả năng dự báo tốt.
Nhận xét chung trong trường hợp tập dữ liệu lớn và biến thiên không theo quy luật này:
ANN-PAA tốt hơn ANN-PIP. Cho dù ANN-PAA và ANN-PIP có huấn luyện tốt hơn ANN đi chăng nữa, thì khả năng dự báo của ANN-PAA và ANN-PIP cũng không khá hơn được, do dữ liệu trong thực tế biến thiên và bất định.
Nhận xét và phân tích kết quả tập Exchange Rate
Kết quả RMSE khi dùng tập dữ liệu Exchange Rate được nêu trong Bảng 4.8.
Bảng 4.8 Kết quả RMSE khi dùng tập dữ liệu Exchange Rate
Tập dữ liệu Hệ số thu giảm ANN-PIP ANN-PAA
RMSE-Train- ANN-PIP RMSE-Test-
ANN-PIP RMSE-Train-
ANN-PAA RMSE-Test-
ANN-PAA
ExchangeRates
Không thu giảm 2,898.804 0.059 2,898.804 0.059
2 4,147.517 0.059 2,927.641 0.033
5 6,544.998 0.107 6,480.127 0.047
10 9,255.075 0.115 9,153.170 0.070
20 13,088.279 0.156 12,959.442 0.066
Chương 4. Hiện thực và thử nghiệm 61
Ở trường hợp này, tập Exchange Rate là tập dữ liệu lớn, có 4773 điểm dữ liệu, biến thiên phức tạp ở mức độ chi tiết, không tuân theo quy luật nào trên cả phương diện tổng thể.
RMSE-Train-ANN-PAA tỏ ra tốt hơn trong việc huấn luyện do khả năng biểu diễn sự biến thiên chi tiết dữ liệu của phương pháp PAA tốt hơn phương pháp PIP. Kết quả và sự giải thích cũng tương tự đối với giai đoạn kiểm tra của mạng nơron (RMSE-Test-PAAtốt hơn).
So với ANN, thì ANN-PAA cho thấy khả năng dự báo tốt hơn ở các hệ số thu giảm vừa phải (2 và 5). Điều này có thể là do, ở hệ số thu giảm vừa phải, kết quả thu giảm chứa nhiều điểm dữ liệu, nên còn phản ánh được hình dạng tổng quát lẫn mức độ biến thiên chi tiết của dữ liệu ban đầu. Nhưng ở hệ số thu giảm cao hơn, tương đương với điểm dữ liệu sau thu giảm ít hơn, phương pháp PAA không còn đảm bảo phản ánh được hình dạng tổng quát lẫn chi tiết của dữ liệu ban đầu, nhất là khi dữ liệu ban đầu là dữ liệu rất biến thiên.
Nhận xét chung trong trường hợp tập dữ liệu lớn và biến thiên không theo quy luật này:
ANN-PAA tốt hơn ANN-PIP. ANN-PAA có khả năng dự báo tốt hơn ANN, ở một hệ số thu giảm vừa phải.
Nhận xét và phân tích kết quả tập Memory
Kết quả RMSE khi dùng tập dữ liệu Memory được nêu trong Bảng 4.9
Bảng 4.9 Kết quả RMSE khi dùng tập dữ liệu Memory
Tập dữ liệu Hệ số thu giảm ANN-PIP ANN-PAA
RMSE-Train- ANN-PIP RMSE-Test-
ANN-PIP RMSE-Train-
ANN-PAA RMSE-Test-
ANN-PAA
Memory
Không thu giảm 2913.849 0.226 2913.849 0.226
2 4226.180 0.128 1425.465 0.154
5 6685.860 0.142 2262.667 0.100
10 9455.502 0.125 3202.048 0.165
20 13360.183 0.043 4524.856 0.150
Ở trường hợp này, tập Memory là tập dữ liệu lớn, có 6210 điểm dữ liệu, biến thiên phức tạp ở mức độ chi tiết, có thành phần bất thường trên cả phương diện tổng thể lẫn chi tiết.
thiên chi tiết dữ liệu của phương pháp PAA tốt hơn phương pháp PIP. Nhưng kết quả ở giai đoạn kiểm tra của mạng nơron thì ngược lại (RMSE-Test-ANN-PIPtốt hơn).
So với ANN, thì cả ANN-PAA, ANN-PIP cho thấy khả năng dự báo tốt hơn ANN trong hầu hết các trường hợp.
Nhận xét chung trong trường hợp tập dữ liệu lớn và biến thiên bất thường: ANN-PAA và ANN-PIP có khả năng dự báo còn tốt hơn ANN.
NHẬN XÉT CHUNG
Trong hầu hết các trường hợp, ANN-PAA tỏ ra tốt hơn ANN-PIP, có khi tốt hơn ở quá trình huấn luyện mạng nơron, có khi tốt hơn ở khả năng dự báo của mạng. Kết quả tốt hơn có được là nhờ khả năng phản ánh chi tiết dữ liệu của phương pháp PAA là tốt hơn, và điều này cũng không phủ nhận khả năng phản ánh tốt hình dạng tổng quát dữ liệu của phương pháp PIP.
Trong một số trường hợp, phương pháp PAA vẫn giữ được hình dạng tổng quát của chuỗi dữ liệu nếu dữ liệu ban đầu không biến thiên nhiều ở mức chi tiết, hoặc có tính xu hướng. Điều này dẫn đến hệ số lỗi của quá trình huấn luyện và khả năng dự báo của ANN-PAA tốt hơn ANN. Ngoải ra, ANN-PAA cũng tỏ ra không thua kém ANN, nếu không muốn nói là tốt hơn, với một hệ số thu giảm số chiều vừa phải, phù hợp.
Ngoài ra, các kết quả cho thấy trong một số trường hợp, ANN-PAA dự báo còn tốt hơn ANN. ANN-PIP đôi khi cũng dự báo tốt hơn ANN nhưng tần suất thấp hơn ANN-PAA.
Chúng tôi vừa đi qua thực nghiệm khả năng kết hợp thứ nhất và thấy rằng sự kết hợp giữa mạng nơron với phương pháp thu giảm PAA, PIP là có ý nghĩa.