PHÂN TÍCH Dữ liệu DU LỊCH KHÁCH QUỐC TÉ ĐÉN HUÉ
ỨNG DỤNG MẠNG NƠ-RON NHÂN TẠO VÀO DỰ BÁO
Các trường hợp mạng nơ-ron 12-input với dữ liệu liên tục
Lượng du kháchh (dk) của 12 tháng liên tiếp được xem là một mẫu Do đó các mẫu liên tiếp là:
[< số dk 1/⁄2017>, < số dk 2/2017>, < số đk 12/2017>]
[< số dk 2/2017>, < số dk 3/2017>, < số dk 1/⁄2018>]
[< số dk 3/2017>, < số đk 4/2017>, < số đk 2/2018>]
- Với mỗi mẫu vào, mục tiêu dự báo là số du khách của tháng thứ 13 Ví dụ
[< số dk 1/2017>, < số đk 2/2017>, < số đk 12/2017>] => < số đk 1/⁄2018> [< số đk 2/2017>, < số đk 3/2017>, ] => < sé dk 2/2018> [< số dk 3/2017>, < số đk 4/2017>, < số đk 2/2018>] => < số dk 3/2018>
3.2.1.1 Mạng MLP [12-7-1] với hàm kích hoạt SIGMOID
Mạng nơ-ron được huấn luyện trải qua 29216 vòng huấn luyện lỗi MSE đạt 0,005 Đồ thi MSE
29216 0.0 3 ũ r 5000 r 10000 r Số vòng huấn luyện 15000 r 20000 r 25000 r 30000 r Đồ thị 3.1 Đồ thị huấn luyện mạng nơ-ron MLP-SIGMOID [12-7-1] với Input liên tục
Thi Th2 Th3 Th4 Ths The Th7 Th8
Biểu dé 3.1 Két quả dự báo mạng nơ-ron MLP-SIGMOID [12-7-1] với Input liên tục
Mạng nơ-ron đã phát hiện xu hướng tăng giảm của khách du lịch theo tháng với lỗi dự báo MAPE là 18.5% Mô hình này có độ chính xác tốt, vì lỗi MAPE nằm trong khoảng trên 10% và dưới 20% Qua biểu đồ, có thể thấy các giá trị thực tế (nút đỏ) chưa thực sự gần với giá trị dự báo (nút xanh).
3.2.1.2 Mang MLP [12-7-1] voi ham kích hoạt TANH
Mạng nơ-ron được huấn luyện trải qua 5997 vòng huấn luyện và lỗi MSE đạt 0.005 được mô tả theo đồ thị MSE hình 3 Đồ thị MSE
Số vòng huấn luyện Đồ thi 3.2 Dé thi huấn luyện mạng nơ-ron MLP-TANH [12-7-1] với input liên tục
100000 + Th1 Th2 Th3 MAPE Error: 12.66% Th4 Th5 Th6 Th7 Th8
Biểu đồ 3.2 Kết quả dự báo mạng nơ-ron MLP-TANH[12-7-1] với input liên tục
Mạng nơ-ron đã phát hiện xu hướng biến động của khách du lịch theo từng tháng với lỗi dự báo MAPE là 12.66% Mô hình này đạt độ chính xác tốt, khi lỗi MAPE nằm trong khoảng từ 10% đến 20% Biểu đồ cho thấy các giá trị thực tế (nút đỏ) và giá trị dự báo (nút xanh) đã tiến gần nhau hơn, so với mô hình mạng nơ-ron MLP-SIGMOID [12-7-1] với đầu vào liên tục.
3.2.1.3 Mang RBF [12-12-1] với hàm kích hoạt Gauss
Mạng nơ-ron được huấn luyện trải qua 3754 vòng huấn luyện và lỗi MSE đạt 0,005 được mô tả theo đồ thị MSE hình 3
3754 0.00 + 0 500 1000 Số vòng huấn luyện 1500 2000 2500 3000 3500 Đề thị 3.3 Đồ thị huấn luyén mang no-ron RBF [12-12-1] voi input lién tuc
Thi Th2 Th3 Th4 Ths The Th? Ths
Biểu đồ 3.3 Kết quả dự báo mạng nơ-ron RBE [12-12-1] với input liên tục
Mạng nơ-ron đạt lỗi dự báo MAPE 26.61% và có độ chính xác không cao, khó khăn trong việc phát hiện được xu hướng.
Các trường hợp mạng nơ-ron 6-Input với dữ liệu liên tục
Lượng du kháchh (dk) của 7 tháng liên tiếp được xem là một mẫu Do đó các mẫu liên tiếp là:
[< số dk 1/⁄2017>, < số dk 2/2017>, < số dk 6/2017>]
[< số dk 2/2017>, < số dk 3/2017>, < số dk 7/2017>]
[, < số đk 4/2017>, < số dk 8/2017>]
- Với mỗi mẫu vào, mục tiêu dự báo là số du khách của tháng thứ 7 Ví dụ
[, < s6 dk 2/2017>, < 6 dk 6/2017>] => < sé dk 7/2017> [, , ] => < sé dk 8/2017> [< số dk 3/2017>, < 6 dk 4/2017>, < 6 dk 8/2017>] => < sé dk 9/2017> 3.2.2.1 Mang MLP [6-4-1] voi ham kich hoat SIGMOID
Mạng nơ-ron được huấn luyện trải qua 701993 vòng huấn luyện và lỗi MSE đạt 0.005 được mô tả theo đồ thị MSE hình 3 Đồ thị MSE
Số vòng huấn luyện Đồ thị 3.4 Đồ thị huấn luyện mạng nơ-ron MLP-SIGMOID [6-4-1] với input liên tục
Th1 Th2 Th3 Th4 Th5 The Th7 Th8
Biéu dé 3.4 Kết quả dự báo mạng nơ-ron MLP-SIGMOID [6-4-1] với input liên tục
Mạng nơ-ron đã phân tích xu hướng biến động của lượng khách du lịch theo từng tháng, với lỗ MAPE dự báo đạt 28,52% Mặc dù mô hình này cung cấp thông tin hữu ích, nhưng độ chính xác vẫn chưa cao, khi lỗi dự báo MAPE nằm trong khoảng từ 21% đến 50% Qua biểu đồ, có thể nhận thấy sự chênh lệch lớn giữa các giá trị thực tế (nút đỏ) và các giá trị dự báo (nút xanh).
3.2.2.2 Mạng MLP [6-4-1] với hàm kích hoạt TANH
Mạng nơ-ron được huấn luyện trải qua 114604 vòng huấn luyện lỗi MSE đạt
0,005 được mô tả theo dé thị MSE hình 3.9
Số vòng huãn luyện Đồ thị 3.5 Đồ thị huấn luyện mạng nơ-ron MLP-TANH [6-4-1] với mmput liên tục
Thi Th2 Th3 Th4 Th5 Th6 Th7 Th8
Biểu đồ 3.5 Kết quả dự báo mạng nơ-ron MLP-TANH [6-4-1] với input liên tục
Mạng nơ-ron đã xác định xu hướng tăng giảm của khách du lịch theo từng tháng với lỗi MAPE dự báo là 25,95% Mặc dù mô hình này có độ chính xác không cao, với lỗi dự báo MAPE trên 219% và dưới 50%, biểu đồ cho thấy các giá trị thực tế (nút đỏ) cách xa so với giá trị dự báo (nút xanh).
3.2.2.3 Mang RBF [6-18-1] với hàm kích hoat Gauss
Mạng nơ-ron được huấn luyện trải qua 71464 vòng huấn luyện và lỗi MSE đạt 0.005
71464 0.0 +1 0 10000 20000 Số vòng huẩn luyện 30000 40000 50000 60000 70000 Đề thị 3.6 Đồ thị huấn luyện mạng nơ-ron RBF [6-18-1] với input liên tục
Mô hình mạng RBF-12-7-1 25oooo | -Ÿ- Thực tế
50000 - ẹ o Thi Th2 Th3 MAPE Error: 58.09% Th4 Th5 ew Th6 ⁄ Th7 The
Kết quả dự báo từ mạng nơ-ron RBE [6-18-1] với đầu vào liên tục cho thấy mạng nơ-ron đạt được chỉ số MAPE là 58.09% Tuy nhiên, độ chính xác của dự báo không cao và không phát hiện được xu hướng rõ ràng.
Các trường hợp mạng nơ-ron 4-input với dữ liệu liên tục
Lượng du kháchh (dk) của 4 tháng liên tiếp được xem là một mẫu Do đó các mẫu liên tiếp là:
[< số dk 1⁄2017>, < số dk 2/2017>, < số đk 4/2017>]
[, < số đk 3/2017>, < số đk 5/2017>]
[< số dk 3/2017>, < số dk 4/2017>, < số dk 6/2017>]
- Với mỗi mẫu vào, mục tiêu dự báo là số du khách của tháng thứ 5 Ví dụ
Trong bài viết này, chúng tôi sẽ trình bày về các số đăng ký từ 1 đến 7 trong năm 2017, cụ thể là: số dk 1/2017, số dk 2/2017, số dk 3/2017, số dk 4/2017, số dk 5/2017, số dk 6/2017 và số dk 7/2017 Bên cạnh đó, chúng tôi cũng sẽ thảo luận về mạng MLP (Multilayer Perceptron) với hàm kích hoạt SIGMOID, một công nghệ quan trọng trong lĩnh vực học máy.
Mạng nơ-ron được huấn luyện trải qua 1000000(một triệu) vòng huấn luyện và lỗi MSE không đạt yêu cầu Đồ thị MSE
0.30 4 0.25 0.20 0.15 4 0.104 0.05 4 0 r 200000 r 400000 Số vòng huẩn luyện r 600000 1 800000 r 1000001 1000000 Đồ thị 3.7 Dé thị huấn luyện mạng nơ-ron MLP-IGMOID [4-3-1] với input liên tục
Thi Th2 Th3 Th4 Th5 Th6 Th7 Th8
Biểu đồ 3.7 Kết quả dự báo mạng nơ-ron MLP-SIGMOID [4-3-1] với input liên tục
Mô hình này mất quá nhiều thời gian để huấn luyện và không đáp ứng được yêu cầu, đồng thời không thể hiện rõ ràng xu hướng của khách du lịch.
3.2.2.2 Mạng MLP [4-3-1] với hàm kích hoạt TINH
Mạng nơ-ron đã trải qua 1 triệu vòng huấn luyện, tuy nhiên lỗi MSE vẫn chưa đạt yêu cầu, được thể hiện rõ qua đồ thị MSE trong hình 3.
Số vòng huấn luyện Đồ thị 3.8 Đồ thị huấn luyện mạng nơ-ron MLP-TANH [4-3-1] voi input lién tuc
Th1 Th2 Th3 Th4 Th5 Th6 Th7 Th8
Biéu đồ 3.8 Kết quả dự báo mạng nơ-ron MLP-TANH [4-3-1] voi input liên tục
Mạng nơ-ron dự báo có lỗi MAPE là 27,99%, tuy nhiên, mô hình này tiêu tốn quá nhiều thời gian huấn luyện và không đáp ứng được yêu cầu, đồng thời không thể hiện rõ xu hướng của khách du lịch.
3.2.3.3 Mang RBF [4-20-1] ham kich hoat Gauss
Mang no-ron duoc huấn luyện trải qua 1000000(một triệu) vòng huấn luyện và không đạt được lỗi MSE mong muốn Đồ thị MSE
Số vòng huấn luyện Đồ thị 3.9 Đề thị huấn luyện mạng nơ-ron RBF [4-3-1] với mput liên tục
50000 | vw Th1 Th2 Th3 Th4 Th5 The Th7 Th8
Biểu đồ 3.9 Kết quả dự báo mạng nơ-ron RBE [4-20-1] với input liên tục
Mạng nơ-ron dự báo có lỗi MAPE lên tới 38,47%, cho thấy hiệu suất không đạt yêu cầu Hơn nữa, thời gian huấn luyện của mô hình này quá lâu và không thể phản ánh rõ ràng xu hướng của khách du lịch.
Các trường hợp mạng nơ-ron 6-Input với dữ liệu xen kẽ
Lượng du kháchh (dk) của 6 tháng cách nhau I tháng liên tiếp được xem là một mẫu Do đó các mẫu liên tiếp xen kẽ nhau là:
[< số đk 1⁄2017>, < số đk 3/2017>, < số đk 11/2017>]
[< số dk 2/2017>, < số đk 4/2017>, < số đk 12/2017>]
[< số đk 3/2017>, < số đk 5/2017>, < số đk 1/2018>]
- Với mỗi mẫu vào, mục tiêu dự báo là số du khách của tháng thứ 13 Ví dụ
[, < sé dk 3/2017>, < 6 dk 11/2017>] => [, < số đk 4/2017>, < số đk 12/2017>] => < số đk 2/2018> [< số dk 3/2017>, < sé dk 5/2017>, ] => < sé dk 3/2018>
3.2.4.1 Mang MLP [6-4-1] voi ham kich hoat SIGMOID
Mạng nơ-ron được huấn luyện trải qua 421444 vòng huấn luyện và lỗi MSE dat 0,005
Số vòng huãn luyện Đồ thị 3.10 Đồ thị huấn luyện mạng nơ-ron MLP-SIGMOID [6-4-1] với input xen kẽ
120000 + Th1 Th2 Th3 MAPE Error: 12.63% Th4 Th5 The Th7 Ths
Biểu đồ 3.10 Kết quả đự báo mạng no-ron MLP-SIGMOID [6-4-1] voi input xen kẽ
Mạng nơ-ron đã xác định được xu hướng biến động của lượng khách du lịch theo từng tháng với lỗi dự báo MAPE là 12.63% Mô hình này cho thấy độ chính xác tốt, khi mà lỗi MAPE nằm trong khoảng từ 10% đến 20% Qua biểu đồ, giá trị thực tế (nút đỏ) gần với giá trị dự báo (nút xanh), tuy nhiên, các tháng 1, 7 và 8 vẫn chưa đạt độ chính xác cao, còn cách xa giá trị thực tế.
3.2.4.2 Mạng MLP [6-4-1] với hàm kích hoạt ANH
Mạng nơ-ron được huấn luyện trải qua 97973 vòng huấn luyện và lỗi MSE đạt 0,005 Đồ thị MSE
97073 0.04 0 T 20000 r Số vòng huấn luyện 40000 r 60000 T 80000 r 100000 r Đồ thị 3.11 Đề thị huấn luyện mạng nơ-ron MLP-TANH [6-4-1] với input xen kẽ
Th1 Th2 Th3 Th4 Th5 Thé Th? Ths
Biểu đồ 3.11 Kết quả đự báo mạng nơ-ron MLP-TANH [6-4-1] với input xen ké
Mạng Nơ-ron MLP-TANH [6-4-1] đạt được độ chính xác cao với lỗi dự báo MAPE chỉ 8,88% Mạng này có số vòng huấn luyện thấp, cho phép đưa ra kết quả nhanh chóng và hiệu quả trong việc phát hiện xu hướng.
45 nơ-ron này có có khả năng dự báo rất gần với thực tế
3.2.4.3 Mang RBF [6-12-1] với hàm kích hoat Gauss
Mạng nơ-ron được huấn luyện trải qua 409477 vòng huấn luyện và lỗi MSE đạt 0.005 Đồ thị MSE
Số vòng huẩn luyện Đồ thị 3.12 Đề thị huấn luyén mang no-ron RBF [6-12-1] voi input xen ké
Th1 Th2 Th3 Th4 Ths Thé Th7 Th8
Biểu đồ 3.12 Kết quả du bdo mang no-ron RBF [6-12-1] voi input xen ké
Mạng nơ-ron RBF với đầu vào xen kẽ đạt được độ chính xác cao, dự báo MAPE chỉ 8,77% Đây là mạng nơ-ron hiệu quả nhất trong việc phát hiện xu hướng chung của khách du lịch Tuy nhiên, số vòng huấn luyện vẫn còn cao, dẫn đến thời gian học và kiểm thử cho mạng nơ-ron kéo dài.
3.2.5 Các trường hợp mạng nơ-ron 4-input với dữ liệu xen kế
Lượng du kháchh (dk) của 4 tháng cách nhau I tháng liên tiếp được xem là một mẫu Do đó các mẫu liên tiếp xen kẽ nhau là:
[< số dk 1/⁄2017>, < số dk 3/2017>, < số dk 7/2017>]
[< số dk 2/2017>, < số dk 4/2017>, < số dk 8/2017>]
[< số dk 3/2017>, < số dk 5/2017>, < số dk 9/2017>]
- Với mỗi mẫu vào, mục tiêu dự báo là số du khách của tháng thứ 9 Ví dụ
[< số dk 1/2017>, < số dk 3/2017>, < số dk 7/2017>] => < số dk 9/2017> [< số dk 2/2017>, < số đk 4/2017>, < số dk 8/2017>] => < số dk 10/2017> [< số dk 3/2017>, < 6 dk 5/2017>, < 6 dk 9/2018>] => < sé dk 11/2017>
3.2.5.1 Mang MLP [4-3-1] voi ham kich hoat SIGMOID
Mạng nơ-ron được huấn luyện trải qua 1000000 vòng huấn luyện và lỗi MSE không đạt yêu cầu được mô tả theo đồ thị MSE hình 3 Đồ thị MSE
0.05 0 200000 400000 Số vòng huấn luyện 600000 800000 100000} 1000000 Đồ thị 3.13 Đồ thị huấn luyện mạng nơ-ron MLP-SIGMOID [4-3-1] với input xen kẽ
Th1 Th2 Th3 The Ths The Th? Ths
Biểu đồ 3.13 Kết quả đự báo mạng nơ-ron MLP-SIGMOID [4-3-1] voi input xen ké
Mạng nơ-ron này có tỷ lệ lỗi dự báo là 27,14%, tuy nhiên, thời gian huấn luyện của mô hình quá lâu và không đáp ứng được yêu cầu, đồng thời không thể hiện rõ xu hướng của khách du lịch.
3.2.5.2 Mạng MLP [4-3-1] với hàm kích hoạt ANH
Mạng nơ-ron được huấn luyện trải qua 847642 vòng huấn luyện và lỗi MSE đạt 0.005 Đồ thị MSE
Số vòng huấn luyện Đồ thị 3.14 Đề thị huấn luyện mạng nơ-ron MLP-TANH [4-3-1] voi input xen kẽ
Th1 Th2 Th3 Tha Ths Th6 Th7 Th8
Biểu đồ 3.14 Kết quả đự báo mạng nơ-ron MLP-TANH [4-3-1] với input xen ké
Mạng nơ-ron đã đạt lỗi MAPE là 30,67%, tuy nhiên, số vòng huấn luyện quá lớn và thời gian huấn luyện kéo dài đã khiến biểu đồ không thể hiện rõ ràng xu hướng.
Mang no-ron đã trải qua 1 triệu vòng huấn luyện, tuy nhiên vẫn có 16i MSE không đạt yêu cầu, điều này được thể hiện qua đồ thị MSE trong hình 3.
0 Đồ thị 3.15 Đề thị huấn luyén mang no-ron RBF [4-16-1] voi input xen kẽ
50000 | Th1 r Th2 T Th3 r MAPE Error: 38.55% Th4 wo T Ths T The T Th7 T Ths T
Biéu dé 3.15 Két qua du bdo mang no-ron RBF [4-16-1] voi input xen ké
3.3 TONG KET VA DANH GIA KET QUA
3.3.1 So sánh hiệu các loại mạng nơ-ron với nhau
Chúng tôi sẽ lựa chọn các mạng nơ-ron 6-input với dữ liệu xen kẽ để đánh giá và phân tích kết quả, dựa trên tất cả các trường hợp đã được huấn luyện và thực nghiệm kiểm thử.
Chúng ta lựa chọn các mạng nơ-ron hiện nay do chúng mang lại độ chính xác cao nhất so với các loại mạng nơ-ron khác Ngoài ra, các mạng này còn có những ưu điểm vượt trội hơn so với mạng nơ-ron 12-input và 4-input.
- Giảm bớt sự trùng lặp dữ liệu học :
- Số lượng nơ-ron và trọng số cân bằng đủ để lưu giữ lượng thông tin và đảm bảo tốt thời gian học của mạng nơ-ron:
So với mạng nơ-ron 12-input, mạng nơ-ron 4-input gặp khó khăn trong việc thực hiện dự báo do số lượng kết nối và trọng số quá ít, không đủ để chứa đựng thông tin cần thiết Mặc dù mạng nơ-ron 12-input tạo ra nhiều kết nối trọng số, nhưng số lượng nơ-ron lớn có thể làm chậm quá trình học và không đảm bảo độ chính xác cao trong kết quả dự báo.
3.3.2 Lựa chọn mạng nơ-ron có hiệu quả cao nhất
Bảng 3.1 So sánh hiệu quả của các mạng nơ-ron được chọn
Mạng nơ-ron MLP (Multi-Layer Perceptron) và mạng nơ-ron RBE (Radial Basis Function) là hai loại mạng nơ-ron phổ biến trong học máy Mạng MLP thường được cấu trúc theo dạng [6-4-1], trong đó dữ liệu đầu vào được xử lý qua các lớp ẩn trước khi đưa ra kết quả Các hàm kích hoạt như Sigmoid, Gauss và Tanh đóng vai trò quan trọng trong việc tối ưu hóa quá trình học tập của mạng nơ-ron, giúp cải thiện khả năng phân loại và dự đoán.
Phương pháp xác định số lượng nút ẩn trong mạng nơ-ron được thực hiện bằng cách sử dụng công thức xác định tổng số lượng lớp và vector đầu vào Thực nghiệm cho thấy rằng hiện chưa có phương pháp rõ ràng để xác định số lượng nút ẩn một cách chính xác.
Thời gian Nhanh Lâu Nhanh nhất học
Mạng nơ-ron MLP-Tanh cho hiệu quả vượt trội hơn so với MLP-Sigmoid, đạt được lỗi MSE 0,005 chỉ sau 97,973 vòng lặp, với lỗi dự báo MAPE là 8,88%.
Mạng MLP-Tanh vượt trội hơn so với mạng sử dụng hàm kích hoạt Sigmoid nhờ vào việc áp dụng hàm kích hoạt Tanh Điều này giúp cải thiện hiệu suất của mô hình trong việc xử lý và phân tích dữ liệu.
Bảng 3.2 So sánh hiệu quả của các mạng nơ-ron được chọn
Hàm Sigmoid là một hàm kích hoạt đối xứng qua giá trị 0.5, nhưng không có trung tâm tại 0, điều này gây khó khăn cho quá trình hội tụ Ngược lại, hàm TANH được sử dụng rộng rãi hơn vì nó cho ra kết quả kích hoạt trải dài trong khoảng (−1, 1), giúp khắc phục hiện tượng giao động trong khoảng giá trị (0, 1) Việc thiếu trung tâm tại 0 của hàm Sigmoid làm cho việc hội tụ trở nên khó khăn hơn.
Hàm TANH cho phép tìm điểm hội tụ mong muốn một cách dễ dàng hơn so với hàm SIGMOID trong quá trình học, nhờ vào tính đối xứng của nó.
0 khắc phục được nhược điểm của hàm SIGMOID một xu hướng mới trong những năm gần đây