MỤC LỤC
• Tìm hiểu và sử dụng các mô hình học sâu: Luận văn sẽ giới thiệu các mô hình học sâu phổ biến được sử dụng trong dự báo chuỗi thời gian, chẳng hạn như mạng nơ-ron tích chập (CNN), mạng nơ-ron tái tạo (RNN), mạng nơ-ron long short-term memory (LSTM). • Xác định các vấn đề cần tập trung giải quyết: Luận văn sẽ phân tích các vấn đề cần tập trung giải quyết trong dự báo chỉ số chất lượng mạng, chẳng hạn như tính không ổn định của dữ liệu, tính đa dạng của các chỉ số chất lượng mạng.
• Độ chính xác cao: Các mô hình học sâu có thể mô tả các xu hướng và biến động trong dữ liệu chuỗi thời gian một cách hiệu quả hơn các phương pháp truyền thống, chẳng hạn như hồi quy tuyến tính hoặc tự hồi quy. MLP có khả năng học và mô hình hóa các mối quan hệ phức tạp giữa các điểm dữ liệu trong chuỗi thời gian, tuy nhiên, cần chú ý đến việc chọn số lượng tầng ẩn, kích thước của từng tầng và các siêu tham số khác để tránh overfitting hoặc underfitting. • Khó khăn trong việc xử lý dữ liệu song song: Do tính tuần tự của RNN, việc xử lý dữ liệu song song trong các tầng không phải lúc nào cũng hiệu quả, đặc biệt khi so sánh với các mô hình nơ-ron sâu khác có khả năng xử lý song song tốt hơn.
Mục tiêu khi huấn luyện mô hình là cố gắng giảm giá trị của MSE, thông qua việc điều chỉnh các trọng số (weights) và độ lệch (biases) của mạng nơ-ron để mô hình dự đoán gần với giá trị thực tế nhất có thể. Nó đo lường độ lớn trung bình của sai số mà mô hình dự đoán so với giá trị thực tế và thường được sử dụng khi muốn đánh giá sự chính xác của mô hình dự báo mà không muốn tập trung quá nhiều vào các ngoại lệ. Tương tự như MSE, MAE cũng có thể được sử dụng để đánh giá hiệu suất của một mô hình dự báo trong machine learning và có thể được tối ưu hóa trong quá trình huấn luyện để giảm thiểu sai số trung bình này.
• Cải thiện mô hình theo thời gian: Khi có thêm dữ liệu mới, SGD có thể được sử dụng để cập nhật mô hình hiện tại một cách nhanh chóng và linh hoạt, giúp mô hình đáp ứng và thích nghi với dữ liệu mới.
DeepAnT [3]: A Deep Learning Approach for Unsupervised Anomaly Detection in Time Series" của Mohsin Munir, Shoaib Ahmed Siddiqui và Sheraz Ahmed tập trung vào việc áp dụng các phương pháp học sâu để phát hiện các sự bất thường trong chuỗi thời gian mà không yêu cầu dữ liệu có nhãn. • Mô hình phát hiện sự bất thường: Mô hình phát hiện sự bất thường được sử dụng để xác định các điểm dữ liệu là bất thường dựa trên sự khác biệt giữa giá trị dự đoán và giá trị thực tế. Trong đó mô hình dự báo là thành phần dự đoán chuỗi thời gian sử dụng mạng CNN đơn giản (Hình 3.2), DeepAnT có thể được train mà không cần phải bỏ bớt các điểm bất thường.
• Độ chính xác cao: DeepAnT có thể đạt được độ chính xác phát hiện bất thường cao, vượt trội so với các phương pháp học máy truyền thống và các phương pháp dựa trên thống kê. • Khả năng xử lý dữ liệu phức tạp: DeepAnT có thể xử lý dữ liệu chuỗi thời gian phức tạp, bao gồm cả các xu hướng dài hạn và ngắn hạn, chu kỳ theo mùa và các yếu tố phụ thuộc khác.
• Yêu cầu tính toán cao: Việc đào tạo các mô hình DeepAnT có thể đòi hỏi nhiều tài nguyên tính toán hơn so với các phương pháp học máy truyền thống. • Khả năng xử lý dữ liệu chuỗi thời gian phức tạp: LSTM có thể học các mối quan hệ phức tạp hơn trong dữ liệu chuỗi thời gian, bao gồm cả các xu hướng dài hạn và ngắn hạn, chu kỳ theo mùa và các yếu tố phụ thuộc khác. • Khả năng phân loại tốt hơn: LSTM cũng đạt hiệu suất tốt hơn trong việc phân loại các loại hình lưu lượng dữ liệu di động khác nhau, chẳng hạn như lưu lượng thoại, dữ liệu và tín hiệu điều khiển.
Mở rộng nghiên cứu sang các bài toán khác: LSTM có thể được áp dụng cho các bài toán dự báo chuỗi thời gian khác ngoài lưu lượng dữ liệu di động. Cải thiện hiệu suất của LSTM: Các nghiên cứu trong tương lai có thể tập trung vào việc giảm yêu cầu dữ liệu và tính toán của LSTM, cũng như cải thiện khả năng giải thích của mô hình.
• Khó giải thích: Các mô hình LSTM có thể khó giải thích hơn so với ARIMA, do đó khó hiểu tại sao mô hình lại đưa ra một dự báo cụ thể. • LSTM: LSTM được sử dụng để học các phụ thuộc thời gian trong lưu lượng giao thông, cho phép dự báo xu hướng và chu kỳ trong dữ liệu. • Độ chính xác dự báo cao hơn: TGC-LSTM vượt trội so với các phương pháp truyền thống như ARIMA và LSTM cơ bản về độ chính xác dự báo lưu lượng giao thông trên hai bộ dữ liệu thực tế.
• Hiểu biết sâu hơn về tương tác giao thông: TGC-LSTM cho phép phân tích mối quan hệ giữa các đường trong mạng, cung cấp hiểu biết sâu hơn về cách các sự kiện giao thông ở một khu vực ảnh hưởng đến các khu vực khác. • Cải thiện hiệu suất với các bổ sung: Các bổ sung như L1-norm và L2-norm vào hàm mất giỳp tăng cường khả năng giải thớch của mụ hỡnh, cho phộp hiểu rừ hơn tại sao mụ hỡnh lại đưa ra dự báo cụ thể.
Tuy nhiờn, khi xảy ra tỡnh trạng bất thường (chất lượng mạng. Hình 4.3: Mô tả phân phối dữ liệu sau khi biến đổi từ chuỗi thời gian KPI sang chuỗi giá trị thay đổi trong 24h của 3 KPI %. Hình 4.4: Mô tả phân phối dữ liệu sau khi biến đổi từ chuỗi thời gian KPI sang chuỗi giá trị thay đổi trong 24h của KPI TRAFFIC. kém - chỉ số mạng kém), việc dự đoán trở nên khó khăn và dữ liệu có sự chênh lệch rất lớn giữa trạng thái bình thường và trạng thái bất thường. Tổng quát quá trình dự đoán các giá trị KPI trong luận văn như hình 4.5 Từ giá trị KPI ban đầu, dữ liệu sẽ được biến đổi thành chuỗi giờ gian biến dộng 24h, sau đó tiến hành chuẩn hóa chuỗi thời gian này và đưa chúng vào một mô hình CL-MLP (Convolutional Long Short-Term Memory), một loại mạng nơ-ron có khả năng kết hợp giữa CNN, LSTM và MLP có thể học được các mô hình phức tạp và các mối quan hệ ngữ cảnh trong dữ liệu. Các thí nghiệm này sẽ được thực hiện để đánh giá và so sánh hiệu suất của mỗi mô hình trong việc dự đoán dữ liệu đa biến với 5 KPI, từ đó đưa ra những nhận định quan trọng về tính hiệu quả và ứng dụng của chúng trong ngữ cảnh của vấn đề nghiên cứu.
Nội dung luận văn này tập trung vào bài toán dự báo chuỗi thời gian và cụ thể hơn là ứng dụng học sâutrong bài toán dự báo các chỉ số KPI mạng 4G, tìm hiểu về định dạng, phân phối dữ liệu cũng như là hiểu những khó khăn trong bài toán dự báo các chỉ số chất lượng mạng. • Khả năng khám phá đa chiều: CNN có khả năng tìm kiếm và rút trích đặc trưng không gian, LSTM có khả năng học mối quan hệ thời gian dựa trên các chuỗi dữ liệu, trong khi MLP có thể kết hợp thông tin từ các mô hình trước để tạo ra dự đoán cuối cùng. • Tăng cường khả năng dự đoán của mô hình: Chúng ta có thể nghiên cứu các phương pháp để cải thiện khả năng dự đoán của mô hình, chẳng hạn như sử dụng các đặc trưng mới, các mô hình học máy phức tạp hơn (Bi-LSTM, Attention, Transformer ) hoặc các kỹ thuật học máy tiên tiến hơn [10] [13].
• Ứng dụng mô hình trong thực tế: Luận văn là một phần của ứng dụng dự báo trước bất thường trong quản lý giám sát các trạm phát sóng mạng 4G, tuy nhiên cần nghiên cứu thêm về khả năng mở rộng và yêu cầu về phần cứng khi triển khai luận văn trong thực tế.