ĐẠI HỌC QUỐC GIA TP.HCMTRƯỜNG ĐẠI HỌC BÁCH KHOACỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAMĐộc lập - Tự do - Hạnh phúcNHIỆM VỤ LUẬN VĂN THẠC SĨI.TÊN ĐỀ TÀI: ỨNG DỤNG KỸ THUẬT HỌC SÂU TRỰC TUYẾNCHO
Trang 1ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
—————————————–
LÊ TÂN PHA
ỨNG DỤNG KỸ THUẬT HỌC SÂU TRỰC TUYẾN CHO BÀI TOÁN DỰ BÁO MẠNG
Trang 2CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG -HCM
Cán bộ hướng dẫn khoa học :
PGS TS Quản Thành Thơ Cán bộ chấm nhận xét 1 :
TS Huỳnh Lương Huy Thông Cán bộ chấm nhận xét 2 :
TS.Ngô Đức Thành Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày 23 tháng 01 năm 2024
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
Trang 3ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc
NHIỆM VỤ LUẬN VĂN THẠC SĨ
I TÊN ĐỀ TÀI: ỨNG DỤNG KỸ THUẬT HỌC SÂU TRỰC TUYẾN CHO BÀI TOÁN DỰ BÁO MẠNG VÔ TUYẾN 4G
DEEP ONLINE LEARNING FOR 4G NETWORK FORECASTING
II NHIỆM VỤ VÀ NỘI DUNG:
- Nghiên cứu, xây dựng mô hình dự báo chuỗi thời gian trong bài toán
dự báo mạng vô tuyến 4G kết hợp các mô hình học sâu và máy học trực tuyến.
- Nghiên cứu, đề xuất các phương pháp nhằm cải thiện độ chính xác của
mô hình.
- Thực nghiệm và đánh giá kết quả của các phương pháp đề xuất.
III NGÀY GIAO NHIỆM VỤ : 05/09/2022
IV NGÀY HOÀN THÀNH NHIỆM VỤ: 10/12/2023
(Họ tên và chữ ký)
Trang 4LỜI CÁM ƠN
Sau một thời gian tiến hành triển khai nghiên cứu, em cũng đã hoàn thành nội dung luận văn.Luận văn được hoàn thành không chỉ là công sức của bản thân tác giả mà còn có sự giúp đỡ, hỗtrợ tích cực của nhiều cá nhân và tập thể
Trước hết, em xin gửi lời cảm ơn chân thành và sâu sắc đến PGS.TS Quản Thành Thơ, thầy
là người hướng dẫn trực tiếp trong quá trình thực hiện luận văn, nhờ những lắng nghe và đónggóp ý kiến của thầy giúp em hình thành và hoàn thiện nhiều ý tưởng Hơn hết thầy là người đãtruyền cảm hứng cho em rất nhiều về niềm đam mê với học máy, học sâu, và xử lí dữ liệu chuỗithời gian
Em xin gửi lời cảm ơn đến TS Phạm Huy Hoàng, PGD Trung tâm nghiên cứu phát triển,
TS Huỳnh Lương Huy Thông, Trưởng phòng Lab VNPT-HCMUT đã tạo điều kiện cho em họctập, nghiên cứu và sử dụng các thiết bị huấn luyện AI, Hơn hết em xin cảm ơn anh Hoàng đãđặt ra vấn đề, tạo tiền đề cho em tiếp cận với dữ liệu và các kỹ thuật xử lý dữ liệu trong mạng
vô tuyến 4G Em xin cảm cơn anh Thông vì những lời động viên, giúp đỡ trong thời gian đầu,khoảng thời gian khó khăn nhất của em trong quá trình thực hiện luận văn để em có thể vượtqua và hoàn thành luận văn này
Em cũng xin gửi lời cảm ơn đến anh Phạm Công Thiện, em Lê Thông Minh Triết đã giúp
đỡ trong quá trình thực hiện đề tài, chỉnh sửa bài báo khoa học
Em xin gửi lời cảm ơn đến toàn thể anh, chị, em đồng nghiệp trong công ty VNPT-IT đãluôn tạo điều kiện cho em trong quá trình học và thực hiện luận văn tốt nghiệp
Em cũng xin gửi lời cảm ơn chân thành đến gia đình, bạn bè, các anh, chị cùng lớp cao học
đã luôn động viên, quan tâm giúp đỡ em trong quá trình học tập và thực hiện luận văn
Trang 5TÓM TẮT LUẬN VĂN
Vấn đề dự báo các chỉ số chất lượng mạng (KPI) trong mạng di động đã tác động đến việccải thiện hiệu quả sử dụng tài nguyên, nhờ ứng dụng mạnh mẽ của máy học và học sâu Dựatrên những dự báo này, các nhà khai thác mạng viễn thông có thể chủ động phân bổ tài nguyênhoặc ngăn ngừa các sự cố ảnh hưởng đến hiệu suất mạng di động Tuy nhiên, các nghiên cứutrước đây thường tập trung vào một vài chỉ số cụ thể Trong luận văn này, học viên thực hiệnphân tích sâu dữ liệu từ các chỉ số hiệu suất 4G trên nhiều khía cạnh khác nhau như lưu lượngngười dùng, tốc độ tải xuống trung bình, tỷ lệ mất dịch vụ, tỷ lệ thành công bàn giao và tỷ lệthành công thiết lập dịch vụ theo thời gian thực Với cách tiếp cận học sâu và phương pháp họcmáy trực tuyến, học viên đề xuất mô hình CL-MLPs kết hợp các mô hình mạng nơ ron tích chập(Convolutional Neural Network), mạng nơ ron bộ nhớ ngắn hạn dài (Long Short Term Memory)
và mô hình Perceptron nhiều lớp (Multi-layer Perceptron) có thể dự báo nhiều chỉ số KPT đồngthời với độ chính xác cao, có thể được sử dụng để dự báo các bất thường trên mạng di động
Trang 6The problem of predicting key performance indicators in mobile networks has had impacts
on improving resource utilization with powerful applications of machine learning and deeplearning Based on these forecasts, telecommunications network operators can be proactive inallocating resources or preventing incidents that affect key performance However, previousstudies often focused on a few specific indicators In this thesis we perform a deep analysis
of data from 4G key performance indicators on multiple aspects such as user traffic, averagedownload speed, service drop rate, handover success rate, and service setup success rate in realtime With a deep learning approach and online learning method, we propose a CL-MLPs modelthat combines Convolutional Neural Network (CNN), LSTM and Multi-layer Perceptron (MLP)architectures that can predict multiple key performance indicators at the same time with highaccuracy, which can be used in predicting anomalies on mobile networks
Trang 7LỜI CAM ĐOAN
Tôi xin cam đoan luận văn tốt nghiệp: “ỨNG DỤNG KỸ THUẬT HỌC SÂU TRỰC TUYẾNCHO BÀI TOÁN DỰ BÁO MẠNG VÔ TUYẾN 4G” là công trình nghiên cứu của bản thân.Những phần sử dụng tài liệu tham khảo trong luận văn đã được nêu rõ trong phần tài liệu thamkhảo Các số liệu, kết quả trình bày trong luận văn là hoàn toàn trung thực, nếu sai tôi xin chịuhoàn toàn trách nhiệm và chịu mọi kỷ luật của bộ môn và nhà trường đề ra
Trang 8Mục lục
1.1 Mở đầu 1
1.2 Mô tả bài toán dự báo mạng vô tuyến 4G 2
1.3 Mục tiêu và nhiệm vụ của luận văn 3
1.4 Giới hạn đề tài 4
1.5 Đóng góp của luận văn 5
1.6 Cấu trúc luận văn 5
2 CƠ SỞ KIẾN THỨC 6 2.1 Tổng quan về dự báo chuỗi thời gian 6
2.1.1 Các phương pháp dự báo chuỗi thời gian 6
2.1.2 Các yếu tố ảnh hưởng đến dự báo chuỗi thời gian 7
2.1.3 Ưu điểm và nhược điểm của phương pháp học sâu 8
2.2 Các hình thức của phương pháp học máy 9
2.3 Mô hình MLP 10
2.4 Mô hình CNN 11
2.5 Mô hình RNN - LSTM 12
2.5.1 RNN 12
2.5.2 LSTM 13
2.6 Hàm mất mát 14
2.6.1 MSE 14
2.6.2 MAE 16
2.7 Giải thuật tối ưu mô hình 16
2.7.1 Gradient Descent 16
2.7.2 SGD cho học trực tuyến 17
2.8 Chuẩn hóa dữ liệu 18
Trang 93.1 Hướng tiếp cận sử dụng CNN 22
3.2 Hướng tiếp cận sử dụng LSTM 23
3.3 Hướng tiếp cận kết hợp 24
4 MÔ HÌNH ĐỀ XUẤT 26 4.1 Bộ dữ liệu 26
4.2 Mô hình tham khảo 26
4.3 Phương pháp đánh giá RMSE 28
4.4 Mô hình đề xuất CL-MLP 28
4.4.1 Đề xuất 1: Dự đoán gián tiếp 28
4.4.2 Đề xuất 2: Mô hình kết hợp CL-MLP 30
4.4.3 Đề xuất 3: Học trực tuyến 31
4.5 Các thí nghiệm và so sánh 33
4.5.1 Xử lý dữ liệu 33
4.5.2 Huấn luyện 34
4.5.3 Kết quả 35
TÀI LIỆU THAM KHẢO 41
Trang 10Danh sách bảng
1.1 Các KPI dùng trong dự báo mạng vô tuyến 4G 2
4.1 Khoảng biến thiên của các giá trị KPI 27
4.2 Bảng thiết lập các giá trị chia dữ liệu 33
4.3 Bảng thiết lập bộ siêu tham số 34
Trang 11Danh sách hình vẽ
1.1 Mô hình trạm phát sóng mạng cho các thiết bị di động 1
1.2 Dự báo chỉ số chất lượng mạng - dự báo chuỗi thời gian 3
2.1 Mô hình hồi quy tuyến tính 7
2.2 Mô hình hồi quy phi tuyến 8
2.3 Một số phân tích bổ biến trên dữ liệu chuỗi thời gian 8
2.4 Online learning và Batch learning 9
2.5 Mô hình mạng nơ-ron nhiều tầng (MLP - Multi-layer Perceptron) 10
2.6 Dự báo chuỗi thời gian sử dụng mô hình CNN 11
2.7 Cấu trúc mô hình Recurrent Neural Network 13
2.8 Cơ chế hoạt động của perceptron trong mô hình Long Short-Term Memory 15
3.1 Các hướng tiếp cận trong bài toán dự báo chuỗi thời gian 20
3.2 DeepAnT architecture for time series prediction [3] 22
4.1 Mẫu dữ liệu chỉ số chất lượng KPI 26
4.2 Mô hình dự báo chỉ số lưu lượng mạng ứng dụng LSTM 27
4.3 Mô tả phân phối dữ liệu sau khi biến đổi từ chuỗi thời gian KPI sang chuỗi giá trị thay đổi trong 24h của 3 KPI % 29
4.4 Mô tả phân phối dữ liệu sau khi biến đổi từ chuỗi thời gian KPI sang chuỗi giá trị thay đổi trong 24h của KPI TRAFFIC 29
4.5 Quá trình dự báo các chỉ số KPI 30
4.6 Mô hình đề xuất CL-MLP cho nhiệm vụ dự báo chuỗi thời gian đa biến với việc học trực tuyến 31
4.7 Mô hình máy học trực tuyến tự động cập nhật với dữ liệu mới sử dụng giải thuật SGD 32
4.8 Phương pháp chia dữ liệu data windowing trong dự báo chuỗi thời gian 33
4.9 Biểu đồ giá trị hàm mất mát MSE của các mô hình huấn luyện 100 epoch 35
4.10 Biểu đồ kết quả RMSE, MAE của mô hình CNN - DeepAnT, LSTM và CL-MLP 36 4.11 Mô hình không dự đoán đúng được giá trị KPI trong khung màu xanh, lệch khá nhiều so với thực tế 36
Trang 124.12 Mô hình dự đoán được các điểm bất thường dù trước đó đa số trạng thái là bình
thường 37
4.13 Kết quả dự báo KPI CSSR 37
4.14 Kết quả dự báo KPI INTRA FREQUENCY HO 37
4.15 Kết quả dự báo KPI CSSR 38
4.16 Kết quả dự báo KPI CSSR 38
4.17 Kết quả dự báo KPI USER DL AVG THPUT 38
Trang 13Do đó, Việt Nam cần cải thiện và tối ưu hóa cơ sở hạ tầng và thị trường 4G của mình Chỉ sốhiệu suất mạng (KPI - Key Performance Indicators) 4G phụ thuộc vào các thông số khác nhau,như cường độ tín hiệu, băng thông, độ trễ, biến động thời gian, mất gói tin, Việc dự đoán KPI4G có thể hỗ trợ các nhà điều hành mạng tối ưu hóa hiệu suất mạng và chất lượng dịch vụ, vàgiúp người dùng lựa chọn nhà cung cấp và kế hoạch mạng tối ưu nhất.
Trang 14Dự đoán các chỉ số chất lượng mạng là một yếu tố quan trọng cho phép quản lý thông minhtrong các mạng không dây thế hệ tiếp theo Dự đoán chính xác có thể giúp giảm thiểu các sự cốmạng và nâng cao hiệu quả sử dụng tài nguyên.
Sự sẵn có của dữ liệu mạng di động thời gian thực là chìa khóa để xây dựng các mô hình dựđoán chính xác Tuy nhiên, việc truy cập dữ liệu mạng thực tế rất hạn chế, vì vậy các nhà nghiêncứu thường sử dụng dữ liệu mô phỏng hoặc thử nghiệm có kiểm soát Dữ liệu này không phảnánh chính xác các mô hình lưu lượng động trong thế giới thực
Do đó, việc phân tích và hiểu về mô hình dữ liệu thời gian thực của mạng 4G và khả năng
dự đoán ở cấp độ thời gian thực ở mức độ giờ vẫn là một vấn đề nghiên cứu mở Nghiên cứunày sẽ giúp các nhà nghiên cứu hiểu sâu hơn về chất lượng mạng và cải thiện thiết kế quản lýtài nguyên
1.2 Mô tả bài toán dự báo mạng vô tuyến 4G
Bảng 1.1: Các KPI dùng trong dự báo mạng vô tuyến 4G
CSSR Tỉ lệ thiết lập cuộc gọi thành công
USER DL AVG THPUT Tốc độ tải xuống trung bình
SERVICE DROP ALL Tỉ lệ mất tất cả dịch vụ
TRAFFIC Lưu lượng
INTRA FREQUENCY HO Tỷ lệ chuyển giao mạng thành công của
các tế bào cùng tần số
Bài toán dự báo mạng di động 4G là bài toán dự đoán các chỉ số chất lượng mạng 4G trongtương lai dựa trên dữ liệu mạng lịch sử Các chỉ số chất lượng mạng 4G thường được quan tâmbao gồm các KPI được mô tả ở Bảng 1.1, các chỉ số này ảnh thưởng trực tiếp tới các tế bào(CELL) phát sóng mạng tại trạm phát (Hình 1.1)
Bài toán dự báo mạng di động 4G có tầm quan trọng lớn đối với các nhà khai thác mạng diđộng Dự báo chính xác các chỉ số chất lượng mạng có thể giúp các nhà khai thác mạng:
• Chủ động phân bổ tài nguyên mạng, tránh tình trạng quá tải hoặc thiếu hụt tài nguyên
• Đánh giá hiệu suất mạng và các ứng dụng
• Phát hiện và ngăn ngừa các sự cố mạng
Có nhiều phương pháp dự báo mạng di động 4G, bao gồm:
• Phương pháp dự báo dựa trên mô hình thống kê
• Phương pháp dự báo dựa trên mô hình học máy
Trang 15Các phương pháp dự báo dựa trên mô hình thống kê thường đơn giản và dễ hiểu, nhưng độchính xác thường không cao Các phương pháp dự báo dựa trên mô hình học máy thường có độchính xác cao hơn, nhưng đòi hỏi nhiều dữ liệu và thời gian đào tạo.
Dữ liệu chỉ số mạng được lưu trữ ở dạng chuỗi thời gian nên tổng quát bài toán dự báo mạng
vô tuyến 4G là bài toán dự báo chuỗi thời gian (Time series forecasting) (Hình 1.2)
Hình 1.2: Dự báo chỉ số chất lượng mạng - dự báo chuỗi thời gian
1.3 Mục tiêu và nhiệm vụ của luận văn
Mục tiêu của luận văn là nghiên cứu các phương pháp dự báo chỉ số chất lượng mạng dựatrên bài toán dự báo chuỗi thời gian Cụ thể, luận văn sẽ tập trung vào các nội dung sau:
• Tìm hiểu và sử dụng các mô hình học sâu: Luận văn sẽ giới thiệu các mô hình học sâuphổ biến được sử dụng trong dự báo chuỗi thời gian, chẳng hạn như mạng nơ-ron tíchchập (CNN), mạng nơ-ron tái tạo (RNN), mạng nơ-ron long short-term memory (LSTM).Luận văn cũng sẽ trình bày cách sử dụng các mô hình này với phương pháp học máy trựctuyến để dự báo các chỉ số chất lượng mạng
• Các kỹ thuật xử lý dữ liệu chuỗi thời gian: Luận văn sẽ giới thiệu các kỹ thuật xử lý dữliệu chuỗi thời gian phổ biến, chẳng hạn như làm sạch dữ liệu, loại bỏ nhiễu, chuẩn hóa
dữ liệu Luận văn cũng sẽ trình bày cách sử dụng các kỹ thuật này để cải thiện độ chínhxác của các mô hình dự báo
• Xác định các vấn đề cần tập trung giải quyết: Luận văn sẽ phân tích các vấn đề cần tậptrung giải quyết trong dự báo chỉ số chất lượng mạng, chẳng hạn như tính không ổn địnhcủa dữ liệu, tính đa dạng của các chỉ số chất lượng mạng Luận văn cũng sẽ đề xuất cácgiải pháp để giải quyết các vấn đề này
Trang 16• Thu thập thập và làm sạch dữ liệu: Luận văn sẽ thu thập dữ liệu thực tế từ các nhà khaithác mạng di động để sử dụng cho việc nghiên cứu Luận văn cũng sẽ thực hiện các kỹthuật làm sạch dữ liệu để loại bỏ nhiễu và lỗi trong dữ liệu.
• Đưa ra đề xuất cải tiến mô hình: Luận văn sẽ đưa ra các đề xuất cải tiến mô hình dự báochỉ số chất lượng mạng dựa trên các kết quả nghiên cứu của luận văn
• Kết quả của mô hình ứng dụng được trong thực tế: Luận văn là một thành phần trong dự
án nghiên cứu phát triển "Nghiên cứu xây dựng hệ thống giám sát, dự đoán bất thườngmạng vô tuyến 4G sử dụng trí tuệ nhân tạo" - Mã dự án: 169KHCN2021005, được phêduyệt ngày 31 tháng 12 năm 2021 với dự tham gia của các công ty bao gồm VNPT NET,VNPT RnD và Đại học Bách Khoa TP HCM
Từ những mục tiêu trên, học viên đề ra các nhiệm vụ cần thực hiện trong quá trình làm luậnvăn:
• Tìm hiểu bài toán dự báo chuỗi thời gian trên dữ liệu mạng di động vô tuyến 4G, các côngtrình liên quan, các phương pháp giải quyết bài toán, ưu và nhược điểm của các phươngpháp
• Tìm hiểu các phương pháp thu thập và lưu trữ dữ liệu, phục vụ cho mục tiêu triển khaiphương pháp học trực tuyến
• Đề xuất các mô hình giúp cải thiện độ chính xác bằng cách kết hợp phương pháp xử lý dữliệu biến thiêng và phương pháp máy học trực tuyến
• Thực nghiệm, đánh giá kết quả của các mô hình đề xuất
• Kết luận, nêu ra các vấn đề còn tồn đọng đồng thời đưa ra các nghiên cứu trong tương lai
• Viết một bài báo khoa học
1.4 Giới hạn đề tài
Bài toán dự báo mạng di động 4G là một bài toán khó do một số thách thức sau:
• Môi trường truyền thông không dây rất năng động và thay đổi liên tục theo không gian vàthời gian
• Các chỉ số chất lượng mạng thường có mối tương quan chặt chẽ với nhau
• Dữ liệu mạng lịch sử thường không đầy đủ và không chính xác
• Dữ liệu lớn: Dữ liệu KPI được thu thập ở mức giờ, nhưng với số lượng tế bào phát mạnglớn và thời gian lịch sử lên tới 2 năm, số lượng dữ liệu thực tế cần xử lý lên tới hàng tỷdòng Mỗi dòng dữ liệu tương ứng với một mốc thời gian
Do đó, dữ liệu thu thập trong luận văn giới hạn ở mức 5000 tế bào thu thập từ 22 tỉnh thànhvới nhiều vị trí khác nhau như khu dân cư, khu công nghiệp, quốc lộ, biển đảo, biên giới Tổng
số dòng dữ liệu được xử lý khoảng 7,7 tỷ (Thu thập từ tháng 1/2021 đến tháng 12/2022)
Trang 171.5 Đóng góp của luận văn
Sau đây là những đóng góp của luận văn:
• Học viên đã phân tích kỹ lưỡng dữ liệu thời gian thực của 5000 tế bào về chỉ số chất lượngmạng 4G Dữ liệu được thu thập từ tháng 01/2021 đến tháng 12/2022, với độ phân giảitheo giờ (mỗi giờ lấy một điểm dữ liệu ứng với mỗi tế bào) Qua đó, học viên có cái nhìntổng quát về ảnh hưởng của số lượng lưu lượng truy cập và tốc độ mạng đến các chỉ sốchất lượng mạng Học viên cũng đề xuất cách thức thu thập và lưu trữ dữ liệu chỉ số mạngmột cách liên tục để phục vụ cho mục đích nghiên cứu và dự báo tương lai bằng cách sửdụng cơ sở dữ lệu Cassandra
• Học viên đề xuất mô hình dự báo gián tiếp giá trị KPI biến thiêng thay cho việc dự đoángiá trị trực tiếp, điều này có hiệu quả tích cực trong việc cải thiện hiệu suất của mô hình
• Học viên đề xuất một mô hình CL-MLP, kết hợp ba kiến trúc mạng lớn là CNN, LSTM
và MLP Mô hình được đào tạo với dữ liệu thời gian thực theo phương pháp máy học trựctuyến Mỗi mẫu dữ liệu chỉ được học một lần và sẽ liên tục được cập nhật với dữ liệumới Phương pháp này giúp mô hình tránh được hiện tượng overfitting và có khả năng họcđược các sự kiện mới tốt hơn so với phương pháp máy học truyền thống
1.6 Cấu trúc luận văn
Nội dung của luận văn gồm 5 chương với các nội dung chính sau:
• Chương 1 GIỚI THIỆU ĐỀ TÀI: Trình bày tổng quan về đề tài, lý do thực hiện đề tài
và ý nghĩa thực tiễn của bài toán, cũng như giới hạn và phạm vi của đề tài Cuối cùng lànhiệm vụ và cấu trúc của luận văn
• Chương 2 CƠ SỞ KIẾN THỨC: Bàn về cơ sở kiến thức cơ bản trong deep learning nhưConvolution Neural Network tới Recurrent Neural Network, Long Short-Term Memory,Multi-layer Perceptron và phương pháp học máy trực tuyến
• Chương 3 CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN: Trình bày một cáchtổng quát về những nghiên cứu liên quan đã và đang được thực hiện, cũng như xu hướngchung hiện nay trong việc giải quyết bài toán Phần này cũng đưa ra những bàn luận vàđánh giá cho các phương pháp kể trên vì đó là cơ sở quan trọng cho những nghiên cứucủa học viên trong quá trình thực hiện luận văn
• Chương 4 CÁC MÔ HÌNH ĐỀ XUẤT: Chương 4 nói cụ thể về các mô hình đề xuất của
học viên cho bài toán dự báo mạng vô tuyến 4G và các kết quả thực nhiệm.
• Chương 5 KẾT LUẬN: Tổng hợp các kết quả đạt được trong quá trình thực hiện luậnvăn từ bước nghiên cứu và xây dựng giả thuyết đến triển khai thực nghiệm Phần này cũngtrình bày những hạn chế và vấn đề tồn đọng, cuối cùng đề xuất các giải pháp cải tiến trongtương lai
Trang 18Chương 2
CƠ SỞ KIẾN THỨC
2.1 Tổng quan về dự báo chuỗi thời gian
Dự báo chuỗi thời gian là quá trình sử dụng dữ liệu lịch sử để dự đoán giá trị trong tương laicủa một biến Dữ liệu chuỗi thời gian là dữ liệu được thu thập theo thời gian, chẳng hạn như giá
cổ phiếu, doanh số bán hàng, nhiệt độ, chỉ số chất lượng mạng v.v
2.1.1 Các phương pháp dự báo chuỗi thời gian
Có nhiều phương pháp dự báo chuỗi thời gian khác nhau, có thể được phân loại thành hailoại chính:
• Phương pháp mô hình hóa: Các phương pháp này sử dụng các mô hình toán học để mô tảcác xu hướng và biến động trong dữ liệu chuỗi thời gian Các phương pháp mô hình hóaphổ biến bao gồm:
– Hồi quy tuyến tính: Phương pháp này sử dụng một đường thẳng để mô tả mối quan
hệ giữa các biến (Hình 2.1)
– Hồi quy phi tuyến: Phương pháp này sử dụng một đường cong để mô tả mối quan hệ
giữa các biến (Hình 2.2)
– Mô hình tự hồi quy: Phương pháp này sử dụng các giá trị trước đó của biến để dự
đoán giá trị hiện tại của biến
– Mô hình tự hồi quy tích phân: Phương pháp này sử dụng các giá trị trước đó và tích
phân của các giá trị trước đó của biến để dự đoán giá trị hiện tại của biến
• Phương pháp phân tích: Các phương pháp này dựa trên phân tích dữ liệu chuỗi thời gian
để xác định các xu hướng và biến động trong dữ liệu Các phương pháp phân tích phổbiến bao gồm (Hình 2.3):
– Phân tích xu hướng: Phân tích các xu hướng dài hạn trong dữ liệu.
– Phân tích chu kỳ: Phân tích các chu kỳ ngắn hạn trong dữ liệu.
– Phân tích mùa vụ: Phân tích các biến động theo mùa trong dữ liệu.
Trang 19• Phương pháp học máy [7]: Phương pháp học máy dự báo chuỗi thời gian là một phươngpháp dự báo chuỗi thời gian sử dụng các mô hình học máy để học từ dữ liệu lịch sử Các
mô hình học máy có thể mô tả các xu hướng và biến động trong dữ liệu chuỗi thời gianmột cách hiệu quả hơn các phương pháp truyền thống Có nhiều loại mô hình học máy cóthể được sử dụng cho dự báo chuỗi thời gian, bao gồm:
– Mô hình hồi quy: Các mô hình hồi quy sử dụng một hàm số để mô tả mối quan hệ
giữa các biến
– Mô hình cây: Các mô hình cây sử dụng một cây quyết định để dự đoán giá trị của
biến
– Mạng nơ-ron: Các mạng nơ-ron là một loại mô hình học máy phức tạp có thể mô tả
các mối quan hệ phi tuyến phức tạp
Hình 2.1: Mô hình hồi quy tuyến tính
2.1.2 Các yếu tố ảnh hưởng đến dự báo chuỗi thời gian
Có nhiều yếu tố ảnh hưởng đến độ chính xác của dự báo chuỗi thời gian nói chung và dự báoKPI nói riêng, bao gồm:
• Chất lượng dữ liệu: Dữ liệu chuỗi thời gian cần phải đầy đủ, chính xác và không bị sailệch
• Kiểu dữ liệu: Dữ liệu chuỗi thời gian có thể được chia thành hai loại chính: dữ liệu tuyếntính và dữ liệu phi tuyến Phương pháp dự báo phù hợp cần được lựa chọn dựa trên loại
dữ liệu
• Tính chất của dữ liệu: Dữ liệu chuỗi thời gian có thể có các tính chất như xu hướng, chu
kỳ, mùa vụ, v.v Phương pháp dự báo cần được lựa chọn sao cho phù hợp với các tính chấtcủa dữ liệu
• Các yếu tố bên ngoài: Các yếu tố bên ngoài, chẳng hạn như các sự kiện âm nhạc, vị trí đặttrạm phát sóng, v.v có thể ảnh hưởng đến giá trị của biến Các yếu tố này cần được xemxét khi thực hiện dự báo chuỗi thời gian với dữ liệu KPI 4G
Trang 20Hình 2.2: Mô hình hồi quy phi tuyến
Hình 2.3: Một số phân tích bổ biến trên dữ liệu chuỗi thời gian
2.1.3 Ưu điểm và nhược điểm của phương pháp học sâu
Ưu điểm:
• Độ chính xác cao: Các mô hình học sâu có thể mô tả các xu hướng và biến động trong dữliệu chuỗi thời gian một cách hiệu quả hơn các phương pháp truyền thống, chẳng hạn nhưhồi quy tuyến tính hoặc tự hồi quy
• Thích ứng với dữ liệu thay đổi: Các mô hình học sâu có thể học từ dữ liệu mới và thíchứng với các thay đổi trong dữ liệu
• Áp dụng cho nhiều loại dữ liệu: Các mô hình học sâu có thể được áp dụng cho nhiều loại
Trang 21dữ liệu chuỗi thời gian, bao gồm dữ liệu tuyến tính, dữ liệu phi tuyến, dữ liệu có xu hướng,
2.2 Các hình thức của phương pháp học máy
Hình 2.4: Online learning và Batch learningDựa trên cách thức mô hình tiếp cận dữ liệu để học, có 2 phương pháp phổ biến (Hình 2.4):
• Batch Machine Learninglà phương pháp học mà mô hình được cung cấp toàn bộ bộ dữliệu trước khi đưa ra dự đoán Mô hình được cập nhật một lần sau mỗi lần xử lý toàn bộ
bộ dữ liệu
Trang 22• Online Machine Learning [11] là phương pháp học mà mô hình cập nhật từng phần,theo từng mẫu dữ liệu mới nhận được Mỗi mẫu dữ liệu được sử dụng để cập nhật môhình ngay lập tức và không được sử dụng lại.
Với batch machine learning, mô hình cần phải xử lý toàn bộ bộ dữ liệu trước khi có thể đưa
ra dự đoán Điều này có thể mất nhiều thời gian, đặc biệt với bộ dữ liệu lớn hoặc dữ liệu thayđổi liên tục Với online machine learning, mô hình có thể cập nhật liên tục theo từng mẫu dữliệu mới Điều này cho phép mô hình xử lý dữ liệu real-time và thích ứng với dữ liệu thay đổi.Phân loại này cũng có thể được hiểu là phân loại theo thời gian cập nhật mô hình Với batchmachine learning, mô hình được cập nhật định kỳ, sau mỗi lần xử lý toàn bộ bộ dữ liệu Vớionline machine learning, mô hình được cập nhật liên tục, theo từng mẫu dữ liệu mới
Phân loại này có ý nghĩa quan trọng trong việc lựa chọn phương pháp học máy phù hợp chotừng bài toán Nếu bài toán yêu cầu độ chính xác cao và không cần xử lý dữ liệu real-time, batchmachine learning là lựa chọn tốt Nếu bài toán cần xử lý dữ liệu real-time và dữ liệu thay đổitheo thời gian, online machine learning là lựa chọn tốt hơn
2.3 Mô hình MLP
Hình 2.5: Mô hình mạng nơ-ron nhiều tầng (MLP - Multi-layer Perceptron)
Mạng nơ-ron nhiều tầng (MLP - Multi-layer Perceptron) là một loại mạng nơ-ron forward gồm nhiều tầng, bao gồm ít nhất một tầng ẩn (hidden layer) giữa tầng đầu vào (inputlayer) và tầng đầu ra (output layer) MLP được sử dụng rộng rãi trong các bài toán ứng dụng họcsâu bao gồm dự báo chuỗi thời gian
feed-Cấu trúc của MLP (Hình 2.5):
Trang 23• Input Layer (Tầng đầu vào): Tầng này chứa các nút đại diện cho các đặc trưng hoặc biếnđầu vào của dữ liệu chuỗi thời gian.
• Hidden Layers (Tầng ẩn): Gồm nhiều tầng ẩn, mỗi tầng bao gồm nhiều nút (perceptrons)tính toán thông tin từ tầng trước đó và truyền thông tin đến tầng tiếp theo Các tầng ẩnnày giúp học các biểu diễn phức tạp và trừu tượng từ dữ liệu đầu vào
• Output Layer (Tầng đầu ra): Tầng này chứa các nút đại diện cho kết quả dự đoán của môhình cho chuỗi thời gian
Cách hoạt động của MLP trong dự báo chuỗi thời gian:
• Feed-forward: Trong quá trình huấn luyện, dữ liệu chuỗi thời gian được đưa vào mạngthông qua tầng đầu vào và truyền qua các tầng ẩn theo chiều tiến Mỗi tầng tính toánthông tin và truyền nó tới tầng tiếp theo
• Tính toán đầu ra: Khi dữ liệu đã được truyền qua các tầng, mạng tính toán đầu ra dự đoándựa trên các trọng số (weights) và độ lệch (biases) được học trong quá trình huấn luyện
• Huấn luyện và cập nhật trọng số: Mạng được huấn luyện thông qua quá trình lan truyềnngược (backpropagation), trong đó sai số giữa đầu ra dự đoán và giá trị thực tế được tínhtoán Quá trình này cập nhật trọng số và độ lệch của các nút trong mạng để giảm thiểu sai
Hình 2.6: Dự báo chuỗi thời gian sử dụng mô hình CNN
Mạng CNN (Convolutional Neural Network) là một loại mạng nơ-ron được sử dụng rộngrãi trong các ứng dụng xử lý hình ảnh Trong dự báo chuỗi thời gian, CNN có thể được sử dụng
để học các mối quan hệ phức tạp giữa các giá trị dữ liệu trong quá khứ và giá trị dự báo trongtương lai
Cấu trúc của CNN dùng trong dự báo chuỗi thời gian thường bao gồm các thành phần sau:
Trang 24• Lớp Convolution: Lớp Convolution là lớp chính của CNN, chịu trách nhiệm học các đặctrưng cục bộ từ dữ liệu đầu vào Lớp Convolution hoạt động bằng cách sử dụng các bộlọc (filter) để quét qua dữ liệu đầu vào và tạo ra các bản sao được biến đổi của dữ liệu đầuvào.
• Lớp Pooling: Lớp Pooling được sử dụng để giảm kích thước của dữ liệu đầu ra của lớpConvolution
• Lớp Fully Connected: Lớp Fully Connected là lớp kết nối tất cả các nơ-ron của các lớptrước với tất cả các nơ-ron của lớp này Lớp Fully Connected chịu trách nhiệm học cácmối quan hệ tổng quát giữa các giá trị dữ liệu
Ưu điểm và nhược điểm của CNN dùng trong dự báo chuỗi thời gian:
• Ưu điểm:
– Có thể học các mối quan hệ phức tạp giữa các giá trị dữ liệu.
– Có thể xử lý dữ liệu thời gian thực.
Mô hình RNN được xây dựng với một tầng xử lý dữ liệu, số lượng perceptron trong tầngnày tương đương với độ dài của chuỗi dữ liệu đầu vào Ngoài thông tin từ chuỗi dữ liệu đầu vào,mỗi perceptron còn nhận thông tin từ đầu ra của perceptron ở vị trí trước đó trong chuỗi Có thểhiểu rõ cách hoạt động này bằng cách tham khảo mô hình được mô tả trong Hình 2.7
Trong đó:
• xt, t ∈ [1, n] là vector biểu diễn thành phần thứ t của chuỗi dữ liệu đầu vào;
• ht, t ∈ [0, n] là vector hidden state (trạng thái ẩn) của dữ liệu tại bước xử lý t, có thể hiểu
đây là kết quả của bước xử lý thứ t đồng thời là dữ liệu đầu vào cho bước xử lý t + 1;
• yt, t ∈ [1, n] là vector biểu diễn thành phần thứ t của chuỗi dữ liệu đầu ra
Trang 25Hình 2.7: Cấu trúc mô hình Recurrent Neural Network
Do cấu trúc chính của RNN là xử lý tuần tự nên có một số nhược điểm sau:
• Vanishing/Exploding Gradient Problem: Trong quá trình huấn luyện, các RNN có thể gặpvấn đề biến mất đạo hàm hoặc phình to Điều này xảy ra khi gradient truyền ngược quacác lớp dài có giá trị lớn hoặc nhỏ quá, gây ra việc học thông tin từ các bước thời gian xatrở nên khó khăn hoặc không hiệu quả
• Khả năng nhớ hạn chế: RNN gặp vấn đề khó khăn trong việc nhớ thông tin từ quá khứ khichuỗi quá dài Các thông tin quan trọng từ những khoảng cách xa nhau trong chuỗi có thể
bị mất đi qua thời gian
• Thời gian huấn luyện dài: Huấn luyện mô hình RNN có thể tốn nhiều thời gian, đặc biệtkhi xử lý các chuỗi dữ liệu lớn và phức tạp
• Khó khăn trong việc xử lý dữ liệu song song: Do tính tuần tự của RNN, việc xử lý dữ liệusong song trong các tầng không phải lúc nào cũng hiệu quả, đặc biệt khi so sánh với các
mô hình nơ-ron sâu khác có khả năng xử lý song song tốt hơn
• Sự mất mát thông tin qua thời gian: RNN không hiệu quả trong việc duy trì thông tin quantrọng qua nhiều bước thời gian, dẫn đến việc mất mát thông tin quan trọng trong quá trình
xử lý chuỗi dữ liệu dài
Các điểm yếu này đã thúc đẩy sự phát triển của các biến thể cải tiến của RNN như LSTM(Long Short-Term Memory) và GRU (Gated Recurrent Unit), được thiết kế để giải quyết một sốvấn đề của RNN cơ bản
2.5.2 LSTM
LSTM (Long Short-Term Memory) là một biến thể của mạng nơ-ron tuần tự (RNN) đượcthiết kế để giải quyết vấn đề biến mất đạo hàm và khả năng nhớ thông tin trong các chuỗi dài.Cấu trúc của LSTM bao gồm các "cổng" để điều chỉnh và bảo quản thông tin theo thời gian
Dữ liệu đầu vào của mô hình LSTM không chỉ là xt và ht−1như mô hình RNN mà còn cầngiá trị cell state ct−1 Cụ thể hơn, phương thức hoạt động của từng perceptron trong mô hình
Trang 26LSTM được thiết kế phức tạp với cơ chế gating như mô tả trong Hình 2.8 theo từng bước nhưsau:
1 Bước đầu tiên sẽ tính toán và tổng hợp thông tin từ hidden state trước đó ht−1và dữ liệuđầu vào xt như cách perceptron trong mô hình RNN thực hiện:
e
Ct= tanh(Wc[ht−1, xt] + bc) (2.1)
2 Cổng quên (forget gate) là phần quyết định sẽ giữ lại bao nhiêu phần của vector cell
state trước ct−1với việc thực hiện phép tính toán đối với vector hidden state trước ht−1vàvector biểu diễn thành phần dữ liệu thứ t, sau đó đưa kết quả qua hàm sigmoid:
ft= σ (Wf [ht−1, xt] + bf) (2.2)
3 Cổng cập nhật (update gate) là phần quyết định sẽ giữ lại bao nhiêu phần từ vector hidden
state trước ht−1 và vector dữ liệu xt với phép tính sau:
ut= σ (Wu[ht−1, xt] + bu) (2.3)
4 Từ kết quả của bước 1, 2 và 3 có thể xác định được giá trị của cell state ct bằng công thức:
ct= ft∗ ct−1+ ut∗ eCt (2.4)
5 Cổng xuất (output gate) là phần quyết định lấy bao nhiêu phần giá trị cell state trước ct−1
để trở thành giá trị của hidden state ht bằng phép tính:
Hàm mất mát MSE (Mean Squared Error) là một trong những hàm mất mát phổ biến được
sử dụng trong các bài toán machine learning và dự báo, đặc biệt trong mạng nơ-ron
Trong bài toán dự báo và mạng nơ-ron, MSE được sử dụng để đo lường độ lớn của sai sốbình phương trung bình giữa giá trị dự đoán và giá trị thực tế
Công thức tính MSE như sau:
Trang 27Hình 2.8: Cơ chế hoạt động của perceptron trong mô hình Long Short-Term Memory
• n là số lượng mẫu trong tập dữ liệu
• yilà giá trị thực tế (ground truth) của mẫu thứ i
• ˆyilà giá trị dự đoán của mô hình cho mẫu thứ i
MSE tính toán sai số bằng cách lấy hiệu giữa giá trị thực tế và giá trị dự đoán, bình phương
nó, và sau đó lấy trung bình của các giá trị bình phương này Sự khác biệt càng lớn giữa dự đoán
và thực tế, sẽ càng tăng giá trị của MSE
Mục tiêu khi huấn luyện mô hình là cố gắng giảm giá trị của MSE, thông qua việc điềuchỉnh các trọng số (weights) và độ lệch (biases) của mạng nơ-ron để mô hình dự đoán gần vớigiá trị thực tế nhất có thể
Tuy nhiên, việc sử dụng MSE cần cân nhắc đối với từng bài toán cụ thể vì nó có thể bị ảnhhưởng bởi các ngoại lệ (outliers) trong dữ liệu và có thể dẫn đến mô hình không ổn định Trongmột số trường hợp, các hàm mất mát khác như MAE (Mean Absolute Error) hoặc các hàm mấtmát tuỳ chỉnh có thể được sử dụng thay thế tùy thuộc vào tính chất của dữ liệu và mục tiêu củabài toán
Trang 282.6.2 MAE
Hàm mất mát MAE (Mean Absolute Error) là một hàm mất mát phổ biến trong các bài toánmachine learning và dự báo mạng, được sử dụng để đo lường độ lỗi giữa giá trị dự đoán và giátrị thực tế Công thức của MAE được tính như sau:
• n là số lượng mẫu trong tập dữ liệu
• yilà giá trị thực tế (ground truth) của mẫu thứ i
• ˆyilà giá trị dự đoán của mô hình cho mẫu thứ i
MAE tính toán trung bình giá trị tuyệt đối của sự khác biệt giữa giá trị dự đoán và giá trịthực tế Nó đo lường độ lớn trung bình của sai số mà mô hình dự đoán so với giá trị thực tế vàthường được sử dụng khi muốn đánh giá sự chính xác của mô hình dự báo mà không muốn tậptrung quá nhiều vào các ngoại lệ
Tương tự như MSE, MAE cũng có thể được sử dụng để đánh giá hiệu suất của một mô hình
dự báo trong machine learning và có thể được tối ưu hóa trong quá trình huấn luyện để giảmthiểu sai số trung bình này Tùy thuộc vào bài toán cụ thể, MAE có thể được ưa chuộng hơnhoặc được sử dụng kết hợp với các hàm mất mát khác để cân nhắc giữa độ lớn sai số và đặc tínhcủa dữ liệu
2.7 Giải thuật tối ưu mô hình
Phương pháp tối ưu mô hình máy học nào phù hợp nhất cho một ứng dụng cụ thể phụ thuộcvào một số yếu tố, bao gồm: