ứng dụng kỹ thuật học sâu trực tuyến cho bài toán dự báo mạng vô tuyến 4g

56 0 0
Tài liệu đã được kiểm tra trùng lặp
ứng dụng kỹ thuật học sâu trực tuyến cho bài toán dự báo mạng vô tuyến 4g

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA TP.HCMTRƯỜNG ĐẠI HỌC BÁCH KHOACỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAMĐộc lập - Tự do - Hạnh phúcNHIỆM VỤ LUẬN VĂN THẠC SĨI.TÊN ĐỀ TÀI: ỨNG DỤNG KỸ THUẬT HỌC SÂU TRỰC TUYẾNCHO

Trang 1

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC BÁCH KHOA—————————————–

LÊ TÂN PHA

ỨNG DỤNG KỸ THUẬT HỌC SÂU TRỰCTUYẾN CHO BÀI TOÁN DỰ BÁO MẠNG

Trang 2

CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠITRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG -HCMCán bộ hướng dẫn khoa học :

PGS TS Quản Thành ThơCán bộ chấm nhận xét 1 :

TS Huỳnh Lương Huy ThôngCán bộ chấm nhận xét 2 :

Trang 3

ĐẠI HỌC QUỐC GIA TP.HCM

TRƯỜNG ĐẠI HỌC BÁCH KHOA

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAMĐộc lập - Tự do - Hạnh phúc

NHIỆM VỤ LUẬN VĂN THẠC SĨ

I.TÊN ĐỀ TÀI: ỨNG DỤNG KỸ THUẬT HỌC SÂU TRỰC TUYẾNCHO BÀI TOÁN DỰ BÁO MẠNG VÔ TUYẾN 4G

DEEP ONLINE LEARNING FOR 4G NETWORK FORECASTINGII.NHIỆM VỤ VÀ NỘI DUNG:

- Nghiên cứu, xây dựng mô hình dự báo chuỗi thời gian trong bài toándự báo mạng vô tuyến 4G kết hợp các mô hình học sâu và máy họctrực tuyến.

- Nghiên cứu, đề xuất các phương pháp nhằm cải thiện độ chính xác củamô hình.

- Thực nghiệm và đánh giá kết quả của các phương pháp đề xuất.

III.NGÀY GIAO NHIỆM VỤ : 05/09/2022

IV.NGÀY HOÀN THÀNH NHIỆM VỤ: 10/12/2023V.CÁN BỘ HƯỚNG DẪN:

PGS.TS Quản Thành Thơ, TS Nguyễn Thiên Bình

Trang 4

LỜI CÁM ƠN

Sau một thời gian tiến hành triển khai nghiên cứu, em cũng đã hoàn thành nội dung luận văn.Luận văn được hoàn thành không chỉ là công sức của bản thân tác giả mà còn có sự giúp đỡ, hỗtrợ tích cực của nhiều cá nhân và tập thể.

Trước hết, em xin gửi lời cảm ơn chân thành và sâu sắc đến PGS.TS Quản Thành Thơ, thầylà người hướng dẫn trực tiếp trong quá trình thực hiện luận văn, nhờ những lắng nghe và đónggóp ý kiến của thầy giúp em hình thành và hoàn thiện nhiều ý tưởng Hơn hết thầy là người đãtruyền cảm hứng cho em rất nhiều về niềm đam mê với học máy, học sâu, và xử lí dữ liệu chuỗithời gian.

Em xin gửi lời cảm ơn đến TS Phạm Huy Hoàng, PGD Trung tâm nghiên cứu phát triển,TS Huỳnh Lương Huy Thông, Trưởng phòng Lab VNPT-HCMUT đã tạo điều kiện cho em họctập, nghiên cứu và sử dụng các thiết bị huấn luyện AI, Hơn hết em xin cảm ơn anh Hoàng đãđặt ra vấn đề, tạo tiền đề cho em tiếp cận với dữ liệu và các kỹ thuật xử lý dữ liệu trong mạngvô tuyến 4G Em xin cảm cơn anh Thông vì những lời động viên, giúp đỡ trong thời gian đầu,khoảng thời gian khó khăn nhất của em trong quá trình thực hiện luận văn để em có thể vượtqua và hoàn thành luận văn này.

Em cũng xin gửi lời cảm ơn đến anh Phạm Công Thiện, em Lê Thông Minh Triết đã giúpđỡ trong quá trình thực hiện đề tài, chỉnh sửa bài báo khoa học.

Em xin gửi lời cảm ơn đến toàn thể anh, chị, em đồng nghiệp trong công ty VNPT-IT đãluôn tạo điều kiện cho em trong quá trình học và thực hiện luận văn tốt nghiệp.

Em cũng xin gửi lời cảm ơn chân thành đến gia đình, bạn bè, các anh, chị cùng lớp cao họcđã luôn động viên, quan tâm giúp đỡ em trong quá trình học tập và thực hiện luận văn.

Trang 5

TÓM TẮT LUẬN VĂN

Vấn đề dự báo các chỉ số chất lượng mạng (KPI) trong mạng di động đã tác động đến việccải thiện hiệu quả sử dụng tài nguyên, nhờ ứng dụng mạnh mẽ của máy học và học sâu Dựatrên những dự báo này, các nhà khai thác mạng viễn thông có thể chủ động phân bổ tài nguyênhoặc ngăn ngừa các sự cố ảnh hưởng đến hiệu suất mạng di động Tuy nhiên, các nghiên cứutrước đây thường tập trung vào một vài chỉ số cụ thể Trong luận văn này, học viên thực hiệnphân tích sâu dữ liệu từ các chỉ số hiệu suất 4G trên nhiều khía cạnh khác nhau như lưu lượngngười dùng, tốc độ tải xuống trung bình, tỷ lệ mất dịch vụ, tỷ lệ thành công bàn giao và tỷ lệthành công thiết lập dịch vụ theo thời gian thực Với cách tiếp cận học sâu và phương pháp họcmáy trực tuyến, học viên đề xuất mô hình CL-MLPs kết hợp các mô hình mạng nơ ron tích chập(Convolutional Neural Network), mạng nơ ron bộ nhớ ngắn hạn dài (Long Short Term Memory)và mô hình Perceptron nhiều lớp (Multi-layer Perceptron) có thể dự báo nhiều chỉ số KPT đồngthời với độ chính xác cao, có thể được sử dụng để dự báo các bất thường trên mạng di động.

Trang 6

The problem of predicting key performance indicators in mobile networks has had impactson improving resource utilization with powerful applications of machine learning and deeplearning Based on these forecasts, telecommunications network operators can be proactive inallocating resources or preventing incidents that affect key performance However, previousstudies often focused on a few specific indicators In this thesis we perform a deep analysisof data from 4G key performance indicators on multiple aspects such as user traffic, averagedownload speed, service drop rate, handover success rate, and service setup success rate in realtime With a deep learning approach and online learning method, we propose a CL-MLPs modelthat combines Convolutional Neural Network (CNN), LSTM and Multi-layer Perceptron (MLP)architectures that can predict multiple key performance indicators at the same time with highaccuracy, which can be used in predicting anomalies on mobile networks.

Trang 7

LỜI CAM ĐOAN

Tôi xin cam đoan luận văn tốt nghiệp: “ỨNG DỤNG KỸ THUẬT HỌC SÂU TRỰC TUYẾNCHO BÀI TOÁN DỰ BÁO MẠNG VÔ TUYẾN 4G” là công trình nghiên cứu của bản thân.Những phần sử dụng tài liệu tham khảo trong luận văn đã được nêu rõ trong phần tài liệu thamkhảo Các số liệu, kết quả trình bày trong luận văn là hoàn toàn trung thực, nếu sai tôi xin chịuhoàn toàn trách nhiệm và chịu mọi kỷ luật của bộ môn và nhà trường đề ra.

Trang 8

Mục lục

1.1 Mở đầu 1

1.2 Mô tả bài toán dự báo mạng vô tuyến 4G 2

1.3 Mục tiêu và nhiệm vụ của luận văn 3

1.4 Giới hạn đề tài 4

1.5 Đóng góp của luận văn 5

1.6 Cấu trúc luận văn 5

2CƠ SỞ KIẾN THỨC62.1 Tổng quan về dự báo chuỗi thời gian 6

2.1.1 Các phương pháp dự báo chuỗi thời gian 6

2.1.2 Các yếu tố ảnh hưởng đến dự báo chuỗi thời gian 7

2.1.3 Ưu điểm và nhược điểm của phương pháp học sâu 8

2.2 Các hình thức của phương pháp học máy 9

2.8 Chuẩn hóa dữ liệu 18

Trang 9

3.1 Hướng tiếp cận sử dụng CNN 22

3.2 Hướng tiếp cận sử dụng LSTM 23

3.3 Hướng tiếp cận kết hợp 24

4MÔ HÌNH ĐỀ XUẤT264.1 Bộ dữ liệu 26

4.2 Mô hình tham khảo 26

4.3 Phương pháp đánh giá RMSE 28

Trang 10

Danh sách bảng

1.1 Các KPI dùng trong dự báo mạng vô tuyến 4G 2

4.1 Khoảng biến thiên của các giá trị KPI 27

4.2 Bảng thiết lập các giá trị chia dữ liệu 33

4.3 Bảng thiết lập bộ siêu tham số 34

Trang 11

Danh sách hình vẽ

1.1 Mô hình trạm phát sóng mạng cho các thiết bị di động 1

1.2 Dự báo chỉ số chất lượng mạng - dự báo chuỗi thời gian 3

2.1 Mô hình hồi quy tuyến tính 7

2.2 Mô hình hồi quy phi tuyến 8

2.3 Một số phân tích bổ biến trên dữ liệu chuỗi thời gian 8

2.4 Online learning và Batch learning 9

2.5 Mô hình mạng nơ-ron nhiều tầng (MLP - Multi-layer Perceptron) 10

2.6 Dự báo chuỗi thời gian sử dụng mô hình CNN 11

2.7 Cấu trúc mô hình Recurrent Neural Network 13

2.8 Cơ chế hoạt động của perceptron trong mô hình Long Short-Term Memory 15

3.1 Các hướng tiếp cận trong bài toán dự báo chuỗi thời gian 20

3.2 DeepAnT architecture for time series prediction [3] 22

4.1 Mẫu dữ liệu chỉ số chất lượng KPI 26

4.2 Mô hình dự báo chỉ số lưu lượng mạng ứng dụng LSTM 27

4.3 Mô tả phân phối dữ liệu sau khi biến đổi từ chuỗi thời gian KPI sang chuỗi giátrị thay đổi trong 24h của 3 KPI % 29

4.4 Mô tả phân phối dữ liệu sau khi biến đổi từ chuỗi thời gian KPI sang chuỗi giátrị thay đổi trong 24h của KPI TRAFFIC 29

4.5 Quá trình dự báo các chỉ số KPI 30

4.6 Mô hình đề xuất CL-MLP cho nhiệm vụ dự báo chuỗi thời gian đa biến với việchọc trực tuyến 31

4.7 Mô hình máy học trực tuyến tự động cập nhật với dữ liệu mới sử dụng giải thuậtSGD 32

4.8 Phương pháp chia dữ liệu data windowing trong dự báo chuỗi thời gian 33

4.9 Biểu đồ giá trị hàm mất mát MSE của các mô hình huấn luyện 100 epoch 35

4.10 Biểu đồ kết quả RMSE, MAE của mô hình CNN - DeepAnT, LSTM và CL-MLP 364.11 Mô hình không dự đoán đúng được giá trị KPI trong khung màu xanh, lệch khánhiều so với thực tế 36

Trang 12

4.12 Mô hình dự đoán được các điểm bất thường dù trước đó đa số trạng thái là bình

thường 37

4.13 Kết quả dự báo KPI CSSR 37

4.14 Kết quả dự báo KPI INTRA FREQUENCY HO 37

4.15 Kết quả dự báo KPI CSSR 38

4.16 Kết quả dự báo KPI CSSR 38

4.17 Kết quả dự báo KPI USER DL AVG THPUT 38

Trang 14

Dự đoán các chỉ số chất lượng mạng là một yếu tố quan trọng cho phép quản lý thông minhtrong các mạng không dây thế hệ tiếp theo Dự đoán chính xác có thể giúp giảm thiểu các sự cốmạng và nâng cao hiệu quả sử dụng tài nguyên.

Sự sẵn có của dữ liệu mạng di động thời gian thực là chìa khóa để xây dựng các mô hình dựđoán chính xác Tuy nhiên, việc truy cập dữ liệu mạng thực tế rất hạn chế, vì vậy các nhà nghiêncứu thường sử dụng dữ liệu mô phỏng hoặc thử nghiệm có kiểm soát Dữ liệu này không phảnánh chính xác các mô hình lưu lượng động trong thế giới thực.

Do đó, việc phân tích và hiểu về mô hình dữ liệu thời gian thực của mạng 4G và khả năngdự đoán ở cấp độ thời gian thực ở mức độ giờ vẫn là một vấn đề nghiên cứu mở Nghiên cứunày sẽ giúp các nhà nghiên cứu hiểu sâu hơn về chất lượng mạng và cải thiện thiết kế quản lýtài nguyên.

1.2Mô tả bài toán dự báo mạng vô tuyến 4G

Bảng 1.1: Các KPI dùng trong dự báo mạng vô tuyến 4G

CSSR Tỉ lệ thiết lập cuộc gọi thành côngUSER DL AVG THPUT Tốc độ tải xuống trung bình.SERVICE DROP ALL Tỉ lệ mất tất cả dịch vụ.TRAFFIC Lưu lượng

INTRA FREQUENCY HO Tỷ lệ chuyển giao mạng thành công củacác tế bào cùng tần số

Bài toán dự báo mạng di động 4G là bài toán dự đoán các chỉ số chất lượng mạng 4G trongtương lai dựa trên dữ liệu mạng lịch sử Các chỉ số chất lượng mạng 4G thường được quan tâmbao gồm các KPI được mô tả ở Bảng 1.1, các chỉ số này ảnh thưởng trực tiếp tới các tế bào(CELL) phát sóng mạng tại trạm phát (Hình 1.1).

Bài toán dự báo mạng di động 4G có tầm quan trọng lớn đối với các nhà khai thác mạng diđộng Dự báo chính xác các chỉ số chất lượng mạng có thể giúp các nhà khai thác mạng:

• Chủ động phân bổ tài nguyên mạng, tránh tình trạng quá tải hoặc thiếu hụt tài nguyên• Đánh giá hiệu suất mạng và các ứng dụng

• Phát hiện và ngăn ngừa các sự cố mạng

Có nhiều phương pháp dự báo mạng di động 4G, bao gồm:• Phương pháp dự báo dựa trên mô hình thống kê

• Phương pháp dự báo dựa trên mô hình học máy

Trang 15

Các phương pháp dự báo dựa trên mô hình thống kê thường đơn giản và dễ hiểu, nhưng độchính xác thường không cao Các phương pháp dự báo dựa trên mô hình học máy thường có độchính xác cao hơn, nhưng đòi hỏi nhiều dữ liệu và thời gian đào tạo.

Dữ liệu chỉ số mạng được lưu trữ ở dạng chuỗi thời gian nên tổng quát bài toán dự báo mạngvô tuyến 4G là bài toán dự báo chuỗi thời gian (Time series forecasting) (Hình 1.2)

Hình 1.2: Dự báo chỉ số chất lượng mạng - dự báo chuỗi thời gian

1.3Mục tiêu và nhiệm vụ của luận văn

Mục tiêu của luận văn là nghiên cứu các phương pháp dự báo chỉ số chất lượng mạng dựatrên bài toán dự báo chuỗi thời gian Cụ thể, luận văn sẽ tập trung vào các nội dung sau:

• Tìm hiểu và sử dụng các mô hình học sâu: Luận văn sẽ giới thiệu các mô hình học sâuphổ biến được sử dụng trong dự báo chuỗi thời gian, chẳng hạn như mạng nơ-ron tíchchập (CNN), mạng nơ-ron tái tạo (RNN), mạng nơ-ron long short-term memory (LSTM).Luận văn cũng sẽ trình bày cách sử dụng các mô hình này với phương pháp học máy trựctuyến để dự báo các chỉ số chất lượng mạng.

• Các kỹ thuật xử lý dữ liệu chuỗi thời gian: Luận văn sẽ giới thiệu các kỹ thuật xử lý dữliệu chuỗi thời gian phổ biến, chẳng hạn như làm sạch dữ liệu, loại bỏ nhiễu, chuẩn hóadữ liệu Luận văn cũng sẽ trình bày cách sử dụng các kỹ thuật này để cải thiện độ chínhxác của các mô hình dự báo.

• Xác định các vấn đề cần tập trung giải quyết: Luận văn sẽ phân tích các vấn đề cần tậptrung giải quyết trong dự báo chỉ số chất lượng mạng, chẳng hạn như tính không ổn địnhcủa dữ liệu, tính đa dạng của các chỉ số chất lượng mạng Luận văn cũng sẽ đề xuất cácgiải pháp để giải quyết các vấn đề này.

Trang 16

• Thu thập thập và làm sạch dữ liệu: Luận văn sẽ thu thập dữ liệu thực tế từ các nhà khaithác mạng di động để sử dụng cho việc nghiên cứu Luận văn cũng sẽ thực hiện các kỹthuật làm sạch dữ liệu để loại bỏ nhiễu và lỗi trong dữ liệu.

• Đưa ra đề xuất cải tiến mô hình: Luận văn sẽ đưa ra các đề xuất cải tiến mô hình dự báochỉ số chất lượng mạng dựa trên các kết quả nghiên cứu của luận văn.

• Kết quả của mô hình ứng dụng được trong thực tế: Luận văn là một thành phần trong dựán nghiên cứu phát triển "Nghiên cứu xây dựng hệ thống giám sát, dự đoán bất thườngmạng vô tuyến 4G sử dụng trí tuệ nhân tạo" - Mã dự án: 169KHCN2021005, được phêduyệt ngày 31 tháng 12 năm 2021 với dự tham gia của các công ty bao gồm VNPT NET,VNPT RnD và Đại học Bách Khoa TP HCM.

Từ những mục tiêu trên, học viên đề ra các nhiệm vụ cần thực hiện trong quá trình làm luậnvăn:

• Tìm hiểu bài toán dự báo chuỗi thời gian trên dữ liệu mạng di động vô tuyến 4G, các côngtrình liên quan, các phương pháp giải quyết bài toán, ưu và nhược điểm của các phươngpháp.

• Tìm hiểu các phương pháp thu thập và lưu trữ dữ liệu, phục vụ cho mục tiêu triển khaiphương pháp học trực tuyến.

• Đề xuất các mô hình giúp cải thiện độ chính xác bằng cách kết hợp phương pháp xử lý dữliệu biến thiêng và phương pháp máy học trực tuyến.

• Thực nghiệm, đánh giá kết quả của các mô hình đề xuất.

• Kết luận, nêu ra các vấn đề còn tồn đọng đồng thời đưa ra các nghiên cứu trong tương lai.• Viết một bài báo khoa học.

1.4Giới hạn đề tài

Bài toán dự báo mạng di động 4G là một bài toán khó do một số thách thức sau:

• Môi trường truyền thông không dây rất năng động và thay đổi liên tục theo không gian vàthời gian.

• Các chỉ số chất lượng mạng thường có mối tương quan chặt chẽ với nhau.• Dữ liệu mạng lịch sử thường không đầy đủ và không chính xác.

• Dữ liệu lớn: Dữ liệu KPI được thu thập ở mức giờ, nhưng với số lượng tế bào phát mạnglớn và thời gian lịch sử lên tới 2 năm, số lượng dữ liệu thực tế cần xử lý lên tới hàng tỷdòng Mỗi dòng dữ liệu tương ứng với một mốc thời gian.

Do đó, dữ liệu thu thập trong luận văn giới hạn ở mức 5000 tế bào thu thập từ 22 tỉnh thànhvới nhiều vị trí khác nhau như khu dân cư, khu công nghiệp, quốc lộ, biển đảo, biên giới Tổngsố dòng dữ liệu được xử lý khoảng 7,7 tỷ (Thu thập từ tháng 1/2021 đến tháng 12/2022).

Trang 17

1.5Đóng góp của luận văn

Sau đây là những đóng góp của luận văn:

• Học viên đã phân tích kỹ lưỡng dữ liệu thời gian thực của 5000 tế bào về chỉ số chất lượngmạng 4G Dữ liệu được thu thập từ tháng 01/2021 đến tháng 12/2022, với độ phân giảitheo giờ (mỗi giờ lấy một điểm dữ liệu ứng với mỗi tế bào) Qua đó, học viên có cái nhìntổng quát về ảnh hưởng của số lượng lưu lượng truy cập và tốc độ mạng đến các chỉ sốchất lượng mạng Học viên cũng đề xuất cách thức thu thập và lưu trữ dữ liệu chỉ số mạngmột cách liên tục để phục vụ cho mục đích nghiên cứu và dự báo tương lai bằng cách sửdụng cơ sở dữ lệu Cassandra.

• Học viên đề xuất mô hình dự báo gián tiếp giá trị KPI biến thiêng thay cho việc dự đoángiá trị trực tiếp, điều này có hiệu quả tích cực trong việc cải thiện hiệu suất của mô hình.• Học viên đề xuất một mô hình CL-MLP, kết hợp ba kiến trúc mạng lớn là CNN, LSTM

và MLP Mô hình được đào tạo với dữ liệu thời gian thực theo phương pháp máy học trựctuyến Mỗi mẫu dữ liệu chỉ được học một lần và sẽ liên tục được cập nhật với dữ liệumới Phương pháp này giúp mô hình tránh được hiện tượng overfitting và có khả năng họcđược các sự kiện mới tốt hơn so với phương pháp máy học truyền thống.

1.6Cấu trúc luận văn

Nội dung của luận văn gồm 5 chương với các nội dung chính sau:

• Chương 1 GIỚI THIỆU ĐỀ TÀI: Trình bày tổng quan về đề tài, lý do thực hiện đề tàivà ý nghĩa thực tiễn của bài toán, cũng như giới hạn và phạm vi của đề tài Cuối cùng lànhiệm vụ và cấu trúc của luận văn.

• Chương 2 CƠ SỞ KIẾN THỨC: Bàn về cơ sở kiến thức cơ bản trong deep learning nhưConvolution Neural Network tới Recurrent Neural Network, Long Short-Term Memory,Multi-layer Perceptron và phương pháp học máy trực tuyến.

• Chương 3 CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN: Trình bày một cáchtổng quát về những nghiên cứu liên quan đã và đang được thực hiện, cũng như xu hướngchung hiện nay trong việc giải quyết bài toán Phần này cũng đưa ra những bàn luận vàđánh giá cho các phương pháp kể trên vì đó là cơ sở quan trọng cho những nghiên cứucủa học viên trong quá trình thực hiện luận văn.

• Chương 4 CÁC MÔ HÌNH ĐỀ XUẤT: Chương 4 nói cụ thể về các mô hình đề xuất của

học viên cho bài toán dự báo mạng vô tuyến 4G và các kết quả thực nhiệm.

• Chương 5 KẾT LUẬN: Tổng hợp các kết quả đạt được trong quá trình thực hiện luậnvăn từ bước nghiên cứu và xây dựng giả thuyết đến triển khai thực nghiệm Phần này cũngtrình bày những hạn chế và vấn đề tồn đọng, cuối cùng đề xuất các giải pháp cải tiến trongtương lai.

Trang 18

Chương 2

CƠ SỞ KIẾN THỨC

2.1Tổng quan về dự báo chuỗi thời gian

Dự báo chuỗi thời gian là quá trình sử dụng dữ liệu lịch sử để dự đoán giá trị trong tương laicủa một biến Dữ liệu chuỗi thời gian là dữ liệu được thu thập theo thời gian, chẳng hạn như giácổ phiếu, doanh số bán hàng, nhiệt độ, chỉ số chất lượng mạng v.v.

2.1.1Các phương pháp dự báo chuỗi thời gian

Có nhiều phương pháp dự báo chuỗi thời gian khác nhau, có thể được phân loại thành hailoại chính:

• Phương pháp mô hình hóa: Các phương pháp này sử dụng các mô hình toán học để mô tảcác xu hướng và biến động trong dữ liệu chuỗi thời gian Các phương pháp mô hình hóaphổ biến bao gồm:

– Hồi quy tuyến tính: Phương pháp này sử dụng một đường thẳng để mô tả mối quan

hệ giữa các biến (Hình 2.1).

– Hồi quy phi tuyến: Phương pháp này sử dụng một đường cong để mô tả mối quan hệ

giữa các biến (Hình 2.2).

– Mô hình tự hồi quy: Phương pháp này sử dụng các giá trị trước đó của biến để dự

đoán giá trị hiện tại của biến.

– Mô hình tự hồi quy tích phân: Phương pháp này sử dụng các giá trị trước đó và tích

phân của các giá trị trước đó của biến để dự đoán giá trị hiện tại của biến.

• Phương pháp phân tích: Các phương pháp này dựa trên phân tích dữ liệu chuỗi thời gianđể xác định các xu hướng và biến động trong dữ liệu Các phương pháp phân tích phổbiến bao gồm (Hình 2.3):

– Phân tích xu hướng: Phân tích các xu hướng dài hạn trong dữ liệu.– Phân tích chu kỳ: Phân tích các chu kỳ ngắn hạn trong dữ liệu.– Phân tích mùa vụ: Phân tích các biến động theo mùa trong dữ liệu.

Trang 19

• Phương pháp học máy [7]: Phương pháp học máy dự báo chuỗi thời gian là một phươngpháp dự báo chuỗi thời gian sử dụng các mô hình học máy để học từ dữ liệu lịch sử Cácmô hình học máy có thể mô tả các xu hướng và biến động trong dữ liệu chuỗi thời gianmột cách hiệu quả hơn các phương pháp truyền thống Có nhiều loại mô hình học máy cóthể được sử dụng cho dự báo chuỗi thời gian, bao gồm:

– Mô hình hồi quy: Các mô hình hồi quy sử dụng một hàm số để mô tả mối quan hệ

giữa các biến.

– Mô hình cây: Các mô hình cây sử dụng một cây quyết định để dự đoán giá trị của

– Mạng nơ-ron: Các mạng nơ-ron là một loại mô hình học máy phức tạp có thể mô tả

các mối quan hệ phi tuyến phức tạp.

Hình 2.1: Mô hình hồi quy tuyến tính

2.1.2Các yếu tố ảnh hưởng đến dự báo chuỗi thời gian

Có nhiều yếu tố ảnh hưởng đến độ chính xác của dự báo chuỗi thời gian nói chung và dự báoKPI nói riêng, bao gồm:

• Chất lượng dữ liệu: Dữ liệu chuỗi thời gian cần phải đầy đủ, chính xác và không bị sailệch.

• Kiểu dữ liệu: Dữ liệu chuỗi thời gian có thể được chia thành hai loại chính: dữ liệu tuyếntính và dữ liệu phi tuyến Phương pháp dự báo phù hợp cần được lựa chọn dựa trên loạidữ liệu.

• Tính chất của dữ liệu: Dữ liệu chuỗi thời gian có thể có các tính chất như xu hướng, chukỳ, mùa vụ, v.v Phương pháp dự báo cần được lựa chọn sao cho phù hợp với các tính chấtcủa dữ liệu.

• Các yếu tố bên ngoài: Các yếu tố bên ngoài, chẳng hạn như các sự kiện âm nhạc, vị trí đặttrạm phát sóng, v.v có thể ảnh hưởng đến giá trị của biến Các yếu tố này cần được xemxét khi thực hiện dự báo chuỗi thời gian với dữ liệu KPI 4G.

Trang 20

Hình 2.2: Mô hình hồi quy phi tuyến

Hình 2.3: Một số phân tích bổ biến trên dữ liệu chuỗi thời gian

2.1.3Ưu điểm và nhược điểm của phương pháp học sâu

Ưu điểm:

• Độ chính xác cao: Các mô hình học sâu có thể mô tả các xu hướng và biến động trong dữliệu chuỗi thời gian một cách hiệu quả hơn các phương pháp truyền thống, chẳng hạn nhưhồi quy tuyến tính hoặc tự hồi quy.

• Thích ứng với dữ liệu thay đổi: Các mô hình học sâu có thể học từ dữ liệu mới và thíchứng với các thay đổi trong dữ liệu.

• Áp dụng cho nhiều loại dữ liệu: Các mô hình học sâu có thể được áp dụng cho nhiều loại

Trang 21

dữ liệu chuỗi thời gian, bao gồm dữ liệu tuyến tính, dữ liệu phi tuyến, dữ liệu có xu hướng,dữ liệu có chu kỳ, v.v.

2.2Các hình thức của phương pháp học máy

Hình 2.4: Online learning và Batch learning

Dựa trên cách thức mô hình tiếp cận dữ liệu để học, có 2 phương pháp phổ biến (Hình 2.4):

• Batch Machine Learninglà phương pháp học mà mô hình được cung cấp toàn bộ bộ dữliệu trước khi đưa ra dự đoán Mô hình được cập nhật một lần sau mỗi lần xử lý toàn bộbộ dữ liệu.

Trang 22

• Online Machine Learning [11] là phương pháp học mà mô hình cập nhật từng phần,theo từng mẫu dữ liệu mới nhận được Mỗi mẫu dữ liệu được sử dụng để cập nhật môhình ngay lập tức và không được sử dụng lại.

Với batch machine learning, mô hình cần phải xử lý toàn bộ bộ dữ liệu trước khi có thể đưara dự đoán Điều này có thể mất nhiều thời gian, đặc biệt với bộ dữ liệu lớn hoặc dữ liệu thayđổi liên tục Với online machine learning, mô hình có thể cập nhật liên tục theo từng mẫu dữliệu mới Điều này cho phép mô hình xử lý dữ liệu real-time và thích ứng với dữ liệu thay đổi.

Phân loại này cũng có thể được hiểu là phân loại theo thời gian cập nhật mô hình Với batchmachine learning, mô hình được cập nhật định kỳ, sau mỗi lần xử lý toàn bộ bộ dữ liệu Vớionline machine learning, mô hình được cập nhật liên tục, theo từng mẫu dữ liệu mới.

Phân loại này có ý nghĩa quan trọng trong việc lựa chọn phương pháp học máy phù hợp chotừng bài toán Nếu bài toán yêu cầu độ chính xác cao và không cần xử lý dữ liệu real-time, batchmachine learning là lựa chọn tốt Nếu bài toán cần xử lý dữ liệu real-time và dữ liệu thay đổitheo thời gian, online machine learning là lựa chọn tốt hơn.

2.3Mô hình MLP

Hình 2.5: Mô hình mạng nơ-ron nhiều tầng (MLP - Multi-layer Perceptron)

Mạng nơ-ron nhiều tầng (MLP - Multi-layer Perceptron) là một loại mạng nơ-ron forward gồm nhiều tầng, bao gồm ít nhất một tầng ẩn (hidden layer) giữa tầng đầu vào (inputlayer) và tầng đầu ra (output layer) MLP được sử dụng rộng rãi trong các bài toán ứng dụng họcsâu bao gồm dự báo chuỗi thời gian.

feed-Cấu trúc của MLP (Hình 2.5):

Trang 23

• Input Layer (Tầng đầu vào): Tầng này chứa các nút đại diện cho các đặc trưng hoặc biếnđầu vào của dữ liệu chuỗi thời gian.

• Hidden Layers (Tầng ẩn): Gồm nhiều tầng ẩn, mỗi tầng bao gồm nhiều nút (perceptrons)tính toán thông tin từ tầng trước đó và truyền thông tin đến tầng tiếp theo Các tầng ẩnnày giúp học các biểu diễn phức tạp và trừu tượng từ dữ liệu đầu vào.

• Output Layer (Tầng đầu ra): Tầng này chứa các nút đại diện cho kết quả dự đoán của môhình cho chuỗi thời gian.

Cách hoạt động của MLP trong dự báo chuỗi thời gian:

• Feed-forward: Trong quá trình huấn luyện, dữ liệu chuỗi thời gian được đưa vào mạngthông qua tầng đầu vào và truyền qua các tầng ẩn theo chiều tiến Mỗi tầng tính toánthông tin và truyền nó tới tầng tiếp theo.

• Tính toán đầu ra: Khi dữ liệu đã được truyền qua các tầng, mạng tính toán đầu ra dự đoándựa trên các trọng số (weights) và độ lệch (biases) được học trong quá trình huấn luyện.• Huấn luyện và cập nhật trọng số: Mạng được huấn luyện thông qua quá trình lan truyền

ngược (backpropagation), trong đó sai số giữa đầu ra dự đoán và giá trị thực tế được tínhtoán Quá trình này cập nhật trọng số và độ lệch của các nút trong mạng để giảm thiểu saisố này.

• Dự đoán chuỗi thời gian: Sau khi huấn luyện, mô hình MLP có thể được sử dụng để dựđoán giá trị tiếp theo của chuỗi thời gian dựa trên các đặc trưng đã học từ quá khứ.MLP có khả năng học và mô hình hóa các mối quan hệ phức tạp giữa các điểm dữ liệu trongchuỗi thời gian, tuy nhiên, cần chú ý đến việc chọn số lượng tầng ẩn, kích thước của từng tầngvà các siêu tham số khác để tránh overfitting hoặc underfitting.

2.4Mô hình CNN

Hình 2.6: Dự báo chuỗi thời gian sử dụng mô hình CNN

Mạng CNN (Convolutional Neural Network) là một loại mạng nơ-ron được sử dụng rộngrãi trong các ứng dụng xử lý hình ảnh Trong dự báo chuỗi thời gian, CNN có thể được sử dụngđể học các mối quan hệ phức tạp giữa các giá trị dữ liệu trong quá khứ và giá trị dự báo trongtương lai.

Cấu trúc của CNN dùng trong dự báo chuỗi thời gian thường bao gồm các thành phần sau:

Trang 24

• Lớp Convolution: Lớp Convolution là lớp chính của CNN, chịu trách nhiệm học các đặctrưng cục bộ từ dữ liệu đầu vào Lớp Convolution hoạt động bằng cách sử dụng các bộlọc (filter) để quét qua dữ liệu đầu vào và tạo ra các bản sao được biến đổi của dữ liệu đầuvào.

• Lớp Pooling: Lớp Pooling được sử dụng để giảm kích thước của dữ liệu đầu ra của lớpConvolution.

• Lớp Fully Connected: Lớp Fully Connected là lớp kết nối tất cả các nơ-ron của các lớptrước với tất cả các nơ-ron của lớp này Lớp Fully Connected chịu trách nhiệm học cácmối quan hệ tổng quát giữa các giá trị dữ liệu.

Ưu điểm và nhược điểm của CNN dùng trong dự báo chuỗi thời gian:

Mô hình RNN (Recurrent Neural Network) là một loại mạng nơ-ron có thể xử lý dữ liệutuần tự Loại mạng này có thể áp dụng vào đa dạng bài toán, tuy nhiên phổ biến nhất là trong xửlý ngôn ngữ tự nhiên RNN thích hợp cho việc này vì dữ liệu ngôn ngữ thường được biểu diễndưới dạng chuỗi, tương tự như chuỗi thời gian, điều này đã tạo điều kiện cho RNN phát triểnmạnh mẽ và được sử dụng rộng rãi trong lĩnh vực này.

Mô hình RNN được xây dựng với một tầng xử lý dữ liệu, số lượng perceptron trong tầngnày tương đương với độ dài của chuỗi dữ liệu đầu vào Ngoài thông tin từ chuỗi dữ liệu đầu vào,mỗi perceptron còn nhận thông tin từ đầu ra của perceptron ở vị trí trước đó trong chuỗi Có thểhiểu rõ cách hoạt động này bằng cách tham khảo mô hình được mô tả trong Hình 2.7.

Trong đó:

• xt, t ∈ [1, n] là vector biểu diễn thành phần thứ t của chuỗi dữ liệu đầu vào;

• ht, t ∈ [0, n] là vector hidden state (trạng thái ẩn) của dữ liệu tại bước xử lý t, có thể hiểu

đây là kết quả của bước xử lý thứ t đồng thời là dữ liệu đầu vào cho bước xử lý t + 1;• yt, t ∈ [1, n] là vector biểu diễn thành phần thứ t của chuỗi dữ liệu đầu ra.

Trang 25

Hình 2.7: Cấu trúc mô hình Recurrent Neural NetworkDo cấu trúc chính của RNN là xử lý tuần tự nên có một số nhược điểm sau:

• Vanishing/Exploding Gradient Problem: Trong quá trình huấn luyện, các RNN có thể gặpvấn đề biến mất đạo hàm hoặc phình to Điều này xảy ra khi gradient truyền ngược quacác lớp dài có giá trị lớn hoặc nhỏ quá, gây ra việc học thông tin từ các bước thời gian xatrở nên khó khăn hoặc không hiệu quả.

• Khả năng nhớ hạn chế: RNN gặp vấn đề khó khăn trong việc nhớ thông tin từ quá khứ khichuỗi quá dài Các thông tin quan trọng từ những khoảng cách xa nhau trong chuỗi có thểbị mất đi qua thời gian.

• Thời gian huấn luyện dài: Huấn luyện mô hình RNN có thể tốn nhiều thời gian, đặc biệtkhi xử lý các chuỗi dữ liệu lớn và phức tạp.

• Khó khăn trong việc xử lý dữ liệu song song: Do tính tuần tự của RNN, việc xử lý dữ liệusong song trong các tầng không phải lúc nào cũng hiệu quả, đặc biệt khi so sánh với cácmô hình nơ-ron sâu khác có khả năng xử lý song song tốt hơn.

• Sự mất mát thông tin qua thời gian: RNN không hiệu quả trong việc duy trì thông tin quantrọng qua nhiều bước thời gian, dẫn đến việc mất mát thông tin quan trọng trong quá trìnhxử lý chuỗi dữ liệu dài.

Các điểm yếu này đã thúc đẩy sự phát triển của các biến thể cải tiến của RNN như LSTM(Long Short-Term Memory) và GRU (Gated Recurrent Unit), được thiết kế để giải quyết một sốvấn đề của RNN cơ bản.

LSTM (Long Short-Term Memory) là một biến thể của mạng nơ-ron tuần tự (RNN) đượcthiết kế để giải quyết vấn đề biến mất đạo hàm và khả năng nhớ thông tin trong các chuỗi dài.Cấu trúc của LSTM bao gồm các "cổng" để điều chỉnh và bảo quản thông tin theo thời gian.

Dữ liệu đầu vào của mô hình LSTM không chỉ là xt và ht−1như mô hình RNN mà còn cầngiá trị cell state ct−1 Cụ thể hơn, phương thức hoạt động của từng perceptron trong mô hình

Trang 26

LSTM được thiết kế phức tạp với cơ chế gating như mô tả trong Hình 2.8 theo từng bước nhưsau:

1 Bước đầu tiên sẽ tính toán và tổng hợp thông tin từ hidden state trước đó ht−1và dữ liệuđầu vào xt như cách perceptron trong mô hình RNN thực hiện:

Ct= tanh(Wc[ht−1, xt] + bc) (2.1)

2 Cổng quên (forget gate) là phần quyết định sẽ giữ lại bao nhiêu phần của vector cell

state trước ct−1với việc thực hiện phép tính toán đối với vector hidden state trước ht−1vàvector biểu diễn thành phần dữ liệu thứ t, sau đó đưa kết quả qua hàm sigmoid:

ft= σ (Wf [ht−1, xt] + bf) (2.2)

3 Cổng cập nhật (update gate) là phần quyết định sẽ giữ lại bao nhiêu phần từ vector hidden

state trước ht−1 và vector dữ liệu xt với phép tính sau:

ut= σ (Wu[ht−1, xt] + bu) (2.3)4 Từ kết quả của bước 1, 2 và 3 có thể xác định được giá trị của cell state ct bằng công thức:ct= ft∗ ct−1+ ut∗ eCt (2.4)

5 Cổng xuất (output gate) là phần quyết định lấy bao nhiêu phần giá trị cell state trước ct−1

để trở thành giá trị của hidden state ht bằng phép tính:

ot= σ (Wo[ht−1, xt] + bo) (2.5)6 Cuối cùng là phép tính giá trị hidden state ht từ giá trị của cell state ct ở bước 4 và ot ở

bước 5 như sau:

ht= ot∗ tanh(ct) (2.6)

2.6Hàm mất mát2.6.1MSE

Hàm mất mát MSE (Mean Squared Error) là một trong những hàm mất mát phổ biến đượcsử dụng trong các bài toán machine learning và dự báo, đặc biệt trong mạng nơ-ron.

Trong bài toán dự báo và mạng nơ-ron, MSE được sử dụng để đo lường độ lớn của sai sốbình phương trung bình giữa giá trị dự đoán và giá trị thực tế.

Công thức tính MSE như sau:

MSE= 1n

(yi− ˆyi)2 (2.7)Trong đó:

Trang 27

Hình 2.8: Cơ chế hoạt động của perceptron trong mô hình Long Short-Term Memory

• n là số lượng mẫu trong tập dữ liệu.

• yilà giá trị thực tế (ground truth) của mẫu thứ i.• ˆyilà giá trị dự đoán của mô hình cho mẫu thứ i.

MSE tính toán sai số bằng cách lấy hiệu giữa giá trị thực tế và giá trị dự đoán, bình phươngnó, và sau đó lấy trung bình của các giá trị bình phương này Sự khác biệt càng lớn giữa dự đoánvà thực tế, sẽ càng tăng giá trị của MSE.

Mục tiêu khi huấn luyện mô hình là cố gắng giảm giá trị của MSE, thông qua việc điềuchỉnh các trọng số (weights) và độ lệch (biases) của mạng nơ-ron để mô hình dự đoán gần vớigiá trị thực tế nhất có thể.

Tuy nhiên, việc sử dụng MSE cần cân nhắc đối với từng bài toán cụ thể vì nó có thể bị ảnhhưởng bởi các ngoại lệ (outliers) trong dữ liệu và có thể dẫn đến mô hình không ổn định Trongmột số trường hợp, các hàm mất mát khác như MAE (Mean Absolute Error) hoặc các hàm mấtmát tuỳ chỉnh có thể được sử dụng thay thế tùy thuộc vào tính chất của dữ liệu và mục tiêu củabài toán.

Trang 28

Hàm mất mát MAE (Mean Absolute Error) là một hàm mất mát phổ biến trong các bài toánmachine learning và dự báo mạng, được sử dụng để đo lường độ lỗi giữa giá trị dự đoán và giátrị thực tế Công thức của MAE được tính như sau:

|yi− ˆyi| (2.8)

• n là số lượng mẫu trong tập dữ liệu.

• yilà giá trị thực tế (ground truth) của mẫu thứ i.• ˆyilà giá trị dự đoán của mô hình cho mẫu thứ i.

MAE tính toán trung bình giá trị tuyệt đối của sự khác biệt giữa giá trị dự đoán và giá trịthực tế Nó đo lường độ lớn trung bình của sai số mà mô hình dự đoán so với giá trị thực tế vàthường được sử dụng khi muốn đánh giá sự chính xác của mô hình dự báo mà không muốn tậptrung quá nhiều vào các ngoại lệ.

Tương tự như MSE, MAE cũng có thể được sử dụng để đánh giá hiệu suất của một mô hìnhdự báo trong machine learning và có thể được tối ưu hóa trong quá trình huấn luyện để giảmthiểu sai số trung bình này Tùy thuộc vào bài toán cụ thể, MAE có thể được ưa chuộng hơnhoặc được sử dụng kết hợp với các hàm mất mát khác để cân nhắc giữa độ lớn sai số và đặc tínhcủa dữ liệu.

2.7Giải thuật tối ưu mô hình2.7.1Gradient Descent

Có nhiều giải thuật tối ưu mô hình máy học, tuy nhiên phổ biến nhất là các giải thuật tối ưudựa trên đạo hàm gồm có:

• Gradient Descent

• Stochastic Gradient Descent• AdaGrad

• RMSProp• Adam

Gradient Descent là một phương pháp tối ưu học máy cơ bản trong đó mô hình được cập nhậttheo hướng gradient của hàm mất mát Stochastic Gradient Descent là một biến thể của GradientDescent trong đó mô hình được cập nhật dựa trên một mẫu dữ liệu ngẫu nhiên AdaGrad,RMSProp và Adam là các phương pháp học máy hiện đại hơn được thiết kế để giảm thiểu sựmất ổn định trong quá trình học tập

Phương pháp tối ưu mô hình máy học nào phù hợp nhất cho một ứng dụng cụ thể phụ thuộcvào một số yếu tố, bao gồm:

Ngày đăng: 22/05/2024, 11:06

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan