Nghiên cứu dự báo không gian phát triển mạng Internet di động tốc độ cao tại tỉnh Tây NinhNghiên cứu dự báo không gian phát triển mạng Internet di động tốc độ cao tại tỉnh Tây NinhNghiên cứu dự báo không gian phát triển mạng Internet di động tốc độ cao tại tỉnh Tây NinhNghiên cứu dự báo không gian phát triển mạng Internet di động tốc độ cao tại tỉnh Tây NinhNghiên cứu dự báo không gian phát triển mạng Internet di động tốc độ cao tại tỉnh Tây NinhNghiên cứu dự báo không gian phát triển mạng Internet di động tốc độ cao tại tỉnh Tây NinhNghiên cứu dự báo không gian phát triển mạng Internet di động tốc độ cao tại tỉnh Tây NinhNghiên cứu dự báo không gian phát triển mạng Internet di động tốc độ cao tại tỉnh Tây NinhNghiên cứu dự báo không gian phát triển mạng Internet di động tốc độ cao tại tỉnh Tây NinhNghiên cứu dự báo không gian phát triển mạng Internet di động tốc độ cao tại tỉnh Tây NinhNghiên cứu dự báo không gian phát triển mạng Internet di động tốc độ cao tại tỉnh Tây NinhNghiên cứu dự báo không gian phát triển mạng Internet di động tốc độ cao tại tỉnh Tây NinhNghiên cứu dự báo không gian phát triển mạng Internet di động tốc độ cao tại tỉnh Tây NinhNghiên cứu dự báo không gian phát triển mạng Internet di động tốc độ cao tại tỉnh Tây NinhNghiên cứu dự báo không gian phát triển mạng Internet di động tốc độ cao tại tỉnh Tây NinhNghiên cứu dự báo không gian phát triển mạng Internet di động tốc độ cao tại tỉnh Tây NinhNghiên cứu dự báo không gian phát triển mạng Internet di động tốc độ cao tại tỉnh Tây NinhNghiên cứu dự báo không gian phát triển mạng Internet di động tốc độ cao tại tỉnh Tây NinhNghiên cứu dự báo không gian phát triển mạng Internet di động tốc độ cao tại tỉnh Tây NinhNghiên cứu dự báo không gian phát triển mạng Internet di động tốc độ cao tại tỉnh Tây NinhNghiên cứu dự báo không gian phát triển mạng Internet di động tốc độ cao tại tỉnh Tây NinhNghiên cứu dự báo không gian phát triển mạng Internet di động tốc độ cao tại tỉnh Tây NinhNghiên cứu dự báo không gian phát triển mạng Internet di động tốc độ cao tại tỉnh Tây NinhNghiên cứu dự báo không gian phát triển mạng Internet di động tốc độ cao tại tỉnh Tây NinhNghiên cứu dự báo không gian phát triển mạng Internet di động tốc độ cao tại tỉnh Tây NinhNghiên cứu dự báo không gian phát triển mạng Internet di động tốc độ cao tại tỉnh Tây NinhNghiên cứu dự báo không gian phát triển mạng Internet di động tốc độ cao tại tỉnh Tây NinhNghiên cứu dự báo không gian phát triển mạng Internet di động tốc độ cao tại tỉnh Tây NinhNghiên cứu dự báo không gian phát triển mạng Internet di động tốc độ cao tại tỉnh Tây NinhNghiên cứu dự báo không gian phát triển mạng Internet di động tốc độ cao tại tỉnh Tây NinhNghiên cứu dự báo không gian phát triển mạng Internet di động tốc độ cao tại tỉnh Tây NinhNghiên cứu dự báo không gian phát triển mạng Internet di động tốc độ cao tại tỉnh Tây NinhNghiên cứu dự báo không gian phát triển mạng Internet di động tốc độ cao tại tỉnh Tây NinhNghiên cứu dự báo không gian phát triển mạng Internet di động tốc độ cao tại tỉnh Tây NinhNghiên cứu dự báo không gian phát triển mạng Internet di động tốc độ cao tại tỉnh Tây NinhNghiên cứu dự báo không gian phát triển mạng Internet di động tốc độ cao tại tỉnh Tây NinhNghiên cứu dự báo không gian phát triển mạng Internet di động tốc độ cao tại tỉnh Tây NinhNghiên cứu dự báo không gian phát triển mạng Internet di động tốc độ cao tại tỉnh Tây NinhNghiên cứu dự báo không gian phát triển mạng Internet di động tốc độ cao tại tỉnh Tây Ninh
Trang 1Trương Đình Lợi
NGHIÊN CỨU DỰ BÁO KHÔNG GIAN PHÁT TRIỂN MẠNG INTERNET DI ĐỘNG TỐC ĐỘ CAO TẠI
TỈNH TÂY NINH
Chuyên ngành: Hệ Thống thông tin
Mã số: 8.48.01.04
TÓM TẮT ĐỀ ÁN THẠC SĨ (Theo định hướng ứng dụng)
TP HỒ CHÍ MINH - NĂM 2023
Trang 2Người hướng dẫn khoa học: TS TÂN HẠNH
Phản biện 1: ……… Phản biện 2: ………
Đề án sẽ được bảo vệ trước Hội đồng chấm đề án thạc
sĩ tại Học viện Công nghệ Bưu chính Viễn thông
Vào lúc: giờ ngày tháng năm
Có thể tìm hiểu đề án tại:
-Thư viện của Học viện Công nghệ Bưu chính Viễn thông
Trang 3MỞ ĐẦU
Hiện nay, mạng internet di động đang phát triển mạnh mẽ, đặc biệt với sự hỗ trợ của trí tuệ nhân tạo
và hệ thống thông tin địa lý (GIS) Những công nghệ này giúp tối ưu hóa việc quản lý và phát triển vùng phủ sóng mạng, đáp ứng nhu cầu ngày càng tăng của người dùng Tuy nhiên, theo số liệu mới từ Ookla Speedtest, tốc độ Internet di động của Việt Nam đang giảm, với vị trí thứ 56 thế giới Tại Tây Ninh, mạng di động vẫn chưa được phát triển mạnh so với TP.HCM Vì vậy, việc xây dựng chiến lược phát triển mạng ở Tây Ninh, dựa trên dữ liệu và dự báo chính xác, là cần thiết để đáp ứng nhu cầu của cộng đồng và tối ưu hóa hiệu suất sử dụng Đề tài như sau:
NGHIÊN CỨU DỰ BÁO KHÔNG GIAN PHÁT TRIỂN MẠNG INTERNET DI ĐỘNG TỐC ĐỘ
CAO Ở TỈNH TÂY NINH
Trang 4CHƯƠNG 2 Tình hình nghiên cứu liên quan đến đề tài
Các nghiên cứu hiện đại về "NGHIÊN CỨU DỰ BÁO KHÔNG GIAN PHÁT TRIỂN MẠNG INTERNET DI ĐỘNG TỐC ĐỘ CAO" đang tập trung vào việc dự đoán sự phát triển và nhu cầu mạng internet di động tại Tây Ninh Sử dụng dữ liệu không gian, bao gồm vị trí địa lý và môi trường xung quanh, các nghiên cứu nhằm xác định các khu vực tiềm năng và tối ưu hóa vị trí trạm phát sóng Kết hợp với công nghệ học máy và trí tuệ nhân tạo, các
mô hình được phát triển giúp quy hoạch mạng và quản lý tài nguyên mạng hiệu quả Mục tiêu chính là cải thiện chất lượng dịch vụ và đáp ứng nhu cầu người dân và doanh nghiệp tại Tây Ninh
học và thực tiễn
Mục tiêu chính của nghiên cứu là phát triển mạng Internet di động tại Tây Ninh thông qua việc dự báo
dữ liệu không gian Để đạt được mục tiêu này, nghiên cứu sẽ tập trung vào việc thu thập và phân
Trang 5tích dữ liệu không gian liên quan đến phát triển mạng di động Các thuật toán dự báo và máy học sẽ được nghiên cứu để ứng dụng vào dữ liệu không gian Mô hình dự báo sẽ được kết hợp với GIS, và cuối cùng, đánh giá sẽ được thực hiện để xác định độ chính xác của mô được xây dựng
nghiên cứu
4.1 Đối tượng nghiên cứu
Dữ liệu không gian liên quan phát triển Internet di động tại tỉnh Tây Ninh
Thuật toán dự báo & máy học, học sâu ứng dụng vào dữ liệu không gian
4.2 Phạm vi nghiên cứu
Tập dữ liệu không gian liên quan phát triển Internet di động tại tỉnh Tây Ninh
Thuật toán machine learning phù hợp với bộ spatial data thu thập được
5.1 Phương pháp nghiên cứu lý thuyết
Nghiên cứu yêu cầu tìm các tài liệu và sách về dữ liệu không gian, mô hình dự đoán, GIS, và phát triển
Trang 6mạng Internet di động tại Tây Ninh theo thời gian và người dùng Ngoài ra, cần tham khảo công trình và luận văn từ hội thảo và nghiên cứu trong và ngoài nước Cuối cùng, tài liệu về học sâu và dữ liệu lớn từ các công cụ như Python NoteBook, Google Colab, Rstudio và MatLab cũng được đề xuất để tìm kiếm
5.2 Phương pháp nghiên cứu thực nghiệm
Sau việc nghiên cứu lý thuyết và bài toán, đề án đã phát triển thử nghiệm và công bố kết quả
Bên cạnh phần mở đầu, phần kết luận và phần tài liệu tham khào, phần nội dung chính của bài nghiên cứu được chia thành 3 chương chính như sau: Chương 1: Tổng quan đề tài; Chương 2: Mô hình dự báo; Chương 3: Thực nghiệm và đánh giá
CHƯƠNG 1: TỔNG QUAN ĐỀ TÀI
6.1 Tổng quan về Internet di động
Cùng với sự phát triển của điện thoại di động, công nghệ mạng di động đã trải qua nhiều thay đổi quan trọng Bắt đầu với mạng 2G (GSM), điện thoại
Trang 7di động đã trở thành một phương tiện liên lạc mạnh
mẽ, và sau đó, xuất hiện mạng 3G, 4G, và 5G
Mạng 2G (GSM) cung cấp tín hiệu di động toàn cầu, cải thiện chất lượng cuộc gọi và tốc độ truyền dữ liệu Nó chia thành nhiều dạng kết nối, và
là nền tảng cho SMS
Mạng 3G cho phép truyền cả dữ liệu thoại và
dữ liệu ngoài thoại như gửi email, tải dữ liệu, và hỗ trợ truy cập Internet tốc độ cao Có nhiều chuẩn công nghệ 3G như W-CDMA và CDMA2000
Mạng 4G (LTE) nâng cao tốc độ truyền dữ liệu lên đến 1-1.5 Gb/giây, hỗ trợ truyền hình trực tuyến, video HD, và game online cao cấp
Mạng 5G dự kiến cung cấp tốc độ và băng thông cao hơn, hỗ trợ nhiều người dùng và thiết bị đồng thời, nhưng việc triển khai rộng rãi vẫn đòi hỏi thời gian
Sự phát triển này đã cách mạng hóa cách chúng
ta sử dụng điện thoại di động và truy cập Internet, cung cấp nhiều dịch vụ tiện ích hơn cho người dùng
Trang 86.2 Tổng quan về dữ liệu không gian (Spatial Data)
Dữ liệu không gian thường tham chiếu đến vị trí địa lý cụ thể và không chỉ giới hạn trong việc biểu thị không gian trên bản đồ Nó có thể tồn tại dưới nhiều định dạng, bao gồm dữ liệu hình học và dữ liệu địa lý Dữ liệu hình học có thể biểu thị vị trí, kích thước và hình dạng của các đối tượng, trong khi
dữ liệu địa lý có thể chứa thông tin chi tiết hơn về vị trí Mô hình thông tin không gian trong hệ thống GIS
có khả năng mô tả vị trí, hình dạng, cấu trúc và quan
hệ giữa các hiện tượng tự nhiên, và nó quyết định cách thông tin được lưu trữ, xử lý và hiển thị
6.3 Tổng quan về học máy với dữ liệu không gian
Học máy là lĩnh vực phát triển thuật toán cho máy tính học và suy luận từ dữ liệu mà không cần hướng dẫn cụ thể, giúp dự đoán kết quả từ dữ liệu
Trang 9lớn Ví dụ, ứng dụng y tế có thể chẩn đoán ung thư
từ ảnh X-quang bằng học máy
Phân tích dữ liệu không gian trong GIS liên quan đến thu thập, quản lý và phân tích dữ liệu có thuộc tính không gian như vecter và raster Dữ liệu không gian biểu diễn vị trí thực tế và có nhiều loại, như điểm, đường, đa giác, và dữ liệu raster
Học máy có thể áp dụng vào phân tích không gian bằng cách sử dụng các thuật toán học máy như hồi quy, phân loại và phân cụm Phép nội suy, ví dụ như Kriging và Empirical Bayesian Kriging, được sử dụng để dự đoán giá trị không gian Học máy cũng
hỗ trợ phân loại các lớp đất từ hình ảnh vệ tinh Trong dữ liệu không gian, mỗi quan sát có khoảng cách đối với các quan sát khác, cho phép thực hiện phân tích không gian như clip, xóa, đệm và hợp nhất
Học máy trong phân tích không gian tuân theo nguyên tắc "gần thì liên quan nhiều hơn" và có thể
sử dụng các thuật toán phân loại như Maximum
Trang 10Likelihood và Support Vector Machine để phân loại lớp đất từ hình ảnh vệ tinh
Trang 11CHƯƠNG 2: MÔ HÌNH DỰ BÁO
3.1 Thiết kế đề xuất mô hình.
Trong bài nghiên cứu tại tỉnh Tây Ninh, tác giả đề xuất sử dụng học máy để dự báo không gian phát triển mạng internet di động tốc độ cao, dựa trên bộ
dữ liệu về mạng và lưu lượng người dùng Đặc biệt, nghiên cứu này tập trung vào việc kết hợp hai thuật toán: Ridge Regression và RandomForestRegressor
từ Sklearn Toolkits Ridge Regression giúp giảm thiểu overfitting và tối ưu hóa các đặc trưng, trong khi RandomForestRegressor giúp nắm bắt mối tương quan phức tạp Việc kết hợp cả hai thuật toán thông qua "ensemble learning" hứa hẹn tạo ra mô hình dự báo chất lượng và chính xác cho sự phát triển mạng
ở Tây Ninh
3.2 Giới thiệu về bộ dữ liệu
Dữ liệu đã được thu thập từ 688 trạm BTS ở Tây Ninh trong khoảng thời gian 1 tuần, tập trung vào các thông số liên quan đến lưu lượng mạng 2G, 3G
và 4G Bao gồm 14 cột trong đó có 6 cột kiểu float
Trang 12và 1 cột kiểu int, còn lại 8 cột là kiểu text có phân
lớp (object) Trong đó: Long, Lat là tọa độ vị trí điểm của các trạm BTS MaTram: là mã cơ sở hạ tầng MaKhaiThac là mã Khai thác TenTram là Tên cơ sở hạ tầng Quan là đơn vị hành chánh cấp quận/huyện Phuong là đơn vị hành chánh cấp phường xã DiaChi là địa chỉ đặt trạm TrangThai là trạng thái đặt máy nổ LoaiHinh là Loại cơ sở hạ tầng thuê hoặc cho thuê 2G_Traffic là Tổng lưu lượng 2G trong tuần tính theo MB 3G_Traffic là
tổng lưu lượng 3G trong tuần tính theo GB
4G_Traffic là tổng lưu lượng 4G trong tuần tính theo
GB LTE_Traffic là tổng lưu lượng LTE trong ngày
tuần theo GB
Hình 3.1: Thống kê mô tả các trường dữ liệu có kiểu số
3.3 Tiêu chí đánh giá
Đề án này áp dụng r2_score từ thư viện sklearn để đánh giá hiệu suất của mô hình hồi quy R-squared,
Trang 13hay hệ số xác định, là chỉ số thống kê phản ánh phần trăm biến đổi của biến phụ thuộc mà mô hình hồi quy có thể giải thích Một giá trị r2 cao ngụ ý rằng
mô hình đã khớp tốt với dữ liệu và giải thích được đáng kể sự biến đổi Tuy nhiên, r2 cao không luôn đồng nghĩa với việc mô hình sẽ dự đoán chính xác trên dữ liệu mới
CHƯƠNG 3: THỰC NGHIỆM VÀ
ĐÁNH GIÁ
3.1 Phân tích dữ liệu không gian trạm BTS.
Hình 4.1:Bản đồ tỉnh Tây Ninh theo hành chánh huyện và
phường xã
Với 6 huyện , 2 thị xã và 1 thành phố trực thuộc tỉnh: Bến Cầu, Châu Thành, Dương Minh Châu, Gò Dầu,
Trang 14Hòa Thành, Tân Biên, Tân Châu, Tây Ninh, Trảng Bàng
Hình 4.2: Lưu Lượng 2G phân bổ ở các trạm BTS
Ta thấy ở Tây Ninh, dịch vụ 2G vẫn được sử dụng rộng rãi, đặc biệt tại Tây Ninh, Trảng Bàng và vùng biên giới, có thể do hạ tầng mạng chưa phát triển đồng đều và nền kinh tế còn thấp Các trạm BTS lớn cho thấy lưu lượng 2G phân bổ không đồng đều, thể hiện sự khác biệt trong mật độ dân cư và hoạt động kinh tế Điều này cung cấp cơ hội cho các nhà mạng nâng cấp hạ tầng và thúc đẩy sử dụng công nghệ di động hiện đại Để hiểu rõ lý do, cần tiến hành nghiên cứu thêm về các yếu tố địa lý, kinh tế và xã hội tại khu vực này
Trang 15Hình 4.3: Lưu Lượng 3G phân bổ ở các trạm BTS
Hình 4.4:Lưu Lượng 4G phân bổ ở các trạm BTS
3.2 Luyện và kiểm thử mô hình
Ta chia tập dữ liệu thành 2 tập là tập train và tập test, hàm sử dụng trên code Python như sau:
Trang 16Ta chia với tỉ lệ là 8:2 tương ứng với tập train / tập test Tương ứng với dữ liệu 2G, 3G, 4G ta lấy làm biến đầu ra, là biến cần dự báo cho 3 trường hợp tương ứng Với mỗi trường hợp ta sử dụng 2 mô
hình là Random Forest Regressor vả Ridge
Regression.
Hình 4.5: Sơ đồ mô hình Random Forest Re gressor
Hình 4.6:Sơ đồ mô hình Ridge Regressior
Trang 173.3 Kết quả và thảo luận.
Ta có bảng tổng hợp như sau:
Bảng 4.1: Tổng hợp kết quả R-Squared trong 2 mô hình
dự báo
Lưu lượng 2G Lưu lượng 3G Lưu lượng 4G
Mô
hình
Random
Forest
Regresso
r
Ridge Regressio n
Random Forest Regresso r
Ridge Regressio n
Random Forest Regresso r
Ridge Regressio n
y_trai
y_test 0.81111 0.91801 0.73683 0.87834 0.83909 0.90016
Đối với dự báo lưu lượng 2G: Mô hình Ridge
Regression cho kết quả tốt hơn so với Random Forest Regressor trên cả tập huấn luyện và tập kiểm thử dựa trên giá trị R2 Ridge Regression có khả năng tổng quát hóa tốt và là một lựa chọn tốt để dự báo lưu lượng 2G dựa trên dữ liệu đã có Tuy nhiên, một yếu điểm cần lưu ý là Ridge Regression có R2
cao trên cả hai tập dữ liệu có thể gợi ý rằng mô hình
có thể đã quá khớp (overfitting) Điều này cần được xác nhận bằng cách kiểm tra các chỉ số khác và sử dụng kỹ thuật cross-validation
Trang 18Đối với dự báo lưu lượng 3G: Mô hình Ridge
Regression cho kết quả tốt hơn so với Random Forest Regressor khi xét đến dữ liệu kiểm thử Dù R2
của nó trên tập huấn luyện không cao bằng Random Forest, khả năng tổng quát hóa tốt hơn đã được minh chứng trên tập kiểm thử Random Forest Regressor
có hiệu suất tốt trên dữ liệu huấn luyện nhưng tỏ ra kém hơn khi áp dụng lên dữ liệu kiểm thử Trong trường hợp này, Ridge Regression có thể là mô hình tốt hơn để dự báo lưu lượng 3G dựa trên dữ liệu đã
có, do khả năng tổng quát hóa tốt của nó trên dữ liệu mới
Đối với dự báo lưu lượng 4G: Mô hình Ridge
Regression cho kết quả tốt hơn so với Random Forest Regressor trên cả tập huấn luyện và tập kiểm thử dựa trên giá trị R2 Mặc dù Random Forest Regressor cũng cho kết quả khá tốt, nhưng nếu phải chọn một mô hình để dự báo lưu lượng 4G dựa trên
dữ liệu đã có, Ridge Regression có thể là lựa chọn tốt hơn vì khả năng tổng quát hóa cao của nó trên dữ liệu mới
Trang 19PHẦN KẾT LUẬN
Kết quả nghiên cứu của đề tài
Trong quá trình nghiên cứu, đề án đã áp dụng và đánh giá một số mô hình dự báo lưu lượng mạng di động cho các thế hệ khác nhau, từ 2G đến 4G, tại địa bàn tỉnh Tây Ninh Kết quả cho thấy các mô hình như Random Forest Regressor và Ridge Regression thể hiện hiệu suất ấn tượng và ổn định trên cả tập huấn luyện và tập kiểm tra Đặc biệt, với lưu lượng 4G, cả hai mô hình đều thể hiện sự ổn định cao, đáng tin cậy cho việc áp dụng trong thực tế
Hạn chế đề tài
Mặc dù kết quả khá hứa hẹn, nghiên cứu vẫn gặp một số hạn chế Đầu tiên, mô hình chỉ được kiểm tra
và đánh giá trên dữ liệu của tỉnh Tây Ninh, chưa chắc đã phản ánh chính xác lưu lượng mạng di động trong các khu vực khác Thứ hai, mô hình chưa được thử nghiệm trên dữ liệu 5G, công nghệ mạng mới nhất và tiên tiến nhất hiện nay Cuối cùng, việc thu thập dữ liệu và chất lượng dữ liệu cũng có thể ảnh hưởng đến kết quả nghiên cứu
Trang 20Vấn đề kiến nghị và hướng đi tiếp theo của nghiên cứu:
Dựa trên kết quả và hạn chế đã xác định, chúng tôi kiến nghị mở rộng phạm vi nghiên cứu, áp dụng mô hình trên dữ liệu từ nhiều khu vực khác để tăng tính chính xác và độ tin cậy Ngoài ra, chúng tôi cũng đề xuất tiếp tục nghiên cứu và cải thiện mô hình để áp dụng cho dữ liệu 5G Hướng đi tiếp theo của nghiên cứu nên tập trung vào việc kết hợp nhiều nguồn dữ liệu và sử dụng các mô hình học sâu phức tạp hơn để nâng cao khả năng dự báo và phản ánh chính xác hơn đặc điểm phân bố lưu lượng mạng di động