1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu xây dựng mô hình Ensemble Learning để dự báo khách hàng rời mạng tại VNPT Tây Ninh

117 2 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nghiên cứu xây dựng mô hình Ensemble Learning để dự báo khách hàng rời mạng tại VNPT Tây NinhNghiên cứu xây dựng mô hình Ensemble Learning để dự báo khách hàng rời mạng tại VNPT Tây NinhNghiên cứu xây dựng mô hình Ensemble Learning để dự báo khách hàng rời mạng tại VNPT Tây NinhNghiên cứu xây dựng mô hình Ensemble Learning để dự báo khách hàng rời mạng tại VNPT Tây NinhNghiên cứu xây dựng mô hình Ensemble Learning để dự báo khách hàng rời mạng tại VNPT Tây NinhNghiên cứu xây dựng mô hình Ensemble Learning để dự báo khách hàng rời mạng tại VNPT Tây NinhNghiên cứu xây dựng mô hình Ensemble Learning để dự báo khách hàng rời mạng tại VNPT Tây NinhNghiên cứu xây dựng mô hình Ensemble Learning để dự báo khách hàng rời mạng tại VNPT Tây NinhNghiên cứu xây dựng mô hình Ensemble Learning để dự báo khách hàng rời mạng tại VNPT Tây NinhNghiên cứu xây dựng mô hình Ensemble Learning để dự báo khách hàng rời mạng tại VNPT Tây NinhNghiên cứu xây dựng mô hình Ensemble Learning để dự báo khách hàng rời mạng tại VNPT Tây NinhNghiên cứu xây dựng mô hình Ensemble Learning để dự báo khách hàng rời mạng tại VNPT Tây NinhNghiên cứu xây dựng mô hình Ensemble Learning để dự báo khách hàng rời mạng tại VNPT Tây NinhNghiên cứu xây dựng mô hình Ensemble Learning để dự báo khách hàng rời mạng tại VNPT Tây NinhNghiên cứu xây dựng mô hình Ensemble Learning để dự báo khách hàng rời mạng tại VNPT Tây NinhNghiên cứu xây dựng mô hình Ensemble Learning để dự báo khách hàng rời mạng tại VNPT Tây NinhNghiên cứu xây dựng mô hình Ensemble Learning để dự báo khách hàng rời mạng tại VNPT Tây NinhNghiên cứu xây dựng mô hình Ensemble Learning để dự báo khách hàng rời mạng tại VNPT Tây NinhNghiên cứu xây dựng mô hình Ensemble Learning để dự báo khách hàng rời mạng tại VNPT Tây NinhNghiên cứu xây dựng mô hình Ensemble Learning để dự báo khách hàng rời mạng tại VNPT Tây NinhNghiên cứu xây dựng mô hình Ensemble Learning để dự báo khách hàng rời mạng tại VNPT Tây NinhNghiên cứu xây dựng mô hình Ensemble Learning để dự báo khách hàng rời mạng tại VNPT Tây NinhNghiên cứu xây dựng mô hình Ensemble Learning để dự báo khách hàng rời mạng tại VNPT Tây NinhNghiên cứu xây dựng mô hình Ensemble Learning để dự báo khách hàng rời mạng tại VNPT Tây NinhNghiên cứu xây dựng mô hình Ensemble Learning để dự báo khách hàng rời mạng tại VNPT Tây NinhNghiên cứu xây dựng mô hình Ensemble Learning để dự báo khách hàng rời mạng tại VNPT Tây NinhNghiên cứu xây dựng mô hình Ensemble Learning để dự báo khách hàng rời mạng tại VNPT Tây NinhNghiên cứu xây dựng mô hình Ensemble Learning để dự báo khách hàng rời mạng tại VNPT Tây Ninh

Trang 1

THÀNH PHỐ HỒ CHÍ MINH – NĂM 2024

Trang 2

NGƯỜI HƯỚNG DẪN KHOA HỌC: TS HUỲNH TRỌNG THƯA

THÀNH PHỐ HỒ CHÍ MINH – NĂM 2024

Trang 3

LỜI CAM ĐOAN

Tôi cam đoan rằng đề án tốt nghiệp thạc sĩ: “NGHIÊN CỨU XÂY DỰNG

MÔ HÌNH ENSEMBLE LEARNING ĐỂ DỰ BÁO KHÁCH HÀNG RỜI MẠNG TẠI VNPT TÂY NINH” là công trình nghiên cứu của chính tôi

Tôi cam đoan các số liệu, kết quả nêu trong đề án là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác

Không có sản phẩm/nghiên cứu nào của người khác được sử dụng trong đề án này mà không được trích dẫn theo đúng quy định

TP Hồ Chí Minh, ngày 14 tháng 05 năm 2024

Học viên thực hiện đề án

Nguyễn Trọng Thảo

Trang 4

LỜI CẢM ƠN

Trong suốt quá trình học tập và nghiên cứu thực hiện đề án tốt nghiệp thạc sĩ, ngoài nỗ lực của bản thân, tôi đã nhận được sự hướng dẫn nhiệt tình quý báu của quý Thầy Cô, cùng với sự động viên và ủng hộ của gia đình, bạn bè và đồng nghiệp Với lòng kính trọng và biết ơn sâu sắc, tôi xin gửi lời cảm ơn chân thành tới:

Ban Giám Đốc, Phòng đào tạo sau đại học và quý Thầy Cô đã tạo mọi điều kiện thuận lợi giúp tôi hoàn thành đề án

Tôi xin chân thành cảm ơn Thầy TS Huỳnh Trọng Thưa, người thầy kính yêu đã hết lòng giúp đỡ, hướng dẫn, động viên, tạo điều kiện cho tôi trong suốt quá trình thực hiện và hoàn thành đề án tốt nghiệp thạc sĩ

Tôi xin chân thành cảm ơn gia đình, bạn bè, đồng nghiệp trong cơ quan đã động viên, hỗ trợ tôi trong lúc khó khăn để tôi có thể học tập và hoàn thành đề án Mặc dù đã có nhiều cố gắng, nỗ lực, nhưng do thời gian và kinh nghiệm nghiên cứu khoa học còn hạn chế nên không thể tránh khỏi những thiếu sót Tôi rất mong nhận được sự góp ý của quý Thầy Cô cùng bạn bè đồng nghiệp để kiến thức của tôi ngày một hoàn thiện hơn

Xin chân thành cảm ơn!

TP Hồ Chí Minh, ngày 14 tháng 05 năm 2024

Học viên thực hiện đề án

Nguyễn Trọng Thảo

Trang 5

Hình 3 1 Phân bố ngành nghề và loại khách hàng trong tập dữ liệu 31

Hình 3 2 Phân bố phân loại khách hàng theo doanh thu và mạng khác trong tập dữ liệu 32

Hình 3 3 Phân bố trả trước và không phát sinh lưu lượng trong tập dữ liệu 33

Hình 3 4 Phân bố trạng thái thuê bao và gói sử dụng tích hợp trong tập dữ liệu 34

Hình 3 5 Phân bố giá cước trong tập dữ liệu 35

Hình 3 6 Phân bố tuổi của thuê bao (tháng) trong tập dữ liệu 36

Hình 3 7 Phân bố số dịch vụ khác trong tập dữ liệu 36

Hình 3 8 Phân bố nợ cước 2 tháng trong tập dữ liệu 37

Hình 3 9 Phân bố số tháng sử dụng trong tập dữ liệu 37

Hình 3 10 Phân bố số lần gia hạn trong tập dữ liệu 38

Hình 3 11 Phân bố số lần báo hỏng trong tập dữ liệu 38

Hình 3 12 Ma trận tương quan các tham số của bộ dữ liệu sau xử lý 44

Hình 3 13 Ma trận Scatter các tham số của bộ dữ liệu sau xử lý 45

Hình 4 1 Cấu hình mô hình Baseline 50

Hình 4 2 Cấu hình mô hình Logistic Regression thông thường 51

Hình 4 3 Cấu hình mô hình Logistic Regression hiệu chỉnh tham số 52

Hình 4 4 Cấu hình mô hình k-Nearest Neighbor Classifier thông thường 53

Hình 4 5 Error Rate vs K-Value theo UNIFORM của mô hình kNN thông thường 54

Hình 4 6 Error Rate vs K Value theo DISTANCE của mô hình kNN thông thường 54

Hình 4 7 Cấu hình mô hình k-Nearest Neighbor Classifier có hiệu chỉnh tham số 55

Hình 4 8 Cấu hình mô hình Naive Bayes Classifier 56

Hình 4 9 Cấu hình mô hình Naive Bayes kết hợp Oversampling 57

Hình 4 10 Cấu hình mô hình Logistic Regression kết hợp Oversampling 58

Hình 4 11 Cấu hình mô hình Decision Tree Classifier 59

Hình 4 12 Cấu hình mô hình Decision Tree hiệu chỉnh chiều cao 60

Hình 4 13 Mô hình Decision Tree sau khi giảm chiều cao 61

Hình 4 14 Cấu hình mô hình Bagging Classifier 61

Trang 6

Hình 4 15 Cấu hình mô hình AdaBoost Classifier 62

Hình 4 16 Cấu hình mô hình Gradient Boosting Classifier 63

Hình 4 17 Cấu hình mô hình AdaBoost kết hợp Oversampling 64

Hình 4 18 Cấu hình mô hình Random Forest Classifier 65

Hình 4 19 Cấu hình mô hình Random Forest có hiệu chỉnh tham số 66

Hình 4 20 Cấu hình mô hình Random Forest kết hợp oversample 67

Hình 4 21 Cấu hình mô hình Random Forest kết hợp oversample và giảm chiều cao 68

Hình 4 22 Mô hình Random Forest sau khi giảm chiều cao kết hợp với Oversampling 69

Hình 4 23 Ma trận Heatmap thể hiện các chỉ số của mô hình kết hợp 70

Hình 4 24 Biểu đồ Accuracy của các mô hình 71

Hình 4 25 Biểu đồ Precision Churn của các mô hình 72

Hình 4 26 Biểu đồ Precision Not Churn của các mô hình 72

Hình 4 27 Biểu đồ Recall Churn của các mô hình 73

Hình 4 28 Biểu đồ Recall Not Churn của các mô hình 74

Hình 4 29 Biểu đồ F1 Churn của các mô hình 74

Hình 4 30 Biểu đồ F1 Not Churn của các mô hình 75

Hình 4 31 Xây dựng mô hình kết hợp Meta-Model đề xuất 82

Hình 4 32 Mô hình kết hợp Meta-Model đề xuất 84

Trang 7

DANH SÁCH BẢNG

Bảng 3 1 Cột dữ liệu trong tập dữ liệu thu thập được 26

Bảng 3 2 Thống kê mô tả tập dữ liệu thu thập được 29

Bảng 3 3 Thống kê mô tả tập dữ liệu thu sau khi xử lý 41

Bảng 3 4 Hệ số tương quan của các biến sau khi xử lý 46

Bảng 4 1 Kết quả thực nghiệm của mô hình Baseline 50

Bảng 4 2 Kết quả thực nghiệm của mô hình Logistic Regression thông thường 51

Bảng 4 3 Kết quả thực nghiệm của mô hình Logistic Regression hiệu chỉnh tham số 52

Bảng 4 4 Kết quả thực nghiệm của mô hình k-Nearest Neighbor Classifier thông thường53Bảng 4 5 Kết quả thực nghiệm của mô hình k-Nearest Neighbor Classifier có hiệu chỉnh tham số 55

Bảng 4 6 Kết quả thực nghiệm của mô hình Naive Bayes Classifier 56

Bảng 4 7 Kết quả thực nghiệm của mô hình Naive Bayes kết hợp Oversampling 57

Bảng 4 8 Kết quả thực nghiệm của mô hình Logistic Regression kết hợp Oversampling 58Bảng 4 9 Kết quả thực nghiệm của mô hình Decision Tree Classifier 59

Bảng 4 10 Kết quả thực nghiệm của mô hình Decision Tree hiệu chỉnh chiều cao 60

Bảng 4 11 Kết quả thực nghiệm của mô hình Bagging Classifier 61

Bảng 4 12 Kết quả thực nghiệm của mô hình AdaBoost Classifier 62

Bảng 4 13 Kết quả thực nghiệm của mô hình Gradient Boosting Classifier 63

Bảng 4 14 Kết quả thực nghiệm của mô hình AdaBoost kết hợp Oversampling 64

Bảng 4 15 Kết quả thực nghiệm của mô hình Random Forest Classifier 65

Bảng 4 16 Kết quả thực nghiệm của mô hình Random Forest có hiệu chỉnh tham số 66

Bảng 4 17 Kết quả thực nghiệm của mô hình Random Forest kết hợp oversample 67

Bảng 4 18 Kết quả thực nghiệm của mô hình Random Forest kết hợp oversample và giảm chiều cao 68

Bảng 4 19 Kết quả thực nghiệm của các mô hình với các tập khách hàng nhóm A, nhóm B, nhóm C và nhóm D 83

Trang 8

DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT

VIẾT TẮT NGHĨA TIẾNG ANH NGHĨA TIẾNG VIỆT

Trang 9

1 Tính cấp thiết của đề tài 1

2 Mục tiêu nghiên cứu 1

3 Đối tượng và phạm vi nghiên cứu 2

4.1 Đối tượng nghiên cứu 2

4.2 Phạm vi nghiên cứu 2

4 Phương pháp nghiên cứu 3

4.1 Phương pháp nghiên cứu lý thuyết 3

4.2 Phương pháp nghiên cứu thực nghiệm 3

5 Ý nghĩa và đóng góp của đề tài 3

6 Bố cục đề án 4

CHƯƠNG 1: TỔNG QUAN VỀ ĐỀ TÀI NGHIÊN CỨU 5

1.1 Tổng quan về mạng viễn thông và thuê bao 5

1.2 Tổng quan về hiện trạng thuê bao rời mạng viễn thông 8

1.3 Tổng quan dữ liệu lớn về khách hàng mạng viễn thông 10

1.4 Tổng quan về mô hình dự báo học kết hợp 11

CHƯƠNG 2: CÁC CÔNG TRÌNH LIÊN QUAN 16

2.1 Các công trình liên quan trên thế giới 16

2.2 Các công trình liên quan ở Việt Nam 24

CHƯƠNG 3: TẬP DỮ LIỆU NGHIÊN CỨU 26

3.1 Giới thiệu về tập dữ liệu khách hàng rời mạng viễn thông 26

Trang 10

3.2 Phân tích tập dữ liệu khách hàng rời mạng viễn thơng 30

3.3 Tiền xử lý tập dữ liệu khách hàng rời mạng viễn thơng 38

CHƯƠNG 4: MƠ HÌNH HỌC KẾT HỢP ĐỀ XUẤT 48

4.1 Mơi trường mơ phỏng thực nghiệm 48

4.2 Thực nghiệm huấn luyện mơ hình học kết hợp 49

4.2.1 Mơ hình Baseline 50

4.2.2 Nhĩm mơ hình Logistic Regression, kNN và Nạve Bayes 51

4.2.3 Mơ hình học kết hợp Decision Tree Classifier 59

4.2.4 Mơ hình học kết hợp Bagging, AdaBoost và GB 61

4.2.5 Mơ hình học kết hợp Random Forest Classifier 64

4.3 Đánh giá kết quả huấn luyện mơ hình học kết hợp 70

4.3.1 Kết quả các mơ hình học kết hợp 70

4.3.2 So sánh với kết quả Telco Customer Churn 76

4.3.3 So sánh với đề án rời mạng của tác giả Nguyễn Đức Trung 79

4.4 Mơ hình học kết hợp đề xuất Meta-Model 82

CHƯƠNG 5: XÂY DỰNG ỨNG DỤNG DỰ BÁO KHÁCH HÀNG RỜI MẠNG VỚI TẬP DỮ LIỆU Ở VNPT TÂY NINH 86

3 Vấn đề kiến nghị và hướng đi tiếp theo của nghiên cứu: 93

TÀI LIỆU THAM KHẢO 96

PHỤ LỤC 100

PL1 Phân bổ của dữ liệu thực nghiệm theo các trường 100

PL2 Baseline Model 100

Trang 11

PL3 Logistic Regression without Hyperparameter Tuning 101

PL4 Logistic Regression with Hyperparameter Tuning 102

PL5 k-Nearest Neighbor Scaled Without Hyperparameter Tuning 103

PL6 k-Nearest Neighbor Scaled With Hyperparameter Tuning 104

Trang 12

PHẦN MỞ ĐẦU

1 Tính cấp thiết của đề tài

Trong bối cảnh thế giới hội nhập và phát triển mạnh mẽ về công nghệ, ngành viễn thông đang trở thành trung tâm của sự chuyển đổi số, và Việt Nam - một quốc gia đang phát triển - có tất cả tiềm năng để trở thành một nguồn lực lớn trong lĩnh vực này Đối mặt với sự cạnh tranh gay gắt, các doanh nghiệp viễn thông, nhất là VNPT, luôn đặt việc giữ chân và duy trì lượng khách hàng làm mục tiêu hàng đầu Tuy nhiên, việc dự báo và phân tích hành vi rời mạng của khách hàng thường được thực hiện bằng phương pháp thủ công, tiêu tốn nhiều thời gian và không đảm bảo độ chính xác Để tăng cường hiệu quả và chính xác trong việc dự báo hành vi của khách hàng, việc áp dụng các phương pháp hiện đại và tiên tiến như Mô hình học kết hợp (Ensemble Learning) trở nên vô cùng cần thiết Bởi vậy, nghiên cứu này sẽ tập trung vào việc ứng dụng Mô hình học kết hợp để dự báo khách hàng rời mạng tại VNPT Tây Ninh

Đề tài như sau:

Tên tiếng Việt

Nghiên cứu xây dựng mô hình Ensemble Learning để dự báo khách hàng rời mạng

tại VNPT Tây Ninh

Tên tiếng Anh

Research on Ensemble Learning model to predict churn customer at VNPT Tay Ninh

2 Mục tiêu nghiên cứu

Mục tiêu nghiên cứu chính là xây dựng mô hình học kết hợp dự báo khách hàng rời mạng viễn thông dựa trên tập dữ liệu khách hàng Các mục tiêu cụ thể như

sau:

Trang 13

 Nghiên cứu phân tích tập dữ liệu khách hàng rời mạng viễn thông mẫu trên Kaggle1 và tập dữ liệu khách hàng sử dụng mạng viễn thông được thu thập tại VNPT, phân tích các đặc trưng chính trong tập dữ liệu nhằm xây dựng mô hình dự báo phù hợp

 Lựa chọn thuật toán và các mô hình học máy phù hợp với bộ dữ liệu và kỹ thuật học kết hợp, đề xuất mô hình meta-model phù hợp Thông qua mô hình, xác định các yếu tố có ảnh hưởng nhiều nhất đến kết quả khách hàng rời mạng, hay tiếp tục sử dụng dịch vụ Phân tích sự ảnh hưởng của các yếu tố đó như thế nào đến kết quả khách hàng rời mạng hay không rời mạng Xác định đâu là yếu tố quyết định ảnh hưởng nhất đến việc thuê bao rời mạng

 Đánh giá độ chính xác và khả năng áp dụng của mô hình đề xuất dự báo khả năng rời mạng viễn thông của khách hàng

viễn thông tại VNPT Tây Ninh

3 Đối tượng và phạm vi nghiên cứu 4.1 Đối tượng nghiên cứu

Đối tượng nghiên cứu:

 Đối tượng nghiên cứu chính là tập dữ liệu khách hàng rời mạng viễn thông

 Các đối tượng nghiên cứu khác: mô hình học kết hợp, các mô hình học máy cụ thể và các kỹ thuật kết hợp các mô hình để tạo ra mô hình meta-model, các phương pháp đánh giá tương ứng

4.2 Phạm vi nghiên cứu

Phạm vi nghiên cứu:

1https://www.kaggle.com/datasets

Trang 14

 Tập dữ liệu khách hàng rời mạng viễn thông mẫu trên Kaggle và tập dữ liệu khách hàng sử dụng mạng viễn thông được thu thập tại VNPT từ 2010 đến 2022

 Nghiên cứu các thuật toán học máy phù hợp với mô hình học kết hợp

4 Phương pháp nghiên cứu

4.1 Phương pháp nghiên cứu lý thuyết

 Thu thập và nghiên cứu tài liệu về các nghiên cứu đã thực hiện trên thế giới và Việt Nam về vấn đề nhận diện và dự báo khách hàng rời mạng viễn thông Phân tích, lựa chọn giải pháp và hiện thực thử nghiệm Đánh giá kết quả và hiệu chỉnh nếu có

hợp

4.2 Phương pháp nghiên cứu thực nghiệm

 Thực nghiệm các mô hình tương tự trên tập dữ liệu nghiên cứu để đánh giá sự phù hợp; xây dựng ứng dụng dựa trên mô hình đề xuất; cài đặt thử nghiệm mô hình, đánh giá các kết quả đạt được; công bố kết quả nghiên cứu

5 Ý nghĩa và đóng góp của đề tài

Đề tài này mang lại nhiều ý nghĩa và đóng góp quan trọng trong lĩnh vực viễn thông và quản lý khách hàng, cụ thể như sau:

Nâng cao hiệu suất kinh doanh: Việc dự báo và phân tích hành vi rời mạng

của khách hàng giúp các doanh nghiệp viễn thông như VNPT có thể áp dụng các biện pháp phù hợp để giữ chân khách hàng và tăng cường doanh số Việc sử dụng mô hình Ensemble Learning giúp cải thiện hiệu suất dự báo và quản lý khách hàng hơn

Tiết kiệm thời gian và chi phí: Phương pháp thủ công trong việc dự báo hành

vi của khách hàng thường tốn nhiều thời gian và không đảm bảo độ chính xác

Trang 15

Việc áp dụng mô hình học kết hợp giúp tự động hóa quá trình này, tiết kiệm thời gian và chi phí cho doanh nghiệp

Nâng cao sự cạnh tranh: Trong một thị trường cạnh tranh gay gắt như ngành

viễn thông, khả năng dự báo và duy trì lượng khách hàng là yếu tố quyết định sự thành công của một doanh nghiệp Việc áp dụng các phương pháp hiện đại như Ensemble Learning giúp tăng cường khả năng cạnh tranh của VNPT và các doanh nghiệp viễn thông khác

Đóng góp kiến thức và kỹ thuật: Nghiên cứu này không chỉ mang lại kết quả

về việc dự báo khách hàng rời mạng mà còn đóng góp vào việc phát triển và áp dụng các phương pháp học máy tiên tiến trong lĩnh vực quản lý khách hàng và dự báo thị trường

6 Bố cục đề án

Bên cạnh phần mở đầu, phần kết luận và phần tài liệu tham khào, phần nội dung chính của bài nghiên cứu được chia thành 3 chương chính như sau:

Chương 1: Tổng quan đề tài

Chương 2: Các công trình liên quan Chương 3: Thuật toán đề xuất

Chương 4: Mô hình học kết hợp đề xuất

Chương 5: Xây dựng ứng dụng dự báo khách hàng rời mạng với tập dữ liệu ở VNPT tây ninh

Trang 16

CHƯƠNG 1: TỔNG QUAN VỀ ĐỀ TÀI NGHIÊN CỨU

1.1 Tổng quan về mạng viễn thông và thuê bao

Mạng viễn thông, theo Robert K Morrow trong tác phẩm của ông trên Encyclopaedia Britannica (2023), là một hệ thống điện tử bao gồm các liên kết và công tắc, cùng với các điều khiển điều hành hoạt động của chúng, cho phép trao đổi và chuyển dữ liệu giữa nhiều người dùng Khi nhiều người dùng của các phương tiện viễn thông muốn giao tiếp với nhau, họ phải được tổ chức thành một dạng mạng nào đó Trong lý thuyết, mỗi người dùng có thể được cung cấp một liên kết trực tiếp từng điểm với tất cả người dùng khác trong một cấu trúc được gọi là kết nối đầy đủ (tương tự như những kết nối được sử dụng trong những ngày đầu của điện thoại), nhưng trên thực tế, phương pháp này là không thực tế và tốn kém - đặc biệt là đối với một mạng lớn và phân tán Hơn nữa, phương pháp này không hiệu quả, vì hầu hết các liên kết sẽ không hoạt động vào bất kỳ thời điểm nào Các mạng viễn thông hiện đại tránh những vấn đề này bằng cách thiết lập một mạng liên kết của các công tắc, hoặc nút, sao cho mỗi người dùng được kết nối với một trong những nút Mỗi liên kết trong mạng như vậy được gọi là một kênh truyền thông Dây, cáp quang và sóng radio có thể được sử dụng cho các kênh truyền thông khác nhau

Bài viết "Top 6 công ty lĩnh vực viễn thông hàng đầu tại Việt Nam" của JobsGo, xuất bản năm 2023 đánh giá Mạng viễn thông là một trong những lĩnh vực quan trọng và phát triển nhanh chóng ở Việt Nam Nó bao gồm các dịch vụ như điện thoại, internet, truyền hình, bưu chính, công nghệ số, nội dung số, vệ tinh,… Mạng viễn thông góp phần nâng cao chất lượng cuộc sống, thúc đẩy kinh tế, giáo dục, y tế, văn hóa, an ninh và quốc phòng của đất nước Theo thống kê của Bộ Thông tin và Truyền thông, đến cuối năm 2022, Việt Nam có khoảng 140 triệu thuê bao di động, chiếm 143% dân số, và 16,3 triệu thuê bao cố định, chiếm 16,7% dân số Ngoài ra, Việt Nam cũng có 68,5 triệu thuê bao internet, chiếm 70,3% dân số, và 14,5 triệu thuê bao truyền hình, chiếm 14,9% dân số Đây là những con số ấn tượng, cho thấy sự phổ biến và tiềm năng của mạng viễn thông ở Việt Nam

Trang 17

Trong lĩnh vực này, có rất nhiều các công ty hoạt động, cạnh tranh và đóng góp cho sự phát triển của ngành Trong số đó, có 6 công ty lớn và nổi tiếng nhất, là Viettel, Mobifone, VNPT, FPT, SPT và HanoiTelecom Các công ty này đều có quy mô lớn, doanh thu cao, dịch vụ đa dạng, chất lượng tốt và uy tín trên thị trường Các công ty này cũng là những môi trường làm việc lý tưởng cho nhiều người lao động, với nhiều cơ hội thăng tiến, học hỏi và phát triển Viettel là công ty viễn thông lớn nhất Việt Nam [1], thuộc Tập đoàn công nghiệp – viễn thông Quân đội Viettel có mặt tại 63 tỉnh thành và 11 quốc gia, với hơn 110 triệu thuê bao Viettel cũng là công ty viễn thông duy nhất của Việt Nam có tên trong top 40 doanh nghiệp lớn nhất thế giới về số thuê bao và top 500 tập đoàn lớn nhất thế giới Mobifone là công ty viễn thông thứ hai lớn nhất Việt Nam, thuộc Tổng công ty Viễn thông Mobifone Mobifone có 9 công ty dịch vụ và 20 phòng ban, phủ sóng trên toàn quốc, với hơn 50 triệu thuê bao Mobifone là công ty viễn thông đầu tiên của Việt Nam triển khai dịch vụ 3G và 4G, cung cấp các dịch vụ giải trí, thanh toán, chăm sóc sức khỏe, v.v

VNPT là Tập đoàn Bưu chính Viễn thông Việt Nam, thuộc Bộ Thông tin và Truyền thông [1] VNPT có 2 thương hiệu lớn là Vinaphone và MobiFone, với hơn 80 triệu thuê bao VNPT cũng là đơn vị duy nhất của Việt Nam sở hữu và vận hành 2 vệ tinh lớn nhất là Vinasat 1 và 2 FPT là Tập đoàn Công nghệ FPT, là công ty công nghệ hàng đầu Việt Nam [1] FPT có hơn 200 văn phòng và 7 nghìn nhân viên, hoạt động tại 33 quốc gia, với doanh thu hơn 2 tỷ USD [1] FPT cung cấp các dịch vụ viễn thông, công nghệ thông tin, giáo dục, truyền thông, v.v SPT là Công ty CP Dịch vụ Bưu chính Viễn thông Sài Gòn, thành lập năm 1995 SPT có nhiều chi nhánh và văn phòng trên cả nước, cung cấp các dịch vụ như chuyển phát, internet, bưu chính, công nghệ số, nội dung số, v.v HanoiTelecom là Công ty CP Viễn thông Hà Nội, thành lập năm 2001 HanoiTelecom có 16 công ty và đơn vị thành viên, nổi bật với đường truyền viba số băng sông SDH trên 4 nghìn km HanoiTelecom cung cấp các dịch vụ như điện thoại, internet, truyền hình, …

Trong “Báo cáo ngành viễn thông Việt Nam 2020 và dự báo 2021” Việt Nam [2] đã đạt được những bước tiến lớn trong ngành viễn thông, bao gồm việc sản xuất 70%

Trang 18

các thiết bị viễn thông và hướng tới mục tiêu trở thành quốc gia dẫn đầu về sản xuất và xuất khẩu thiết bị viễn thông Sự phát triển của mạng 3G từ năm 2009 và mạng 4G từ năm 2016, cũng như việc thử nghiệm mạng 5G từ năm 2019, đã đưa Việt Nam trở thành một trong những quốc gia triển khai 5G sớm nhất trên thế giới Điều này phản ánh sự tăng trưởng và đổi mới liên tục trong ngành viễn thông Việt Nam Thị trường viễn thông truyền thống đang bão hòa, nhưng vẫn có tiềm năng đầu tư từ doanh nghiệp nước ngoài vào các lĩnh vực chưa phát triển tại Việt Nam Mặc khác, thị trường Internet băng thông rộng cố định tại Việt Nam đang có những bước phát triển vượt bậc, với số lượng thuê bao tăng mạnh Chính phủ Việt Nam đã ban hành “Chương trình chuyển đổi số quốc gia”, nhấn mạnh vai trò quan trọng của hạ tầng số trong quá trình này và mục tiêu phổ cập dịch vụ mạng internet băng thông rộng cáp quang tới toàn dân Tuy nhiên, năm 2021 chứng kiến sự suy giảm trong lợi nhuận của các doanh nghiệp viễn thông, giảm 22,8% so với năm 2020 Điều này phản ánh sự thay đổi trong mô hình kinh doanh và cách tiếp cận thị trường của các doanh nghiệp trong ngành Thị trường viễn thông truyền thống tại Việt Nam được đánh giá là đã bão hòa, với số lượng thuê bao di động đạt khoảng 125.7 triệu vào năm 2019, tức là trung bình mỗi người dân sở hữu khoảng 1.30 thuê bao di động

Trang "Wireless Telecommunications" là một phần của "Telecommunications Industry: A Research Guide" do Thư viện Quốc hội Hoa Kỳ cung cấp thì về cơ bản, mạng viễn thông bao gồm hệ thống các thiết bị kết nối với nhau qua hệ thống trung gian để cho phép truyền thông giữa các thiết bị đầu cuối Các thiết bị cơ bản trong mạng viễn thông bao gồm modem, router, và switch chia mạng Modem chuyển đổi tín hiệu từ analog sang digital để các thiết bị điện tử có thể hiểu được, trong khi router là công cụ chia một dây mạng ra nhiều cổng khác nhau và switch chia mạng giúp định tuyến dữ liệu giữa các thiết bị trong mạng

Mạng viễn thông là một ngành quan trọng và phát triển mạnh ở Việt Nam, với nhiều công ty lớn và uy tín, cung cấp các dịch vụ đa dạng và chất lượng cho người dùng Các công ty này cũng là những nơi làm việc tốt cho nhiều người lao động, mang lại thu nhập và phúc lợi cao Ngành viễn thông Việt Nam đang chứng kiến sự thay

Trang 19

đổi nhanh chóng, với cơ hội và thách thức mới mẻ Sự phát triển của công nghệ và thay đổi trong nhu cầu của người dùng sẽ tiếp tục hình thành tương lai của ngành này

1.2 Tổng quan về hiện trạng thuê bao rời mạng viễn thông

VNPT, tên đầy đủ là Viễn thông Việt Nam [3], từ lâu đã được biết đến là một trong những "gã khổng lồ" trong ngành viễn thông tại Việt Nam Đặc biệt, VNPT tự hào khi trở thành nhà cung cấp dịch vụ viễn thông đầu tiên trên bộ đất hình chữ S này, bắt đầu gia nhập cuộc chơi từ cuối năm 1997 Những bước đi vững chắc và chiến lược phát triển sáng suốt đã giúp VNPT không chỉ mở rộng thị phần mà còn đứng vững trước sự cạnh tranh khốc liệt, đặc biệt là trong lĩnh vực cung cấp dịch vụ Internet tốc độ cao

Tuy nhiên, không có bất cứ một lĩnh vực kinh doanh nào luôn suôn sẻ, và VNPT cũng không ngoại lệ Gặp phải thách thức từ việc các nhà cung cấp khác liên tục tung ra các chương trình khuyến mãi hấp dẫn và đợt giảm giá sâu, VNPT đứng trước nguy cơ mất đi một lượng lớn khách hàng, khi họ quyết định chuyển sang các nhà cung cấp khác hứa hẹn giá rẻ hơn và dịch vụ tốt hơn Hậu quả của việc này không chỉ ảnh hưởng đến doanh thu mà còn gây khó khăn trong việc thu hồi vốn đầu tư

Để tiếp cận và phát triển một khách hàng mới, VNPT phải chi trả một khoản đầu tư lớn, lên đến gần 3 triệu đồng, bao gồm chi phí phát triển khách hàng, đầu tư vào hệ thống cũng như các thiết bị đầu cuối Trong bối cảnh đó, chỉ số ARPU (Average Revenue Per User) - thu nhập trung bình từ mỗi người dùng - của họ chỉ đạt 180.000 đồng và vòng đời trung bình của mỗi khách hàng chỉ kéo dài khoảng 20 tháng Điều này nghĩa là mỗi khi một khách hàng quyết định rời mạng, VNPT chỉ có thể thu về được số vốn ban đầu mà không kèm theo bất cứ lợi nhuận nào Khi đưa vào tình huống có hàng trăm ngàn khách hàng rời mạng hàng năm, mức thiệt hại mà VNPT phải chịu sẽ không nhỏ

Trang 20

Hình 1 1 Tỉ trọng số lượng thuê bao chuyển mạng giữa các nhà mạng tháng 10 năm 2022,

nguồn Bộ TT & TT [3].

Hình 1 2 Số lượng thuê bao chuyển mạng giữa các nhà mạng tháng 11 năm 2022, nguồn

Bộ TT & TT.

MobifoneVinaphoneViettelVietnam MobileMobicast

Dịch chuyển thuê bao giữa các nhà mạng tháng 11/2022

Chuyển đếnChuyển điBiến động thuê bao

(Thuêbao)

Trang 21

Hình 1 3 Số lượng thuê bao từ chối chuyển mạng giữa các nhà mạng tháng 11 năm 2022,

nguồn Bộ TT & TT.

1.3 Tổng quan dữ liệu lớn về khách hàng mạng viễn thông

Theo thống kê từ Cục Viễn thông thuộc Bộ Thông tin và Truyền thông [4], vào cuối năm 2021, Việt Nam đã ghi nhận 91,3 triệu thuê bao di động sử dụng smartphone Chỉ trong vòng ba tháng đầu năm 2022, con số này đã tăng thêm hơn 2 triệu, đưa tổng số thuê bao smartphone tại Việt Nam lên tới 93,5 triệu Cục Viễn thông ước tính rằng, khoảng 73,5% người trưởng thành tại Việt Nam hiện đang sử dụng smartphone

Báo cáo cập nhật năm 2022 [5] “Digital Payment Users in Vietnam 2017 -

2025” của Statista tiết lộ rằng, đến hết năm 2021, Việt Nam đã có khoảng 51,8 triệu

người dùng thương mại điện tử Trong khi đó, nhà sản xuất thiết bị mạng nổi tiếng Cisco dự đoán rằng, với mức giá phải trả hợp lý và sự đa dạng, linh hoạt của các gói cước, cùng với chất lượng Internet ngày càng tốt hơn và khả năng sản xuất thiết bị 5G trong nước, số lượng thuê bao 5G tại Việt Nam có thể lên tới 6,3 triệu vào năm 2025 Điều này không chỉ giúp Việt Nam trở thành một trong những quốc gia có mức giá Internet rẻ nhất và phủ sóng rộng rãi trên thế giới, mà còn đưa nước ta lên vị trí thứ hai tại Đông Nam Á về tốc độ Internet di động

40210138 227562 181297

MobifoneVinaphoneViettelVietnam MobileMobicast

Từ chối thuê bao chuyển mạng 11/2022

Đăng ký chuyển điChuyển đi thành côngTừ chối chuyển đi

(Thuê

Trang 22

Báo cáo Sơ kết công tác 6 tháng đầu năm 2023 của Bộ Thông tin và Truyền thông [6] đã phác họa nên bức tranh sáng sủa, đầy màu sắc cho ngành viễn thông Việt Nam Trong nửa đầu năm, ngành viễn thông đã chứng kiến những bước tiến vượt bậc Cụ thể, 77,1% hộ gia đình đã được kết nối với dịch vụ cáp quang, tăng trưởng ấn tượng 5,7% so với năm 2022 và hoàn thành 91,8% mục tiêu kế hoạch năm nay Không chỉ vậy, tỷ lệ người dùng Internet đã đạt 78,59%, vượt xa mục tiêu 76% được đề ra trong kế hoạch năm 2023 Số lượng thuê bao băng rộng cố định tăng 8%, đạt 22,14 triệu và hoàn thành 88,6% kế hoạch, trong khi thuê bao băng rộng di động đạt 86,2 triệu, tăng 5,67% so với năm trước và đạt 95,2% kế hoạch năm 2023 Điện thoại di động thông minh cũng không nằm ngoài xu hướng tăng trưởng này, với số lượng thuê bao ước đạt 101,12 triệu, tăng 8,73% so với cùng kỳ năm 2022, khẳng định vị thế không thể thay thế trong cuộc sống hàng ngày của người dân

1.4 Tổng quan về mô hình dự báo học kết hợp

Phương pháp học kết hợp2 là một kỹ thuật quan trọng trong học máy, nhằm cải thiện độ chính xác và độ tin cậy của các mô hình bằng cách kết hợp nhiều mô hình khác nhau Ý tưởng đằng sau là tạo ra một "ủy ban" các mô hình làm việc cùng nhau để đưa ra dự đoán chính xác hơn so với một mô hình đơn lẻ Lý do cần sử dụng các phương pháp tập hợp là vì không có mô hình nào là hoàn hảo, mỗi mô hình đều có nhược điểm và sai lệch riêng Bằng cách kết hợp các mô hình, chúng ta có thể giảm thiểu các lỗi và sai lệch đó, từ đó nâng cao độ chính xác của dự đoán tổng thể Ứng dụng của phương pháp tập hợp rất đa dạng trong nhiều lĩnh vực công nghiệp Chẳng hạn, trong tài chính, chúng có thể được sử dụng để phát hiện gian lận; trong chăm sóc sức khỏe, chúng có thể giúp chẩn đoán bệnh và dự đoán kết quả của bệnh nhân; và trong tiếp thị, chúng có thể giúp xác định khách hàng tiềm năng và tối ưu hóa chiến lược quảng cáo

Hiện nay, các phương pháp học kết hợp đang là đối tượng nghiên cứu chính trong lĩnh vực học máy Chúng được áp dụng rộng rãi để cải thiện hiệu suất của nhiều

2 https://www.linkedin.com/pulse/ensemble-methods-practice-combining-strengths-multiple-pandey/

Trang 23

loại mô hình khác nhau, từ cây quyết định đến mạng nơ-ron và mô hình học sâu Với lượng dữ liệu ngày càng lớn, vai trò của các phương pháp tập hợp sẽ ngày càng trở nên quan trọng trong tương lai.

Cách các phương pháp học kết hợp hoạt động bao gồm các giai đoạn sau:

1- Đào tạo mẫu: Bắt đầu với việc đào tạo nhiều mô hình cơ sở trên cùng một tập dữ liệu đào tạo, sử dụng các thuật toán, kiến trúc hoặc siêu tham số khác nhau Các mô hình có thể đồng nhất (cùng thuật toán) hoặc không đồng nhất (các thuật toán khác nhau)

2- Tạo dự đoán: Sử dụng các mô hình đã được đào tạo để tạo ra các dự đoán trên tập dữ liệu thử nghiệm Mỗi mô hình tạo ra một tập hợp các dự đoán, và những dự đoán này được kết hợp để tạo ra dự đoán tổng thể

3- Lựa chọn phương pháp tổng hợp: Chọn phương pháp tổng hợp phù hợp để kết hợp các dự đoán của các mô hình cơ sở Các phương pháp phổ biến bao gồm đóng bao, tăng cường và xếp chồng

- Đóng bao: Đào tạo nhiều mô hình cơ sở trên các mẫu con khác nhau của dữ liệu đào tạo và tính trung bình các dự đoán của chúng Giúp giảm phương sai của dự đoán và cải thiện độ chính xác tổng thể

- Tăng cường: Huấn luyện nhiều mô hình cơ sở một cách tuần tự, trong đó mỗi mô hình tập trung vào các lỗi của các mô hình trước đó Dự đoán của các mô hình cơ sở được kết hợp bằng cách sử dụng bình quân hoặc biểu quyết đa số

- Xếp chồng: Huấn luyện một siêu mô hình dựa trên các dự đoán của các mô hình cơ sở Siêu mô hình sử dụng các dự đoán này làm đầu vào và tạo ra dự đoán cuối cùng

4- Đánh giá mô hình học kết hợp: Cuối cùng, đánh giá hiệu suất của mô hình tập hợp trên dữ liệu thử nghiệm bằng các số liệu đánh giá như độ chính xác, độ chính xác, khả năng thu hồi và điểm F1

Trang 24

Trong các phương pháp học kết hợp, có một số thuật toán phổ biến được sử dụng để kết hợp dự đoán của các mô hình khác nhau và cải thiện hiệu suất tổng thể của hệ thống Dưới đây là một số thuật toán phổ biến nhất:

Rừng Ngẫu Nhiên (Random Forest): Kết hợp các dự đoán từ nhiều cây quyết định để cải thiện độ chính xác của mô hình phân loại hoặc hồi quy

- Tăng Cường Độ Dốc (Gradient Boosting): Kết hợp nhiều mô hình yếu thành một mô hình mạnh bằng cách huấn luyện tuần tự từng mô hình mới để sửa lỗi của mô hình trước đó

- AdaBoost: Gán trọng số cho từng điểm dữ liệu và huấn luyện lặp lại các mô hình yếu để tập trung vào các điểm dữ liệu đã bị phân loại sai trong các lần lặp trước

- XGBoost: Một triển khai có thể mở rộng của thuật toán tăng cường độ dốc, được tối ưu hóa về tốc độ và hiệu quả

- Xếp Chồng (Stacking): Kết hợp các dự đoán của nhiều mô hình bằng cách huấn luyện một mô hình cấp cao hơn để đưa ra dự đoán dựa trên đầu ra của các mô hình cấp thấp hơn

- Đóng Bao (Bootstrap Aggregating): Kết hợp các dự đoán của nhiều mô hình bằng cách huấn luyện từng mô hình trên một tập hợp con được chọn ngẫu nhiên của dữ liệu huấn luyện

Lựa chọn thuật toán phụ thuộc vào yêu cầu cụ thể của bài toán, đặc điểm của tập dữ liệu và tài nguyên tính toán có sẵn

Stacked Generalization [7] thường được gọi là Stacking, là một kỹ thuật trong Ensemble Learning trong học máy Giống như các phương pháp Bagging và Boosting, Stacking cũng tổng hợp các dự báo từ nhiều mô hình học máy khác nhau dựa trên cùng một tập dữ liệu Điểm quan trọng là sự tổng hợp dự báo từ nhiều mô hình có thể dẫn đến việc cải thiện chất lượng và độ chính xác của dự báo Tuy nhiên, mỗi mô hình học máy đều có những ưu và nhược điểm riêng, và sở hữu các cơ chế dự báo đặc trưng Vấn đề đặt ra là làm thế nào để lựa chọn hoặc tối ưu hóa sự kết hợp

Trang 25

của những tính chất tích cực từ các mô hình này? Giải pháp mà Stacking đề xuất là sử dụng một cấu trúc tầng chồng lên nhau, nơi mỗi tầng sẽ học cách tối ưu hóa dự báo từ tầng trước Thông qua cách tiếp cận này, Stacking giúp tối ưu hóa việc kết hợp thông tin từ nhiều mô hình học máy để đưa ra dự báo chính xác hơn

Hình 1 4 Mô hình học kết hợp [7].

Khác biệt so với Bagging, Stacking không chỉ sử dụng một loại mô hình như Decision Tree và thực hiện trên toàn bộ tập dữ liệu huấn luyện, chứ không phải các tập con ngẫu nhiên của nó Trong khi Boosting tiếp cận bằng cách sử dụng chuỗi các mô hình để sửa chữa lỗi từ mô hình trước, Stacking lại sử dụng một mô hình "meta" để tổng hợp dự báo từ các mô hình khác Cơ cấu của mô hình Stacking thường bao gồm hai cấp: Level-0 và Level-1:

Trang 26

 Level-0 Models (Base-Models): Các mô hình này được huấn luyện trên tập dữ liệu gốc và đưa ra dự báo, những dự báo này sau đó sẽ được sử dụng như là đầu vào cho mô hình ở Level-1

 Level-1 Model (Meta-Model): Mô hình này được huấn luyện dựa trên dự báo của các Base-Models Thay vì học trực tiếp từ dữ liệu gốc, Meta-Model học từ các dự báo được cung cấp bởi Base-Models

Các Base-Models thường sử dụng những thuật toán khác nhau, từ đó tạo ra các dự báo với độ tương quan thấp Đầu ra của chúng có thể là giá trị thực (đối với bài toán Hồi quy) hoặc xác suất của các lớp (đối với bài toán Phân loại) Mặt khác, Meta-Model thường đơn giản hơn và có nhiệm vụ tổng hợp dự báo từ Base-Models Đối với bài toán Hồi quy, Linear Regression có thể được sử dụng làm Meta-Model, trong khi Logistic Regression phù hợp với bài toán Phân loại Như vậy, Stacking là một kỹ thuật tiên tiến để kết hợp sức mạnh của nhiều mô hình học máy khác nhau, tăng cường độ chính xác và ổn định của dự báo thông qua cấu trúc hai cấp

Trang 27

CHƯƠNG 2: CÁC CÔNG TRÌNH LIÊN QUAN

2.1 Các công trình liên quan trên thế giới

Theo nghiên cứu của Liu, L., & Chen, R.-C [8] học sâu đã được ứng dụng thành công trong nhiều lĩnh vực và đạt được những kết quả đáng kinh ngạc Trong khi đó, dữ liệu lớn đã cách mạng hóa ngành vận tải trong vài năm qua Hai chủ đề nóng hổi này đã truyền cảm hứng cho nhóm tác giả xem xét lại vấn đề truyền thống về dự báo lưu lượng hành khách Là một cấu trúc đặc biệt của mạng nơ-ron sâu (DNN), bộ mã hóa tự động có thể trích xuất sâu và trừu tượng các tính năng phi tuyến tính được nhúng trong đầu vào mà không cần bất kỳ nhãn nào Bằng cách khai thác các khả năng vượt trội của nó, một mô hình dự báo lưu lượng hành khách hàng giờ mới sử dụng các phương pháp học sâu được đề xuất trong bài báo này Các tính năng tạm thời bao gồm ngày trong tuần, giờ trong ngày và ngày lễ, các tính năng kịch bản bao gồm lượt đến và lượt đi, vé và thẻ, và các tính năng luồng hành khách bao gồm luồng hành khách trung bình trước đó và luồng hành khách thời gian thực, là được định nghĩa là các tính năng đầu vào Các tính năng này được kết hợp và đào tạo dưới dạng các bộ mã hóa tự động xếp chồng (SAE) khác nhau trong giai đoạn đầu tiên Sau đó, SAE được đào tạo trước sẽ tiếp tục được sử dụng để khởi tạo DNN được giám sát với luồng hành khách theo thời gian thực dưới dạng dữ liệu nhãn trong giai đoạn thứ hai Mô hình kết hợp (SAE-DNN) được áp dụng và đánh giá với một nghiên cứu điển hình về dự báo lưu lượng hành khách cho bốn trạm xe buýt nhanh (BRT) của Hạ Môn (Thành phố Hạ Môn thuộc tỉnh Phúc Kiến, Trung Quốc) trong giai đoạn thứ ba Kết quả thực nghiệm cho thấy phương pháp đề xuất có khả năng cung cấp mô hình dự báo lưu lượng hành khách phổ quát và chính xác hơn cho các trạm BRT khác nhau với các cấu hình lưu lượng hành khách khác nhau

Theo [9], các nguồn thu nhập truyền thống, thoại và SMS của các nhà khai thác viễn thông (telcos) đang bị thu hẹp do khách hàng sử dụng các ứng dụng vượt trội (OTT) như WhatsApp hoặc Viber Trong môi trường đầy thách thức này, điều quan trọng đối với các công ty viễn thông là duy trì hoặc tăng thị phần của họ bằng

Trang 28

cách cung cấp cho người dùng trải nghiệm tốt nhất có thể trên mạng của họ Nhưng nhiệm vụ trích xuất thông tin chi tiết về khách hàng từ lượng dữ liệu khổng lồ do các công ty viễn thông thu thập đang ngày càng phức tạp và quy mô hơn Làm cách nào chúng ta có thể đo lường và dự báo chất lượng trải nghiệm của người dùng trên mạng viễn thông trong thời gian thực? Đó là vấn đề mà nhóm tác giả giải quyết trong bài viết này Các tác giả trình bày một cách tiếp cận để nắm bắt, trong (gần) thời gian thực, trải nghiệm của khách hàng trên thiết bị di động nhằm đánh giá điều kiện nào khiến người dùng thực hiện cuộc gọi đến trung tâm chăm sóc khách hàng của công ty viễn thông Để đạt được mục tiêu này, nhóm tác giả tuân theo phương pháp học có giám sát để dự báo và huấn luyện mô hình Rừng ngẫu nhiên bị hạn chế bằng cách sử dụng, như một đại diện cho trải nghiệm tồi tệ, các giao dịch khách hàng được quan sát trong nguồn cấp dữ liệu viễn thông trước khi người dùng thực hiện cuộc gọi đến trung tâm chăm sóc khách hàng Các tác giả đánh giá cách tiếp cận của mình bằng cách sử dụng bộ dữ liệu phong phú do một công ty viễn thông lớn của châu Phi cung cấp và một kiến trúc dữ liệu lớn mới cho cả việc đào tạo và chấm điểm các mô hình dự báo Nghiên cứu thực nghiệm của nhóm tác giả cho thấy giải pháp đề xuất có hiệu quả trong việc dự báo trải nghiệm người dùng bằng cách suy luận liệu khách hàng có thực hiện cuộc gọi dựa trên bối cảnh hiện tại của họ hay không Những kết quả đầy hứa hẹn này mở ra những khả năng mới để cải thiện dịch vụ khách hàng, điều này sẽ giúp các công ty viễn thông giảm tỷ lệ rời bỏ và cải thiện trải nghiệm của khách hàng, cả hai yếu tố ảnh hưởng trực tiếp đến tăng trưởng doanh thu của họ

Dự báo lưu lượng di động không dây [10] là một vấn đề quan trọng đối với các nhà nghiên cứu và thực hành trong lĩnh vực 5G/B5G Tuy nhiên, đây là một thách thức rất lớn vì lưu lượng di động không dây thường có tính chất phi tuyến tính cao và các mẫu phức tạp Hầu hết các phương pháp dự báo lưu lượng di động không dây hiện có, thiếu khả năng mô hình hóa các mối tương quan không gian-thời gian động của dữ liệu lưu lượng di động không dây, do đó không thể mang lại kết quả dự báo thỏa đáng Để cải thiện độ chính xác của dự báo lưu lượng mạng di động 5G/B5G, nhiều dữ liệu miền chéo hơn đã được xem xét, chiến lược học chuyển giao kết hợp

Trang 29

giữa các dịch vụ và khu vực (Chuyển giao hợp nhất) dựa trên mô hình mạng thần kinh miền chéo không gian-thời gian (STC) -N) đã được đề xuất Nhiều bộ dữ liệu tên miền chéo đã được tích hợp Độ chính xác đào tạo của miền dịch vụ đích dựa trên các đặc điểm dữ liệu của miền dịch vụ nguồn theo sự giống nhau giữa các dịch vụ và sự giống nhau giữa các vùng khác nhau đã được cải thiện, do đó hiệu suất dự báo của mô hình được nâng cao Kết quả thử nghiệm của bài báo cho thấy độ chính xác dự báo của mô hình dự báo lưu lượng được cải thiện đáng kể sau khi tích hợp nhiều bộ dữ liệu tên miền chéo, hiệu suất RMSE của dịch vụ SMS, Cuộc gọi và Internet có thể được cải thiện lần lượt khoảng 8,39%, 13,76% và 5,7% Ngoài ra, so với chiến lược chuyển nhượng hiện tại, RMSE của ba dịch vụ có thể được cải thiện khoảng 2,48%∼13,19% Những kết quả đầy hứa hẹn này mở ra những khả năng mới để cải thiện dịch vụ khách hàng, điều này sẽ giúp các công ty viễn thông giảm tỷ lệ rời bỏ và cải thiện trải nghiệm của khách hàng, cả hai yếu tố ảnh hưởng trực tiếp đến tăng trưởng doanh thu của họ

Một nghiên cứu của Milorad K Banjanin và cộng sự [11], với mục tiêu chính là tạo ra một mô hình thích ứng dựa trên perceptron đa lớp (MLP) để dự báo thông lượng dữ liệu đường xuống (DL) trung bình trên mỗi người dùng và thông lượng dữ liệu DL trung bình trên mỗi ô trong công nghệ mạng LTE và trong một không gian

địa lý mà bao gồm một đoạn của Xa lộ 9 Tháng Giêng (một con đường quan trọng ở

Republika Srpska, nằm ở phía bắc của Bosnia và Herzegovina) với các đường vào

Độ chính xác của dự báo mô hình được ước tính dựa trên sai số tương đối (RE) Với nhiều khóa đào tạo và thử nghiệm 30 biến thể khác nhau của mô hình MLP, với các siêu tham số khác nhau, mô hình cuối cùng đã được chọn với độ chính xác trung bình cho biến Thông lượng trung bình của đường xuống di động là 89,6% (RE = 0,104), trong khi đối với biến Thông lượng trung bình của đường xuống người dùng là độ chính xác trung bình là 88% (RE = 0,120) Nếu quan sát hệ số xác định, kết quả cho thấy độ chính xác của mô hình dự báo được lựa chọn tốt nhất cho biến phụ thuộc thứ nhất cao hơn 1,4% so với độ chính xác của mô hình dự báo được lựa chọn cho biến phụ thuộc thứ hai Ngoài ra, kết quả cho thấy hiệu suất của mô hình thông qua thông

Trang 30

số R2 (R-Squared) tốt hơn đáng kể so với mơ hình hồi quy tuyến tính bội (MLR) tham chiếu được sử dụng

Theo nghiên cứu của Tianpei Xu,Ying Ma và Kangchul Kim [12], thị trường viễn thơng cĩ tính cạnh tranh rất cao Chi phí để giữ chân khách hàng viễn thơng hiện tại thấp hơn so với việc thu hút khách hàng mới Điều cần thiết là một cơng ty viễn thơng phải hiểu được sự thay đổi của khách hàng thơng qua quản lý quan hệ khách hàng (CRM) Do đĩ, máy phân tích CRM được yêu cầu phải dự báo khách hàng nào sẽ rời bỏ Nghiên cứu này đề xuất một hệ thống dự báo tỷ lệ rời bỏ của khách hàng sử dụng kỹ thuật học tập tổng hợp bao gồm các mơ hình xếp chồng và bỏ phiếu mềm Các thuật tốn XgBoost, hồi quy logistic, Cây quyết định và máy học Nạve Bayes được chọn để xây dựng mơ hình xếp chồng với hai cấp độ và ba đầu ra của cấp độ thứ hai được sử dụng để bỏ phiếu Việc xây dựng tính năng của tập dữ liệu khách hàng rời mạng bao gồm việc nhĩm các đặc điểm hành vi của khách hàng cách đều nhau để mở rộng khơng gian của các tính năng và khám phá thơng tin tiềm ẩn từ tập dữ liệu rời đi Các bộ dữ liệu khách hàng rời mạng ban đầu và mới được phân tích trong mơ hình tập hợp xếp chồng với bốn chỉ số đánh giá Kết quả thử nghiệm của nhĩm tác giả cho thấy các dự báo tỷ lệ rời bỏ khách hàng được đề xuất cĩ độ chính xác lần lượt là 96,12% và 98,09% đối với bộ dữ liệu tỷ lệ rời mạng ban đầu và mới Những kết quả này tốt hơn các hệ thống nhận dạng khách hàng rời mạng

Theo nghiên cứu của by Matthias Bogaert và Lex Delaere [13], một số phân loại đơn lẻ, các nhĩm đồng nhất và khơng đồng nhất đã được đề xuất để phát hiện những khách hàng cĩ nhiều khả năng rời mạng nhất Bất chấp sự phổ biến và độ chính xác của các tập hợp khơng đồng nhất trong các lĩnh vực khác nhau, các mơ hình dự báo tỷ lệ rời mạng của khách hàng vẫn chưa được áp dụng Hơn nữa, cịn cĩ những phát triển khác về mức độ đánh giá hiệu quả hoạt động và so sánh mơ hình chưa được đưa vào một cách cĩ hệ thống Do đĩ, mục đích của nghiên cứu này là thực hiện một nghiên cứu tiêu chuẩn quy mơ lớn về dự báo tỷ lệ khách hàng rời mạng bằng cách áp dụng các phương pháp mới này Để làm như vậy, bài báo đánh giá 33 bộ phân loại, bao gồm 6 bộ phân loại đơn lẻ, 14 bộ phân loại đồng nhất và 13 bộ phân loại khơng

Trang 31

đồng nhất trên 11 bộ dữ liệu Phát hiện của nhóm tác giả chỉ ra rằng các nhóm không đồng nhất luôn được xếp hạng cao hơn các nhóm đồng nhất và các phân loại đơn lẻ Kết quả quan sát thấy rằng một tập hợp không đồng nhất với lựa chọn phân loại ủ mô phỏng được xếp hạng cao nhất về AUC và lợi nhuận tối đa dự kiến Để có độ chính xác, tham số đo độ chính xác F1 và mức tăng thập phân vị trên cùng, một tập hợp không đồng nhất được tối ưu hóa bằng khả năng nhị thức không âm và một tập hợp không đồng nhất xếp chồng tương ứng là các phân loại được xếp hạng hàng đầu Nghiên cứu này ý nghĩa là nghiên cứu đầu tiên đưa một bộ phân loại, số liệu hiệu suất và kiểm tra thống kê phong phú như vậy vào một nghiên cứu tiêu chuẩn về tỷ lệ khách hàng rời mạng

Một nghiên cứu của Mohamed Massaoudi và cộng sự [14] đề xuất một khung tính toán hiệu quả cho Dự báo phụ tải ngắn hạn (STLF) Kỹ thuật đề xuất xử lý các biến đổi ngẫu nhiên của nhu cầu phụ tải bằng cách sử dụng phương pháp tổng quát hóa xếp chồng Cách tiếp cận này kết hợp ba mô hình, đó là Máy tăng cường độ dốc ánh sáng (LGBM), máy tăng cường độ dốc eXtreme (XGB) và Perceptron nhiều lớp (MLP) Cơ chế bên trong của mô hình XGB-LGBM-MLP xếp chồng bao gồm việc tạo siêu dữ liệu từ các mô hình XGB và LGBM để tính toán các dự báo cuối cùng bằng mạng MLP Hiệu suất của mô hình XGB-LGBM-MLP xếp chồng được đề xuất được xác thực bằng cách sử dụng hai bộ dữ liệu từ các địa điểm khác nhau: Malaysia và New England Bốn đóng góp đáng chú ý được các tác giả làm bật lên, trong đó nổi bật là cách tiếp cận tổng thể Việc xác thực trên các bộ dữ liệu từ Malaysia và New England cho thấy mức độ phù hợp tiềm năng toàn cầu của mô hình Tuy nhiên, những hiểu biết sâu sắc hơn về những thách thức của các biến đổi ngẫu nhiên, đề cập rõ ràng hơn về các kỹ thuật tối ưu hóa siêu tham số và kết quả định lượng sẽ làm phong phú thêm cái nhìn tổng quan Nhìn chung, bài nghiên cứu có nhiều hướng mới và nghiên cứu kỹ lưỡng về STLF, thu hút sự quan tâm của các chuyên gia

Bài nghiên cứu của E Diaz-Aviles [15] nêu một giải pháp tiềm năng cho telcos trong việc đối mặt với sự suy giảm doanh thu truyền thống và quan trọng của việc cải thiện trải nghiệm người dùng trên mạng Phương pháp đề xuất sử dụng học

Trang 32

có giám sát và mô hình Rừng ngẫu nhiên để dự đoán trải nghiệm xấu của người dùng, dựa trên dữ liệu khách hàng từ một công ty viễn thông lớn ở Châu Phi Kết quả thử nghiệm cho thấy giải pháp này hiệu quả trong dự đoán hành vi người dùng và mở ra khả năng cải thiện dịch vụ khách hàng, giảm tỷ lệ rời bỏ và tăng doanh thu Tuy nhiên, cần xem xét các chi tiết phương pháp, đánh giá mô hình và hạn chế tiềm ẩn để tối ưu hóa hiệu suất của giải pháp

Theo nhóm tác giả S A Qureshi [16] thì trong thị trường di động đầy cạnh tranh, việc giữ chân khách hàng trở nên quan trọng hơn việc thu hút khách hàng mới Để dự đoán khách hàng sẽ rời bỏ, các phương pháp khai thác dữ liệu như phân tích hồi quy, Cây quyết định và Mạng thần kinh nhân tạo đã được áp dụng Sử dụng dữ liệu từ trang web DNA khách hàng, nghiên cứu này tập trung vào việc xác định mẫu dựa trên hành vi và lịch sử sử dụng của họ Phương pháp lấy mẫu lại được sử dụng để xử lý vấn đề mất cân bằng lớp Kết quả cho thấy cây quyết định là thuật toán phân loại chính xác nhất trong việc dự đoán khách hàng có khả năng rời bỏ

Nghiên cứu của Q Zeng và cộng sự tập trung [17] vào vấn đề dự đoán lưu lượng di động không dây, đặc biệt là trong lĩnh vực 5G/B5G, một thách thức quan trọng đối với cả nghiên cứu và thực tiễn Các phương pháp hiện tại thường không đủ linh hoạt để mô hình hóa mối tương quan không gian-thời gian động của dữ liệu lưu lượng này, dẫn đến dự đoán không chính xác Để cải thiện điều này, bài viết đề xuất sử dụng nhiều dữ liệu tên miền chéo hơn và chiến lược học chuyển giao hợp nhất khu vực và dịch vụ chéo Mô hình mạng thần kinh xuyên miền không gian-thời gian (STC-N) được đề xuất để tích hợp dữ liệu từ nhiều miền khác nhau Kết quả thử nghiệm cho thấy sự cải thiện đáng kể trong độ chính xác của dự đoán lưu lượng, với tăng cường đáng kể về hiệu suất so với chiến lược chuyển nhượng hiện tại Điều này có thể góp phần quan trọng trong việc cải thiện quản lý và triển khai các mạng di động 5G/B5G trong tương lai

Bài báo của P Kaushik và cộng sự [18] tập trung vào việc triển khai mạng lưới thần kinh sâu để phân tích và dự đoán dữ liệu lớn về hoạt động viễn thông từ

Trang 33

Telecom Italia Sử dụng thư viện deep learning Tensorflow, mô hình được xây dựng và tối ưu hóa bằng trình tối ưu hóa Adam Mô hình sử dụng dữ liệu thử nghiệm để tạo dự đoán, với hiệu suất đạt được 98,6-99,8% Các API cấp cao và cấp trung của Tensorflow hỗ trợ quá trình triển khai mạng thần kinh, giúp tạo ra một hệ thống hiệu quả cho việc phân tích dữ liệu viễn thông và tạo ra các dự đoán có độ chính xác cao Bài nghiên cứu của J K Sana và cộng sự [19] tập trung vào việc giải quyết vấn đề khách hàng rời bỏ trong ngành viễn thông bằng cách sử dụng dữ liệu CRM và các mô hình học máy Nghiên cứu này đề xuất và đánh giá các mô hình dự đoán khách hàng rời bỏ, sử dụng kỹ thuật chuyển đổi dữ liệu và lựa chọn tính năng Việc tối ưu hóa các mô hình dự đoán được thực hiện bằng cách lựa chọn tính năng và siêu tham số tốt nhất Kết quả thử nghiệm trên nhiều bộ dữ liệu công khai cho thấy sự cải thiện đáng kể về hiệu suất của các mô hình, với tăng cường đặc biệt về mặt AUC và F-score Nghiên cứu này là một bước tiến quan trọng trong việc áp dụng các phương pháp hiện đại để dự đoán và giảm tỷ lệ rời bỏ khách hàng trong ngành viễn thông

Bài nghiên cứu của nhóm tác giả A K Ahmad, A Jafar, and K Aljoumaa [20] tập trung vào việc dự đoán khách hàng rời bỏ trong ngành viễn thông, với mô hình được phát triển và kiểm thử trên dữ liệu lớn từ công ty viễn thông SyriaTel Vấn đề này là một ưu tiên hàng đầu đối với các công ty lớn vì ảnh hưởng trực tiếp đến doanh thu Mô hình sử dụng các kỹ thuật máy học và tiến bộ, đạt được hiệu suất ấn tượng với giá trị AUC đạt 93,3% Một điểm đặc biệt là việc sử dụng mạng xã hội của khách hàng để cải thiện hiệu suất mô hình, đạt 93,3% so với tiêu chuẩn AUC Quá trình phát triển và thử nghiệm mô hình được thực hiện trên môi trường Spark với sự hỗ trợ từ các thuật toán như Cây quyết định, Rừng ngẫu nhiên, GBM và XGBOOST, trong đó XGBOOST cho kết quả tốt nhất Bài viết này không chỉ giới thiệu một phương pháp tiên tiến để dự đoán khách hàng rời bỏ mà còn làm rõ vai trò quan trọng của việc áp dụng các công nghệ mới như máy học và dữ liệu lớn trong việc giải quyết các thách thức kinh doanh trong ngành viễn thông

Trang 34

Bài khảo sát của A Chen và cộng sự [21] giới thiệu về việc sử dụng học máy trong mạng truyền thông để tạo ra mạng lưới nhận thức, đồng thời thảo luận về các kỹ thuật dự đoán lưu lượng truy cập và phân loại ứng dụng Các kỹ thuật được phân loại dựa trên khả năng sử dụng trong Mạng cục bộ và Mạng diện rộng Mục tiêu của bài viết là tổng quan và củng cố các kỹ thuật hiện có để khuyến khích phát triển các ứng dụng mới trong thực tế mạng

Bài báo của D Andreoletti và cộng sự [22] tập trung vào việc áp dụng Machine Learning để dự đoán lưu lượng truy cập và sự kiện tắc nghẽn trên mạng viễn thông Một thách thức đặc biệt là làm thế nào để mô hình hóa dữ liệu có cấu trúc đồ thị trong mạng viễn thông Các thuật toán ML, như Mạng thần kinh tái diễn phức tạp khuếch tán (DCRNN), được áp dụng để dự báo tải lưu lượng truy cập và dự đoán các sự kiện tắc nghẽn So sánh với các phương pháp khác như LSTM và Mạng thần kinh được kết nối đầy đủ, kết quả cho thấy DCRNN vượt trội về khả năng dự báo và dự đoán, giảm đến 43% đối với sai số trung bình tuyệt đối (MAPE) từ 210% Phương pháp này mở ra triển vọng trong việc áp dụng cho các vấn đề quản lý mạng, đồng thời làm rõ tính hiệu quả của việc sử dụng ML trong mạng viễn thông để tối ưu hóa quản lý tài nguyên và dự đoán các sự kiện quan trọng trước khi xảy ra

Bài viết [23] của guides.loc.gov, đã tóm tắt về ngành viễn thông và cung cấp hướng dẫn nghiên cứu trong lĩnh vực này Ngành viễn thông bao gồm nhiều lĩnh vực như phát thanh, truyền hình, dịch vụ internet, VoIP và radar Hướng dẫn này tập trung vào cung cấp nguồn tài nguyên hữu ích cho các nhà nghiên cứu và doanh nghiệp muốn tìm hiểu về ngành viễn thông, bao gồm cả lịch sử và quản lý Nó không bao gồm chi tiết về nội dung truyền thông như chương trình TV hoặc thông số kỹ thuật Thay vào đó, hướng dẫn tập trung vào việc cung cấp danh sách các nguồn tài liệu và cơ sở dữ liệu có sẵn để nghiên cứu sâu hơn, bao gồm cả tài nguyên internet miễn phí, blog ngành và hiệp hội thương mại Phần "Tìm kiếm Danh mục của Thư viện" hướng dẫn cách tìm kiếm tài liệu trong bộ sưu tập của Thư viện Quốc hội liên quan đến ngành viễn thông

Trang 35

2.2 Các công trình liên quan ở Việt Nam

Dương Thị Hòa Bình [24] nghiên cứu xây dựng mô hình học sâu dự báo xu hướng giá chứng khoán, tìm hiểu và ứng dụng các mô hình học sâu vào thực tế Theo nhóm tác giả, cùng với sự phát triển của nền kinh tế thị trường, nhu cầu tăng thêm thu nhập của con người ngày càng cao Đối với tầng lớp lao động, đi làm thuê thì việc vươn lên tầng lớp doanh nhân, giàu có gần như là rất khó chỉ với nguồn thu nhập bị động ít ỏi Trong khi đó thị trường chứng khoán lại vô cùng năng động Bài nghiên cứu đã nghiên cứu về mô hình học sâu và áp dụng cho bài toán dự báo xu hướng giá chứng khoán Đề xuất được phương pháp đánh giá mô hình, phương pháp xây dựng tập dữ liệu và phương pháp kết hợp phân tích kỹ thuật với mô hình học sâu để cho ra kết quả tốt cho bài toán

Theo nghiên cứu của Quang Hung Do và cộng sự [25], dự báo chính xác lưu lượng dữ liệu trong mạng viễn thông là một nhiệm vụ đầy thách thức để quản lý mạng tốt hơn Nó thúc đẩy việc phân bổ nguồn lực năng động và quản lý năng lượng Nghiên cứu này sử dụng các mạng lưới thần kinh sâu bao gồm các kỹ thuật Bộ nhớ ngắn hạn dài (LSTM) và Đơn vị tái phát có kiểm soát (GRU) để dự báo trước một giờ về lưu lượng truy cập dự kiến và so sánh phương pháp này với các phương pháp khác bao gồm Hệ thống suy luận thần kinh mờ thích ứng (ANFIS), Mạng thần kinh nhân tạo (ANN) và Phương pháp xử lý dữ liệu nhóm (GMDH) Việc triển khai mạng nơ-ron sâu trong nghiên cứu này sẽ phân tích, đánh giá và tạo ra các dự báo dựa trên dữ liệu về hoạt động viễn thông cứ sau một giờ, liên tục trong một năm, do Viễn thông Việt Nam phát hành Các chỉ số hiệu suất bao gồm RMSE, MAPE, MAE, R và Theil’s U được sử dụng để so sánh giữa các mô hình đã phát triển Kết quả thu được cho thấy cả mô hình LSTM và GRU đều vượt trội so với mô hình ANFIS, ANN và GMDH Các kết quả nghiên cứu dự kiến sẽ cung cấp một công cụ hỗ trợ và dự báo cho các nhà khai thác mạng viễn thông Kết quả thử nghiệm cũng chỉ ra rằng mô hình đề xuất là hiệu quả và phù hợp để dự báo lưu lượng mạng trong thế giới thực

Trang 36

Bài báo của nhóm tác giả Vũ Văn Hiệu [26] đề xuất mô hình học kết hợp (Stacking) cho dự báo khách hàng rời bỏ dịch vụ của ngân hàng sử dụng mô hình học kết hợp gồm hai cấp: với cấp 0 gồm bốn mô hình cơ sở gồm K láng giềng gần nhất (KNN), XGBoost (XGB), rừng ngẫu nhiên (RDF) và máy hỗ trợ vector (SVM) và cấp 1 lần lượt gồm ba mô hình là hồi quy logistic (LR), mạng neural hồi quy (RNN) và mạng neural học sâu (DNN) Phương pháp của nhóm tác giả đã thu được kết quả tốt với các chỉ số accuracy là 95.36%, recall là 95.57%, precision là 95.45% và F1 score là 95.51%

Trang 37

CHƯƠNG 3: TẬP DỮ LIỆU NGHIÊN CỨU

3.1 Giới thiệu về tập dữ liệu khách hàng rời mạng viễn thông

Bộ dữ liệu thu thập được là thông tin thuê bao mạng có cáp quang của VNPT tỉnh Tây Ninh từ 2010 đến 2023 Bộ dữ liệu bao gồm 114.177 quan sát với 29 trường dữ liệu tương ứng như bảng sau:

Bảng 3 1 Cột dữ liệu trong tập dữ liệu thu thập được

3 LOAIKH Categorical object Đối tượng khách hàng

4

IDđối tượng khách hàng

10 MANGKHAC Categorical int64 - 0: khách hàng mới -1: khách hàng từ mạng khác chuyển sang

11 SO_DV_KHAC Numeric int64 - Số dịch vụ khác của VNPT khách hàng đang sử dụng ngoài dịch vụ FiberVNN (lấy tại thời điểm 30/06/2023)

12 GOI_DADV Categorical int64 - Sử dụng gói tích hợp hay không: là khách hàng có sử dụng các gói tích hợp (tivi, di động, …) hay không

Trang 38

(lấy trạng thái tại thời điểm 30/06/2023)

4

- Giá cước

15 PL_KH_DT Categorical object Phân loại khách hàng theo doanh thu: Từ 50000 đến dưới 200000đ là loại C, từ 200000 đến dưới 500000đ là loại B, từ 500000 trở lên là loại A (Theo VB 955/QĐ-TTKD-TNH-ĐHNV ngày 13/06/2019

16 NOCUOC_2THANG Numeric int64 - Số tháng nợ cước: số tháng >= 2 tháng (tính từ tháng 06/2023 trở

Do tháng nợ cước có thể là những tháng trong quá khứ, không cố định nên không đưa thành cột được

17 TRATRUOC Categorical int64 - Đang thanh toán cước hàng tháng hay sử dụng gói trả trước nhiều tháng (lấy trạng thái tại thời điểm 30/06/2023)

1: Đã thanh toán trước cước 6 tháng, 12 tháng 0: thanh toán cước hàng tháng

18 SOTHANG_TRATRUOC_CONLAI

Numeric int64 - Số tháng còn lại của gói trả trước đang sử dụng (lấy trạng thái tại

30/06/2023)

19 SOLAN_BAOHONG Numeric int64 - Số lần báo hỏng: Số lần thuê bao báo hỏng do sự cố (đứt cáp, không tín hiệu, mạng chập chờn …) (số lần báo hỏng trong 6 tháng gần nhất

Trang 39

01,02,03,04,05,06/2023)

20 SOLAN_GOI_KIEM Numeric int64 - Số lần gọi kiểm: Số lần bộ phận Chăm sóc khách hàng thực hiện gọi kiểm để khảo sát dịch vụ đường truyền trong việc Lắp đặt và Sửa chữa (số lần gọi kiểm trong các tháng 01,02,03,04,05,06/2023)

21 SOLAN_GOI_KIEM_HL Numeric int64 - Số lần gọi kiểm hài lòng: Số lần khách hàng trả lời hài lòng khi được gọi kiểm (số lần gọi kiểm hài lòng trong các tháng 01,02,03,04,05,06/2023)

22 SOLAN_GOI_KIEM_KHL Numeric int64 - Số lần gọi kiểm không hài lòng: Số lần khách hàng trả lời hài không lòng khi được gọi kiểm (số lần gọi kiểm không hài trong

01,02,03,04,05,06/2023)

23 SOLAN_TAMNGUNG Numeric int64 - Số lần tạm ngưng: Số lần khách hàng xin tạm ngưng hoặc bị tạm ngưng sử dụng dịch vụ (do yêu cầu hoặc nợ cước …)(số lần tạm ngưng dịch vụ trong 3 tháng gần nhất 04,05,06/2023)

24 THANG_SD Numeric int64 - Số tháng sử dụng: Tuổi đời sử dụng dịch vụ của khách hàng (chốt tại thời điểm 30/06/2023)

25 KO_PSLL Categorical int64 - Không phát sinh lưu lượng: thuê bao không phát sinh lưu lượng 5

Trang 40

ngày trong 3 tháng

04,05,06/2023

Nhà mạng ghi nhận khách hàng không phát sinh lưu lượng sử dụng 5 ngày liên tiếp (do hư modem, đi vắng, cắt điện, …) để thực hiện kiểm tra chất lượng dịch vụ

26 SOLAN_GIAHAN Numeric int64 - Số lần gia hạn đặt cọc: Số lần thuê bao thực hiện gia hạn đặt cọc trả trước khi hết tiền đặt cọc (chốt tại

30/06/2023)

27 TRANGTHAI_TB Categorical object

28 TRANGTHAITB_ID Categorical Int64 - ID trạng thái của thuê bao (chốt tại thời điểm 30/06/2023) 29 THANHLY Categorical int64 Thanh lý (Churn):

Trạng thái thuê bao còn sử dụng hoặc thanh lý (trạng thái xác định tại thời điểm 30/09/2023

Sau khi xử lý dữ liệu, bỏ đi các cột không cần thiết ['NGANHNGHE', 'NGAY_SN', 'KHUVUC','LOAIKH','GOICUOC','TRANGTHAITB_ID'] ta có thống kê mô tả như sau:

Bảng 3 2 Thống kê mô tả tập dữ liệu thu thập được

Count\ unique top freq mean std min 25% 50% 75% max NGANHNGHE_

ID

114176.0 NaN NaN NaN 986.972525 121.98494 -999.0 999.0 1001.0 1002.0 1020.0

TUOI 114172.0 NaN NaN NaN 46.511351 27.221085 5960.0

-36.0 44.0 54.0 2010.0

KHUVUC_ID 114176.0 NaN NaN NaN 562.548574 60.570741 495.0 526.0 549.0 579.0 740.0

LOAIKH_ID 114177.0 NaN NaN NaN 3.561803 11.858337 0.0 1.0 1.0 1.0 87.0

PL_KH_DT 114177 3 THAP

102528

NaN NaN NaN NaN NaN NaN NaN

KHDN 114177.0 NaN NaN NaN 0.056859 0.231574 0.0 0.0 0.0 0.0 1.0

MANGKHAC 114177.0 NaN NaN NaN 0.090789 0.28731 0.0 0.0 0.0 0.0 1.0

SO_DV_KHAC 114177.0 NaN NaN NaN 0.744029 0.76983 0.0 0.0 1.0 1.0 12.0

GOI_DADV 114177.0 NaN NaN NaN 0.496956 0.499993 0.0 0.0 0.0 1.0 1.0

GIACUOC 114177.0 NaN NaN NaN 178260.23933

351735.491968

0.0 154545.0

163636.0

163636.0

75600000.0

NOCUOC_2THANG

114177.0 NaN NaN NaN 0.199068 0.865602 0.0 0.0 0.0 0.0 38.0

TRATRUOC 114177.0 NaN NaN NaN 0.266945 0.442365 0.0 0.0 0.0 1.0 1.0

LAI

114177.0 NaN NaN NaN 1.360747 2.726247 0.0 0.0 0.0 2.0 24.0

Ngày đăng: 15/06/2024, 12:17

Xem thêm:

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w