Nghiên cứu xây dựng mô hình Ensemble Learning để dự báo khách hàng rời mạng tại VNPT Tây NinhNghiên cứu xây dựng mô hình Ensemble Learning để dự báo khách hàng rời mạng tại VNPT Tây NinhNghiên cứu xây dựng mô hình Ensemble Learning để dự báo khách hàng rời mạng tại VNPT Tây NinhNghiên cứu xây dựng mô hình Ensemble Learning để dự báo khách hàng rời mạng tại VNPT Tây NinhNghiên cứu xây dựng mô hình Ensemble Learning để dự báo khách hàng rời mạng tại VNPT Tây NinhNghiên cứu xây dựng mô hình Ensemble Learning để dự báo khách hàng rời mạng tại VNPT Tây NinhNghiên cứu xây dựng mô hình Ensemble Learning để dự báo khách hàng rời mạng tại VNPT Tây NinhNghiên cứu xây dựng mô hình Ensemble Learning để dự báo khách hàng rời mạng tại VNPT Tây NinhNghiên cứu xây dựng mô hình Ensemble Learning để dự báo khách hàng rời mạng tại VNPT Tây NinhNghiên cứu xây dựng mô hình Ensemble Learning để dự báo khách hàng rời mạng tại VNPT Tây NinhNghiên cứu xây dựng mô hình Ensemble Learning để dự báo khách hàng rời mạng tại VNPT Tây NinhNghiên cứu xây dựng mô hình Ensemble Learning để dự báo khách hàng rời mạng tại VNPT Tây NinhNghiên cứu xây dựng mô hình Ensemble Learning để dự báo khách hàng rời mạng tại VNPT Tây NinhNghiên cứu xây dựng mô hình Ensemble Learning để dự báo khách hàng rời mạng tại VNPT Tây NinhNghiên cứu xây dựng mô hình Ensemble Learning để dự báo khách hàng rời mạng tại VNPT Tây NinhNghiên cứu xây dựng mô hình Ensemble Learning để dự báo khách hàng rời mạng tại VNPT Tây NinhNghiên cứu xây dựng mô hình Ensemble Learning để dự báo khách hàng rời mạng tại VNPT Tây NinhNghiên cứu xây dựng mô hình Ensemble Learning để dự báo khách hàng rời mạng tại VNPT Tây NinhNghiên cứu xây dựng mô hình Ensemble Learning để dự báo khách hàng rời mạng tại VNPT Tây NinhNghiên cứu xây dựng mô hình Ensemble Learning để dự báo khách hàng rời mạng tại VNPT Tây NinhNghiên cứu xây dựng mô hình Ensemble Learning để dự báo khách hàng rời mạng tại VNPT Tây NinhNghiên cứu xây dựng mô hình Ensemble Learning để dự báo khách hàng rời mạng tại VNPT Tây NinhNghiên cứu xây dựng mô hình Ensemble Learning để dự báo khách hàng rời mạng tại VNPT Tây NinhNghiên cứu xây dựng mô hình Ensemble Learning để dự báo khách hàng rời mạng tại VNPT Tây NinhNghiên cứu xây dựng mô hình Ensemble Learning để dự báo khách hàng rời mạng tại VNPT Tây NinhNghiên cứu xây dựng mô hình Ensemble Learning để dự báo khách hàng rời mạng tại VNPT Tây NinhNghiên cứu xây dựng mô hình Ensemble Learning để dự báo khách hàng rời mạng tại VNPT Tây NinhNghiên cứu xây dựng mô hình Ensemble Learning để dự báo khách hàng rời mạng tại VNPT Tây Ninh
Tính cấp thiết của đề tài
Trong bối cảnh thế giới hội nhập và phát triển mạnh mẽ về công nghệ, ngành viễn thông đang trở thành trung tâm của sự chuyển đổi số, và Việt Nam - một quốc gia đang phát triển - có tất cả tiềm năng để trở thành một nguồn lực lớn trong lĩnh vực này Đối mặt với sự cạnh tranh gay gắt, các doanh nghiệp viễn thông, nhất là VNPT, luôn đặt việc giữ chân và duy trì lượng khách hàng làm mục tiêu hàng đầu Tuy nhiên, việc dự báo và phân tích hành vi rời mạng của khách hàng thường được thực hiện bằng phương pháp thủ công, tiêu tốn nhiều thời gian và không đảm bảo độ chính xác Để tăng cường hiệu quả và chính xác trong việc dự báo hành vi của khách hàng, việc áp dụng các phương pháp hiện đại và tiên tiến như Mô hình học kết hợp (Ensemble Learning) trở nên vô cùng cần thiết Bởi vậy, nghiên cứu này sẽ tập trung vào việc ứng dụng Mô hình học kết hợp để dự báo khách hàng rời mạng tại VNPT Tây Ninh Đề tài như sau:
Nghiên cứu xây dựng mô hình Ensemble Learning để dự báo khách hàng rời mạng tại VNPT Tây Ninh
Research on Ensemble Learning model to predict churn customer at VNPT Tay Ninh
Mục tiêu nghiên cứu
Mục tiêu nghiên cứu chính là xây dựng mô hình học kết hợp dự báo khách hàng rời mạng viễn thông dựa trên tập dữ liệu khách hàng Các mục tiêu cụ thể như sau:
Nghiên cứu phân tích tập dữ liệu khách hàng rời mạng viễn thông mẫu trên Kaggle 1 và tập dữ liệu khách hàng sử dụng mạng viễn thông được thu thập tại VNPT, phân tích các đặc trưng chính trong tập dữ liệu nhằm xây dựng mô hình dự báo phù hợp
Lựa chọn thuật toán và các mô hình học máy phù hợp với bộ dữ liệu và kỹ thuật học kết hợp, đề xuất mô hình meta-model phù hợp Thông qua mô hình, xác định các yếu tố có ảnh hưởng nhiều nhất đến kết quả khách hàng rời mạng, hay tiếp tục sử dụng dịch vụ Phân tích sự ảnh hưởng của các yếu tố đó như thế nào đến kết quả khách hàng rời mạng hay không rời mạng Xác định đâu là yếu tố quyết định ảnh hưởng nhất đến việc thuê bao rời mạng
Đánh giá độ chính xác và khả năng áp dụng của mô hình đề xuất dự báo khả năng rời mạng viễn thông của khách hàng
Áp dụng mô hình để xây dựng ứng dụng dự báo khách hàng rời mạng viễn thông tại VNPT Tây Ninh.
Phương pháp nghiên cứu
Phương pháp nghiên cứu lý thuyết
Thu thập và nghiên cứu tài liệu về các nghiên cứu đã thực hiện trên thế giới và Việt Nam về vấn đề nhận diện và dự báo khách hàng rời mạng viễn thông Phân tích, lựa chọn giải pháp và hiện thực thử nghiệm Đánh giá kết quả và hiệu chỉnh nếu có
Nghiên cứu đề xuất mô hình meta-model phù hợp với phương pháp học kết hợp.
Phương pháp nghiên cứu thực nghiệm
Thực nghiệm các mô hình tương tự trên tập dữ liệu nghiên cứu để đánh giá sự phù hợp; xây dựng ứng dụng dựa trên mô hình đề xuất; cài đặt thử nghiệm mô hình, đánh giá các kết quả đạt được; công bố kết quả nghiên cứu.
Ý nghĩa và đóng góp của đề tài
Đề tài này mang lại nhiều ý nghĩa và đóng góp quan trọng trong lĩnh vực viễn thông và quản lý khách hàng, cụ thể như sau:
Nâng cao hiệu suất kinh doanh: Việc dự báo và phân tích hành vi rời mạng của khách hàng giúp các doanh nghiệp viễn thông như VNPT có thể áp dụng các biện pháp phù hợp để giữ chân khách hàng và tăng cường doanh số Việc sử dụng mô hình Ensemble Learning giúp cải thiện hiệu suất dự báo và quản lý khách hàng hơn
Tiết kiệm thời gian và chi phí: Phương pháp thủ công trong việc dự báo hành vi của khách hàng thường tốn nhiều thời gian và không đảm bảo độ chính xác
Việc áp dụng mô hình học kết hợp giúp tự động hóa quá trình này, tiết kiệm thời gian và chi phí cho doanh nghiệp
Nâng cao sự cạnh tranh: Trong một thị trường cạnh tranh gay gắt như ngành viễn thông, khả năng dự báo và duy trì lượng khách hàng là yếu tố quyết định sự thành công của một doanh nghiệp Việc áp dụng các phương pháp hiện đại như Ensemble Learning giúp tăng cường khả năng cạnh tranh của VNPT và các doanh nghiệp viễn thông khác
Đóng góp kiến thức và kỹ thuật: Nghiên cứu này không chỉ mang lại kết quả về việc dự báo khách hàng rời mạng mà còn đóng góp vào việc phát triển và áp dụng các phương pháp học máy tiên tiến trong lĩnh vực quản lý khách hàng và dự báo thị trường.
Bố cục đề án
Bên cạnh phần mở đầu, phần kết luận và phần tài liệu tham khào, phần nội dung chính của bài nghiên cứu được chia thành 3 chương chính như sau:
Chương 1: Tổng quan đề tài
Chương 2: Các công trình liên quan
Chương 3: Thuật toán đề xuất
Chương 4: Mô hình học kết hợp đề xuất
Chương 5: Xây dựng ứng dụng dự báo khách hàng rời mạng với tập dữ liệu ở VNPT tây ninh
TỔNG QUAN VỀ ĐỀ TÀI NGHIÊN CỨU
Tổng quan về mạng viễn thông và thuê bao
Mạng viễn thông, theo Robert K Morrow trong tác phẩm của ông trên Encyclopaedia Britannica (2023), là một hệ thống điện tử bao gồm các liên kết và công tắc, cùng với các điều khiển điều hành hoạt động của chúng, cho phép trao đổi và chuyển dữ liệu giữa nhiều người dùng Khi nhiều người dùng của các phương tiện viễn thông muốn giao tiếp với nhau, họ phải được tổ chức thành một dạng mạng nào đó Trong lý thuyết, mỗi người dùng có thể được cung cấp một liên kết trực tiếp từng điểm với tất cả người dùng khác trong một cấu trúc được gọi là kết nối đầy đủ (tương tự như những kết nối được sử dụng trong những ngày đầu của điện thoại), nhưng trên thực tế, phương pháp này là không thực tế và tốn kém - đặc biệt là đối với một mạng lớn và phân tán Hơn nữa, phương pháp này không hiệu quả, vì hầu hết các liên kết sẽ không hoạt động vào bất kỳ thời điểm nào Các mạng viễn thông hiện đại tránh những vấn đề này bằng cách thiết lập một mạng liên kết của các công tắc, hoặc nút, sao cho mỗi người dùng được kết nối với một trong những nút Mỗi liên kết trong mạng như vậy được gọi là một kênh truyền thông Dây, cáp quang và sóng radio có thể được sử dụng cho các kênh truyền thông khác nhau
Bài viết "Top 6 công ty lĩnh vực viễn thông hàng đầu tại Việt Nam" của JobsGo, xuất bản năm 2023 đánh giá Mạng viễn thông là một trong những lĩnh vực quan trọng và phát triển nhanh chóng ở Việt Nam Nó bao gồm các dịch vụ như điện thoại, internet, truyền hình, bưu chính, công nghệ số, nội dung số, vệ tinh,… Mạng viễn thông góp phần nâng cao chất lượng cuộc sống, thúc đẩy kinh tế, giáo dục, y tế, văn hóa, an ninh và quốc phòng của đất nước Theo thống kê của Bộ Thông tin và Truyền thông, đến cuối năm 2022, Việt Nam có khoảng 140 triệu thuê bao di động, chiếm 143% dân số, và 16,3 triệu thuê bao cố định, chiếm 16,7% dân số Ngoài ra, Việt Nam cũng có 68,5 triệu thuê bao internet, chiếm 70,3% dân số, và 14,5 triệu thuê bao truyền hình, chiếm 14,9% dân số Đây là những con số ấn tượng, cho thấy sự phổ biến và tiềm năng của mạng viễn thông ở Việt Nam
Trong lĩnh vực này, có rất nhiều các công ty hoạt động, cạnh tranh và đóng góp cho sự phát triển của ngành Trong số đó, có 6 công ty lớn và nổi tiếng nhất, là Viettel, Mobifone, VNPT, FPT, SPT và HanoiTelecom Các công ty này đều có quy mô lớn, doanh thu cao, dịch vụ đa dạng, chất lượng tốt và uy tín trên thị trường Các công ty này cũng là những môi trường làm việc lý tưởng cho nhiều người lao động, với nhiều cơ hội thăng tiến, học hỏi và phát triển Viettel là công ty viễn thông lớn nhất Việt Nam [1], thuộc Tập đoàn công nghiệp – viễn thông Quân đội Viettel có mặt tại 63 tỉnh thành và 11 quốc gia, với hơn 110 triệu thuê bao Viettel cũng là công ty viễn thông duy nhất của Việt Nam có tên trong top 40 doanh nghiệp lớn nhất thế giới về số thuê bao và top 500 tập đoàn lớn nhất thế giới Mobifone là công ty viễn thông thứ hai lớn nhất Việt Nam, thuộc Tổng công ty Viễn thông Mobifone Mobifone có 9 công ty dịch vụ và 20 phòng ban, phủ sóng trên toàn quốc, với hơn 50 triệu thuê bao Mobifone là công ty viễn thông đầu tiên của Việt Nam triển khai dịch vụ 3G và 4G, cung cấp các dịch vụ giải trí, thanh toán, chăm sóc sức khỏe, v.v
VNPT là Tập đoàn Bưu chính Viễn thông Việt Nam, thuộc Bộ Thông tin và Truyền thông [1] VNPT có 2 thương hiệu lớn là Vinaphone và MobiFone, với hơn
80 triệu thuê bao VNPT cũng là đơn vị duy nhất của Việt Nam sở hữu và vận hành
2 vệ tinh lớn nhất là Vinasat 1 và 2 FPT là Tập đoàn Công nghệ FPT, là công ty công nghệ hàng đầu Việt Nam [1] FPT có hơn 200 văn phòng và 7 nghìn nhân viên, hoạt động tại 33 quốc gia, với doanh thu hơn 2 tỷ USD [1] FPT cung cấp các dịch vụ viễn thông, công nghệ thông tin, giáo dục, truyền thông, v.v SPT là Công ty CP Dịch vụ Bưu chính Viễn thông Sài Gòn, thành lập năm 1995 SPT có nhiều chi nhánh và văn phòng trên cả nước, cung cấp các dịch vụ như chuyển phát, internet, bưu chính, công nghệ số, nội dung số, v.v HanoiTelecom là Công ty CP Viễn thông Hà Nội, thành lập năm 2001 HanoiTelecom có 16 công ty và đơn vị thành viên, nổi bật với đường truyền viba số băng sông SDH trên 4 nghìn km HanoiTelecom cung cấp các dịch vụ như điện thoại, internet, truyền hình, …
Trong “Báo cáo ngành viễn thông Việt Nam 2020 và dự báo 2021” Việt Nam [2] đã đạt được những bước tiến lớn trong ngành viễn thông, bao gồm việc sản xuất 70% các thiết bị viễn thông và hướng tới mục tiêu trở thành quốc gia dẫn đầu về sản xuất và xuất khẩu thiết bị viễn thông Sự phát triển của mạng 3G từ năm 2009 và mạng 4G từ năm 2016, cũng như việc thử nghiệm mạng 5G từ năm 2019, đã đưa Việt Nam trở thành một trong những quốc gia triển khai 5G sớm nhất trên thế giới Điều này phản ánh sự tăng trưởng và đổi mới liên tục trong ngành viễn thông Việt Nam Thị trường viễn thông truyền thống đang bão hòa, nhưng vẫn có tiềm năng đầu tư từ doanh nghiệp nước ngoài vào các lĩnh vực chưa phát triển tại Việt Nam Mặc khác, thị trường Internet băng thông rộng cố định tại Việt Nam đang có những bước phát triển vượt bậc, với số lượng thuê bao tăng mạnh Chính phủ Việt Nam đã ban hành
“Chương trình chuyển đổi số quốc gia”, nhấn mạnh vai trò quan trọng của hạ tầng số trong quá trình này và mục tiêu phổ cập dịch vụ mạng internet băng thông rộng cáp quang tới toàn dân Tuy nhiên, năm 2021 chứng kiến sự suy giảm trong lợi nhuận của các doanh nghiệp viễn thông, giảm 22,8% so với năm 2020 Điều này phản ánh sự thay đổi trong mô hình kinh doanh và cách tiếp cận thị trường của các doanh nghiệp trong ngành Thị trường viễn thông truyền thống tại Việt Nam được đánh giá là đã bão hòa, với số lượng thuê bao di động đạt khoảng 125.7 triệu vào năm 2019, tức là trung bình mỗi người dân sở hữu khoảng 1.30 thuê bao di động
Trang "Wireless Telecommunications" là một phần của "Telecommunications Industry: A Research Guide" do Thư viện Quốc hội Hoa Kỳ cung cấp thì về cơ bản, mạng viễn thông bao gồm hệ thống các thiết bị kết nối với nhau qua hệ thống trung gian để cho phép truyền thông giữa các thiết bị đầu cuối Các thiết bị cơ bản trong mạng viễn thông bao gồm modem, router, và switch chia mạng Modem chuyển đổi tín hiệu từ analog sang digital để các thiết bị điện tử có thể hiểu được, trong khi router là công cụ chia một dây mạng ra nhiều cổng khác nhau và switch chia mạng giúp định tuyến dữ liệu giữa các thiết bị trong mạng
Mạng viễn thông là một ngành quan trọng và phát triển mạnh ở Việt Nam, với nhiều công ty lớn và uy tín, cung cấp các dịch vụ đa dạng và chất lượng cho người dùng Các công ty này cũng là những nơi làm việc tốt cho nhiều người lao động, mang lại thu nhập và phúc lợi cao Ngành viễn thông Việt Nam đang chứng kiến sự thay đổi nhanh chóng, với cơ hội và thách thức mới mẻ Sự phát triển của công nghệ và thay đổi trong nhu cầu của người dùng sẽ tiếp tục hình thành tương lai của ngành này.
Tổng quan về hiện trạng thuê bao rời mạng viễn thông
VNPT, tên đầy đủ là Viễn thông Việt Nam [3], từ lâu đã được biết đến là một trong những "gã khổng lồ" trong ngành viễn thông tại Việt Nam Đặc biệt, VNPT tự hào khi trở thành nhà cung cấp dịch vụ viễn thông đầu tiên trên bộ đất hình chữ S này, bắt đầu gia nhập cuộc chơi từ cuối năm 1997 Những bước đi vững chắc và chiến lược phát triển sáng suốt đã giúp VNPT không chỉ mở rộng thị phần mà còn đứng vững trước sự cạnh tranh khốc liệt, đặc biệt là trong lĩnh vực cung cấp dịch vụ Internet tốc độ cao
Tuy nhiên, không có bất cứ một lĩnh vực kinh doanh nào luôn suôn sẻ, và VNPT cũng không ngoại lệ Gặp phải thách thức từ việc các nhà cung cấp khác liên tục tung ra các chương trình khuyến mãi hấp dẫn và đợt giảm giá sâu, VNPT đứng trước nguy cơ mất đi một lượng lớn khách hàng, khi họ quyết định chuyển sang các nhà cung cấp khác hứa hẹn giá rẻ hơn và dịch vụ tốt hơn Hậu quả của việc này không chỉ ảnh hưởng đến doanh thu mà còn gây khó khăn trong việc thu hồi vốn đầu tư Để tiếp cận và phát triển một khách hàng mới, VNPT phải chi trả một khoản đầu tư lớn, lên đến gần 3 triệu đồng, bao gồm chi phí phát triển khách hàng, đầu tư vào hệ thống cũng như các thiết bị đầu cuối Trong bối cảnh đó, chỉ số ARPU (Average Revenue Per User) - thu nhập trung bình từ mỗi người dùng - của họ chỉ đạt 180.000 đồng và vòng đời trung bình của mỗi khách hàng chỉ kéo dài khoảng 20 tháng Điều này nghĩa là mỗi khi một khách hàng quyết định rời mạng, VNPT chỉ có thể thu về được số vốn ban đầu mà không kèm theo bất cứ lợi nhuận nào Khi đưa vào tình huống có hàng trăm ngàn khách hàng rời mạng hàng năm, mức thiệt hại mà VNPT phải chịu sẽ không nhỏ
Hình 1 1 Tỉ trọng số lượng thuê bao chuyển mạng giữa các nhà mạng tháng 10 năm 2022, nguồn Bộ TT & TT [3].
Hình 1 2 Số lượng thuê bao chuyển mạng giữa các nhà mạng tháng 11 năm 2022, nguồn
Kết quả thực hiện dịch vụ MNP
TB Chuyển mạng TB bị từ chối TB đang xử lý Nhắn SMS hủy yêu cầu
Mobifone Vinaphone Viettel Vietnam Mobile Mobicast
Dịch chuyển thuê bao giữa các nhà mạng tháng 11/2022
Chuyển đến Chuyển đi Biến động thuê bao (Thuê bao)
Hình 1 3 Số lượng thuê bao từ chối chuyển mạng giữa các nhà mạng tháng 11 năm 2022, nguồn Bộ TT & TT.
Tổng quan dữ liệu lớn về khách hàng mạng viễn thông
Theo thống kê từ Cục Viễn thông thuộc Bộ Thông tin và Truyền thông [4], vào cuối năm 2021, Việt Nam đã ghi nhận 91,3 triệu thuê bao di động sử dụng smartphone Chỉ trong vòng ba tháng đầu năm 2022, con số này đã tăng thêm hơn 2 triệu, đưa tổng số thuê bao smartphone tại Việt Nam lên tới 93,5 triệu Cục Viễn thông ước tính rằng, khoảng 73,5% người trưởng thành tại Việt Nam hiện đang sử dụng smartphone
Báo cáo cập nhật năm 2022 [5] “Digital Payment Users in Vietnam 2017 -
2025” của Statista tiết lộ rằng, đến hết năm 2021, Việt Nam đã có khoảng 51,8 triệu người dùng thương mại điện tử Trong khi đó, nhà sản xuất thiết bị mạng nổi tiếng Cisco dự đoán rằng, với mức giá phải trả hợp lý và sự đa dạng, linh hoạt của các gói cước, cùng với chất lượng Internet ngày càng tốt hơn và khả năng sản xuất thiết bị 5G trong nước, số lượng thuê bao 5G tại Việt Nam có thể lên tới 6,3 triệu vào năm
2025 Điều này không chỉ giúp Việt Nam trở thành một trong những quốc gia có mức giá Internet rẻ nhất và phủ sóng rộng rãi trên thế giới, mà còn đưa nước ta lên vị trí thứ hai tại Đông Nam Á về tốc độ Internet di động
Mobifone Vinaphone Viettel Vietnam Mobile Mobicast
Từ chối thuê bao chuyển mạng 11/2022 Đăng ký chuyển đi Chuyển đi thành công Từ chối chuyển đi(Thuê
Báo cáo Sơ kết công tác 6 tháng đầu năm 2023 của Bộ Thông tin và Truyền thông [6] đã phác họa nên bức tranh sáng sủa, đầy màu sắc cho ngành viễn thông Việt Nam Trong nửa đầu năm, ngành viễn thông đã chứng kiến những bước tiến vượt bậc
Cụ thể, 77,1% hộ gia đình đã được kết nối với dịch vụ cáp quang, tăng trưởng ấn tượng 5,7% so với năm 2022 và hoàn thành 91,8% mục tiêu kế hoạch năm nay Không chỉ vậy, tỷ lệ người dùng Internet đã đạt 78,59%, vượt xa mục tiêu 76% được đề ra trong kế hoạch năm 2023 Số lượng thuê bao băng rộng cố định tăng 8%, đạt 22,14 triệu và hoàn thành 88,6% kế hoạch, trong khi thuê bao băng rộng di động đạt 86,2 triệu, tăng 5,67% so với năm trước và đạt 95,2% kế hoạch năm 2023 Điện thoại di động thông minh cũng không nằm ngoài xu hướng tăng trưởng này, với số lượng thuê bao ước đạt 101,12 triệu, tăng 8,73% so với cùng kỳ năm 2022, khẳng định vị thế không thể thay thế trong cuộc sống hàng ngày của người dân.
Tổng quan về mô hình dự báo học kết hợp
Phương pháp học kết hợp 2 là một kỹ thuật quan trọng trong học máy, nhằm cải thiện độ chính xác và độ tin cậy của các mô hình bằng cách kết hợp nhiều mô hình khác nhau Ý tưởng đằng sau là tạo ra một "ủy ban" các mô hình làm việc cùng nhau để đưa ra dự đoán chính xác hơn so với một mô hình đơn lẻ Lý do cần sử dụng các phương pháp tập hợp là vì không có mô hình nào là hoàn hảo, mỗi mô hình đều có nhược điểm và sai lệch riêng Bằng cách kết hợp các mô hình, chúng ta có thể giảm thiểu các lỗi và sai lệch đó, từ đó nâng cao độ chính xác của dự đoán tổng thể Ứng dụng của phương pháp tập hợp rất đa dạng trong nhiều lĩnh vực công nghiệp Chẳng hạn, trong tài chính, chúng có thể được sử dụng để phát hiện gian lận; trong chăm sóc sức khỏe, chúng có thể giúp chẩn đoán bệnh và dự đoán kết quả của bệnh nhân; và trong tiếp thị, chúng có thể giúp xác định khách hàng tiềm năng và tối ưu hóa chiến lược quảng cáo
Hiện nay, các phương pháp học kết hợp đang là đối tượng nghiên cứu chính trong lĩnh vực học máy Chúng được áp dụng rộng rãi để cải thiện hiệu suất của nhiều
2 https://www.linkedin.com/pulse/ensemble-methods-practice-combining-strengths-multiple-pandey/ loại mô hình khác nhau, từ cây quyết định đến mạng nơ-ron và mô hình học sâu Với lượng dữ liệu ngày càng lớn, vai trò của các phương pháp tập hợp sẽ ngày càng trở nên quan trọng trong tương lai
Cách các phương pháp học kết hợp hoạt động bao gồm các giai đoạn sau:
1- Đào tạo mẫu: Bắt đầu với việc đào tạo nhiều mô hình cơ sở trên cùng một tập dữ liệu đào tạo, sử dụng các thuật toán, kiến trúc hoặc siêu tham số khác nhau Các mô hình có thể đồng nhất (cùng thuật toán) hoặc không đồng nhất (các thuật toán khác nhau)
2- Tạo dự đoán: Sử dụng các mô hình đã được đào tạo để tạo ra các dự đoán trên tập dữ liệu thử nghiệm Mỗi mô hình tạo ra một tập hợp các dự đoán, và những dự đoán này được kết hợp để tạo ra dự đoán tổng thể
3- Lựa chọn phương pháp tổng hợp: Chọn phương pháp tổng hợp phù hợp để kết hợp các dự đoán của các mô hình cơ sở Các phương pháp phổ biến bao gồm đóng bao, tăng cường và xếp chồng
- Đóng bao: Đào tạo nhiều mô hình cơ sở trên các mẫu con khác nhau của dữ liệu đào tạo và tính trung bình các dự đoán của chúng Giúp giảm phương sai của dự đoán và cải thiện độ chính xác tổng thể
- Tăng cường: Huấn luyện nhiều mô hình cơ sở một cách tuần tự, trong đó mỗi mô hình tập trung vào các lỗi của các mô hình trước đó Dự đoán của các mô hình cơ sở được kết hợp bằng cách sử dụng bình quân hoặc biểu quyết đa số
- Xếp chồng: Huấn luyện một siêu mô hình dựa trên các dự đoán của các mô hình cơ sở Siêu mô hình sử dụng các dự đoán này làm đầu vào và tạo ra dự đoán cuối cùng
4- Đánh giá mô hình học kết hợp: Cuối cùng, đánh giá hiệu suất của mô hình tập hợp trên dữ liệu thử nghiệm bằng các số liệu đánh giá như độ chính xác, độ chính xác, khả năng thu hồi và điểm F1
Trong các phương pháp học kết hợp, có một số thuật toán phổ biến được sử dụng để kết hợp dự đoán của các mô hình khác nhau và cải thiện hiệu suất tổng thể của hệ thống Dưới đây là một số thuật toán phổ biến nhất:
Rừng Ngẫu Nhiên (Random Forest): Kết hợp các dự đoán từ nhiều cây quyết định để cải thiện độ chính xác của mô hình phân loại hoặc hồi quy
- Tăng Cường Độ Dốc (Gradient Boosting): Kết hợp nhiều mô hình yếu thành một mô hình mạnh bằng cách huấn luyện tuần tự từng mô hình mới để sửa lỗi của mô hình trước đó
- AdaBoost: Gán trọng số cho từng điểm dữ liệu và huấn luyện lặp lại các mô hình yếu để tập trung vào các điểm dữ liệu đã bị phân loại sai trong các lần lặp trước
- XGBoost: Một triển khai có thể mở rộng của thuật toán tăng cường độ dốc, được tối ưu hóa về tốc độ và hiệu quả
- Xếp Chồng (Stacking): Kết hợp các dự đoán của nhiều mô hình bằng cách huấn luyện một mô hình cấp cao hơn để đưa ra dự đoán dựa trên đầu ra của các mô hình cấp thấp hơn
- Đóng Bao (Bootstrap Aggregating): Kết hợp các dự đoán của nhiều mô hình bằng cách huấn luyện từng mô hình trên một tập hợp con được chọn ngẫu nhiên của dữ liệu huấn luyện
Lựa chọn thuật toán phụ thuộc vào yêu cầu cụ thể của bài toán, đặc điểm của tập dữ liệu và tài nguyên tính toán có sẵn
CÁC CÔNG TRÌNH LIÊN QUAN
Các công trình liên quan trên thế giới
Theo nghiên cứu của Liu, L., & Chen, R.-C [8] học sâu đã được ứng dụng thành công trong nhiều lĩnh vực và đạt được những kết quả đáng kinh ngạc Trong khi đó, dữ liệu lớn đã cách mạng hóa ngành vận tải trong vài năm qua Hai chủ đề nóng hổi này đã truyền cảm hứng cho nhóm tác giả xem xét lại vấn đề truyền thống về dự báo lưu lượng hành khách Là một cấu trúc đặc biệt của mạng nơ-ron sâu (DNN), bộ mã hóa tự động có thể trích xuất sâu và trừu tượng các tính năng phi tuyến tính được nhúng trong đầu vào mà không cần bất kỳ nhãn nào Bằng cách khai thác các khả năng vượt trội của nó, một mô hình dự báo lưu lượng hành khách hàng giờ mới sử dụng các phương pháp học sâu được đề xuất trong bài báo này Các tính năng tạm thời bao gồm ngày trong tuần, giờ trong ngày và ngày lễ, các tính năng kịch bản bao gồm lượt đến và lượt đi, vé và thẻ, và các tính năng luồng hành khách bao gồm luồng hành khách trung bình trước đó và luồng hành khách thời gian thực, là được định nghĩa là các tính năng đầu vào Các tính năng này được kết hợp và đào tạo dưới dạng các bộ mã hóa tự động xếp chồng (SAE) khác nhau trong giai đoạn đầu tiên Sau đó, SAE được đào tạo trước sẽ tiếp tục được sử dụng để khởi tạo DNN được giám sát với luồng hành khách theo thời gian thực dưới dạng dữ liệu nhãn trong giai đoạn thứ hai Mô hình kết hợp (SAE-DNN) được áp dụng và đánh giá với một nghiên cứu điển hình về dự báo lưu lượng hành khách cho bốn trạm xe buýt nhanh (BRT) của Hạ Môn (Thành phố Hạ Môn thuộc tỉnh Phúc Kiến, Trung Quốc) trong giai đoạn thứ ba Kết quả thực nghiệm cho thấy phương pháp đề xuất có khả năng cung cấp mô hình dự báo lưu lượng hành khách phổ quát và chính xác hơn cho các trạm BRT khác nhau với các cấu hình lưu lượng hành khách khác nhau
Theo [9], các nguồn thu nhập truyền thống, thoại và SMS của các nhà khai thác viễn thông (telcos) đang bị thu hẹp do khách hàng sử dụng các ứng dụng vượt trội (OTT) như WhatsApp hoặc Viber Trong môi trường đầy thách thức này, điều quan trọng đối với các công ty viễn thông là duy trì hoặc tăng thị phần của họ bằng cách cung cấp cho người dùng trải nghiệm tốt nhất có thể trên mạng của họ Nhưng nhiệm vụ trích xuất thông tin chi tiết về khách hàng từ lượng dữ liệu khổng lồ do các công ty viễn thông thu thập đang ngày càng phức tạp và quy mô hơn Làm cách nào chúng ta có thể đo lường và dự báo chất lượng trải nghiệm của người dùng trên mạng viễn thông trong thời gian thực? Đó là vấn đề mà nhóm tác giả giải quyết trong bài viết này Các tác giả trình bày một cách tiếp cận để nắm bắt, trong (gần) thời gian thực, trải nghiệm của khách hàng trên thiết bị di động nhằm đánh giá điều kiện nào khiến người dùng thực hiện cuộc gọi đến trung tâm chăm sóc khách hàng của công ty viễn thông Để đạt được mục tiêu này, nhóm tác giả tuân theo phương pháp học có giám sát để dự báo và huấn luyện mô hình Rừng ngẫu nhiên bị hạn chế bằng cách sử dụng, như một đại diện cho trải nghiệm tồi tệ, các giao dịch khách hàng được quan sát trong nguồn cấp dữ liệu viễn thông trước khi người dùng thực hiện cuộc gọi đến trung tâm chăm sóc khách hàng Các tác giả đánh giá cách tiếp cận của mình bằng cách sử dụng bộ dữ liệu phong phú do một công ty viễn thông lớn của châu Phi cung cấp và một kiến trúc dữ liệu lớn mới cho cả việc đào tạo và chấm điểm các mô hình dự báo Nghiên cứu thực nghiệm của nhóm tác giả cho thấy giải pháp đề xuất có hiệu quả trong việc dự báo trải nghiệm người dùng bằng cách suy luận liệu khách hàng có thực hiện cuộc gọi dựa trên bối cảnh hiện tại của họ hay không Những kết quả đầy hứa hẹn này mở ra những khả năng mới để cải thiện dịch vụ khách hàng, điều này sẽ giúp các công ty viễn thông giảm tỷ lệ rời bỏ và cải thiện trải nghiệm của khách hàng, cả hai yếu tố ảnh hưởng trực tiếp đến tăng trưởng doanh thu của họ
Dự báo lưu lượng di động không dây [10] là một vấn đề quan trọng đối với các nhà nghiên cứu và thực hành trong lĩnh vực 5G/B5G Tuy nhiên, đây là một thách thức rất lớn vì lưu lượng di động không dây thường có tính chất phi tuyến tính cao và các mẫu phức tạp Hầu hết các phương pháp dự báo lưu lượng di động không dây hiện có, thiếu khả năng mô hình hóa các mối tương quan không gian-thời gian động của dữ liệu lưu lượng di động không dây, do đó không thể mang lại kết quả dự báo thỏa đáng Để cải thiện độ chính xác của dự báo lưu lượng mạng di động 5G/B5G, nhiều dữ liệu miền chéo hơn đã được xem xét, chiến lược học chuyển giao kết hợp giữa các dịch vụ và khu vực (Chuyển giao hợp nhất) dựa trên mô hình mạng thần kinh miền chéo không gian-thời gian (STC) -N) đã được đề xuất Nhiều bộ dữ liệu tên miền chéo đã được tích hợp Độ chính xác đào tạo của miền dịch vụ đích dựa trên các đặc điểm dữ liệu của miền dịch vụ nguồn theo sự giống nhau giữa các dịch vụ và sự giống nhau giữa các vùng khác nhau đã được cải thiện, do đó hiệu suất dự báo của mô hình được nâng cao Kết quả thử nghiệm của bài báo cho thấy độ chính xác dự báo của mô hình dự báo lưu lượng được cải thiện đáng kể sau khi tích hợp nhiều bộ dữ liệu tên miền chéo, hiệu suất RMSE của dịch vụ SMS, Cuộc gọi và Internet có thể được cải thiện lần lượt khoảng 8,39%, 13,76% và 5,7% Ngoài ra, so với chiến lược chuyển nhượng hiện tại, RMSE của ba dịch vụ có thể được cải thiện khoảng 2,48%∼13,19% Những kết quả đầy hứa hẹn này mở ra những khả năng mới để cải thiện dịch vụ khách hàng, điều này sẽ giúp các công ty viễn thông giảm tỷ lệ rời bỏ và cải thiện trải nghiệm của khách hàng, cả hai yếu tố ảnh hưởng trực tiếp đến tăng trưởng doanh thu của họ
Một nghiên cứu của Milorad K Banjanin và cộng sự [11], với mục tiêu chính là tạo ra một mô hình thích ứng dựa trên perceptron đa lớp (MLP) để dự báo thông lượng dữ liệu đường xuống (DL) trung bình trên mỗi người dùng và thông lượng dữ liệu DL trung bình trên mỗi ô trong công nghệ mạng LTE và trong một không gian địa lý mà bao gồm một đoạn của Xa lộ 9 Tháng Giêng (một con đường quan trọng ở
Republika Srpska, nằm ở phía bắc của Bosnia và Herzegovina) với các đường vào Độ chính xác của dự báo mô hình được ước tính dựa trên sai số tương đối (RE) Với nhiều khóa đào tạo và thử nghiệm 30 biến thể khác nhau của mô hình MLP, với các siêu tham số khác nhau, mô hình cuối cùng đã được chọn với độ chính xác trung bình cho biến Thông lượng trung bình của đường xuống di động là 89,6% (RE = 0,104), trong khi đối với biến Thông lượng trung bình của đường xuống người dùng là độ chính xác trung bình là 88% (RE = 0,120) Nếu quan sát hệ số xác định, kết quả cho thấy độ chính xác của mô hình dự báo được lựa chọn tốt nhất cho biến phụ thuộc thứ nhất cao hơn 1,4% so với độ chính xác của mô hình dự báo được lựa chọn cho biến phụ thuộc thứ hai Ngoài ra, kết quả cho thấy hiệu suất của mô hình thông qua thông số R 2 (R-Squared) tốt hơn đáng kể so với mô hình hồi quy tuyến tính bội (MLR) tham chiếu được sử dụng
Theo nghiên cứu của Tianpei Xu,Ying Ma và Kangchul Kim [12], thị trường viễn thông có tính cạnh tranh rất cao Chi phí để giữ chân khách hàng viễn thông hiện tại thấp hơn so với việc thu hút khách hàng mới Điều cần thiết là một công ty viễn thông phải hiểu được sự thay đổi của khách hàng thông qua quản lý quan hệ khách hàng (CRM) Do đó, máy phân tích CRM được yêu cầu phải dự báo khách hàng nào sẽ rời bỏ Nghiên cứu này đề xuất một hệ thống dự báo tỷ lệ rời bỏ của khách hàng sử dụng kỹ thuật học tập tổng hợp bao gồm các mô hình xếp chồng và bỏ phiếu mềm Các thuật tốn XgBoost, hồi quy logistic, Cây quyết định và máy học Nạve Bayes được chọn để xây dựng mô hình xếp chồng với hai cấp độ và ba đầu ra của cấp độ thứ hai được sử dụng để bỏ phiếu Việc xây dựng tính năng của tập dữ liệu khách hàng rời mạng bao gồm việc nhóm các đặc điểm hành vi của khách hàng cách đều nhau để mở rộng không gian của các tính năng và khám phá thông tin tiềm ẩn từ tập dữ liệu rời đi Các bộ dữ liệu khách hàng rời mạng ban đầu và mới được phân tích trong mô hình tập hợp xếp chồng với bốn chỉ số đánh giá Kết quả thử nghiệm của nhóm tác giả cho thấy các dự báo tỷ lệ rời bỏ khách hàng được đề xuất có độ chính xác lần lượt là 96,12% và 98,09% đối với bộ dữ liệu tỷ lệ rời mạng ban đầu và mới Những kết quả này tốt hơn các hệ thống nhận dạng khách hàng rời mạng
Theo nghiên cứu của by Matthias Bogaert và Lex Delaere [13], một số phân loại đơn lẻ, các nhóm đồng nhất và không đồng nhất đã được đề xuất để phát hiện những khách hàng có nhiều khả năng rời mạng nhất Bất chấp sự phổ biến và độ chính xác của các tập hợp không đồng nhất trong các lĩnh vực khác nhau, các mô hình dự báo tỷ lệ rời mạng của khách hàng vẫn chưa được áp dụng Hơn nữa, còn có những phát triển khác về mức độ đánh giá hiệu quả hoạt động và so sánh mô hình chưa được đưa vào một cách có hệ thống Do đó, mục đích của nghiên cứu này là thực hiện một nghiên cứu tiêu chuẩn quy mô lớn về dự báo tỷ lệ khách hàng rời mạng bằng cách áp dụng các phương pháp mới này Để làm như vậy, bài báo đánh giá 33 bộ phân loại, bao gồm 6 bộ phân loại đơn lẻ, 14 bộ phân loại đồng nhất và 13 bộ phân loại không đồng nhất trên 11 bộ dữ liệu Phát hiện của nhóm tác giả chỉ ra rằng các nhóm không đồng nhất luôn được xếp hạng cao hơn các nhóm đồng nhất và các phân loại đơn lẻ Kết quả quan sát thấy rằng một tập hợp không đồng nhất với lựa chọn phân loại ủ mô phỏng được xếp hạng cao nhất về AUC và lợi nhuận tối đa dự kiến Để có độ chính xác, tham số đo độ chính xác F1 và mức tăng thập phân vị trên cùng, một tập hợp không đồng nhất được tối ưu hóa bằng khả năng nhị thức không âm và một tập hợp không đồng nhất xếp chồng tương ứng là các phân loại được xếp hạng hàng đầu Nghiên cứu này ý nghĩa là nghiên cứu đầu tiên đưa một bộ phân loại, số liệu hiệu suất và kiểm tra thống kê phong phú như vậy vào một nghiên cứu tiêu chuẩn về tỷ lệ khách hàng rời mạng
Một nghiên cứu của Mohamed Massaoudi và cộng sự [14] đề xuất một khung tính toán hiệu quả cho Dự báo phụ tải ngắn hạn (STLF) Kỹ thuật đề xuất xử lý các biến đổi ngẫu nhiên của nhu cầu phụ tải bằng cách sử dụng phương pháp tổng quát hóa xếp chồng Cách tiếp cận này kết hợp ba mô hình, đó là Máy tăng cường độ dốc ánh sáng (LGBM), máy tăng cường độ dốc eXtreme (XGB) và Perceptron nhiều lớp (MLP) Cơ chế bên trong của mô hình XGB-LGBM-MLP xếp chồng bao gồm việc tạo siêu dữ liệu từ các mô hình XGB và LGBM để tính toán các dự báo cuối cùng bằng mạng MLP Hiệu suất của mô hình XGB-LGBM-MLP xếp chồng được đề xuất được xác thực bằng cách sử dụng hai bộ dữ liệu từ các địa điểm khác nhau: Malaysia và New England Bốn đóng góp đáng chú ý được các tác giả làm bật lên, trong đó nổi bật là cách tiếp cận tổng thể Việc xác thực trên các bộ dữ liệu từ Malaysia và New England cho thấy mức độ phù hợp tiềm năng toàn cầu của mô hình Tuy nhiên, những hiểu biết sâu sắc hơn về những thách thức của các biến đổi ngẫu nhiên, đề cập rõ ràng hơn về các kỹ thuật tối ưu hóa siêu tham số và kết quả định lượng sẽ làm phong phú thêm cái nhìn tổng quan Nhìn chung, bài nghiên cứu có nhiều hướng mới và nghiên cứu kỹ lưỡng về STLF, thu hút sự quan tâm của các chuyên gia
Bài nghiên cứu của E Diaz-Aviles [15] nêu một giải pháp tiềm năng cho telcos trong việc đối mặt với sự suy giảm doanh thu truyền thống và quan trọng của việc cải thiện trải nghiệm người dùng trên mạng Phương pháp đề xuất sử dụng học có giám sát và mô hình Rừng ngẫu nhiên để dự đoán trải nghiệm xấu của người dùng, dựa trên dữ liệu khách hàng từ một công ty viễn thông lớn ở Châu Phi Kết quả thử nghiệm cho thấy giải pháp này hiệu quả trong dự đoán hành vi người dùng và mở ra khả năng cải thiện dịch vụ khách hàng, giảm tỷ lệ rời bỏ và tăng doanh thu Tuy nhiên, cần xem xét các chi tiết phương pháp, đánh giá mô hình và hạn chế tiềm ẩn để tối ưu hóa hiệu suất của giải pháp
Theo nhóm tác giả S A Qureshi [16] thì trong thị trường di động đầy cạnh tranh, việc giữ chân khách hàng trở nên quan trọng hơn việc thu hút khách hàng mới Để dự đoán khách hàng sẽ rời bỏ, các phương pháp khai thác dữ liệu như phân tích hồi quy, Cây quyết định và Mạng thần kinh nhân tạo đã được áp dụng Sử dụng dữ liệu từ trang web DNA khách hàng, nghiên cứu này tập trung vào việc xác định mẫu dựa trên hành vi và lịch sử sử dụng của họ Phương pháp lấy mẫu lại được sử dụng để xử lý vấn đề mất cân bằng lớp Kết quả cho thấy cây quyết định là thuật toán phân loại chính xác nhất trong việc dự đoán khách hàng có khả năng rời bỏ
Nghiên cứu của Q Zeng và cộng sự tập trung [17] vào vấn đề dự đoán lưu lượng di động không dây, đặc biệt là trong lĩnh vực 5G/B5G, một thách thức quan trọng đối với cả nghiên cứu và thực tiễn Các phương pháp hiện tại thường không đủ linh hoạt để mô hình hóa mối tương quan không gian-thời gian động của dữ liệu lưu lượng này, dẫn đến dự đoán không chính xác Để cải thiện điều này, bài viết đề xuất sử dụng nhiều dữ liệu tên miền chéo hơn và chiến lược học chuyển giao hợp nhất khu vực và dịch vụ chéo Mô hình mạng thần kinh xuyên miền không gian-thời gian (STC- N) được đề xuất để tích hợp dữ liệu từ nhiều miền khác nhau Kết quả thử nghiệm cho thấy sự cải thiện đáng kể trong độ chính xác của dự đoán lưu lượng, với tăng cường đáng kể về hiệu suất so với chiến lược chuyển nhượng hiện tại Điều này có thể góp phần quan trọng trong việc cải thiện quản lý và triển khai các mạng di động 5G/B5G trong tương lai
Bài báo của P Kaushik và cộng sự [18] tập trung vào việc triển khai mạng lưới thần kinh sâu để phân tích và dự đoán dữ liệu lớn về hoạt động viễn thông từ
Telecom Italia Sử dụng thư viện deep learning Tensorflow, mô hình được xây dựng và tối ưu hóa bằng trình tối ưu hóa Adam Mô hình sử dụng dữ liệu thử nghiệm để tạo dự đoán, với hiệu suất đạt được 98,6-99,8% Các API cấp cao và cấp trung của Tensorflow hỗ trợ quá trình triển khai mạng thần kinh, giúp tạo ra một hệ thống hiệu quả cho việc phân tích dữ liệu viễn thông và tạo ra các dự đoán có độ chính xác cao
Bài nghiên cứu của J K Sana và cộng sự [19] tập trung vào việc giải quyết vấn đề khách hàng rời bỏ trong ngành viễn thông bằng cách sử dụng dữ liệu CRM và các mô hình học máy Nghiên cứu này đề xuất và đánh giá các mô hình dự đoán khách hàng rời bỏ, sử dụng kỹ thuật chuyển đổi dữ liệu và lựa chọn tính năng Việc tối ưu hóa các mô hình dự đoán được thực hiện bằng cách lựa chọn tính năng và siêu tham số tốt nhất Kết quả thử nghiệm trên nhiều bộ dữ liệu công khai cho thấy sự cải thiện đáng kể về hiệu suất của các mô hình, với tăng cường đặc biệt về mặt AUC và F- score Nghiên cứu này là một bước tiến quan trọng trong việc áp dụng các phương pháp hiện đại để dự đoán và giảm tỷ lệ rời bỏ khách hàng trong ngành viễn thông
Bài nghiên cứu của nhóm tác giả A K Ahmad, A Jafar, and K Aljoumaa [20] tập trung vào việc dự đoán khách hàng rời bỏ trong ngành viễn thông, với mô hình được phát triển và kiểm thử trên dữ liệu lớn từ công ty viễn thông SyriaTel Vấn đề này là một ưu tiên hàng đầu đối với các công ty lớn vì ảnh hưởng trực tiếp đến doanh thu Mô hình sử dụng các kỹ thuật máy học và tiến bộ, đạt được hiệu suất ấn tượng với giá trị AUC đạt 93,3% Một điểm đặc biệt là việc sử dụng mạng xã hội của khách hàng để cải thiện hiệu suất mô hình, đạt 93,3% so với tiêu chuẩn AUC Quá trình phát triển và thử nghiệm mô hình được thực hiện trên môi trường Spark với sự hỗ trợ từ các thuật toán như Cây quyết định, Rừng ngẫu nhiên, GBM và XGBOOST, trong đó XGBOOST cho kết quả tốt nhất Bài viết này không chỉ giới thiệu một phương pháp tiên tiến để dự đoán khách hàng rời bỏ mà còn làm rõ vai trò quan trọng của việc áp dụng các công nghệ mới như máy học và dữ liệu lớn trong việc giải quyết các thách thức kinh doanh trong ngành viễn thông
Các công trình liên quan ở Việt Nam
Dương Thị Hòa Bình [24] nghiên cứu xây dựng mô hình học sâu dự báo xu hướng giá chứng khoán, tìm hiểu và ứng dụng các mô hình học sâu vào thực tế Theo nhóm tác giả, cùng với sự phát triển của nền kinh tế thị trường, nhu cầu tăng thêm thu nhập của con người ngày càng cao Đối với tầng lớp lao động, đi làm thuê thì việc vươn lên tầng lớp doanh nhân, giàu có gần như là rất khó chỉ với nguồn thu nhập bị động ít ỏi Trong khi đó thị trường chứng khoán lại vô cùng năng động Bài nghiên cứu đã nghiên cứu về mô hình học sâu và áp dụng cho bài toán dự báo xu hướng giá chứng khoán Đề xuất được phương pháp đánh giá mô hình, phương pháp xây dựng tập dữ liệu và phương pháp kết hợp phân tích kỹ thuật với mô hình học sâu để cho ra kết quả tốt cho bài toán
Theo nghiên cứu của Quang Hung Do và cộng sự [25], dự báo chính xác lưu lượng dữ liệu trong mạng viễn thông là một nhiệm vụ đầy thách thức để quản lý mạng tốt hơn Nó thúc đẩy việc phân bổ nguồn lực năng động và quản lý năng lượng Nghiên cứu này sử dụng các mạng lưới thần kinh sâu bao gồm các kỹ thuật Bộ nhớ ngắn hạn dài (LSTM) và Đơn vị tái phát có kiểm soát (GRU) để dự báo trước một giờ về lưu lượng truy cập dự kiến và so sánh phương pháp này với các phương pháp khác bao gồm Hệ thống suy luận thần kinh mờ thích ứng (ANFIS), Mạng thần kinh nhân tạo (ANN) và Phương pháp xử lý dữ liệu nhóm (GMDH) Việc triển khai mạng nơ-ron sâu trong nghiên cứu này sẽ phân tích, đánh giá và tạo ra các dự báo dựa trên dữ liệu về hoạt động viễn thông cứ sau một giờ, liên tục trong một năm, do Viễn thông Việt Nam phát hành Các chỉ số hiệu suất bao gồm RMSE, MAPE, MAE, R và Theil’s U được sử dụng để so sánh giữa các mô hình đã phát triển Kết quả thu được cho thấy cả mô hình LSTM và GRU đều vượt trội so với mô hình ANFIS, ANN và GMDH Các kết quả nghiên cứu dự kiến sẽ cung cấp một công cụ hỗ trợ và dự báo cho các nhà khai thác mạng viễn thông Kết quả thử nghiệm cũng chỉ ra rằng mô hình đề xuất là hiệu quả và phù hợp để dự báo lưu lượng mạng trong thế giới thực
Bài báo của nhóm tác giả Vũ Văn Hiệu [26] đề xuất mô hình học kết hợp (Stacking) cho dự báo khách hàng rời bỏ dịch vụ của ngân hàng sử dụng mô hình học kết hợp gồm hai cấp: với cấp 0 gồm bốn mô hình cơ sở gồm K láng giềng gần nhất (KNN), XGBoost (XGB), rừng ngẫu nhiên (RDF) và máy hỗ trợ vector (SVM) và cấp 1 lần lượt gồm ba mô hình là hồi quy logistic (LR), mạng neural hồi quy (RNN) và mạng neural học sâu (DNN) Phương pháp của nhóm tác giả đã thu được kết quả tốt với các chỉ số accuracy là 95.36%, recall là 95.57%, precision là 95.45% và F1 score là 95.51%.
TẬP DỮ LIỆU NGHIÊN CỨU
Giới thiệu về tập dữ liệu khách hàng rời mạng viễn thông
Bộ dữ liệu thu thập được là thông tin thuê bao mạng có cáp quang của VNPT tỉnh Tây Ninh từ 2010 đến 2023 Bộ dữ liệu bao gồm 114.177 quan sát với 29 trường dữ liệu tương ứng như bảng sau:
Bảng 3 1 Cột dữ liệu trong tập dữ liệu thu thập được
2 NGANHNGHE Categorical object Tên ngành nghề
3 LOAIKH Categorical object Đối tượng khách hàng
5 NGAY_SN Ngày sinh khách hàng
ID khu vực sinh sống
8 KHUVUC Categorical object Khu vực sinh sống
9 KHDN Categorical int64 - 0: khách hàng cá nhân -1: khách hàng doanh nghiệp
10 MANGKHAC Categorical int64 - 0: khách hàng mới
-1: khách hàng từ mạng khác chuyển sang
11 SO_DV_KHAC Numeric int64 - Số dịch vụ khác của
VNPT khách hàng đang sử dụng ngoài dịch vụ FiberVNN (lấy tại thời điểm 30/06/2023)
12 GOI_DADV Categorical int64 - Sử dụng gói tích hợp hay không: là khách hàng có sử dụng các gói tích hợp (tivi, di động, …) hay không
(lấy trạng thái tại thời điểm 30/06/2023)
15 PL_KH_DT Categorical object Phân loại khách hàng theo doanh thu: Từ
50000 đến dưới 200000đ là loại C, từ
200000 đến dưới 500000đ là loại B, từ
A (Theo VB 955/QĐ- TTKD-TNH-ĐHNV ngày 13/06/2019
16 NOCUOC_2THANG Numeric int64 - Số tháng nợ cước: số tháng >= 2 tháng (tính từ tháng 06/2023 trở về trước)
Do tháng nợ cước có thể là những tháng trong quá khứ, không cố định nên không đưa thành cột được
17 TRATRUOC Categorical int64 - Đang thanh toán cước hàng tháng hay sử dụng gói trả trước nhiều tháng (lấy trạng thái tại thời điểm 30/06/2023)
1: Đã thanh toán trước cước 6 tháng, 12 tháng 0: thanh toán cước hàng tháng
Numeric int64 - Số tháng còn lại của gói trả trước đang sử dụng (lấy trạng thái tại thời điểm
19 SOLAN_BAOHONG Numeric int64 - Số lần báo hỏng: Số lần thuê bao báo hỏng do sự cố (đứt cáp, không tín hiệu, mạng chập chờn …) (số lần báo hỏng trong 6 tháng gần nhất
20 SOLAN_GOI_KIEM Numeric int64 - Số lần gọi kiểm: Số lần bộ phận Chăm sóc khách hàng thực hiện gọi kiểm để khảo sát dịch vụ đường truyền trong việc Lắp đặt và Sửa chữa (số lần gọi kiểm trong các tháng 01,02,03,04,05,06/20 23)
21 SOLAN_GOI_KIEM_HL Numeric int64 - Số lần gọi kiểm hài lòng: Số lần khách hàng trả lời hài lòng khi được gọi kiểm (số lần gọi kiểm hài lòng trong các tháng 01,02,03,04,05,06/20 23)
22 SOLAN_GOI_KIEM_KHL Numeric int64 - Số lần gọi kiểm không hài lòng: Số lần khách hàng trả lời hài không lòng khi được gọi kiểm (số lần gọi kiểm không hài trong các tháng
23 SOLAN_TAMNGUNG Numeric int64 - Số lần tạm ngưng: Số lần khách hàng xin tạm ngưng hoặc bị tạm ngưng sử dụng dịch vụ (do yêu cầu hoặc nợ cước …)(số lần tạm ngưng dịch vụ trong 3 tháng gần nhất 04,05,06/2023)
24 THANG_SD Numeric int64 - Số tháng sử dụng:
Tuổi đời sử dụng dịch vụ của khách hàng (chốt tại thời điểm 30/06/2023)
25 KO_PSLL Categorical int64 - Không phát sinh lưu lượng: thuê bao không phát sinh lưu lượng 5 ngày trong 3 tháng gần nhất
Nhà mạng ghi nhận khách hàng không phát sinh lưu lượng sử dụng 5 ngày liên tiếp (do hư modem, đi vắng, cắt điện, …) để thực hiện kiểm tra chất lượng dịch vụ
26 SOLAN_GIAHAN Numeric int64 - Số lần gia hạn đặt cọc: Số lần thuê bao thực hiện gia hạn đặt cọc trả trước khi hết tiền đặt cọc (chốt tại thời điểm
28 TRANGTHAITB_ID Categorical Int64 - ID trạng thái của thuê bao (chốt tại thời điểm 30/06/2023)
29 THANHLY Categorical int64 Thanh lý (Churn):
Trạng thái thuê bao còn sử dụng hoặc thanh lý (trạng thái xác định tại thời điểm 30/09/2023
Sau khi xử lý dữ liệu, bỏ đi các cột không cần thiết ['NGANHNGHE', 'NGAY_SN', 'KHUVUC','LOAIKH','GOICUOC','TRANGTHAITB_ID'] ta có thống kê mô tả như sau:
Bảng 3 2 Thống kê mô tả tập dữ liệu thu thập được
Count\ unique top freq mean std min 25% 50% 75% max NGANHNGHE_
KHUVUC_ID 114176.0 NaN NaN NaN 562.548574 60.570741 495.0 526.0 549.0 579.0 740.0
LOAIKH_ID 114177.0 NaN NaN NaN 3.561803 11.858337 0.0 1.0 1.0 1.0 87.0
NaN NaN NaN NaN NaN NaN NaN
SO_DV_KHAC 114177.0 NaN NaN NaN 0.744029 0.76983 0.0 0.0 1.0 1.0 12.0
GOI_DADV 114177.0 NaN NaN NaN 0.496956 0.499993 0.0 0.0 0.0 1.0 1.0
THANG_SD 114177.0 NaN NaN NaN 55.236396 36.009407 0.0 24.0 54.0 83.0 258.0
KO_PSLL 114177.0 NaN NaN NaN 0.00684 0.089846 0.0 0.0 0.0 0.0 3.0
114177 4 Hoạt động bình thườ ng
NaN NaN NaN NaN NaN NaN NaN
Count: Số lượng quan sát
Top: Nhóm xuất hiện nhiều nhất
Freq: Tần suất xuất hiện
Mean : Giá trị trung bình
Min: Giá trị nhỏ nhất
Max: Giá trị lớn nhất
Ta thấy phân bố dữ liệu cột nhãn [THANHLY] như sau:
Ta thấy phân bố dữ liệu cột nhãn [TRANGTHAI_TB] như sau:
Phân tích tập dữ liệu khách hàng rời mạng viễn thông
Ta khảo sát phân bổ ngành nghề kinh doanh và loại khách hàng doanh nghiệp như sau:
Hình 3 1 Phân bố ngành nghề và loại khách hàng trong tập dữ liệu
Theo hình 3.1, tập dữ liệu này cho thấy phân bố tỷ lệ ngành nghề kinh doanh của khách hàng viễn thông Các ngành nghề chủ đạo bao gồm khai khoáng (38.11%), xăng dầu và khí đốt (27.86%), và hoạt động dịch vụ khác (20.33%) Các ngành nghề khác như nông nghiệp, lâm nghiệp và thuỷ sản, khách sạn, bán buôn và bán lẻ cũng chiếm một tỷ lệ nhất định, nhưng thấp hơn so với các ngành nghề chính Điều này cho thấy một sự đa dạng trong việc sử dụng dịch vụ viễn thông trong các lĩnh vực kinh doanh khác nhau Bên cạnh đó, tỉ lệ khách hàng doanh nghiệp cho thấy rằng phần lớn khách hàng trong tập dữ liệu không phải là doanh nghiệp, chiếm khoảng 94.32% Điều này có thể ngụ ý rằng dịch vụ viễn thông chủ yếu được sử dụng bởi các cá nhân hoặc hộ gia đình Trong khi đó, chỉ có khoảng 5.68% khách hàng được phân loại là doanh nghiệp, cho thấy một tỷ lệ thấp hơn đáng kể so với khách hàng cá nhân Điều này có thể gợi ý về cơ hội mở rộng hoặc phát triển thêm các gói sản phẩm hoặc dịch vụ dành cho doanh nghiệp để tăng cường doanh số và mở rộng thị trường
Hình 3 2 Phân bố phân loại khách hàng theo doanh thu và mạng khác trong tập dữ liệu
Theo hình 3.2, Tỉ lệ khách hàng mới (90.92%) chiếm đa số trong tập dữ liệu, trong khi chỉ có một tỷ lệ nhỏ (9.08%) là khách hàng chuyển từ mạng khác Điều này có thể cho thấy rằng công ty đang có chiến lược tập trung vào việc thu hút và giữ chân khách hàng mới hơn là chiến lược chuyển đổi khách hàng từ các đối thủ cạnh tranh Điều này có thể đòi hỏi các chiến lược tiếp thị và chăm sóc khách hàng khác nhau để duy trì và phát triển cơ sở khách hàng Ngoài ra, phân loại khách hàng theo doanh thu tháng,cho thấy phần lớn khách hàng (89.80%) thuộc vào loại C (doanh thu thấp), trong khi chỉ có một phần nhỏ (1.55%) thuộc loại A (doanh thu cao) Điều này có thể ngụ ý rằng hầu hết khách hàng trong tập dữ liệu có mức chi tiêu thấp và doanh thu từ việc sử dụng dịch vụ viễn thông không quá cao Để tăng doanh thu và cải thiện lợi nhuận, có thể cần phát triển các chiến lược để thu hút và giữ chân khách hàng có doanh thu cao hơn.
Hình 3 3 Phân bố trả trước và không phát sinh lưu lượng trong tập dữ liệu
Hình 3.3 cho thấy hơn một phần tư (73.31%) khách hàng trong tập dữ liệu thanh toán cước hàng tháng, trong khi khoảng một phần tư nhỏ (26.69%) đã chọn thanh toán trước cước trong khoảng 6 tháng hoặc 12 tháng Điều này có thể phản ánh sự đa dạng trong cách khách hàng quản lý chi phí viễn thông của họ Các gói thanh toán trước có thể hấp dẫn với một phần khách hàng mong muốn tiết kiệm và ổn định chi phí trong thời gian dài, trong khi người khác có thể ưa thích sự linh hoạt của việc thanh toán hàng tháng Ngoài ra, tỉ lệ không phát sinh lưu lượng cho thấy hơn 99% khách hàng trong tập dữ liệu phát sinh lưu lượng trong 5 ngày liên tiếp trong 3 tháng gần nhất Chỉ có một tỷ lệ nhỏ (khoảng 0.57%) của khách hàng không phát sinh lưu lượng Điều này có thể ngụ ý rằng hầu hết khách hàng duy trì hoạt động thông thường và sử dụng dịch vụ viễn thông một cách liên tục, trong khi một số nhỏ gặp phải các tình huống đặc biệt như hư modem hoặc đi vắng
Hình 3 4 Phân bố trạng thái thuê bao và gói sử dụng tích hợp trong tập dữ liệu
Hình 3.4 là tỉ lệ trạng thái của thuê bao, cho thấy phần lớn khách hàng (98.17%) đang hoạt động bình thường, chỉ có một phần nhỏ (khoảng 1.27%) bị khoá
2 chiều do nợ cước và một tỷ lệ nhỏ (0.54%) tạm dừng sử dụng dịch vụ Cũng có một tỷ lệ rất nhỏ (0.02%) bị đình chỉ hoạt động do việc đổi số hoặc tài khoản Điều này cho thấy hầu hết khách hàng đang sử dụng dịch vụ một cách bình thường, trong khi một số nhỏ gặp phải các vấn đề liên quan đến thanh toán cước hoặc thay đổi thông tin thuê bao Ngoài ra, Tỉ lệ khách hàng sử dụng dịch vụ tích hợp cho thấy sự phân chia khá gần đều giữa hai nhóm khách hàng: khoảng 50.3% khách hàng không sử dụng gói tích hợp, trong khi khoảng 49.7% khách hàng sử dụng các gói tích hợp (ví dụ: gói tích hợp tivi, đi động, vv.) Điều này cho thấy một sự đa dạng trong việc sử dụng dịch vụ tích hợp và mức độ phổ biến của chúng trong tập dữ liệu này
Hình 3 5 Phân bố giá cước trong tập dữ liệu
Hình 3.5 cho thấy giá cước của dịch vụ viễn thông khảo sát trong khoảng dưới 300.000 chiếm đa số
Hình 3 6 Phân bố tuổi của thuê bao (tháng) trong tập dữ liệu
Hình 3 7 Phân bố số dịch vụ khác trong tập dữ liệu
Hình 3 8 Phân bố nợ cước 2 tháng trong tập dữ liệu
Hình 3 9 Phân bố số tháng sử dụng trong tập dữ liệu
Hình 3 10 Phân bố số lần gia hạn trong tập dữ liệu
Hình 3 11 Phân bố số lần báo hỏng trong tập dữ liệu
Tiền xử lý tập dữ liệu khách hàng rời mạng viễn thông
Để tiền xử lý dữ liệu trong tập dữ liệu khách hàng rời mạng viễn thông, chúng ta sẽ thực hiện các bước sau:
1 Loại bỏ các ngoại lệ (outliers): Loại bỏ các hàng trong tập dữ liệu có giá trị phần trăm lớn hơn hoặc bằng 99% hoặc nhỏ hơn hoặc bằng 1% Các giá trị này có thể được xem là ngoại lệ và không đại diện cho phân phối chính của dữ liệu
2 Tạo ra giá trị giả (dummies): Sau khi loại bỏ các ngoại lệ, chúng ta sẽ thu được tập dữ liệu mới chỉ chứa các giá trị phần trăm nằm trong khoảng từ 1% đến 99% Đối với các giá trị phần trăm nằm ngoài khoảng này, chúng ta có thể thay thế chúng bằng các giá trị giả định như giá trị trung bình hoặc giá trị phổ biến nhất trong tập dữ liệu
3 In danh sách cột phân loại và số: Sau khi thực hiện các bước trên, chúng ta sẽ in danh sách các cột trong tập dữ liệu và số lượng các giá trị trong mỗi cột, để có cái nhìn tổng quan về phân phối của dữ liệu
Quá trình tiền xử lý này giúp làm sạch dữ liệu và chuẩn bị cho quá trình phân tích và xây dựng mô hình một cách chính xác và hiệu quả hơn Ta thu được bộ dữ liệu mới như sau:
# Column Non-Null Count Dtype
0 NGANHNGHE_ID 114176 non-null float64
2 KHUVUC_ID 114176 non-null float64
3 SO_DV_KHAC 113469 non-null float64
5 NOCUOC_2THANG 113379 non-null float64
7 SOTHANG_TRATRUOC_CONLAI 113414 non-null float64
8 SOLAN_BAOHONG 113066 non-null float64
9 SOLAN_GOI_KIEM 113966 non-null float64
10 SOLAN_GOI_KIEM_HL 113045 non-null float64
11 SOLAN_GOI_KIEM_KHL 114144 non-null float64
12 SOLAN_TAMNGUNG 113869 non-null float64
13 THANG_SD 112358 non-null float64
14 KO_PSLL 114177 non-null float64
15 SOLAN_GIAHAN 114010 non-null float64
17 LOAIKH_ID_0 114177 non-null float64
18 LOAIKH_ID_1 114177 non-null float64
19 LOAIKH_ID_2 114177 non-null float64
20 LOAIKH_ID_3 114177 non-null float64
21 LOAIKH_ID_4 114177 non-null float64
22 LOAIKH_ID_5 114177 non-null float64
23 LOAIKH_ID_6 114177 non-null float64
24 LOAIKH_ID_7 114177 non-null float64
25 LOAIKH_ID_8 114177 non-null float64
26 LOAIKH_ID_9 114177 non-null float64
27 LOAIKH_ID_10 114177 non-null float64
28 LOAIKH_ID_11 114177 non-null float64
29 LOAIKH_ID_12 114177 non-null float64
30 LOAIKH_ID_14 114177 non-null float64
31 LOAIKH_ID_18 114177 non-null float64
32 LOAIKH_ID_42 114177 non-null float64
33 LOAIKH_ID_52 114177 non-null float64
34 LOAIKH_ID_53 114177 non-null float64
35 LOAIKH_ID_54 114177 non-null float64
36 LOAIKH_ID_55 114177 non-null float64
37 LOAIKH_ID_56 114177 non-null float64
38 LOAIKH_ID_57 114177 non-null float64
39 LOAIKH_ID_58 114177 non-null float64
40 LOAIKH_ID_59 114177 non-null float64
41 LOAIKH_ID_60 114177 non-null float64
42 LOAIKH_ID_62 114177 non-null float64
43 LOAIKH_ID_63 114177 non-null float64
44 LOAIKH_ID_64 114177 non-null float64
45 LOAIKH_ID_65 114177 non-null float64
46 LOAIKH_ID_66 114177 non-null float64
47 LOAIKH_ID_68 114177 non-null float64
48 LOAIKH_ID_70 114177 non-null float64
49 LOAIKH_ID_71 114177 non-null float64
50 LOAIKH_ID_72 114177 non-null float64
51 LOAIKH_ID_76 114177 non-null float64
52 LOAIKH_ID_78 114177 non-null float64
53 LOAIKH_ID_79 114177 non-null float64
54 LOAIKH_ID_80 114177 non-null float64
55 LOAIKH_ID_81 114177 non-null float64
56 LOAIKH_ID_82 114177 non-null float64
57 LOAIKH_ID_83 114177 non-null float64
58 LOAIKH_ID_84 114177 non-null float64
59 LOAIKH_ID_85 114177 non-null float64
60 LOAIKH_ID_86 114177 non-null float64
61 LOAIKH_ID_87 114177 non-null float64
62 PL_KH_DT_1 114177 non-null float64
63 PL_KH_DT_2 114177 non-null float64
64 PL_KH_DT_3 114177 non-null float64
69 GOI_DADV_0 114177 non-null float64
70 GOI_DADV_1 114177 non-null float64
71 TRANGTHAI_TB_1 114177 non-null float64
72 TRANGTHAI_TB_2 114177 non-null float64
73 TRANGTHAI_TB_3 114177 non-null float64
74 TRANGTHAI_TB_4 114177 non-null float64 dtypes: float64(75) Để xử lý các ngoại lệ trong tập dữ liệu khách hàng rời mạng viễn thông và điền giá trị np.nan vào chúng, chúng ta có thể sử dụng phương pháp MICE (Multiple Imputation by Chained Equations) Phương pháp này thực hiện việc điền các giá trị thiếu bằng cách sử dụng mô hình hồi quy riêng cho mỗi biến bị thiếu dữ liệu và lặp lại quá trình này nhiều lần để tạo ra nhiều tập dữ liệu hoàn chỉnh Quá trình chi tiết có thể được thực hiện như sau:
1 Xác định các giá trị ngoại lệ: Xác định các hàng trong tập dữ liệu có giá trị phần trăm lớn hơn hoặc bằng 99% hoặc nhỏ hơn hoặc bằng 1% Các hàng này được coi là các ngoại lệ và cần được xử lý
2 Điền giá trị np.nan cho các ngoại lệ: Thay thế các giá trị ngoại lệ bằng giá trị np.nan để chúng có thể được xử lý trong quá trình imputation
3 Sử dụng MICE để xử lý các giá trị thiếu: Sử dụng gói MICE trong
Python để thực hiện việc imputation Quá trình này sẽ tạo ra nhiều tập dữ liệu hoàn chỉnh với các giá trị thiếu được điền vào dựa trên các mô hình hồi quy riêng biệt cho mỗi biến
4 Kết hợp các tập dữ liệu hoàn chỉnh: Kết hợp các tập dữ liệu hoàn chỉnh thành một tập dữ liệu duy nhất để sử dụng cho phân tích và mô hình hóa
Quá trình này giúp làm sạch dữ liệu và điền các giá trị thiếu một cách hiệu quả, giúp tăng độ chính xác của phân tích và mô hình hóa dữ liệu Ta thu được dữ liệu như sau:
Bảng 3 3 Thống kê mô tả tập dữ liệu thu sau khi xử lý count mean std min 25% 50% 75% max
Sau khi sử dụng MICE để xử lý các giá trị thiếu và điền vào các ngoại lệ trong tập dữ liệu khách hàng rời mạng viễn thông, chúng ta có thể tiến hành kiểm tra mối quan hệ giữa các biến thông qua ma trận tương quan và biểu đồ phân tán Chi tiết quá trình có thể được thực hiện như sau:
Hình 3 12 Ma trận tương quan các tham số của bộ dữ liệu sau xử lý
Tạo ma trận tương quan: Tính toán ma trận tương quan cho tất cả các biến trong tập dữ liệu đã xử lý Ma trận tương quan cho phép chúng ta đánh giá mức độ tương quan tuyến tính giữa các cặp biến
Vẽ biểu đồ phân tán (scatter plot matrix): Tạo biểu đồ phân tán để hình dung mối quan hệ giữa các cặp biến Mỗi điểm trên biểu đồ biểu diễn một quan sát, với trục x và trục y đại diện cho hai biến khác nhau Việc xem biểu đồ phân tán giúp đánh giá mối quan hệ tuyến tính giữa các cặp biến
Hình 3 13 Ma trận Scatter các tham số của bộ dữ liệu sau xử lý
Kiểm tra mối quan hệ với biến THANHLY: Đối với mỗi biến, kiểm tra mối quan hệ của nó với biến THANHLY (trường hợp cần kiểm tra mối quan hệ đặc biệt)
Các phương pháp có thể bao gồm việc tính toán ma trận tương quan giữa biến THANHLY và các biến khác, cũng như vẽ biểu đồ phân tán giữa chúng Kết quả như sau:
Bảng 3 4 Hệ số tương quan của các biến sau khi xử lý
SOLAN_GOI_KIEM_KHL NaN
MÔ HÌNH HỌC KẾT HỢP ĐỀ XUẤT
Môi trường mô phỏng thực nghiệm
Để thực nghiệm, đề án này sử dụng Google Colaboratory, Python và SKLearn để xây dựng các mô hình Ensemble Learning Ngôn ngữ lập trình được viết bằng mã Python với sự trợ giúp của gói thư viện SKLearn và các gói khác hỗ trợ Việc sử dụng máy chủ đám mây cho phép người dùng tận dụng sức mạnh của phần cứng của Google để thực thi mã và chạy các hoạt động SKLearn Để thực hiện huấn luyện mô hình học máy tạo ra mô hình học kết hợp, đồng thời đánh giá hiệu suất của các mô hình, ta sẽ thực hiện các bước sau:
1 Chia dữ liệu thành các tập train và test: Sử dụng phương pháp chia dữ liệu ngẫu nhiên với tỷ lệ 7/3 (70% dữ liệu cho tập train và 30% dữ liệu cho tập test) Bước này giúp đảm bảo rằng mô hình được huấn luyện trên một phần đáng kể của dữ liệu và được đánh giá trên một phần độc lập
2 Huấn luyện mô hình học máy: Sử dụng các thuật toán học máy như hồi quy logistic, cây quyết định, hoặc máy vector hỗ trợ để huấn luyện mô hình trên tập train
3 Đánh giá hiệu suất của mô hình: đánh giá hiệu suất của mô hình trên cả tập train và tập test bằng các chỉ số đánh giá như: a Training Score: Điểm số của mô hình trên tập train b Test Score: Điểm số của mô hình trên tập test c Accuracy: Tỉ lệ dự đoán đúng trên tổng số dự đoán d Precision Score và Recall Score - Churn (thanh lý): Độ chính xác và độ phục hồi của dự đoán về trạng thái "thanh lý" trên cả tập train và tập test e Precision Score và Recall Score - not Churn (chưa thanh lý): Độ chính xác và độ phục hồi của dự đoán về trạng thái "chưa thanh lý" trên cả tập train và tập test f F1 Score - Churn và F1 Score - not Churn: Trung bình điều hòa của Precision và Recall, cung cấp một đánh giá tổng thể về hiệu suất của mô hình
Quá trình này giúp ta đánh giá hiệu suất của mô hình trên cả tập train và tập test và hiểu rõ hơn về khả năng dự đoán của các mô hình đối với các trạng thái dữ liệu khác nhau, từ đó giúp ta hiệu chỉnh các kỹ thuật ensemble để tạo ra mô hình tổng quát tối ưu nhất.
Thực nghiệm huấn luyện mô hình học kết hợp
Nghiên cứu này nhằm xây dựng một mô hình học kết hợp thông qua việc phát triển từng bước từ một mô hình cơ sở đến các mô hình phức tạp Cụ thể, nghiên cứu sẽ xây dựng mô hình dựa trên năm nhóm mô hình khác nhau như sau:
Mô hình Baseline: Mô hình này đóng vai trò là một điểm tham chiếu cơ bản, thường sử dụng một mô hình đơn giản như Logistic Regression hoặc mô hình Nạve Bayes để dự đốn
Nhĩm mơ hình Logistic Regression, kNN và Nạve Bayes: Nhĩm này sẽ sử dụng các mô hình học máy phổ biến như Logistic Regression, kNN (k-Nearest Neighbors), và Nạve Bayes Các mơ hình này cĩ độ phức tạp từ thấp đến trung bình và thường được sử dụng trong nhiều bài toán phân loại
Mô hình học kết hợp Decision Tree Classifier: Mô hình này sẽ sử dụng Decision Tree Classifier, một mô hình dựa trên cây quyết định, và có thể kết hợp với các kỹ thuật như Bagging hoặc Boosting để cải thiện hiệu suất
Mô hình học kết hợp Bagging, AdaBoost và GB: Nhóm này sẽ sử dụng các mô hình kết hợp như Bagging (Bootstrap Aggregating), AdaBoost (Adaptive Boosting), và Gradient Boosting (GB) Các kỹ thuật này thường được sử dụng để tạo ra các mô hình mạnh từ các mô hình yếu
Mô hình học kết hợp Random Forest Classifier: Cuối cùng, nhóm này sẽ sử dụng mô hình Random Forest Classifier, một phương pháp kết hợp nhiều cây quyết định và thường được coi là một trong những mô hình mạnh nhất trong học máy
Qua việc phát triển từ các mô hình đơn giản đến các mô hình phức tạp, bài nghiên cứu này nhằm xác định một mô hình học kết hợp hiệu quả nhất cho bài toán phân loại khách hàng rời mạng viễn thông
Mô hình Baseline được cấu hình như hình sau:
Hình 4 1 Cấu hình mô hình Baseline
Sau khi huấn luyện, ta có các chỉ số đánh giá như sau theo bảng sau:
Bảng 4 1 Kết quả thực nghiệm của mô hình Baseline
Recall not Churn f1 Churn f1 not Churn
Mô hình Dummies Baseline có điểm số đào tạo và kiểm tra khá cao, ở mức khoảng 98.6%, cho thấy mô hình có khả năng tốt trong việc học từ dữ liệu và dự đoán trên dữ liệu mới Tuy nhiên, điểm số cao này có thể do mô hình chỉ đơn giản là dự đoán trạng thái phổ biến nhất trong tập dữ liệu, mà không cần học bất kỳ quy luật phức tạp nào từ dữ liệu
Tuy nhiên, điểm số cho Precision, Recall và F1 Score đối với trạng thái "thanh lý" (churn) đều là 0, tức là mô hình không dự đoán được trạng thái này Điều này có thể là do mất cân bằng trong dữ liệu, khi mà số lượng trạng thái "thanh lý" ít hơn nhiều so với trạng thái "chưa thanh lý" Do đó, mô hình Dummies Baseline chỉ tập trung vào dự đoán trạng thái phổ biến nhất mà không quan tâm đến việc dự đoán trạng thái hiếm hơn Nhìn chung, mô hình Dummies Baseline có hiệu suất tốt trên dữ liệu nhưng không thể dự đoán được trạng thái quan trọng nhất trong bài toán, và cần được cải thiện để có thể áp dụng trong thực tế
4.2.2 Nhĩm mơ hình Logistic Regression, kNN và Nạve Bayes
Mô hình Logistic Regression thông thường , được cấu hình như sau:
Hình 4 2 Cấu hình mô hình Logistic Regression thông thường
Sau khi huấn luyện, ta có các chỉ số đánh giá như sau:
Bảng 4 2 Kết quả thực nghiệm của mô hình Logistic Regression thông thường
Recall not Churn f1 Churn f1 not Churn
Mô hình Logistic Regression cũng có điểm số cao về độ chính xác (Accuracy), tương tự như mô hình Dummies Baseline, ở mức khoảng 98.6% Điều này cho thấy mô hình có khả năng tốt trong việc dự đoán trên dữ liệu mới Tuy nhiên, khi xem xét các chỉ số Precision, Recall và F1 Score, ta thấy rằng mô hình chỉ có hiệu suất khá thấp đối với trạng thái "thanh lý" (churn) Điểm số Precision cho trạng thái "thanh lý" chỉ là 0.274, tức là mô hình chỉ có khả năng dự đoán chính xác khoảng 27.4% các trường hợp "thanh lý" Điểm số Recall cho trạng thái "thanh lý" là 0.006, tức là mô hình chỉ nhận diện được khoảng 0.6% các trường hợp "thanh lý" Điểm số F1 Score cho trạng thái "thanh lý" là 0.502, tức là trung bình điều hòa của Precision và Recall cho trạng thái này cũng khá thấp Trong khi đó, mô hình có hiệu suất khá hơn đối với trạng thái "chưa thanh lý" (not churn), với Precision, Recall và F1 Score lần lượt là 0.630, 0.503 và 0.502 Tuy nhiên, vẫn còn cần cải thiện để đạt được một mô hình có hiệu suất cân bằng giữa các trạng thái Như vậy, mô hình Logistic Regression có hiệu suất tốt trong việc dự đoán trạng thái "chưa thanh lý" nhưng có hiệu suất kém đối với trạng thái "thanh lý", và cần được cải thiện để đạt được hiệu suất cân bằng hơn
Mô hình Logistic Regression được hiệu chỉnh tham số , được cấu hình như sau:
Hình 4 3 Cấu hình mô hình Logistic Regression hiệu chỉnh tham số
Sau khi huấn luyện, ta có các chỉ số đánh giá như sau:
Bảng 4 3 Kết quả thực nghiệm của mô hình Logistic Regression hiệu chỉnh tham số
Regression được hiệu chỉnh tham số
Recall not Churn f1 Churn f1 not Churn
Mô hình Logistic Regression sau khi được điều chỉnh tham số (Logistic Regression With Hyperparameter Tuning) vẫn giữ nguyên điểm số cao về độ chính xác (Accuracy) ở mức khoảng 98.6%, tương tự như các phiên bản trước đó Tuy nhiên, khi xem xét các chỉ số Precision, Recall và F1 Score, ta thấy rằng mô hình vẫn có hiệu suất khá thấp đối với trạng thái "thanh lý" (churn) Điểm số Precision cho trạng thái "thanh lý" chỉ là 0.200, tức là mô hình chỉ có khả năng dự đoán chính xác khoảng 20% các trường hợp "thanh lý" Điểm số Recall cho trạng thái "thanh lý" là 0.001, tức là mô hình chỉ nhận diện được khoảng 0.1% các trường hợp "thanh lý" Điểm số F1 Score cho trạng thái "thanh lý" là 0.497, tức là trung bình điều hòa của Precision và Recall cho trạng thái này có chút cải thiện so với mô hình Logistic Regression cơ bản, nhưng vẫn khá thấp Trong khi đó, mô hình vẫn có hiệu suất khá hơn đối với trạng thái "chưa thanh lý" (not churn), với Precision, Recall và F1 Score lần lượt là 0.593, 0.500 và 0.497
Mặc dù mô hình Logistic Regression sau khi được điều chỉnh tham số có chút cải thiện so với phiên bản cơ bản, nhưng vẫn có hiệu suất kém đối với trạng thái
"thanh lý", và cần được tiếp tục cải thiện để đạt được hiệu suất cân bằng hơn
Mô hình k-Nearest Neighbor Classifier thông thường , được cấu hình như sau:
Hình 4 4 Cấu hình mô hình k-Nearest Neighbor Classifier thông thường
Sau khi huấn luyện, ta có các chỉ số đánh giá như sau:
Bảng 4 4 Kết quả thực nghiệm của mô hình k-Nearest Neighbor Classifier thông thường k-Nearest
Recall not Churn f1 Churn f1 not Churn
Mô hình k-Nearest Neighbor (kNN) Classifier thông thường (k-Nearest Neighbor Classifier Without Hyperparameter Tuning) có điểm số cao về độ chính xác (Accuracy) ở mức khoảng 98.5%, tương tự như các mô hình trước đó Khi xem xét các chỉ số Precision, Recall và F1 Score, ta thấy rằng mô hình có hiệu suất khá tốt đối với cả trạng thái "thanh lý" (churn) và "chưa thanh lý" (not churn) Điểm số Precision cho trạng thái "thanh lý" là 0.323, tức là mô hình có khả năng dự đoán chính xác khoảng 32.3% các trường hợp "thanh lý" Điểm số Recall cho trạng thái "thanh lý" là 0.051, tức là mô hình nhận diện được khoảng 5.1% các trường hợp "thanh lý" Điểm số F1 Score cho trạng thái "thanh lý" là 0.540, tức là trung bình điều hòa của Precision và Recall cho trạng thái này có hiệu suất khá tốt Tuy nhiên, mô hình vẫn có điểm số thấp đối với trạng thái "chưa thanh lý" (not churn) so với các mô hình khác, với
Precision, Recall và F1 Score lần lượt là 0.654, 0.525 và 0.540 Ta thấy mô hình k- Nearest Neighbor Classifier có hiệu suất khá tốt và có khả năng dự đoán tốt đối với trạng thái "thanh lý", nhưng cũng cần được cải thiện để đạt được hiệu suất cân bằng hơn đối với cả hai trạng thái
Hình 4 5 Error Rate vs K-Value theo UNIFORM của mô hình kNN thông thường
Hình 4 6 Error Rate vs K Value theo DISTANCE của mô hình kNN thông thường
Mô hình k-Nearest Neighbor Classifier có hiệu chỉnh tham số , được cấu hình như sau:
Hình 4 7 Cấu hình mô hình k-Nearest Neighbor Classifier có hiệu chỉnh tham số
Sau khi huấn luyện, ta có các chỉ số đánh giá như sau:
Bảng 4 5 Kết quả thực nghiệm của mô hình k-Nearest Neighbor Classifier có hiệu chỉnh tham số k-Nearest
Classifier có hiệu chỉnh tham số
Recall not Churn f1 Churn f1 not Churn
Mô hình k-Nearest Neighbor Classifier sau khi được hiệu chỉnh tham số (k- Nearest Neighbor Scaled With Hyperparameter Tuning) vẫn giữ nguyên điểm số cao về độ chính xác (Accuracy) ở mức khoảng 98.3%, gần giống với phiên bản không được hiệu chỉnh Khi xem xét các chỉ số Precision, Recall và F1 Score, ta thấy rằng mô hình vẫn có hiệu suất tương tự đối với cả trạng thái "thanh lý" (churn) và "chưa thanh lý" (not churn) so với phiên bản không được hiệu chỉnh Điểm số Precision cho trạng thái "thanh lý" là 0.183, tức là mô hình có khả năng dự đoán chính xác khoảng 18.3% các trường hợp "thanh lý" Điểm số Recall cho trạng thái "thanh lý" là 0.070, tức là mô hình nhận diện được khoảng 7.0% các trường hợp "thanh lý" Điểm số F1 Score cho trạng thái "thanh lý" là 0.546, tức là trung bình điều hòa của Precision và Recall cho trạng thái này không có sự thay đổi đáng kể so với phiên bản không được hiệu chỉnh
Đánh giá kết quả huấn luyện mô hình học kết hợp
4.3.1 Kết quả các mô hình học kết hợp
Hình 4 23 Ma trận Heatmap thể hiện các chỉ số của mô hình kết hợp Để đánh giá về mô hình học kết hợp (ensemble learning), chúng ta có thể xem xét các mô hình trong nhóm Bagging, AdaBoost, và Gradient Boosting Đây là các phương pháp mà các mô hình riêng lẻ được kết hợp để tạo thành một mô hình mạnh mẽ hơn Dưới đây là một số nhận xét về mô hình học kết hợp:
Bagging Classifier: Đạt được độ chính xác cao và điểm số Precision, Recall và F1 Score tốt cho cả hai trạng thái "thanh lý" và "chưa thanh lý"
AdaBoost Classifier: Cũng đạt được độ chính xác cao và các điểm số Precision, Recall và F1 Score khá tốt, đặc biệt là cho trạng thái "chưa thanh lý"
Gradient Boosting Classifier: Cũng cho thấy hiệu suất tốt với độ chính xác cao và điểm số Precision, Recall và F1 Score tốt cho cả hai trạng thái
Tất cả các mô hình trong nhóm Bagging, AdaBoost và Gradient Boosting đều cho thấy hiệu suất tốt với độ chính xác cao và khả năng dự đoán tốt cho cả hai trạng thái Tuy nhiên, cần lưu ý rằng việc chọn mô hình học kết hợp phụ thuộc vào yêu cầu cụ thể của bài toán và cần phải được đánh giá kỹ lưỡng bằng các phương pháp kiểm định thích hợp trên tập dữ liệu thử nghiệm độc lập
Hình 4 24 Biểu đồ Accuracy của các mô hình
Dựa vào hình 4.24, chúng ta có thể thấy Baseline Model, Accuracy đạt được là 98.6%, đây có thể được coi là một mức độ cao cho một mô hình baseline, nhưng cần phải xem xét kỹ lưỡng vì có thể dẫn đến hiện tượng overfitting nếu mô hình quá đơn giản hoặc không đủ phức tạp Với các mô hình Logistic Regression, k-Nearest Neighbor và Naive Bayes, Cả ba mô hình Logistic Regression đều có Accuracy gần như nhau, khoảng 98.6% Mô hình k-Nearest Neighbor (Scaled) cũng đạt được mức Accuracy cao, 98.5% và không có sự cải thiện đáng kể sau khi được điều chỉnh hyperparameters Về mô hình Naive Bayes có Accuracy thấp nhất, chỉ 8.2% và không có sự cải thiện khi được oversampled Các mô hình Decision Tree và Ensemble Learning (Bagging, AdaBoost, Gradient Boosting, Random Forest): Các mô hình Decision Tree và các mô hình trong Ensemble Learning đều đạt được Accuracy cao, 98.6% Điều đáng chú ý là mô hình Decision Tree Classifier khi giảm Max Depth đã đạt được Accuracy cao nhất (98.6%), trong khi các mô hình khác đều đạt được Accuracy tương tự Các mô hình Random Forest, cả có và không oversampled, cũng đạt được Accuracy cao nhất (98.6%)
Nhận xét tổng quan: Đa số các mô hình đều đạt được mức độ Accuracy cao, trong khoảng 98.3% đến 98.6% Có sự đồng đều trong hiệu suất của các mô hình trên dữ liệu kiểm tra Cần phải xem xét kỹ lưỡng để chọn ra mô hình phù hợp nhất dựa trên các chỉ số khác như Precision, Recall, F1-Score, và cân nhắc đến mức độ phức tạp và tính tổng quát của mô hình
Hình 4 25 Biểu đồ Precision Churn của các mô hình
Dựa vào hình 4.25, Decision Tree Classifier - Reducing Max Depth, Bagging Classifier có Precision Churn tốt nhất, đạt đến 1.000, tức là các mô hình này dự đoán chính xác tất cả các trường hợp về việc khách hàng chuyển đổi Random Forest Classifier cũng có Precision Churn cao với giá trị là 0.513 Các mô hình còn lại có Precision Churn thấp hơn, đặc biệt là các mô hình Random Forest Classifier, AdaBoost Classifier, Random Forest Classifier, Oversampled With Hyperparameter Tuning, và Random Forest Classifier, Oversampled With Hyperparameter Tuning - Reducing Max Depth, có Precision Churn dưới 0.1, cho thấy khả năng dự đoán chính xác việc khách hàng chuyển đổi của chúng không cao
Hình 4 26 Biểu đồ Precision Not Churn của các mô hình
Dựa vào hình 4.26, ta nhận thấy rằng: Có một số mô hình có Precision Not Churn khá thấp, thậm chí gần với 0, như Naive Bayes Classifier và Naive Bayes, Oversampled Điều này có thể đề cập đến việc mô hình không có khả năng phân biệt rõ ràng giữa các trường hợp không churn và có thể gây ra nhiều dự đoán sai lầm trong việc xác định các trường hợp này Một số mô hình có Precision Not Churn cao như Logistic Regression With Hyperparameter Tuning, Logistic Regression Without Hyperparameter Tuning, và Decision Tree Classifier - Reducing Max Depth Điều này cho thấy những mô hình này có khả năng dự đoán chính xác các trường hợp không churn một cách hiệu quả hơn Một số mô hình khác có Precision Not Churn ở mức trung bình như Random Forest Classifier, Random Forest Classifier With Hyperparameter Tuning và Random Forest Classifier, Oversampled With Hyperparameter Tuning Cần xem xét thêm về hiệu suất của các mô hình này trên các phương diện khác như Recall, F1 score để đánh giá tổng thể hiệu suất của chúng Tóm lại, Precision Not Churn là một yếu tố quan trọng trong việc đánh giá hiệu suất của mô hình trong việc dự đoán các trường hợp không churn Cần xem xét tổng thể hiệu suất của các mô hình trên nhiều phương diện để có cái nhìn toàn diện về khả năng dự đoán của chúng
Hình 4 27 Biểu đồ Recall Churn của các mô hình
Recall Churn là tỷ lệ của các trường hợp churn (khách hàng rời bỏ dịch vụ) được dự đoán đúng trên tổng số các trường hợp churn thực tế Naive Bayes Classifier có Recall Churn cao nhất với giá trị là 0.980000 khi không oversampling và 0.973000 khi oversampling Điều này có nghĩa là mô hình Naive Bayes có khả năng dự đoán chính xác cao đối với các trường hợp churn Decision Tree Classifier có Recall Churn thấp nhất khi không giảm max depth với giá trị là 0.156000 Tuy nhiên, sau khi giảm max depth, mô hình đã cải thiện đáng kể, đạt đến 0.026000 AdaBoost Classifier và Bagging Classifier có kết quả Recall Churn tương đương với nhau, đều đạt được 0.028000 Random Forest Classifier và Gradient Boosting Classifier cũng có kết quả
Recall Churn tương tự, đạt 0.043000 và 0.041000 tương ứng Các mô hình khác như Logistic Regression, k-Nearest Neighbor, và Random Forest Classifier (khi không oversampled) có Recall Churn đáng kể thấp hơn so với các mô hình trên Tóm lại, Naive Bayes Classifier thường có Recall Churn cao nhất, trong khi Decision Tree Classifier và các mô hình có áp dụng oversampling thường có kết quả Recall Churn thấp hơn Điều này cần xem xét kỹ lưỡng khi lựa chọn mô hình tùy thuộc vào mục tiêu và yêu cầu cụ thể của vấn đề cụ thể
Hình 4 28 Biểu đồ Recall Not Churn của các mô hình
Dựa vào hình 4.28, các mô hình Oversampled thường có Recall Not Churn cao hơn so với các mô hình không Oversampled, điều này cho thấy việc xử lý mất cân bằng dữ liệu có thể cải thiện khả năng nhận diện các trường hợp không chuyển đổi Các mô hình có chiến lược tối ưu hóa siêu tham số (Hyperparameter Tuning) không nhất thiết mang lại hiệu suất tốt hơn, nhưng có thể ảnh hưởng đến Recall Not Churn của mô hình
Hình 4 29 Biểu đồ F1 Churn của các mô hình
Hình 4.29 là F1 Churn của các mô hình, chúng ta cần xem xét cả Precision và Recall của lớp Subscribe (Churn) để có cái nhìn toàn diện về hiệu suất của mô hình F1 Churn là một số liệu kết hợp giữa Precision và Recall, giúp đánh giá hiệu suất của mô hình trong việc phát hiện các trường hợp Churn (từng đăng ký) Các mô hình có F1 Churn cao sẽ có cả Precision và Recall cao, điều này chỉ ra rằng mô hình không chỉ có khả năng đưa ra dự đoán chính xác về các trường hợp Churn mà còn đảm bảo rằng không bỏ sót quá nhiều trường hợp Churn thực sự
Decision Tree Classifier - Reducing Max Depth, Bagging Classifier, AdaBoost Classifier, Gradient Boosting Classifier và Random Forest Classifier: Có F1 Churn đạt 0.522, đây là mức độ cao nhất trong số các mô hình Điều này cho thấy các mô hình này đều có hiệu suất tốt cả về Precision và Recall trong việc phát hiện Churn Random Forest Classifier, Oversampled With Hyperparameter Tuning - Reducing Max Depth: Mặc dù có F1 Churn không cao bằng, nhưng vẫn ổn định ở mức 0.513, cho thấy một hiệu suất khá tốt trong việc phát hiện Churn Các mô hình khác: Có F1 Churn thấp hơn, đa số dưới 0.5, cho thấy hiệu suất phát hiện Churn của chúng không được tốt Tóm lại, các mô hình như Decision Tree, Bagging, AdaBoost, Gradient Boosting, và Random Forest (cả bản Oversampled và không Oversampled) đều có hiệu suất tốt trong việc phát hiện Churn, trong khi các mô hình khác có thể cần được cải thiện để tăng hiệu suất
Hình 4 30 Biểu đồ F1 Not Churn của các mô hình
Dựa trên hình 4.30, chúng ta có thể nhận xét F1 Not Churn của các mô hình như sau:
- F1 Not Churn cao: Các mô hình có F1 Not Churn cao đều cho thấy một sự cân bằng tốt giữa precision và recall trong việc dự đoán các trường hợp không phải là Churn Ví dụ: Decision Tree Classifier, Decision Tree Classifier - Reducing Max Depth, Bagging Classifier, AdaBoost Classifier, Gradient Boosting Classifier, và Random Forest Classifier có F1 Not Churn cao, tương ứng với các giá trị từ 0.522 đến 0.563
- F1 Not Churn thấp: Các mô hình có F1 Not Churn thấp thường gặp phải vấn đề không cân bằng giữa precision và recall, hoặc không hiệu quả trong việc dự đoán các trường hợp không phải là Churn Ví dụ: Logistic Regression Without Hyperparameter Tuning có F1 Not Churn thấp nhất với giá trị chỉ là 0.502, trong khi mô hình Naive Bayes Classifier và Naive Bayes, Oversampled cũng có F1 Not Churn thấp (0.080 và 0.090, tương ứng)
- Cần chú ý đến các mô hình có F1 Not Churn thấp: Các mô hình có F1 Not Churn thấp cần được kiểm tra kỹ lưỡng để hiểu nguyên nhân của hiệu suất kém, và có thể cần điều chỉnh hoặc cải thiện để cải thiện khả năng dự đoán chính xác các trường hợp không phải là Churn
4.3.2 So sánh với kết quả Telco Customer Churn 3 Để thấy rõ hơn ta so sánh kết quả nghiên cứu với kết quả được công bố trên Kaggle theo đường link, gọi là cách 1 , cách 2 là cách tiếp cận của bài nghiên cứu này
Về cấu trúc bộ dữ liệu:
Mô hình học kết hợp đề xuất Meta-Model
Dựa trên đặc điểm và tính chất của 05 nhóm mô hình học kết hợp trên, đề án đề xuất xây dựng mô hình học kết hợp meta (meta model), là sự tổ hợp giữa các mô hình trên dựa vào độ chính xác và các đặc điểm đầu vào của dữ liệu
Mỗi nhóm mô hình đơn lẻ có thể không đưa ra dự đoán hoàn hảo cho bộ dữ liệu đang nghiên cứu, bên cạnh đó mỗi nhóm thuật toán học máy có những hạn chế riêng và việc tạo ra một mô hình có độ chính xác cao là một thách thức Vì vậy, đề án để xuất xây dựng và kết hợp nhiều mô hình, tạo ra mô hình học kết hợp đề xuất Meta-Model, điều này tạo ra cơ hội nâng cao độ chính xác tổng thể Với mục tiêu này, đề án triển khai việc kết hợp 04 nhóm mô hình đã thực nghiệm bằng cách tổng hợp đầu ra từ mỗi mô hình với hai mục tiêu:
- Duy trì tính tổng quát của mô hình
Mô hình đề xuất như dựa trên tính chất mô hình kết hợp Meta-Model như hình 4.31 sau đây:
Hình 4 31 Xây dựng mô hình kết hợp Meta-Model đề xuất Để thực hiện ý tưởng meta-model đề xuất, đề án thực nghiệm tương ứng với 4 tập dữ liệu con, trích xuất từ dữ liệu gốc dựa trên phân nhóm trường dữ liệu PL_KH_DT gồm 4 tập con: tập dữ liệu khách hàng nhóm A, tập dữ liệu khách hàng nhóm B, tập dữ liệu khách hàng nhóm C, và tập dữ liệu khách hàng nhóm D
Bảng 4 19 Kết quả thực nghiệm của các mô hình với các tập khách hàng nhóm A, nhóm B, nhóm C và nhóm D
Tuning 0.914 0.838 0.853 0.838 k-Nearest Neighbor Scaled Without
Hyperparameter Tuning 0.936 0.718 0.755 0.718 k-Nearest Neighbor Scaled With
Decision Tree Classifier - Reducing Max
Random Forest Classifier, Oversampled With
Random Forest Classifier, Oversampled With
Từ ý tưởng trên, đề án đề xuất mô hình Meta-Model dựa trên trường dữ liệu PL_KH_DT, tương ứng với nhóm A thì sẽ sử dụng nhóm mô hình Logistic Regression, kNN, nhóm B sử dụng Decision Tree Clasifiers, và nhóm C sử dụng Bagging Adaboost và cuối cùng nhóm D sử dụng nhóm Random Forest Cụ thể như hình 4.32 sau đây:
Hình 4 32 Mô hình kết hợp Meta-Model đề xuất Đề xuất mô hình Meta-Model cho việc phân loại khách hàng dựa trên doanh thu (PL_KH_DT) là một phương pháp kết hợp nhiều mô hình học máy để tối ưu hóa hiệu suất phân loại Dưới đây là mô tả chi tiết về cách kết hợp các mô hình trong mô hình Meta-Model:
Phân loại khách hàng (PL_KH_DT): Loại A: Doanh thu từ 500.000 trở lên
Loại B: Doanh thu từ 200.000 đến dưới 500.000 Loại C: Doanh thu từ 50.000 đến dưới 200.000
- Nhóm A (Doanh thu từ 500.000 trở lên): Sử dụng Logistic Regression: Phù hợp với dữ liệu có tính khả diễn giải cao và độ linh hoạt trong việc điều chỉnh ngưỡng quyết định Sử dụng kNN (k-Nearest Neighbors): Đưa ra dự đoán dựa trên các điểm dữ liệu gần nhất, phù hợp với các trường hợp có biên giới phân loại phức tạp
- Nhóm B (Doanh thu từ 200.000 đến dưới 500.000): Sử dụng Decision Tree
Classifiers: Tạo ra các quy tắc quyết định dễ hiểu và dễ diễn giải, phù hợp với việc phân loại dữ liệu không tuyến tính
- Nhóm C (Doanh thu từ 50.000 đến dưới 200.000): Sử dụng Bagging
Adaboost: Kết hợp nhiều mô hình yếu thành một mô hình mạnh, giúp giảm thiểu overfitting và tăng tính tổng quát của mô hình
- Nhóm D (Doanh thu dưới 50.000): Sử dụng Random Forest: Tạo ra một tập hợp các cây quyết định ngẫu nhiên, giúp giảm thiểu overfitting và tăng tính đa dạng của mô hình
Kết hợp dự đoán từ các mô hình: Sử dụng kỹ thuật majority voting, dự đoán cuối cùng được quyết định bằng cách chọn lựa dự đoán phổ biến nhất từ tất cả các mô hình trong mỗi nhóm Đánh giá và điều chỉnh:
- Sử dụng kỹ thuật cross-validation hoặc holdout method để đánh giá hiệu suất của mô hình kết hợp trên dữ liệu kiểm tra không nhìn thấy trước
- Điều chỉnh siêu tham số của các mô hình cụ thể trong mỗi nhóm để tối ưu hóa hiệu suất toàn bộ
Mô hình Meta-Model này kết hợp sức mạnh của các mô hình khác nhau để cung cấp một dự đoán tốt nhất cho việc phân loại khách hàng dựa trên doanh thu Sự đa dạng trong các mô hình giúp tăng tính tổng quát và khả năng tổng hợp thông tin từ nhiều nguồn khác nhau
Dựa trên bộ dữ liệu hiện tại và hiệu suất của các mô hình đơn lẻ, việc quyết định không sử dụng Stacking trong mô hình Meta-Model là hợp lý Bộ dữ liệu không đa dạng đủ về thời gian và loại khách hàng, và cũng như không đủ lớn để tiếp tục thực nghiệm Stacking một cách hiệu quả Bên cạnh đó, các nhóm mô hình thực nghiệm đã đạt được độ chính xác cao, gần 95%, cho thấy các mô hình đơn lẻ đủ mạnh để thực hiện phân loại một cách chính xác và hiệu quả
Do đó, thay vì sử dụng Stacking, chúng ta có thể tận dụng sức mạnh của các mô hình đơn lẻ để xây dựng một mô hình Meta-Model đơn giản hơn và dễ hiểu hơn Các mô hình đơn lẻ đã được chọn cẩn thận để phù hợp với từng nhóm khách hàng dựa trên mức độ doanh thu, và đã đạt được hiệu suất cao trên bộ dữ liệu hiện tại Như vậy việc không sử dụng Stacking và sử dụng các mô hình đơn lẻ là phù hợp để tối ưu hóa hiệu suất phân loại trên bộ dữ liệu hiện tại, trong khi vẫn giữ được sự đơn giản và tính khả thi của mô hình.
XÂY DỰNG ỨNG DỤNG DỰ BÁO KHÁCH HÀNG RỜI MẠNG VỚI TẬP DỮ LIỆU Ở VNPT TÂY NINH
Thiết kế và phát triển ứng dụng
Dựa vào các mô hình ensemble đã được xây dựng, có thể thiết kế và đề xuất một ứng dụng để dự báo khách hàng rời mạng tại VNPT Tây Ninh như sau:
Tên ứng dụng: VNPT Churn Predictor
Mô tả: VNPT Churn Predictor là một ứng dụng dự báo và phân tích khách hàng rời mạng dựa trên các mô hình học máy được xây dựng từ dữ liệu khách hàng thực tế của VNPT Tây Ninh Ứng dụng giúp VNPT nhận biết và dự báo khả năng rời mạng của từng khách hàng cụ thể, từ đó áp dụng các chiến lược giữ chân và tối ưu hóa chiến lược tiếp thị để giữ chân khách hàng
1 Dự báo rời mạng: Dự báo khả năng rời mạng của từng khách hàng dựa trên các thông tin cá nhân, hành vi sử dụng dịch vụ và lịch sử tương tác với VNPT
2 Tính năng phân tích: Phân tích và hiểu biết về các yếu tố ảnh hưởng đến quyết định rời mạng của khách hàng, bao gồm các đặc trưng quan trọng từ các mô hình học máy
3 Gợi ý chiến lược giữ chân: Dựa trên dự báo, ứng dụng cung cấp gợi ý về các chiến lược giữ chân khách hàng cụ thể, bao gồm các ưu đãi, chương trình khuyến mãi hoặc dịch vụ cá nhân hóa
4 Tích hợp cảnh báo và quản lý khách hàng: Tích hợp cảnh báo khi có khách hàng có nguy cơ rời mạng cao, kèm theo khả năng quản lý thông tin chi tiết về từng khách hàng để triển khai các biện pháp giữ chân
5 Báo cáo và đánh giá hiệu suất: Cung cấp báo cáo về hiệu suất của mô hình dự báo và chiến lược giữ chân, giúp VNPT đánh giá và tối ưu hóa chiến lược kinh doanh
Giảm tỷ lệ rời mạng: Giúp VNPT nhận biết sớm khách hàng có nguy cơ rời mạng và triển khai các biện pháp giữ chân kịp thời, từ đó giảm thiểu tỷ lệ mất mát khách hàng
Tăng hiệu quả tiếp thị: Tối ưu hóa chiến lược tiếp thị và quảng cáo bằng cách tập trung vào việc tiếp cận và giữ chân khách hàng tiềm năng
Nâng cao trải nghiệm khách hàng: Cung cấp dịch vụ cá nhân hóa và ưu đãi cho khách hàng, tăng cường sự hài lòng và trung thành
Tích hợp dữ liệu mới: Liên tục cập nhật và tích hợp dữ liệu mới để cải thiện hiệu suất dự báo và phân tích
Mở rộng tính năng: Phát triển các tính năng mới như tự động triển khai chiến lược giữ chân, dự báo về xu hướng và biến động thị trường
Tối ưu hóa mô hình: Tiếp tục tối ưu hóa các mô hình dự báo và chiến lược giữ chân để đảm bảo hiệu suất cao nhất và thích ứng với sự thay đổi trong môi trường kinh doanh
VNPT Churn Predictor có thể giúp VNPT Tây Ninh tối ưu hóa chiến lược kinh doanh và tăng cường sự cạnh tranh trên thị trường viễn thông.
Phân tích tập dữ liệu khách hàng sử dụng dịch vụ viễn thông ở VNPT Tây
VNPT Tây Ninh Đối với ứng dụng VNPT Churn Predictor, có thể sử dụng cơ sở dữ liệu và tập dữ liệu phù hợp để đảm bảo hiệu quả và tính linh hoạt Dưới đây là một số gợi ý:
MySQL hoặc PostgreSQL: Đây là các hệ quản trị cơ sở dữ liệu phổ biến, hỗ trợ cho việc lưu trữ, truy vấn và quản lý dữ liệu một cách hiệu quả
MongoDB: Nếu ứng dụng cần xử lý dữ liệu có cấu trúc linh hoạt hoặc có tính chất phi cấu trúc cao, MongoDB là một lựa chọn tốt cho việc lưu trữ dữ liệu theo kiểu JSON-like document
Dữ liệu lịch sử khách hàng: Bao gồm các thông tin như hồ sơ khách hàng, lịch sử sử dụng dịch vụ, các giao dịch trước đó, hóa đơn thanh toán, …
Dữ liệu tương tác và hành vi của khách hàng: Bao gồm thông tin về việc sử dụng dịch vụ, tương tác trên các kênh truyền thông xã hội, phản hồi từ khách hàng, …
Dữ liệu Demographic: Bao gồm thông tin như độ tuổi, giới tính, nghề nghiệp, thu nhập,… của khách hàng
Python: Là ngôn ngữ lập trình phổ biến trong lĩnh vực học máy và khoa học dữ liệu, có nhiều thư viện mạnh mẽ như scikit-learn, pandas, numpy để xử lý và phân tích dữ liệu
Scikit-learn: Thư viện cung cấp các công cụ và thuật toán học máy cơ bản và nâng cao, giúp xây dựng và đánh giá mô hình dễ dàng
TensorFlow hoặc PyTorch: Đối với việc triển khai mô hình Deep Learning, các framework như TensorFlow hoặc PyTorch là lựa chọn phổ biến và mạnh mẽ
Flask hoặc Django: Để xây dựng ứng dụng web cho dự báo churn, Flask hoặc Django có thể được sử dụng để tạo các API cho việc tích hợp mô hình dự báo vào hệ thống tồn tại của VNPT
HTML/CSS/JavaScript: Đối với giao diện người dùng, sử dụng các công nghệ web front-end như HTML, CSS và JavaScript để tạo ra giao diện dễ sử dụng và thân thiện với người dùng.
Minh họa các chức năng chính của ứng dụng
Hình 5 1 Màn hình đăng nhập hệ thống
Hình 5 2 Màn hình dashboard người dùng
Hình 5 3 Màn hình danh sách thông tin khách hàng
Hình 5 4 Màn hình dự báo khách hàng
Hình 5 5 Màn hình thông tin chi tiết khách hàng
Hình 5 6 Màn hình thông tin chi tiết người dùng
Kết quả nghiên cứu của đề tài
Trong quá trình phân tích và đánh giá các mô hình học máy trên tập dữ liệu khách hàng rời mạng viễn thông, chúng ta đã thấy rằng có sự đa dạng trong hiệu suất của các mô hình Dưới đây là các điểm kết luận chính:
Accuracy không phải là một thước đo duy nhất để đánh giá hiệu suất của một mô hình phân loại Trong tình huống mất cân bằng dữ liệu như trong trường hợp này, accuracy có thể không phản ánh chính xác hiệu suất thực sự của mô hình
Precision và recall là các thước đo quan trọng để đánh giá khả năng của mô hình trong việc phân loại các lớp Trong trường hợp này, chúng ta quan tâm đặc biệt đến khả năng dự đoán chính xác khách hàng sẽ rời mạng (churn)
Các mô hình như Logistic Regression, k-Nearest Neighbor, và Naive Bayes không thể đạt được hiệu suất cao trên tập dữ liệu này, có thể do sự phức tạp của mô hình dữ liệu hoặc các giả định không được thỏa mãn
Các mô hình Ensemble như AdaBoost, Gradient Boosting và Random Forest đã cho thấy hiệu suất tốt hơn, với precision và recall cân bằng tốt và accuracy cao
Kỹ thuật Oversampling kết hợp với mô hình Random Forest đã cải thiện được hiệu suất của mô hình, tuy nhiên, việc giảm chiều cao cây quyết định có thể gây ra sự giảm độ chính xác
Quá trình hiệu chỉnh tham số (Hyperparameter Tuning) cũng có thể cải thiện được hiệu suất của mô hình, nhưng cần phải cân nhắc kỹ lưỡng để tránh việc overfitting và underfitting
Như vậy, việc chọn mô hình phù hợp và tối ưu hóa các tham số là quan trọng để đạt được hiệu suất tốt nhất trên tập dữ liệu, và cần phải cân nhắc kỹ lưỡng giữa các yếu tố như độ chính xác, precision và recall để có cái nhìn toàn diện về hiệu suất của mô hình.
Hạn chế đề tài
Dưới đây là một số hạn chế của đề tài:
Dữ liệu không cân bằng: Trong tập dữ liệu khách hàng rời mạng viễn thông, có thể gặp phải vấn đề mất cân bằng dữ liệu giữa các nhóm khách hàng Điều này có thể làm cho việc đánh giá hiệu suất của mô hình trở nên không chính xác, đặc biệt là đối với các mô hình có độ nhạy cao với mất cân bằng dữ liệu
Dữ liệu thiếu và không chính xác: Dữ liệu trong thực tế thường có thể bị thiếu hoặc không chính xác, điều này có thể ảnh hưởng đến quá trình tiền xử lý dữ liệu và đưa ra các kết luận có thể không chính xác
Giả định về phân phối của dữ liệu: Một số mô hình học máy giả định về phân phối của dữ liệu, chẳng hạn như phân phối chuẩn trong Linear Regression Nếu dữ liệu không tuân theo phân phối này, mô hình có thể không hoạt động hiệu quả
Giới hạn của các mô hình: Mỗi mô hình có những điểm mạnh và yếu riêng, và không có một mô hình nào phù hợp cho tất cả các loại dữ liệu Điều này có thể là một thách thức trong việc chọn mô hình phù hợp nhất cho dữ liệu cụ thể Như vậy, việc nhận diện và giải quyết những hạn chế này là quan trọng để đảm bảo hiệu suất và độ tin cậy của mô hình học máy trên dữ liệu khách hàng rời mạng viễn thông.
Vấn đề kiến nghị và hướng đi tiếp theo của nghiên cứu
Dựa trên các hạn chế của đề tài và kết quả thu được, dưới đây là một số kiến nghị và hướng nghiên cứu tiếp theo:
Thu thập dữ liệu cân bằng: Để cải thiện hiệu suất của mô hình, nên thu thập dữ liệu cân bằng hơn giữa các nhóm khách hàng, đặc biệt là giữa nhóm khách hàng rời mạng và nhóm khách hàng không rời mạng
Tăng cường tiền xử lý dữ liệu: Cần tiến hành tiền xử lý dữ liệu một cách cẩn thận để xử lý dữ liệu thiếu, ngoại lai và không chính xác Đồng thời, có thể thử nghiệm các kỹ thuật mới để tạo ra các đặc trưng mới có thể cải thiện hiệu suất của mô hình
Sử dụng mô hình học máy phù hợp: Nên xem xét sử dụng các mô hình học máy khác nhau để so sánh hiệu suất và tìm ra mô hình phù hợp nhất cho dữ liệu cụ thể Có thể thử nghiệm với các mô hình mới và nâng cao để cải thiện kết quả
Tối ưu hóa các siêu tham số: Cần tiến hành tối ưu hóa các siêu tham số của các mô hình học máy để đạt được hiệu suất tốt nhất Các phương pháp tối ưu hóa như tìm kiếm lưới, tìm kiếm ngẫu nhiên hoặc tối ưu hóa Bayesian có thể được sử dụng để điều chỉnh các siêu tham số một cách hiệu quả
Phân tích thêm về đặc trưng quan trọng: Nên tiến hành phân tích để hiểu rõ hơn về tầm quan trọng của các đặc trưng trong việc dự đoán việc rời mạng của khách hàng Điều này có thể giúp tăng cường hiểu biết về lý do mà các khách hàng rời mạng
Nghiên cứu về giải pháp và chiến lược giữ chân khách hàng: Ngoài việc dự đoán việc rời mạng, cần thực hiện nghiên cứu để phát triển các giải pháp và chiến lược giữ chân khách hàng Điều này bao gồm việc phát hiện và giải quyết các vấn đề mà khách hàng có thể gặp phải, từ đó tăng cường sự hài lòng và trung thành của họ
Xin chủ trương lãnh đạo VNPT Tây Ninh được khai thác toàn bộ các trường dữ liệu khách hàng hiện hữu để đưa vào thử nghiệm mô hình nhầm, xác định hiệu suất thực sự của mô hình trước khi áp dụng vào thực tế
Xây dựng ứng dụng với các tính năng dự báo cụ thể như dự báo lượng khách hàng rời mạng cho ngày, tháng, năm góp phần cho việc xây dựng kế hoạch, chính sách chăm sóc khách hàng, và thực hiện chăm sóc khách hàng kịp thời hiệu quả hạn chế đến mức thấp nhất việc khách hàng rời mạng
Ứng dụng cần phải xác định được đối tượng người dụng một các cụ thể như lãnh đạo phòng chăm sóc khách hàng khai thác module nào, nhân viên trực tiếp chăm sóc khách hàng thực hiện khác thác module nào …
Tóm lại, việc tiếp tục nghiên cứu trong các hướng trên có thể giúp cải thiện hiệu suất của mô hình dự đoán việc rời mạng và đưa ra các giải pháp kinh doanh hiệu quả để giữ chân khách hàng.