Hỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thông
Trang 1HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
-
Đặng Võ Thừa Phong
HỖ TRỢ CHĂM SÓC KHÁCH HÀNG DỰA VÀO HỌC MÁY CHO DOANH NGHIỆP
Trang 2Đề án tốt nghiệp được hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Người hướng dẫn khoa học: TS Tân Hạnh
Phản biện 1: ……… Phản biện 2: ………
Đề án tốt nghiệp sẽ được bảo vệ trước Hội đồng chấm đề
án tốt nghiệp thạc sĩ tại Học viện Công nghệ Bưu chính Viễn thông
Vào lúc: giờ ngày tháng năm
Có thể tìm hiểu đề án tốt nghiệp tại:
- Thư viện của Học viện Công nghệ Bưu chính Viễn thông
Trang 3MỞ ĐẦU
Đối với nhà cung cấp dịch vụ như VNPT Tây Ninh, việc chăm sóc khách hàng là một trong những ưu tiên hàng đầu, và doanh nghiệp VNPT gọi công việc này là B2A (chăm sóc và tri ân khách hàng toàn diện đến từng nhà) Với một hệ thống kinh doanh có rất nhiều khách hàng, việc chăm sóc riêng biệt cho từng khách hàng gần như là không thể Các doanh nghiệp Viễn thông cần phải
có kế hoạch và chiến lượt cụ thể cho từng khách hàng Để phân tích chi tiết và chọn lọc từng khách hàng là rất khó khăn với số lượng thông tin vô cùng lớn Vì vậy việc áp dụng các kỹ thuật học máy để phân loại và dự đoán các trường hợp nên được chăm sóc vô cùng cần thiết Trong
đề án này sẽ tiến hành nghiên cứu việc áp dụng mạng nơron vào việc hỗ trợ phân loại và đề xuất các khách hàng cần được chăm sóc dựa trên việc học có giám sát
Bên cạnh phần mở đầu, phần kết luận và phần tài liệu tham khảo, phần nội dung chính của đề án được chia thành 3 chương chính như sau:
Trang 4Chương 1 – Cơ sở lý thuyết
Chương 2 – Kỹ thuật học máy cho phân lớp dữ liệu Chương 3 – Xây dựng mô hình dự đoán tập khách
hàng cần chăm sóc B2A Phân tích và đánh giá kết quả đạt được
Trang 5CHƯƠNG 1: TỔNG QUAN ĐỀ TÀI1.1 Khái niệm B2A
B2A, viết tắt của "Business-to-Anyone," là một khái niệm trong lĩnh vực thương mại điện tử, thể hiện mối quan hệ giữa doanh nghiệp (business) và bất kỳ cá nhân hoặc hộ gia đình nào (anyone) B2A đặc biệt nhấn mạnh việc doanh nghiệp cung cấp sản phẩm, dịch vụ và tương tác trực tiếp với mọi người, không chỉ giới hạn trong khách hàng truyền thống mà còn bao gồm cả các cá nhân không liên quan trực tiếp đến doanh nghiệp
1.2 Tổng quan về B2A tại các doanh nghiệp viễn thông
1.2.1 Lý do cần phải thực hiện B2A
B2A được hình thành với mục đính là giữ mối quan
hệ với khách hàng, việc chăm sóc khách hàng tận nhà cũng giúp các doanh nghiệp tiếp cận được với khách hàng tiềm năng và tăng cường quan hệ với khách hàng hiện tại Khi nhân viên B2A đến tận nhà khách hàng, họ có cơ hội
để tương tác và trò chuyện trực tiếp với khách hàng, hiểu
Trang 6rõ nhu cầu và yêu cầu của họ Việc này thúc đẩy doanh nghiệp cải tiến cả sản phẩm và dịch vụ của họ để đáp ứng chính xác nhu cầu của khách hàng, tạo ra sự phân biệt trong môi trường cạnh tranh
1.2.2 Doanh thu đạt được từ 2 loại khách hàng
Trong tổng doanh thu bán được, 65% là doanh thu
mà doanh nghiệp thu được từ các khách hàng hiện hữu - các khách hàng đã từng mua sản phẩm/dịch vụ và đã có mối quan hệ với doanh nghiệp trong thời gian dài Tỷ lệ này cao hơn so với tỷ lệ 35% của khách hàng mới, cho thấy một phần quan trọng của doanh thu đến từ việc giữ chân và phát triển khách hàng hiện hữu
1.2.3 Các nội dung công việc B2A
Khi nhân viên của các doanh nghiệp viễn thông thực hiện B2A tại nhà của khách hàng, các công việc được đơn giản hóa như sau:
Vệ sinh thiết bị đầu cuối khách hang
Kiểm tra trạng thái hoạt động thiết bị GPON ONT, MyTV, WiFi Mesh…
Trang 7 Kiểm tra tốc độ và cường độ mạng wifi
Điều chỉnh, tối ưu sóng WiFi trên ONT để tăng khả năng phủ song
Khảo sát và cập nhật số điện thoại liên hệ khách hàng hiện hữu
Khảo sát nhu cầu của KH về truyền hình, di động, ứng dụng CNTT
Giới thiệu các khuyến mãi mới chỉ trong đợt B2A
Bán thâm canh dịch vụ MyTV, di động, tăng băng thông
Phát ấn phẩm, cẩm nang về các dịch vụ của doanh nghiệp
Trang 8CHƯƠNG 2: KỸ THUẬT HỌC MÁY CHO
PHÂN LỚP DỮ LIỆU 2.1 Bài toán phân lớp dữ liệu
2.1.1 Khái niệm về bài toán phân lớp dữ liệu
Khai phá dữ liệu: Khai phá dữ liệu tức là khai thác
hoặc đào sâu vào các loại dữ liệu khác nhau để tìm ra các mẫu, cũng như để thu thập thông tin về các mẫu đó Trong quá trình khai thác dữ liệu, các tập dữ liệu lớn sẽ được sắp xếp và các mẫu cụ thể sẽ được xác định, sau đó việc xác định các mối quan hệ giữa chúng sẽ được thực hiện để phân tích dữ liệu và giải quyết các vấn đề
Phân lớp dữ liệu: Phân định dữ liệu là một hoạt
động phân tích dữ liệu, đó là quá trình tìm kiếm một khung cảnh để mô tả và phân chia các nhóm và khái niệm của dữ liệu Phân chia đặt ra nhiệm vụ xác định hạng mục (tập con dữ liệu) nào dữ liệu mới thuộc về, dựa trên tập dữ liệu huấn luyện mà đã chứa các dữ liệu và nhóm đã biết trước
Trang 92.2 Thuật toán cây quyết định
Một trong những thuật toán máy học phổ biến nhất hiện nay là cây quyết định Nó được dùng trong cả bài toán phân lớp và hồi quy
Cây quyết định được hình thành khi mỗi nút tượng trưng cho một thuộc tính cụ thể, mỗi nhánh biểu thị cho một luật cụ thể và mỗi lá đại diện cho một kết quả riêng
biệt (giá trị cụ thể hoặc một nhánh khác)
Hình 2.3: Mô hình cây quyết định
Trang 102.3 Thuật toán rừng ngẫu nhiên
Rừng ngẫu nhiên là một thuật toán học có giám sát
Có thể thấy từ tên của nó, nó tạo ra một khu rừng một cách ngẫu nhiên “Khu rừng” mà ta tạo ra là một tập hợp các cây quyết định Ý tưởng chính của phương pháp là sự kết hợp của các mô hình học tập làm tăng kết quả chung
Rừng ngẫu nhiên bao gồm một tập hợp đông đảo các cây, mỗi cây được hình thành từ các tập huấn luyện được chọn ngẫu nhiên Hai tham số quan trọng phải được định rõ trong quá trình phân loại này là ntree (số cây được tạo) và mtry (số lượng biến sử dụng để phân tách tại mỗi nút) Số lượng ntree được lựa chọn dựa trên yếu tố thời gian xử lý ngắn nhất để đạt được kết quả có sai số thấp nhất, trong khi mtry biến đổi từ số biến độc lập tối thiểu (1) đến số biến độc lập tối đa được sử dụng trong quá trình phân loại
Trang 11Hình 2.4 Thuật toán rừng ngẫu nhiên
2.4 Thuật toán C4.5
C4.5 là một phương pháp được sử dụng để tạo ra cấu trúc cây quyết định, phát triển từ thuật toán ID3 do J R Quinlan phát triển vào năm 1993 [11] Đặc điểm của C4.5:
Áp dụng Gain Ratio (thay vì Information Gain) để lựa chọn thuộc tính dùng để phân chia trong giai đoạn xây dựng cây
Trang 12 Xử lý tốt hai dạng thuộc tính: rời rạc, liên tục
Giải quyết vấn đề về dữ liệu không đầy đủ (thiếu giá trị tại một số thuộc tính)
Các giá trị bị thiếu không được xử lý trong quá trình tính toán Information Gain và Gain Ratio
Loại bỏ cây sau khi xây dựng: Loại đi những nhánh không có ý nghĩa (thay bằng nút lá)
2.5 Thuật toán SVM
Kỹ thuật Support Vector Machine (SVM) là một phương pháp học máy mạnh mẽ được sử dụng rộng rãi trong các nhiệm vụ phân loại và hồi quy Đặc trưng của SVM là khả năng xây dựng các siêu phẳng tối ưu trong không gian đa chiều để phân tách các điểm dữ liệu thuộc các lớp khác nhau một cách tối ưu
SVM tập trung vào việc tìm ra siêu phẳng có khoảng cách lớn nhất giữa các điểm dữ liệu thuộc các lớp khác nhau Siêu phẳng này được gọi là siêu phẳng cách biệt (margin) SVM cũng có khả năng làm việc tốt với dữ liệu không tuyến tính thông qua việc sử dụng hàm kernel
Trang 13để chuyển đổi không gian dữ liệu ban đầu sang không gian tương ứng mà việc phân loại trở nên tuyến tính
2.6 Logistic Regression
Logistic Regression (hồi quy logistic) là một phương pháp thống kê được sử dụng trong dự đoán biến phụ thuộc có giá trị rời rạc (như 0 hoặc 1) Mặc dù tên gọi
có từ "hồi quy", nhưng Logistic Regression thực chất là một thuật toán phân loại
Trang 14dụng cơ số 2 hoặc 10 có thể làm kết quả tính toán dễ dàng hơn
2.7 Thư viện Scikit-learn
Scikit-learn [6] là một thư viện đáng tin cậy và mạnh mẽ dành cho các thuật toán học máy được viết bằng ngôn ngữ Python Thư viện cung cấp một loạt các công cụ
để xử lý các bài toán liên quan đến machine learning và statistical modeling bao gồm: phân loại, hồi quy, phân cụm và giảm chiều dữ liệu Thư viện được cấp phép theo bản quyền chuẩn của FreeBSD và có khả năng hoạt động trên nhiều hệ thống Linux khác nhau Scikit-learn được sử dụng như một nguồn tư liệu học tập
Trang 15CHƯƠNG 3: XÂY DỰNG MÔ HÌNH 3.1 Bài toán đề xuất B2A tại VNPT
Hiện nay, tại VNPT Tây Ninh, việc theo dõi và quản lý chăm sóc khách hàng hoàn toàn dựa vào yếu tố con người, từ các nhân viên thu cước, kỹ thuật đến quản lý địa bàn Quá trình này được thực hiện và điều phối bởi cấp lãnh đạo của Phòng Bán hàng, Trung tâm Kinh doanh và Viễn thông tỉnh Điều này đòi hỏi nhiều yếu tố như kỹ năng của nhân viên và khả năng điều phối, đôn đốc và giám sát từ các cấp lãnh đạo
Đề tài nghiên cứu đã đề xuất sử dụng các kỹ thuật học máy để hỗ trợ quá trình chăm sóc khách hàng sử dụng dịch vụ Internet cáp quang Nghiên cứu cũng tiến hành thực nghiệm tại VNPT Tây Ninh để đánh giá kết quả Kết quả của nghiên cứu sẽ đưa ra hướng phát triển mở rộng để đáp ứng những nhu cầu triển khai thực tế tại đơn vị này
3.2 Xây dựng mô hình
Cách để tạo mô hình dự đoán dữ liệu khách hàng cần chăm sóc B2A được minh họa qua biểu đồ trong Hình 3.1
Trang 16Hình 3.1: Mô tả quy trình dự đoán 3.3 Chuẩn bị và tiền xử lý dữ liệu
Giai đoạn tiền xử lý và chuẩn bị dữ liệu ban đầu luôn đóng một vai trò quan trọng trong quy trình khai phá
Trang 17dữ liệu Dữ liệu là một trong hai thành phần chính của
việc phân loại dữ liệu Để dự đoán thuê bao cần chăm sóc
B2A, thông tin về khách hàng, thanh toán và quá trình sử
dụng cần được thu thập và sắp xếp Dữ liệu từ nhiều
nguồn khác nhau được kết hợp để xây dựng một cơ sở dữ
liệu dùng để dự đoán việc chăm sóc khách hàng
Hình 3.2: Dữ liệu thực tế tại Tây Ninh
Quá trình làm sạch dữ liệu được thực hiện như sau:
1 Loại bỏ các dòng dữ liệu có trường trống hoặc
NULL
2 Loại bỏ các trường dữ liệu bất thường ví dụ trạng
thái khóa hai chiều nhưng vẫn có doanh thu trong tháng
3 Loại bỏ các trường dữ liệu mang tính bảo mật
của người dùng như họ tên, địa chỉ nhà, số thuê bao điện
thoại
Trang 184 Kiểu dữ liệu từ dạng chữ (chuỗi) sẽ được chuyển đổi sang dạng số bằng cách mã hóa các kí tự bằng các giá trị số tương ứng
Hàm fit_transform sẽ thực hiện việc chuyển đổi dữ liệu dạng số nguyên như sau: tốc độ, số ngày khóa, doanh thu, tiền nợ, số tháng nợ, số lần báo hỏng, số lần không hài lòng, số tháng sử dụng
Trang 1908 trường dữ liệu được chọn bao gồm:, Số ngày khóa, Loại khách hàng, Doanh thu, Tiền nợ cước, Số lần báo hỏng thiết bị, Số lần không hài lòng dịch vụ, Tốc độ gói cước, Số tháng nợ
Hình 3.6: Các trường dữ liệu được lựa chọn
3.4 Tiến hành thực hiện dự đoán dữ liệu
Bằng việc tận dụng các thuật toán có sẵn trong thư viện Scikit-Learn, được đánh giá cao trong việc dự đoán chăm sóc khách hàng, và có sự cân nhắc đến sự tin cậy, hiệu quả và mức độ phổ biến, nghiên cứu thực nghiệm đã thực hiện trên dữ liệu thực tế với các mô hình dự đoán như: Phân loại Logistic Regression, Phân loại SVM, Phân loại Random Forest, Phân loại Decision Tree Dữ liệu đã được thu thập và kết quả đã được đánh giá để lựa chọn mô hình tối ưu
Trang 213.4.3 Dự đoán bằng Random Forest
Lớp dự đoán (predicted class)
3.4.4 Dự đoán bằng Decision Tree
Lớp dự đoán (predicted class)
Trang 223.5 Kết quả dự đoán và đánh giá
Bảng 3.9: Kết quả dự đoán của các mô hình
Hình 3.7: Biểu đồ so sánh mức chính xác của 4 thuật toán
phân lớp
Qua quá trình này, chúng ta có thể thấy rằng mô hình sử dụng thuật toán RF đạt được hiệu suất tốt nhất về
Trang 23độ chính xác, trong khi thuật toán DT đem lại hiệu suất tốt nhất về thời gian thực thi Điều này có thể giúp giải quyết bài toán dự đoán chăm sóc khách hàng cần thiết B2A theo từng tháng, quý hoặc năm dựa trên dữ liệu về dịch vụ Internet cáp quang của VNPT Tây Ninh
Trang 24KẾT LUẬN
1 Kết quả nghiên cứu của đề tài
Thông qua quá trình tìm hiểu, nghiên cứu và áp dụng các phương pháp khai phá dữ liệu, tiền xử lý dữ liệu, cùng với các phương pháp học máy và thuật toán dự báo,
đề án đã đạt được những thành tựu sau:
- Xây dựng một cơ sở dữ liệu chứa thông tin quan trọng về khách hàng
- Xác định thuộc tính ảnh hưởng đến chăm sóc khách hàng
- Xây dựng mô hình dự báo với độ chính xác cao Những kết quả này đóng góp vào việc nâng cao khả năng hỗ trợ dự báo khách hàng cần chăm sóc B2A và có thể áp dụng trong các tình huống thực tế
mobile sink để tránh bỏ sót gói tin do giới hạn phạm vi cảm biến
2 Hướng phát triển
Hoàn thiện các công cụ phân tích thống kê và triển khai thực hiện đề án này, tận dụng chúng một cách hiệu
Trang 25quả để nâng cao chất lượng chăm sóc và duy trì khách hàng Điều này sẽ giúp ổn định thị trường, củng cố uy tín của VNPT Tây Ninh là nhà cung cấp dịch vụ và giảm thiểu nguy cơ sụt giảm doanh thu
Việc tích hợp các công cụ này vào chương trình Điều hành sản xuất kinh doanh tại VNPT Tây Ninh sẽ mang lại một cách thức chủ động để chăm sóc khách hàng Ngoài ra, cần thường xuyên phân tích tập dữ liệu để khám phá thêm các thuộc tính tiềm năng có thể ảnh hưởng đến chăm sóc khách hàng Điều này sẽ giúp tối ưu hóa mô hình dự đoán chăm sóc B2A, đảm bảo rằng công cụ dự đoán hoạt động với mức độ chính xác ngày càng tăng