Hỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thông

Hỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thôngHỗ trợ chăm sóc khách hàng dựa vào học máy cho doanh nghiệp Viễn thông

Trang 1

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

-

Đặng Võ Thừa Phong

HỖ TRỢ CHĂM SÓC KHÁCH HÀNG DỰA VÀO HỌC MÁY CHO DOANH NGHIỆP

Trang 2

Đề án tốt nghiệp được hoàn thành tại:

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

Người hướng dẫn khoa học: TS Tân Hạnh

Phản biện 1: ……… Phản biện 2: ………

Đề án tốt nghiệp sẽ được bảo vệ trước Hội đồng chấm đề

án tốt nghiệp thạc sĩ tại Học viện Công nghệ Bưu chính Viễn thông

Vào lúc: giờ ngày tháng năm

Có thể tìm hiểu đề án tốt nghiệp tại:

- Thư viện của Học viện Công nghệ Bưu chính Viễn thông

Trang 3

MỞ ĐẦU

Đối với nhà cung cấp dịch vụ như VNPT Tây Ninh, việc chăm sóc khách hàng là một trong những ưu tiên hàng đầu, và doanh nghiệp VNPT gọi công việc này là B2A (chăm sóc và tri ân khách hàng toàn diện đến từng nhà) Với một hệ thống kinh doanh có rất nhiều khách hàng, việc chăm sóc riêng biệt cho từng khách hàng gần như là không thể Các doanh nghiệp Viễn thông cần phải

có kế hoạch và chiến lượt cụ thể cho từng khách hàng Để phân tích chi tiết và chọn lọc từng khách hàng là rất khó khăn với số lượng thông tin vô cùng lớn Vì vậy việc áp dụng các kỹ thuật học máy để phân loại và dự đoán các trường hợp nên được chăm sóc vô cùng cần thiết Trong

đề án này sẽ tiến hành nghiên cứu việc áp dụng mạng nơron vào việc hỗ trợ phân loại và đề xuất các khách hàng cần được chăm sóc dựa trên việc học có giám sát

Bên cạnh phần mở đầu, phần kết luận và phần tài liệu tham khảo, phần nội dung chính của đề án được chia thành 3 chương chính như sau:

Trang 4

Chương 1 – Cơ sở lý thuyết

Chương 2 – Kỹ thuật học máy cho phân lớp dữ liệu Chương 3 – Xây dựng mô hình dự đoán tập khách

hàng cần chăm sóc B2A Phân tích và đánh giá kết quả đạt được

Trang 5

CHƯƠNG 1: TỔNG QUAN ĐỀ TÀI1.1 Khái niệm B2A

B2A, viết tắt của "Business-to-Anyone," là một khái niệm trong lĩnh vực thương mại điện tử, thể hiện mối quan hệ giữa doanh nghiệp (business) và bất kỳ cá nhân hoặc hộ gia đình nào (anyone) B2A đặc biệt nhấn mạnh việc doanh nghiệp cung cấp sản phẩm, dịch vụ và tương tác trực tiếp với mọi người, không chỉ giới hạn trong khách hàng truyền thống mà còn bao gồm cả các cá nhân không liên quan trực tiếp đến doanh nghiệp

1.2 Tổng quan về B2A tại các doanh nghiệp viễn thông

1.2.1 Lý do cần phải thực hiện B2A

B2A được hình thành với mục đính là giữ mối quan

hệ với khách hàng, việc chăm sóc khách hàng tận nhà cũng giúp các doanh nghiệp tiếp cận được với khách hàng tiềm năng và tăng cường quan hệ với khách hàng hiện tại Khi nhân viên B2A đến tận nhà khách hàng, họ có cơ hội

để tương tác và trò chuyện trực tiếp với khách hàng, hiểu

Trang 6

rõ nhu cầu và yêu cầu của họ Việc này thúc đẩy doanh nghiệp cải tiến cả sản phẩm và dịch vụ của họ để đáp ứng chính xác nhu cầu của khách hàng, tạo ra sự phân biệt trong môi trường cạnh tranh

1.2.2 Doanh thu đạt được từ 2 loại khách hàng

Trong tổng doanh thu bán được, 65% là doanh thu

mà doanh nghiệp thu được từ các khách hàng hiện hữu - các khách hàng đã từng mua sản phẩm/dịch vụ và đã có mối quan hệ với doanh nghiệp trong thời gian dài Tỷ lệ này cao hơn so với tỷ lệ 35% của khách hàng mới, cho thấy một phần quan trọng của doanh thu đến từ việc giữ chân và phát triển khách hàng hiện hữu

1.2.3 Các nội dung công việc B2A

Khi nhân viên của các doanh nghiệp viễn thông thực hiện B2A tại nhà của khách hàng, các công việc được đơn giản hóa như sau:

 Vệ sinh thiết bị đầu cuối khách hang

 Kiểm tra trạng thái hoạt động thiết bị GPON ONT, MyTV, WiFi Mesh…

Trang 7

 Kiểm tra tốc độ và cường độ mạng wifi

 Điều chỉnh, tối ưu sóng WiFi trên ONT để tăng khả năng phủ song

 Khảo sát và cập nhật số điện thoại liên hệ khách hàng hiện hữu

 Khảo sát nhu cầu của KH về truyền hình, di động, ứng dụng CNTT

 Giới thiệu các khuyến mãi mới chỉ trong đợt B2A

 Bán thâm canh dịch vụ MyTV, di động, tăng băng thông

 Phát ấn phẩm, cẩm nang về các dịch vụ của doanh nghiệp

Trang 8

CHƯƠNG 2: KỸ THUẬT HỌC MÁY CHO

PHÂN LỚP DỮ LIỆU 2.1 Bài toán phân lớp dữ liệu

2.1.1 Khái niệm về bài toán phân lớp dữ liệu

Khai phá dữ liệu: Khai phá dữ liệu tức là khai thác

hoặc đào sâu vào các loại dữ liệu khác nhau để tìm ra các mẫu, cũng như để thu thập thông tin về các mẫu đó Trong quá trình khai thác dữ liệu, các tập dữ liệu lớn sẽ được sắp xếp và các mẫu cụ thể sẽ được xác định, sau đó việc xác định các mối quan hệ giữa chúng sẽ được thực hiện để phân tích dữ liệu và giải quyết các vấn đề

Phân lớp dữ liệu: Phân định dữ liệu là một hoạt

động phân tích dữ liệu, đó là quá trình tìm kiếm một khung cảnh để mô tả và phân chia các nhóm và khái niệm của dữ liệu Phân chia đặt ra nhiệm vụ xác định hạng mục (tập con dữ liệu) nào dữ liệu mới thuộc về, dựa trên tập dữ liệu huấn luyện mà đã chứa các dữ liệu và nhóm đã biết trước

Trang 9

2.2 Thuật toán cây quyết định

Một trong những thuật toán máy học phổ biến nhất hiện nay là cây quyết định Nó được dùng trong cả bài toán phân lớp và hồi quy

Cây quyết định được hình thành khi mỗi nút tượng trưng cho một thuộc tính cụ thể, mỗi nhánh biểu thị cho một luật cụ thể và mỗi lá đại diện cho một kết quả riêng

biệt (giá trị cụ thể hoặc một nhánh khác)

Hình 2.3: Mô hình cây quyết định

Trang 10

2.3 Thuật toán rừng ngẫu nhiên

Rừng ngẫu nhiên là một thuật toán học có giám sát

Có thể thấy từ tên của nó, nó tạo ra một khu rừng một cách ngẫu nhiên “Khu rừng” mà ta tạo ra là một tập hợp các cây quyết định Ý tưởng chính của phương pháp là sự kết hợp của các mô hình học tập làm tăng kết quả chung

Rừng ngẫu nhiên bao gồm một tập hợp đông đảo các cây, mỗi cây được hình thành từ các tập huấn luyện được chọn ngẫu nhiên Hai tham số quan trọng phải được định rõ trong quá trình phân loại này là ntree (số cây được tạo) và mtry (số lượng biến sử dụng để phân tách tại mỗi nút) Số lượng ntree được lựa chọn dựa trên yếu tố thời gian xử lý ngắn nhất để đạt được kết quả có sai số thấp nhất, trong khi mtry biến đổi từ số biến độc lập tối thiểu (1) đến số biến độc lập tối đa được sử dụng trong quá trình phân loại

Trang 11

Hình 2.4 Thuật toán rừng ngẫu nhiên

2.4 Thuật toán C4.5

C4.5 là một phương pháp được sử dụng để tạo ra cấu trúc cây quyết định, phát triển từ thuật toán ID3 do J R Quinlan phát triển vào năm 1993 [11] Đặc điểm của C4.5:

 Áp dụng Gain Ratio (thay vì Information Gain) để lựa chọn thuộc tính dùng để phân chia trong giai đoạn xây dựng cây

Trang 12

 Xử lý tốt hai dạng thuộc tính: rời rạc, liên tục

 Giải quyết vấn đề về dữ liệu không đầy đủ (thiếu giá trị tại một số thuộc tính)

 Các giá trị bị thiếu không được xử lý trong quá trình tính toán Information Gain và Gain Ratio

Loại bỏ cây sau khi xây dựng: Loại đi những nhánh không có ý nghĩa (thay bằng nút lá)

2.5 Thuật toán SVM

Kỹ thuật Support Vector Machine (SVM) là một phương pháp học máy mạnh mẽ được sử dụng rộng rãi trong các nhiệm vụ phân loại và hồi quy Đặc trưng của SVM là khả năng xây dựng các siêu phẳng tối ưu trong không gian đa chiều để phân tách các điểm dữ liệu thuộc các lớp khác nhau một cách tối ưu

SVM tập trung vào việc tìm ra siêu phẳng có khoảng cách lớn nhất giữa các điểm dữ liệu thuộc các lớp khác nhau Siêu phẳng này được gọi là siêu phẳng cách biệt (margin) SVM cũng có khả năng làm việc tốt với dữ liệu không tuyến tính thông qua việc sử dụng hàm kernel

Trang 13

để chuyển đổi không gian dữ liệu ban đầu sang không gian tương ứng mà việc phân loại trở nên tuyến tính

2.6 Logistic Regression

Logistic Regression (hồi quy logistic) là một phương pháp thống kê được sử dụng trong dự đoán biến phụ thuộc có giá trị rời rạc (như 0 hoặc 1) Mặc dù tên gọi

có từ "hồi quy", nhưng Logistic Regression thực chất là một thuật toán phân loại

Trang 14

dụng cơ số 2 hoặc 10 có thể làm kết quả tính toán dễ dàng hơn

2.7 Thư viện Scikit-learn

Scikit-learn [6] là một thư viện đáng tin cậy và mạnh mẽ dành cho các thuật toán học máy được viết bằng ngôn ngữ Python Thư viện cung cấp một loạt các công cụ

để xử lý các bài toán liên quan đến machine learning và statistical modeling bao gồm: phân loại, hồi quy, phân cụm và giảm chiều dữ liệu Thư viện được cấp phép theo bản quyền chuẩn của FreeBSD và có khả năng hoạt động trên nhiều hệ thống Linux khác nhau Scikit-learn được sử dụng như một nguồn tư liệu học tập

Trang 15

CHƯƠNG 3: XÂY DỰNG MÔ HÌNH 3.1 Bài toán đề xuất B2A tại VNPT

Hiện nay, tại VNPT Tây Ninh, việc theo dõi và quản lý chăm sóc khách hàng hoàn toàn dựa vào yếu tố con người, từ các nhân viên thu cước, kỹ thuật đến quản lý địa bàn Quá trình này được thực hiện và điều phối bởi cấp lãnh đạo của Phòng Bán hàng, Trung tâm Kinh doanh và Viễn thông tỉnh Điều này đòi hỏi nhiều yếu tố như kỹ năng của nhân viên và khả năng điều phối, đôn đốc và giám sát từ các cấp lãnh đạo

Đề tài nghiên cứu đã đề xuất sử dụng các kỹ thuật học máy để hỗ trợ quá trình chăm sóc khách hàng sử dụng dịch vụ Internet cáp quang Nghiên cứu cũng tiến hành thực nghiệm tại VNPT Tây Ninh để đánh giá kết quả Kết quả của nghiên cứu sẽ đưa ra hướng phát triển mở rộng để đáp ứng những nhu cầu triển khai thực tế tại đơn vị này

3.2 Xây dựng mô hình

Cách để tạo mô hình dự đoán dữ liệu khách hàng cần chăm sóc B2A được minh họa qua biểu đồ trong Hình 3.1

Trang 16

Hình 3.1: Mô tả quy trình dự đoán 3.3 Chuẩn bị và tiền xử lý dữ liệu

Giai đoạn tiền xử lý và chuẩn bị dữ liệu ban đầu luôn đóng một vai trò quan trọng trong quy trình khai phá

Trang 17

dữ liệu Dữ liệu là một trong hai thành phần chính của

việc phân loại dữ liệu Để dự đoán thuê bao cần chăm sóc

B2A, thông tin về khách hàng, thanh toán và quá trình sử

dụng cần được thu thập và sắp xếp Dữ liệu từ nhiều

nguồn khác nhau được kết hợp để xây dựng một cơ sở dữ

liệu dùng để dự đoán việc chăm sóc khách hàng

Hình 3.2: Dữ liệu thực tế tại Tây Ninh

Quá trình làm sạch dữ liệu được thực hiện như sau:

1 Loại bỏ các dòng dữ liệu có trường trống hoặc

NULL

2 Loại bỏ các trường dữ liệu bất thường ví dụ trạng

thái khóa hai chiều nhưng vẫn có doanh thu trong tháng

3 Loại bỏ các trường dữ liệu mang tính bảo mật

của người dùng như họ tên, địa chỉ nhà, số thuê bao điện

thoại

Trang 18

4 Kiểu dữ liệu từ dạng chữ (chuỗi) sẽ được chuyển đổi sang dạng số bằng cách mã hóa các kí tự bằng các giá trị số tương ứng

Hàm fit_transform sẽ thực hiện việc chuyển đổi dữ liệu dạng số nguyên như sau: tốc độ, số ngày khóa, doanh thu, tiền nợ, số tháng nợ, số lần báo hỏng, số lần không hài lòng, số tháng sử dụng

Trang 19

08 trường dữ liệu được chọn bao gồm:, Số ngày khóa, Loại khách hàng, Doanh thu, Tiền nợ cước, Số lần báo hỏng thiết bị, Số lần không hài lòng dịch vụ, Tốc độ gói cước, Số tháng nợ

Hình 3.6: Các trường dữ liệu được lựa chọn

3.4 Tiến hành thực hiện dự đoán dữ liệu

Bằng việc tận dụng các thuật toán có sẵn trong thư viện Scikit-Learn, được đánh giá cao trong việc dự đoán chăm sóc khách hàng, và có sự cân nhắc đến sự tin cậy, hiệu quả và mức độ phổ biến, nghiên cứu thực nghiệm đã thực hiện trên dữ liệu thực tế với các mô hình dự đoán như: Phân loại Logistic Regression, Phân loại SVM, Phân loại Random Forest, Phân loại Decision Tree Dữ liệu đã được thu thập và kết quả đã được đánh giá để lựa chọn mô hình tối ưu

Trang 21

3.4.3 Dự đoán bằng Random Forest

Lớp dự đoán (predicted class)

3.4.4 Dự đoán bằng Decision Tree

Lớp dự đoán (predicted class)

Trang 22

3.5 Kết quả dự đoán và đánh giá

Bảng 3.9: Kết quả dự đoán của các mô hình

Hình 3.7: Biểu đồ so sánh mức chính xác của 4 thuật toán

phân lớp

Qua quá trình này, chúng ta có thể thấy rằng mô hình sử dụng thuật toán RF đạt được hiệu suất tốt nhất về

Trang 23

độ chính xác, trong khi thuật toán DT đem lại hiệu suất tốt nhất về thời gian thực thi Điều này có thể giúp giải quyết bài toán dự đoán chăm sóc khách hàng cần thiết B2A theo từng tháng, quý hoặc năm dựa trên dữ liệu về dịch vụ Internet cáp quang của VNPT Tây Ninh

Trang 24

KẾT LUẬN

1 Kết quả nghiên cứu của đề tài

Thông qua quá trình tìm hiểu, nghiên cứu và áp dụng các phương pháp khai phá dữ liệu, tiền xử lý dữ liệu, cùng với các phương pháp học máy và thuật toán dự báo,

đề án đã đạt được những thành tựu sau:

- Xây dựng một cơ sở dữ liệu chứa thông tin quan trọng về khách hàng

- Xác định thuộc tính ảnh hưởng đến chăm sóc khách hàng

- Xây dựng mô hình dự báo với độ chính xác cao Những kết quả này đóng góp vào việc nâng cao khả năng hỗ trợ dự báo khách hàng cần chăm sóc B2A và có thể áp dụng trong các tình huống thực tế

mobile sink để tránh bỏ sót gói tin do giới hạn phạm vi cảm biến

2 Hướng phát triển

Hoàn thiện các công cụ phân tích thống kê và triển khai thực hiện đề án này, tận dụng chúng một cách hiệu

Trang 25

quả để nâng cao chất lượng chăm sóc và duy trì khách hàng Điều này sẽ giúp ổn định thị trường, củng cố uy tín của VNPT Tây Ninh là nhà cung cấp dịch vụ và giảm thiểu nguy cơ sụt giảm doanh thu

Việc tích hợp các công cụ này vào chương trình Điều hành sản xuất kinh doanh tại VNPT Tây Ninh sẽ mang lại một cách thức chủ động để chăm sóc khách hàng Ngoài ra, cần thường xuyên phân tích tập dữ liệu để khám phá thêm các thuộc tính tiềm năng có thể ảnh hưởng đến chăm sóc khách hàng Điều này sẽ giúp tối ưu hóa mô hình dự đoán chăm sóc B2A, đảm bảo rằng công cụ dự đoán hoạt động với mức độ chính xác ngày càng tăng

Định dạng
Số trang	25
Dung lượng	917,52 KB