1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ hệ thống thông tin: Xây dựng mô hình dự đoán khách hàng tiềm năng cho các gói cước trong mạng di động

50 144 5

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 50
Dung lượng 1,18 MB

Nội dung

Tóm tắt các kết quả của luận văn: (1). Nghiên cứu lý thuyết về khai phá dữ liệu trong lĩnh vực viễn thông; (2). Thực nghiệm xây dựng mô hình dự đoán và đưa ra kết quả dự báo khách hàng tiềm năng trên tập dữ liệu thực nghiệm.

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

ĐOÀN VĂN TÂM

XÂY DỰNG MÔ HÌNH DỰ ĐOÁN KHÁCH HÀNG TIỀM NĂNG CHO CÁC GÓI CƯỚC TRONG MẠNG DI ĐỘNG

Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin

Mã Số: 8480104.01

LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC

TS TRẦN TRỌNG HIẾU

Hà nội – 12/2019

Trang 2

i

MỤC LỤC

LỜI CẢM ƠN ii

LỜI CAM ĐOAN iii

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT iv

DANH MỤC HÌNH VẼ v

DANH MỤC BẢNG vi

Chương 1: Giới thiệu khai phá dữ liệu trong lĩnh vực viễn thông 1

1.1 Giới thiệu 1

1.2 Khai phá dữ liệu trong lĩnh vực viễn thông 3

1.3 Nhóm bài toán về quản lý trải nghiệm khách hàng 4

1.4 Lựa chọn bài toán 11

Chương 2: Bài toán dự đoán khách hàng tiềm năng 12

2.1 Phát biểu bài toán dự đoán khách hàng tiềm năng 12

2.2 Phương pháp cây quyết định 13

2.3 Phương pháp SVM 15

2.4 Phương pháp kNN (k người láng giếng gần nhất) 17

2.5 Phương pháp ghép nối các mô hình học máy 17

2.6 Phương pháp đánh giá 18

Chương 3: Mô hình đề xuất 20

3.1 Mô hình đề xuất 20

3.2 Tập dữ liệu và tiền xử lý dữ liệu 21

3.3 Tiền xử lý và trích xuất đặc trưng 27

Chương 4: Thực nghiệm và đánh giá 33

4.1 Môi trường và các công cụ thực nghiệm 33

4.2 Kịch bản thực nghiệm 34

4.3 Kết quả thực nghiệm và đánh giá 34

KẾT LUẬN 40

TÀI LIỆU THAM KHẢO 41

Trang 3

ii

LỜI CẢM ƠN

Trước tiên tôi xin dành lời cảm ơn chân thành và sâu sắc đến thầy giáo

TS Trần Trọng Hiếu – người đã hướng dẫn, khuyến khích, chỉ bảo và tạo cho tôi những điều kiện tốt nhất từ khi bắt đầu cho tới khi hoàn thành công việc của mình

Tôi xin dành lời cảm ơn chân thành tới các thầy cô giáo khoa Công nghệ thông tin, trường Đại học Công nghệ, ĐHQGHN đã tận tình đào tạo, cung cấp cho tôi những kiến thức vô cùng quý giá và đã cho tôi điều kiện tốt nhất trong suốt quá trình học tập, nghiên cứu tại trường

Cuối cùng, tôi xin cảm ơn tất cả những người thân yêu trong gia đình cùng toàn thể bạn bè, đồng nghiệp những người đã luôn giúp đỡ, động viên tôi học tập và nghiên cứu chương trình thạc sĩ tại Đại học Công nghệ, ĐHQGHN

Luận văn này được tài trợ bởi đề tài cấp ĐHQGHN mã số QG19.23

Trang 4

iii

LỜI CAM ĐOAN

Tôi xin cam đoan rằng luận văn thạc sĩ Công nghệ thông tin “Xây dựng

mô hình dự đoán khách hàng tiềm năng cho các gói cước trong mạng di động” là công trình nghiên cứu của riêng tôi, không sao chép lại của người khác Trong toàn bộ nội dung của luận văn, những điều đã được trình bày hoặc là của chính cá nhân tôi hoặc là được tổng hợp từ nhiều nguồn tài liệu Tất cả các nguồn tài liệu tham khảo đều có xuất xứ rõ ràng và hợp pháp Tôi xin hoàn toàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy định cho lời cam đoan này

Hà Nội, ngày … tháng 12 năm 2019

Trang 5

iv

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT

Chữ viết tắt Ý nghĩa

KPDL Khai phá dữ liệu CSDL Cơ sở dữ liệu Viettel Tập đoàn Công nghiệp – Viễn thông Quân đội

Viettel VLR

Tổng đài ghi nhận đăng nhập mạng của thuê bao

di động (Visitor Location Register) GSM

Mạng thông tin di động (Global System for Mobile Communications)

CDR Lịch sử cuộc gọi (Call Data Record)

ARPU

Doanh thu trung bình trên một khách hàng (Average revenue per user)

SMS Tin nhắn ngắn (Short Message Services)

Telesale Bán hàng qua điện thoại

CEM Quản lý trải nghiệm khách hàng

Trang 6

v

DANH MỤC HÌNH VẼ

Hình 1: Số liệu thuê bao di động theo các nhà mạng tháng 01-04/2019 1

Hình 2: Thị phần di động của các nhà mạng 2

Hình 3: Ví dụ mô tả cây quyết định 13

Hình 4: Siêu phẳng H chia dữ liệu huấn luyện thành 2 lớp với khoảng cách biên lớn nhất (Các điểm gần H nhất nằm trên H1 và H2 là vector hỗ trợ) 16

Hình 5: Quy tắc k-NN trên không gian đặc trưng 2-chiều với k=5 17

Hình 6: Mô hình dự đoán khách hàng tiềm năng cho các gói cước 20

Hình 7: Phân bố gói cước trong tập dữ liệu 23

Hình 8: Lược đồ xử lý dữ liệu và trích xuất đặc trưng 30

Hình 6: Giao diện công cụ khai phá dữ liệu Knime 33

Trang 7

vi

DANH MỤC BẢNG

Bảng 1: Thuật toán xây dựng cây quyết định 14

Bảng 2: Mô tả các trường của tập dữ liệu thuê bao 21

Bảng 3: Mô tả các gói cước là nhãn dự báo 23

Bảng 4: Bảng danh sách các trường thông tin tổng hợp kết quả 27

Bảng 5: Bảng danh sách các nhóm đặc trưng được trích xuất 31

Bảng 6: Các công cụ thực nghiệm 33

Bảng 7: Môi trường thực nghiệm 34

Bảng 8: Kết quả thực nghiệm sử dụng thuật toán kNN 34

Bảng 9: Kết quả thực nghiệm sử dụng thuật toán SVM 35

Bảng 10: Kết quả thực nghiệm sử dụng thuật toán cây quyết định 37

Bảng 11: Kết quả thực nghiệm sử dụng kết hợp các mô hình 38

Trang 8

đó là cạnh tranh về chất lượng các chương trình khuyến mại, chất lượng dịch

vụ và chăm sóc khách hàng, chất lượng mạng và vùng phủ sóng Do đó, yếu

tố quan trọng nhất trong cạnh tranh ở giai đoạn này, các nhà mạng ngoài việc tập trung giữ chân các thuê bao cũ, giảm lượng khách hàng rời mạng và khuyến khích khách hàng tăng lượng sử dụng dịch vụ, phát triển chất lượng dịch vụ, cải tiến và cung cấp thêm nhiều dịch vụ giá trị gia tăng đáp ứng nhu cầu ngày càng lớn của khách hàng, cần phải phân tích và so sánh với đối thủ cạnh tranh để có thể tung ra thị trường các sản phẩm/dịch vụ theo nhu cầu Một trong những chiến lược hàng đầu của các nhà mạng là ứng dụng các kỹ thuật khai phá dữ liệu trên nền tảng dữ liệu lớn vào các hoạt động sản xuất kinh doanh

Hình 1: Số liệu thuê bao di động theo các nhà mạng tháng 01-04/2019

(nguồn: Nội bộ)

Trang 9

1 20191023171327738.chn

http://kenh14.vn/muc-tieu-cung-nam-2020-va-tuong-lai-nam-2025-cua-viettel-telecom-ra-sao-2 4g/

https://vietteldanang.com.vn/viettel-va-qualcomm-ky-thoa-thuan-su-dung-ban-quyen-cong-nghe-3g-3

http://www.vinasa.org.vn/Default.aspx?sname=vinasa&sid=4&pageid=3076&catid=4213&id=11676

Trang 10

3

và ứng dụng trên đã mang lại những hiệu quả về mặt kinh tế cũng như tối ưu chi phí vận hành đối với các nhà mạng Việt Nam

1.2 Khai phá dữ liệu trong lĩnh vực viễn thông

Các nhà mạng viễn thông sở hữu một lượng dữ liệu vô cùng lớn thông tin của người dùng (thuê bao) từ thông tin nhân khẩu học đến thông tin hành

vi sử dụng dịch vụ viễn thông, tất cả các dữ liệu đều được lữu trữ một cách chi tiết phục vụ các hoạt động kinh doanh và vận hành hàng ngày Lượng dữ liệu được lưu trữ trên tiềm ẩn những tri thức hết sức quí báu về thị trường, khách hàng, sản phẩm… Sử dụng các kỹ thuật phân tích, khai phá dữ liệu cùng các các thuật toán và mô hình toán học máy cho phép các nhà mạng đưa

ra các quyết định hiệu quả và kịp thời Có khá nhiều các bài toán phân tích (use case) trong lĩnh vực viễn thông phục vụ cho các hoạt động điều hành và kinh doanh [16,24] Qua khảo sát các tài liệu liên quan, luận văn đưa ra 4 nhóm bài toán chính về khai phá trong lĩnh vực viễn thông:

- Quản lý trải nghiệm khách hàng (CEM): Quản lý trải nghiệm khách hàng là quá trình quản lý tất cả các điểm tiếp xúc với khách hàng nhằm đảm bảo mối quan hệ tích cực giữa khách hàng với thương hiệu CEM được hiểu là việc “chủ động thiết kế và quản trị tất cả các trải nghiệm khách hàng từ các trải nghiệm về thương hiệu, trải nghiệm mua sản phẩm dịch vụ, trải nghiệm sử dụng sản phẩm dịch

vụ đến các trải nghiệm dịch vụ sau bán hàng trên tất cả các kênh, mọi điểm tiếp xúc để đáp ứng các kỳ vọng của khách hàng nhằm gia tăng

sự hài lòng, trung thành và ủng hộ của khách hàng”

- Tối ưu mạng lưới (Network optimization): Các phương pháp tiếp cận phân tích dữ liệu lớn đang bắt đầu xuất hiện trong lĩnh vực mạng viễn thông để giải quyết các thách thức của ảo hóa (NFV Network Function Visualization) và điện toán đám mây (Cloud Computing)

Sự phức tạp gia tăng trong các ứng dụng mạng viễn thông đang thúc đẩy nhu cầu tự động hóa mạng lưới Các nền tảng tự động hóa mạng lưới dựa trên phân tích dữ liệu lớn kết hợp các kỹ thuật khai phá dữ liệu để hỗ trợ các hoạt động quản lý hiệu quả, kịp thời và đáng tin cậy Ví dụ về các ứng dụng tập trung vào mạng lưới bao gồm:

Trang 11

4

o Phát hiện bất thường trong khai thác, quản trị, bảo trì mạng lưới

o Giám sát và tối ưu hóa hiệu suất sử dụng mạng

o Tối ưu cảnh báo mạng lưới

o Khuyến nghị hành động xử lý lỗi mạng

o Tự động xử lý lỗi mạng

o Dự đoán lỗi mạng

o Quy hoạch dung lượng mạng (thông qua dự báo nghẽn mạng)

- Phân tích vận hành (Operations Analysis): Trong ngành viễn thông thì việc rất quan trọng là phát hiện gian lận và hành vi sử dụng bất thường nhằm giảm thiểu thất thoát doanh thu Bài toán phát hiện dấu hiệu bất thường và phòng chống gian lận để phát hiện các hành vi gian lận của khách hàng và các bất thường của hành vi sử dụng Phân tích dữ liệu lớn chủ yếu sử dụng các công cụ phân lớp, phân tích hành vi

- Kinh doanh dữ liệu (Data monetization): Các công ty cũng như các tổ chức viễn thông đang lữu trữ một lượng lớn dữ liệu liên tục Nhiều công ty đã hiểu rằng dữ liệu này có thể được sử dụng và nó có thể có giá trị lớn khi được sử dụng đúng Vấn đề là làm thế nào để biến dữ liệu đó thành tiền - làm thế nào để kiếm tiền từ dữ liệu Một cách để kiếm tiền từ dữ liệu là chia nó thành hai loại: kiếm tiền từ nội bộ và kiếm tiền từ bên ngoài Kiếm tiền nội bộ có nghĩa là làm tăng doanh thu của công ty với việc sử dụng dữ liệu Có nhiều cách để làm như

có thể tăng lên bằng cách cải thiện dịch vụ sản phẩm và hiểu nhu cầu của khách hàng Hoặc doanh thu có thể đạt được bằng cách tăng cường doanh số với các hoạt động như như chăm sóc khách hàng, lập

kế hoạch bán hàng qua kênh hiệu quả Ngoài ra, phương pháp tối ưu hóa và tăng cường sản xuất và bảo trì có thể mang lại khoản tiết kiệm lớn cho doanh nghiệp Kiếm tiền từ dữ liệu bên ngoài có thể bao gồm bán dữ liệu, bán thông tin phân tích nghiên cứu hoặc dự đoán chẳng hạn

1.3 Nhóm bài toán về quản lý trải nghiệm khách hàng

Trang 12

5

Hầu hết các nhà mạng Việt Nam tập trung nhiều vào nhóm bài toán phân tích và nâng cao trải nghiệm khách hàng vì đây là nhóm giúp tăng doanh thu tiêu dùng viễn thông của các khách hàng một cách rõ rệt nhất Các mục dưới đây liệt kê một số bài toán khai phá dữ liệu viễn thông phổ biến nhất

a) Dự đoán khách hàng tiềm năng cho các dịch vụ viễn thông

Trước đây, hầu hết doanh nghiệp không xác định được nhu cầu thực sự của khách hàng mà chỉ tập trung vào quảng bá tràn lan sản phẩm – dịch vụ của mình có, không nắm rõ vấn đề của khách hàng là gì, đưa ra hàng loạt đề xuất gói cước mà không biết khách hàng có cần thiết hay không, không biết điều gì – sản phẩm – dịch vụ gì là tốt nhất cho khách hàng của mình Vì vậy, việc xác định đúng tập khách hàng tiềm năng (nhu cầu của khách hàng) có ý nghĩa lớn trong các chương trình truyền thông, chiến dịch quảng cáo của mỗi đơn vị kinh doanh, giúp tiết kiệm được phần lớn chi phí và không ảnh hưởng/làm phiền khách hàng Mô hình xác định tập khách hàng tiềm năng mua các gói cước viễn thông dựa trên kết quả phân tích nhà mạng áp dụng các chương trình khuyến mại hay các chiến dịch truyền thông bán gói cước phù hợp đến tập khách hàng tiềm năng [17, 19]

Mục đích:

- Giúp tăng doanh thu tiêu dùng gốc cho nhà mạng bằng cách dự đoán đúng nhu cầu của khách hàng, tư vấn và giúp khách hàng đưa ra lựa chọn chính xác gói cước có mức tiêu dùng cao hơn mức hiện tại nhưng khách hàng được sử dụng dịch vụ thoải mái hơn

- Dự đoán đúng và đưa ra tư vấn đúng/trúng nhu cầu của khách hàng giúp đưa ra các chiến dịch truyền thông (sms, telesale,…) phù hợp đến tập khách hàng tiềm năng, tránh được việc quảng cáo không đúng đối tượng làm giảm hiệu quả chương trình, tăng chi phí và đặc biệt là gây phản cảm với khách hàng, làm cho khách hàng cảm giác

bị làm phiền và khó chịu

Để giải quyết bài toán này các nghiên cứu liên quan tập trung vào hai hướng tiếp cận chính là hướng tiếp cận dựa trên luật liên kết và hướng tiếp cận dựa trên phân loại thuê bao Tác giả Zhang và các công sự đã đề xuất một phương pháp phân loại thuê bao có khả năng thích các nhóm gói cước tiềm

Trang 13

6

năng dựa trên sự tương tự của các đặc trưng [24] Các gói cước sẽ được đo sự tương tự dựa trên các đặc trưng là danh sách các thuê bao đã đăng ký gói cước, tập các gói cước tương tự sẽ được gom thành một nhóm, danh sách các thuê bao tương tác nhiều sẽ được lấy ra để đại diện cho cụm Để dự đoán một thuê bao có thích gói cước hay không, nghiên cứu sẽ so sánh thông tin của thuê bao đấy với các thuê bao khác để tìm ra tập thuê bao tương tự, các gói cước phổ biến mà tập thuê bao tương tự đại diện sẽ được gán cho thuê bao cần được đánh giá Tác giả Li tiếp cận giải quyết bài toán này ở một hướng khác khi sử dụng luật liên kết để tìm ra các tập gói cước hay được mua cùng nhau để dự đoán một thuê bao có thể mua một gói cước mới khi đã từng mua những gói cước nào [17]

b) Dự đoán thuê bao rời mạng

Trong môi trường kinh doanh viễn thông cạnh tranh khốc liệt như ở Việt Nam hiện nay Thị trường di động đã ở mức bão hòa, doanh thu di động tăng trưởng chững lại và việc phát triển thuê bao mới hết sức khó khăn thì chăm sóc và gìn giữ khách hàng cũ trên hệ thống trở nên hết sức quan trọng, nó không chỉ giúp nhà mạng phát triển bền vững mà còn ngăn chặn đối thủ phát triển thuê bao mới Đây là bài toán quan trọng đối với các công ty hoạt động trong lĩnh vực viễn thông và cũng là một trong những bài toán khó khi dữ liệu thực tế có tỷ lệ mất cân bằng lớn [4, 18]

Thu thập dữ liệu từ các nguồn sẵn có của nhà mạng như dữ liệu CDR từ tổng đài, dữ liệu thông tin khách hàng, dữ liệu lịch sử dụng dịch vụ và khuyến mại, dữ liệu lịch sử khiếu nại … Các dữ liệu này đều được các hệ thống tác nghiệp của nhà mạng xử lý và đã được lưu trữ trong CSDL

Xử lý và trích xuất dữ liệu thực hiện tiền xử lý và trích xuất dữ liệu để đưa vào mô hình phân tích Dựa vào kinh nghiệm quản lý dữ liệu khách hàng cũng như tham khảo các chuyên gia trong lĩnh vực chăm sóc khách hàng để chọn lọc ra những dữ liệu có liên quan nhất với bài toán

Mô hình phân tích thực hiện mô hình hóa các dữ liệu đã được xử lý từ bước trước để xây dựng các mô hình dữ liệu

Mục đích:

Trang 14

7

- Giảm thuê bao rời mạng bằng việc đưa ra các chiến dịch khuyến mãi đến các khách hàng cĩ giá trị cao Ví dụ: Thuê bao di động đang cĩ hành vi sử dụng bình thường, hàng ngày phát sinh cuộc gọi đi/đến, cĩ thơng tin register trên mạng, tuy nhiên 3 ngày liên tiếp thuê bao khơng phát sinh cuộc gọi hoặc tần suất sử dụng dịch vụ giảm dần, thường xuyên mất thơng tin register, chứng tỏ khách hàng đang giảm dần hành vi sử dụng hoặc đã đang bị đối thủ lơi kéo bằng các chương trình khuyến mại hấp dẫn hơn Cần thực hiện tiếp xúc ngay và đưa ra các chương trình đủ mạnh để giữ chân khách hàng

- Dự báo các thuê bao lâu năm cĩ khả năng rời mạng đúng thời điểm giúp nhà mạng tiếp xúc, chăm sĩc và giữ chân khách hàng, tránh việc tụt giảm thuê bao và doanh thu, mất khách hàng vào tay đối thủ cạnh tranh

Để giải quyết bài tốn dự đốn thuê bao rời mạng các nghiên cứu hầu hết đều tiếp cận theo hướng sử dụng phân loại tự động bằng các kỹ thuật học máy khác nhau Masoud và các cộng sự [18] đưa ra phương án giải quyết bằng các kỹ thuật học máy khác nhau trên tập đặc trưng là thơng tin tiêu dùng viễn thơng hàng tháng như thời gian gọi, số lượng phút gọi,… kết quả đạt được tại độ đo F là 0.98 đối với tồn bộ các nhãn mơ hình Almana và các cộng sự [4] cũng đưa ra tổng quan đánh giá các kỹ thuật học máy khác nhau trong việc giải quyết bài tốn dự đốn khách hàng rời dịch vụ như kỹ thuật mạng neural, kỹ thuật học máy thống kê với các phương pháp hồi quy logistic, Nạve bayes,… hay kỹ thuật phân loại dựa trên cây quyết định Trong các kỹ thuật trên Almana và các cộng sự cũng đánh giá các kỹ thuật dựa trên cây quyết định được sử dụng nhiều trong các bài tốn viễn thơng nĩi chung và bài tốn dự đốn thuê bao rời mạng nĩi riêng

c) Định danh/phân đoạn thuê bao

Hiện nay, tại mỗi doanh nghiệp các bộ phận kinh doanh được tổ chức theo mơ hình nhĩm đối tượng khách hàng Mỗi nhĩm khách hàng khác nhau cần được phát hiện và đối xử, chăm sĩc khác nhau, như đúng phương trâm của Viettel đã lựa chọn “Xem mỗi khách hàng là một cá thể riêng biệt” để phục vụ Vì vậy việc phân loại khách hàng thành các nhĩm (phân đoạn) là bài

Trang 15

8

toán quan trọng giúp nhà mạng có thể phân tích vào từng phân khúc để hiểu thêm hành vi, thói quen của khách hàng nhằm đưa ra các chiến lược theo từng nhóm khách hàng Mô hình phân tích của bài toán này thường sử dụng kỹ thuật gom cụm để tự động phân nhóm khách hàng và đưa ra các thông tin đặc trưng của từng nhóm [15, 13, 22]

Từ các nguồn dữ liệu sẵn có như dữ liệu lịch sử sử dụng dịch vụ bao gồm apru tiêu dùng hàng tháng, hướng dịch vụ khách hàng thường xuyên sử dụng như cuộc gọi, sms nội – ngoại mạng, hành vi sử dụng data, roaming …

Xử lý và trích xuất dữ liệu để phân đoạn theo lớp hành vi tiêu dùng theo hướng sử dụng dịch vụ, theo lưu lượng

Mô hình phân tích thực hiện mô hình hóa các dữ liệu đã được xử lý từ bước trước để xây dựng các mô hình dữ liệu, cắt ra các lớp khách hàng khác nhau

Mục đích:

- Từ dữ liệu khách hàng sử dụng dịch vụ, chúng ta xây dựng các kinh bản kinh doanh khác nhau cho từng nhóm khách hàng Ví dụ: Những khách hàng đang sử dụng tổng tiêu dùng trong tháng 200.000đ, sử dụng 100 phút gọi nội mạng, 50 phút gọi ngoại mạng và 1GB data, xây dựng và đề xuất cho khách hàng gói cước di động khuyến mại hàng tháng trọn gói 250.000đ, sẽ được sử dụng 500 phút gọi nội mạng miễn phí, 100 phút gọi ngoại mạng và 5GB lưu lượng data miễn phí Với từng đối tượng khách hàng sử dụng mức cước khác nhau, sẽ gợi ý các chương trình để kích thích tăng arpu khách hàng

- Bài toán nền cho các bài toán về phân tích khách hàng Từ bài toán này, phân loại được các lớp khách hàng khác nhau là đầu vào cho các bài toán phân tích khách hàng khác

Hầu hết các phương pháp phân đoạn khách hàng đều áp dụng thuật toán gom cụm tự động Jansen trong tài liệu kỹ thuật của nhà mạng Vodafone đã

áp dụng các kỹ thuật phân cụm khác nhau nhằm giải quyết bài toán phân đoạn khách hàng [15], các kỹ thuật sử dụng ở đấy như Kmeans, K-medoid, Fuzzy C-Means,…và kết quả của Fuzzy C-Means cho kết quả tốt nhất với hầu hết các thực nghiệm Tương tự như Jansen, Ye và các cộng sự cũng sử dụng

Trang 16

9

phương pháp phân đoạn khách hàng thành 8 nhóm dựa trên phân cụm phẳng K-means [22] Bên cạnh các kỹ thuật gom cụm, một số nghiên cứu sử dụng một số kỹ thuật khác như trong luận án của Tianyuan [23] kỹ thuật dùng để phân đoạn khách hàng được sử dụng là rời rác bằng phương pháp Bayesian với rất nhiều đặc trưng đại diện cho thuê bao như nhân khẩu học và hành vi thuê bao

d) Khuyến mại mục tiêu

Mỗi nhà mạng sở hữu lượng lớn khách hàng trung thành, việc xây dựng các thuật toán xác định sản phẩm/dịch vụ tiếp tục sử dụng của khách hàng sẽ giúp nhà mạng đưa ra những đề xuất chính xác, tiếp tục bán được sản phẩm/dịch vụ cho khách hàng cũ tốt hơn nhiều so với việc tìm kiếm và phát triển trên khách hàng mới Vì vậy việc xác định các sản phẩm/dịch vụ/gói cước được mua cùng nhau, hoặc mua tuần tự trong một khoảng thời gian của thuê bao dựa trên những thông tin được phân tích đưa ra các gói bán chéo hoặc gợi ý sản phẩm mà khách hàng có thể có nhu cầu hết sức quan trọng với mỗi nhà cung cấp dịch vụ trong thời điểm hiện tại [13, 21]

Mục đích:

- Từ dữ liệu thông tin khách hàng sử dụng dịch vụ, chúng ta đưa ra các chiến dịch quảng cáo (sms, telesale,…) đến tập khách hàng đang có nhu cầu Ví dụ: Khách hàng đang dùng các dòng thiết bị đời thấp không hỗ trợ sử dụng data Khi khách hàng có hành vi thực hiện đổi máy điện thoại sang sử dụng smart phone, ngay lập tức nhà mạng phát hiện được thông tin và đưa ra chương trình khuyến mại do dùng thử data miễn phí, tạo ra khách hàng data mới, mang lại nguồn doanh thu mới

- Tăng doanh thu bán chéo, bán thêm các dịch vụ, nâng hiệu quả của các chiến dịch truyền thông Ví dụ: Từ dữ liệu thông tin khách hàng

cũ đã đang sử dụng dịch vụ internet, nhà mạng phân tích dữ liệu và thực hiện truyền thông và đề xuất khuyến mại các gói cước truyền hình internet

Nhóm bài toán này giải quyết bằng nhiều kỹ thuật khác nhau như luật liên kết, phân loại tự động, gom cụm tự động Insani và Soemitro [13] áp

Trang 17

10

dụng kỹ thuật luật liên kết để xác định các nhóm dịch vụ phổ biến hay đi cùng nhau để đưa ra các gói chiến dịch truyền thông phù hợp với nhu cầu của khách hàng, các khách hàng có cùng tập luật hoặc đã từng mua các sản phẩm nằm trong trong luật sẽ được gợi ý các sản phẩm tương ứng Russell và Lodwick [21] sử dụng phương pháp gom cụm mờ để phân tích các khách hàng sẵn có của nhà mạng, qua đấy các đặc trưng nổi trội đại diện cho hành vi của nhóm thuê bao hay dịch vụ sẽ được thể hiện qua các cụm cụ thể Các chiến dịch truyền thông sẽ tìm kiếm các thuê bao có đặc trưng tương tự với các đặc trưng nổi trội nhằm tăng tỷ lệ chuyển đổi

e) Dự đoán giá trị thuê bao

Nắm bắt được mức tiền tiêu dùng của khách hàng cho mỗi loại dịch vụ

có nghĩa hết sức quan trọng trong việc đưa ra các chương trình chăm sóc và giữ chân khách hàng, vì vậy nhà mạng muốn biết khách hàng đã đóng góp (tiêu dùng) giá trị như thế nào đối với dịch vụ trong N năm tới (3-5 năm) Dựa trên giá trị dự đoán có thể biết được mức độ tiêu dùng dịch vụ viễn thông của khách hàng là bao nhiêu, qua đấy đưa đến cho khách hàng những dịch vụ phù hợp với nhu cầu tại thời điểm đấy, giúp tăng doanh thu và giữ chân được khách hàng tiềm năng [14, 20]

Mục đích:

- Từ dữ liệu lịch sử sử dụng dịch vụ của khách hàng, xác định giá trị của một khách hàng để bán thêm các dịch vụ khách hàng Ví dụ: Khách hàng VIP thường xuyên có mức tiêu dùng cao hàng tháng trung bình 500.000 Cần có chương trình chăm sóc đặc biệt để giữ chân khách hàng

- Tăng doanh thu tiêu dùng gốc bằng cách xác định được giá trị thuê bao, tập trung chăm sóc và hỗ trợ khàng hàng theo quy luật 20 – 80

20 % số lượng khách hàng lớn nhất đem lại 80% doanh thu cho nhà mạng

Để giải quyết bài toán dự đoán giá trị thuê bao có hai hướng tiếp cận chính là sử dụng kỹ thuật hồi quy và gom cụm phân tích tiêu dùng Wang và các cộng sự [14] áp dụng kỹ thuật mạng neural vào việc dự đoán giá trị mang lại của khách hàng trong lĩnh vực viễn thông, mô hình sử dụng các biến dữ

Trang 18

11

liệu liên quan đến các đặc trưng liên quan đến tỷ lệ tăng trưởng, tỷ lệ rời dịch

vụ, tỷ lệ giữ chân khách hàng để đưa ra mô hình dự đoán giá trị mang lại của thuê bao Độ chính xác của mô hình dự đoán đạt 96.5% trên tập dữ liệu 12005 bản ghi Kim và các cộng sự [20] sử dụng kỹ thuật gom cụm để gom nhóm các thuê bao thành các tập dữ liệu có cùng nhóm giá trị, việc gom cụm dựa trên các tiêu chí về giá trị mang lại, giá trị tiềm năng và độ trung thành của thuê bao Kết quả dự đoán được sinh ra theo từng cụm và là kết quả phân tích chi tiết dựa trên mỗi cụm

1.4 Lựa chọn bài toán

Trong phạm vi của luận văn, học viên lựa chọn giải quyết bài toán dự đoán khách hàng tiềm năng cho các gói cước trong mạng di động, đây là

một bài có tính thời sự đối với các công ty viễn thông nói chung và với Tập đoàn Công nghiệp – Viễn thông Quân đội Viettel nói riêng Việc giải quyết được bài toán với độ chính xác cao sẽ giúp tăng doanh thu và tiết kiệm chi phí trên nhiều mảng khác nhau như:

- Doanh thu gói cước thoại

- Doanh thu gói cước sms

- Doanh thu gói cước data

- Doanh thu gói VAS

- Tiêu dùng gốc

- Giảm chi phí truyền thông

- Tránh gây khó chịu/làm phiền với thuê bao

- Giảm thuê bao rời dịch vụ

- Tăng tính trung thành của thuê bao

Bên cạnh yếu tố ứng dụng thì đây cũng là một bài toán có tính nghiên cứu cao khi phải xử lý và phân tích một lượng dữ liệu lớn với độ mất cân bằng cao về mặt phân bố giữa các lớp khác nhau

Trong chương tiếp theo luận văn đi sâu vào việc phát biểu bài toán và

mô tả các kỹ thuật nhằm giải quyết bài toán

Trang 19

12

Chương 2: Bài toán dự đoán khách hàng tiềm

năng

2.1 Phát biểu bài toán dự đoán khách hàng tiềm năng

Tại Việt Nam, doanh thu mang lại chủ yếu cho các nhà mạng là từ việc bán các gói cước viễn thông như gói cước thoại, dữ liệu, tin nhắn, chỉ cần 10% số lượng thuê bao đăng ký mua một gói cước thì doanh thu mang lại cũng lên đến hàng trăm tỷ đồng mỗi tháng cho nhà mạng Việc tăng số lượng người mua gói cước là mục tiêu quan trọng trong chiến lược kinh doanh của mỗi một nhà mạng viễn thông, tuy nhiên việc tiếp cận các khách hàng đúng mục tiêu, đúng thời điểm, không làm phiền là một bài toán phức tạp đòi hỏi việc phân tích chuyên sâu từ các kỹ thuật khai phá dữ liệu Với các phân tích trên học viên đã lựa chọn bài toán dự đoán khách hàng tiềm năng cho các gói cước là chủ đề nghiên cứu chính của luận văn Bài toán này được phát biểu cụ thể như sau:

Đầu vào:

- Thông tin của khách hàng bao gồm thông tin nhân khẩu học và thông tin hành vi sử dụng dịch vụ viễn thông như số lượng cuộc gọi, tiêu dùng hàng tháng, vị trí phát sinh cước nhiều nhất,…

- Danh sách các gói cước viễn thông

Trang 20

dữ liệu viễn thông

2.2 Phương pháp cây quyết định

Học bằng cây quyết định là phương pháp học có giám sát Quá trình học chính là quá trình xây dựng một cây định hướng Nút gốc và mỗi nút trong cây sẽ được dán một nhãn có giá trị là một từ có trong tài liệu và mỗi nhánh xuất phát từ chúng được dán một nhãn tương ứng với giá trị của từ đó trong tài liệu Các lá được dán nhãn là giá trị phân loại mà ta cần thu được Cây quyết định được xây dựng bằng cách sử dụng chiến lược “chia để trị” Mỗi nút trong của cây được liên kết với một tập các trường hợp Mỗi nút sẽ tương ứng với một tập các ví dụ học Gốc là toàn bộ dữ liệu học

Hình 3: Ví dụ mô tả cây quyết định

Giải thuật học dựa trên cây quyết định hoạt động trên tập dữ liệu được biểu diễn bằng các giá trị rời rạc, trong trường hợp dữ liệu được biểu diễn bằng các thuộc tính có giá trị liên tục thì ta cần thực hiện các bước rời rạc hóa Các giải thuật phần lớn đều áp dụng cách tiếp cận tham ăn để xây dựng cây theo chiều từ trên xuống Tập dữ liệu huấn luyện sẽ được chia thành các tập nhỏ hơn trong quá trình xây dựng cây chia để trị

Trang 21

14

Dưới đây là mã giả của thuật toán xây dựng cây quyết định được lấy nguồn từ tài liệu [2]

Bảng 1: Thuật toán xây dựng cây quyết định

Thuật toán xây dựng cây quyết định

Đầu vào: Tập D chứa dữ liệu huấn luyện attribute_list chứa danh sách

các thuộc tính ứng cử

Đầu ra: Cây quyết định Generate_decision_tree(D, attribute_list)

1 Tạo một nút gốc N cho cây quyết định

2 If toàn bộ dữ liệu trong D đều thuộc lớp C, return nút N là nút lá có

7 For each giá trị j của thuộc tính splitting_attribute

7.1 Gọi D j là tập chứa các phần tử dữ liệu mà thuộc tính

splitting_attribute có giá j

7.2 If D j là rỗng thì thêm một nút là N j cho nút N có nhãn là nhãn phổ biến nhất xuất hiện trong D

7.3 Else gắn cây trả về bởi Generate_decision_tree(D, attribute_list)

vào nút N

8 return N

Trang 22

15

Điểm quan trọng nhất trong giải thuật xây dựng cây quyết định phía trên là hàm lựa chọn thuộc tính tốt nhất để phân chia dữ liệu Có một số độ đo được dùng để đánh giá “chất lượng” của các thuộc tính

Sau khi xây dựng cây, cây này có thể chứa nhiều nhánh phản ánh sự bất thường của dữ liệu huấn luyện Điều này sẽ gây ra hệ quả là hiện tượng cây thu được phù hợp trội (overfitting) Để giải quyết vấn đề này, ta có thể sử dụng phương pháp tỉa cây để loại bỏ đi các nhánh ít tin cậy nhất

Giải thuật máy vector hỗ trợ (SVMs) được giới thiệu bởi Vapnik và cộng sự [5], dựa trên nguyên lý cực tiểu hóa rủi ro cấu trúc (Structural Risk Minimization) trong lý thuyết thống kê SVMs rất hiệu quả để giải quyết các bài toán với dữ liệu có số chiều lớn như các vector biểu diễn văn bản Ban đầu, SVMs chỉ được thiết kế để giải quyết các bài toán phân lớp nhị phân Hiện nay, SVMs được đánh giá là bộ phân lớp chính xác nhất cho bài toán phân lớp văn bản

Xét bài toán phân lớp văn bản thành các lớp mẫu dương và mẫu âm:

D = {(x i , y i ) i = 1, 2,…, N, x i R n , y =  1}

Trong đó mẫu là các vector đối tượng được phân lớp thành các mẫu dương và âm:

- Các mẫu dương là các mẫu xi được gán nhãn yi = 1

- Các mẫu âm là các mẫu xi được gán nhãn yi = -1

Thực chất phương pháp này là một bài toán tối ưu, mục tiêu là tìm ra siêu phẳng quyết định H sao cho sai số phân lớp là thấp nhất Trong trường

hợp này, tập phân lớp SVMs là mặt siêu phẳng phân tách các mẫu dương

khỏi các mẫu âm với độ chênh lệch cực đại, trong đó độ chênh lệch – còn gọi

là Lề (margin) xác định bằng khoảng cách giữa các mẫu dương và các mẫu

âm gần mặt siêu phẳng nhất Mặt siêu phẳng này được gọi là mặt siêu phẳng

lề tối ưu

Một siêu phẳng trong không gian có thể được biểu diễn như sau: w.x + b

= 0 trong đó w là vector trọng số, w = (w 1 , w 2 ,…, w n ) với n là số đặc trưng, b

là độ lệch

Trang 23

b

yi i

Các vector nằm trên hai siêu phẳng H1 và H2 song song với siêu phẳng

H và cách một khoảng M gọi là vector hỗ trợ (support vector)

Hình 4: Siêu phẳng H chia dữ liệu huấn luyện thành 2 lớp với khoảng cách biên lớn nhất (các điểm gần H nhất nằm trên H1 và H2 là vector hỗ

trợ)

Bài toán tìm siêu phẳng có lề lớn nhất có thể phát biểu như một bài toán tối ưu hóa

M b

w ,, maxM với các ràng buộc yi(w.xib)  M||w||, i= 1,…, N

Trang 24

2.4 Phương pháp kNN (k người láng giếng gần nhất)

Đối với bài toán học có giám sát, có một phương pháp cục bộ đơn giản

để phân lớp đó là dùng quy tắc k – láng giềng gần nhất

Giả sử ta có tập mẫu đã biết nhãn là D và số k cho trước Với mỗi mẫu đặc trưng x thuộc D, ta tìm k đối tượng trong D gần với nó nhất và gán nhãn của lớp có nhiều phần tử nhất trong k đối tượng này Phương pháp kNN tuy đơn giản về giải thuật nhưng lại đòi hỏi chi phí tính toán cao

Hình 2 được lấy từ tài liệu [1], mô tả việc áp dụng quy tắc kNN trên một không gian đặc trưng 2 chiều với k=5 để gán nhãn cho điểm x

Hình 5: Quy tắc k-NN trên không gian đặc trưng 2-chiều với k=5

2.5 Phương pháp ghép nối các mô hình học máy

Phương pháp lai ghép các mô hình từ lâu đã nhận được nhiều quan tâm

từ cộng đồng nghiên cứu Có khá nhiều tác giả đã sử dụng phương pháp này

Trang 25

tự động [2] Trong cơng trình này, nhĩm tác giả đã chứng minh tính hiệu quả của việc sử dụng phương pháp kết hợp bốn mơ hình: AdaBoost, Rừng ngẫu nhiên (Random Forest), Rừng xoay (Rotation Forest), và RotBoost trong bài tốn phát hiện tự động lỗi cĩ thể thay thế sức người Michiel van Wezel cùng cộng sự [14] đưa ra cách cải thiện bài tốn dự đốn trong các lựa chọn của khách hàng sử dụng phương pháp lai ghép Sajid Yousuf Bhat cùng cộng sự [20] thì sử dụng phương pháp này cho bài tốn phát hiện thư rác Trong bài báo này, tác giả đánh giá việc thực hiện một số phương pháp học kết hợp sử dụng đặc điểm cấu trúc dựa vào nội dung của thư nhằm phát hiện thư rác trên các trang mạng xã hội trực tuyến Các tác giả đánh giá hiệu suất của ba bộ phân loại bao gồm J48 (cây quyết định), IBK (kNN sử dụng k = 5 hàng xĩm gần nhất), và NạveBayes sau đĩ sử dụng các kỹ thuật bagging, boosting và stacking để đánh giá hiệu quả

Đánh giá kết quả thu được, các học viên nhận xét rằng việc kết hợp các bộ phân loại hỗ trợ rất nhiều trong việc cải thiện chất lượng bài tốn xác định ý định người dùng

2.6 Phương pháp đánh giá

Việc đánh giá các thuật tốn phân lớp thường sử dụng độ chính xác, độ hồi tưởng, độ đo F-score (F1) để tính hiệu năng của mơ hình học máy, trong luận văn này các độ đo này cũng được sử dụng để đánh giá mơ hình, cụ thể:

Độ hồi tưởng (Recall): Số dữ liệu do mơ hình dự đốn đúng / Tổng số

dữ liệu thực tế

Độ chính xác (Precision): Số dữ liệu do mơ hình dự đốn đúng / Tổng số

dữ liệu do mơ hình dự đốn ra

F-score (F1): Độ đo hài hịa giữa độ chính xác và độ hồi tưởng

Ngày đăng: 11/06/2020, 14:10

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
2. Bhat, Sajid Yousuf, Muhammad Abulaish, and Abdulrahman A. Mirza. "Spammer classification using ensemble methods over structural social network features." Proceedings of the 2014 IEEE/WIC/ACM International Joint Conferences on Web Intelligence (WI) and Intelligent Agent Technologies (IAT)-Volume 02. IEEE Computer Society, 2014 Sách, tạp chí
Tiêu đề: Spammer classification using ensemble methods over structural social network features
19. van Wezel, Michiel, and Rob Potharst. "Improved customer choice predictions using ensemble methods." European Journal of Operational Research 181.1 (2007): 436-452 Sách, tạp chí
Tiêu đề: Improved customer choice predictions using ensemble methods
Tác giả: van Wezel, Michiel, and Rob Potharst. "Improved customer choice predictions using ensemble methods." European Journal of Operational Research 181.1
Năm: 2007
1. Hoàng Xuân Huấn, Giáo trình nhận dạng mẫu, Nhà xuất bản Đại học Quốc gia Hà Nội, 2012, tr.145-178 Khác
2. Nguyễn Hà Nam, Nguyễn Trí Thành, Hà Quang Thụy, Giáo trình khai phá dữ liệu, Nhà xuất bản Đại học Quốc gia Hà Nội, 2012, tr.249-286Tiếng Anh Khác
1. Almana, A. M., Aksoy, M. S., & Alzahrani, R. (2014). A survey on data mining techniques in customer churn analysis for telecom industry.International Journal of Engineering Research and Applications, 45, 165- 171 Khác
3. Cortes, C., & Vapnik, V. (1995). Support-vector networks. Machine learning, 20(3), 273-297 Khác
4. Giacinto and F. Roli. Design of effective neural network ensembles for image classification purposes. Image and Vision Computing, 19(9-10):699–707, 2001 Khác
5. Giacinto, F. Roli, and G. Fumera. Design of effective multiple classifier systems by clustering of classifiers. In Proceedings of the 15th International Conference on Pattern Recognition, pages 160–163, Barcelona, Spain, 2000 Khác
6. Giacinto, F. Roli, and L. Didaci. Fusion of multiple classifiers for intrusion detection in computer networks. Pattern Recognition Letters, 24(12): 1795–1803, 2003so cu5so moi6 Khác
7. Giacinto, R. Perdisci, M. D. Rio, and F. Roli. Intrusion detection in computer networks by a modular ensemble of one-class classifiers.Information Fusion, 9(1):69–82, 2008 Khác
8. Hilas, C. S., & Mastorocostas, P. A. (2008). An application of supervised and unsupervised learning approaches to telecommunications fraud detection. Knowledge-Based Systems, 21(7), 721-726 Khác
10. Hilas, C. S., Mastorocostas, P. A., & Rekanos, I. T. (2015). Clustering of telecommunications user profiles for fraud detection and security enhancement in large corporate networks: a case study. Applied Mathematics & Information Sciences, 9(4), 1709 Khác
11. Insani, R., & Soemitro, H. L. (2016, May). Data mining for marketing in telecommunication industry. In 2016 IEEE Region 10 Symposium (TENSYMP) (pp. 179-183). IEEE Khác
12. Jansen, S. M. H. (2007). Customer segmentation and customer profiling for a mobile telecommunications company based on usage behavior. A Vodafone Case Study, 66 Khác
13. Jony, R. I., Habib, A., Mohammed, N., & Rony, R. I. (2015, December). Big data use case domains for telecom operators. In 2015 IEEE International Conference on Smart City/SocialCom/SustainCom (SmartCity) (pp. 850-855). IEEE Khác
14. Kim, S. Y., Jung, T. S., Suh, E. H., & Hwang, H. S. (2006). Customer segmentation and strategy development based on customer lifetime value:A case study. Expert systems with applications, 31(1), 101-107 Khác
15. Li, Q. (2009, April). An algorithm of quantitative association rule on fuzzy clustering with application to cross-selling in telecom industry. In 2009 International Joint Conference on Computational Sciences and Optimization (Vol. 1, pp. 759-762). IEEE Khác
16. Masoud, R., & Ahmed, T. M. (2016). Using data mining in telecommunication industry: Customer's churn prediction model. Journal of Theoretical and Applied Information Technology, 91(2), 322 Khác
17. Russell, S., & Lodwick, W. (1999, June). Fuzzy clustering in data mining for telco database marketing campaigns. In 18th International Khác
18. Tianyuan, Z. (2018). Telecom customer segmentation and precise package design by using data mining (Doctoral dissertation) Khác

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w