CHƯƠNG 2 : KHAI PHÁ DỮ LIỆU TRONG VIỄN THÔNG
2.3. Khai phá dữ liệu trong lĩnh vực viễn thông
2.3.3 Phân nhóm và định danh khách hàng
Bài toán phân nhóm và định danh khách hàng cho phép phân cụm khách hàng có các thuộc tính giống nhau (Vd: cùng thích thoại, cùng thích data ...) thành các nhóm riêng biệt. Dựa vào việc phân cụm và đặc tính chung của từng cụm, các nhà mạng có thể thiết kế và xây dựng các chương trình, chiến lược kinh doanh đặc thù để hướng tới đúng đối tượng và đạt hiệu quả cao hơn.
Theo mơ hình cũ, tất cả các khách hàng đều thuộc sự quản lý của phòng kinh doanh. Điều này gây ra sự quá tải trong công việc cũng như việc quản lý tệp khách hàng khơng được sát sao vì mỗi khách hàng lại có hành vi tiêu dùng đặc thù. Vì vậy, để tối ưu hóa việc quản lý khách hàng thì nhà mạng sẽ tổ chức lại mơ hình kinh doanh, tương ứng với từng nhóm đối tượng có các đặc điểm nhận dạng giống nhau để có các chương trình áp dụng phù hợp hơn. Bài toán đã giúp nhà mạng thu thập và phân tích các thơng tin liên quan đến hành vi, thói quen khách hàng và thực hiện tự động phân
40
cụm khách hàng thông qua kỹ thuật phân cụm Cluster [12].
Thực hiện phân tích từ các dữ liệu liên quan đến hành vi thoại, data, độ tuổi khách hàng, tuổi th bao, gói cước chính đang sử dụng (gói cước economy, tomato, hssv…), Arpu (doanh thu trung bình trên một khách hàng) tiêu dùng gốc, loại thiết bị đang sử dụng (thiết bị smartphone, featurephone), hành vi nạp thẻ, vùng miền (Bắc/Trung/Nam…).
Mục đích:
- Nhận biết được các tệp khách hàng tương đồng nhau về cách thức hoạt động, sử dụng các dịch vụ viễn thông. Tự động tách tập khách hàng thành 3 phân khúc lớn:
• Khách hàng (VIP): Arpu của thuê bao >=200k/tháng, tuổi thuê bao >=12 tháng.
• Khách hàng tiềm năng: Arpu của thuê bao dao động [50K-200K) và toàn bộ là học sinh sinh viên.
• Khách hàng đại trà: Arpu thuê bao <50K/tháng, khơng tính học sinh sinh viên.
- Tại mỗi phân khúc khách hàng, doanh nghiệp sẽ đưa ra các phương án hành động tăng trưởng doanh thu và giữ gìn thuê bao tương ứng.
2.3.4 Dự đoán tổng doanh thu khách hàng mang lại trong vòng đời
Giá trị mỗi khách hàng mang lại đối với một dịch vụ (CLV - Customer Lifetime Value) là giá trị tại thời điểm hiện tại của tổng lợi nhuận mà mỗi khách hàng
có thể mang về cho doanh nghiệp viễn thông trong suốt thời gian khách hàng sử dụng dịch vụ. Khai phá dữ liệu dự đoán CLV giúp nhà mạng phân loại các khách hàng có xu hướng rời mạng thành các khách hàng có CLV cao (khách hàng tiềm năng) cần xây dựng các chương trình CSKH đặc biệt để giữ chân và các khách hàng có CLV thấp thì khơng cần áp dụng dịch vụ CSKH đặc biệt để tiết kiệm chi phí [13].
Mục đích:
- Tìm kiếm, thu thập và thực hiện phân tích cụ thể các dữ liệu trong quá khứ của tập khách hàng từ hành vi tiêu dùng các hướng đến thông tin liên quan đến độ tuổi khách hàng, độ tuổi thuê bao, vùng/miền…để dự đoán ra được một con số thể hiện giá trị mà khách hàng đó đem lại cho nhà mạng là nhiều hay ít, từ đó có thể có chính sách tăng hoặc giảm chương trình khuyến mãi cho các th bao đó, đảm bảo cho việc tối đa hóa lợi nhuận và thu hút đúng nhóm đối tượng đúng giá trị mà nhóm đó đem lại cho nhà mạng. Ví dụ: Tập khách hàng được dự đoán giá trị đem lại >100K/tháng
41
trong 6 tháng tới, việc giữ chân tập này rất quan trọng, vì thế cần đẩy mạnh các chương trình giúp khách hàng tương tác nhiều hơn, tuy nhiên vẫn phải đảm bảo doanh thu (vì nếu lạm dụng nhiều chương trình khuyến mãi cùng lúc sẽ khiến khách hàng có nhiều trải nghiệm hơn, nhưng đồng thời lại làm sụt giảm doanh thu của nhà mạng).
- Dự báo CLV trong bài toán viễn thông giúp đơn vị kinh doanh đưa ra các chính sách cải tiến hơn trong việc mời (offer) các gói thoại/data phù hợp. Nếu khơng có việc dự báo này, nhà mạng có thể vơ tình lãng phí tiền mời những tập khách hàng khơng đúng giá trị.
2.3.5 Dự đốn vịng đời của gói dịch vụ
Bài toán khai phá dự đoán thời gian sử dụng của khách hàng (CLSV - Customer lifetime survival value) sử dụng mơ hình học máy dựa vào dữ liệu quá khứ để dự đoán được thời gian khách hàng sẽ sử dụng dịch vụ của nhà mạng viễn thông trong tương lai. Cho phép các doanh nghiệp viễn thơng ước tính được vịng đời của dịch vụ. Vì thế, việc tiếp tục mở rộng hay kết thúc một sản phẩm của doanh nghiệp cũng phụ thuộc vào việc đó.
So sánh sự ảnh hưởng của các chính sách, chiến lược kinh doanh đối với một tập khách hàng nhất định bằng việc ước tính thời gian sử dụng của khách hàng (các đường cong thời gian sử dụng – Customer lifetime survival curve). Tạo căn cứ để lựa chọn chiến lược phù hợp, đem lại CLSV cao nhất.
Hình 2.2: Mơ hình dự đốn thời gian sử dụng của khách hàng 2.3.6 Dự đoán thuê bao trả trước tiềm năng để mời chuyển trả sau
42
sau trên các công cụ tự “self care” hoặc tại cửa hàng, tư vấn viên sẽ tiếp nhận thông tin và tiến hành xác minh thơng tin th bao, sau đó thực hiện đấu nối để thuê bao được chuyển trạng thái sang thành thuê bao trả sau.
Do đó, để tối ưu hóa hơn chi phí và thời gian đi xác minh, cần xây dựng bài tốn: Tìm kiếm th bao có độ tin cậy cao để mời chuyển sang trả sau ko cần đặt cọc hoặc xác minh.
Phát hiện sớm nhu cầu mong muốn chuyển dịch vụ của khách hàng, sẽ giúp việc truyền thông, các chiến dịch quảng bá hiệu quả hơn. Mơ hình dự đoán tập khách hàng tiềm năng có ý định chuyển từ gói cước trả trước sang gói trả sau dựa trên kết quả của quá trình thực hiện phân tích, tìm kiếm các thuộc tính quan trọng, từ đó nhà mạng thiết kế và áp dụng các gói khuyến mãi phù hợp đến tập khách hàng tiềm năng [14].
Mục đích:
- Thuê bao trả sau là những thuê bao có tiêu dùng ổn định và khá cao, nên các nhà mạng ln khuyến khích và thúc đẩy việc này. Bài toán dự đoán th bao có độ tín nhiệm cao sẽ giúp nhà mạng cắt giảm chi phí thuê nhân lực của các kênh tiếp xúc trực tiếp hoặc telesales trong việc mời thuê bao chuyển từ trả trước sang trả sau.
- Giải pháp là xây dựng mơ hình phân loại (binary classification) với đầu vào là nhóm thuê bao đã chuyển từ trả trước sang trả sau, đầu ra là xác suất th bao này có tín nhiệm tốt. Từ đó, thực hiện chiến dịch cho tồn tập thuê bao trả trước tiềm năng chuyển sang trả sau.
2.3.7 Dự đốn sở thích mua gói dịch vụ của thuê bao
Trong các bộ chỉ tiêu KPI đánh giá của hầu hết các nhà mạng hiện nay, ngồi các tiêu chí đánh giá mức độ tương tác của khách hàng như tỷ lệ rời mạng của thuê bao, tỷ lệ thuê bao đạt thực, giá trị mà các th bao đó mang lại…việc tìm ra khách hàng đó có nhu cầu hay sở thích với các gói dịch vụ của nhà mạng quan trọng hơn nhiều so với việc tìm kiếm tập khách hàng mới [15].
Mục đích:
- Dựa vào hành vi dùng gói cũng như hành vi tiêu dùng trong quá khứ, các nhà phân tích dữ liệu có thể tìm ra và liệt kê những điểm mấu chốt của tập khách hàng, từ đó có những chương trình chiến dịch qua các kênh truyền thông như SMS, Telesales, app Mobile…để tiếp cận tập khách hàng.
- Ngoài ra, dựa vào sự liên quan giữa các gói mà nhà mạng có thể tăng thêm doanh thu trong việc bán chéo các sản phẩm. Ví dụ: Tìm kiếm các th bao
43
hay có hành vi nạp thẻ hộ cho những thuê bao mà khách hàng đang sử dụng có tuổi >=50 trở lên, có thể là con cái nạp thẻ cho bố mẹ, từ đó nhắn tin mời các thuê bao (nạp thẻ hộ) tặng các gói dịch vụ cho những thuê bao được nạp thẻ, giúp nhà mạng tăng doanh thu bán gói dựa trên hành vi nạp thẻ hộ.
2.4. Khai phá luật kết hợp trong kinh doanh viễn thông
Hiện nay việc quảng bá dịch vụ tới các thuê bao theo cách truyền thống sẽ tốn nhiều thời gian (do số lượng tập thuê bao nhiều), chi phí lớn, thời gian thực hiện lâu và hiệu quả khơng cao. Do đó để giảm thiểu chi phí và tăng hiệu quả, các nhà mạng áp dụng các công nghệ để khai phá dữ liệu, khai phá các luật kết hợp của thuê bao để tìm ra đúng tập thuê bao cần truyền thông. Một trong những thuật toán phổ biến được sử dụng để khai phá các luật kết hợp là thuật toán Apriori. Được sử dụng để khai phá dữ liệu sinh các luật kết hợp cho các bài tốn bán chéo dịch vụ, tìm sở thích của khách hàng, tăng sự hài lòng và trải nghiệm của khách hàng, tránh việc quảng bá tới các khách hàng khơng có nhu cầu gây phiền phức.
Trong nội dung của luận văn sẽ nghiên cứu việc khai phá luật kết hợp sử dụng thuật toán Apriori để tìm mối liên hệ giữa các dịch vụ và sở thích của khách hàng trong việc sử dụng các gói cước dịch vụ viễn thơng. Đồng thời việc tìm ra các quy luật sẽ giúp doanh nghiệp có thể đưa ra các quyết định trong kinh doanh và phục vụ đúng đối tượng khách hàng hơn.
Trong khai phá luật kết hợp, sẽ sinh ra các luật có thống kê như sau: “85% thuê bao có sử dụng dịch A thì sẽ sử dụng dịch vụ B” hoặc đưa ra các mối quan hệ như “tuổi, khu vực sinh sống, mức tiêu dùng => gói cước sử dụng”, những thơng tin này sẽ giúp rất nhiều cho các doanh nghiệp để đưa ra định hướng phát triển.
Giả sử có cơ sở dữ liệu về thuê bao sử dụng các dịch vụ gồm 5 thuộc tính như sau: X1, X2, X3, X4, X5.
Để khai phá luật kết hợp với cơ sở dữ liệu ở trên, cần phải xác định trước:
- Ngưỡng hỗ trợ tối thiểu (min support): min_sup
- Ngưỡng tin cậy tối thiểu (min confidence): min_conf
Để tìm tất cả các luật kết hợp dịch vụ như sau Xn -> Xm (Xn, Xm là thuộc tính của cơ sở dữ liệu thuê bao), cần phải thỏa mãn sup (Xn - > Xm) = sup (Xn Xm) ≥
min_sup và conf (Xn -> Xm) ≥ min_conf. Trong đó:
𝑐𝑜𝑛𝑓 (Xn − > Xm) = 𝑠𝑢𝑝 (Xn ∪ Xm) 𝑠𝑢𝑝(Xn)
44
- Bước 1: Tìm tất cả tập mục thường xuyên thỏa mãn độ hỗ trợ tối thiểu cho
trước (min_sup). Giả sử có 4 giao dịch của thuê bao chứa các dịch vụ từ X1 -> X5 ở trên, với min_sup = 50%, tập mục thường xuyên sẽ được xác định như sau:
Hình 2.3: Xác định tập mục thường xuyên
• Tập mục {X4}, {X1,X2}, {X1,X5} khơng thường xun do có độ hỗ
trợ 10%.
• Do {X1,X2} và {X1,X5} là các tập mục không thường xuyên nên theo tính chất của Apriori các tập {X1,X2,X3} và {X1,X3,X5} cũng là tập
không thường xuyên, nên tập mục thường xuyên là {X2,X3,X5}.
- Bước 2: Sinh ra các luật kết hợp mạnh từ các tập mục thường xuyên thỏa
mãn độ tin cậy tối thiểu cho trước (min_conf).
Hình 2.4: Sinh các luật kết hợp
Các luật kết hợp được sinh ra như sau: {X2,X3}=>{X5}, {X2,X5}=>{X3}, {X3,X5}=>{X2}, {X2}=>{X3,X5}, {X5}=>{X2,X3}, {X3}=>{X2,X5}.
45
Do độ lớn của thuật toán Apriori là hàm mũ, nên để đảm bảo hiệu năng khi chạy với lượng dữ liệu lớn, có thể cài đặt thuật toán chạy theo mơ hình MapReduce. Các bước thực hiện xử lý dữ liệu theo mơ hình MapReduce như bên dưới:
Hình 2.5: MapReduce dữ liệu 1 – itemset
46
CHƯƠNG 3: TRIỂN KHAI THỰC NGHIỆM
Trong chương này, luận văn sẽ ứng dụng thuật toán Apriori sinh ra các luật kết hợp đã nêu trong chương 1 để áp dụng vào các bài toán khai phá dữ liệu trong lĩnh vực viễn thơng. Mục đích là để tìm ra mối liên hệ giữa các gói cước dịch vụ được sử dụng trong kinh doanh viễn thơng, tìm ra được danh sách các gói cước được nhiều khách hàng lựa chọn, hoặc có nhu cầu sử dụng. Từ đó tìm ra sở thích, thói quen, hành vi tiêu dùng, xu hướng mua sắm và hiểu khách hàng cần gì để giúp doanh nghiệp chủ động hơn trong các chính sách, chiến dịch kinh doanh.
3.1 Lựa chọn bài toán
Trong phạm vi của luận văn, lựa chọn đề tài “Sử dụng phương pháp khai phá
luật kết hợp để tìm sở thích của khách hàng”, để giải quyết các bài tốn trong viễn
thơng tìm ra sở thích của khách hàng, mối liên hệ khi sử dụng các gói cước, dịch vụ giá trị gia tăng (như dịch vụ imuzik, game, mobile tv…), ví dụ khách hàng A sử dụng dịch vụ CRBT (nhạc chuông, nhạc chờ), các khách hàng khác sử dụng CRBT thường sử dụng thêm dịch vụ iSign (chữ ký cuộc gọi) -> khách hàng A cũng có xu hướng sử dụng dịch vụ iSign.
Ngồi ra, hiện nay với việc phát triển nhanh chóng của mạng 4G, 5G, việc sử dụng các phần mềm hỗ trợ thoại, nhắn tin trên nền tảng OTT đã trở nên phổ biến (như Zalo, FaceTime, Messenger, Viber, Whatsapp….) nên doanh thu mảng viễn thông truyền thống của các nhà mạng bị ảnh hưởng (doanh thu thoại, tin nhắn), do đó để đảm bảo doanh thu các nhà mạng phải đẩy mạnh phát triển các dịch vụ giá trị gia tăng hoặc các dịch vụ trên nền tảng data mạng 4G, 5G. Đây cũng là những dịch vụ mang nhiều doanh thu nhất về cho các nhà mạng viễn thông (hiện tại chiếm khoảng 60% trên tổng doanh thu). Đề tài nghiên cứu dựa trên dữ liệu thu thập được của các thuê bao thuộc Tổng cơng ty viễn thơng Viettel (nhà mạng có số lượng th bao người sử dụng lớn nhất cả nước).
Bài toán được ứng dụng trong kinh doanh viễn thông cung cấp các dịch vụ giá trị gia tăng, gói cước của các thuê bao di động. Mỗi khách hàng sẽ có các thuê bao sử dụng các gói cước khác nhau, có mức tiêu dùng nhu cầu sử dụng khác nhau về thoại, tin nhắn, data (dữ liệu truy cập mạng), các dịch vụ giá trị gia tăng (cuộc gọi nhỡ, nhạc chng), dịch vụ giải trí (game, truyền hình trên mobile).
Sử dụng kỹ thuật phát hiện luật kết hợp (Association rule mining) là bài toán với một tập các giao dịch (transactions) cho trước, chúng ta cần tìm các luật dự đốn khả năng xuất hiện trong một giao dịch của các mục (items) này dựa trên việc xuất hiện của các mục khác.
47
STT Tập mục (items)
1 Imuzik , CRBT
2 Imuzik , Mobile TV, Game, AnyBook
3 CRBT,Mobile TV, Game, Zozo
4 Imuzik , CRBT, Mobile TV, Game
5 Imuzik , CRBT, Mobile TV, Zozo
Bảng 3.1: Bảng giao dịch đăng ký gói cước
Các luật kết hợp từ tập giao dịch trên có thể có như sau:
- Mobile TV→ Game (Người dùng Mobile TV sẽ có khả năng có nhu cầu dùng Game).
- CRBT, Imuzik → AnyBook, Zozo (Người dùng CRBT và Imuzik sẽ có khả năng
có nhu cầu dùng AnyBook và Zozo).
- Game, Imuzik → CRBT (Người đã dùng Game và Imuzik sẽ có khả năng có nhu
cầu dùng CRBT).
Dựa vào kết quả của các luật kết hợp, qua mơ hình đánh giá người ta có thể nắm được hành vi của khách hàng để có thể đưa ra những lời mời, chiến lược quảng cáo thích hợp.
3.2 Mơ hình phân tích
Để giải quyết bài toán trong khai phá dữ liệu thực hiện qua các bước sau:
Hình 3.1: Mơ hình phân tích khai phá dữ liệu luật kết hợp
Bước 1: Thu thập dữ liệu: Hệ thống thu thập dữ liệu về thông tin thuê bao, dữ
liệu tiêu dùng, dữ liệu đăng ký các dịch vụ, gói cước.
Bước 2: Tiền xử lý và lưu trữ dữ liệu: Từ các dữ liệu thu thập được, xử lý các
dữ liệu khơng hợp lệ, tính nhất quán của dữ liệu.
1.Thu thập dữ
48
Bước 3: Mơ hình phân tích, sinh luật kết hợp: Sinh các luật kết hợp cho các
dịch vụ giá trị gia tăng (vas) của khách hàng.