3.1.1. Phát biểu bài tốn
Đầu vào:
- Dữ liệu quản lý khách hàng khách hàng thuê bao - Dữ liệu chi tiết sử dụng dịch vụ của thuê bao - Dữ liệu hĩa đơn của thuê bao
- Dữ liệu khuyến mại của thuê bao - Dữ liệu thuê bao rời mạng
- Dữ liệu thuê bao cần cần dự báo
Đầu ra: Đƣa ra mơ hình phân lớp dự báo, các chỉ số đánh giá mơ hình, các luật rút ra từ mơ hình giúp đƣa ra dự báo khách hàng cĩ thể rời mạng.
Ví dụ:
Đầu vào: Thơng tin về khách hàng: Khách hàng đã hoạt động đƣợc 6 tháng, là thuê bao Postpaid, số cuộc gọi ngoại mạng trong tháng gần nhất tăng cao, số lƣợng cuộc gọi nội mạng giảm dần, số lƣợng tin nhắn tháng gần nhất
Đầu ra: Dự đốn khách hàng cĩ 60% khả năng rời mạng.
3.1.2. Khái niệm thuê bao rời mạng “churn”
Đặc điểm của thị trƣờng viễn thơng những năm qua là biến đổi nhanh chĩng, tự do hĩa thị trƣờng, cải tiến kỹ thuật, độ bão hịa và cạnh tranh khốc liệt. Khách hàng cĩ nhiều sự lựa chọn giữa các nhà khai thác di động, họ cĩ thể chuyển đổi giữa các nhà khai thác mà khơng cĩ bất kỳ khĩ khăn nào và khơng ngừng tìm kiếm nhà mạng cĩ dịch vụ tốt hơn với chi phí thấp.
“Churn” [6] là một thuật ngữ đƣợc sử dụng trong viễn thơng và nhiều ngành cơng nghiệp khác nĩ đề cập đến quyết định di chuyển từ một nhà cung cấp dịch vụ này đến một nhà cung cấp dịch vụ khác của khách hàng. “Churn” cĩ nguồn gốc từ change (sự thay đổi) và turn (chiều hƣớng). “Churn” [9] xảy ra bởi nhiều lý do khác nhau nhƣ khơng hài lịng với các dịch vụ hay các hĩa đơn cao hoặc khách hàng thƣờng nhận đƣợc ƣu đãi hấp dẫn khi đăng ký với một nhà cung cấp dịch vụ di động mới. Khi khách hàng rời mạng cũng ảnh hƣởng đến những ngƣời quen của họ trong cùng một mạng, điều này làm gia tăng khả năng rời mạng của các thuê bao này. Nếu coi việc rời mạng là một hiện tƣợng thì việc rời mạng là sự kết hợp của thĩi quen sử dụng của ngƣời dùng và của những hoạt động của ngƣời xung quanh. Tỷ lệ “churn” trung bình trong một nhà cung cấp dịch vụ di động là khoảng 2% mỗi tháng (Berson, Smith, và Thearling, 2000). Tỷ lệ rời mạng hàng năm ở Châu Âu là 25%, Mỹ 37% và Châu Á 48% (Mattersion, 2001).
Định nghĩa: Thuê bao rời mạng là việc khách hàng khơng sử dụng dịch
vụ mạng của nhà cung cấp dịch vụ viễn thơng.
Việc mất khách hàng đồng nghĩa với việc mất doanh thu trong tƣơng lai và mất chi phí đầu tƣ để cĩ lại những khách hàng này. Trong khi đĩ, tìm kiếm
khách hàng mới trở nên khĩ khăn hơn bao giờ hết do sự cạnh tranh khốc liệt và độ bão hịa của thị trƣờng thơng tin di động. Chi phí đƣợc khách hàng mới là cao hơn đáng kể so với việc giữ khách hàng hiện tại. Trong thực tế, chi phí để phát triển một thuê bao mới lớn 5-10 lần chi phí để giữ chân khách hàng. Đối mặt với thách thức này, các nhà khai thác cần phải tập trung vào việc làm thế nào để ngăn chặn khách hàng rời mạng. Biết trƣớc khi nào khách hàng rời mạng sẽ cho phép nhà quản lý cĩ chiến lƣợc phịng tránh, và cĩ nhiều cơ hội hơn trong việc giữ chân khách hàng thành cơng. Dự đốn khi nào khách hàng sẽ “churn” giúp tăng doanh thu và tiết kiệm đƣợc nguồn lực cho nhà mạng [9,12,13].
3.1.3. Thu thập, chuẩn hĩa dữ liệu
Luận văn thực hiện thu thập dữ liệu thơng tin thuê bao tại nhà cung cấp dịch vụ viễn thơng Mobifone Phú Thọ. Thực hiện trích xuất từ kho dữ liệu Mobifone Phú Thọ, thu thập các dữ liệu cần thiết cho mơ hình “churn”. Các thơng tin về khách hàng cần thiết cho dự đốn thuê bao rời mạng gồm: dữ liệu quản lý khách hàng khách hàng thuê bao, dữ liệu chi tiết sử dụng dịch vụ của thuê bao, dữ liệu thanh tốn và khuyến mại của thuê bao, dữ liệu thuê bao rời mạng.
Dữ liệu thu thập đƣợc sau khi lọc và loại bỏ các thơng tin khơng chính xác, khơng cần thiết thì gồm các thơng tin [11,14]:
- Dữ liệu quản lý khách hàng: tuổi, giới tính, loại thuê bao, bƣu cục thu, thời gian hoạt động.
- Dữ liệu sử dụng dịch vụ: số dịch vụ sử dụng, số cuộc gọi nội mạng, số cuộc gọi ngoại mạng, số cuộc gọi quốc tế, thời gian gọi nội mạng, thời gian gọi ngoại mạng, thời gian gọi quốc tế, số lƣợng SMS.
- Dữ liệu thanh tốn: tiền phát sinh gọi nội mạng, tiền phát sinh gọi ngoại mạng, tiền phát sinh gọi quốc tế, tiền phát sinh SMS, tiền phát sinh Data, tổng số tiền phát sinh, số tiền đƣợc khuyến mại, mức tiền thực phải thanh tốn.
Mơ hình dƣới đây thể hiện mối quan hệ của cơ sở dữ liệu dự đốn thuê bao rời mạng. Trong đĩ các bảng call_detail, zone, promotion, bill_data là các bảng nguồn, các bảng cust_info, churn_list, cust_churn, cust_neighbor, call_zone, bill, charges_real là các bảng đích, cuối cùng cust_file - một bảng view là trung tâm của cơ sở dữ liệu này. Cust_file là bảng tạo ra bởi sự kết hợp của các bảng đích hình thành lƣợc đồ hình sao xung quanh nĩ.
Hình 3.1 - Mơ hình quan hệ các bảng dữ liệu
- Bảng cust_info: là bảng mơ tả tính năng đặc trƣng của khách hàng nhƣ: tuổi tác, giới tính, nơi ở, nơi thanh tốn, ngày hịa mạng…
- Bảng churn_list: là bảng danh sách các thuê bao rời mạng. - Bảng call_detail: là thơng tin chi tiết các cuộc gọi.
- Bảng zone: là bảng xác định mã vùng các cuộc gọi đi.
- Bảng promotion: bảng lƣu trữ thơng tin khuyến mại của thuê bao.
- Bảng bill_data: bảng lƣu trữ thơng tin cƣớc các cuộc gọi và dịch vụ của khách hàng.
- Bảng cust_churn: là bảng kết hợp giữa bảng cust_info và churn_list mơ tả thơng tin các khách hàng rời mạng.
- Bảng call_zone: là bảng kết hợp giữa bảng call_detail và zone, đƣa ra các vùng gọi đi của từng thuê bao.
- Bảng bill: là bảng kết hợp giữa bảng bill_data và promotion, đƣa ra thơng tin hĩa đơn sử dụng tất cả các dịch vụ của thuê bao đã đƣợc trừ đi khuyến mại.
- Bảng charges_real: là bảng lƣu thơng cƣớc thực tế của thuê bao chƣa trƣớc khi trừ khuyến mại.
“Churn” là một sự kiện quan hệ nhân quả do đĩ khi thực hiện chiết xuất dữ liệu phải nắm bắt đƣợc những thay đổi trong các đặc điểm và hành vi của khách hàng. Vai trị của một mơ hình dự đốn là phát hiện những hành vi thay đổi đáng chú ý dẫn đến rời mạng. Để thực hiện phân loại cần hai giai đoạn, đầu tiên là giai đoạn phân tích, mà từ giai đoạn này cĩ thể đƣa ra đƣợc những
đặc trƣng cho mỗi khách hàng. Giai đoạn cịn lại đƣợc sử dụng để dán nhãn phân biệt khách hàng rời mạng hoặc khơng rời mạng.
Do đặc trƣng của thuê bao trả sau là khách hàng thực hiện thanh tốn vào đầu tháng tiếp theo, nên thời gian đƣợc thiết lập để phân tích trong luận văn này là 3 tháng và thời gian để quan sát là 1 tháng. Tất cả khách hàng đang hoạt động vào đầu tháng quan sát sẽ nằm trong tập dữ liệu huấn luyện. Thời gian quan sát đƣợc sử dụng để ghi nhãn khách hàng “churn” hoặc “no-churn”. Những thuê bao rời mạng trong giai đoạn này đƣợc dán nhãn là “churn” và những thuê bao khơng rời mạng sau giai đoạn này đƣợc dán nhãn là “no- churn”. Sau thời gian quan sát một khách hàng “no-churn” cĩ thể tiếp tục hoạt động và sử dụng dịch vụ hoặc sau đĩ trở thành “churn”.
Hình 3.2 - Các giai đoạn của mơ hình dự đốn thuê bao rời mạng
3.1.4. Lựa chọn thuộc tính
Lựa chọn thuộc tính liên quan đến quá trình lựa chọn một tập con của các thuộc tính liên quan từ một tập các thuộc tính ban đầu. Lựa chọn thuộc tính làm giảm số lƣợng các thuộc tính cho đầu vào các mơ hình nhằm làm
giảm chi phí thu thập dữ liệu và chi phí tính tốn. Hơn nữa, nĩ khơng những mang lại kết quả chính xác hơn mà cịn nhỏ gọn và dễ hiểu hơn."Lựa chọn thuộc tính, như là một bước tiền xử lý cho quá trình học máy, rất hiệu quả trong việc giảm chiều, loại bỏ dữ liệu khơng phù hợp, tăng độ chính xác, và
cải thiện tồn diện kết quả" (Kira & Rendell, 1992). Lựa chọn thuộc tính bao
gồm các lựa chọn riêng lẻ hoặc nhĩm nhỏ. Lựa chọn thuộc tính riêng lẻ xếp các thuộc tính riêng biệt theo một số liệu cụ thể mà lựa chọn nhĩm cĩ tính đến sự tƣơng tác và mối tƣơng quan giữa các thuộc tính.
Trong bài tốn phân lớp, lựa chọn thuộc tính nhằm mục đích chọn tập các thuộc tính cĩ khả năng phân biệt cao. Nĩi cách khác là chọn tính thuộc tính cĩ khả năng phân biệt các mẫu thuộc lớp khác nhau. Do thơng tin của nhãn là sẵn cĩ nên sự phù hợp của các thộc tính đƣợc đánh giá cao.
Lựa chọn thuộc tính chủ yếu ảnh hƣởng đến giai đoạn đào tạo của bài tốn phân lớp [11,16]. Sau khi tạo ra các thuộc tính, thay vì trực tiếp huấn luyện dữ liệu với tồn bộ các thuộc tính, ta thực hiện lựa chọn tập các tính năng và sau đĩ huấn luyện dữ liệu với các tính năng đã đƣợc chọn. Các tính năng đƣợc chọn cĩ thể là độc lập với các thuật tốn học (nhƣ filter models) hoặc cĩ thể lặp đi lặp lại sử dụng các thuật tốn để đánh giá chất lƣợng các tính năng lựa chọn (nhƣ wrapper models). Các tính năng đƣợc lựa chọn cuối cùng đƣợc sử dụng cho giai đoạn phân lớp và dự báo.
Hình 3.3 - Lựa chọn thuộc tính trong phân lớp dữ liệu
Từ dữ liệu thu thập đƣợc và với thời gian phân tích là 3 tháng cho các thuê bao tơi thu thập đƣợc 101 thuộc tính (chi tiết mơ tả tại phụ lục 1 luận văn)[11]. Trong 101 thuộc tính này cĩ 5 thuộc tính nằm trong dữ liệu quản lý khách hàng, 62 thuộc tính của thơng tin chi tiết sử dụng dịch vụ của thuê bao và 34 thuộc tính thuộc dữ liệu hĩa đơn và khuyến mại của thuê bao.
Hình 3.4 - Số lượng thuộc tính được thu thập
Số lƣợng thuộc tính
Info: 5 Service: 62 Bill&Promo: 34
Từ các thuộc tính thu thập đƣợc ban đầu thực hiện lựa chọn và đánh giá từng thộc tính, thực hiện loại bỏ các thuộc tính cĩ độ chính xác thấp và các thuộc tính cĩ tỉ lệ lỗi ta thu đƣợc các thuộc tính lựa chọn (chi tiết phụ lục 2).
3.2. Lựa chọn phƣơng pháp, cơng cụ 3.2.1. Ngơn ngữ R 3.2.1. Ngơn ngữ R
Phân tích số liệu và biểu đồ thƣờng đƣợc tiến hành bằng các phần mềm thơng dụng nhƣ SAS, SPSS, Stata, Statistica, và S-Plus. Đây là những phần mềm đƣợc các cơng ty phần mềm phát triển và giới thiệu trên thị trƣờng khoảng ba thập niên qua, và đã đƣợc các trƣờng đại học, các trung tâm nghiên cứu và cơng ty trên tồn thế giới sử dụng cho giảng dạy và nghiên cứu. Nhƣng vì chi phí để sử dụng các phần mềm này tuơng đối đắt tiền, một số trƣờng đại học ở các nƣớc đang phát triển khơng cĩ khả năng tài chính để sử dụng chúng một cách lâu dài. Do đĩ, các nhà nghiên cứu thống kê trên thế giới đã hợp tác với nhau để phát triển một phần mềm mới, với chủ trƣơng mã nguồn mở, sao cho tất cả các thành viên trong ngành thống kê học và tốn học trên thế giới cĩ thể sử dụng một cách thống nhất và hồn tồn miễn phí.
Năm 1996, trong một bài báo quan trọng về tính tốn thống kê, hai nhà thống kê học Ross Ihaka và Robert Gentleman thuộc Trƣờng đại học Auckland, New Zealand phát hoạ một ngơn ngữ mới cho phân tích thống kê mà họ đặt tên là R. Sáng kiến này đƣợc rất nhiều nhà thống kê học trên thế giới tán thành và tham gia vào việc phát triển R.
Cho đến nay, qua chƣa đầy 10 năm phát triển, càng ngày càng cĩ nhiều nhà thống kê học, tốn học, nghiên cứu trong mọi lĩnh vực đã chuyển sang sử dụng R để phân tích dữ liệu khoa học. Trên tồn cầu, đã cĩ một mạng lƣới hơn một triệu ngƣời sử dụng R, và con số này đang tăng rất nhanh. Cĩ thể nĩi
trong vịng 10 năm nữa, vai trị của các phần mềm thống kê thƣơng mại sẽ khơng cịn lớn nhƣ trong thời gian qua nữa. Vậy R là gì? Nĩi một cách ngắn gọn, R là một phần mề sử dụng cho phân tích thống kê và vẽ biểu đồ. Về bản chất, R là ngơn ngữ máy tính đa năng, cĩ thể sử dụng cho nhiều mục tiêu khác nhau, từ tính tốn đơn giản, tốn học giải trí (recreational mathematics), tính tốn ma trận (matrix), đến các phân tích thống kê phức tạp. Vì là một ngơn ngữ, cho nên ngƣời ta cĩ thể sử dụng R để phát triển thành các phần mềm chuyên mơn.
Để sử dụng R, việc đầu tiên là chúng ta phải cài đặt R trong máy tính của mình. Để làm việc này, ta phải truy nhập vào mạng và vào website cĩ tên là “Comprehensive R Archive Network” (CRAN) sau đây:
http://cran.R-project.org
Khi đã tải R xuống máy tính, bƣớc kế tiếp là cài đặt (set-up) vào máy tính. Để làm việc này, chúng ta chỉ đơn giản nhấn chuột vào tài liệu trên và làm theo hƣớng dẫn cách cài đặt trên màn hình. Đây là một bƣớc rất đơn giản, chỉ cần 1 phút là việc cài đặt R cĩ thể hồn tất. Tài liệu cần tải về, tùy theo phiên bản, nhƣng thƣờng cĩ tên bắt đầu bằng mẫu tự R và số phiên bản (version). Tài liệu này khoảng 26 MB, và địa chỉ cụ thể để tải là:
Hình 3.5 – Giao diện làm việc trên ngơn ngữ R
3.2.2. Phƣơng pháp phân lớp
Luận văn lựa chọn thuật tốn cây quyết định C4.5, NB, SVM để thử nghiệm với bài tốn phân lớp dữ liệu thuê bao rời mạng.
Đánh giá các phƣơng pháp phân lớp lựa chọn: a. phƣơng pháp phân lớp cây quyết định
- Dễ hiểu khơng địi hỏi chuẩn hĩa dữ liệu nhƣ các thuật tốn khác, cĩ thể xử lý lƣợng dữ liệu lớn thuê bao trong thời gian ngắn.
- Phƣơng pháp sử dụng giiải thuật tham lam chia để trị, đệ quy từ trên xuống.
- Kết quả rễ ràng nhận thấy, cĩ thể kiểm tra lại đơn giản bằng thống kê.
Ƣu điểm:
- Dễ cài đặt thuật tốn.
- Thời gian thi hành nhanh, tƣơng tự nhƣ phƣơng pháp cây quyết định. - Đạt kết quả tốt trong phần lớn các trƣờng hợp thử nghiệm dữ liệu.
Nhƣợc điểm.
- Giả thiết về tính độc lập điều kiện các thuộc tính làm giảm độ chính xác thuật tốn.
c. Phƣơng pháp phân lớp SVM Ƣu điểm:
- Hiệu quả với dữ liệu thuê bao số chiều lớn, giải quyết nhanh. - Hiệu suất tổng hợp, tính tốn tốt.
Nhƣợc điểm:
- Việc lựa chọn thuộc tính cho từng lớp là vấn đề quan trọng nĩ quyết định đến hiệu quả phân lớp.
3.2.3. Đánh giá hiệu năng
Khơng cĩ một thuật tốn nào là ƣu việt hơn so với thuật tốn khác trong tất cả các lĩnh vực. Một số hoạt động tốt trong các lĩnh vực này, trong khi một số khác thực hiện tốt hơn ở lĩnh vực khác. Trong luận văn này, các thuật tốn học đƣợc áp dụng để xây dựng các lớp. Hiệu năng của các lớp sẽ đƣợc so sánh hay nĩi cách khác, các hiệu năng của các thuật tốn khác nhau trên dữ liệu sẽ đƣợc so sánh. Vậy, chỉ số "tốt" của một lớp là gì? Các tính chất mong muốn là chính xác, tổng quát và mức độ tin cậy của dự báo. Ma trận nhầm lẫn đƣa ra bốn kết quả khi một lớp đƣợc áp dụng trên một tập các trƣờng hợp.
Lớp 𝐶𝑖
Đƣợc phân lớp bởi thuật tốn Thuộc (yes) Khơng thuộc (no) Phân lớp thực sự đúng Thuộc TPi FNi