4. PHƢƠNG PHÁP NGHIÊN CỨU
1.3.2.1. Chu trình thuê bao viễn thông
Rời mạng thuờng đuợc phan thành 2 loại: rời mạng chủ đọng và rời mạng bị đọng. Rời mạng chủ đọng là truờng hợp những khách hàng chọn để rời mạng, viẹc rời mạng là do lựa chọn của khách hàng. Ví dụ, khách hàng chuyển sang mạng đối thủ hoạc chuyển đổi sang hợp đồng thue bao trả sau.
Rời mạng bị đọng là truờng hợp khách hàng bị nhà cung cấp ngừng cung cấp dịch vụ, thuờng là vì l do gian lạn hoạc nợ cuớc. Rời mạng vì l do gian lạn duờng nhu rất hiếm xảy ra. Rời mạng do nợ cuớc thì chỉ xảy ra với thue bao trả sau. Nhu đã đề cạp ở tren, trong nghien cứu này, chúng toi chỉ tạp trung vào vấn đề rời mạng của thue bao trả truớc. Vì vạy, rời mạng bị đọng xảy ra khi khách hàng khong nạp lại tiền trong mọt khoảng thời gian đủ dài theo quy định.
Mọt trong những vấn đề quan trọng nhất của thue bao trả truớc là thiếu mọt định nghĩa đủ rõ ràng. Khi xem xét rời mạng đối với thue bao trả sau, ngày thue bao bị khóa 2 chiều (ngày thue bao ngừng kết nối với mạng) chính là ngày rời mạng, đay là ngày thue bao thực sự ngừng sử dụng dịch vụ của nhà cung cấp. Tuy nhien, truờng hợp thue bao trả truớc, ngày khóa 2 chiều cũng khong thực sự là ngày rời mạng. Điều này có thể đuợc nhìn mọt cách rõ ràng hon thong qua các giai đoạn khác nhau của thue bao trả truớc. Thue bao trả truớc thong thuờng sẽ có 4 giai đoạn:
Giai đoạn 1: Kích hoạt, trở thành thue bao mới
Giai đoạn 2: Hoạt đọng bình thuờng (thue bao phát sinh các giao dịch và hoạt đọng bình thuờng tren mạng).
Giai đoạn 3: Khóa 1 chiều (thue bao chỉ có thể nhạn các giao dịch chiều đến, khong thực hiẹn đuợc các giao dịch chiều đi). Truờng hợp này, thue bao nạp tiền trở lại thì sẽ quay lại trạng thái hoạt đọng bình thuờng (giai đoạn 2). Truờng hợp thue bao khong nạp lại tiền, sau mọt khoảng thời gian nhất định theo quy định, thue bao sẽ bị chuyển sang giai đoạn 4 (khóa 2 chiều).
Hình 1.8. Vòng đời của thuê bao di động
Tùy từng loại hình thue bao mà khoảng thời gian chuyển từ giai đoạn này sang giai đoạn tiếp theo sẽ khác nhau. Ví dụ, đối với thue bao gói VinaCard, thue bao chỉ cần phát sinh mọt giao dịch thì sẽ luon có 30 ngày sử dụng ở giai đoạn 2. Trong 30 ngày đó, nếu khách hàng khong sử dụng dịch vụ gì, khong nạp tiền thì thue bao sẽ chuyển sang giai đoạn 3 (khóa 1 chiều). Thue bao sẽ có khoảng 10 ngày ở giai đoạn 2 này, nếu khong nạp lại tiền và sử dụng lại dịch vụ thì thue bao sẽ chuyển sang giai đoạn 3 (khóa 2 chiều). Ở giai đoạn 3, thue bao sẽ có 30 ngày giữ số truớc khi bị xóa hoàn toàn khỏi hẹ thống. Nhu vạy, từ giai đoạn 2 đến hết giai đoạn 4, thue bao có tới 70 ngày. Thực tế, thue bao đã có thể rời mạng tại bất cứ thời điểm nào trong 70 ngày này.
1.3.2.2. Phát biểu bài toán
Vì l do thời điểm tác đọng đuợc đến thue bao quan trọng nen viẹc xác định thời điểm nào đuợc coi là rời mạng sẽ rất quan trọng trong viẹc dự đoán rời mạng và thực hiẹn các tác đọng để duy trì, ngan chạn thue bao rời mạng. Trong phạm vi đề tài này, khái niẹm “rời mạng” đuợc xác định là truờng hợp khách hàng khong phát sinh cuớc (khong phát sinh bất cứ giao dịch nào hoạc khong có biến đọng về tài khoản trong vòng mọt tháng). Tức là, thue bao
đuợc xác định là rời mạng khi có thể thực tế vẫn đang ở giai đoạn 2. L do sử dụng khái niẹm rời mạng này nhu sau:
Theo kinh nghiẹm thực tế, thue bao trả truớc chuyển sang giai đoạn 3 (khóa 1 chiều) thì hầu nhu rất khó lien lạc, thạm chí đã vứt bỏ sim-card ra khỏi điẹn thoại. Do vạy, viẹc tác đọng đến thue bao ở giai đoạn này hầu nhu khong có hiẹu quả.
Mốc “kho ng phát inh c ớc” cho phép dự đoán thue bao rời mạng khi thue bao vẫn còn đang ở giai đoạn 2, đảm bảo còn đủ thời gian để thực hiẹn tác đọng truớc khi thue bao chuyển sang giai đoạn 3.
Mục đích của nghien cứu: Phát hiện các thuê bao trả trƣớc lâu năm có khả năng rời mạng bằng cách phân lớp kho thuê bao này để có thể tác động và duy trì thuê bao.
Mục tieu của nghien cứu: Dự báo các thuê bao trả trƣớc lâu năm có khả năng rời mạng khi vẫn còn trong giai đoạn 2 của vòng đời thuê bao tức là không phát sinh cƣớc trong khoảng thời gian là 30 ngày.
1.4. TIẾP CẬN HỌC MÁY CHO BÀI TOÁN DỰ BÁO KHÁCH HÀNG
VIỄN THÔNG CHUYỂN MẠNG
Với sự phát triển của mạng di động, các nhà nghiên cứu quan tâm nhiều hơn đến ngoại mạng của ngƣời dùng di động. Phù hợp với các yếu tố thông tin cơ bản, thông tin tiêu dùng và sở thích cá nhân của ngƣời dùng, xu hƣớng ngoại mạng của ngƣời dùng có thể đƣợc dự đoán một cách hiệu quả và hợp l . Cụ thể, ngƣời dùng đƣợc chia thành hai loại: hủy bỏ và không hủy bỏ. Trong nghiên cứu về tình hình ngƣời dùng gián đoạn mạng di động, nguyên l Pareto cũng đƣợc áp dụng. Mức độ ảnh hƣởng do 80 ngƣời dùng thông thƣờng (giá trị ARPU thấp, APRU đề cập đến mức tiêu thụ trung bình trên
mỗi ngƣời dùng) sẽ thấp hơn so với ngƣời dùng có giá trị cao (giá trị ARPU cao) 20 . Hiệu quả của chính sách giữ chân ngƣời dùng đƣợc tùy chỉnh cho ngƣời dùng giá trị cao trong việc hạn chế ngƣời dùng chuyển mạng là rõ ràng hơn [7]. Trong quá trình nghiên cứu, nguyên tắc này cũng sẽ đƣợc tuân theo để phân tích tình hình hoạt động của những ngƣời dùng giá trị cao, từ đó nhà điều hành có thể hiểu rõ mức độ hài lòng của ngƣời dùng đối với dịch vụ di động hiện tại.
Hiện tại, trong nghiên cứu về ngƣời dùng chuyển mạng, tập trung vào các khía cạnh sau: (1) hầu nhƣ không xem xét việc thiết lập mô hình dự đoán ngƣời dùng tƣơng ứng cho các nhóm khác nhau; ví dụ: chia nhỏ ngƣời dùng dựa trên giá trị của ngƣời dùng và thiết lập các mô hình dự đoán tƣơng ứng; (2) loại dữ liệu trong thông tin tiêu dùng của ngƣời dùng chƣa đƣợc xem xét và các chiến lƣợc hiệu quả chƣa đƣợc thực hiện để đối phó với việc phân loại dữ liệu kết hợp; (3) các thuật toán chính đƣợc sử dụng để dự đoán chuyển mạng chủ yếu là mô hình đơn lẻ không có tính ổn định và hiệu quả tốt hơn của dự đoán. Chẳng hạn nhƣ phân tích hồi quy, cây quyết định, mạng nơ-ron và SVM (Máy vectơ tựa), v.v. Trong khi đó, các thuật toán dự đoán nêu trên đều có những ƣu nhƣợc điểm riêng, phạm vi áp dụng cũng có những hạn chế nhất định. Ví dụ, SVM có độ chính xác phân loại tốt trong tập dữ liệu nhỏ và độ phức tạp cao về thời gian trong tập dữ liệu lớn.
Do đó, đối với các vấn đề nêu trên và đặc điểm của dữ liệu tiêu thụ của ngƣời dùng, mô hình kết hợp K-Prototypes và SVM mờ (Fuzzy K-Prototypes- based Support Vector Machine, FKP-SVM) đƣợc đề xuất để giải quyết sự không ổn định và hạn chế của mô hình dự đoán duy nhất và dự đoán xu hƣớng chuyển mạng của những ngƣời dùng có giá trị cao. Mục đích là giảm thời gian thao tác và nâng cao độ chính xác của dự đoán. Trong mô hình kết
dữ liệu lai và phân cụm mẫu hỗn hợp với khối lƣợng dữ liệu lớn, sau đó, chọn các mẫu gần trung tâm cụm trong mỗi cụm làm đầu vào của SVM để giải quyết hiệu quả đào tạo kém của SVM, nguyên nhân do tính ngẫu nhiên trong việc xử lý tập dữ liệu quy mô lớn; cuối cùng, thiết lập mô hình dự đoán nhanh chóng và chính xác. Kết quả thực nghiệm cho thấy phƣơng pháp kết hợp FKP-SVM có thể giảm thời gian đào tạo tập dữ liệu quy mô lớn, tiết kiệm tài nguyên hệ thống và nâng cao độ chính xác dự đoán cho dữ liệu lai.
Trong nghiên cứu dự đoán ngƣời dùng hủy đăng k , sự chú ý chủ yếu tập trung vào hai khía cạnh: thứ nhất, áp dụng phƣơng pháp mô hình duy nhất để dự đoán ngƣời dùng chuyển mạng; thứ hai, áp dụng phƣơng pháp mô hình kết hợp để dự đoán ngƣời dùng chuyển mạng/hủy bỏ.
Có nhiều kết quả nghiên cứu về dự đoán ngƣời dùng chuyển mạng/hủy bỏ dựa trên mô hình duy nhất, các nhà nghiên cứu áp dụng các mô hình đơn lẻ khác nhau để phân tích ngƣời dùng hủy bỏ. Hadden J và cộng sự [8] so sánh ảnh hƣởng của các phƣơng pháp nhƣ mạng nơ ron, cây hồi quy và mô hình hồi quy trong dự đoán chuyển mạng của ngƣời dùng. Ying và cộng sự [9] đề xuất phƣơng pháp SVM với các loại tham số trọng số khác nhau dựa trên đặc điểm kích thƣớc không cân bằng của mẫu dƣơng và âm trong dữ liệu chuyển mạng/hủy bỏ khách hàng thực tế. Xia và cộng sự [10] đã so sánh các phƣơng pháp nhƣ mạng nơ-ron nhân tạo, cây quyết định và bộ phân loại Bayes từ các khía cạnh nhƣ độ chính xác, tỷ lệ truy cập, tỷ lệ phủ và hệ số nâng. Gopal R. K. và cộng sự lần đầu tiên áp dụng phƣơng pháp hồi quy theo thứ tự để mô hình hóa tình huống xáo trộn của ngƣời dùng. Sato T và cộng sự [11] đã sử dụng phƣơng pháp phân tích thành phần chính để dự đoán khách hàng hủy bỏ và so sánh phƣơng pháp này với Bayes, cây quyết định và phƣơng pháp SVM. Owczarczuk, Marcin và cộng sự [12] đã áp dụng phƣơng
động và viễn thông. Huang và cộng sự [14] đã đề xuất một bộ đặc trƣng mới và áp dụng hồi quy logistic, phân loại tuyến tính, Naive Bayes, cây quyết định, nhận thức đa lớp và SVM để dự đoán thời gian rời mạng của khách hàng.
Nó đã trở thành một chiến lƣợc và phƣơng pháp quan trọng để mô hình hóa ngƣời dùng chuyển mạng với mô hình kết hợp. Tsai, Chih Fong và cộng sự [15] đã thiết kế hai mô hình hỗn hợp để dự đoán khách hàng chuyển mạng: mô hình thứ nhất là mô hình hỗn hợp mạng nơ ron + mạng nơ ron; mô hình thứ hai là mô hình hỗn hợp của ánh xạ tự tổ chức + mạng nơ ron. Pendharkar P.C. [16] đã đề xuất mô hình kết hợp mạng nơ-ron dựa trên thuật toán di truyền để lập mô hình về ngƣời sử dụng. Wojewnik P và cộng sự [17] kết hợp thuật toán phân cụm K-means và thuật toán phân loại mô hình đơn cổ điển để thiết kế một mô hình tích hợp nhằm tạo mô hình cho khách hàng và thu đƣợc tỷ lệ dự đoán truy cập cao hơn. He và cộng sự. [18] đã thông qua thuật toán cây quyết định C5.0, thuật toán cây quyết định CART và mạng nơ-ron RBF để thực hiện nghiên cứu về khách hàng. Lu và cộng sự [19] đã thông qua hồi quy logistic để thiết lập mô hình dự đoán hủy bỏ cho từng loại tƣơng ứng. Idris A và cộng sự [20] đề xuất phƣơng pháp lựa chọn tính năng dựa trên bộ lọc và trình bao bọc để thiết lập mô hình dự đoán của ngƣời dùng hủy bỏ.
1.5. KẾT LUẬN CHƢƠNG 1
Chƣơng 1, luận văn đã trình bày tổng quan về học máy và bài toán phân lớp dự báo khách hàng viễn thông chuyển mạng cũng nhƣ bài toán phân tích khách hàng dự đoán chuyển mạng. Một số cách tiếp cận cho bài toán đặt ra cũng nhƣ những phân tích khoa học về các thuật toán có thể áp dụng cho từng mô hình dữ liệu.
CHƢƠNG 2: KẾT HỢP THUẬT TOÁN K-MEANS VÀ SVM GIẢI BÀI TOÁN PHÂN LỚP
2.1. THUẬT TOÁN PHÂN CỤM K-MEANS
2.1.1. Phân cụm dữ liệu
K-means thuộc lớp thuật toán phân cụm phân hoạch. Phân cụm phân hoạch là một tập hợp dữ liệu có n phần tử thành k nhóm cho đến khi xác định số các cụm đƣợc thiết lập. Số các cụm đƣợc thiết lập là các đặc trƣng đƣợc lựa chọn trƣớc.
Phân cụm phân hoạch tốt cho việc tìm các cụm hình cầu trong không gian Euclidean. Ngoài ra phân cụm phân hoạch cũng phụ thuộc vào khoảng cách cơ bản giữa các điểm để lựa chọn các điểm dữ liệu nào có quan hệ là gần nhau với mỗi điểm khác và các điểm dữ liệu nào không có quan hệ hoặc có quan hệ là xa nhau so với mỗi điểm khác.
Phân cụm phân hoạch không thể xử lý các cụm có hình dạng kỳ quặc hoặc các cụm có mật độ các điểm dầy đặc. Các thuật toán phân hoạch dữ liệu có độ phức tạp rất lớn khi xác định nghiệm tối ƣu toàn cục cho vấn đề phân cụm dữ liệu, do nó phải tìm kiếm tất cả các cách phân hoạch có thể đƣợc. Chính vì vậy, trên thực tế thƣờng đi tìm giải pháp tối ƣu cục bộ cho vấn đề này bằng cách sử dụng một hàm tiêu chuẩn để đánh giá chất lƣợng của cụm cũng nhƣ để hƣớng dẫn cho quá trình tìm kiếm phân hoạch dữ liệu.
Phân cụm phân hoạch, thông thƣờng bắt đầu khởi tạo một phân hoạch ban đầu cho tập dữ liệu theo phép ngẫu nhiên hoặc heuristic, và liên tục tinh chỉnh nó cho đến khi thu đƣợc một phân hoạch mong muốn, thỏa mãn ràng buộc cho trƣớc. Các thuật toán phân cụm phân hoạch cố gắng cải tiến tiêu chuẩn phân cụm, bằng cách tính các giá trị đo độ tƣơng tự giữa các đối tƣợng
dữ liệu và sắp xếp các giá trị này, sau đó thuật toán lựa chọn một giá trị trong dãy sắp xếp sao cho hàm tiêu chuẩn đạt giá trị tối thiểu. Ý tƣởng chính của thuật toán phân cụm phân hoạch tối ƣu cục bộ là sử dụng chiến lƣợc ăn tham (Greedy) để tìm kiếm nghiệm.
2.1.2. Thuật toán K-means [3]
K-means là thuật toán phân cụm trong đó các cụm đƣợc định nghĩa bởi trung tâm của các phần tử trong cụm đó. Phƣơng pháp này dựa trên độ đo khoảng cách của các đối tƣợng dữ liệu trong cụm. Trong thực tế, nó đo khoảng cách tới trung tâm của các đối tƣợng dữ liệu trong cụm (trung tâm của một cụm dữ liệu đƣợc coi nhƣ là giá trị trung bình của các đối tƣợng dữ liệu trong cụm đó). Nhƣ vậy nó cần khởi tạo một tập trung tâm các cụm ban đầu, và thông qua đó nó lặp lại các bƣớc gồm gán mỗi đối tƣợng tới cụm mà trung tâm gần, và tính toán lại trung tâm của mỗi cụm trên cơ sở gán mới cho các đối tƣợng. Quá trình lặp này dừng khi các trung tâm hội tụ.
Hình 2.1. Xác lập ranh giới các cụm ban đầu
Trong phƣơng pháp k-means, chọn một giá trị k và sau đó chọn ngẫu nhiên k trung tâm của các đối tƣợng dữ liệu. Tính toán khoảng cách giữa đối tƣợng dữ liệu và trung bình mỗi cụm để tìm kiếm phần tử nào là tƣơng tự và thêm vào cụm đó. Từ khoảng cách này có thể tính toán trung bình mới của cụm và
lặp lại quá trình cho đến khi mỗi các đối tƣợng dữ liệu là một bộ phận của các cụm k (hình 2.1).
Mục đích của thuật toán k-means là sinh k cụm dữ liệu {C1, C2,..., CK} từ một tập dữ liệu chứa n đối tƣợng trong không gian d chiều Xi = (xi1, xi2,..., xid), i = 1 ÷ n, sao cho hàm tiêu chuẩn: ∑ ∑ đạt giá trị tối thiểu.
Trong đó: mi là trọng tâm của cụm Ci, D là khoảng cách giữa hai đối tƣợng.
Hình 2.2. Tính toán trọng tâm của các cụm mới
Trọng tâm của một cụm là một vectơ, trong đó giá trị của mỗi phần tử của nó là trung bình cộng của các thành phần tƣơng ứng của các đối tƣợng vectơ dữ liệu trong cụm đang xét. Tham số đầu vào của thuật toán là số cụm k, và tham số đầu ra của thuật toán là các trọng tâm của các cụm dữ liệu. Độ đo khoảng cách D giữa các đối tƣợng dữ liệu thƣờng đƣợc sử dụng là khoảng cách Euclide vì đây là mô hình khoảng cách nên dễ lấy đạo hàm và xác định