Thu thập, chuẩn hĩa dữ liệu

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu các phương pháp phân lớp dữ liệu và ứng dụng trong bài toán dự báo thuê bao rời mạng viễn thông​ (Trang 48 - 51)

Luận văn thực hiện thu thập dữ liệu thơng tin thuê bao tại nhà cung cấp dịch vụ viễn thơng Mobifone Phú Thọ. Thực hiện trích xuất từ kho dữ liệu Mobifone Phú Thọ, thu thập các dữ liệu cần thiết cho mơ hình “churn”. Các thơng tin về khách hàng cần thiết cho dự đốn thuê bao rời mạng gồm: dữ liệu quản lý khách hàng khách hàng thuê bao, dữ liệu chi tiết sử dụng dịch vụ của thuê bao, dữ liệu thanh tốn và khuyến mại của thuê bao, dữ liệu thuê bao rời mạng.

Dữ liệu thu thập đƣợc sau khi lọc và loại bỏ các thơng tin khơng chính xác, khơng cần thiết thì gồm các thơng tin [11,14]:

- Dữ liệu quản lý khách hàng: tuổi, giới tính, loại thuê bao, bƣu cục thu, thời gian hoạt động.

- Dữ liệu sử dụng dịch vụ: số dịch vụ sử dụng, số cuộc gọi nội mạng, số cuộc gọi ngoại mạng, số cuộc gọi quốc tế, thời gian gọi nội mạng, thời gian gọi ngoại mạng, thời gian gọi quốc tế, số lƣợng SMS.

- Dữ liệu thanh tốn: tiền phát sinh gọi nội mạng, tiền phát sinh gọi ngoại mạng, tiền phát sinh gọi quốc tế, tiền phát sinh SMS, tiền phát sinh Data, tổng số tiền phát sinh, số tiền đƣợc khuyến mại, mức tiền thực phải thanh tốn.

Mơ hình dƣới đây thể hiện mối quan hệ của cơ sở dữ liệu dự đốn thuê bao rời mạng. Trong đĩ các bảng call_detail, zone, promotion, bill_data là các bảng nguồn, các bảng cust_info, churn_list, cust_churn, cust_neighbor, call_zone, bill, charges_real là các bảng đích, cuối cùng cust_file - một bảng view là trung tâm của cơ sở dữ liệu này. Cust_file là bảng tạo ra bởi sự kết hợp của các bảng đích hình thành lƣợc đồ hình sao xung quanh nĩ.

Hình 3.1 - Mơ hình quan hệ các bảng dữ liệu

- Bảng cust_info: là bảng mơ tả tính năng đặc trƣng của khách hàng nhƣ: tuổi tác, giới tính, nơi ở, nơi thanh tốn, ngày hịa mạng…

- Bảng churn_list: là bảng danh sách các thuê bao rời mạng. - Bảng call_detail: là thơng tin chi tiết các cuộc gọi.

- Bảng zone: là bảng xác định mã vùng các cuộc gọi đi.

- Bảng promotion: bảng lƣu trữ thơng tin khuyến mại của thuê bao.

- Bảng bill_data: bảng lƣu trữ thơng tin cƣớc các cuộc gọi và dịch vụ của khách hàng.

- Bảng cust_churn: là bảng kết hợp giữa bảng cust_info và churn_list mơ tả thơng tin các khách hàng rời mạng.

- Bảng call_zone: là bảng kết hợp giữa bảng call_detail và zone, đƣa ra các vùng gọi đi của từng thuê bao.

- Bảng bill: là bảng kết hợp giữa bảng bill_data và promotion, đƣa ra thơng tin hĩa đơn sử dụng tất cả các dịch vụ của thuê bao đã đƣợc trừ đi khuyến mại.

- Bảng charges_real: là bảng lƣu thơng cƣớc thực tế của thuê bao chƣa trƣớc khi trừ khuyến mại.

“Churn” là một sự kiện quan hệ nhân quả do đĩ khi thực hiện chiết xuất dữ liệu phải nắm bắt đƣợc những thay đổi trong các đặc điểm và hành vi của khách hàng. Vai trị của một mơ hình dự đốn là phát hiện những hành vi thay đổi đáng chú ý dẫn đến rời mạng. Để thực hiện phân loại cần hai giai đoạn, đầu tiên là giai đoạn phân tích, mà từ giai đoạn này cĩ thể đƣa ra đƣợc những

đặc trƣng cho mỗi khách hàng. Giai đoạn cịn lại đƣợc sử dụng để dán nhãn phân biệt khách hàng rời mạng hoặc khơng rời mạng.

Do đặc trƣng của thuê bao trả sau là khách hàng thực hiện thanh tốn vào đầu tháng tiếp theo, nên thời gian đƣợc thiết lập để phân tích trong luận văn này là 3 tháng và thời gian để quan sát là 1 tháng. Tất cả khách hàng đang hoạt động vào đầu tháng quan sát sẽ nằm trong tập dữ liệu huấn luyện. Thời gian quan sát đƣợc sử dụng để ghi nhãn khách hàng “churn” hoặc “no-churn”. Những thuê bao rời mạng trong giai đoạn này đƣợc dán nhãn là “churn” và những thuê bao khơng rời mạng sau giai đoạn này đƣợc dán nhãn là “no- churn”. Sau thời gian quan sát một khách hàng “no-churn” cĩ thể tiếp tục hoạt động và sử dụng dịch vụ hoặc sau đĩ trở thành “churn”.

Hình 3.2 - Các giai đoạn của mơ hình dự đốn thuê bao rời mạng

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu các phương pháp phân lớp dữ liệu và ứng dụng trong bài toán dự báo thuê bao rời mạng viễn thông​ (Trang 48 - 51)

Tải bản đầy đủ (PDF)

(85 trang)