CHƯƠNG 3: KẾT QUẢ THỰC NGHIỆM
3.1 Xử lí dữ liệu
Bộ dữ liệu sau khi hợp nhất và gán nhãn theo mục 1.7, các trường dữ liệu ban đầu được chọn lọc dựa theo tiêu chí về tỉ lệ thiếu thông tin. Khi một trường thông tin bị thiếu quá nhiều, có thể tồn tại vấn đề trong việc thu thập thông tin và cũng
không thể sử dụng bất kì phương pháp thay thế các giá trị thiếu một cách hiệu quả đối với các trường thông tin.
Các tiêu chí trong bộ dữ liệu sẽ được phân loại thành hai nhóm: tiêu chí định
tính và tiêu chí định lượng. Đối với các tiêu chí định lượng, các giá trị ngoại lai sẽ được phát hiện dựa vào phân tích biểu đồ hộp và thay thế bởi các giá trị bách phân vị thứ 5 và 95; ngoài ra, các giá trị bị thiếu sẽ được thay thế bởi một giá trị đặc biệt (giá trị -1). Sau khi dữ liệu được làm sạch và tiền xử lí, bộ dữ liệu thu được các trường dữ liệu như sau:
60
STT Trường dữ liệu Khoảng giá trị Mô tả Lưu ý
1 age [19, 62] Tuổi
2 sex Male', 'Female' Giới tính
3 is_bad 0, 1
Nhãn dữ liệu (1: khách hàng xấu, 0: khách hàng
tốt)
4 t_year 0, 1 Thời gian kê khai thuế
gần nhất đơn vị năm
5 t_month [0, 23] Thời gian kê khai thuế
gần nhất đơn vị tháng
6 tongthunhap_y1 [-1.0,
750170192.0]
Tổng thu nhập chịu thuế trên tờ khai 01 năm trước
Giá trị -1 được thay thế cho các giá trị thiếu 7 taxemployer_1y [1.0, 12.0]
Số lượng tổ chức thực hiện kê khai thuế trong 01 năm gần nhất 8 taxemployer_2y [1.0, 12.0]
Số lượng tổ chức thực hiện kê khai thuế trong 02 năm gần nhất
9 nodeclaration_y 1 [-1.0, 14.0] Số lượng tờ khai thuế
trong 01 năm gần nhất
Giá trị -1 được thay thế cho các giá trị thiếu 10 no_dependon [0.0, 18.0] Số người phụ thuộc
11 com_size [-1.0, 79918.0 Quy mô công ty (số
nhân viên)
Giá trị -1 được thay thế cho các giá trị thiếu
12 acc_type postpaid', 'prepaid' Loại thuê bao di động
(trả trước/trả sau) 13 tong_tien_t1 [0.0, 9167389.64]
Tổng tiền cước phát sinh trong tháng 01
tháng trước
61
14 tien_cam_ket_v a_vas_t1 [0.0, 2624500.0]
Tiền cước cam kết và cước dịch vụ giá trị gia tăng trong tháng 01 tháng trước
15 tien_cuoc_goi_t
1 [0.0, 1198293.15]
Tiền cước gọi thoại
trong tháng 01 tháng trước
16 tien_cuoc_tin_n han_t1 [0, 515644]
Tiền cước nhắn tin
trong tháng 01 tháng trước
17 so_giay_goi_t1 [0, 592113]
Số giây gọi chịu cước
trong tháng 01 tháng trước
18 so_tin_nhan_t1 [0, 9807]
Số tin nhắn chịu cước
trong tháng 01 tháng trước
19 tong_tien_t2 [0.0, 5981021.68]
Tổng tiền cước phát
sinh trong tháng 02 tháng trước
20 tien_cam_ket_v a_vas_t2 [0.0, 2624500.0]
Tiền cước cam kết và cước dịch vụ giá trị gia tăng trong tháng 02 tháng trước
21 tien_cuoc_goi_t
2 [0.0, 1206859.53]
Tiền cước gọi thoại
trong tháng 02 tháng trước
22 tien_cuoc_tin_n han_t2 [0.0, 929407.0]
Tiền cước nhắn tin
trong tháng 02 tháng trước
23 so_giay_goi_t2 [0.0, 569893.0]
Số giây gọi chịu cước
trong tháng 02 tháng
trước
24 so_tin_nhan_t2 [0.0, 8213.0]
Số tin nhắn chịu cước
trong tháng 02 tháng trước
25 overall_monthly _nocontact_t3 [0.0, 1096.0]
Số các số điện thoại gọi
trong tháng 03 tháng trước
62
26 overall_monthly _callno_t3 [0.0, 2006.0]
Số các cuộc gọi thoại
trong tháng 03 tháng trước
27 overall_monthly _calldayno_t3 [0.0, 31.0]
Số ngày phát sinh gọi thoại trong tháng 03
tháng trước
28 overall_monthly _callduration_t3 [0.0, 264642.0]
Tổng thời lượng gọi thoại trong tháng 03 tháng trước
29 overall_monthly _avgcallduratio n_t3
[0.0, 1817.5]
Bình quân thời lượng gọi thoại của một cuộc gọi thoại trong tháng 03 tháng trước
30 overall_monthly _stdcallduration _t3
[0.0, 1533.71460839362 2]
Độ lệch chuẩn thời lượng gọi thoại của các cuộc gọi thoại trong tháng 03 tháng trước
31 biztime_monthl y_nocontact_t3 [0.0, 1080.0]
Số các số điện thoại gọi trong khung giờ 7 giờ đến 18 giờ trong tháng 03 tháng trước
32 biztime_monthl y_callno_t3 [0.0, 1912.0]
Số các cuộc gọi thoại trong khung giờ 7 giờ đến 18 giờ trong tháng 03 tháng trước
33 biztime_monthl y_calldayno_t3 [0.0, 31.0]
Số ngày phát sinh gọi thoại trong khung giờ 7 giờ đến 18 giờ trong tháng 03 tháng trước
34 biztime_monthl y_callduration_t 3
[0.0,102357.0)
Tổng thời lượng gọi thoại trong khung giờ 7 giờ đến 18 giờ trong tháng 03 tháng trước
35 biztime_monthl y_avgcalldurati on_t3
[0.0, 3232.0]
Bình quân thời lượng gọi thoại của một cuộc gọi thoại trong khung giờ 7 giờ đến 18 giờ
trong tháng 03 tháng trước
63
36 biztime_monthl y_stdcallduratio n_t3
[0.0, 1921.20912448385 ]
Độ lệch chuẩn thời lượng gọi thoại của các cuộc gọi thoại trong khung giờ 7 giờ đến 18 giờ trong tháng 03 tháng trước
37 mobileno_timea ctive [3.0, 5087.0] Thời gian kích hoạt thuê
bao (ngày)
38 com_activeyear [-1.0, 73.0] Số năm hoạt động của
công ty
Giá trị -1 được thay thế cho các giá trị thiếu
39 com_taxingyear [-1.0, 39.0] Số năm đóng thuế của
công ty
Giá trị -1 được thay thế cho các giá trị thiếu
40 resi_area
dong bang song hong', 'trung du va mien nui phia bac', 'dong nam bo', 'dong bang song cuu long', 'bac trung bo va duyen hai mien trung', 'tay nguyen', 'missing'
Khu vực thường trú
41 com_area
dong bang song hong', 'dong nam bo', 'missing', 'dong bang song cuu long', 'bac trung bo va duyen hai mien trung', 'trung du va mien nui phia bac', 'tay nguyen'
Khu vực của công ty
64
42 telco_area
dong bang song hong', 'trung du va mien nui phia bac', 'dong nam bo', 'dong bang song cuu long', 'bac trung bo va duyen hai mien trung', 'tay nguyen'
Khu vực đăng kí thuê
bao
Bảng 3-1 Mô tả các trường dữ liệu
Sau khi dữ liệu được làm sạch, đối với các tiêu chí định tính, các giá trị sẽ được thay thế bằng các giá trị Trọng số của bằng chứng để mô hình có thể tiếp nhận
và xử lí thông tin. Việc biến đổi dữ liệu dựa vào trọng số của bằng chứng (WoE) sẽ có các ưu điểm như sau:
▪ Xử lí được các điểm dữ liệu bị thiếu, giá trị ngoại lai;
▪ Không cần sử dụng phương pháp mã hoá one-hot đối với dữ liệu định tính.
Sau đó, các tiêu chí sẽ được đánh giá khả năng dự báo đối với biến phụ thuộc
dựa vào giá trị thông tin tương hỗ. Việc sử dụng giá trị thông tin tương hỗ sẽ đánh giá được mối quan hệ giữa mỗi tiêu chí với biến phụ thuộc bao gồm cả các mối quan
hệ phi tuyến phức tạp. Đồng thời, mối tương quan giữa các tiêu chí cũng được đánh giá để đảm bảo các tiêu chí độc lập với nhau ở một mức độ nhất định, giúp cho mô hình dự báo hoạt động hiệu quả và ổn định.
65
Hình 3-1 Giá trị thông tin tương hỗ các tiêu chí
Hình 3-2 Biểu đồ nhiệt trị tuyệt đối hệ số tương quan Pearson giữa các cặp tiêu chí
66
Bộ tiêu chí cuối cùng sử dụng cho mô hình dự báo là bộ các tiêu chí mà trong đó không có hai tiêu chí nào có trị tuyệt đối hệ số tương quan Pearson lớn hơn hoặc bằng 0.3. Nguyên tắc để chọn bộ tiêu chí cuối cùng là xét các cặp tiêu chí có tương quan với nhau (trị tuyệt đối hệ số tương quan Pearson lớn hơn hoặc bằng 0.3), chỉ chọn các tiêu chí có giá trị thông tin tương hỗ lớn hơn. Lặp cho đến khi bộ tiêu chí lựa chọn thỏa mãn điều kiện.
Bộ tiêu chí cuối cùng thoả mãn các tiêu chí đã lựa chọn và thực hiện chuẩn hoá Z-score:
STT Tên tiêu chí Mô tả
1 age Tuổi
2 sex Giới tính
3 com_size Quy mô công ty (số nhân viên)
4 t_month Thời gian kê khai thuế gần nhất
đơn vị tháng
5 tongthunhap_y1 Tổng thu nhập chịu thuế trên tờ
khai 01 năm trước
6 com_taxingyear Số năm đóng thuế của công ty
7 no_dependon Số người phụ thuộc
8 acc_type Loại thuê bao di động (trả
trước/trả sau)
9 telco_area Khu vực đăng kí thuê bao
10 mobileno_timeactive Thời gian kích hoạt thuê bao
(ngày)
67
11 tien_cam_ket_va_vas_t2
Tiền cước cam kết và cước dịch vụ giá trị gia tăng trong tháng 02 tháng trước
12 overall_monthly_callno_t3 Số các cuộc gọi thoại trong tháng
03 tháng trước 13 overall_monthly_avgcallduration_t3
Bình quân thời lượng gọi thoại của một cuộc gọi thoại trong tháng 03 tháng trước
Bảng 3-2 Các tiêu chí của mô hình
Hình 3-3 Biểu đồ nhiệt trị tuyệt đối hệ số tương quan Pearson trong bộ tiêu chí lựa chọn
Bộ dữ liệu với các tiêu chí được chọn lựa sẽ được chuẩn hóa bằng việc trừ đi giá trị trung bình và chia cho độ lệch chuẩn trước khi đưa vào huấn luyện và kiểm định các mô hình.
68