Xử lí dữ liệu

Một phần của tài liệu Nghiên cứu mô hình học máy cực trị tiến hóa trong chấm Điểm tín dụng Đối tượng khách hàng cá nhân (Trang 59 - 68)

CHƯƠNG 3: KẾT QUẢ THỰC NGHIỆM

3.1 Xử lí dữ liệu

Bộ dữ liệu sau khi hợp nhất và gán nhãn theo mục 1.7, các trường dữ liệu ban đầu được chọn lọc dựa theo tiêu chí về tỉ lệ thiếu thông tin. Khi một trường thông tin bị thiếu quá nhiều, có thể tồn tại vấn đề trong việc thu thập thông tin và cũng

không thể sử dụng bất kì phương pháp thay thế các giá trị thiếu một cách hiệu quả đối với các trường thông tin.

Các tiêu chí trong bộ dữ liệu sẽ được phân loại thành hai nhóm: tiêu chí định

tính và tiêu chí định lượng. Đối với các tiêu chí định lượng, các giá trị ngoại lai sẽ được phát hiện dựa vào phân tích biểu đồ hộp và thay thế bởi các giá trị bách phân vị thứ 5 và 95; ngoài ra, các giá trị bị thiếu sẽ được thay thế bởi một giá trị đặc biệt (giá trị -1). Sau khi dữ liệu được làm sạch và tiền xử lí, bộ dữ liệu thu được các trường dữ liệu như sau:

60

STT Trường dữ liệu Khoảng giá trị Mô tả Lưu ý

1 age [19, 62] Tuổi

2 sex Male', 'Female' Giới tính

3 is_bad 0, 1

Nhãn dữ liệu (1: khách hàng xấu, 0: khách hàng

tốt)

4 t_year 0, 1 Thời gian kê khai thuế

gần nhất đơn vị năm

5 t_month [0, 23] Thời gian kê khai thuế

gần nhất đơn vị tháng

6 tongthunhap_y1 [-1.0,

750170192.0]

Tổng thu nhập chịu thuế trên tờ khai 01 năm trước

Giá trị -1 được thay thế cho các giá trị thiếu 7 taxemployer_1y [1.0, 12.0]

Số lượng tổ chức thực hiện kê khai thuế trong 01 năm gần nhất 8 taxemployer_2y [1.0, 12.0]

Số lượng tổ chức thực hiện kê khai thuế trong 02 năm gần nhất

9 nodeclaration_y 1 [-1.0, 14.0] Số lượng tờ khai thuế

trong 01 năm gần nhất

Giá trị -1 được thay thế cho các giá trị thiếu 10 no_dependon [0.0, 18.0] Số người phụ thuộc

11 com_size [-1.0, 79918.0 Quy mô công ty (số

nhân viên)

Giá trị -1 được thay thế cho các giá trị thiếu

12 acc_type postpaid', 'prepaid' Loại thuê bao di động

(trả trước/trả sau) 13 tong_tien_t1 [0.0, 9167389.64]

Tổng tiền cước phát sinh trong tháng 01

tháng trước

61

14 tien_cam_ket_v a_vas_t1 [0.0, 2624500.0]

Tiền cước cam kết và cước dịch vụ giá trị gia tăng trong tháng 01 tháng trước

15 tien_cuoc_goi_t

1 [0.0, 1198293.15]

Tiền cước gọi thoại

trong tháng 01 tháng trước

16 tien_cuoc_tin_n han_t1 [0, 515644]

Tiền cước nhắn tin

trong tháng 01 tháng trước

17 so_giay_goi_t1 [0, 592113]

Số giây gọi chịu cước

trong tháng 01 tháng trước

18 so_tin_nhan_t1 [0, 9807]

Số tin nhắn chịu cước

trong tháng 01 tháng trước

19 tong_tien_t2 [0.0, 5981021.68]

Tổng tiền cước phát

sinh trong tháng 02 tháng trước

20 tien_cam_ket_v a_vas_t2 [0.0, 2624500.0]

Tiền cước cam kết và cước dịch vụ giá trị gia tăng trong tháng 02 tháng trước

21 tien_cuoc_goi_t

2 [0.0, 1206859.53]

Tiền cước gọi thoại

trong tháng 02 tháng trước

22 tien_cuoc_tin_n han_t2 [0.0, 929407.0]

Tiền cước nhắn tin

trong tháng 02 tháng trước

23 so_giay_goi_t2 [0.0, 569893.0]

Số giây gọi chịu cước

trong tháng 02 tháng

trước

24 so_tin_nhan_t2 [0.0, 8213.0]

Số tin nhắn chịu cước

trong tháng 02 tháng trước

25 overall_monthly _nocontact_t3 [0.0, 1096.0]

Số các số điện thoại gọi

trong tháng 03 tháng trước

62

26 overall_monthly _callno_t3 [0.0, 2006.0]

Số các cuộc gọi thoại

trong tháng 03 tháng trước

27 overall_monthly _calldayno_t3 [0.0, 31.0]

Số ngày phát sinh gọi thoại trong tháng 03

tháng trước

28 overall_monthly _callduration_t3 [0.0, 264642.0]

Tổng thời lượng gọi thoại trong tháng 03 tháng trước

29 overall_monthly _avgcallduratio n_t3

[0.0, 1817.5]

Bình quân thời lượng gọi thoại của một cuộc gọi thoại trong tháng 03 tháng trước

30 overall_monthly _stdcallduration _t3

[0.0, 1533.71460839362 2]

Độ lệch chuẩn thời lượng gọi thoại của các cuộc gọi thoại trong tháng 03 tháng trước

31 biztime_monthl y_nocontact_t3 [0.0, 1080.0]

Số các số điện thoại gọi trong khung giờ 7 giờ đến 18 giờ trong tháng 03 tháng trước

32 biztime_monthl y_callno_t3 [0.0, 1912.0]

Số các cuộc gọi thoại trong khung giờ 7 giờ đến 18 giờ trong tháng 03 tháng trước

33 biztime_monthl y_calldayno_t3 [0.0, 31.0]

Số ngày phát sinh gọi thoại trong khung giờ 7 giờ đến 18 giờ trong tháng 03 tháng trước

34 biztime_monthl y_callduration_t 3

[0.0,102357.0)

Tổng thời lượng gọi thoại trong khung giờ 7 giờ đến 18 giờ trong tháng 03 tháng trước

35 biztime_monthl y_avgcalldurati on_t3

[0.0, 3232.0]

Bình quân thời lượng gọi thoại của một cuộc gọi thoại trong khung giờ 7 giờ đến 18 giờ

trong tháng 03 tháng trước

63

36 biztime_monthl y_stdcallduratio n_t3

[0.0, 1921.20912448385 ]

Độ lệch chuẩn thời lượng gọi thoại của các cuộc gọi thoại trong khung giờ 7 giờ đến 18 giờ trong tháng 03 tháng trước

37 mobileno_timea ctive [3.0, 5087.0] Thời gian kích hoạt thuê

bao (ngày)

38 com_activeyear [-1.0, 73.0] Số năm hoạt động của

công ty

Giá trị -1 được thay thế cho các giá trị thiếu

39 com_taxingyear [-1.0, 39.0] Số năm đóng thuế của

công ty

Giá trị -1 được thay thế cho các giá trị thiếu

40 resi_area

dong bang song hong', 'trung du va mien nui phia bac', 'dong nam bo', 'dong bang song cuu long', 'bac trung bo va duyen hai mien trung', 'tay nguyen', 'missing'

Khu vực thường trú

41 com_area

dong bang song hong', 'dong nam bo', 'missing', 'dong bang song cuu long', 'bac trung bo va duyen hai mien trung', 'trung du va mien nui phia bac', 'tay nguyen'

Khu vực của công ty

64

42 telco_area

dong bang song hong', 'trung du va mien nui phia bac', 'dong nam bo', 'dong bang song cuu long', 'bac trung bo va duyen hai mien trung', 'tay nguyen'

Khu vực đăng kí thuê

bao

Bảng 3-1 Mô tả các trường dữ liệu

Sau khi dữ liệu được làm sạch, đối với các tiêu chí định tính, các giá trị sẽ được thay thế bằng các giá trị Trọng số của bằng chứng để mô hình có thể tiếp nhận

và xử lí thông tin. Việc biến đổi dữ liệu dựa vào trọng số của bằng chứng (WoE) sẽ có các ưu điểm như sau:

▪ Xử lí được các điểm dữ liệu bị thiếu, giá trị ngoại lai;

▪ Không cần sử dụng phương pháp mã hoá one-hot đối với dữ liệu định tính.

Sau đó, các tiêu chí sẽ được đánh giá khả năng dự báo đối với biến phụ thuộc

dựa vào giá trị thông tin tương hỗ. Việc sử dụng giá trị thông tin tương hỗ sẽ đánh giá được mối quan hệ giữa mỗi tiêu chí với biến phụ thuộc bao gồm cả các mối quan

hệ phi tuyến phức tạp. Đồng thời, mối tương quan giữa các tiêu chí cũng được đánh giá để đảm bảo các tiêu chí độc lập với nhau ở một mức độ nhất định, giúp cho mô hình dự báo hoạt động hiệu quả và ổn định.

65

Hình 3-1 Giá trị thông tin tương hỗ các tiêu chí

Hình 3-2 Biểu đồ nhiệt trị tuyệt đối hệ số tương quan Pearson giữa các cặp tiêu chí

66

Bộ tiêu chí cuối cùng sử dụng cho mô hình dự báo là bộ các tiêu chí mà trong đó không có hai tiêu chí nào có trị tuyệt đối hệ số tương quan Pearson lớn hơn hoặc bằng 0.3. Nguyên tắc để chọn bộ tiêu chí cuối cùng là xét các cặp tiêu chí có tương quan với nhau (trị tuyệt đối hệ số tương quan Pearson lớn hơn hoặc bằng 0.3), chỉ chọn các tiêu chí có giá trị thông tin tương hỗ lớn hơn. Lặp cho đến khi bộ tiêu chí lựa chọn thỏa mãn điều kiện.

Bộ tiêu chí cuối cùng thoả mãn các tiêu chí đã lựa chọn và thực hiện chuẩn hoá Z-score:

STT Tên tiêu chí Mô tả

1 age Tuổi

2 sex Giới tính

3 com_size Quy mô công ty (số nhân viên)

4 t_month Thời gian kê khai thuế gần nhất

đơn vị tháng

5 tongthunhap_y1 Tổng thu nhập chịu thuế trên tờ

khai 01 năm trước

6 com_taxingyear Số năm đóng thuế của công ty

7 no_dependon Số người phụ thuộc

8 acc_type Loại thuê bao di động (trả

trước/trả sau)

9 telco_area Khu vực đăng kí thuê bao

10 mobileno_timeactive Thời gian kích hoạt thuê bao

(ngày)

67

11 tien_cam_ket_va_vas_t2

Tiền cước cam kết và cước dịch vụ giá trị gia tăng trong tháng 02 tháng trước

12 overall_monthly_callno_t3 Số các cuộc gọi thoại trong tháng

03 tháng trước 13 overall_monthly_avgcallduration_t3

Bình quân thời lượng gọi thoại của một cuộc gọi thoại trong tháng 03 tháng trước

Bảng 3-2 Các tiêu chí của mô hình

Hình 3-3 Biểu đồ nhiệt trị tuyệt đối hệ số tương quan Pearson trong bộ tiêu chí lựa chọn

Bộ dữ liệu với các tiêu chí được chọn lựa sẽ được chuẩn hóa bằng việc trừ đi giá trị trung bình và chia cho độ lệch chuẩn trước khi đưa vào huấn luyện và kiểm định các mô hình.

68

Một phần của tài liệu Nghiên cứu mô hình học máy cực trị tiến hóa trong chấm Điểm tín dụng Đối tượng khách hàng cá nhân (Trang 59 - 68)

Tải bản đầy đủ (PDF)

(83 trang)