Dữ liệu thơ từ nhiều bảng dữ liệu được tổng hợp thành 37 trường thơng tin tương ứng với từng thuê bao.
Bảng 4: Bảng danh sách các trường thơng tin tổng hợp kết quả
STT Thơng tin Mơ tả
1 sta_date Ngày bắt đầu sử dụng dịch vụ
2 product_code Mã dịch vụ
3 isdn_length Loại số thuê bao (10 hoặc 11 số) 4 type Loại thuê bao (trả trước/trả sau) 5 arpu_active_months Số tháng phát sinh cước 6 voice_cellId_mostCommon Danh sách các tọa độ phát sinh
cước nhiều nhất trong 6 tháng 7 arpu_tong_tdg_t1 Tổng tiêu dùng gốc trong tháng
5/2018
8 arpu_tong_tdg_t2 Tổng tiêu dùng gốc trong tháng 6/2018
28
STT Thơng tin Mơ tả
7/2018
10 arpu_tong_tdg_t4 Tổng tiêu dùng gốc trong tháng 8/2018
11 arpu_tong_tdg_t5 Tổng tiêu dùng gốc trong tháng 9/2018
12 arpu_tong_tdg_t6 Tổng tiêu dùng gốc trong tháng 10/2018
13 arpu_tdg_thoai_t1 Tiêu dùng cước thoại trong tháng 5/2018
14 arpu_tdg_thoai_t2 Tiêu dùng cước thoại trong tháng 6/2018
15 arpu_tdg_thoai_t3 Tiêu dùng cước thoại trong tháng 7/2018
16 arpu_tdg_thoai_t4 Tiêu dùng cước thoại trong tháng 8/2018
17 arpu_tdg_thoai_t5 Tiêu dùng cước thoại trong tháng 9/2018
18 arpu_tdg_thoai_t6 Tiêu dùng cước thoại trong tháng 10/2018
19 arpu_tdg_sms_t1 Tiêu dùng cước sms trong tháng 5/2018
20 arpu_tdg_sms_t2 Tiêu dùng cước sms trong tháng 6/2018
21 arpu_tdg_sms_t3 Tiêu dùng cước sms trong tháng 7/2019
22 arpu_tdg_sms_t4 Tiêu dùng cước sms trong tháng 8/2018
29
STT Thơng tin Mơ tả
23 arpu_tdg_sms_t5 Tiêu dùng cước sms trong tháng 9/2018
24 arpu_tdg_sms_t6 Tiêu dùng cước sms trong tháng 10/2018
25 arpu_tdg_vas_t1 Tiêu dùng cước VAS trong tháng 5/2018
26 arpu_tdg_vas_t2 Tiêu dùng cước VAS trong tháng 6/2018
27 arpu_tdg_vas_t3 Tiêu dùng cước VAS trong tháng 7/2018
28 arpu_tdg_vas_t4 Tiêu dùng cước VAS trong tháng 8/2018
29 arpu_tdg_vas_t5 Tiêu dùng cước VAS trong tháng 9/2018
30 arpu_tdg_vas_t6 Tiêu dùng cước VAS trong tháng 10/2018
31 arpu_tdg_data_t1 Tiêu dùng cước dữ liệu trong tháng 5/2018
32 arpu_tdg_data_t2 Tiêu dùng cước dữ liệu trong tháng 6/2018
33 arpu_tdg_data_t3 Tiêu dùng cước dữ liệu trong tháng 7/2018
34 arpu_tdg_data_t4 Tiêu dùng cước dữ liệu trong tháng 8/2018
35 arpu_tdg_data_t5 Tiêu dùng cước dữ liệu trong tháng 9/2018
30
STT Thơng tin Mơ tả
10/2018
37 product_code Mã gĩi cước đăng ký của thuê bao Dữ liệu sau khi tổng hợp sẽ được xử lý qua hai bước chính:
- Tiền xử lý dữ liệu:
o Thực hiện việc tổng hợp dữ liệu
o Loại bỏ các dữ liệu nhiễu (thiếu giá trị, sai số liệu) o Chuẩn hĩa các trường thời gian thành giá trị theo tháng
o Chuẩn hĩa danh sách địa điểm về các mã tỉnh thành, quận huyện
o Biến đổi dữ liệu qua xử lý về thành định dạng chuẩn. - Trích xuất đặc trưng:
o Trích xuất các nhĩm đặc trưng vị trí của thuê bao, qua đấy phát hiện các hành vi của thuê bao như nơi làm việc, nơi sinh sống, cĩ cơng việc ổn định hay khơng,…
o Trích xuất các nhĩm đặc trưng theo các mức dữ liệu (binning) như thấp, trung bình, cao
o Chuẩn hĩa các dải giá trị về biên độ 0-1 bằng thuật tốn Min- Max
o Sinh ra vector đặc trưng
31
Từ dừ liệu tổng hợp, học viên tiến hành trích xuất các đặc trưng đại diện cho các thuê bao, số lượng đặc trưng được trích xuất là 381 đặc trưng được chia vào các nhĩm đặc trưng như sau:
Bảng 5: Bảng danh sách các nhĩm đặc trưng được trích xuất
STT Mơ tả
1 Thời điểm bắt đầu sử dụng SIM 2 Đầu số 10 số hay đầu số 11 số 3 Loại thuê bao trả trước hay trả sau 4 Tuổi của thuê bao theo tháng 5 Số tháng phát sinh cước
6 Các đặc trưng nơi phát sinh cước nhiều số 1, số 2, số 3 trong 6 tháng 7 Các đặc trưng tổng tiêu dùng trong tháng t1 đến t6
8 Các đặc trưng tổng tiêu dùng thoại trong tháng t1 đến t6 9 Các đặc trưng tổng tiêu dùng sms trong tháng t1 đến t6 10 Các đặc trưng tổng tiêu dùng vas trong tháng t1 đến t6 11 Các đặc trưng tổng tiêu dùng data trong tháng t1 đến t6
12 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất sau khung giờ hành chính trong tháng t1 đến t6 mức quận
13 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất trước khung giờ hành chính trong tháng t1 đến t6 mức quận
14 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất trong khung giờ hành chính trong tháng t1 đến t6 mức quận
15 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất buổi sáng trong tháng t1 đến t6 mức quận
16 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất buổi chiều trong tháng t1 đến t6 mức quận
32
STT Mơ tả
trong ngày làm việc trong tháng t1 đến t6 mức quận
18 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất sau khung giờ hành chính trong tháng t1 đến t6 mức tỉnh thành
19 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất trước khung giờ hành chính trong tháng t1 đến t6 mức tỉnh thành
20 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất trong khung giờ hành chính trong tháng t1 đến t6 mức tỉnh thành
21 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất buổi sáng trong tháng t1 đến t6 mức tỉnh thành
22 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất buổi chiều trong tháng t1 đến t6 mức tỉnh thành
23 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất khung giờ nghỉ
trong ngày làm việc trong tháng t1 đến t6 mức tỉnh thành 24 Các đặc trưng tổng tiêu dùng trong 6 tháng
25 Các đặc trưng tổng tiêu dùng trong 6 tháng phân theo mức 26 Các đặc trưng mức tăng hoặc giảm của tháng t so với t-1
33
Chương 4: Thực nghiệm và đánh giá