Tiền xử lý và trích xuất đặc trưng

Một phần của tài liệu Xây dựng mô hình dự đoán khách hàng tiềm năng cho các gói cước trong mạng di động (Trang 34 - 40)

Dữ liệu thơ từ nhiều bảng dữ liệu được tổng hợp thành 37 trường thơng tin tương ứng với từng thuê bao.

Bảng 4: Bảng danh sách các trường thơng tin tổng hợp kết quả

STT Thơng tin Mơ tả

1 sta_date Ngày bắt đầu sử dụng dịch vụ

2 product_code Mã dịch vụ

3 isdn_length Loại số thuê bao (10 hoặc 11 số) 4 type Loại thuê bao (trả trước/trả sau) 5 arpu_active_months Số tháng phát sinh cước 6 voice_cellId_mostCommon Danh sách các tọa độ phát sinh

cước nhiều nhất trong 6 tháng 7 arpu_tong_tdg_t1 Tổng tiêu dùng gốc trong tháng

5/2018

8 arpu_tong_tdg_t2 Tổng tiêu dùng gốc trong tháng 6/2018

28

STT Thơng tin Mơ tả

7/2018

10 arpu_tong_tdg_t4 Tổng tiêu dùng gốc trong tháng 8/2018

11 arpu_tong_tdg_t5 Tổng tiêu dùng gốc trong tháng 9/2018

12 arpu_tong_tdg_t6 Tổng tiêu dùng gốc trong tháng 10/2018

13 arpu_tdg_thoai_t1 Tiêu dùng cước thoại trong tháng 5/2018

14 arpu_tdg_thoai_t2 Tiêu dùng cước thoại trong tháng 6/2018

15 arpu_tdg_thoai_t3 Tiêu dùng cước thoại trong tháng 7/2018

16 arpu_tdg_thoai_t4 Tiêu dùng cước thoại trong tháng 8/2018

17 arpu_tdg_thoai_t5 Tiêu dùng cước thoại trong tháng 9/2018

18 arpu_tdg_thoai_t6 Tiêu dùng cước thoại trong tháng 10/2018

19 arpu_tdg_sms_t1 Tiêu dùng cước sms trong tháng 5/2018

20 arpu_tdg_sms_t2 Tiêu dùng cước sms trong tháng 6/2018

21 arpu_tdg_sms_t3 Tiêu dùng cước sms trong tháng 7/2019

22 arpu_tdg_sms_t4 Tiêu dùng cước sms trong tháng 8/2018

29

STT Thơng tin Mơ tả

23 arpu_tdg_sms_t5 Tiêu dùng cước sms trong tháng 9/2018

24 arpu_tdg_sms_t6 Tiêu dùng cước sms trong tháng 10/2018

25 arpu_tdg_vas_t1 Tiêu dùng cước VAS trong tháng 5/2018

26 arpu_tdg_vas_t2 Tiêu dùng cước VAS trong tháng 6/2018

27 arpu_tdg_vas_t3 Tiêu dùng cước VAS trong tháng 7/2018

28 arpu_tdg_vas_t4 Tiêu dùng cước VAS trong tháng 8/2018

29 arpu_tdg_vas_t5 Tiêu dùng cước VAS trong tháng 9/2018

30 arpu_tdg_vas_t6 Tiêu dùng cước VAS trong tháng 10/2018

31 arpu_tdg_data_t1 Tiêu dùng cước dữ liệu trong tháng 5/2018

32 arpu_tdg_data_t2 Tiêu dùng cước dữ liệu trong tháng 6/2018

33 arpu_tdg_data_t3 Tiêu dùng cước dữ liệu trong tháng 7/2018

34 arpu_tdg_data_t4 Tiêu dùng cước dữ liệu trong tháng 8/2018

35 arpu_tdg_data_t5 Tiêu dùng cước dữ liệu trong tháng 9/2018

30

STT Thơng tin Mơ tả

10/2018

37 product_code Mã gĩi cước đăng ký của thuê bao Dữ liệu sau khi tổng hợp sẽ được xử lý qua hai bước chính:

- Tiền xử lý dữ liệu:

o Thực hiện việc tổng hợp dữ liệu

o Loại bỏ các dữ liệu nhiễu (thiếu giá trị, sai số liệu) o Chuẩn hĩa các trường thời gian thành giá trị theo tháng

o Chuẩn hĩa danh sách địa điểm về các mã tỉnh thành, quận huyện

o Biến đổi dữ liệu qua xử lý về thành định dạng chuẩn. - Trích xuất đặc trưng:

o Trích xuất các nhĩm đặc trưng vị trí của thuê bao, qua đấy phát hiện các hành vi của thuê bao như nơi làm việc, nơi sinh sống, cĩ cơng việc ổn định hay khơng,…

o Trích xuất các nhĩm đặc trưng theo các mức dữ liệu (binning) như thấp, trung bình, cao

o Chuẩn hĩa các dải giá trị về biên độ 0-1 bằng thuật tốn Min- Max

o Sinh ra vector đặc trưng

31

Từ dừ liệu tổng hợp, học viên tiến hành trích xuất các đặc trưng đại diện cho các thuê bao, số lượng đặc trưng được trích xuất là 381 đặc trưng được chia vào các nhĩm đặc trưng như sau:

Bảng 5: Bảng danh sách các nhĩm đặc trưng được trích xuất

STT Mơ tả

1 Thời điểm bắt đầu sử dụng SIM 2 Đầu số 10 số hay đầu số 11 số 3 Loại thuê bao trả trước hay trả sau 4 Tuổi của thuê bao theo tháng 5 Số tháng phát sinh cước

6 Các đặc trưng nơi phát sinh cước nhiều số 1, số 2, số 3 trong 6 tháng 7 Các đặc trưng tổng tiêu dùng trong tháng t1 đến t6

8 Các đặc trưng tổng tiêu dùng thoại trong tháng t1 đến t6 9 Các đặc trưng tổng tiêu dùng sms trong tháng t1 đến t6 10 Các đặc trưng tổng tiêu dùng vas trong tháng t1 đến t6 11 Các đặc trưng tổng tiêu dùng data trong tháng t1 đến t6

12 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất sau khung giờ hành chính trong tháng t1 đến t6 mức quận

13 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất trước khung giờ hành chính trong tháng t1 đến t6 mức quận

14 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất trong khung giờ hành chính trong tháng t1 đến t6 mức quận

15 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất buổi sáng trong tháng t1 đến t6 mức quận

16 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất buổi chiều trong tháng t1 đến t6 mức quận

32

STT Mơ tả

trong ngày làm việc trong tháng t1 đến t6 mức quận

18 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất sau khung giờ hành chính trong tháng t1 đến t6 mức tỉnh thành

19 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất trước khung giờ hành chính trong tháng t1 đến t6 mức tỉnh thành

20 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất trong khung giờ hành chính trong tháng t1 đến t6 mức tỉnh thành

21 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất buổi sáng trong tháng t1 đến t6 mức tỉnh thành

22 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất buổi chiều trong tháng t1 đến t6 mức tỉnh thành

23 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất khung giờ nghỉ

trong ngày làm việc trong tháng t1 đến t6 mức tỉnh thành 24 Các đặc trưng tổng tiêu dùng trong 6 tháng

25 Các đặc trưng tổng tiêu dùng trong 6 tháng phân theo mức 26 Các đặc trưng mức tăng hoặc giảm của tháng t so với t-1

33

Chương 4: Thực nghiệm và đánh giá

Một phần của tài liệu Xây dựng mô hình dự đoán khách hàng tiềm năng cho các gói cước trong mạng di động (Trang 34 - 40)

Tải bản đầy đủ (PDF)

(50 trang)