Phương pháp đánh giá

Một phần của tài liệu Xây dựng mô hình dự đoán khách hàng tiềm năng cho các gói cước trong mạng di động (Trang 25)

Việc đánh giá các thuật tốn phân lớp thường sử dụng độ chính xác, độ hồi tưởng, độ đo F-score (F1) để tính hiệu năng của mơ hình học máy, trong luận văn này các độ đo này cũng được sử dụng để đánh giá mơ hình, cụ thể:

Độ hồi tưởng (Recall): Số dữ liệu do mơ hình dự đốn đúng / Tổng số dữ liệu thực tế.

Độ chính xác (Precision): Số dữ liệu do mơ hình dự đốn đúng / Tổng số dữ liệu do mơ hình dự đốn ra.

2 × Precision × Recall

Cơng thức: F1 = Precision + Recall

Phương pháp thường được sử dụng để đánh giá là kiểm thử chéo (cross validation). Phương pháp này tiến hành chia ngẫu nhiên tập dữ liệu thành N phần bằng nhau, mỗi một thực nghiệm sẽ tiến hành học trên N-1 phần và đánh giá mơ hình học trên phần cịn lại. Kết quả cuối cùng sẽ được thống kê từ N thực nghiệm ở trên.

Chương 3: Mơ hình đề xuất 3.1 Mơ hình đề xuất

Chương 2 đã trình bày các kiến thức cơ bản về các phương pháp khai phá dữ liệu nhằm tiếp cận để giải quyết các bài tốn phân tích dữ liệu viễn thơng. Tiếp thu các nghiên cứu đã cĩ, luận văn đưa ra cách tiếp cận dựa trên phân lớp dữ liệu để giải quyết bài tốn dự đốn khách hàng tiềm năng cho các gĩi cước trong mạng di động. Kỹ thuật được đề xuất dựa trên việc kết hợp nhiều phương pháp học máy (ensemble models) cũng như việc trích xuất các đặc trưng nổi trội cho các hành vi tiêu dùng viễn thơng nhằm làm tăng độ chính xác của mơ hình dự đốn. Đây là một kỹ thuật cho phép kết quả mơ hình cĩ thể tận dụng được các ưu điểm của các mơ hình phân lớp thành phần để cho ra hiệu quả tốt hơn so với các bộ phân lớp thành phần. Tương tư như trong các nghiên cứu của Almana và các cơng sự [4] cũng như luận án của Li [17] các bộ phân lớp thành phần cũng sử dụng các kỹ thuật kinh điển như phân loại sử dụng cây quyết định, SVM và kNN. Mơ hình phân loại được thực hiện theo mơ hình truyền thống gồm bước huấn luyện mơ hình và kiểm thử mơ hình.

Mơ hình đề xuất bao gồm hai pha chính:

- Pha huấn luyện mơ hình: thực hiện việc huấn luyện mơ hình dự đốn nhĩm khách hàng tiềm năng bằng các kỹ thuật học máy là SVM, cây quyết định và kNN (k người láng giềng gần nhất).

- Pha kiểm thử mơ hình: pha này thực hiện việc kiểm chứng hiệu quả của mơ hình, dữ liệu kiểm thử được đưa qua các mơ hình dự đốn, kết quả dự đốn của 3 thuật tốn SVM, cây quyết định và kNN sẽ được kết hợp bằng kỹ thuật bình chọn (voting) cho ra kết quả dự đốn cuối cùng.

3.2 Tập dữ liệu và tiền xử lý dữ liệu

Tập dữ liệu gồm 40.122 thuê tháng 5/2018 đến tháng 10/2018, với tổng số dữ liệu hơn 1 triệu dữ trong bảng 2 dưới đây.

bao, dữ liệu được thu thập trong 6 tháng từ dữ liệu bao gồm 5 bảng cơ sở dữ liệu thơ liệu thơ được mơ tả theo các trường cụ thể

Bảng 2: Mơ tả các trường của tập dữ liệu thuê bao

STT Trường thơng tin Mơ tả

A VOICE OUT Dữ liệu gọi điện

1 isdn Số thuê bao

2 from_phone_number Số điện thoại gọi thực hiện cuộc gọi 3 to_phone_number Số điện thoại nhận cuộc gọi

4 start_time Thời gian bắt đầu gọi

5 call_duration Số giây gọi

6 imei Mã định danh của máy điện thoại

7 cell_id_cl Thơng tin trạm phát sĩng nơi thuê bao đang gọi hoặc nhận cuộc gọi

B CELL Thơng tin các trạm

1 cell_id Mã trạm

2 province_name Tên tỉnh

STT Trường thơng tin Mơ tả

3 district_name Tên quận, huyện

C VAS PRE Dữ liệu VAS

1 isdn Số thuê bao

2 vas_service Dịch vụ VAS đăng ký

3 sta_datetime Thời gian bắt đầu đăng ký 4 tot_charge Tổng số cước đã thu đối với dịch vụ

5 description Mơ tả

D TIEUDUNG PRE Dữ liệu tiêu dùng của thuê bao trả trước

1 thang_tieudung Tuổi đời thuê bao tính theo tháng

2 isdn Số thuê bao

3 tong_tdg Tổng tiêu dùng trong tháng

4 tdg_thoai Tổng tiêu dùng thoại

5 tdg_sms Tổng tiêu dùng sms

6 tdg_vas Tổng tiêu dùng VAS

7 tdg_data Tổng tiêu dùng dữ liệu data

E TIEUDUNG POST Dữ liệu tiêu dùng của thuê bao trả sau

1 thang_tieudung Tuổi đời thuê bao tính theo tháng

2 isdn Số thuê bao

3 tongpsinh Tổng cước phát sinh trong tháng 4 tongps_tru_kmdc Tổng cước phát sinh trong tháng trừ khuyến

mại

5 tdg_sms Tổng tiêu dùng thoại

6 tdg_thoai Tổng tiêu dùng sms

7 tdg_vas Tổng tiêu dùng VAS

STT Trường thơng tin Mơ tả

8 tdg_data Tổng tiêu dùng dữ liệu data

Nhãn của bài tốn dự đốn tương ứng với nhãn product_code gồm 163 tên các gĩi cước viễn thơng. Do cĩ 153 gĩi cước cĩ số lượng thuê bao đăng ký thấp (nhỏ hơn 700 thuê bao), học viên tiến hành loại bỏ các gĩi cước cĩ số lượng thấp, dữ liệu cịn 31.122 dữ liệu thuê bao với 10 nhĩm gĩi cước.

Phân bố các gĩi cước được mơ tả trong hình dưới đây:

PHÂN BỐ GĨI CƯỚC

8000 7000 6000 5000 4000 7513 3000 2000 4429 4409 3367 3365 2840 2185 1000 1528 768 718 0

Hình 7: Phân bố gĩi cước trong tập dữ liệu

Bảng 3: Mơ tả các gĩi cước là nhãn dự báo

STT Gĩi cước Chính sách

Gĩi cước Tom690 dành cho khách hàng ít di chuyển ra khỏi địa bàn tỉnh/TP, với mức phí 690đ/phút - rẻ hơn 1 TOM690 40% so với gĩi cước thơng thường.

Cước phí được tính theo phạm vi tỉnh (zone tỉnh) và khơng phân biệt giá cước nội mạng hay ngoại mạng. *Lưu ý: giá cước áp dụng cho thuê bao hịa mạng mới

STT Gĩi cước Chính sách

Gĩi cước Tomato là gĩi cước đại chúng nhất của Viettel, đặc biệt dành cho nhĩm khách hàng mong muốn sử dụng điện thoại di động nhưng ít cĩ nhu cầu gọi mà nghe là chủ yếu. Gĩi cước khơng giới hạn thời 2 TOM50 gian sử dụng, với mức cước hàng tháng bằng khơng.

Giá cước

- Giá cước thoại nội: 1590đ/p - Giá cước thoại ngoại: 1790đ/p - Giá cước SMS nội: 200đ/sms - Giá cước SMS ngoại: 250đ/sms

Gĩi cước Tomato là gĩi cước đại chúng nhất của Viettel, đặc biệt dành cho nhĩm khách hàng mong muốn sử dụng điện thoại di động nhưng ít cĩ nhu cầu gọi mà nghe là chủ yếu. Gĩi cước khơng giới hạn thời 3 TOM11 gian sử dụng, với mức cước hàng tháng bằng khơng.

Giá cước

- Giá cước thoại nội: 1590đ/p - Giá cước thoại ngoại: 1790đ/p - Giá cước SMS nội: 200đ/sms - Giá cước SMS ngoại: 250đ/sms

Gĩi cước Basic+ là gĩi cước trả sau thơng dụng của Viettel dành cho cá nhân.

4 POBAS - Giá cước gọi nội mạng: 890 đ/phút - Giá cước gọi ngoại mạng: 990 đ/phút - Giá cước nhắn tin nội mạng: 300 đ/tin - Giá cước nhắn tin ngoại mạng: 350 đ/tin

STT Gĩi cước Chính sách

Gĩi cước sinh viên là gĩi cước trả trước dành riêng cho các thuê bao sinh viên của Viettel với những ưu đãi đặc biệt và vơ cùng hấp dẫn:

- Cộng 25.000đ/ tháng trong suốt thời sinh viên khi thuê bao cĩ tiêu dùng data tối thiểu 10.000đ trong tháng liền trước

- Miễn phí tất cả các cuộc gọi dưới 10 phút (tối đa 1.000 phút/30 ngày) giữa các thuê bao trong cộng đồng (là các thuê bao cĩ đăng ký tính năng cộng đồng Sinh viên).

5 EXSTUDENT - Data MimaxSV siêu khủng: chỉ 50.000đ cĩ ngay 3GB tốc độ cao trong 30 ngày. Hết lưu lượng tốc độ cao, truy cập tốc độ thơng thường. Soạn MIMAXSV gửi 191,bấm gọi *098# hoặc truy cập My Viettel.

- Giảm ngay 20.000đ khi đăng ký các gĩi data: Mimax70, Mimax90, Mimax125, Mimax200,

Umax300. (Ngừng áp dụng giảm 20.000đ gĩi Umax300 cho thuê bao kích hoạt mới từ ngày 15/11/2018).

- Ưu đãi theo ngày – đăng ký KMSV5 chỉ 5.000đ/ngày cĩ 300SMS nội mạng, 300MB data và gọi nội mạng giảm cịn 300đ/phút. Soạn KMSV5 gửi 109, bấm gọi *098# hoặc truy cập My Viettel.

Economy là gĩi cước trả trước đơn giản, thuận tiện và dễ sử dụng nhất của Viettel Telecom. Gĩi cước

Economy cĩ cước thoại thấp, dành cho khách hàng cá nhân gọi nhiều với mức sử dụng dưới 150.000 đ/tháng.

6 ECO50 Giá cước:

- Giá cước thoại nội: 1.190 đ/p - Giá cước thoại ngoại: 1.390 đ/p - Giá cước SMS nội: 300đ/sms - Giá cước SMS ngoại: 350đ/sms.

STT Gĩi cước Chính sách

Gĩi cước Tomato là gĩi cước đại chúng nhất của Viettel, đặc biệt dành cho nhĩm khách hàng mong muốn sử dụng điện thoại di động nhưng ít cĩ nhu cầu gọi mà nghe là chủ yếu. Gĩi cước khơng giới hạn thời 7 TOMA1 gian sử dụng, với mức cước hàng tháng bằng khơng.

Giá cước

- Giá cước thoại nội: 1590đ/p - Giá cước thoại ngoại: 1790đ/p - Giá cước SMS nội: 200đ/sms - Giá cước SMS ngoại: 250đ/sms

Gĩi cước Tomato là gĩi cước đại chúng nhất của Viettel, đặc biệt dành cho nhĩm khách hàng mong muốn sử dụng điện thoại di động nhưng ít cĩ nhu cầu gọi mà nghe là chủ yếu. Gĩi cước khơng giới hạn thời 8 TOMCD gian sử dụng, với mức cước hàng tháng bằng khơng.

Giá cước

- Giá cước thoại nội: 1590đ/p - Giá cước thoại ngoại: 1790đ/p - Giá cước SMS nội: 200đ/sms - Giá cước SMS ngoại: 250đ/sms

Economy là gĩi cước trả trước đơn giản, thuận tiện và dễ sử dụng nhất của Viettel Telecom. Gĩi cước

Economy cĩ cước thoại thấp, dành cho khách hàng cá nhân gọi nhiều với mức sử dụng dưới 150.000 đ/tháng.

9 ECD50 Giá cước:

- Giá cước thoại nội: 1.190 đ/p - Giá cước thoại ngoại: 1.390 đ/p - Giá cước SMS nội: 300đ/sms - Giá cước SMS ngoại: 350đ/sms.

STT Gĩi cước Chính sách

Gĩi cước Tomato là gĩi cước đại chúng nhất của Viettel, đặc biệt dành cho nhĩm khách hàng mong muốn sử dụng điện thoại di động nhưng ít cĩ nhu cầu gọi mà nghe là chủ yếu. Gĩi cước khơng giới hạn thời 10 ECOM1 gian sử dụng, với mức cước hàng tháng bằng khơng.

Giá cước

- Giá cước thoại nội: 1590đ/p - Giá cước thoại ngoại: 1790đ/p - Giá cước SMS nội: 200đ/sms - Giá cước SMS ngoại: 250đ/sms

3.3 Tiền xử lý và trích xuất đặc trưng

Dữ liệu thơ từ nhiều bảng dữ liệu được tổng hợp thành 37 trường thơng tin tương ứng với từng thuê bao.

Bảng 4: Bảng danh sách các trường thơng tin tổng hợp kết quả

STT Thơng tin Mơ tả

1 sta_date Ngày bắt đầu sử dụng dịch vụ

2 product_code Mã dịch vụ

3 isdn_length Loại số thuê bao (10 hoặc 11 số)

4 type Loại thuê bao (trả trước/trả sau)

5 arpu_active_months Số tháng phát sinh cước 6 voice_cellId_mostCommon Danh sách các tọa độ phát sinh

cước nhiều nhất trong 6 tháng 7 arpu_tong_tdg_t1 Tổng tiêu dùng gốc trong tháng

5/2018

8 arpu_tong_tdg_t2 Tổng tiêu dùng gốc trong tháng 6/2018

9 arpu_tong_tdg_t3 Tổng tiêu dùng gốc trong tháng 27

STT Thơng tin Mơ tả

7/2018

10 arpu_tong_tdg_t4 Tổng tiêu dùng gốc trong tháng 8/2018

11 arpu_tong_tdg_t5 Tổng tiêu dùng gốc trong tháng 9/2018

12 arpu_tong_tdg_t6 Tổng tiêu dùng gốc trong tháng 10/2018

13 arpu_tdg_thoai_t1 Tiêu dùng cước thoại trong tháng 5/2018

14 arpu_tdg_thoai_t2 Tiêu dùng cước thoại trong tháng 6/2018

15 arpu_tdg_thoai_t3 Tiêu dùng cước thoại trong tháng 7/2018

16 arpu_tdg_thoai_t4 Tiêu dùng cước thoại trong tháng 8/2018

17 arpu_tdg_thoai_t5 Tiêu dùng cước thoại trong tháng 9/2018

18 arpu_tdg_thoai_t6 Tiêu dùng cước thoại trong tháng 10/2018

19 arpu_tdg_sms_t1 Tiêu dùng cước sms trong tháng 5/2018

20 arpu_tdg_sms_t2 Tiêu dùng cước sms trong tháng 6/2018

21 arpu_tdg_sms_t3 Tiêu dùng cước sms trong tháng 7/2019

22 arpu_tdg_sms_t4 Tiêu dùng cước sms trong tháng 8/2018

STT Thơng tin Mơ tả

23 arpu_tdg_sms_t5 Tiêu dùng cước sms trong tháng 9/2018

24 arpu_tdg_sms_t6 Tiêu dùng cước sms trong tháng 10/2018

25 arpu_tdg_vas_t1 Tiêu dùng cước VAS trong tháng 5/2018

26 arpu_tdg_vas_t2 Tiêu dùng cước VAS trong tháng 6/2018

27 arpu_tdg_vas_t3 Tiêu dùng cước VAS trong tháng 7/2018

28 arpu_tdg_vas_t4 Tiêu dùng cước VAS trong tháng 8/2018

29 arpu_tdg_vas_t5 Tiêu dùng cước VAS trong tháng 9/2018

30 arpu_tdg_vas_t6 Tiêu dùng cước VAS trong tháng 10/2018

31 arpu_tdg_data_t1 Tiêu dùng cước dữ liệu trong tháng 5/2018

32 arpu_tdg_data_t2 Tiêu dùng cước dữ liệu trong tháng 6/2018

33 arpu_tdg_data_t3 Tiêu dùng cước dữ liệu trong tháng 7/2018

34 arpu_tdg_data_t4 Tiêu dùng cước dữ liệu trong tháng 8/2018

35 arpu_tdg_data_t5 Tiêu dùng cước dữ liệu trong tháng 9/2018

36 arpu_tdg_data_t6 Tiêu dùng cước dữ liệu trong tháng 29

STT Thơng tin Mơ tả

10/2018

37 product_code Mã gĩi cước đăng ký của thuê bao Dữ liệu sau khi tổng hợp sẽ được xử lý qua hai bước chính:

- Tiền xử lý dữ liệu:

o Thực hiện việc tổng hợp dữ liệu

o Loại bỏ các dữ liệu nhiễu (thiếu giá trị, sai số liệu) o Chuẩn hĩa các trường thời gian thành giá trị theo tháng o Chuẩn hĩa danh sách địa điểm về các mã tỉnh thành, quận

huyện

o Biến đổi dữ liệu qua xử lý về thành định dạng chuẩn. - Trích xuất đặc trưng:

o Trích xuất các nhĩm đặc trưng vị trí của thuê bao, qua đấy phát hiện các hành vi của thuê bao như nơi làm việc, nơi sinh sống, cĩ cơng việc ổn định hay khơng,…

o Trích xuất các nhĩm đặc trưng theo các mức dữ liệu (binning) như thấp, trung bình, cao

o Chuẩn hĩa các dải giá trị về biên độ 0-1 bằng thuật tốn Min- Max

o Sinh ra vector đặc trưng

Từ dừ liệu tổng hợp, học viên tiến hành trích xuất các đặc trưng đại diện cho các thuê bao, số lượng đặc trưng được trích xuất là 381 đặc trưng được chia vào các nhĩm đặc trưng như sau:

Bảng 5: Bảng danh sách các nhĩm đặc trưng được trích xuất

STT Mơ tả

1 Thời điểm bắt đầu sử dụng SIM 2 Đầu số 10 số hay đầu số 11 số 3 Loại thuê bao trả trước hay trả sau 4 Tuổi của thuê bao theo tháng 5 Số tháng phát sinh cước

6 Các đặc trưng nơi phát sinh cước nhiều số 1, số 2, số 3 trong 6 tháng 7 Các đặc trưng tổng tiêu dùng trong tháng t1 đến t6

8 Các đặc trưng tổng tiêu dùng thoại trong tháng t1 đến t6 9 Các đặc trưng tổng tiêu dùng sms trong tháng t1 đến t6 10 Các đặc trưng tổng tiêu dùng vas trong tháng t1 đến t6 11 Các đặc trưng tổng tiêu dùng data trong tháng t1 đến t6

12 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất sau khung giờ hành chính trong tháng t1 đến t6 mức quận

13 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất trước khung giờ hành chính trong tháng t1 đến t6 mức quận

14 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất trong khung giờ hành chính trong tháng t1 đến t6 mức quận

15 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất buổi sáng trong tháng t1 đến t6 mức quận

16 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất buổi chiều trong tháng t1 đến t6 mức quận

STT Mơ tả

trong ngày làm việc trong tháng t1 đến t6 mức quận

18 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất sau khung giờ hành chính trong tháng t1 đến t6 mức tỉnh thành

19 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất trước khung giờ hành chính trong tháng t1 đến t6 mức tỉnh thành

20 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất trong khung giờ hành chính trong tháng t1 đến t6 mức tỉnh thành

21 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất buổi sáng trong tháng t1 đến t6 mức tỉnh thành

22 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất buổi chiều trong

Một phần của tài liệu Xây dựng mô hình dự đoán khách hàng tiềm năng cho các gói cước trong mạng di động (Trang 25)