Phương pháp đánh giá

Một phần của tài liệu Xây dựng mô hình dự đoán khách hàng tiềm năng cho các gói cước trong mạng di động (Trang 25)

L ỜI CAM ĐOAN

2.6Phương pháp đánh giá

Việc đánh giá các thuật tốn phân lớp thường sử dụng độ chính xác, độ

hồi tưởng, độ đo F-score (F1) để tính hiệu năng của mơ hình học máy, trong luận văn này các độ đo này cũng được sử dụng đểđánh giá mơ hình, cụ thể:

Độ hồi tưởng (Recall): Số dữ liệu do mơ hình dự đốn đúng / Tổng số

dữ liệu thực tế.

Độ chính xác (Precision): Số dữ liệu do mơ hình dự đốn đúng / Tổng số

dữ liệu do mơ hình dự đốn ra.

19 Cơng thức: F1 = Precision +Recall

Recall ×

Precision ×

2

Phương pháp thường được sử dụng để đánh giá là kiểm thử chéo (cross validation). Phương pháp này tiến hành chia ngẫu nhiên tập dữ liệu thành N phần bằng nhau, mỗi một thực nghiệm sẽ tiến hành học trên N-1 phần và

đánh giá mơ hình học trên phần cịn lại. Kết quả cuối cùng sẽ được thống kê từ N thực nghiệm ở trên.

20

Chương 3: Mơ hình đề xut 3.1 Mơ hình đề xuất

Chương 2 đã trình bày các kiến thức cơ bản về các phương pháp khai

phá dữ liệu nhằm tiếp cận để giải quyết các bài tốn phân tích dữ liệu viễn thơng. Tiếp thu các nghiên cứu đã cĩ, luận văn đưa ra cách tiếp cận dựa trên phân lớp dữ liệu để giải quyết bài tốn dự đốn khách hàng tiềm năng cho các gĩi cước trong mạng di động. Kỹ thuật được đề xuất dựa trên việc kết hợp nhiều phương pháp học máy (ensemble models) cũng như việc trích xuất các

đặc trưng nổi trội cho các hành vi tiêu dùng viễn thơng nhằm làm tăng độ

chính xác của mơ hình dự đốn. Đây là một kỹ thuật cho phép kết quả mơ hình cĩ thể tận dụng được các ưu điểm của các mơ hình phân lớp thành phần

để cho ra hiệu quả tốt hơn so với các bộ phân lớp thành phần. Tương tư như

trong các nghiên cứu của Almana và các cơng sự [4] cũng như luận án của Li [17] các bộ phân lớp thành phần cũng sử dụng các kỹ thuật kinh điển như

phân loại sử dụng cây quyết định, SVM và kNN. Mơ hình phân loại được thực hiện theo mơ hình truyền thống gồm bước huấn luyện mơ hình và kiểm thử mơ hình.

21 Mơ hình đề xuất bao gồm hai pha chính:

- Pha huấn luyện mơ hình: thực hiện việc huấn luyện mơ hình dự đốn

nhĩm khách hàng tiềm năng bằng các kỹ thuật học máy là SVM, cây quyết định và kNN (k người láng giềng gần nhất).

- Pha kiểm thử mơ hình: pha này thực hiện việc kiểm chứng hiệu quả

của mơ hình, dữ liệu kiểm thử được đưa qua các mơ hình dự đốn,

kết quả dự đốn của 3 thuật tốn SVM, cây quyết định và kNN sẽ được kết hợp bằng kỹ thuật bình chọn (voting) cho ra kết quả dự đốn cuối cùng.

3.2 Tập dữ liệu và tiền xử lý dữ liệu

Tập dữ liệu gồm 40.122 thuê bao, dữ liệu được thu thập trong 6 tháng từ tháng 5/2018 đến tháng 10/2018, dữ liệu bao gồm 5 bảng cơ sở dữ liệu thơ với tổng số dữ liệu hơn 1 triệu dữ liệu thơ được mơ tả theo các trường cụ thể

trong bảng 2 dưới đây.

Bảng 2: Mơ tả các trường của tập dữ liệu thuê bao

STT Trường thơng tin Mơ tả

A VOICE OUT D liu gọi điện

1 isdn Số thuê bao

2 from_phone_number Sốđiện thoại gọi thực hiện cuộc gọi 3 to_phone_number Sốđiện thoại nhận cuộc gọi 4 start_time Thời gian bắt đầu gọi 5 call_duration Số giây gọi

6 imei Mã định danh của máy điện thoại 7 cell_id_cl Thơng tin trạm phát sĩng nơi thuê bao đang

gọi hoặc nhận cuộc gọi

B CELL Thơng tin các trm

1 cell_id Mã trạm

22

STT Trường thơng tin Mơ tả

3 district_name Tên quận, huyện

C VAS PRE D liu VAS

1 isdn Số thuê bao

2 vas_service Dịch vụVAS đăng ký

3 sta_datetime Thời gian bắt đầu đăng ký

4 tot_charge Tổng sốcước đã thu đối với dịch vụ

5 description Mơ tả

D TIEUDUNG PRE D liu tiêu dùng ca thuê bao trtrước

1 thang_tieudung Tuổi đời thuê bao tính theo tháng

2 isdn Số thuê bao

3 tong_tdg Tổng tiêu dùng trong tháng 4 tdg_thoai Tổng tiêu dùng thoại

5 tdg_sms Tổng tiêu dùng sms

6 tdg_vas Tổng tiêu dùng VAS

7 tdg_data Tổng tiêu dùng dữ liệu data

E TIEUDUNG POST D liu tiêu dùng ca thuê bao tr sau

1 thang_tieudung Tuổi đời thuê bao tính theo tháng

2 isdn Số thuê bao

3 tongpsinh Tổng cước phát sinh trong tháng 4 tongps_tru_kmdc Tổng cước phát sinh trong tháng trừ khuyến

mại

5 tdg_sms Tổng tiêu dùng thoại

6 tdg_thoai Tổng tiêu dùng sms

23

STT Trường thơng tin Mơ tả

8 tdg_data Tổng tiêu dùng dữ liệu data

Nhãn của bài tốn dự đốn tương ứng với nhãn product_code gồm 163

tên các gĩi cước viễn thơng. Do cĩ 153 gĩi cước cĩ số lượng thuê bao đăng

ký thấp (nhỏhơn 700 thuê bao), học viên tiến hành loại bỏcác gĩi cước cĩ số lượng thấp, dữ liệu cịn 31.122 dữ liệu thuê bao với 10 nhĩm gĩi cước.

Phân bốcác gĩi cước được mơ tảtrong hình dưới đây:

Hình 7: Phân bốgĩi cước trong tập dữ liệu

Bảng 3: Mơ tả các gĩi cước là nhãn dự báo

STT Gĩi cước Chính sách

1 TOM690

Gĩi cước Tom690 dành cho khách hàng ít di chuyển ra khỏi địa bàn tỉnh/TP, với mức phí 690đ/phút - rẻhơn

40% so với gĩi cước thơng thường.

Cước phí được tính theo phạm vi tỉnh (zone tỉnh) và khơng phân biệt giá cước nội mạng hay ngoại mạng.

*Lưu ý: giá cước áp dụng cho thuê bao hịa mạng mới

7513 4429 4409 3367 3365 2840 2185 1528 768 718 0 1000 2000 3000 4000 5000 6000 7000 8000

24

STT Gĩi cước Chính sách

2 TOM50

Gĩi cước Tomato là gĩi cước đại chúng nhất của

Viettel, đặc biệt dành cho nhĩm khách hàng mong muốn sử dụng điện thoại di động nhưng ít cĩ nhu cầu gọi mà nghe là chủ yếu. Gĩi cước khơng giới hạn thời gian sử dụng, với mức cước hàng tháng bằng khơng.

Giá cước

- Giá cước thoại nội: 1590đ/p

- Giá cước thoại ngoại: 1790đ/p

- Giá cước SMS nội: 200đ/sms

- Giá cước SMS ngoại: 250đ/sms

3 TOM11

Gĩi cước Tomato là gĩi cước đại chúng nhất của

Viettel, đặc biệt dành cho nhĩm khách hàng mong muốn sử dụng điện thoại di động nhưng ít cĩ nhu cầu gọi mà nghe là chủ yếu. Gĩi cước khơng giới hạn thời gian sử dụng, với mức cước hàng tháng bằng khơng.

Giá cước

- Giá cước thoại nội: 1590đ/p

- Giá cước thoại ngoại: 1790đ/p

- Giá cước SMS nội: 200đ/sms

- Giá cước SMS ngoại: 250đ/sms

4 POBAS

Gĩi cước Basic+ là gĩi cước trả sau thơng dụng của Viettel dành cho cá nhân.

- Giá cước gọi nội mạng: 890 đ/phút

- Giá cước gọi ngoại mạng: 990 đ/phút

- Giá cước nhắn tin nội mạng: 300 đ/tin

25

STT Gĩi cước Chính sách

5 EXSTUDENT

Gĩi cước sinh viên là gĩi cước trả trước dành riêng cho các thuê bao sinh viên của Viettel với những ưu đãi đặc biệt và vơ cùng hấp dẫn:

- Cộng 25.000đ/ tháng trong suốt thời sinh viên khi thuê bao cĩ tiêu dùng data tối thiểu 10.000đ trong tháng

liền trước

- Miễn phí tất cả các cuộc gọi dưới 10 phút (tối đa

1.000 phút/30 ngày) giữa các thuê bao trong cộng đồng

(là các thuê bao cĩ đăng ký tính năng cộng đồng Sinh viên).

- Data MimaxSV siêu khủng: chỉ50.000đ cĩ ngay 3GB

tốc độ cao trong 30 ngày. Hết lưu lượng tốc độ cao, truy cập tốc độ thơng thường. Soạn MIMAXSV gửi 191,bấm gọi *098# hoặc truy cập My Viettel.

- Giảm ngay 20.000đ khi đăng ký các gĩi data:

Mimax70, Mimax90, Mimax125, Mimax200,

Umax300. (Ngừng áp dụng giảm 20.000đ gĩi Umax300

cho thuê bao kích hoạt mới từ ngày 15/11/2018).

- Ưu đãi theo ngày –đăng ký KMSV5 chỉ5.000đ/ngày

cĩ 300SMS nội mạng, 300MB data và gọi nội mạng giảm cịn 300đ/phút. Soạn KMSV5 gửi 109, bấm gọi *098# hoặc truy cập My Viettel.

6 ECO50

Economy là gĩi cước trảtrước đơn giản, thuận tiện và dễ sử dụng nhất của Viettel Telecom. Gĩi cước

Economy cĩ cước thoại thấp, dành cho khách hàng cá nhân gọi nhiều với mức sử dụng dưới 150.000 đ/tháng. Giá cước:

- Giá cước thoại nội: 1.190 đ/p

- Giá cước thoại ngoại: 1.390 đ/p

- Giá cước SMS nội: 300đ/sms

26

STT Gĩi cước Chính sách

7 TOMA1

Gĩi cước Tomato là gĩi cước đại chúng nhất của

Viettel, đặc biệt dành cho nhĩm khách hàng mong muốn sử dụng điện thoại di động nhưng ít cĩ nhu cầu gọi mà nghe là chủ yếu. Gĩi cước khơng giới hạn thời gian sử dụng, với mức cước hàng tháng bằng khơng.

Giá cước

- Giá cước thoại nội: 1590đ/p

- Giá cước thoại ngoại: 1790đ/p

- Giá cước SMS nội: 200đ/sms

- Giá cước SMS ngoại: 250đ/sms

8 TOMCD

Gĩi cước Tomato là gĩi cước đại chúng nhất của

Viettel, đặc biệt dành cho nhĩm khách hàng mong muốn sử dụng điện thoại di động nhưng ít cĩ nhu cầu gọi mà nghe là chủ yếu. Gĩi cước khơng giới hạn thời gian sử dụng, với mức cước hàng tháng bằng khơng.

Giá cước

- Giá cước thoại nội: 1590đ/p

- Giá cước thoại ngoại: 1790đ/p

- Giá cước SMS nội: 200đ/sms

- Giá cước SMS ngoại: 250đ/sms

9 ECD50

Economy là gĩi cước trảtrước đơn giản, thuận tiện và dễ sử dụng nhất của Viettel Telecom. Gĩi cước

Economy cĩ cước thoại thấp, dành cho khách hàng cá nhân gọi nhiều với mức sử dụng dưới 150.000 đ/tháng. Giá cước:

- Giá cước thoại nội: 1.190 đ/p

- Giá cước thoại ngoại: 1.390 đ/p

- Giá cước SMS nội: 300đ/sms

27

STT Gĩi cước Chính sách

10 ECOM1

Gĩi cước Tomato là gĩi cước đại chúng nhất của

Viettel, đặc biệt dành cho nhĩm khách hàng mong muốn sử dụng điện thoại di động nhưng ít cĩ nhu cầu gọi mà nghe là chủ yếu. Gĩi cước khơng giới hạn thời gian sử dụng, với mức cước hàng tháng bằng khơng.

Giá cước

- Giá cước thoại nội: 1590đ/p

- Giá cước thoại ngoại: 1790đ/p

- Giá cước SMS nội: 200đ/sms

- Giá cước SMS ngoại: 250đ/sms

3.3 Tiền xử lý và trích xuất đặc trưng

Dữ liệu thơ từ nhiều bảng dữ liệu được tổng hợp thành 37 trường thơng tin tương ứng với từng thuê bao.

Bảng 4: Bảng danh sách các trường thơng tin tổng hợp kết quả

STT Thơng tin Mơ tả

1 sta_date Ngày bắt đầu sử dụng dịch vụ

2 product_code Mã dịch vụ

3 isdn_length Loại số thuê bao (10 hoặc 11 số) 4 type Loại thuê bao (trảtrước/trả sau) 5 arpu_active_months Sốtháng phát sinh cước 6 voice_cellId_mostCommon Danh sách các tọa độ phát sinh

cước nhiều nhất trong 6 tháng 7 arpu_tong_tdg_t1 Tổng tiêu dùng gốc trong tháng

5/2018

8 arpu_tong_tdg_t2 Tổng tiêu dùng gốc trong tháng 6/2018

28

STT Thơng tin Mơ tả

7/2018

10 arpu_tong_tdg_t4 Tổng tiêu dùng gốc trong tháng 8/2018

11 arpu_tong_tdg_t5 Tổng tiêu dùng gốc trong tháng 9/2018

12 arpu_tong_tdg_t6 Tổng tiêu dùng gốc trong tháng 10/2018

13 arpu_tdg_thoai_t1 Tiêu dùng cước thoại trong tháng 5/2018

14 arpu_tdg_thoai_t2 Tiêu dùng cước thoại trong tháng 6/2018

15 arpu_tdg_thoai_t3 Tiêu dùng cước thoại trong tháng 7/2018

16 arpu_tdg_thoai_t4 Tiêu dùng cước thoại trong tháng 8/2018

17 arpu_tdg_thoai_t5 Tiêu dùng cước thoại trong tháng 9/2018

18 arpu_tdg_thoai_t6 Tiêu dùng cước thoại trong tháng 10/2018

19 arpu_tdg_sms_t1 Tiêu dùng cước sms trong tháng 5/2018

20 arpu_tdg_sms_t2 Tiêu dùng cước sms trong tháng 6/2018

21 arpu_tdg_sms_t3 Tiêu dùng cước sms trong tháng 7/2019

22 arpu_tdg_sms_t4 Tiêu dùng cước sms trong tháng 8/2018

29

STT Thơng tin Mơ tả

23 arpu_tdg_sms_t5 Tiêu dùng cước sms trong tháng 9/2018

24 arpu_tdg_sms_t6 Tiêu dùng cước sms trong tháng 10/2018

25 arpu_tdg_vas_t1 Tiêu dùng cước VAS trong tháng 5/2018

26 arpu_tdg_vas_t2 Tiêu dùng cước VAS trong tháng 6/2018

27 arpu_tdg_vas_t3 Tiêu dùng cước VAS trong tháng 7/2018

28 arpu_tdg_vas_t4 Tiêu dùng cước VAS trong tháng 8/2018

29 arpu_tdg_vas_t5 Tiêu dùng cước VAS trong tháng 9/2018

30 arpu_tdg_vas_t6 Tiêu dùng cước VAS trong tháng 10/2018

31 arpu_tdg_data_t1 Tiêu dùng cước dữ liệu trong tháng 5/2018

32 arpu_tdg_data_t2 Tiêu dùng cước dữ liệu trong tháng 6/2018

33 arpu_tdg_data_t3 Tiêu dùng cước dữ liệu trong tháng 7/2018

34 arpu_tdg_data_t4 Tiêu dùng cước dữ liệu trong tháng 8/2018

35 arpu_tdg_data_t5 Tiêu dùng cước dữ liệu trong tháng 9/2018

30

STT Thơng tin Mơ tả

10/2018

37 product_code Mã gĩi cước đăng ký của thuê bao Dữ liệu sau khi tổng hợp sẽ được xửlý qua hai bước chính:

- Tiền xử lý dữ liệu:

o Thực hiện việc tổng hợp dữ liệu

o Loại bỏ các dữ liệu nhiễu (thiếu giá trị, sai số liệu) o Chuẩn hĩa các trường thời gian thành giá trị theo tháng

o Chuẩn hĩa danh sách địa điểm về các mã tỉnh thành, quận huyện

o Biến đổi dữ liệu qua xử lý vềthành định dạng chuẩn. - Trích xuất đặc trưng:

o Trích xuất các nhĩm đặc trưng vị trí của thuê bao, qua đấy phát hiện các hành vi của thuê bao như nơi làm việc, nơi sinh sống, cĩ cơng việc ổn định hay khơng,…

o Trích xuất các nhĩm đặc trưng theo các mức dữ liệu (binning)

như thấp, trung bình, cao

o Chuẩn hĩa các dải giá trị về biên độ 0-1 bằng thuật tốn Min- Max

o Sinh ra vector đặc trưng

31

Từ dừ liệu tổng hợp, học viên tiến hành trích xuất các đặc trưng đại diện cho các thuê bao, số lượng đặc trưng được trích xuất là 381 đặc trưng được

chia vào các nhĩm đặc trưng như sau:

Bảng 5: Bảng danh sách các nhĩm đặc trưng được trích xuất

STT Mơ tả

1 Thời điểm bắt đầu sử dụng SIM 2 Đầu số 10 sốhay đầu số 11 số

3 Loại thuê bao trảtrước hay trả sau 4 Tuổi của thuê bao theo tháng 5 Sốtháng phát sinh cước

6 Các đặc trưng nơi phát sinh cước nhiều số 1, số 2, số 3 trong 6 tháng 7 Các đặc trưng tổng tiêu dùng trong tháng t1 đến t6

8 Các đặc trưng tổng tiêu dùng thoại trong tháng t1 đến t6 9 Các đặc trưng tổng tiêu dùng sms trong tháng t1 đến t6 10 Các đặc trưng tổng tiêu dùng vas trong tháng t1 đến t6 11 Các đặc trưng tổng tiêu dùng data trong tháng t1 đến t6

12 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất sau khung giờ hành chính trong tháng t1 đến t6 mức quận

13 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất trước khung giờ hành chính trong tháng t1 đến t6 mức quận

14 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất trong khung giờ hành chính trong tháng t1 đến t6 mức quận

15 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất buổi sáng trong

tháng t1 đến t6 mức quận

16 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất buổi chiều trong

tháng t1 đến t6 mức quận

32

STT Mơ tả

trong ngày làm việc trong tháng t1 đến t6 mức quận

18 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất sau khung gi

hành chính trong tháng t1 đến t6 mức tỉnh thành

19 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất trước khung giờ hành chính trong tháng t1 đến t6 mức tỉnh thành

20 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất trong khung giờ hành chính trong tháng t1 đến t6 mức tỉnh thành

21 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất buổi sáng trong

tháng t1 đến t6 mức tỉnh thành

Một phần của tài liệu Xây dựng mô hình dự đoán khách hàng tiềm năng cho các gói cước trong mạng di động (Trang 25)