L ỜI CAM ĐOAN
2.6 Phương pháp đánh giá
Việc đánh giá các thuật tốn phân lớp thường sử dụng độ chính xác, độ
hồi tưởng, độ đo F-score (F1) để tính hiệu năng của mơ hình học máy, trong luận văn này các độ đo này cũng được sử dụng đểđánh giá mơ hình, cụ thể:
Độ hồi tưởng (Recall): Số dữ liệu do mơ hình dự đốn đúng / Tổng số
dữ liệu thực tế.
Độ chính xác (Precision): Số dữ liệu do mơ hình dự đốn đúng / Tổng số
dữ liệu do mơ hình dự đốn ra.
19 Cơng thức: F1 = Precision +Recall
Recall ×
Precision ×
2
Phương pháp thường được sử dụng để đánh giá là kiểm thử chéo (cross validation). Phương pháp này tiến hành chia ngẫu nhiên tập dữ liệu thành N phần bằng nhau, mỗi một thực nghiệm sẽ tiến hành học trên N-1 phần và
đánh giá mơ hình học trên phần cịn lại. Kết quả cuối cùng sẽ được thống kê từ N thực nghiệm ở trên.
20
Chương 3: Mơ hình đề xuất 3.1 Mơ hình đề xuất
Chương 2 đã trình bày các kiến thức cơ bản về các phương pháp khai
phá dữ liệu nhằm tiếp cận để giải quyết các bài tốn phân tích dữ liệu viễn thơng. Tiếp thu các nghiên cứu đã cĩ, luận văn đưa ra cách tiếp cận dựa trên phân lớp dữ liệu để giải quyết bài tốn dự đốn khách hàng tiềm năng cho các gĩi cước trong mạng di động. Kỹ thuật được đề xuất dựa trên việc kết hợp nhiều phương pháp học máy (ensemble models) cũng như việc trích xuất các
đặc trưng nổi trội cho các hành vi tiêu dùng viễn thơng nhằm làm tăng độ
chính xác của mơ hình dự đốn. Đây là một kỹ thuật cho phép kết quả mơ hình cĩ thể tận dụng được các ưu điểm của các mơ hình phân lớp thành phần
để cho ra hiệu quả tốt hơn so với các bộ phân lớp thành phần. Tương tư như
trong các nghiên cứu của Almana và các cơng sự [4] cũng như luận án của Li [17] các bộ phân lớp thành phần cũng sử dụng các kỹ thuật kinh điển như
phân loại sử dụng cây quyết định, SVM và kNN. Mơ hình phân loại được thực hiện theo mơ hình truyền thống gồm bước huấn luyện mơ hình và kiểm thử mơ hình.
21 Mơ hình đề xuất bao gồm hai pha chính:
- Pha huấn luyện mơ hình: thực hiện việc huấn luyện mơ hình dự đốn
nhĩm khách hàng tiềm năng bằng các kỹ thuật học máy là SVM, cây quyết định và kNN (k người láng giềng gần nhất).
- Pha kiểm thử mơ hình: pha này thực hiện việc kiểm chứng hiệu quả
của mơ hình, dữ liệu kiểm thử được đưa qua các mơ hình dự đốn,
kết quả dự đốn của 3 thuật tốn SVM, cây quyết định và kNN sẽ được kết hợp bằng kỹ thuật bình chọn (voting) cho ra kết quả dự đốn cuối cùng.
3.2 Tập dữ liệu và tiền xử lý dữ liệu
Tập dữ liệu gồm 40.122 thuê bao, dữ liệu được thu thập trong 6 tháng từ tháng 5/2018 đến tháng 10/2018, dữ liệu bao gồm 5 bảng cơ sở dữ liệu thơ với tổng số dữ liệu hơn 1 triệu dữ liệu thơ được mơ tả theo các trường cụ thể
trong bảng 2 dưới đây.
Bảng 2: Mơ tả các trường của tập dữ liệu thuê bao
STT Trường thơng tin Mơ tả
A VOICE OUT Dữ liệu gọi điện
1 isdn Số thuê bao
2 from_phone_number Sốđiện thoại gọi thực hiện cuộc gọi 3 to_phone_number Sốđiện thoại nhận cuộc gọi 4 start_time Thời gian bắt đầu gọi 5 call_duration Số giây gọi
6 imei Mã định danh của máy điện thoại 7 cell_id_cl Thơng tin trạm phát sĩng nơi thuê bao đang
gọi hoặc nhận cuộc gọi
B CELL Thơng tin các trạm
1 cell_id Mã trạm
22
STT Trường thơng tin Mơ tả
3 district_name Tên quận, huyện
C VAS PRE Dữ liệu VAS
1 isdn Số thuê bao
2 vas_service Dịch vụVAS đăng ký
3 sta_datetime Thời gian bắt đầu đăng ký
4 tot_charge Tổng sốcước đã thu đối với dịch vụ
5 description Mơ tả
D TIEUDUNG PRE Dữ liệu tiêu dùng của thuê bao trảtrước
1 thang_tieudung Tuổi đời thuê bao tính theo tháng
2 isdn Số thuê bao
3 tong_tdg Tổng tiêu dùng trong tháng 4 tdg_thoai Tổng tiêu dùng thoại
5 tdg_sms Tổng tiêu dùng sms
6 tdg_vas Tổng tiêu dùng VAS
7 tdg_data Tổng tiêu dùng dữ liệu data
E TIEUDUNG POST Dữ liệu tiêu dùng của thuê bao trả sau
1 thang_tieudung Tuổi đời thuê bao tính theo tháng
2 isdn Số thuê bao
3 tongpsinh Tổng cước phát sinh trong tháng 4 tongps_tru_kmdc Tổng cước phát sinh trong tháng trừ khuyến
mại
5 tdg_sms Tổng tiêu dùng thoại
6 tdg_thoai Tổng tiêu dùng sms
23
STT Trường thơng tin Mơ tả
8 tdg_data Tổng tiêu dùng dữ liệu data
Nhãn của bài tốn dự đốn tương ứng với nhãn product_code gồm 163
tên các gĩi cước viễn thơng. Do cĩ 153 gĩi cước cĩ số lượng thuê bao đăng
ký thấp (nhỏhơn 700 thuê bao), học viên tiến hành loại bỏcác gĩi cước cĩ số lượng thấp, dữ liệu cịn 31.122 dữ liệu thuê bao với 10 nhĩm gĩi cước.
Phân bốcác gĩi cước được mơ tảtrong hình dưới đây:
Hình 7: Phân bốgĩi cước trong tập dữ liệu
Bảng 3: Mơ tả các gĩi cước là nhãn dự báo
STT Gĩi cước Chính sách
1 TOM690
Gĩi cước Tom690 dành cho khách hàng ít di chuyển ra khỏi địa bàn tỉnh/TP, với mức phí 690đ/phút - rẻhơn
40% so với gĩi cước thơng thường.
Cước phí được tính theo phạm vi tỉnh (zone tỉnh) và khơng phân biệt giá cước nội mạng hay ngoại mạng.
*Lưu ý: giá cước áp dụng cho thuê bao hịa mạng mới
7513 4429 4409 3367 3365 2840 2185 1528 768 718 0 1000 2000 3000 4000 5000 6000 7000 8000
24
STT Gĩi cước Chính sách
2 TOM50
Gĩi cước Tomato là gĩi cước đại chúng nhất của
Viettel, đặc biệt dành cho nhĩm khách hàng mong muốn sử dụng điện thoại di động nhưng ít cĩ nhu cầu gọi mà nghe là chủ yếu. Gĩi cước khơng giới hạn thời gian sử dụng, với mức cước hàng tháng bằng khơng.
Giá cước
- Giá cước thoại nội: 1590đ/p
- Giá cước thoại ngoại: 1790đ/p
- Giá cước SMS nội: 200đ/sms
- Giá cước SMS ngoại: 250đ/sms
3 TOM11
Gĩi cước Tomato là gĩi cước đại chúng nhất của
Viettel, đặc biệt dành cho nhĩm khách hàng mong muốn sử dụng điện thoại di động nhưng ít cĩ nhu cầu gọi mà nghe là chủ yếu. Gĩi cước khơng giới hạn thời gian sử dụng, với mức cước hàng tháng bằng khơng.
Giá cước
- Giá cước thoại nội: 1590đ/p
- Giá cước thoại ngoại: 1790đ/p
- Giá cước SMS nội: 200đ/sms
- Giá cước SMS ngoại: 250đ/sms
4 POBAS
Gĩi cước Basic+ là gĩi cước trả sau thơng dụng của Viettel dành cho cá nhân.
- Giá cước gọi nội mạng: 890 đ/phút
- Giá cước gọi ngoại mạng: 990 đ/phút
- Giá cước nhắn tin nội mạng: 300 đ/tin
25
STT Gĩi cước Chính sách
5 EXSTUDENT
Gĩi cước sinh viên là gĩi cước trả trước dành riêng cho các thuê bao sinh viên của Viettel với những ưu đãi đặc biệt và vơ cùng hấp dẫn:
- Cộng 25.000đ/ tháng trong suốt thời sinh viên khi thuê bao cĩ tiêu dùng data tối thiểu 10.000đ trong tháng
liền trước
- Miễn phí tất cả các cuộc gọi dưới 10 phút (tối đa
1.000 phút/30 ngày) giữa các thuê bao trong cộng đồng
(là các thuê bao cĩ đăng ký tính năng cộng đồng Sinh viên).
- Data MimaxSV siêu khủng: chỉ50.000đ cĩ ngay 3GB
tốc độ cao trong 30 ngày. Hết lưu lượng tốc độ cao, truy cập tốc độ thơng thường. Soạn MIMAXSV gửi 191,bấm gọi *098# hoặc truy cập My Viettel.
- Giảm ngay 20.000đ khi đăng ký các gĩi data:
Mimax70, Mimax90, Mimax125, Mimax200,
Umax300. (Ngừng áp dụng giảm 20.000đ gĩi Umax300
cho thuê bao kích hoạt mới từ ngày 15/11/2018).
- Ưu đãi theo ngày –đăng ký KMSV5 chỉ5.000đ/ngày
cĩ 300SMS nội mạng, 300MB data và gọi nội mạng giảm cịn 300đ/phút. Soạn KMSV5 gửi 109, bấm gọi *098# hoặc truy cập My Viettel.
6 ECO50
Economy là gĩi cước trảtrước đơn giản, thuận tiện và dễ sử dụng nhất của Viettel Telecom. Gĩi cước
Economy cĩ cước thoại thấp, dành cho khách hàng cá nhân gọi nhiều với mức sử dụng dưới 150.000 đ/tháng. Giá cước:
- Giá cước thoại nội: 1.190 đ/p
- Giá cước thoại ngoại: 1.390 đ/p
- Giá cước SMS nội: 300đ/sms
26
STT Gĩi cước Chính sách
7 TOMA1
Gĩi cước Tomato là gĩi cước đại chúng nhất của
Viettel, đặc biệt dành cho nhĩm khách hàng mong muốn sử dụng điện thoại di động nhưng ít cĩ nhu cầu gọi mà nghe là chủ yếu. Gĩi cước khơng giới hạn thời gian sử dụng, với mức cước hàng tháng bằng khơng.
Giá cước
- Giá cước thoại nội: 1590đ/p
- Giá cước thoại ngoại: 1790đ/p
- Giá cước SMS nội: 200đ/sms
- Giá cước SMS ngoại: 250đ/sms
8 TOMCD
Gĩi cước Tomato là gĩi cước đại chúng nhất của
Viettel, đặc biệt dành cho nhĩm khách hàng mong muốn sử dụng điện thoại di động nhưng ít cĩ nhu cầu gọi mà nghe là chủ yếu. Gĩi cước khơng giới hạn thời gian sử dụng, với mức cước hàng tháng bằng khơng.
Giá cước
- Giá cước thoại nội: 1590đ/p
- Giá cước thoại ngoại: 1790đ/p
- Giá cước SMS nội: 200đ/sms
- Giá cước SMS ngoại: 250đ/sms
9 ECD50
Economy là gĩi cước trảtrước đơn giản, thuận tiện và dễ sử dụng nhất của Viettel Telecom. Gĩi cước
Economy cĩ cước thoại thấp, dành cho khách hàng cá nhân gọi nhiều với mức sử dụng dưới 150.000 đ/tháng. Giá cước:
- Giá cước thoại nội: 1.190 đ/p
- Giá cước thoại ngoại: 1.390 đ/p
- Giá cước SMS nội: 300đ/sms
27
STT Gĩi cước Chính sách
10 ECOM1
Gĩi cước Tomato là gĩi cước đại chúng nhất của
Viettel, đặc biệt dành cho nhĩm khách hàng mong muốn sử dụng điện thoại di động nhưng ít cĩ nhu cầu gọi mà nghe là chủ yếu. Gĩi cước khơng giới hạn thời gian sử dụng, với mức cước hàng tháng bằng khơng.
Giá cước
- Giá cước thoại nội: 1590đ/p
- Giá cước thoại ngoại: 1790đ/p
- Giá cước SMS nội: 200đ/sms
- Giá cước SMS ngoại: 250đ/sms
3.3 Tiền xử lý và trích xuất đặc trưng
Dữ liệu thơ từ nhiều bảng dữ liệu được tổng hợp thành 37 trường thơng tin tương ứng với từng thuê bao.
Bảng 4: Bảng danh sách các trường thơng tin tổng hợp kết quả
STT Thơng tin Mơ tả
1 sta_date Ngày bắt đầu sử dụng dịch vụ
2 product_code Mã dịch vụ
3 isdn_length Loại số thuê bao (10 hoặc 11 số) 4 type Loại thuê bao (trảtrước/trả sau) 5 arpu_active_months Sốtháng phát sinh cước 6 voice_cellId_mostCommon Danh sách các tọa độ phát sinh
cước nhiều nhất trong 6 tháng 7 arpu_tong_tdg_t1 Tổng tiêu dùng gốc trong tháng
5/2018
8 arpu_tong_tdg_t2 Tổng tiêu dùng gốc trong tháng 6/2018
28
STT Thơng tin Mơ tả
7/2018
10 arpu_tong_tdg_t4 Tổng tiêu dùng gốc trong tháng 8/2018
11 arpu_tong_tdg_t5 Tổng tiêu dùng gốc trong tháng 9/2018
12 arpu_tong_tdg_t6 Tổng tiêu dùng gốc trong tháng 10/2018
13 arpu_tdg_thoai_t1 Tiêu dùng cước thoại trong tháng 5/2018
14 arpu_tdg_thoai_t2 Tiêu dùng cước thoại trong tháng 6/2018
15 arpu_tdg_thoai_t3 Tiêu dùng cước thoại trong tháng 7/2018
16 arpu_tdg_thoai_t4 Tiêu dùng cước thoại trong tháng 8/2018
17 arpu_tdg_thoai_t5 Tiêu dùng cước thoại trong tháng 9/2018
18 arpu_tdg_thoai_t6 Tiêu dùng cước thoại trong tháng 10/2018
19 arpu_tdg_sms_t1 Tiêu dùng cước sms trong tháng 5/2018
20 arpu_tdg_sms_t2 Tiêu dùng cước sms trong tháng 6/2018
21 arpu_tdg_sms_t3 Tiêu dùng cước sms trong tháng 7/2019
22 arpu_tdg_sms_t4 Tiêu dùng cước sms trong tháng 8/2018
29
STT Thơng tin Mơ tả
23 arpu_tdg_sms_t5 Tiêu dùng cước sms trong tháng 9/2018
24 arpu_tdg_sms_t6 Tiêu dùng cước sms trong tháng 10/2018
25 arpu_tdg_vas_t1 Tiêu dùng cước VAS trong tháng 5/2018
26 arpu_tdg_vas_t2 Tiêu dùng cước VAS trong tháng 6/2018
27 arpu_tdg_vas_t3 Tiêu dùng cước VAS trong tháng 7/2018
28 arpu_tdg_vas_t4 Tiêu dùng cước VAS trong tháng 8/2018
29 arpu_tdg_vas_t5 Tiêu dùng cước VAS trong tháng 9/2018
30 arpu_tdg_vas_t6 Tiêu dùng cước VAS trong tháng 10/2018
31 arpu_tdg_data_t1 Tiêu dùng cước dữ liệu trong tháng 5/2018
32 arpu_tdg_data_t2 Tiêu dùng cước dữ liệu trong tháng 6/2018
33 arpu_tdg_data_t3 Tiêu dùng cước dữ liệu trong tháng 7/2018
34 arpu_tdg_data_t4 Tiêu dùng cước dữ liệu trong tháng 8/2018
35 arpu_tdg_data_t5 Tiêu dùng cước dữ liệu trong tháng 9/2018
30
STT Thơng tin Mơ tả
10/2018
37 product_code Mã gĩi cước đăng ký của thuê bao Dữ liệu sau khi tổng hợp sẽ được xửlý qua hai bước chính:
- Tiền xử lý dữ liệu:
o Thực hiện việc tổng hợp dữ liệu
o Loại bỏ các dữ liệu nhiễu (thiếu giá trị, sai số liệu) o Chuẩn hĩa các trường thời gian thành giá trị theo tháng
o Chuẩn hĩa danh sách địa điểm về các mã tỉnh thành, quận huyện
o Biến đổi dữ liệu qua xử lý vềthành định dạng chuẩn. - Trích xuất đặc trưng:
o Trích xuất các nhĩm đặc trưng vị trí của thuê bao, qua đấy phát hiện các hành vi của thuê bao như nơi làm việc, nơi sinh sống, cĩ cơng việc ổn định hay khơng,…
o Trích xuất các nhĩm đặc trưng theo các mức dữ liệu (binning)
như thấp, trung bình, cao
o Chuẩn hĩa các dải giá trị về biên độ 0-1 bằng thuật tốn Min- Max
o Sinh ra vector đặc trưng
31
Từ dừ liệu tổng hợp, học viên tiến hành trích xuất các đặc trưng đại diện cho các thuê bao, số lượng đặc trưng được trích xuất là 381 đặc trưng được
chia vào các nhĩm đặc trưng như sau:
Bảng 5: Bảng danh sách các nhĩm đặc trưng được trích xuất
STT Mơ tả
1 Thời điểm bắt đầu sử dụng SIM 2 Đầu số 10 sốhay đầu số 11 số
3 Loại thuê bao trảtrước hay trả sau 4 Tuổi của thuê bao theo tháng 5 Sốtháng phát sinh cước
6 Các đặc trưng nơi phát sinh cước nhiều số 1, số 2, số 3 trong 6 tháng 7 Các đặc trưng tổng tiêu dùng trong tháng t1 đến t6
8 Các đặc trưng tổng tiêu dùng thoại trong tháng t1 đến t6 9 Các đặc trưng tổng tiêu dùng sms trong tháng t1 đến t6 10 Các đặc trưng tổng tiêu dùng vas trong tháng t1 đến t6 11 Các đặc trưng tổng tiêu dùng data trong tháng t1 đến t6
12 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất sau khung giờ hành chính trong tháng t1 đến t6 mức quận
13 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất trước khung giờ hành chính trong tháng t1 đến t6 mức quận
14 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất trong khung giờ hành chính trong tháng t1 đến t6 mức quận
15 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất buổi sáng trong
tháng t1 đến t6 mức quận
16 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất buổi chiều trong
tháng t1 đến t6 mức quận
32
STT Mơ tả
trong ngày làm việc trong tháng t1 đến t6 mức quận
18 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất sau khung giờ
hành chính trong tháng t1 đến t6 mức tỉnh thành
19 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất trước khung giờ hành chính trong tháng t1 đến t6 mức tỉnh thành
20 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất trong khung giờ hành chính trong tháng t1 đến t6 mức tỉnh thành
21 Các đặc trưng tọa độ thuê bao hoạt động nhiều nhất buổi sáng trong
tháng t1 đến t6 mức tỉnh thành