Bước 1: Thu thập dữ liệu: Hệ thống thu thập dữ liệu về thông tin thuê bao, dữ
liệu tiêu dùng, dữ liệu đăng ký các dịch vụ, gói cước.
Bước 2: Tiền xử lý và lưu trữ dữ liệu: Từ các dữ liệu thu thập được, xử lý các
dữ liệu khơng hợp lệ, tính nhất quán của dữ liệu.
1.Thu thập dữ
48
Bước 3: Mơ hình phân tích, sinh luật kết hợp: Sinh các luật kết hợp cho các
dịch vụ giá trị gia tăng (vas) của khách hàng.
Bước 4: Đánh giá và sử dụng: Phân tích đánh giá các luật kết hợp tìm được
giữa các dịch vụ giá trị gia tăng. Các luật kết hợp tìm được có thể thay đổi tùy vào lượng dữ liệu thu thập và yêu cầu đánh giá của kinh doanh. Do đặc thù của kinh doanh luôn thay đổi ảnh hưởng hành vi sử dụng của khách hàng do khơng có mơ hình dự đoán nào ln đúng. Trong quá trình thực hiện đánh giá nhằm cải tiến mơ hình để phù hợp nhất với tình hình số liệu thực tế.
3.3 Thu thập dữ liệu
Đối tượng: Là thuê bao di động trả trước, đang còn hoạt động trên hệ thống.
Số lượng tập dữ liệu mẫu 2.081.488 thuê bao có sử dụng các dịch vụ giá trị gia tăng. Dữ liệu bao gồm 3 loại dữ liệu thô được lấy từ các hệ thống khác nhau được lưu trữ trên hệ thống Data lake.
Các nguồn dữ liệu thô thu thập
STT Tên trường Mô tả
A SUBSCRIBER THÔNG TIN THUÊ BAO
1 ma_kh Mã khách hàng
2 so_tb Số thuê bao
3 trang_thai Trạng thái thuê bao
4 tuoi_tb Tuổi thuê bao
5 tuoi_kh Tuổi khách hàng
6 nhom_tuoi_kh Nhóm tuổi khách hàng
7 ma_tinh Mã tỉnh sinh sống
8 ten_tinh Tên tỉnh
9 ma_huyen Mã huyện
10 ten_huyen Tên huyện
11 ma_goi_cuoc Gói cước
12 trang_thai_chan_cat Trạng thái chặn cắt của thuê bao
13 khu_vuc Khu vực
B VAS_REGISTER ĐĂNG KÝ DỊCH VỤ GTGT
49
2 tac_dong Tác động đăng ký, hủy, gia hạn
3 phi_dk Phí đăng ký
4 mo_ta Mô tả
5 nguon_dk Nguồn tổng hợp
C TIEUDUNG_TB TIÊU DÙNG THUÊ BAO
1 tkg_thoai_noimang tiêu dùng tkg thoại nội mạng
2 tkg_thoai_ngoaimang tiêu dùng tkg thoại ngoại mạng
3 tkg_thoai_quocte tiêu dùng tkg thoại quốc tế
4 tkg_sms_noimang tiêu dùng tkg sms nội mạng
5 tkg_sms_ngoaimang tiêu dùng tkg sms ngoại mạng
6 tkg_sms_quocte tiêu dùng tkg sms quốc tế
7 Khuyenmai_thoai Thoại tài khoản khuyến mại
8 Khuyenmai_sms SMS tài khoản khuyến mại
9 Dangky_vas Phí đăng ký gói VAS
10 Dangky_data Phí đăng ký gói DATA
11 Giahan_data Phí gia hạn gói DATA
12 muathem_data Phí mua thêm gói DATA
13 Luuluong_thoai_km Lưu lượng thoại khuyến mại
14 Luuluong_thoai_mienphi Lưu lượng thoại miễn phí
15 Luuluong_data Lưu lượng data
16 soLanNapThe Số lần nạp thẻ
17 SoTienNapThe Số tiền nạp thẻ
Bảng 3.2: Bảng dữ liệu thô trong viễn thơng
Dữ liệu được dùng để phân tích là các dịch vụ vas giá trị gia tăng, mục đích dựa vào các luật kết hợp để tìm ra những gói dịch vụ có mối liên hệ với nhau, thường được khách hàng mua kèm với nhau. Trong rất nhiều gói dịch vụ giá trị gia tăng của Viettel telecom đang cung cấp, có 7 gói dịch vụ vas đang được sử dụng phổ biến, vì vậy trong luận văn sẽ đi tìm luật kết hợp của 7 gói dịch vụ giá trị gia tăng tiêu biểu này.
STT Tên dịch vụ Mô tả
50
kênh truyền hình đa dạng, đặc sắc và luôn được cập nhật những bộ phim hot nhất hiện nay.
2 K+ (KPLUS) Truyền hình K+ phục vụ nhu cầu xem Thể thao
chất lượng cao, giúp bạn không bao giờ bỏ lỡ xem trực tiếp các trận bóng đá hay trong nước cũng như trên thế giới. Hình thức đăng ký:
Theo tháng: 305.000đ/tháng (tùy từng số kênh sử dụng)
3 IMUZIK Dịch vụ cài đặt tự động các bản nhạc chờ thịnh
hành trên máy người dùng, với chu kỳ 2 lần/tuần. Hình thức đăng ký:
• Theo ngày: 1.000đ/ngày
• Theo tuần: 2.500đ/ngày
• Theo tháng: 9.000đ/tháng
4 KEENG MOVIES Dịch vụ xem phim chất lượng cao, có bản quyền,
miễn phí 100% cước cập. Đây là kho phim lớn nhất của Viettel với các bộ phim hành động cũng như lãng mạn tình cảm nổi tiếng của Châu Á, Âu Mỹ. Hình thức đăng ký:
• Theo ngày: 10.000 đ/tuần
• Theo tháng: 50.000 đ/tháng
5 KEENG MUSIC Dịch vụ nghe/tải kho nhạc phong phú, đa dạng,
“hot trend” và đặc biệt miễn phí chất lượng cao sử dụng nền tảng 3G/4G trên mạng xã hội âm nhạc. Hình thức đăng ký:
• Theo tuần: 10.000đ/tuần.
6 ỨNG TIỀN Trong trường hợp khách hàng không đủ số dư tài
khoản gốc để phát sinh các cuộc gọi thì dịch vụ Ứng tiền sẽ tự động cộng thêm 1 số tiền từ 5000 đ – 15000đ vào tài khoản của bạn.
7 COLLECT CALL Collect call cho phép tuê bao của bạn khi không đủ
51
thực hiện cuộc gọi đến thuê bao khác, và lúc này người nghe sẽ trả tiền cho cuộc gọi đó.
Bảng 3.3: Bảng các dịch vụ GTGT của nhà mạng Viettel cung cấp 3.4 Tiền xử lý dữ liệu 3.4 Tiền xử lý dữ liệu
Dữ liệu dùng để phân tích trong trên nhiều nguồn dữ liệu khác nhau do đó cần chuẩn hóa các dữ liệu (loại bỏ các dữ liệu ngoại lai), gồm các bước thực hiện:
- Loại bỏ những giao dịch có bản ghi khơng đủ thơng tin.
- Xác định dữ liệu thuộc tính chính dùng để phân tích: Tuổi khách hàng, khu vực, lưu lượng data, các dịch vụ giá trị gia tăng đang phổ biến (TV360, K+, Keeng, Imuzik, Ứng tiền, collect call).
- Chuẩn hóa lại dữ liệu theo hướng phân tích:
o Tuổi khách hàng validate < 100 tuổi và > 0 tuổi
o Lưu lượng data > 0
o Chuẩn hóa dữ liệu khu vực: Nơng thơn, thành thị.
- Do dữ liệu thuộc tính “độ tuổi” và “lưu lượng data” là các giá trị liên tục nên để không sinh ra nhiều items (mặt hàng) khi chạy thuật toán Apriori (do khi có nhiều items sẽ khơng sinh được các tập mục thường xuyên thỏa mãn hoặc sinh các luật kết hợp khơng có ý nghĩa). Do đó, cần phải rời rạc hóa dữ liệu, cắt lớp theo khoảng với hai thuộc tính “độ tuổi” và “lưu lượng data” từ các giá trị liên tục về các khoảng ngưỡng phù hợp để phân tích.
o Theo nguồn dữ liệu mà bộ phận kinh doanh đang theo dõi hàng tháng, việc sử dụng thuê bao của nhà mạng đang được phân bố theo độ tuổi khách hàng như sau: