o Nhận xét:
▪ Khách hàng có độ tuổi <= 14 và > 70 tuổi tiêu dùng ít, từ 0 – 5k/tháng.
53
▪ Khách hàng từ 23 – 55 tuổi tiêu dùng gốc >= 50k/tháng. ▪ Khách hàng từ 56 – 70 tuổi tiêu dùng 5 – 20k/tháng.
o Vì vậy, dựa trên số liệu về tiêu dùng, cũng như việc triển khai hiệu quả các chính sách cho từng nhóm đối tượng nên chia tập khách hàng thành ba nhóm như sau:
▪ [15-23T) ▪ [23-56T) ▪ [56-71T)
- Cắt lớp thuộc tính “Lưu lượng data” về các khoảng dựa hiệu quả của chính sách các chương trình đã triển khai cho kinh doanh và dựa vào lưu lượng giới hạn của các gói data cung cấp cho thuê bao, khoảng lưu lượng data được phân bổ như sau:
o [0-2GB)
o [2-10GB)
o [10-max)
Dữ liệu dùng để thực nghiệm sau khi chuẩn hóa gồm các thuộc tính như sau:
Tên thuộc tính Ý nghĩa Giá trị
Tuoi_KH Tuổi khách hàng
Chia thành các khoảng: [15-23T)
[23-56T) [56-71T)
Khu_vuc Khu vực sinh sống
Chia thành 2 vùng: Thành thị
Nông thôn
LL_data
Lưu lượng data sử dụng hàng tháng
(đơn vị theo Gigabyte GB)
Chia thành các khoảng: [0-2GB) [2-10GB) [10-max) is_Tv360 Có mua đăng ký dùng dịch vụ TV360 khơng? Yes: Có mua No: Khơng mua is_K+
Có mua đăng ký dùng dịch vụ K+ khơng?
Yes: Có mua No: Khơng mua is_Keeng_Music
Có mua đăng ký dùng dịch vụ Keeng Music khơng?
Yes: Có mua No: Khơng mua is_Keeng_Movie
s
Có mua đăng ký dùng dịch vụ Keeng Movies khơng?
Yes: Có mua No: Khơng mua is_Imuzik
Có mua đăng ký dùng dịch vụ giải trí Imuzik khơng?
Yes: Có mua No: Không mua
54
Bảng 3.4: Bảng các thuộc tính dữ liệu thực nghiệm
Định dạng dữ liệu sau khi chuẩn hóa được lưu trữ trên một bảng trong CSDL.
Thue_bao Tuoi KH Khu_vuc LL data is_Keeng Music is_Keeng Movies Is
Imuzik is_TV360 is_K+ Is Ungtien
Is collectCall
++owzLYZ40blDgv/M9wYvQ== 24 Thanh_thi 1
Yes Yes Yes Yes Yes Yes Yes
++pfwnCqB64zWgviwrPFvQ== 30 Thanh_thi 2
Yes Yes Yes Yes Yes Yes Yes
++quFYS4KEIg7/z4XHB0bA== 60 Nong_thon 10
Yes Yes Yes Yes Yes Yes No
++rboIBZ94XkeKXEKSj2Ig== 15 Thanh_thi 15
No No Yes Yes Yes Yes No
++rboIBZ94XkeKXEKSj2Ig== 43 Nong_thon 20
No No No Yes Yes Yes Yes
++s7DbhwaBUq6PxNCbKE9g== 44 Nong_thon 1
No No No No No No Yes
++sdgUWOZtxVQyVBc9049Q== 56 Thanh_thi 2
Yes Yes Yes Yes Yes Yes No
+++Eg/M+p3zQF1/Ce0PwhQ== 24 Nong_thon 10
No No Yes Yes Yes Yes No
+++bznDwSkA4NKFVigimKw== 30 Thanh_thi 15
No Yes Yes Yes No No Yes
++0aXybsWfg5vwmpq4+ePQ== 60 Nong_thon 20
Yes Yes Yes Yes No No No
++0aj0noxaTR22KPJ0xY4A== 15 Nong_thon 1
Yes Yes Yes Yes No No No
++48/eStLyxRJ4MJ4bim5g== 24 Nong_thon 2
No Yes Yes Yes No No Yes
Bảng 3.5: Bảng dữ liệu thực nghiệm (do đảm bảo tính bảo mật nên thuê bao đã được
mã hóa):
3.5 Thực nghiệm và đánh giá 3.5.1 Môi trường thực nghiệm 3.5.1 Môi trường thực nghiệm
Thực nghiệm trên mơi trường máy tính có cấu hình như sau
STT Thiết bị Cấu hình
1 CPU Intel(R) Core(TM) i5-8400 CPU @ 2.80GHz 2.81
GH 2 RAM 16.0 GB 3 HDD - 256 GB - SSD (cài win) - 1TB - HDD (lưu trữ) Is collect call Có mua đăng ký dùng dịch vụ collect call không?
Yes: Có mua No: Khơng mua is Ung_tien
Có mua đăng ký dùng dịch vụ Ứng tiền khơng?
Yes: Có mua No: Không mua
55
4 OS Windows 10
Bảng 3.6: Bảng cấu hình mơi trường thực nghiệm
Luận văn thực hiện chạy thực nghiệm trên nhiều bộ dữ liệu khác nhau, với 2 tập dữ liệu như sau:
- Lần 1: Bộ dữ liệu có 59.210 giao dịch, được cắt theo các lớp về “tuổi khách
hàng”, “lưu lượng data sử dụng” và “khu vực sinh sống” của của các thuê bao có sử dụng đăng ký các dịch vụ giá trị gia tăng.
- Lần 2: Bộ dữ liệu có 2.081.488 giao dịch. Dữ liệu lớn hơn, sinh ra nhiều
luật kết hợp hơn lần 1.
Do việc xây dựng chương trình thực nghiệm trên nền tảng Hadoop cần tài ngun, do đó để kiểm nghiệm mơ hình thực nghiệm, trong luận văn tôi xây dựng một chương trình Java và sử dụng 2.081.488 dữ liệu giao dịch để mô tả sử dụng phương pháp khai phá luật kết hợp trong thuật toán. Khi chạy với số lượng dữ liệu lớn hơn có thể sử dụng mơ hình MapReduce chạy bằng Spark để giải quyết hiệu năng của thuật toán Apriori khi số lượng dữ liệu lớn và tăng trưởng.
Chương trình thực nghiệm được viết bằng ngôn ngữ Java (chạy trên jdk 1.8)
cài đặt dựa trên thuật tốn Apriori; chương trình bao gồm hai bước xử lý chính là “khai phá sinh luật kết hợp” và “lọc các luật kết hợp có nghĩa”.