Luận văn thực hiện chạy thực nghiệm trên nhiều bộ dữ liệu khác nhau, với 2 tập dữ liệu như sau:
- Lần 1: Bộ dữ liệu có 59.210 giao dịch, được cắt theo các lớp về “tuổi khách
hàng”, “lưu lượng data sử dụng” và “khu vực sinh sống” của của các thuê bao có sử dụng đăng ký các dịch vụ giá trị gia tăng.
- Lần 2: Bộ dữ liệu có 2.081.488 giao dịch. Dữ liệu lớn hơn, sinh ra nhiều
luật kết hợp hơn lần 1.
Do việc xây dựng chương trình thực nghiệm trên nền tảng Hadoop cần tài ngun, do đó để kiểm nghiệm mơ hình thực nghiệm, trong luận văn tơi xây dựng một chương trình Java và sử dụng 2.081.488 dữ liệu giao dịch để mô tả sử dụng phương pháp khai phá luật kết hợp trong thuật toán. Khi chạy với số lượng dữ liệu lớn hơn có thể sử dụng mơ hình MapReduce chạy bằng Spark để giải quyết hiệu năng của thuật toán Apriori khi số lượng dữ liệu lớn và tăng trưởng.
Chương trình thực nghiệm được viết bằng ngôn ngữ Java (chạy trên jdk 1.8)
cài đặt dựa trên thuật tốn Apriori; chương trình bao gồm hai bước xử lý chính là “khai phá sinh luật kết hợp” và “lọc các luật kết hợp có nghĩa”.
Hình 3.4: Chương trình thực nghiệm 3.5.2 Dữ liệu thực nghiệm 3.5.2 Dữ liệu thực nghiệm
Dữ liệu thực nghiệm được xuất ra từ bảng trong cơ sở dữ liệu ra file có định dạng .csv.
Một vài thống kê trên tập dữ liệu 2.081.488 giao dịch thực nghiệm như sau:
- Theo độ tuổi khách hàng Tuổi khách hàng Số bản ghi [15-23) 714,484 [23-56) 749,386
56
[56-71)
617,618