Biểu đồ tiêu dùng và theo độ tuổi

Một phần của tài liệu Sử dụng phương pháp khai phá các luật kết hợp xử lý trong big data để tìm sở thích của khách hàng trong doanh nghiệp (Trang 52 - 55)

o Nhận xét:

▪ Khách hàng có độ tuổi <= 14 và > 70 tuổi tiêu dùng ít, từ 0 – 5k/tháng.

53

▪ Khách hàng từ 23 – 55 tuổi tiêu dùng gốc >= 50k/tháng. ▪ Khách hàng từ 56 – 70 tuổi tiêu dùng 5 – 20k/tháng.

o Vì vậy, dựa trên số liệu về tiêu dùng, cũng như việc triển khai hiệu quả các chính sách cho từng nhóm đối tượng nên chia tập khách hàng thành ba nhóm như sau:

▪ [15-23T) ▪ [23-56T) ▪ [56-71T)

- Cắt lớp thuộc tính “Lưu lượng data” về các khoảng dựa hiệu quả của chính sách các chương trình đã triển khai cho kinh doanh và dựa vào lưu lượng giới hạn của các gói data cung cấp cho thuê bao, khoảng lưu lượng data được phân bổ như sau:

o [0-2GB)

o [2-10GB)

o [10-max)

Dữ liệu dùng để thực nghiệm sau khi chuẩn hóa gồm các thuộc tính như sau:

Tên thuộc tính Ý nghĩa Giá trị

Tuoi_KH Tuổi khách hàng

Chia thành các khoảng: [15-23T)

[23-56T) [56-71T)

Khu_vuc Khu vực sinh sống

Chia thành 2 vùng: Thành thị

Nông thôn

LL_data

Lưu lượng data sử dụng hàng tháng

(đơn vị theo Gigabyte GB)

Chia thành các khoảng: [0-2GB) [2-10GB) [10-max) is_Tv360 Có mua đăng ký dùng dịch vụ TV360 khơng? Yes: Có mua No: Khơng mua is_K+

Có mua đăng ký dùng dịch vụ K+ khơng?

Yes: Có mua No: Khơng mua is_Keeng_Music

Có mua đăng ký dùng dịch vụ Keeng Music khơng?

Yes: Có mua No: Khơng mua is_Keeng_Movie

s

Có mua đăng ký dùng dịch vụ Keeng Movies khơng?

Yes: Có mua No: Khơng mua is_Imuzik

Có mua đăng ký dùng dịch vụ giải trí Imuzik khơng?

Yes: Có mua No: Không mua (adsbygoogle = window.adsbygoogle || []).push({});

54

Bảng 3.4: Bảng các thuộc tính dữ liệu thực nghiệm

Định dạng dữ liệu sau khi chuẩn hóa được lưu trữ trên một bảng trong CSDL.

Thue_bao Tuoi KH Khu_vuc LL data is_Keeng Music is_Keeng Movies Is

Imuzik is_TV360 is_K+ Is Ungtien

Is collectCall

++owzLYZ40blDgv/M9wYvQ== 24 Thanh_thi 1

Yes Yes Yes Yes Yes Yes Yes

++pfwnCqB64zWgviwrPFvQ== 30 Thanh_thi 2

Yes Yes Yes Yes Yes Yes Yes

++quFYS4KEIg7/z4XHB0bA== 60 Nong_thon 10

Yes Yes Yes Yes Yes Yes No

++rboIBZ94XkeKXEKSj2Ig== 15 Thanh_thi 15

No No Yes Yes Yes Yes No

++rboIBZ94XkeKXEKSj2Ig== 43 Nong_thon 20

No No No Yes Yes Yes Yes

++s7DbhwaBUq6PxNCbKE9g== 44 Nong_thon 1

No No No No No No Yes

++sdgUWOZtxVQyVBc9049Q== 56 Thanh_thi 2

Yes Yes Yes Yes Yes Yes No

+++Eg/M+p3zQF1/Ce0PwhQ== 24 Nong_thon 10

No No Yes Yes Yes Yes No

+++bznDwSkA4NKFVigimKw== 30 Thanh_thi 15

No Yes Yes Yes No No Yes

++0aXybsWfg5vwmpq4+ePQ== 60 Nong_thon 20

Yes Yes Yes Yes No No No

++0aj0noxaTR22KPJ0xY4A== 15 Nong_thon 1

Yes Yes Yes Yes No No No

++48/eStLyxRJ4MJ4bim5g== 24 Nong_thon 2

No Yes Yes Yes No No Yes (adsbygoogle = window.adsbygoogle || []).push({});

Bảng 3.5: Bảng dữ liệu thực nghiệm (do đảm bảo tính bảo mật nên thuê bao đã được

mã hóa):

3.5 Thực nghiệm và đánh giá 3.5.1 Môi trường thực nghiệm 3.5.1 Môi trường thực nghiệm

Thực nghiệm trên mơi trường máy tính có cấu hình như sau

STT Thiết bị Cấu hình

1 CPU Intel(R) Core(TM) i5-8400 CPU @ 2.80GHz 2.81

GH 2 RAM 16.0 GB 3 HDD - 256 GB - SSD (cài win) - 1TB - HDD (lưu trữ) Is collect call Có mua đăng ký dùng dịch vụ collect call không?

Yes: Có mua No: Khơng mua is Ung_tien

Có mua đăng ký dùng dịch vụ Ứng tiền khơng?

Yes: Có mua No: Không mua

55

4 OS Windows 10

Bảng 3.6: Bảng cấu hình mơi trường thực nghiệm

Luận văn thực hiện chạy thực nghiệm trên nhiều bộ dữ liệu khác nhau, với 2 tập dữ liệu như sau:

- Lần 1: Bộ dữ liệu có 59.210 giao dịch, được cắt theo các lớp về “tuổi khách

hàng”, “lưu lượng data sử dụng” và “khu vực sinh sống” của của các thuê bao có sử dụng đăng ký các dịch vụ giá trị gia tăng.

- Lần 2: Bộ dữ liệu có 2.081.488 giao dịch. Dữ liệu lớn hơn, sinh ra nhiều

luật kết hợp hơn lần 1.

Do việc xây dựng chương trình thực nghiệm trên nền tảng Hadoop cần tài ngun, do đó để kiểm nghiệm mơ hình thực nghiệm, trong luận văn tôi xây dựng một chương trình Java và sử dụng 2.081.488 dữ liệu giao dịch để mô tả sử dụng phương pháp khai phá luật kết hợp trong thuật toán. Khi chạy với số lượng dữ liệu lớn hơn có thể sử dụng mơ hình MapReduce chạy bằng Spark để giải quyết hiệu năng của thuật toán Apriori khi số lượng dữ liệu lớn và tăng trưởng.

Chương trình thực nghiệm được viết bằng ngôn ngữ Java (chạy trên jdk 1.8)

cài đặt dựa trên thuật tốn Apriori; chương trình bao gồm hai bước xử lý chính là “khai phá sinh luật kết hợp” và “lọc các luật kết hợp có nghĩa”.

Một phần của tài liệu Sử dụng phương pháp khai phá các luật kết hợp xử lý trong big data để tìm sở thích của khách hàng trong doanh nghiệp (Trang 52 - 55)