Khai phá luật kết hợp trong kinh doanh viễn thông

Một phần của tài liệu Sử dụng phương pháp khai phá các luật kết hợp xử lý trong big data để tìm sở thích của khách hàng trong doanh nghiệp (Trang 43 - 46)

CHƯƠNG 2 : KHAI PHÁ DỮ LIỆU TRONG VIỄN THÔNG

2.4. Khai phá luật kết hợp trong kinh doanh viễn thông

Hiện nay việc quảng bá dịch vụ tới các thuê bao theo cách truyền thống sẽ tốn nhiều thời gian (do số lượng tập thuê bao nhiều), chi phí lớn, thời gian thực hiện lâu và hiệu quả khơng cao. Do đó để giảm thiểu chi phí và tăng hiệu quả, các nhà mạng áp dụng các công nghệ để khai phá dữ liệu, khai phá các luật kết hợp của thuê bao để tìm ra đúng tập thuê bao cần truyền thông. Một trong những thuật toán phổ biến được sử dụng để khai phá các luật kết hợp là thuật toán Apriori. Được sử dụng để khai phá dữ liệu sinh các luật kết hợp cho các bài tốn bán chéo dịch vụ, tìm sở thích của khách hàng, tăng sự hài lòng và trải nghiệm của khách hàng, tránh việc quảng bá tới các khách hàng khơng có nhu cầu gây phiền phức.

Trong nội dung của luận văn sẽ nghiên cứu việc khai phá luật kết hợp sử dụng thuật toán Apriori để tìm mối liên hệ giữa các dịch vụ và sở thích của khách hàng trong việc sử dụng các gói cước dịch vụ viễn thơng. Đồng thời việc tìm ra các quy luật sẽ giúp doanh nghiệp có thể đưa ra các quyết định trong kinh doanh và phục vụ đúng đối tượng khách hàng hơn.

Trong khai phá luật kết hợp, sẽ sinh ra các luật có thống kê như sau: “85% thuê bao có sử dụng dịch A thì sẽ sử dụng dịch vụ B” hoặc đưa ra các mối quan hệ như “tuổi, khu vực sinh sống, mức tiêu dùng => gói cước sử dụng”, những thơng tin này sẽ giúp rất nhiều cho các doanh nghiệp để đưa ra định hướng phát triển.

Giả sử có cơ sở dữ liệu về thuê bao sử dụng các dịch vụ gồm 5 thuộc tính như sau: X1, X2, X3, X4, X5.

Để khai phá luật kết hợp với cơ sở dữ liệu ở trên, cần phải xác định trước:

- Ngưỡng hỗ trợ tối thiểu (min support): min_sup

- Ngưỡng tin cậy tối thiểu (min confidence): min_conf

Để tìm tất cả các luật kết hợp dịch vụ như sau Xn -> Xm (Xn, Xm là thuộc tính của cơ sở dữ liệu thuê bao), cần phải thỏa mãn sup (Xn - > Xm) = sup (Xn  Xm) ≥

min_sup và conf (Xn -> Xm) ≥ min_conf. Trong đó:

𝑐𝑜𝑛𝑓 (Xn − > Xm) = 𝑠𝑢𝑝 (Xn ∪ Xm) 𝑠𝑢𝑝(Xn)

44

- Bước 1: Tìm tất cả tập mục thường xuyên thỏa mãn độ hỗ trợ tối thiểu cho

trước (min_sup). Giả sử có 4 giao dịch của thuê bao chứa các dịch vụ từ X1 -> X5 ở trên, với min_sup = 50%, tập mục thường xuyên sẽ được xác định như sau:

Hình 2.3: Xác định tập mục thường xuyên

• Tập mục {X4}, {X1,X2}, {X1,X5} khơng thường xun do có độ hỗ

trợ 10%.

• Do {X1,X2} và {X1,X5} là các tập mục khơng thường xun nên theo tính chất của Apriori các tập {X1,X2,X3} và {X1,X3,X5} cũng là tập

không thường xuyên, nên tập mục thường xuyên là {X2,X3,X5}.

- Bước 2: Sinh ra các luật kết hợp mạnh từ các tập mục thường xuyên thỏa

mãn độ tin cậy tối thiểu cho trước (min_conf).

Hình 2.4: Sinh các luật kết hợp

Các luật kết hợp được sinh ra như sau: {X2,X3}=>{X5}, {X2,X5}=>{X3}, {X3,X5}=>{X2}, {X2}=>{X3,X5}, {X5}=>{X2,X3}, {X3}=>{X2,X5}.

45

Do độ lớn của thuật toán Apriori là hàm mũ, nên để đảm bảo hiệu năng khi chạy với lượng dữ liệu lớn, có thể cài đặt thuật toán chạy theo mơ hình MapReduce. Các bước thực hiện xử lý dữ liệu theo mơ hình MapReduce như bên dưới:

Hình 2.5: MapReduce dữ liệu 1 – itemset

46

Một phần của tài liệu Sử dụng phương pháp khai phá các luật kết hợp xử lý trong big data để tìm sở thích của khách hàng trong doanh nghiệp (Trang 43 - 46)