Khai phá luật kết hợp trong kinh doanh viễn thông- 123docz.net

CHƯƠNG 2 : KHAI PHÁ DỮ LIỆU TRONG VIỄN THÔNG

2.4. Khai phá luật kết hợp trong kinh doanh viễn thông

Hiện nay việc quảng bá dịch vụ tới các thuê bao theo cách truyền thống sẽ tốn nhiều thời gian (do số lượng tập thuê bao nhiều), chi phí lớn, thời gian thực hiện lâu và hiệu quả khơng cao. Do đó để giảm thiểu chi phí và tăng hiệu quả, các nhà mạng áp dụng các công nghệ để khai phá dữ liệu, khai phá các luật kết hợp của thuê bao để tìm ra đúng tập thuê bao cần truyền thông. Một trong những thuật toán phổ biến được sử dụng để khai phá các luật kết hợp là thuật toán Apriori. Được sử dụng để khai phá dữ liệu sinh các luật kết hợp cho các bài tốn bán chéo dịch vụ, tìm sở thích của khách hàng, tăng sự hài lòng và trải nghiệm của khách hàng, tránh việc quảng bá tới các khách hàng khơng có nhu cầu gây phiền phức.

Trong nội dung của luận văn sẽ nghiên cứu việc khai phá luật kết hợp sử dụng thuật toán Apriori để tìm mối liên hệ giữa các dịch vụ và sở thích của khách hàng trong việc sử dụng các gói cước dịch vụ viễn thơng. Đồng thời việc tìm ra các quy luật sẽ giúp doanh nghiệp có thể đưa ra các quyết định trong kinh doanh và phục vụ đúng đối tượng khách hàng hơn.

Trong khai phá luật kết hợp, sẽ sinh ra các luật có thống kê như sau: “85% thuê bao có sử dụng dịch A thì sẽ sử dụng dịch vụ B” hoặc đưa ra các mối quan hệ như “tuổi, khu vực sinh sống, mức tiêu dùng => gói cước sử dụng”, những thơng tin này sẽ giúp rất nhiều cho các doanh nghiệp để đưa ra định hướng phát triển.

Giả sử có cơ sở dữ liệu về thuê bao sử dụng các dịch vụ gồm 5 thuộc tính như sau: X1, X2, X3, X4, X5.

Để khai phá luật kết hợp với cơ sở dữ liệu ở trên, cần phải xác định trước:

- Ngưỡng hỗ trợ tối thiểu (min support): min_sup

- Ngưỡng tin cậy tối thiểu (min confidence): min_conf

Để tìm tất cả các luật kết hợp dịch vụ như sau Xn -> Xm (Xn, Xm là thuộc tính của cơ sở dữ liệu thuê bao), cần phải thỏa mãn sup (Xn - > Xm) = sup (Xn  Xm) ≥

min_sup và conf (Xn -> Xm) ≥ min_conf. Trong đó:

𝑐𝑜𝑛𝑓 (Xn − > Xm) = 𝑠𝑢𝑝 (Xn ∪ Xm) 𝑠𝑢𝑝(Xn)

- Bước 1: Tìm tất cả tập mục thường xuyên thỏa mãn độ hỗ trợ tối thiểu cho

trước (min_sup). Giả sử có 4 giao dịch của thuê bao chứa các dịch vụ từ X1 -> X5 ở trên, với min_sup = 50%, tập mục thường xuyên sẽ được xác định như sau:

Hình 2.3: Xác định tập mục thường xuyên

• Tập mục {X4}, {X1,X2}, {X1,X5} khơng thường xun do có độ hỗ

trợ 10%.

• Do {X1,X2} và {X1,X5} là các tập mục khơng thường xun nên theo tính chất của Apriori các tập {X1,X2,X3} và {X1,X3,X5} cũng là tập

không thường xuyên, nên tập mục thường xuyên là {X2,X3,X5}.

- Bước 2: Sinh ra các luật kết hợp mạnh từ các tập mục thường xuyên thỏa

mãn độ tin cậy tối thiểu cho trước (min_conf).

Hình 2.4: Sinh các luật kết hợp

Các luật kết hợp được sinh ra như sau: {X2,X3}=>{X5}, {X2,X5}=>{X3}, {X3,X5}=>{X2}, {X2}=>{X3,X5}, {X5}=>{X2,X3}, {X3}=>{X2,X5}.

Do độ lớn của thuật toán Apriori là hàm mũ, nên để đảm bảo hiệu năng khi chạy với lượng dữ liệu lớn, có thể cài đặt thuật toán chạy theo mơ hình MapReduce. Các bước thực hiện xử lý dữ liệu theo mơ hình MapReduce như bên dưới:

Hình 2.5: MapReduce dữ liệu 1 – itemset

Khai phá luật kết hợp trong kinh doanh viễn thông

Mơ hình xử lý dữ liệu trên map-reduce

Vịng đời của thuê bao trả sau