Danh sách luật kết hợp có nghĩa

3.5.4 Sinh luật kết hợp

Để xác định ngưỡng cấu hình “độ hỗ trợ” và “độ tin cậy” của thuật tốn Apriori phù hợp, trong bài tốn tìm sở thích của khách hàng trên các sản phẩm dịch vụ, thực hiện thực nghiệm chạy chương trình sinh luật kết hợp trên bộ dữ liệu nhiều lần, thay đổi nhiều giá trị các ngưỡng khác nhau được kết quả thống kê sau:

Hình 3.11: Xác định ngưỡng độ hỗ trợ và tin cậy

o Nếu ngưỡng hỗ trợ từ 0.4 – 0.5 (40% - 50%): Không sinh ra

được tập luật kết hợp nào, do đó khơng thể chọn giá trị này.

o Nếu ngưỡng hỗ trợ 0.3 (30%): Tạo ra được rất ít luật kết hợp

(từ 12 - 40 luật), nếu độ tin cậy càng cao thì số lượng luật kết hợp sinh ra càng ít.

o Nếu ngưỡng hỗ trợ 0.1 – 0.2 (10% - 20%): Tạo ra được số luật

kết hợp gần bằng nhau, tuy nhiên với độ hỗ trợ 0.2 thì thời gian thực hiện sẽ nhanh hơn độ hỗ trợ 0.1 do số lần quét xử lý của độ hỗ trợ 0.1 nhiều lần hơn.

 Do đó ta chọn ngưỡng hỗ trợ 0.2 (20%)

o Chọn độ tin cậy 0.7 sinh ra nhiều luật kết hợp khoảng 700 – 800 luật

o Chọn độ tin cậy 0.8 sinh ra khoảng 500 – 600 luật

o Chọn độ tin cậy 0.9 (độ tin cậy cao) sinh ra số luật ít khoảng 200 – 300

 Do đó trong luận văn sẽ chọn ngưỡng độ hỗ trợ 0.2 và độ tin cậy 0.8 phù hợp với số luật sinh ra để phân tích.

Thiết lập các thơng số cấu hình đầu vào khi chạy thuật tốn Apriori cho các luật kết hợp khi chạy dữ liệu tìm sở thích của khách hàng như sau:

STT Cấu hình Giá trị ngưỡng

1 Min support (độ hỗ trợ) 20 %

2 Min confidence (độ tin cậy) 80%

Bảng 3.9: Bảng cấu hình tham số thực nghiệm thuật tốn Apriori

Sau khi cấu hình tham số độ hỗ trợ, độ tin cậy, chọn file dữ liệu về giao dịch, chạy chương trình thực nghiệm, q trình tính tốn xử lý gồm có 2 bước:

Bước 1: Sinh danh sách các luật kết hợp mạnh

o Tổng số giao dịch xử lý: 2.081.488.

o Số bước tìm kiếm tập mục thường xuyên: 6

o Số luật kết hợp tìm được: 544 luật kết hợp.

o File dữ liệu các luật kết hợp được lưu cùng thư mục đầu vào: Result/result.txt

Hình 3.12: Kết quả khai phá luật kết hợp Bước 2: Lọc danh sách các luật có ý nghĩa Bước 2: Lọc danh sách các luật có ý nghĩa

o Từ danh sách các luật kết hợp ở bước 1; thực hiện lọc các luật khơng có ý nghĩa nếu các luật sinh ra có chứa thơng tin khách hàng (khu vực, độ tuổi, lưu lượng sử dụng data).

o Tổng số luật kết hợp cần lọc: 544

o Số luật có ý nghĩa: 116

o Số luật loại bỏ: 428

3.5.5 Kết quả và đánh giá thực nghiệm

Sau khi chạy thuật tốn Apriori trên chương trình thực nghiệm (với độ hỗ trợ 20% và độ tin cậy 80%) trên bộ dữ liệu dịch vụ viễn thơng, chương trình sinh ra được

544 luật kết hợp.

Do luận văn đặt trọng tâm vào tìm sở thích của khách hàng khi sử dụng các dịch vụ sản phẩm trong viễn thơng, nên mục tiêu của chương trình đi tìm các luật có nghĩa; các luật có nghĩa là các luật thỏa mãn tìm được sở thích của khách hàng, cịn các luật khác khơng có nhiều ý nghĩa trong tìm sở thích của khách hàng thì phần thực nghiệm sẽ lọc và ẩn đi.

Do vậy, trong 544 luật kết hợp tìm được khi thực nghiệm, khi qua quá trình lọc các luật kết hợp, với các thuộc tính sau khi kết hợp khơng phải là các sản phẩm mặt hàng dịch vụ giá trị gia tăng thì sẽ được coi là các luật khơng có nhiều ý nghĩa và sẽ bị loại bỏ.

a. Các luật kết hợp loại bỏ không dùng

- Số lượng luật loại bỏ khơng dùng: 428 (Trong kết quả tìm được có chứa thơng tin khách hàng như: Khu vực, độ tuổi, lưu lượng sử dụng).

- Do sử dụng tất cả 10 thuộc tính ở trên để khai phá luật kết hợp, trong khi đó mỗi thuộc tính lại được cắt lớp thành nhiều giá trị. Vì vậy số lượng luật kết hợp mạnh được tìm thấy thỏa mãn sẽ có nhiều, trong đó sẽ có nhiều luật khơng mang nhiều ý nghĩa hoặc dư thừa.

o Luật kết hợp THỪA, chỉ kết hợp ít thuộc tính mặt hàng (2 hoặc 3 thuộc tính) để sinh ra 1 luật kết hợp khơng có nhiều ý nghĩa, mang lại sự hài lòng cho khách hàng như:

{is_Ungtien=Yes} (15295) ==> {Tuoi_KH=[56-71T)} [ ho_tro = 25% | tin_cay = 96% ]

o Sinh ra nhiều luật kết hợp vô nghĩa như:

{Tuoi_KH=[15-23T)} (23958) ==> {Khu_vuc=Thanh_thi} [ ho_tro = 39% |

tin_cay = 96% ]

- Do đó, cần lọc bỏ các luật này này và chỉ giữ lại những luật kết hợp nhiều thuộc tính có ý nghĩa.

b. Các luật kết hợp “có nghĩa”

- Do yêu cầu mong muốn tìm sở thích của khách hàng, nên sẽ lọc các luật kết hợp có vế phải là các thuộc tính (khu vực, độ tuổi, mức lưu lượng data sử dụng) và vế trái có các thuộc tính là các gói cước giá trị gia tăng.

- Số lượng luật kết hợp có nghĩa: 116 luật (Trong kết quả tìm được các dịch vụ mặt hàng giá trị gia tăng).

o Số luật chứa thông tin lưu lượng data: 67 luật.

o Số luật chứa thông tin độ tuổi khách hàng: 73 luật.

Hình 3.13: Các luật kết hợp có nghĩa

Hình 3.15: Các luật kết hợp có nghĩa theo khu vực

Hình 3.17: Phân bố độ tin cậy và độ hỗ trợ

- Nhìn vào biểu đồ ở trên, phân tích sự phân bố độ tin cậy và độ hỗ trợ của 116 luật có ý nghĩa, chúng ta sẽ thấy thấy độ tin cậy của tập luật này chủ yếu tập trung vào khoảng 0.8 - 0.85, độ hỗ trợ rơi chủ yếu tập trung vào khoảng: 0.2 – 0.25.

- Ngoài ra đường xu hướng (màu ghi xám) có chiều hướng đi xuống, tức là độ tin cây và độ hỗ trợ có xu hướng nghịch biến với nhau. Lúc này, giá trị của độ tin cậy càng cao thì độ hỗ trợ càng thấp và ngược lại.

- Trong dữ liệu sử dụng để thực nghiệm sau khi chạy thuật toán Apriori để sinh các luật kết hợp đã lọc các luật thừa, gây nhiễu. Xét phân tích 10 luật đầu tiên có độ tin cậy cao và “có ý nghĩa” như sau:

ST T Thuộc tính Kết quả Hỗ trợ Tin cậy 1 {Khu_vuc=Thanh_thi,LL_data=[2- 10GB),Tuoi_KH=[15- 23T),is_Keeng_Music=Yes} (540038) {is_Imuzik=Yes} (477460) 23% 88% 2 {Khu_vuc=Nong_thon,LL_data=[0- 2GB),Tuoi_KH=[56-71T),is_Ungtien=Yes} (492660) {is_Collect_call=Y es} (434933) 21% 88% 3 {Khu_vuc=Nong_thon,LL_data=[0- 2GB),is_Ungtien=Yes} (492660) {is_Collect_call=Y es} (434933) 21% 88% 4 {Khu_vuc=Thanh_thi,LL_data=[2- 10GB),Tuoi_KH=[15- 23T),is_Keeng_Movies=Yes,is_Keeng_Musi c=Yes} (472594) {is_Imuzik=Yes} (416792) 20% 88% 5 {LL_data=[2-10GB),Tuoi_KH=[15- 23T),is_Keeng_Movies=Yes,is_Keeng_Musi {is_Imuzik=Yes} (416792) 20% 88%

66 c=Yes} (472821) 6 {Khu_vuc=Thanh_thi,LL_data=[2- 10GB),Tuoi_KH=[15- 23T),is_Keeng_Movies=Yes} (550382) {is_Imuzik=Yes} (485151) 23% 88% 7 {Khu_vuc=Thanh_thi,LL_data=[10GB- max),Tuoi_KH=[23-56T),is_K+=Yes} (474132) {is_TV360=Yes} (417468) 20% 88% 8 {Khu_vuc=Thanh_thi,Tuoi_KH=[15- 23T),is_Keeng_Music=Yes} (552640) {is_Imuzik=Yes} (486129) 23% 88% 9 {Khu_vuc=Thanh_thi,LL_data=[10GB- max),is_TV360=Yes} (475236) {is_K+=Yes} (417468) 20% 88% 10 {Khu_vuc=Thanh_thi,LL_data=[10GB- max),Tuoi_KH=[23-56T),is_TV360=Yes} (475236) {is_K+=Yes} (417468) 20% 88%

Bảng 3.10: Các luật kết hợp có nghĩa với độ tin cậy cao a. Luật kết hợp 1: TV360, K+ a. Luật kết hợp 1: TV360, K+

T Thuộc tính Kết quả Hỗ trợ Tin cậy

7 {Khu_vuc=Thanh_thi,LL_data=[10G B-max),Tuoi_KH=[23- 56T),is_K+=Yes} (474132) {is_TV360=Yes} (417468) 20% 88% 10 {Khu_vuc=Thanh_thi,LL_data=[10G B-max),Tuoi_KH=[23- 56T),is_TV360=Yes} (475236) {is_K+=Yes} (417468) 20% 88% Bảng 3.11: Bảng kết quả luật kết hợp 1 Phân tích: Với nhóm tập khách hàng có các thuộc tính:

o Tập khách hàng có trong độ tuổi lao động (đi làm) từ 23 đến 56.

o Tập trung chủ yếu khu vực thành thị.

o Lưu lượng data sử dụng hàng tháng ở ngưỡng cao

>=10GB/tháng.

o Có sử dụng gói tiện ích dịch vụ TV360 (xem tivi trực tuyến) hoặc đang dùng K+ (xem bóng đá thể thao)

Nhóm khách hàng có các thuộc tính trên đang chiếm 20% (417.468/2.081.488) trong tổng số các giao dịch thực hiện và có độ tin cậy 88% (417.468/475.236) các khách hàng có sử dụng dịch vụ truyền hình “K+”. Nghĩa là 88% trong các khách hàng đang sử dụng dịch vụ TV360, có sử dụng lưu lượng data cao, tập trung ở khu vực thành thị sẽ đăng ký sử dụng dịch vụ truyền hình K+ để xem các giải bóng đá độc quyền trong và ngoài nước.

Đánh giá: Đây là tập khách hàng có nhu cầu dùng các gói về giải trí dịch vụ

truyền hình trực tuyến, phim truyện, bóng đá, các kênh thể thao. Nếu áp dụng chiến dịch truyền thông ưu đãi các gói K+ và TV360 qua các kênh như sms, happy call, telesale, cho nhóm khách hàng có đặc điểm: Độ tuổi từ 23-56, sinh sống chủ yếu ở khu vực thành thị, có lưu lượng data sử dụng hàng tháng ở ngưỡng cao hơn 10GB và có đăng ký sử dụng dịch vụ TV360, sẽ có xu hướng sử dụng thêm dịch vụ K+ để giải trí thư giãn ngồi giờ lao động.

b. Luật kết hợp 2: Ungtien, Collect_data

T Thuộc tính Kết quả Hỗ trợ Tin cậy

2 {Khu_vuc=Nong_thon,LL_data=[0 -2GB),Tuoi_KH=[56- 71T),is_Ungtien=Yes} (492660) {is_Collect_call=Yes } (434933) 21% 88% 3 {Khu_vuc=Nong_thon,LL_data=[0 -2GB),is_Ungtien=Yes} (492660) {is_Collect_call=Yes } (434933) 21% 88% Bảng 3.12: Bảng kết quả luật kết hợp 2 Phân tích: Với Nhóm tập khách hàng có các thuộc tính:

o Tập khách hàng có độ tuổi cao từ 56T trở lên.

o Tập trung chủ yếu khu vực nông thôn.

o Lưu lượng data sử dụng hàng tháng ở mức ngưỡng thấp 0G đến 2GB.

o Có sử dụng gói tiện ích dịch vụ Ứng tiền.

Nhóm khách hàng có các thuộc tính trên đang chiếm 21% (434.933/2.081.488) trong tổng số các giao dịch thực hiện và có độ tin cậy 88% (434.933/492.660), tập khách hàng có xu hướng sử dụng thêm dịch vụ collect call (người nghe trả tiền). Nghĩa là các khách hàng có độ tuổi cao và đã sử dụng dịch vụ “ứng tiền” thì có đến 88% đăng ký thêm dịch vụ người nghe trả tiền.

Đánh giá: Đây là tập khách hàng nhiều tuổi, tập trung ở khu vực nông thôn,

nhu cầu sử dụng các dịch vụ giải trí, trực tuyến cần lưu lượng trên các thiết bị điện thoại ít, khơng có nhu cầu sử dụng lưu lượng data hàng tháng thấp, có sử dụng các dịch vụ giá trị gia tăng cơ bản của nhà mạng với phí đăng ký thấp hoặc miễn phí như “Ứng tiền” khi tài khoản gốc khơng đủ và có xu hướng đăng ký dịch vụ người nghe trả tiền trong một số tình huống. Có thể truyền thơng quảng bá đăng ký 2 dịch vụ “ứng tiền” và “collect call” đến nhóm khách hàng có độ tuổi cao, khu vực sinh sống ở nơng thơn và có lưu lượng sử dụng data thấp.

c. Luật kết hợp 3: Keeng_Music, Keeng_Movies, Imuzik

ST T Thuộc tính Kết quả Hỗ trợ Tin cậy 1 {Khu_vuc=Thanh_thi,LL_data=[2- 10GB),Tuoi_KH=[15- 23T),is_Keeng_Music=Yes} (540038) {is_Imuzik=Ye s} (477460) 23% 88% 5 {LL_data=[2-10GB),Tuoi_KH=[15- 23T),is_Keeng_Movies=Yes,is_Keeng_Music =Yes} (472821) {is_Imuzik=Ye s} (416792) 20% 88% 6 {Khu_vuc=Thanh_thi,LL_data=[2- 10GB),Tuoi_KH=[15- 23T),is_Keeng_Movies=Yes} (550382) {is_Imuzik=Ye s} (485151) 23% 88% Bảng 3.13: Bảng kết quả luật kết hợp 3 Phân tích: Với tập nhóm khách hàng có các thuộc tính:

o Thuộc độ tuổi học sinh sinh viên có độ tuổi nhỏ hơn hoặc bằng 22.

o Tập trung chủ yếu khu vực thành thị.

o Lưu lượng data sử dụng hàng tháng ở ngưỡng trung bình 2- 10GB.

o Có đang sử dụng gói tiện ích dịch vụ Keeng_Music, Keeng_Movies

Nhóm khách hàng có 4 thuộc tính trên đang chiếm 20% - 23% trong tổng số các giao dịch thực hiện và có độ tin cậy 88% các khách hàng sử dụng dịch vụ nhạc chờ “Imuzik (CRBT)”. Nghĩa là các khách hàng ở nhóm độ tuổi trẻ, sinh sống ở khu vực thành thị, đã đăng ký sử dụng các dịch vụ về các gói Keeng_Music và Keeng_Movies thì có đến 88% sẽ đăng ký thêm dịch vụ Imuzik (nhạc chuông, nhạc chờ).

Đánh giá: Tập này là tập khách hàng trẻ năng động, học sinh, sinh viên, có

đăng ký sử dụng các gói lưu lượng data ở mức trung bình từ 2GB – 10GB (chưa tự chủ về tài chính), có đăng ký sử dụng các dịch vụ nghe nhạc, xem phim thì có xu hướng sẽ đăng ký thêm dịch vụ nhạc chng, nhạc chờ. Qua đó doanh nghiệp có thể quảng bá các dịch vụ nghe nhạc trực tuyến, nhạc chng nhạc chờ tới các nhóm khách hàng trẻ tuổi, sinh sống ở thành thị.

Sau khi sử dụng các luật kết hợp tìm được khi chạy chương trình phân tích khai phá dữ liệu, nhà mạng có thể đưa ra các chiến dịch quảng bá mời các khách hàng sử dụng các dịch vụ giá trị gia tăng theo các đối tượng có nhóm độ tuổi, khu vực sinh sống và lưu lượng sử dụng data; mỗi nhóm đối tượng đang sử dụng các dịch vụ giá trị gia tăng có thể mời để bán chéo các sản phẩm giá trị gia tăng khác.

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

Luận văn trình bày những nội dung liên quan đến Big Data. Luận văn cũng cho thấy rõ được sự cần thiết của Big Data trong việc áp dụng vào các bài toán trong kinh doanh viễn thơng.

Nắm vững và áp dụng những thuật tốn luật kết hợp phục vụ cho việc phân tích và mang lại giá trị của Big Data. Sử dụng thuật toán Apriori áp dụng các luật kết hợp để tìm ra sở thích, nhu cầu của khách hàng, nhằm tăng lợi nhuận, doanh thu hỗ trợ ra các quyết định cho các doanh nghiệp viễn thơng đang có số lượng phát triển thuê bao bão hòa.

Do thời gian còn hạn chế nên trong luận văn chỉ sử dụng một số lượng giao dịch giới hạn, để mơ tả q trình thực nghiệm sử dụng phương pháp khai phá các luật kết hợp của thuật toán Apriori.

Hướng phát triển tiếp theo của luận văn, xây dựng chương trình chạy thuật tốn Apriori trên nền tảng hadoop và các công nghệ xử lý dữ liệu lớn như spark, sử dụng mơ hình mapReduce để xử lý dữ liệu phân tán song song, cải tiến hiệu năng của thuật toán đáp ứng khối lượng dữ liệu lớn và sự tăng trưởng dữ liệu.

DANH MỤC TÀI LIỆU THAM KHẢO

1. Fact sheet: Big Data across the federal government (2012).

http://www.whitehouse.gov/sites/default/files/microsites/ostp/big data fact sheet 3 29 2 012.pdf

2. Cukier K. (2010). Data everywhere: A special report on managing information. Economist Newspaper

3. Drowning in numbers-digital data will flood the planet-and help us understand it better (2011).

http://www.economist.com/blogs/dailychart/2011/11/bigdata-0 4. Lohr S.(2012). The age of Big Data. New York Times, p11

5. Yuki N. (2011). Following digital breadcrumbs to big data gold.

http://www.npr.org/2011/11/29/142521910/thedigitalbreadcrumbs-that-lead-to-big-data 6. Yuki N. (2011). The search for analysts to make sense of big data.

http://www.npr.org/2011/11/30/142893065/the-searchforanalysts-to-make-sense-of- big-data

7. Big Data (2008).http//www.nature.com/news/specials/bigdata/index.html 8. Special online collection: dealing with Big Data (2011). http://www.sciencemag.org/site/special/data/

9. Manyika J., McKinsey Global Institute, Chui M., Brown B., Bughin J., Dobbs R., Roxburgh C., Byers AH. (2011). Big Data: the next frontier for innovation,

competition, and productivity. McKinsey Global Institute

10. Agrawal, R., Imielinski, T., and Swami, A. N. Mining association rules between sets of items in large databases. In Proceedings of the 1993 ACM

SIGMOD International Conference on Management of Data.

11. Tianyuan, Z. (2018). Telecom customer segmentation and precise package design by using data mining (Doctoral dissertation).

12. Wu, W., Liu, Z., & He, Y. (2015). Classification of defects with ensemble methods in the automated visual inspection of sewer pipes. Pattern

Analysis and Applications.

13. Wang, Y., Sanguansintukul, S., & Lursinsap, C. (2008, September).

4th IEEE International Conference on Management of Innovation and Technology. IEEE.

14. van Wezel, Michiel, and Rob Potharst. Improved customer choice predictions using ensemble methods. European Journal of Operational Research

181.1 (2007).

15. Jony, R. I., Habib, A., Mohammed, N., & Rony, R. I. (2015, December). Big data use case domains for telecom operators. In 2015 IEEE

International Conference on Smart City/SocialCom/SustainCom (SmartCity). IEEE.

Mơ hình xử lý dữ liệu trên map-reduce

Vịng đời của thuê bao trả sau