a. Luật kết hợp 1: TV360, K+
ST
T Thuộc tính Kết quả Hỗ trợ Tin cậy
7 {Khu_vuc=Thanh_thi,LL_data=[10G B-max),Tuoi_KH=[23- 56T),is_K+=Yes} (474132) {is_TV360=Yes} (417468) 20% 88% 10 {Khu_vuc=Thanh_thi,LL_data=[10G B-max),Tuoi_KH=[23- 56T),is_TV360=Yes} (475236) {is_K+=Yes} (417468) 20% 88% Bảng 3.11: Bảng kết quả luật kết hợp 1 Phân tích: Với nhóm tập khách hàng có các thuộc tính:
o Tập khách hàng có trong độ tuổi lao động (đi làm) từ 23 đến 56.
o Tập trung chủ yếu khu vực thành thị.
o Lưu lượng data sử dụng hàng tháng ở ngưỡng cao
>=10GB/tháng.
o Có sử dụng gói tiện ích dịch vụ TV360 (xem tivi trực tuyến) hoặc đang dùng K+ (xem bóng đá thể thao)
Nhóm khách hàng có các thuộc tính trên đang chiếm 20% (417.468/2.081.488) trong tổng số các giao dịch thực hiện và có độ tin cậy 88% (417.468/475.236) các khách hàng có sử dụng dịch vụ truyền hình “K+”. Nghĩa là 88% trong các khách hàng đang sử dụng dịch vụ TV360, có sử dụng lưu lượng data cao, tập trung ở khu vực thành thị sẽ đăng ký sử dụng dịch vụ truyền hình K+ để xem các giải bóng đá độc quyền trong và ngoài nước.
67
Đánh giá: Đây là tập khách hàng có nhu cầu dùng các gói về giải trí dịch vụ
truyền hình trực tuyến, phim truyện, bóng đá, các kênh thể thao. Nếu áp dụng chiến dịch truyền thông ưu đãi các gói K+ và TV360 qua các kênh như sms, happy call, telesale, cho nhóm khách hàng có đặc điểm: Độ tuổi từ 23-56, sinh sống chủ yếu ở khu vực thành thị, có lưu lượng data sử dụng hàng tháng ở ngưỡng cao hơn 10GB và có đăng ký sử dụng dịch vụ TV360, sẽ có xu hướng sử dụng thêm dịch vụ K+ để giải trí thư giãn ngồi giờ lao động.
b. Luật kết hợp 2: Ungtien, Collect_data
ST
T Thuộc tính Kết quả Hỗ trợ Tin cậy
2 {Khu_vuc=Nong_thon,LL_data=[0 -2GB),Tuoi_KH=[56- 71T),is_Ungtien=Yes} (492660) {is_Collect_call=Yes } (434933) 21% 88% 3 {Khu_vuc=Nong_thon,LL_data=[0 -2GB),is_Ungtien=Yes} (492660) {is_Collect_call=Yes } (434933) 21% 88% Bảng 3.12: Bảng kết quả luật kết hợp 2 Phân tích: Với Nhóm tập khách hàng có các thuộc tính:
o Tập khách hàng có độ tuổi cao từ 56T trở lên.
o Tập trung chủ yếu khu vực nông thôn.
o Lưu lượng data sử dụng hàng tháng ở mức ngưỡng thấp 0G đến 2GB.
o Có sử dụng gói tiện ích dịch vụ Ứng tiền.
Nhóm khách hàng có các thuộc tính trên đang chiếm 21% (434.933/2.081.488) trong tổng số các giao dịch thực hiện và có độ tin cậy 88% (434.933/492.660), tập khách hàng có xu hướng sử dụng thêm dịch vụ collect call (người nghe trả tiền). Nghĩa là các khách hàng có độ tuổi cao và đã sử dụng dịch vụ “ứng tiền” thì có đến 88% đăng ký thêm dịch vụ người nghe trả tiền.
Đánh giá: Đây là tập khách hàng nhiều tuổi, tập trung ở khu vực nông thôn,
nhu cầu sử dụng các dịch vụ giải trí, trực tuyến cần lưu lượng trên các thiết bị điện thoại ít, khơng có nhu cầu sử dụng lưu lượng data hàng tháng thấp, có sử dụng các dịch vụ giá trị gia tăng cơ bản của nhà mạng với phí đăng ký thấp hoặc miễn phí như “Ứng tiền” khi tài khoản gốc khơng đủ và có xu hướng đăng ký dịch vụ người nghe trả tiền trong một số tình huống. Có thể truyền thơng quảng bá đăng ký 2 dịch vụ “ứng tiền” và “collect call” đến nhóm khách hàng có độ tuổi cao, khu vực sinh sống ở nơng thơn và có lưu lượng sử dụng data thấp.
68
c. Luật kết hợp 3: Keeng_Music, Keeng_Movies, Imuzik
ST T Thuộc tính Kết quả Hỗ trợ Tin cậy 1 {Khu_vuc=Thanh_thi,LL_data=[2- 10GB),Tuoi_KH=[15- 23T),is_Keeng_Music=Yes} (540038) {is_Imuzik=Ye s} (477460) 23% 88% 5 {LL_data=[2-10GB),Tuoi_KH=[15- 23T),is_Keeng_Movies=Yes,is_Keeng_Music =Yes} (472821) {is_Imuzik=Ye s} (416792) 20% 88% 6 {Khu_vuc=Thanh_thi,LL_data=[2- 10GB),Tuoi_KH=[15- 23T),is_Keeng_Movies=Yes} (550382) {is_Imuzik=Ye s} (485151) 23% 88% Bảng 3.13: Bảng kết quả luật kết hợp 3 Phân tích: Với tập nhóm khách hàng có các thuộc tính:
o Thuộc độ tuổi học sinh sinh viên có độ tuổi nhỏ hơn hoặc bằng 22.
o Tập trung chủ yếu khu vực thành thị.
o Lưu lượng data sử dụng hàng tháng ở ngưỡng trung bình 2- 10GB.
o Có đang sử dụng gói tiện ích dịch vụ Keeng_Music, Keeng_Movies
Nhóm khách hàng có 4 thuộc tính trên đang chiếm 20% - 23% trong tổng số các giao dịch thực hiện và có độ tin cậy 88% các khách hàng sử dụng dịch vụ nhạc chờ “Imuzik (CRBT)”. Nghĩa là các khách hàng ở nhóm độ tuổi trẻ, sinh sống ở khu vực thành thị, đã đăng ký sử dụng các dịch vụ về các gói Keeng_Music và Keeng_Movies thì có đến 88% sẽ đăng ký thêm dịch vụ Imuzik (nhạc chuông, nhạc chờ).
Đánh giá: Tập này là tập khách hàng trẻ năng động, học sinh, sinh viên, có
đăng ký sử dụng các gói lưu lượng data ở mức trung bình từ 2GB – 10GB (chưa tự chủ về tài chính), có đăng ký sử dụng các dịch vụ nghe nhạc, xem phim thì có xu hướng sẽ đăng ký thêm dịch vụ nhạc chuông, nhạc chờ. Qua đó doanh nghiệp có thể quảng bá các dịch vụ nghe nhạc trực tuyến, nhạc chng nhạc chờ tới các nhóm khách hàng trẻ tuổi, sinh sống ở thành thị.
Sau khi sử dụng các luật kết hợp tìm được khi chạy chương trình phân tích khai phá dữ liệu, nhà mạng có thể đưa ra các chiến dịch quảng bá mời các khách hàng sử dụng các dịch vụ giá trị gia tăng theo các đối tượng có nhóm độ tuổi, khu vực sinh sống và lưu lượng sử dụng data; mỗi nhóm đối tượng đang sử dụng các dịch vụ giá trị gia tăng có thể mời để bán chéo các sản phẩm giá trị gia tăng khác.
69
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Luận văn trình bày những nội dung liên quan đến Big Data. Luận văn cũng cho thấy rõ được sự cần thiết của Big Data trong việc áp dụng vào các bài toán trong kinh doanh viễn thông.
Nắm vững và áp dụng những thuật toán luật kết hợp phục vụ cho việc phân tích và mang lại giá trị của Big Data. Sử dụng thuật toán Apriori áp dụng các luật kết hợp để tìm ra sở thích, nhu cầu của khách hàng, nhằm tăng lợi nhuận, doanh thu hỗ trợ ra các quyết định cho các doanh nghiệp viễn thơng đang có số lượng phát triển thuê bao bão hòa.
Do thời gian còn hạn chế nên trong luận văn chỉ sử dụng một số lượng giao dịch giới hạn, để mơ tả q trình thực nghiệm sử dụng phương pháp khai phá các luật kết hợp của thuật toán Apriori.
Hướng phát triển tiếp theo của luận văn, xây dựng chương trình chạy thuật tốn Apriori trên nền tảng hadoop và các công nghệ xử lý dữ liệu lớn như spark, sử dụng mơ hình mapReduce để xử lý dữ liệu phân tán song song, cải tiến hiệu năng của thuật toán đáp ứng khối lượng dữ liệu lớn và sự tăng trưởng dữ liệu.
70
DANH MỤC TÀI LIỆU THAM KHẢO
1. Fact sheet: Big Data across the federal government (2012).
http://www.whitehouse.gov/sites/default/files/microsites/ostp/big data fact sheet 3 29 2 012.pdf
2. Cukier K. (2010). Data everywhere: A special report on managing information. Economist Newspaper
3. Drowning in numbers-digital data will flood the planet-and help us understand it better (2011).
http://www.economist.com/blogs/dailychart/2011/11/bigdata-0 4. Lohr S.(2012). The age of Big Data. New York Times, p11
5. Yuki N. (2011). Following digital breadcrumbs to big data gold.
http://www.npr.org/2011/11/29/142521910/thedigitalbreadcrumbs-that-lead-to-big-data 6. Yuki N. (2011). The search for analysts to make sense of big data.
http://www.npr.org/2011/11/30/142893065/the-searchforanalysts-to-make-sense-of- big-data
7. Big Data (2008).http//www.nature.com/news/specials/bigdata/index.html 8. Special online collection: dealing with Big Data (2011). http://www.sciencemag.org/site/special/data/
9. Manyika J., McKinsey Global Institute, Chui M., Brown B., Bughin J., Dobbs R., Roxburgh C., Byers AH. (2011). Big Data: the next frontier for innovation,
competition, and productivity. McKinsey Global Institute
10. Agrawal, R., Imielinski, T., and Swami, A. N. Mining association rules between sets of items in large databases. In Proceedings of the 1993 ACM
SIGMOD International Conference on Management of Data.
11. Tianyuan, Z. (2018). Telecom customer segmentation and precise package design by using data mining (Doctoral dissertation).
12. Wu, W., Liu, Z., & He, Y. (2015). Classification of defects with ensemble methods in the automated visual inspection of sewer pipes. Pattern
Analysis and Applications.
13. Wang, Y., Sanguansintukul, S., & Lursinsap, C. (2008, September).
71
4th IEEE International Conference on Management of Innovation and Technology. IEEE.
14. van Wezel, Michiel, and Rob Potharst. Improved customer choice predictions using ensemble methods. European Journal of Operational Research
181.1 (2007).
15. Jony, R. I., Habib, A., Mohammed, N., & Rony, R. I. (2015, December). Big data use case domains for telecom operators. In 2015 IEEE
International Conference on Smart City/SocialCom/SustainCom (SmartCity). IEEE.