Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 71 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
71
Dung lượng
1,58 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ──────── * ─────── PHẠM TIẾN DŨNG SỬ DỤNG PHƯƠNG PHÁP KHAI PHÁ CÁC LUẬT KẾT HỢP XỬ LÝ TRONG BIG DATA ĐỂ TÌM SỞ THÍCH CỦA KHÁCH HÀNG LUẬN VĂN THẠC SĨ HÀ NỘI – 2022 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ──────── * ─────── PHẠM TIẾN DŨNG SỬ DỤNG PHƯƠNG PHÁP KHAI PHÁ CÁC LUẬT KẾT HỢP XỬ LÝ TRONG BIG DATA ĐỂ TÌM SỞ THÍCH CỦA KHÁCH HÀNG NGÀNH CHUN NGÀNH MÃ SỐ : CÔNG NGHỆ THÔNG TIN : HỆ THỐNG THÔNG TIN : 8480104.01 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: GS TS VŨ ĐỨC THI HÀ NỘI – 2022 LỜI CAM ĐOAN Tôi xin cam đoan luận văn thạc sĩ công nghệ thông tin “Sử dụng phương pháp khai phá luật kết hợp xử lý big data để tìm sở thích khách hàng doanh nghiệp” trình nghiên cứu riêng tôi, không chép lại người khác Trong toàn nội dung luận văn, điều trình bày cá nhân tơi tổng hợp từ nhiều nguồn tài liệu Tất nguồn tài liệu tham khảo có xuất xứ rõ ràng hợp pháp Tôi xin cam đoan chịu trách nhiệm nội dung trung thực luận văn tốt nghiệp Thạc sĩ Hà Nội, ngày tháng 08 năm 2022 Phạm Tiến Dũng LỜI CẢM ƠN Lời đầu tiên, xin chân thành cảm ơn các thầy cô giáo khoa Công nghệ thông tin, trường Đại Học Công Nghệ - Đại học Quốc Gia Hà Nội tận tình bảo, giảng dạy truyền đạt kinh nghiệm, kiến thức vô quý báu cho thời gian học tập trường Tôi xin gửi lời cảm ơn đến thầy giáo, GS.TS Vũ Đức Thi, PGS.TS Hoàng Minh Quang – Viện CNTT định hướng đề tài, nhận xét, giúp đỡ hướng dẫn cho suốt q trình làm luận văn Cuối cùng, tơi xin cảm ơn sâu sắc đến gia đình bạn bè ln giúp đỡ, hỗ trợ đóng góp ý kiến để giúp tơi hồn thành luận văn Do thời gian, kiến thức kinh nghiệm tơi cịn hạn chế nên luận văn tránh khỏi sai sót Tơi hy vọng nhận ý kiến nhận xét, góp ý thầy giáo bạn để luận văn hồn Tơi xin chân thành cảm ơn! MỤC LỤC LỜI CAM ĐOAN .3 LỜI CẢM ƠN MỤC LỤC DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT DANH MỤC HÌNH VẼ DANH MỤC BẢNG BIỂU MỞ ĐẦU 10 CHƯƠNG 1: CƠ SỞ LÝ THUYẾT 12 1.1 Giới thiệu tổng quan Big Data 12 1.1.1 Định nghĩa 12 1.1.2 Đặc trưng Big Data .13 1.1.3 Một số ứng dụng Big Data 14 1.2 Những công nghệ Big Data 16 1.2.1 Hệ sinh thái Hadoop .16 1.2.2 Apache Spark 17 1.2.3 Data lakes .18 1.2.4 Spark streaming 18 1.3 Khái niệm khai phá liệu 18 1.3.1 Định nghĩa 18 1.3.2 Mơ hình khai phá liệu 19 1.3.3 Kỹ thuật khai phá liệu .22 1.4 Cơ sở lý thuyết khai phá luật kết hợp 22 1.4.1 Khai phá luật kết hợp 22 1.4.2 Thuật toán Apriori 24 1.4.3 Cải tiến thuật toán Apriori Map-Reduce .28 1.5 Bài toán quản lý thuê bao viễn thông 31 CHƯƠNG 2: KHAI PHÁ DỮ LIỆU TRONG VIỄN THÔNG .35 2.1 Tổng quan 35 2.2 Dữ liệu viễn thông 35 2.3 Khai phá liệu lĩnh vực viễn thông 37 2.3.1 Dự đoán khách hàng rời mạng 37 2.3.2 Dự đoán thuê bao không đạt thực 38 2.3.3 2.3.4 2.3.5 2.3.6 2.3.7 Phân nhóm định danh khách hàng 39 Dự đoán tổng doanh thu khách hàng mang lại vòng đời 40 Dự đoán vòng đời gói dịch vụ 41 Dự đoán thuê bao trả trước tiềm để mời chuyển trả sau 41 Dự đoán sở thích mua gói dịch vụ th bao 42 2.4 Khai phá luật kết hợp kinh doanh viễn thông .43 CHƯƠNG 3: TRIỂN KHAI THỰC NGHIỆM 46 3.1 Lựa chọn toán 46 3.2 Mơ hình phân tích 47 3.3 Thu thập liệu 48 3.4 Tiền xử lý liệu 51 3.5 Thực nghiệm đánh giá 54 3.5.1 Môi trường thực nghiệm .54 3.5.2 Dữ liệu thực nghiệm .55 3.5.3 Chương trình thực nghiệm 57 3.5.4 Sinh luật kết hợp 59 3.5.5 Kết đánh giá thực nghiệm 61 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 69 DANH MỤC TÀI LIỆU THAM KHẢO 70 DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Chữ viết tắt Ý nghĩa CDR Bản ghi liệu gọi (Call Data Record) CNTT Công nghệ thông tin KPLKH Khai phá luật kết hợp CSDL Cơ sở liệu CSKH Chăm sóc khách hàng DB Database (cơ sở liệu) DNVT Doanh nghiệp viễn thông GTGT Giá trị gia tăng HLR Home Location Registe IoT Internet of Things (Internet vạn vật) KH Khách hàng KPDL Khai phá liệu KPI Key Performance Indicator (chỉ số đánh giá hiệu công việc) OCS Online charging System (Hệ thống tính cước) VAS Dịch vụ giá trị gia tăng (value added service) DANH MỤC HÌNH VẼ Hình 1.1: Các đặc trưng Big Data 13 Hình 1.2: Kiến trúc hệ thống Hadoop 17 Hình 1.3: Các bước xây dựng hệ thống KPDL 19 Hình 1.4: Mơ hình xử lý liệu map-reduce 29 Hình 1.5: Vịng đời thuê bao trả trước 31 Hình 1.6: Vịng đời thuê bao trả sau .32 Hình 1.7: Mơ hình kết nối hệ thống quản lý thuê bao 33 Hình 2.1: Các bước xây dựng tốn dự đoán rời mạng thuê bao .38 Hình 2.2: Mơ hình dự đoán thời gian sử dụng khách hàng 41 Hình 2.3: Xác định tập mục thường xuyên 44 Hình 2.4: Sinh luật kết hợp .44 Hình 2.5: MapReduce liệu – itemset .45 Hình 2.6: MapReduce liệu k – itemset .45 Hình 3.1: Mơ hình phân tích khai phá liệu luật kết hợp 47 Hình 3.2: Mơ hình phân bố độ tuổi KH theo thuê bao 51 Hình 3.3: Biểu đồ tiêu dùng theo độ tuổi 52 Hình 3.4: Chương trình thực nghiệm 55 Hình 3.5: Thống kê theo độ tuổi khách hàng 56 Hình 3.6: Thống kê theo khu vực 56 Hình 3.7: Thống kê theo data sử dụng 57 Hình 3.8: Thống kê theo lưu lượng Data sử dụng độ tuổi 57 Hình 3.9: Chương trình sinh luật kết hợp 58 Hình 3.10: Danh sách luật kết hợp có nghĩa 58 Hình 3.11: Xác định ngưỡng độ hỗ trợ tin cậy 59 Hình 3.12: Kết khai phá luật kết hợp 61 Hình 3.13: Các luật kết hợp có nghĩa 63 Hình 3.14: Các luật kết hợp có nghĩa theo độ tuổi 63 Hình 3.15: Các luật kết hợp có nghĩa theo khu vực 64 Hình 3.16: Các luật kết hợp có nghĩa theo lưu lượng 64 Hình 3.17: Phân bố độ tin cậy độ hỗ trợ 65 DANH MỤC BẢNG BIỂU Bảng 1.1 Bảng ví dụ sở liệu chứa giao dịch sau 24 Bảng 1.2: Bảng chuyển đổi giao dịch biểu diễn dạng nhị phân 24 Bảng 1.3 Bảng giao dịch minh họa cho thuật toán Apriori 27 Bảng 1.4 Bảng kết C1, L1 .28 Bảng 1.5 Bảng kết C2, L2 .28 Bảng 1.6 Bảng kết C3, L3 .28 Bảng 3.1: Bảng giao dịch đăng ký gói cước 47 Bảng 3.2: Bảng liệu thô viễn thông 49 Bảng 3.3: Bảng dịch vụ GTGT nhà mạng Viettel cung cấp 51 Bảng 3.4: Bảng thuộc tính liệu thực nghiệm .54 Bảng 3.5: Bảng liệu thực nghiệm .54 Bảng 3.6: Bảng cấu hình mơi trường thực nghiệm .55 Bảng 3.7: Bảng thống kê theo độ tuổi khách hàng 56 Bảng 3.8: Bảng thống kê theo lưu lượng data 56 Bảng 3.9: Bảng cấu hình tham số thực nghiệm thuật toán Apriori 60 Bảng 3.10: Các luật kết hợp có nghĩa với độ tin cậy cao 66 Bảng 3.11: Bảng kết luật kết hợp 66 Bảng 3.12: Bảng kết luật kết hợp 67 Bảng 3.13: Bảng kết luật kết hợp 68 MỞ ĐẦU Ngày Big Data áp dụng nhiều lĩnh vực sống Khai phá liệu giúp xử lý tốt các toán theo cách làm truyền thống theo cách làm truyền thống thực Một lĩnh vực áp dụng nhiều Big Data doanh nghiệp để hỗ trợ cho kinh doanh Với mức độ quan trọng cấp thiết đó, Việt Nam có nhiều doanh nghiệp, tập đoàn xây dựng trung tâm chuyên biệt phân tích xử lý liệu lớn Viettel Group, Vin Group… Các lợi ích mà xử lý liệu lớn mang lại là: Giảm thiểu chi phí, giảm thiểu thời gian, nâng cao chất lượng sản phẩm, hỗ trợ đưa các định hợp lý xác Ngồi ra, doanh nghiệp nắm bắt kịp thời hành vi, thói quen sở thích khách hàng thông qua lượng liệu lớn sinh lúc khách hàng tương tác với hệ thống Việc khơng giúp doanh nghiệp tăng lợi nhuận cho họ, tăng tỷ lệ phản hồi khách hàng với dịch vụ họ mà tăng độ hài lòng khách hàng trải nghiệm dịch vụ Mục tiêu luận văn nghiên cứu các phương pháp xử lý Big Data áp dụng khai phá luật kết hợp để tìm sở thích, thói quen hành vi tiêu dùng khách hàng mua sắm sản phẩm dịch vụ lĩnh vực viễn thông Khai phá luật kết hợp phát mối quan hệ mặt hàng, tìm danh sách mặt hàng nhiều khách hàng sử dụng, lựa chọn, mua lúc Từ tìm sở thích khách hàng, xu hướng mua sắm hiểu khách hàng cần gì, để giúp doanh nghiệp chủ động kinh doanh các sản phẩm Vì ý nghĩa thực tiễn bên nên định chọn đề tài “Sử dụng phương pháp khai phá luật kết hợp xử lý big data để tìm sở thích khách hàng doanh nghiệp” ứng dụng lĩnh vực kinh doanh viễn thơng để phân tích, hỗ trợ chiến lược kinh doanh tốt hơn, thấu hiểu mong muốn khách hàng Luận văn có bố cục gồm chương chính: Chương 1: Cơ sở lý thuyết - Giới thiệu big data Giới thiệu công nghệ xử lý liệu lớn Phương pháp khai phá các luật kết hợp Bài toán quản lý thuê bao viễn thông Chương 2: Khai phá liệu lĩnh vực viễn thơng 10 Hình 3.7: Thống kê theo data sử dụng - Thống kê theo Lưu lượng Data độ tuổi khách hàng Hình 3.8: Thống kê theo lưu lượng Data sử dụng độ tuổi 3.5.3 Chương trình thực nghiệm Chương trình thực nghiệm xử lý các file liệu đầu vào có định dạng csv các file text có các trường phân cách dấu phẩy (,) Cấu hình động tham số: Độ hỗ trợ tối thiểu (min support) độ tin cậy tối thiểu (min confidence) Giá trị cấu hình độ hỗ trợ độ tin cậy khoảng từ –> (nghĩa từ % - > 100%) Tính chương trình thực nghiệm: o Hiển thị số lần chạy tìm các tập mục thường xuyên (1) o Hiển thị danh sách các luật kết hợp mạnh các mặt hàng thỏa mãn độ hỗ trợ độ tin cậy (2) o Hiển thị thời gian xử lý thực chương trình o Hiển thị tổng số giao dịch thực o Hiển thị danh sách các luật kết hợp tìm o Hiển thị danh sách “luật có ý nghĩa” 57 o Kết chương trình lưu file txt Hình 3.9: Chương trình sinh luật kết hợp Sau sinh các luật kết hợp mạnh, thực lọc các luật kết hợp khơng có ý nghĩa có giá trị để lấy các luật kết hợp “có ý nghĩa” Hình 3.10: Danh sách luật kết hợp có nghĩa 58 3.5.4 Sinh luật kết hợp Để xác định ngưỡng cấu hình “độ hỗ trợ” “độ tin cậy” thuật tốn Apriori phù hợp, tốn tìm sở thích khách hàng sản phẩm dịch vụ, thực thực nghiệm chạy chương trình sinh luật kết hợp liệu nhiều lần, thay đổi nhiều giá trị ngưỡng khác kết thống kê sau: Hình 3.11: Xác định ngưỡng độ hỗ trợ tin cậy o Nếu ngưỡng hỗ trợ từ 0.4 – 0.5 (40% - 50%): Không sinh tập luật kết hợp nào, khơng thể chọn giá trị o Nếu ngưỡng hỗ trợ 0.3 (30%): Tạo luật kết hợp (từ 12 - 40 luật), độ tin cậy cao số lượng luật kết hợp sinh o Nếu ngưỡng hỗ trợ 0.1 – 0.2 (10% - 20%): Tạo số luật kết hợp gần nhau, nhiên với độ hỗ trợ 0.2 thời gian thực nhanh độ hỗ trợ 0.1 số lần quét xử lý độ hỗ trợ 0.1 nhiều lần Do ta chọn ngưỡng hỗ trợ 0.2 (20%) o Chọn độ tin cậy 0.7 sinh nhiều luật kết hợp khoảng 700 – 800 luật o Chọn độ tin cậy 0.8 sinh khoảng 500 – 600 luật o Chọn độ tin cậy 0.9 (độ tin cậy cao) sinh số luật khoảng 200 – 300 59 Do luận văn chọn ngưỡng độ hỗ trợ 0.2 độ tin cậy 0.8 phù hợp với số luật sinh để phân tích Thiết lập thơng số cấu hình đầu vào chạy thuật toán Apriori cho luật kết hợp chạy liệu tìm sở thích khách hàng sau: Giá trị ngưỡng STT Cấu hình Min support (độ hỗ trợ) 20 % Min confidence (độ tin cậy) 80% Bảng 3.9: Bảng cấu hình tham số thực nghiệm thuật tốn Apriori Sau cấu hình tham số độ hỗ trợ, độ tin cậy, chọn file liệu giao dịch, chạy chương trình thực nghiệm, trình tính tốn xử lý gồm có bước: Bước 1: Sinh danh sách luật kết hợp mạnh o o o o Tổng số giao dịch xử lý: 2.081.488 Số bước tìm kiếm tập mục thường xuyên: Số luật kết hợp tìm được: 544 luật kết hợp File liệu luật kết hợp lưu thư mục đầu vào: Result/result.txt 60 Hình 3.12: Kết khai phá luật kết hợp Bước 2: Lọc danh sách luật có ý nghĩa o Từ danh sách luật kết hợp bước 1; thực lọc luật ý nghĩa luật sinh có chứa thông tin khách hàng (khu vực, độ tuổi, lưu lượng sử dụng data) o Tổng số luật kết hợp cần lọc: 544 o Số luật có ý nghĩa: 116 o Số luật loại bỏ: 428 3.5.5 Kết đánh giá thực nghiệm Sau chạy thuật toán Apriori chương trình thực nghiệm (với độ hỗ trợ 20% độ tin cậy 80%) liệu dịch vụ viễn thơng, chương trình sinh 544 luật kết hợp Do luận văn đặt trọng tâm vào tìm sở thích khách hàng sử dụng dịch vụ sản phẩm viễn thông, nên mục tiêu chương trình tìm các luật có nghĩa; luật có nghĩa các luật thỏa mãn tìm sở thích khách hàng, cịn luật khác khơng có nhiều ý nghĩa tìm sở thích khách hàng phần thực nghiệm lọc ẩn 61 Do vậy, 544 luật kết hợp tìm thực nghiệm, qua trình lọc luật kết hợp, với thuộc tính sau kết hợp khơng phải sản phẩm mặt hàng dịch vụ giá trị gia tăng coi luật khơng có nhiều ý nghĩa bị loại bỏ a Các luật kết hợp loại bỏ không dùng - Số lượng luật loại bỏ không dùng: 428 (Trong kết tìm có chứa thơng tin khách hàng như: Khu vực, độ tuổi, lưu lượng sử dụng) - Do sử dụng tất 10 thuộc tính để khai phá luật kết hợp, thuộc tính lại cắt lớp thành nhiều giá trị Vì số lượng luật kết hợp mạnh tìm thấy thỏa mãn có nhiều, có nhiều luật không mang nhiều ý nghĩa dư thừa o Luật kết hợp THỪA, kết hợp thuộc tính mặt hàng (2 thuộc tính) để sinh luật kết hợp khơng có nhiều ý nghĩa, mang lại hài lòng cho khách hàng như: {is_Ungtien=Yes} (15295) ==> {Tuoi_KH=[56-71T)} [ ho_tro = 25% | tin_cay = 96% ] o Sinh nhiều luật kết hợp vô nghĩa như: {Tuoi_KH=[15-23T)} (23958) ==> {Khu_vuc=Thanh_thi} [ ho_tro = 39% | tin_cay = 96% ] Do đó, cần lọc bỏ luật này giữ lại luật kết hợp nhiều thuộc tính có ý nghĩa b Các luật kết hợp “có nghĩa” - Do u cầu mong muốn tìm sở thích khách hàng, nên lọc luật kết hợp có vế phải thuộc tính (khu vực, độ tuổi, mức lưu lượng data sử dụng) vế trái có thuộc tính các gói cước giá trị gia tăng - Số lượng luật kết hợp có nghĩa: 116 luật (Trong kết tìm dịch vụ mặt hàng giá trị gia tăng) o Số luật chứa thông tin lưu lượng data: 67 luật o Số luật chứa thông tin độ tuổi khách hàng: 73 luật o Số luật chứa thông tin khu vực: 66 luật - 62 Hình 3.13: Các luật kết hợp có nghĩa Hình 3.14: Các luật kết hợp có nghĩa theo độ tuổi 63 Hình 3.15: Các luật kết hợp có nghĩa theo khu vực Hình 3.16: Các luật kết hợp có nghĩa theo lưu lượng 64 Hình 3.17: Phân bố độ tin cậy độ hỗ trợ - - - ST T Nhìn vào biểu đồ trên, phân tích phân bố độ tin cậy độ hỗ trợ 116 luật có ý nghĩa, thấy thấy độ tin cậy tập luật chủ yếu tập trung vào khoảng 0.8 - 0.85, độ hỗ trợ rơi chủ yếu tập trung vào khoảng: 0.2 – 0.25 Ngoài đường xu hướng (màu ghi xám) có chiều hướng xuống, tức độ tin độ hỗ trợ có xu hướng nghịch biến với Lúc này, giá trị độ tin cậy cao độ hỗ trợ thấp ngược lại Trong liệu sử dụng để thực nghiệm sau chạy thuật toán Apriori để sinh luật kết hợp lọc luật thừa, gây nhiễu Xét phân tích 10 luật có độ tin cậy cao “có ý nghĩa” sau: Thuộc tính {Khu_vuc=Thanh_thi,LL_data=[210GB),Tuoi_KH=[1523T),is_Keeng_Music=Yes} (540038) {Khu_vuc=Nong_thon,LL_data=[02GB),Tuoi_KH=[56-71T),is_Ungtien=Yes} (492660) {Khu_vuc=Nong_thon,LL_data=[02GB),is_Ungtien=Yes} (492660) {Khu_vuc=Thanh_thi,LL_data=[210GB),Tuoi_KH=[1523T),is_Keeng_Movies=Yes,is_Keeng_Musi c=Yes} (472594) {LL_data=[2-10GB),Tuoi_KH=[1523T),is_Keeng_Movies=Yes,is_Keeng_Musi 65 Kết {is_Imuzik=Yes} (477460) {is_Collect_call=Y es} (434933) {is_Collect_call=Y es} (434933) {is_Imuzik=Yes} (416792) {is_Imuzik=Yes} (416792) Hỗ trợ Tin cậy 23% 88% 21% 88% 21% 88% 20% 88% 20% 88% 10 c=Yes} (472821) {Khu_vuc=Thanh_thi,LL_data=[210GB),Tuoi_KH=[1523T),is_Keeng_Movies=Yes} (550382) {Khu_vuc=Thanh_thi,LL_data=[10GBmax),Tuoi_KH=[23-56T),is_K+=Yes} (474132) {Khu_vuc=Thanh_thi,Tuoi_KH=[1523T),is_Keeng_Music=Yes} (552640) {Khu_vuc=Thanh_thi,LL_data=[10GBmax),is_TV360=Yes} (475236) {Khu_vuc=Thanh_thi,LL_data=[10GBmax),Tuoi_KH=[23-56T),is_TV360=Yes} (475236) {is_Imuzik=Yes} (485151) {is_TV360=Yes} (417468) {is_Imuzik=Yes} (486129) {is_K+=Yes} (417468) {is_K+=Yes} (417468) 23% 88% 20% 88% 23% 88% 20% 88% 20% 88% Bảng 3.10: Các luật kết hợp có nghĩa với độ tin cậy cao a Luật kết hợp 1: TV360, K+ ST T 10 Thuộc tính {Khu_vuc=Thanh_thi,LL_data=[10G B-max),Tuoi_KH=[2356T),is_K+=Yes} (474132) {Khu_vuc=Thanh_thi,LL_data=[10G B-max),Tuoi_KH=[2356T),is_TV360=Yes} (475236) Kết Hỗ trợ Tin cậy {is_TV360=Yes} (417468) 20% 88% {is_K+=Yes} (417468) 20% 88% Bảng 3.11: Bảng kết luật kết hợp Phân tích: Với nhóm tập khách hàng có thuộc tính: o Tập khách hàng có độ tuổi lao động (đi làm) từ 23 đến 56 o Tập trung chủ yếu khu vực thành thị o Lưu lượng data sử dụng hàng tháng ngưỡng cao >=10GB/tháng o Có sử dụng gói tiện ích dịch vụ TV360 (xem tivi trực tuyến) dùng K+ (xem bóng đá thể thao) Nhóm khách hàng có thuộc tính chiếm 20% (417.468/2.081.488) tổng số giao dịch thực có độ tin cậy 88% (417.468/475.236) khách hàng có sử dụng dịch vụ truyền hình “K+” Nghĩa 88% khách hàng sử dụng dịch vụ TV360, có sử dụng lưu lượng data cao, tập trung khu vực thành thị đăng ký sử dụng dịch vụ truyền hình K+ để xem giải bóng đá độc quyền ngồi nước 66 Đánh giá: Đây tập khách hàng có nhu cầu dùng gói giải trí dịch vụ truyền hình trực tuyến, phim truyện, bóng đá, các kênh thể thao Nếu áp dụng chiến dịch truyền thông ưu đãi các gói K+ TV360 qua các kênh sms, happy call, telesale, cho nhóm khách hàng có đặc điểm: Độ tuổi từ 23-56, sinh sống chủ yếu khu vực thành thị, có lưu lượng data sử dụng hàng tháng ngưỡng cao 10GB có đăng ký sử dụng dịch vụ TV360, có xu hướng sử dụng thêm dịch vụ K+ để giải trí thư giãn ngồi lao động b Luật kết hợp 2: Ungtien, Collect_data ST T Thuộc tính {Khu_vuc=Nong_thon,LL_data=[0 -2GB),Tuoi_KH=[5671T),is_Ungtien=Yes} (492660) {Khu_vuc=Nong_thon,LL_data=[0 -2GB),is_Ungtien=Yes} (492660) Kết {is_Collect_call=Yes } (434933) {is_Collect_call=Yes } (434933) Hỗ trợ Tin cậy 21% 88% 21% 88% Bảng 3.12: Bảng kết luật kết hợp Phân tích: Với Nhóm tập khách hàng có thuộc tính: o Tập khách hàng có độ tuổi cao từ 56T trở lên o Tập trung chủ yếu khu vực nông thôn o Lưu lượng data sử dụng hàng tháng mức ngưỡng thấp 0G đến 2GB o Có sử dụng gói tiện ích dịch vụ Ứng tiền Nhóm khách hàng có thuộc tính chiếm 21% (434.933/2.081.488) tổng số giao dịch thực có độ tin cậy 88% (434.933/492.660), tập khách hàng có xu hướng sử dụng thêm dịch vụ collect call (người nghe trả tiền) Nghĩa khách hàng có độ tuổi cao sử dụng dịch vụ “ứng tiền” có đến 88% đăng ký thêm dịch vụ người nghe trả tiền Đánh giá: Đây tập khách hàng nhiều tuổi, tập trung khu vực nông thôn, nhu cầu sử dụng dịch vụ giải trí, trực tuyến cần lưu lượng thiết bị điện thoại ít, khơng có nhu cầu sử dụng lưu lượng data hàng tháng thấp, có sử dụng dịch vụ giá trị gia tăng nhà mạng với phí đăng ký thấp miễn phí “Ứng tiền” tài khoản gốc khơng đủ có xu hướng đăng ký dịch vụ người nghe trả tiền số tình Có thể truyền thông quảng bá đăng ký dịch vụ “ứng tiền” “collect call” đến nhóm khách hàng có độ tuổi cao, khu vực sinh sống nơng thơn có lưu lượng sử dụng data thấp 67 c Luật kết hợp 3: Keeng_Music, Keeng_Movies, Imuzik ST T Thuộc tính {Khu_vuc=Thanh_thi,LL_data=[210GB),Tuoi_KH=[1523T),is_Keeng_Music=Yes} (540038) {LL_data=[2-10GB),Tuoi_KH=[1523T),is_Keeng_Movies=Yes,is_Keeng_Music =Yes} (472821) {Khu_vuc=Thanh_thi,LL_data=[210GB),Tuoi_KH=[1523T),is_Keeng_Movies=Yes} (550382) Kết Hỗ trợ Tin cậy {is_Imuzik=Ye s} (477460) 23% 88% {is_Imuzik=Ye s} (416792) 20% 88% {is_Imuzik=Ye s} (485151) 23% 88% Bảng 3.13: Bảng kết luật kết hợp Phân tích: Với tập nhóm khách hàng có thuộc tính: o Thuộc độ tuổi học sinh sinh viên có độ tuổi nhỏ 22 o Tập trung chủ yếu khu vực thành thị o Lưu lượng data sử dụng hàng tháng ngưỡng trung bình 210GB o Có sử dụng gói tiện ích dịch vụ Keeng_Music, Keeng_Movies Nhóm khách hàng có thuộc tính chiếm 20% - 23% tổng số giao dịch thực có độ tin cậy 88% khách hàng sử dụng dịch vụ nhạc chờ “Imuzik (CRBT)” Nghĩa các khách hàng nhóm độ tuổi trẻ, sinh sống khu vực thành thị, đăng ký sử dụng dịch vụ gói Keeng_Music Keeng_Movies có đến 88% đăng ký thêm dịch vụ Imuzik (nhạc chuông, nhạc chờ) Đánh giá: Tập tập khách hàng trẻ động, học sinh, sinh viên, có đăng ký sử dụng các gói lưu lượng data mức trung bình từ 2GB – 10GB (chưa tự chủ tài chính), có đăng ký sử dụng dịch vụ nghe nhạc, xem phim có xu hướng đăng ký thêm dịch vụ nhạc chuông, nhạc chờ Qua doanh nghiệp quảng bá dịch vụ nghe nhạc trực tuyến, nhạc chuông nhạc chờ tới nhóm khách hàng trẻ tuổi, sinh sống thành thị Sau sử dụng luật kết hợp tìm chạy chương trình phân tích khai phá liệu, nhà mạng đưa các chiến dịch quảng bá mời khách hàng sử dụng dịch vụ giá trị gia tăng theo các đối tượng có nhóm độ tuổi, khu vực sinh sống lưu lượng sử dụng data; nhóm đối tượng sử dụng dịch vụ giá trị gia tăng mời để bán chéo sản phẩm giá trị gia tăng khác 68 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Luận văn trình bày nội dung liên quan đến Big Data Luận văn cho thấy rõ cần thiết Big Data việc áp dụng vào toán kinh doanh viễn thông Nắm vững áp dụng thuật toán luật kết hợp phục vụ cho việc phân tích mang lại giá trị Big Data Sử dụng thuật toán Apriori áp dụng luật kết hợp để tìm sở thích, nhu cầu khách hàng, nhằm tăng lợi nhuận, doanh thu hỗ trợ định cho doanh nghiệp viễn thông có số lượng phát triển th bao bão hịa Do thời gian hạn chế nên luận văn sử dụng số lượng giao dịch giới hạn, để mơ tả q trình thực nghiệm sử dụng phương pháp khai phá luật kết hợp thuật toán Apriori Hướng phát triển luận văn, xây dựng chương trình chạy thuật tốn Apriori tảng hadoop công nghệ xử lý liệu lớn spark, sử dụng mơ hình mapReduce để xử lý liệu phân tán song song, cải tiến hiệu thuật toán đáp ứng khối lượng liệu lớn tăng trưởng liệu 69 DANH MỤC TÀI LIỆU THAM KHẢO Fact sheet: Big Data across the federal government (2012) http://www.whitehouse.gov/sites/default/files/microsites/ostp/big data fact sheet 29 012.pdf Cukier K (2010) Data everywhere: A special report on managing information Economist Newspaper Drowning in numbers-digital data will flood the planet-and help us understand it better (2011) http://www.economist.com/blogs/dailychart/2011/11/bigdata-0 Lohr S.(2012) The age of Big Data New York Times, p11 Yuki N (2011) Following digital breadcrumbs to big data gold http://www.npr.org/2011/11/29/142521910/thedigitalbreadcrumbs-that-lead-to-big-data Yuki N (2011) The search for analysts to make sense of big data http://www.npr.org/2011/11/30/142893065/the-searchforanalysts-to-make-sense-ofbig-data Big Data (2008).http//www.nature.com/news/specials/bigdata/index.html Special online collection: dealing http://www.sciencemag.org/site/special/data/ with Big Data (2011) Manyika J., McKinsey Global Institute, Chui M., Brown B., Bughin J., Dobbs R., Roxburgh C., Byers AH (2011) Big Data: the next frontier for innovation, competition, and productivity McKinsey Global Institute 10 Agrawal, R., Imielinski, T., and Swami, A N Mining association rules between sets of items in large databases In Proceedings of the 1993 ACM SIGMOD International Conference on Management of Data 11 Tianyuan, Z (2018) Telecom customer segmentation and precise package design by using data mining (Doctoral dissertation) 12 Wu, W., Liu, Z., & He, Y (2015) Classification of defects with ensemble methods in the automated visual inspection of sewer pipes Pattern Analysis and Applications 13 Wang, Y., Sanguansintukul, S., & Lursinsap, C (2008, September) The customer lifetime value prediction in mobile telecommunications In 2008 70 4th IEEE International Conference on Management of Innovation and Technology IEEE 14 van Wezel, Michiel, and Rob Potharst Improved customer choice predictions using ensemble methods European Journal of Operational Research 181.1 (2007) 15 Jony, R I., Habib, A., Mohammed, N., & Rony, R I (2015, December) Big data use case domains for telecom operators In 2015 IEEE International Conference on Smart City/SocialCom/SustainCom (SmartCity) IEEE 71 ... ĐẠI HỌC CÔNG NGHỆ ──────── * ─────── PHẠM TIẾN DŨNG SỬ DỤNG PHƯƠNG PHÁP KHAI PHÁ CÁC LUẬT KẾT HỢP XỬ LÝ TRONG BIG DATA ĐỂ TÌM SỞ THÍCH CỦA KHÁCH HÀNG NGÀNH CHUYÊN NGÀNH MÃ SỐ : CÔNG NGHỆ THÔNG TIN... công nghệ thông tin ? ?Sử dụng phương pháp khai phá luật kết hợp xử lý big data để tìm sở thích khách hàng doanh nghiệp” trình nghiên cứu riêng tôi, không chép lại người khác Trong toàn nội dung... cần để giúp doanh nghiệp chủ động các sách, chiến dịch kinh doanh 3.1 Lựa chọn toán Trong phạm vi luận văn, lựa chọn đề tài ? ?Sử dụng phương pháp khai phá luật kết hợp để tìm sở thích khách hàng? ??,