Luận văn thạc sĩ phân tích hành vi sử dụng dịch vụ viễn thông của khách hàng dựa trên thuật toán phân cụm

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ HỒNG ANH DŨNG PHÂN TÍCH HÀNH VI SỬ DỤNG DỊCH VỤ VIỄN THÔNG CỦA KHÁCH HÀNG DỰA TRÊN THUẬT TỐN PHÂN CỤM ĐƯA RA CHÍNH SÁCH KHUYẾN MẠI VỀ SẢN PHẨM VÀ THEO PHÂN KHÚC KHÁCH HÀNG Ngành: Công Nghệ Thơng Tin Chun ngành: Khoa Học Máy Tính Mã Số: 8480101.01 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS TRẦN TRÚC MAI TS NGUYỄN ĐÌNH HĨA Hà nội – 2020 LỜI CẢM ƠN Trước tiên xin dành lời cảm ơn chân thành sâu sắc đến thầy giáo, TS Trần Trúc Mai, người định hướng mục tiêu cách thức thực đề tài TS Nguyễn Đình Hóa – người hướng dẫn, khuyến khích, bảo tạo cho điều kiện tốt từ bắt đầu hoàn thành nhiệm vụ đề tài Tơi xin dành lời cảm ơn chân thành tới thầy cô giáo khoa Công nghệ thông tin, trường Đại học Cơng nghệ, ĐHQGHN tận tình đào tạo, cung cấp cho kiến thức vô quý giá tạo điều kiện tốt cho tơi suốt q trình học tập, nghiên cứu trường Đồng thời xin cảm ơn tất người thân u gia đình tơi tồn thể bạn bè người giúp đỡ, động viên tơi vấp phải khó khăn, bế tắc Cuối cùng, xin chân thành cảm ơn đồng nghiệp tơi Trung Tâm Phân Tích Dữ Liệu – Viettel, giúp đỡ, tạo điều kiện thuận lợi cho tơi học tập nghiên cứu chương trình thạc sĩ Đại học Công nghệ, Đại học Quốc Gia Hà Nội LỜI CAM ĐOAN Tôi xin cam đoan luận văn thạc sĩ công nghệ thông tin “PHÂN TÍCH HÀNH VI SỬ DỤNG DỊCH VỤ VIỄN THƠNG CỦA KHÁCH HÀNG DỰA TRÊN THUẬT TOÁN PHÂN CỤM ĐƯA RA CHÍNH SÁCH KHUYẾN MẠI VỀ SẢN PHẨM VÀ THEO PHÂN KHÚC KHÁCH HÀNG” cơng trình nghiên cứu riêng tơi, khơng chép lại người khác Trong tồn nội dung luận văn, điều trình bày cá nhân tơi tổng hợp từ nhiều nguồn tài liệu Tất nguồn tài liệu tham khảo có xuất xứ rõ ràng hợp pháp Tơi xin hồn tồn chịu trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Hà Nội, ngày … tháng … năm … … Mục Lục LỜI CẢM ƠN LỜI CAM ĐOAN Chương 1: Giới thiệu Chương 2: Công cụ, tảng, thuật toán sử dụng ứng dụng Phân tích liệu 2.1 Các cơng cụ tảng 2.1.1 Big Data 2.1.2 Giới thiệu Hadoop 13 2.1.3 Các ứng dụng tảng Apache Hadoop 14 2.1.4 HDFS 16 2.1.5 Đọc ghi liệu HDFS 17 2.1.6 Map-Reduce 19 2.1.7 SPARK, tảng công cụ ứng dụng 20 2.2 Giới thiệu học máy 26 2.2.1 Một số khái niệm 27 2.2.2 Các vấn đề trình thực đề tài 30 Chương 3: Spark giải thuật rừng ngẫu nhiên song song (Parallel Random Forest PRF) 32 3.1 Thuật toán rừng ngẫu nhiên 33 3.2 Giải thuật xử lý song song rừng ngẫu nhiên cho liệu lớn tảng Spark 36 3.2.1 Tối ưu hóa xử lý liệu đồng thời 37 3.2.2 Tối ưu hóa xử lý tiến trình đồng thời 44 3.2.3 Phân tích phương pháp xử lý task đồng thời 49 3.3 Kmeans, tối ưu hóa xử lý Kmeans với Spark 52 Chương 4: Triển khai thực nghiệm 57 4.1 Cơ sở liệu Khách hàng 360 độ 57 4.2 Mơ hình ứng dụng 60 4.2.1 Quá trình Phân cụm liệu huấn luyện: 63 4.2.2 Lựa chọn ngẫu nhiên thuộc tính đánh giá: 67 4.2.3 Thực huấn luyện liệu với mơ hình Parallel RandomForest 67 4.3 Đánh giá hiệu suất: 73 4.3.1 Đánh giá thời gian xử lý với nhóm liệu 73 4.3.2 Đánh giá thời gian xử lý với cụm 73 4.4 Đánh giá hiệu thực tế: 74 KẾT LUẬN VÀ ĐỊNH HƯỚNG NGHIÊN CỨU TIẾP THEO 77 TÀI LIỆU THAM KHẢO 80 DANH MỤC HÌNH VẼ Hình 2.1 Kiến trúc HDFS 16 Hình 2.2 Luồng đọc liệu HDFS 18 Hình 2.3 Luồng ghi liệu HDFS 18 Hình 2.4 Mơ hình Map-Reduce 19 Hình 2.5 Cơ chế Map-Reduce 20 Hình 2.6 thành phần Spark 22 Hình 2.7 Cơ chế hoạt động Spark 23 Hình 2.8 Cơ chế hoạt động Spark RDD 25 Hình 2.9 Zeppelin phương thức hoạt động 26 Hình 2.10 Mơ hình học có giám sát 28 Hình 2.11 Mơ hình học bán giám sát 30 Hình 3.1 Đồ thị vịng DAG hình thành xử lý liệu song song Spark UI 32 Hình 3.2 Q trình xây dựng thuật tốn rừng ngẫu nhiên RandomForest 34 Hình 3.3 Quá trình phân chia liệu theo chiều dọc RDDs Spark 38 Hình 3.4 Quá trình xử lý ghép liệu đồng thời PRF 40 Hình 3.5 Ví dụ kịch phân chia liệu 42 Hình 3.6 Ví dụ task DAG cho định PRF 46 Hình 3.7 Hình dạng cụm liệu khám phá k-means 53 Hình 3.8 Thuật tốn Kmeans Spark 54 Hình 4.1 Quá trình kết hợp K-Means RandomForest 60 Hình 4.2 Tỷ lệ độ đo theo ROC tập train, test validation 69 Hình 4.3 Important Feataures v1 70 Hình 4.4 ROC - Receiver operating characteristic 71 Hình 4.5 Cumulative Gain 71 Hình 4.6 Tỷ lệ độ xác trung bình mơ hình khác 72 Hình 4.7 Phương pháp đo lường kết thực tế 74 Hình 4.8 So sánh tỷ lệ triển khai thực tế TG MHO 75 Hình 4.9 So sánh tỷ lệ triển khai thực tế MHO HO 76 DANH MỤC BẢNG Bảng 3-1: Ví dụ DSI PRF 40 Bảng 4-1: Danh mục thuộc tính đánh giá xây dựng C360 59 Bảng 4-2: Danh mục thuộc tính sử dụng 63 Bảng 4-3: Giá trị DaviesBouldin 64 Bảng 4-4: Kết phân cụm 64 Bảng 4-5: Phân nhóm khách hàng 40 tuổi 40 tuổi 66 Bảng 4-6: So sánh tỷ lệ Accuracy Precision, Recall 69 Bảng 4-7: So sánh thời gian chạy KNN PRF 70 Chương 1: Giới thiệu Trong thời đại ngày nay, để phát triển doanh nghiệp, vốn nhân lực, “dữ liệu” (data) coi nguồn lực thiếu Ai ngạc nhiên nhận thấy mua sắm trực tuyến trang thương mại điện tử eBay, Amazon, Sendo hay Tiki, trang thương mại điện tử gợi ý loạt sản phẩm có liên quan phù hợp với nhu cầu bạn Ví dụ xem điện thoại, trang mua sắm trực tuyến gợi ý cho bạn mua thêm ốp lưng, pin dự phòng; mua áo thun có thêm gợi ý quần jean thắt lưng… Bí ẩn đằng sau trang web thơng minh chào mời sản phẩm dựa nghiên cứu sở thích, thói quen khách hàng phân loại nhóm khách hàng khác Vậy thông tin để phân tích có từ đâu có tác động đến việc sản xuất kinh doanh doanh nghiệp? Thứ nhất, liệu khổng lồ khách hàng có từ thơng tin mà doanh nghiệp thu thập lúc khách hàng ghé thăm, tương tác hay mua sắm website mình; liệu mua lại từ cơng ty chuyên cung cấp liệu khách hàng Các thông tin khơng giúp nhà cung ứng hàng hóa, dịch vụ tăng lợi nhuận cho họ mà cịn tăng trải nghiệm mua sắm người dùng Một mặt, nhờ q trình tìm hiểu, phân tích khách hàng, doanh nghiệp tạo sản phẩm đáp ứng nhu cầu khách hàng, xây dựng sách phân phối bán sản phẩm đến tay người tiêu dùng cách có hiệu Mặt khác, thân người tiêu dùng tiết kiệm thời gian yên tâm trải nghiệm mua sắm Hơn nữa, tầm ngành vĩ mơ, ứng dụng liệu lớn (Big Data) giúp tổ chức phủ dự đốn tỉ lệ thất nghiệp, xu hướng nghề nghiệp tương lai để đầu tư cho hạng mục đó, cắt giảm chi tiêu, kích thích tăng trưởng kinh tế chí phương án phịng ngừa trước dịch bệnh Việc xây dựng ứng dụng tảng Big Data khai thác hiệu đem lại lợi cạnh tranh hiệu to lớn nhiều lĩnh vực, đặc biệt bối cảnh thị trường dịch vụ tài bão hịa, sở phân tích ứng dụng Big Data điều kiện nhằm ứng dụng Big Data với phân tích liệu để sử dụng nguồn tài nguyên hợp lý tối đa hóa doanh thu đưa mục tiêu kinh doanh gắn liền với hành vi khách hàng, nhằm mang lại cho doanh nghiệp phương án kinh doanh hiệu Việc sử dụng khai thác liệu lớn nguồn tài nguyên tương tự dầu khí, hay nguồn tài nguyên khác phương án để đưa doanh nghiệp tiếp cận đến người dùng cách hiệu nhất, kết hợp với mục tiêu kinh doanh để hồn thiện sách, tối đa hóa lợi ích cho người dùng tăng trưởng doanh thu bền vững cho doanh nghiệp Với đề tài “Phân Tích Hành Vi Sử Dụng Dịch Vụ Viễn Thông Của Khách Hàng Dựa Trên Thuật Tốn Phân Cụm Đưa Ra Chính Sách Khuyến Mại Về Sản Phẩm Và Theo Phân Khúc Khách Hàng” nhằm mục tiêu đưa ứng dụng Phân tích liệu lớn vào khai thác nguồn tài nguyên đặc biệt – Big Data Sử dụng công cụ khai thác Big Data, công cụ sử dụng để lưu trữ vận hành hệ thống Big Data - Hadoop, công cụ xử lý học máy, xử lý liệu lớn Spark, Zeppelin (Spark ML), ứng dụng hệ khuyến nghị, học máy kỹ thuật phân tích hành vi khách hàng nhằm đưa kết phù hợp với nhóm đối tượng khách hàng sử dụng dịch vụ Phần lại luận văn trình bày theo cấu trúc sau Chương trình bày khái niệm phục vụ cho nghiên cứu đề tài, Big Data, công cụ sử dụng trình thực đề tài, phương thức xây dựng hệ sở liệu khách hàng 360 – khung liệu sử dụng xun suốt q trình xây dựng mơ hình học máy sử dụng để đánh giá mơ hình học máy, thuật toán sử dụng trình thực Tính ứng dụng sử dụng thư viện Spark ML điểm ưu việt Spark sử dụng để xây dựng ứng dụng cho giải thuật rừng ngẫu nhiên song song Chương trình bày trình thực hiện, phiên xây dựng mơ hình kết thực nghiệm Cuối phần kết luận, ý nghĩa phương pháp triển khai, kết đạt định hướng nghiên cứu Chương 2: Công cụ, tảng, thuật tốn sử dụng ứng dụng Phân tích liệu 2.1 Các công cụ tảng Với xuất liên tục nhiều phương thức phổ biến thông tin mới, gia tăng công nghệ điện toán đám mây Internet vạn vật (IoT), liệu không ngừng tăng lên với tốc độ cao Quy mơ liệu tồn cầu liên tục tăng với tốc độ lần sau hai năm [1] Giá trị ứng dụng liệu lĩnh vực trở nên quan trọng hết Tồn lượng lớn thông tin đáng giá liệu có sẵn Sự xuất thời đại liệu lớn đặt vấn đề thách thức nghiêm trọng bên cạnh lợi ích rõ ràng Do nhu cầu kinh doanh áp lực cạnh tranh, hầu hết doanh nghiệp có yêu cầu cao xử lý liệu theo thời gian thực hợp lệ [2] Do đó, vấn đề làm để khai thác thơng tin có giá trị từ liệu khổng lồ cách hiệu xác Đồng thời, liệu lớn nắm giữ đặc điểm số chiều cao, độ phức tạp nhiễu Dữ liệu khổng lồ thường chứa thuộc tính tìm thấy biến đầu vào khác hàng trăm hàng nghìn cấp, trong số chúng chứa thơng tin Vấn đề thứ hai chọn kỹ thuật thích hợp dẫn đến hiệu suất phân loại tốt cho tập liệu chiều nhiều chiều Xem xét kiện nói trên, khai thác phân tích liệu cho liệu quy mô lớn trở thành chủ đề nóng học thuật nghiên cứu cơng nghiệp Tốc độ khai thác phân tích liệu liệu quy mô lớn thu hút nhiều quan tâm giới học thuật công nghiệp Các nghiên cứu khai thác liệu phân tán song song dựa tảng điện toán đám mây đạt nhiều thành tựu thuận lợi [3],[4] Hadoop [5] tảng đám mây tiếng sử dụng rộng rãi khai thác liệu 2.1.1 Big Data Khái niệm Big Data Big Data (Dữ liệu lớn) thuật ngữ mơ tả q trình xử lý liệu tập liệu lớn bao gồm liệu có cấu trúc hay khơng có cấu trúc Big Data quan trọng với tổ chức, doanh nghiệp liệu ngày lớn nhiều liệu giúp phân tích xác Việc phân tích xác giúp doanh nghiệp đưa định giúp tăng hiệu sản xuất, giảm rủi ro chi phí Những liệu tới từ nơi – ví dụ từ cảm biến để thu thập thông tin thời tiết, thông tin cập nhật trang web mạng xã hội, ảnh video kỹ thuật số đưa lên mạng, liệu giao dịch hoạt động mua sắm mạng – hình thức khác (có cấu trúc, phi cấu trúc, bán cấu trúc) Đó liệu lớn Big Data thuật ngữ dùng để tập hợp liệu lớn hỗn tạp cơng cụ, ứng dụng xử lí liệu truyền thống khó đảm đương Bằng việc tổng hợp lượng thông tin lớn từ nguồn khác khiến cho Big Data trở thành công cụ mạnh cho việc định kinh doanh, nhận diện hành vi xu hướng nhanh tốt nhiều so với cách thức truyền thống Big Data nhận diện ba khía cạnh chính: Dữ liệu (Data), Cơng nghệ (Technology), Quy mơ (Size) Thứ nhất, liệu (data) bao gồm liệu thuộc nhiều định dạng khác hình ảnh, video, âm nhạc… Internet [6]; gồm liệu thu thập từ hệ thống cung ứng dịch vụ công nghệ thơng tin có kết nối với hệ thống máy chủ; liệu khách hàng ứng dụng thơng minh thiết bị có kết nối mạng; liệu người dùng để lại tảng mạng xã hội, việc ứng dụng khai phá liệu lớn tạo thành quy trình khép kín, việc bổ sung liệu huấn luyên diễn liên tục [7] Do liệu cập nhật qua thiết bị kết nối mạng giờ, phút, giây đến từ nhiều nguồn khác nên khối lượng liệu lớn (Big) Hiện nay, Big Data đo lường theo đơn vị Terabytes (TB), Petabytes (PB) Exabytes (EB) Có thể dễ dàng lấy vài ví dụ Walmart xử lý triệu giao dịch khách hàng giờ, liệu nhập vào ước tính 2,5 PB; Facebook có 1.9 tỷ người dùng đồng thời, có hàng trăm server xử lý lưu trữ liệu [8] Twitter hệ thống mạng xã hội với 1,3 tỷ người dùng hoạt động giai đoạn đầu [9] Yếu tố nhận diện thứ hai Big Data công nghệ (technology) Công nghệ thường thiết kế hình thành hệ sinh thái từ lên để có khả xử lý liệu lớn phức tạp Một hệ sinh thái mạnh phải kể đến Hadoop với khả xử lý liệu tăng lên mức độ phức tạp liệu, lực công cụ vô giá ứng dụng Big Data Yếu tố nhận diện thứ ba Big Data quy mô liệu Hiện chưa có câu 10 cụm thực lặp lại nhiều lần mơ hình ứng dụng kết hợp K-Means rừng ngẫu nhiên xử lý song song Các cụm cho thấy nhóm hành vi phân bổ theo độ tuổi phân nhóm theo hành vi người dùng Đánh giá thêm số tháng đóng trước đánh giá liên quan đến hành vi đóng trước KH theo tháng 4.2.2 Lựa chọn ngẫu nhiên thuộc tính đánh giá: Việc sử dụng ngẫu nhiên thuộc tính đánh giá nội dung thực bao gồm việc đánh giá đặc trưng cụm, đánh giá thuộc tính (features) ảnh hưởng đến kết liệu đầu đầu việc phân nhóm khách hàng VD: khách hàng có độ tuổi lớn 58 (thuộc nhóm 6) tuổi có khả rời bỏ dịch vụ nhóm cịn lại, có hành vi ổn định theo thời gian, sử dụng dịch vụ đóng cước dài hạn, dịch vụ phát sinh đăng ký phim ngồi mua thêm chương trình K+ Việc đánh giá cụm liệu đưa vào định cần rõ ràng nhãn sử dụng, rõ ràng ngữ nghĩa liệu không bị cân nhãn Cụ thể - loại bỏ cụm liệu cụm cụm chưa thể rõ rệt thuộc tính liệu Thực đánh giá thuộc tính có ảnh hưởng cụm (12228), cụm (1826), cụm (20706) cụm (22000) có số lượng ghi ít, thuộc tính hành vi rõ ràng, đưa sách trực tiếp vào kinh nghiệm triển khai thực tiễn VD: Độ tuổi trung bình cụm cụm độ tuổi 42, với số tháng đóng trước thấp, nhỏ tháng, số tháng đóng trước trung bình tháng Với cụm 4, cụm 5, hết cước, cần đưa cho kinh doanh đánh giá hình thức tác động, đánh giá thêm số thuộc tính có trọng số cao để hỗ trợ đưa định Tiếp tục ứng dụng mơ hình học máy cắt ngưỡng triển khai với cụm 2, cụm 3, cụm cụm 4.2.3 Thực huấn luyện liệu với mơ hình Parallel RandomForest 67 Việc huấn luyện liệu thực đồng thời với toàn cụm liệu đầu vào, sử dụng ma trận - confusion matrix để đánh giá biểu đồ ROC để thể Kết huấn luyện với cụm sau: Cụm 2: Cụm 3: Cụm Cụm 68 Hình 4.2 Tỷ lệ độ đo theo ROC tập train, test validation Các biểu đồ thể độ ROC theo hình 3.2 Cho thấy tỷ lệ Precision Recall cụm Tổng thời gian huấn luyện 1.5 tiếng cho tồn q trình, bao gồm q trình huấn luyện, kiểm định đánh giá lại mơ hình, sau ghi kết đầu tổng hợp Giải thuật Mạng Neural PRF KNN Accuracy Precision Recall 75.61% 81.86% 88.89% 74.22% 78.30% 88.45% 72.21% 76.80% 86.74% Bảng 4-6: So sánh tỷ lệ Accuracy Precision, Recall Việc đánh giá thời gian huấn luyện đánh giá theo chiều, đầu tiên, đánh giá thời gian huấn luyện mô hình chạy đơn lẻ, sau đo thêm trung bình thời gian huấn luyện đồng thời tồn mơ hình, độ chênh lệch thời gian mơ hình Các mơ hình KNN PRF thực mơi trường có cài đặt Spark, mạng Neural, cài đặt Python máy có cấu hình tương đương: Ram 32GB; CPU 3.2 ghz máy Việc so sánh thời gian cấu hình tương đương với Mạng Neuron khơng hợp lý, việc xây dựng, cài đặt cấu hình cho giải thuật không tương đồng, môi trường không tương đồng, mạng Neural xử lý máy Với Mạng Neural, chạy máy với cụm 3240s, đồng thời toàn cụm 24486s, độ chênh lệch lần thử 190s Giải thuật Chạy cụm 69 Chạy toàn cụm Độ chênh lệch PRF KNN 2378s 2488s 4898s 6898s 358s 482s Bảng 4-7: So sánh thời gian chạy KNN PRF Việc xử lý liệu cụm Spark tính theo khả xử lý đồng thời lên đến 800GB (100 nút phụ - slave node, 8GB Ram/node) Giúp cho q trình tính tốn đảm bảo đầu sản phẩm đưa vào triển khai thực tế Kết thực lần với mơ hình học máy sử dụng rừng ngẫu nhiên để đánh giá mức độ cắt ngưỡng phù hợp chung với toàn mơ hình: Tỷ lệ nhãn 0/1: 21.693/15.917.905 Sử dụng tồn thuộc tính C360 để huấn luyện đưa tập kết Tương đương 1,2T liệu xử lý đồng thời Hình 4.3 Important Feataures v1 Hình 3.3 cho thấy kết huấn luyện phân loại thuộc tính ban đầu; sử dụng để phân loại thuộc tính đánh giá nhóm cụm thuộc tính Gồm nhóm 30 thuộc tính có điểm trọng số ảnh hưởng lớn Key Id 70 Hình 4.4 ROC - Receiver operating characteristic Biểu đồ theo hình 3.4 đánh giá độ xác theo biểu đồ ROC thể độ phù hợp tập liệu đầu sau trình huấn luyện Hình 4.5 Cumulative Gain Biểu đồ AUROC – Cumulative Gain hình 3.5 cho thấy tính hiệu độ phủ model Biểu đồ sử dụng để đánh giá hiệu triển khai đánh giá độ phủ sau triển khai Sử dụng đánh giá độ phủ đánh giá nhóm tiềm 3.1 Đánh giá độ xác phân loại cho mơ hình khác 71 Để minh họa cho độ xác phân loại (accuracy) PRF, thí nghiệm thực cho thuật toán khác nhau, bao gồm thuật toán so sánh: PRF,DRF (Dinamic Random Forest) [16], RF, SparkLib MLRF [22] Mỗi trường hợp liên quan đến độ đo khác định Kết thử nghiệm trình bày hình 26 0.2 0.18 Average Accuracy 0.16 0.14 0.12 0.1 0.08 0.06 0.04 0.02 10 30 50 70 90 200 400 600 800 1000 1200 1400 1600 1800 2000 2200 2400 PRF SpartLib DRF RF Decision tree Hình 4.6 Tỷ lệ độ xác trung bình mơ hình khác Hình 3.6 cho thấy độ xác phân loại trung bình tất thuật tốn so sánh không cao số lượng định 10 Khi số lượng định tăng lên, độ xác phân loại trung bình thuật tốn tăng dần có xu hướng hướng tới hội tụ Độ xác phân loại PRF trung bình cao RF 8,9% cao 10,6% trường hợp tốt số lượng định 1500 Cao DRF trung bình 6,1% cao 7,3% trường hợp tốt số lượng định 1300 Độ xác phân loại PRF cao so với Spark-MLRF trung bình 4,6% 5,8% trường hợp tốt số lượng định 1500 Do đó, so với RF, DRF Spark-MLRF, PRF cải thiện độ xác phân loại đáng kể Độ xác phân loại PRF tất trường hợp cao so với RF, DRF Spark-MLRF rõ ràng cho quy mơ liệu Độ xác phân loại PRF cao DRF trung bình 8,6% cao 10,7% trường hợp tốt số lượng mẫu 3.000.000 Độ xác phân loại PRF cao trung bình 8,1% Spark-MLRF cao 11,3% trường hợp tốt số lượng mẫu 3.000.000 Đối với Spark-MLRF, phương pháp lấy mẫu cho phân vùng tập liệu, kích thước 72 tập liệu tăng lên, tỷ lệ lựa chọn ngẫu nhiên tập liệu tăng độ xác Spark-MLRF chắn giảm Do đó, so với RF, DRF Spark-MLRF, PRF cải thiện độ xác phân loại đáng kể cho quy mơ khác liệu 4.3 Đánh giá hiệu suất: Nhiều thí nghiệm khác xây dựng để đánh giá hiệu suất PRF cách so sánh với thuật toán RF Spark-MLRF thời gian thực hiện, tốc độ xử lý, khối lượng liệu chi phí đường truyền q trình huấn luyện liệu 4.3.1 Đánh giá thời gian xử lý với nhóm liệu Khi kích thước liệu nhỏ (ví dụ: 1,0GB), thời gian thực thi PRF Spark-MLRF cao RF Lý cần có thời gian cố định để gửi thuật toán đến cụm Spark cấu hình chương trình Khi kích thước liệu lớn 1,0GB, thời gian thực thi trung bình PRF SparkMLRF nhỏ RF bốn trường hợp Ví dụ: trường hợp liệu lấy mẫu có tính rải rác, kích thước liệu tăng từ 1,0 lên 500,0 GB, thời gian thực thi trung bình RF tăng từ 19,9 lên 517,8 giây, SparkMLRF tăng từ 24,8 lên 186,2 giây thời gian thực thi PRF tăng từ 23,5 đến 101,3 giây Do đó, thuật tốn PRF trình thử nghiệm đạt tốc độ xử lý nhanh RF Spark-MLRF Khi kích thước liệu tăng lên, hiệu dễ nhận thấy, đặc biệt chi phí huấn luyện liệu thời gian Tận dụng tối ưu hóa việc xử lý đồng thời kết hợp song song, PRF đạt điểm mạnh đáng kể so với Spark-MLRF RF hiệu suất thời gian xử lý 4.3.2 Đánh giá thời gian xử lý với cụm Hiệu suất PRF tảng Spark quy mô khác nút phụ xem xét Số lượng nút phụ (slave nodes) tăng dần từ 10 lên 100 Do kích thước liệu nội dung liệu huấn luyện khác nhau, thời gian Xử lý PRF trường hợp khác Khi số lượng nút phụ tăng từ 10 lên 50, thời gian thực thi trung bình PRF trường hợp giảm cách rõ rệt Ví dụ, thời gian thực trung bình PRF giảm từ 405,4 xuống 182,6 giây trường hợp cụm từ 174,8 xuống 78,3 giây trường hợp cụm Để so sánh, thời gian thực thi trung bình PRF 73 trường hợp khác giảm rõ ràng số lượng nút phụ (slave nodes) tăng từ 50 lên 100 Ví dụ: thời gian thực thi trung bình PRF giảm từ 182,4 xuống 76,0 giây trường hợp cụm từ 78,3 xuống 33,0 giây trường hợp cụm Điều số lượng Spark Slaves lớn số lượng thuộc tính tập liệu huấn luyện, tập hợp tính phân bổ cho nhiều nút phụ, dẫn đến việc xử lý liệu trao đổi thông tin nút phụ tăng lên, ảnh hưởng đến thời gian thực thi PRF tăng 4.4 Đánh giá hiệu thực tế: Việc sử dụng kết triển khai ứng dụng vào thực tế điều cần thiết, thay đo dựa số precision, hay recall Hình 4.7 Phương pháp đo lường kết thực tế CONTROL TARGET Thực Chọn ngẫu nhiên; nhận tin Chọn mơ hình; nhận truyền nhắn truyền thông tin nhắn truyền thông thông Đánh giá tỷ lệ phản hồi truyền Đánh giá tỷ lệ phản hồi truyền thơng khơng có mơ hình thơng qua mơ hình HOLD OUT MODEL HOLD OUT Khơng Chọn ngẫu nhiên; khơng nhận Chọn mơ hình; khơng nhận truyền tin nhắn truyền thông thông Sử dụng đánh giá tỷ lệ phản hồi Sử dụng đánh giá tỷ lệ phản hồi tin nhắn truyền thông tự nhiên tập chọn tự nhiên mơ hình Có huấn luyện Khơng huấn luyện Theo [21], thực chia tập thử nghiệm làm nhóm TB từ tập sau huấn luyện, Tiếp tục phân chia thành nhóm hình 3.7: 74 Lấy hai tập Control Group Hold Out: sử dụng để triển khai, theo dõi tỷ lệ tự nhiên, so sánh việc áp dụng model vào triển khai so với số thực tế: • Tập CG (Control Group): Tập lấy ngẫu nhiên số lượng 10% cụm triển khai để thử nghiệm • Tập HO (hold out): lấy khối lượng ngẫu nhiên với cụm – lấy mẫu 10% từ cụm triển khai để đánh giá hiệu chương trình triển khai so với tỷ lệ tự nhiên Với tập Target tập Model hold out: tập tối ưu cụm – sử dụng nhóm liệu đánh giá tiềm cụm 3, cụm 6, cụm có số ROC tốt để triển khai sau có phân tích đánh giá, lấy theo tỷ lệ phản hồi (TakeUpRate) cắt ngưỡng theo lift charge – hình 24; cắt ngưỡng triển khai 28%, tương đương với 896 nghìn, khơng bao gồm nhóm cắt bỏ riêng: • Tập TG (target): sử dụng top 90% tập 896 nghìn để đánh giá hiệu mơ hình thực tế • Tập MHO (model hold out): sử dụng top 10% tập 896 nghìn để tách riêng theo dõi tỷ lệ tự nhiên Hình 4.8 So sánh tỷ lệ triển khai thực tế TG MHO 75 Hình 4.9 So sánh tỷ lệ triển khai thực tế MHO HO So sánh MHO TG: Đánh giá hiệu chương trình truyền thơng với nhóm có điểm cao chọn mơ hình So sánh Control TG: Đánh giá hiệu mơ hình việc thực truyền thơng không truyền thông Tỷ lệ triển khai thực tế chứng minh hiệu mơ hình kết hợp, theo Hình 4.8 So sánh tỷ lệ triển khai thực tế TG MHO Hình 4.9 So sánh tỷ lệ triển khai thực tế MHO HO; hỗ trợ đánh giá kết mơ hình ứng dụng, kết triển khai áp dụng vào thực tế hiệu thực chương trình Tỷ lệ triển khai so với nhóm khơng triển khai 1.7 lần Ngoài cho thấy việc đưa thơng tin nhóm thuộc tính quan trọng có hiệu quả, giúp cho việc triển khai thực tế đạt kết tốt 76 KẾT LUẬN VÀ ĐỊNH HƯỚNG NGHIÊN CỨU TIẾP THEO Trong luận văn đề xuất mô hình kết hợp thuật tốn phân cụm rừng ngẫu nhiên song song Với mục tiêu xử lý vấn đề gặp phải trình khai phá liệu lớn điều kiện thực tế, giải vướng mắc gặp phải ứng dụng học máy vào trình sản xuất kinh doanh Quá trình thực ứng dụng mơ hình học máy vào triển khai lặp lại, trước tiên, thực phân liệu cụm, sau đó, đưa liệu cụm vào mơ hình PRF, kết hợp tối ưu hóa song song liệu xử lý đồng thời thực với tảng Apache Spark Tận dụng lợi việc tối ưu hóa song song liệu, tập liệu huấn luyện sử dụng lại khối lượng liệu xử lý bước giảm đáng kể Kết mang lại từ việc tối ưu hóa xử lý đồng thời, chi phí đường truyền liệu giảm xuống cách hiệu hiệu suất thuật toán cải thiện rõ rệt Sau thử nghiệm cho thấy tính ưu việt điểm mạnh đáng ý mơ hình kết hợp xử lý phân cụm phân nhóm PRF so với thuật tốn khác độ xác phân loại, hiệu suất khả mở rộng 1) Tính sáng tạo khoa học: Sử dụng mơ hình, giải thuật học máy để giải vấn đề gặp phải thực tế Kết hợp mơ hình để đưa mơ hình học máy ứng dụng kết hợp phân cụm phân lớp liệu, tìm nhóm liệu có đặc trưng tương đồng, đánh giá liệu dựa vào thuộc tính sau sử dụng kết hợp mơ hình học máy, nhằm nâng cao kết triển khai ứng dụng thực tế 2) Tính ứng dụng: Sau có kết huấn luyện mơ hình, phân loại nhóm liệu tối ưu, từ ứng dụng vào q trình thử nghiệm Việc sử dụng kết mơ hình ứng dụng vào thực tế đánh giá, việc ứng dụng triển khai lặp lại qua chu kỳ để đánh giá nâng cao hiệu mơ hình, loại bỏ thuộc tính liệu dư thừa khơng cần thiết, bổ sung liệu phân cụm khách hang xác Tìm nhóm khách hàng tiềm đưa nhóm liệu tiềm để triển khai 3) Tính hiệu quả: 77 Sau triển khai, mơ hình đánh giá mang lại kết rõ rệt, đặc biệt việc tìm nhóm liệu tiềm để triển khai, trả lời thuộc tính nhóm liệu tiền năng, bổ sung vào phân tích đánh giá, đưa liệu cho nhóm kinh doanh để đánh giá phân tích, bổ sung thuộc tính liệu để tối ưu hóa kết triển khai chu kỳ sau Tính hiệu mơ hình trả lời kết triển khai thực tế so sánh tỷ lệ phản hồi nhóm: Target; Model Hold Out; Control; Hold Out đề cập đến chương 3, mục 3.4 4) Tính hồn thiện: Việc hồn thiện giải thuật nâng cao hiệu triển khai thực tế, lặp lặp lại, trình thực đề tài đánh giá tồn trình phát triển, xây dựng, tối ưu việc đánh giá kết Cho phép tối ưu kết qua chu kỳ, nhóm liệu theo tỷ lệ triển khai thực tế tốt, nhóm chưa tốt, đưa phương án tối ưu cho lần triển khai tiếp sau 5) Nhược điểm: Các mơ hình ứng dụng chưa phải tối ưu, có số bước chưa sử dụng mơ hình phải dựa vào ý kiến chủ quan người có kinh nghiệm Việc ứng dụng chưa phủ tồn nhóm liệu cần có nhân tham gia Cần tối ưu hóa kết nâng cao hiệu Đối với giải thuật, việc tối ưu giải thuật sử dụng KMeans RandomForest chưa thực đạt kết tốt chia nhóm, xây dựng thuộc tính tối ưu Cần đề xuất giải thuật để lựa chọn thuộc tính có trọng số thay cho phương án lựa chọn số đông, đặc biệt liệu bị cân Chưa tái sử dụng liệu định, phải huấn luyện lại cụm dẫn đến chưa tối ưu thời gian triển khai thực tế Chưa sử dụng mơ hình học sâu để tối ưu kết triển khai nhược điểm Việc trả lời sử dụng mơ hình ứng dụng đánh giá hiệu thời gian, xử lý liệu lớn liên tục, tối ưu kết thực tế 6) Định hướng phát triển: 78 Đối với công việc tương lai, việc nghiên cứu tập trung vào thuật toán rừng ngẫu nhiên song song gia tăng cho luồng liệu môi trường đám mây cải thiện chế phân bổ liệu lập lịch tác vụ cho thuật tốn mơi trường phân tán xử lý đồng thời Tự động hóa trình huấn luyện gán nhãn để tăng hiệu suất thực tế Đánh giá bổ sung phương án lựa chọn có trọng số, đánh giá phương thức tối ưu dùng lại liệu theo chế cache huấn luyện đánh giá thuộc tính nhằm tối ưu thời gian xử lý trình huấn luyện đồng thời Xa nữa, đánh giá việc ứng dụng học sâu triển khai mơ hình học sâu, nhằm tối đa hóa hiệu năng, ứng dụng nâng cao kết phải cân chi phí thời gian hiệu suất đưa ứng dụng vào thực tế 79 TÀI LIỆU THAM KHẢO Tiếng Anh [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] U Sivarajah, M Kamal, Z Irani and V Weerakkody, "Critical analysis of Big Data challenges and analytical methods", Journal of Business Research, vol 70, no.1, pp.263-286, Jan 2017 A Azar and A Hassanien, "Dimensionality reduction of medical big data using neural-fuzzy classifier", Soft Computing, vol 19, no 4, pp 1115-1127, June 2014 A Nega and A Kumlachew, "Data Mining Based Hybrid Intelligent System for Medical Application", International Journal of Information Engineering and Electronic Business, vol 9, no 4, pp 38-46, 2017 P K Ray, S R Mohanty, N Kishor, and J P S Catalao, “Optimal feature and decision tree-based classification of power quality disturbances in distributed generation systems,” Sustainable Energy, IEEE Transactions on, vol 5, no 1, pp 200–208, January 2014 T White, “Hadoop: The Definitive Guide.” O’Reilly Media Inc./Yahoo Press, 2012 J Corbett, P Hochschild, W Hsieh, S Kanthak, E Kogan, H Li, A Lloyd, et al., “Spanner: Google’s globally distributed database,” ACM Transactions on Computer Systems, vol 31, no 3, pp 1-22, 2013 Gordon S Linoff, Michael J A Berry (2011): “Data Mining Techniques - For Marketing, Sales, and Customer Relationship Management 3rd” pp 23-29 L Abraham, S Subramanian, J Wiener, O Zed, J Allen, O Barykin, et al., “Scuba: Diving into data at FaceBook,” Proceedings of the VLDB Endowment, vol 6, no 11, pp 1057-1067, 2013 G Lee, J Lin, C Liu, A Lorek, and D Ryaboy, “The unified logging infrastructure for data analytics at Twitter,” Proceedings of the VLDB Endowment, vol 5, no.12, pp.1771-1780, 2012 Sam B Siewert: “Big data in the cloud - Data velocity, volume, variety and veracity” pp 2-8 (2013) Eric Sammer: “Hadoop Operations”, CHAPTER 1, pp.1 – September 2012 Eric Sammer: “Hadoop Operations”, CHATER HDFS, pp.7 – 23 September 2012 Eric Sammer: “Hadoop Operations”, CHATER MAPREDUCE, pp.25 – 37 September 2012 L Breiman, “Random forests,” Machine Learning, vol 45, no 1, pp 5–32, October 2001 80 [15] Eréndira Rendón, Itzel Abundez, Alejandra Arizmendi and Elvia M Quiroz (2011): Internal versus External cluster validation indexes Issue 1, Volume 27-33 [16] S Bernard, S Adam, and L Heutte (September 2012): “Dynamic random forests,” Pattern Recognition Letters, vol 33, no 12, pp 1580–1586 [17] Darius Pfitzner, Richard Leibbrandt, David M W Powers (2009): Characterization and evaluation of similarity measures for pairs of clusterings Knowl Inf Syst 19(3): 361-394 [18] Maria Halkidi, Yannis Batistakis, Michalis Vazirgiannis (2001): “On Clustering Validation Techniques.”, J Intell Inf Syst 17(2-3): 107-145 [19] Frank, Eibe Hall, Mark A Pal, Christopher J Witten, Ian H (2017): “Data mining, practical machine learning tools and techniques” pp.7-9 [20] Aurélien Géron (2017): “Hands-On Machine Learning with Scikit-Learn & TensorFlow - Concepts, Tools, And Techniques To Build Intelligent Systems”, Chapter The Machine Learning Landscape, pp 7-14 [21] Gordon S Linoff, Michael J A Berry (2011): “Data Mining Techniques: For Marketing, Sales, and Customer Relationship Management 3rd”, Figure 5.13, pp 137-141 [22] A Spark, “Spark mllib - random forest,” Website, June 2016, http://spark.apache.org/docs/latest/mllib-ensembles.html [23] Aurélien Géron (2017): “Hands-On Machine Learning with Scikit-Learn & TensorFlow - Concepts, Tools, And Techniques To Build Intelligent Systems”, Chapter The Machine Learning Landscape, Overfitting the Training Data, Underfitting the Training Data, pp 26-28 [24] Holden Karau, Andy Konwinski, Patrick Wendell, and Matei Zaharia: “Learning Spark: Lightning-Fast Big Data Analysis”, pp - [25] Hien Luu: “Beginning Apache Spark 2: With Resilient Distributed Datasets, Spark SQL, Structured Streaming and Spark Machine Learning library”, Chapter Resilient Distributed Datasets, pp 51-55 [26] Bill Chambers and Matei Zaharia: “Spark: The Definitive Guide”, pp 20 – 28 [27] Hien Luu: “Beginning Apache Spark 2: With Resilient Distributed Datasets, Spark SQL, Structured Streaming and Spark Machine Learning library”, Chapter 1: Introduction to Apache Spark, pp 1-11 81 ... tài ? ?Phân Tích Hành Vi Sử Dụng Dịch Vụ Vi? ??n Thơng Của Khách Hàng Dựa Trên Thuật Tốn Phân Cụm Đưa Ra Chính Sách Khuyến Mại Về Sản Phẩm Và Theo Phân Khúc Khách Hàng? ?? nhằm mục tiêu đưa ứng dụng Phân. .. thạc sĩ Đại học Cơng nghệ, Đại học Quốc Gia Hà Nội LỜI CAM ĐOAN Tôi xin cam đoan luận văn thạc sĩ công nghệ thơng tin “PHÂN TÍCH HÀNH VI SỬ DỤNG DỊCH VỤ VI? ??N THƠNG CỦA KHÁCH HÀNG DỰA TRÊN THUẬT... Zeppelin (Spark ML), ứng dụng hệ khuyến nghị, học máy kỹ thuật phân tích hành vi khách hàng nhằm đưa kết phù hợp với nhóm đối tượng khách hàng sử dụng dịch vụ Phần lại luận văn trình bày theo cấu

Định dạng
Số trang	81
Dung lượng	2,26 MB