1. Trang chủ
  2. » Tất cả

Phân tích hành vi sử dụng dịch vụ viễn thông của khách hàng dựa trên thuật toán phân cụm đưa ra chính sách khuyến mại về sản phẩm và theo phân khúc khách hàng

101 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ HỒNG ANH DŨNG PHÂN TÍCH HÀNH VI SỬ DỤNG DỊCH VỤ VIỄN THÔNG CỦA KHÁCH HÀNG DỰA TRÊN THUẬT TỐN PHÂN CỤM ĐƯA RA CHÍNH SÁCH KHUYẾN MẠI VỀ SẢN PHẨM VÀ THEO PHÂN KHÚC KHÁCH HÀNG Ngành: Công Nghệ Thơng Tin Chun ngành: Khoa Học Máy Tính Mã Số: 8480101.01 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS TRẦN TRÚC MAI TS NGUYỄN ĐÌNH HĨA Hà nội – 2020 LỜI CẢM ƠN Trước tiên xin dành lời cảm ơn chân thành sâu sắc đến thầy giáo, TS Trần Trúc Mai, người định hướng mục tiêu cách thức thực đề tài TS Nguyễn Đình Hóa – người hướng dẫn, khuyến khích, bảo tạo cho điều kiện tốt từ bắt đầu hoàn thành nhiệm vụ đề tài Tơi xin dành lời cảm ơn chân thành tới thầy cô giáo khoa Công nghệ thông tin, trường Đại học Cơng nghệ, ĐHQGHN tận tình đào tạo, cung cấp cho kiến thức vô quý giá tạo điều kiện tốt cho tơi suốt q trình học tập, nghiên cứu trường Đồng thời xin cảm ơn tất người thân u gia đình tơi tồn thể bạn bè người giúp đỡ, động viên tơi vấp phải khó khăn, bế tắc Cuối cùng, xin chân thành cảm ơn đồng nghiệp tơi Trung Tâm Phân Tích Dữ Liệu – Viettel, giúp đỡ, tạo điều kiện thuận lợi cho tơi học tập nghiên cứu chương trình thạc sĩ Đại học Công nghệ, Đại học Quốc Gia Hà Nội LỜI CAM ĐOAN Tôi xin cam đoan luận văn thạc sĩ công nghệ thông tin “PHÂN TÍCH HÀNH VI SỬ DỤNG DỊCH VỤ VIỄN THƠNG CỦA KHÁCH HÀNG DỰA TRÊN THUẬT TOÁN PHÂN CỤM ĐƯA RA CHÍNH SÁCH KHUYẾN MẠI VỀ SẢN PHẨM VÀ THEO PHÂN KHÚC KHÁCH HÀNG” cơng trình nghiên cứu riêng tơi, khơng chép lại người khác Trong tồn nội dung luận văn, điều trình bày cá nhân tơi tổng hợp từ nhiều nguồn tài liệu Tất nguồn tài liệu tham khảo có xuất xứ rõ ràng hợp pháp Tơi xin hồn tồn chịu trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Hà Nội, ngày … tháng … năm … … Mục Lục LỜI CẢM ƠN .2 LỜI CAM ĐOAN Chương 1: Giới thiệu Chương 2: Công cụ, tảng, thuật tốn sử dụng ứng dụng Phân tích liệu 2.1 Các công cụ tảng .9 2.1.1 Big Data .9 2.1.2 Giới thiệu Hadoop 13 2.1.3 Các ứng dụng tảng Apache Hadoop .14 2.1.4 HDFS 16 2.1.5 Đọc ghi liệu HDFS 17 2.1.6 Map-Reduce .19 2.1.7 SPARK, tảng công cụ ứng dụng .20 2.2 Giới thiệu học máy 26 2.2.1 Một số khái niệm 27 2.2.2 Các vấn đề trình thực đề tài .30 Chương 3: Spark giải thuật rừng ngẫu nhiên song song (Parallel Random Forest PRF) 32 3.1 Thuật toán rừng ngẫu nhiên 33 3.2 Giải thuật xử lý song song rừng ngẫu nhiên cho liệu lớn tảng Spark 36 3.2.1 Tối ưu hóa xử lý liệu đồng thời 37 3.2.2 Tối ưu hóa xử lý tiến trình đồng thời 44 3.2.3 Phân tích phương pháp xử lý task đồng thời 49 3.3 Kmeans, tối ưu hóa xử lý Kmeans với Spark 52 Chương 4: Triển khai thực nghiệm 57 4.1 Cơ sở liệu Khách hàng 360 độ .57 4.2 Mơ hình ứng dụng .60 4.2.1 Quá trình Phân cụm liệu huấn luyện: 63 4.2.2 Lựa chọn ngẫu nhiên thuộc tính đánh giá: 67 4.2.3 Thực huấn luyện liệu với mơ hình Parallel RandomForest 67 4.3 Đánh giá hiệu suất: 73 4.3.1 Đánh giá thời gian xử lý với nhóm liệu 73 4.3.2 Đánh giá thời gian xử lý với cụm 73 4.4 Đánh giá hiệu thực tế 74 KẾT LUẬN VÀ ĐỊNH HƯỚNG NGHIÊN CỨU TIẾP THEO .77 TÀI LIỆU THAM KHẢO 80 DANH MỤC HÌNH VẼ Hình 2.1 Kiến trúc HDFS 16 Hình 2.2 Luồng đọc liệu HDFS 18 Hình 2.3 Luồng ghi liệu HDFS .18 Hình 2.4 Mơ hình Map-Reduce 19 Hình 2.5 Cơ chế Map-Reduce .20 Hình 2.6 thành phần Spark 22 Hình 2.7 Cơ chế hoạt động Spark 23 Hình 2.8 Cơ chế hoạt động Spark RDD 25 Hình 2.9 Zeppelin phương thức hoạt động .26 Hình 2.10 Mơ hình học có giám sát .28 Hình 2.11 Mơ hình học bán giám sát 30 Hình 3.1 Đồ thị vịng DAG hình thành xử lý liệu song song Spark UI 32 Hình 3.2 Q trình xây dựng thuật tốn rừng ngẫu nhiên RandomForest 34 Hình 3.3 Quá trình phân chia liệu theo chiều dọc RDDs Spark .38 Hình 3.4 Quá trình xử lý ghép liệu đồng thời PRF 40 Hình 3.5 Ví dụ kịch phân chia liệu .42 Hình 3.6 Ví dụ task DAG cho định PRF 46 Hình 3.7 Hình dạng cụm liệu khám phá k-means 53 Hình 3.8 Thuật toán Kmeans Spark 54 Hình 4.1 Quá trình kết hợp K-Means RandomForest .60 Hình 4.2 Tỷ lệ độ đo theo ROC tập train, test validation 69 Hình 4.3 Important Feataures v1 70 Hình 4.4 ROC - Receiver operating characteristic .71 Hình 4.5 Cumulative Gain 71 Hình 4.6 Tỷ lệ độ xác trung bình mơ hình khác .72 Hình 4.7 Phương pháp đo lường kết thực tế .74 Hình 4.8 So sánh tỷ lệ triển khai thực tế TG MHO 75 Hình 4.9 So sánh tỷ lệ triển khai thực tế MHO HO 76 DANH MỤC BẢNG Bảng 3-1: Ví dụ DSI PRF 40 Bảng 4-1: Danh mục thuộc tính đánh giá xây dựng C360 59 Bảng 4-2: Danh mục thuộc tính sử dụng .63 Bảng 4-3: Giá trị DaviesBouldin 64 Bảng 4-4: Kết phân cụm 64 Bảng 4-5: Phân nhóm khách hàng 40 tuổi 40 tuổi 66 Bảng 4-6: So sánh tỷ lệ Accuracy Precision, Recall 69 Bảng 4-7: So sánh thời gian chạy KNN PRF 70 Chương 1: Giới thiệu Trong thời đại ngày nay, để phát triển doanh nghiệp, vốn nhân lực, “dữ liệu” (data) coi nguồn lực thiếu Ai ngạc nhiên nhận thấy mua sắm trực tuyến trang thương mại điện tử eBay, Amazon, Sendo hay Tiki, trang thương mại điện tử gợi ý loạt sản phẩm có liên quan phù hợp với nhu cầu bạn Ví dụ xem điện thoại, trang mua sắm trực tuyến gợi ý cho bạn mua thêm ốp lưng, pin dự phịng; mua áo thun có thêm gợi ý quần jean thắt lưng… Bí ẩn đằng sau trang web thơng minh chào mời sản phẩm dựa nghiên cứu sở thích, thói quen khách hàng phân loại nhóm khách hàng khác Vậy thơng tin để phân tích có từ đâu có tác động đến việc sản xuất kinh doanh doanh nghiệp? Thứ nhất, liệu khổng lồ khách hàng có từ thơng tin mà doanh nghiệp thu thập lúc khách hàng ghé thăm, tương tác hay mua sắm website mình; liệu mua lại từ cơng ty chuyên cung cấp liệu khách hàng Các thông tin khơng giúp nhà cung ứng hàng hóa, dịch vụ tăng lợi nhuận cho họ mà cịn tăng trải nghiệm mua sắm người dùng Một mặt, nhờ q trình tìm hiểu, phân tích khách hàng, doanh nghiệp tạo sản phẩm đáp ứng nhu cầu khách hàng, xây dựng sách phân phối bán sản phẩm đến tay người tiêu dùng cách có hiệu Mặt khác, thân người tiêu dùng tiết kiệm thời gian yên tâm trải nghiệm mua sắm Hơn nữa, tầm ngành vĩ mô, ứng dụng liệu lớn (Big Data) giúp tổ chức phủ dự đốn tỉ lệ thất nghiệp, xu hướng nghề nghiệp tương lai để đầu tư cho hạng mục đó, cắt giảm chi tiêu, kích thích tăng trưởng kinh tế chí phương án phịng ngừa trước dịch bệnh Việc xây dựng ứng dụng tảng Big Data khai thác hiệu đem lại lợi cạnh tranh hiệu to lớn nhiều lĩnh vực, đặc biệt bối cảnh thị trường dịch vụ tài bão hịa, sở phân tích ứng dụng Big Data điều kiện nhằm ứng dụng Big Data với phân tích liệu để sử dụng nguồn tài nguyên hợp lý tối đa hóa doanh thu đưa mục tiêu kinh doanh gắn liền với hành vi khách hàng, nhằm mang lại cho doanh nghiệp phương án kinh doanh hiệu Việc sử dụng khai thác liệu lớn nguồn tài nguyên tương tự dầu khí, hay nguồn tài nguyên khác phương án để đưa doanh nghiệp tiếp cận đến người dùng cách hiệu nhất, kết hợp với mục tiêu kinh doanh để hồn thiện sách, tối đa hóa lợi ích cho người dùng tăng trưởng doanh thu bền vững cho doanh nghiệp Với đề tài “Phân Tích Hành Vi Sử Dụng Dịch Vụ Viễn Thông Của Khách Hàng Dựa Trên Thuật Tốn Phân Cụm Đưa Ra Chính Sách Khuyến Mại Về Sản Phẩm Và Theo Phân Khúc Khách Hàng ” nhằm mục tiêu đưa ứng dụng Phân tích liệu lớn vào khai thác nguồn tài nguyên đặc biệt – Big Data Sử dụng công cụ khai thác Big Data, công cụ sử dụng để lưu trữ vận hành hệ thống Big Data - Hadoop, công cụ xử lý học máy, xử lý liệu lớn Spark, Zeppelin (Spark ML), ứng dụng hệ khuyến nghị, học máy kỹ thuật phân tích hành vi khách hàng nhằm đưa kết phù hợp với nhóm đối tượng khách hàng sử dụng dịch vụ Phần lại luận văn trình bày theo cấu trúc sau Chương trình bày khái niệm phục vụ cho nghiên cứu đề tài, Big Data, công cụ sử dụng trình thực đề tài, phương thức xây dựng hệ sở liệu khách hàng 360 – khung liệu sử dụng xun suốt q trình xây dựng mơ hình học máy sử dụng để đánh giá mô hình học máy, thuật tốn sử dụng q trình thực Tính ứng dụng sử dụng thư viện Spark ML điểm ưu việt Spark sử dụng để xây dựng ứng dụng cho giải thuật rừng ngẫu nhiên song song Chương trình bày trình thực hiện, phiên xây dựng mơ hình kết thực nghiệm Cuối phần kết luận, ý nghĩa phương pháp triển khai, kết đạt định hướng nghiên cứu Chương 2: Công cụ, tảng, thuật toán sử dụng ứng dụng Phân tích liệu 2.1 Các cơng cụ tảng Với xuất liên tục nhiều phương thức phổ biến thông tin mới, gia tăng công nghệ điện toán đám mây Internet vạn vật (IoT), liệu không ngừng tăng lên với tốc độ cao Quy mơ liệu tồn cầu liên tục tăng với tốc độ lần sau hai năm [1] Giá trị ứng dụng liệu lĩnh vực trở nên quan trọng hết Tồn lượng lớn thông tin đáng giá liệu có sẵn Sự xuất thời đại liệu lớn đặt vấn đề thách thức nghiêm trọng bên cạnh lợi ích rõ ràng Do nhu cầu kinh doanh áp lực cạnh tranh, hầu hết doanh nghiệp có yêu cầu cao xử lý liệu theo thời gian thực hợp lệ [2] Do đó, vấn đề làm để khai thác thơng tin có giá trị từ liệu khổng lồ cách hiệu xác Đồng thời, liệu lớn nắm giữ đặc điểm số chiều cao, độ phức tạp nhiễu Dữ liệu khổng lồ thường chứa thuộc tính tìm thấy biến đầu vào khác hàng trăm hàng nghìn cấp, trong số chúng chứa thông tin Vấn đề thứ hai chọn kỹ thuật thích hợp dẫn đến hiệu suất phân loại tốt cho tập liệu chiều nhiều chiều Xem xét kiện nói trên, khai thác phân tích liệu cho liệu quy mơ lớn trở thành chủ đề nóng học thuật nghiên cứu công nghiệp Tốc độ khai thác phân tích liệu liệu quy mơ lớn thu hút nhiều quan tâm giới học thuật công nghiệp Các nghiên cứu khai thác liệu phân tán song song dựa tảng điện toán đám mây đạt nhiều thành tựu thuận lợi [3],[4] Hadoop [5] tảng đám mây tiếng sử dụng rộng rãi khai thác liệu 2.1.1 Big Data Khái niệm Big Data Big Data (Dữ liệu lớn) thuật ngữ mơ tả q trình xử lý liệu tập liệu lớn bao gồm liệu có cấu trúc hay khơng có cấu trúc Big Data quan trọng với tổ chức, doanh nghiệp liệu ngày lớn nhiều liệu giúp phân tích xác Việc phân tích 10 ... công nghệ thơng tin “PHÂN TÍCH HÀNH VI SỬ DỤNG DỊCH VỤ VI? ??N THƠNG CỦA KHÁCH HÀNG DỰA TRÊN THUẬT TỐN PHÂN CỤM ĐƯA RA CHÍNH SÁCH KHUYẾN MẠI VỀ SẢN PHẨM VÀ THEO PHÂN KHÚC KHÁCH HÀNG” cơng trình nghiên... Phân Cụm Đưa Ra Chính Sách Khuyến Mại Về Sản Phẩm Và Theo Phân Khúc Khách Hàng ” nhằm mục tiêu đưa ứng dụng Phân tích liệu lớn vào khai thác nguồn tài nguyên đặc biệt – Big Data Sử dụng công cụ... thiện sách, tối đa hóa lợi ích cho người dùng tăng trưởng doanh thu bền vững cho doanh nghiệp Với đề tài ? ?Phân Tích Hành Vi Sử Dụng Dịch Vụ Vi? ??n Thơng Của Khách Hàng Dựa Trên Thuật Tốn Phân Cụm Đưa

Ngày đăng: 26/03/2023, 22:50

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w