1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Phân tích hành vi sử dụng dịch vụ viễn thông của khách hàng dựa trên thuật toán phân cụm đưa ra chính sách khuyến mại về sản phẩm và theo phân khúc khách hàng​

81 44 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 81
Dung lượng 2,26 MB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ HỒNG ANH DŨNG PHÂN TÍCH HÀNH VI SỬ DỤNG DỊCH VỤ VIỄN THÔNG CỦA KHÁCH HÀNG DỰA TRÊN THUẬT TỐN PHÂN CỤM ĐƯA RA CHÍNH SÁCH KHUYẾN MẠI VỀ SẢN PHẨM VÀ THEO PHÂN KHÚC KHÁCH HÀNG Ngành: Công Nghệ Thơng Tin Chun ngành: Khoa Học Máy Tính Mã Số: 8480101.01 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS TRẦN TRÚC MAI TS NGUYỄN ĐÌNH HĨA Hà nội – 2020 LỜI CẢM ƠN Trước tiên xin dành lời cảm ơn chân thành sâu sắc đến thầy giáo, TS Trần Trúc Mai, người định hướng mục tiêu cách thức thực đề tài TS Nguyễn Đình Hóa – người hướng dẫn, khuyến khích, bảo tạo cho điều kiện tốt từ bắt đầu hoàn thành nhiệm vụ đề tài Tơi xin dành lời cảm ơn chân thành tới thầy cô giáo khoa Công nghệ thông tin, trường Đại học Cơng nghệ, ĐHQGHN tận tình đào tạo, cung cấp cho kiến thức vô quý giá tạo điều kiện tốt cho tơi suốt q trình học tập, nghiên cứu trường Đồng thời xin cảm ơn tất người thân u gia đình tơi tồn thể bạn bè người giúp đỡ, động viên tơi vấp phải khó khăn, bế tắc Cuối cùng, xin chân thành cảm ơn đồng nghiệp tơi Trung Tâm Phân Tích Dữ Liệu – Viettel, giúp đỡ, tạo điều kiện thuận lợi cho tơi học tập nghiên cứu chương trình thạc sĩ Đại học Công nghệ, Đại học Quốc Gia Hà Nội LỜI CAM ĐOAN Tôi xin cam đoan luận văn thạc sĩ công nghệ thông tin “PHÂN TÍCH HÀNH VI SỬ DỤNG DỊCH VỤ VIỄN THƠNG CỦA KHÁCH HÀNG DỰA TRÊN THUẬT TOÁN PHÂN CỤM ĐƯA RA CHÍNH SÁCH KHUYẾN MẠI VỀ SẢN PHẨM VÀ THEO PHÂN KHÚC KHÁCH HÀNG” cơng trình nghiên cứu riêng tơi, khơng chép lại người khác Trong tồn nội dung luận văn, điều trình bày cá nhân tơi tổng hợp từ nhiều nguồn tài liệu Tất nguồn tài liệu tham khảo có xuất xứ rõ ràng hợp pháp Tơi xin hồn tồn chịu trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Hà Nội, ngày … tháng … năm … … Mục Lục LỜI CẢM ƠN LỜI CAM ĐOAN Chương 1: Giới thiệu Chương 2: Công cụ, tảng, thuật toán sử dụng ứng dụng Phân tích liệu 2.1 Các cơng cụ tảng 2.1.1 Big Data 2.1.2 Giới thiệu Hadoop 13 2.1.3 Các ứng dụng tảng Apache Hadoop 14 2.1.4 HDFS 16 2.1.5 Đọc ghi liệu HDFS 17 2.1.6 Map-Reduce 19 2.1.7 SPARK, tảng công cụ ứng dụng 20 2.2 Giới thiệu học máy 26 2.2.1 Một số khái niệm 27 2.2.2 Các vấn đề trình thực đề tài 30 Chương 3: Spark giải thuật rừng ngẫu nhiên song song (Parallel Random Forest PRF) 32 3.1 Thuật toán rừng ngẫu nhiên 33 3.2 Giải thuật xử lý song song rừng ngẫu nhiên cho liệu lớn tảng Spark 36 3.2.1 Tối ưu hóa xử lý liệu đồng thời 37 3.2.2 Tối ưu hóa xử lý tiến trình đồng thời 44 3.2.3 Phân tích phương pháp xử lý task đồng thời 49 3.3 Kmeans, tối ưu hóa xử lý Kmeans với Spark 52 Chương 4: Triển khai thực nghiệm 57 4.1 Cơ sở liệu Khách hàng 360 độ 57 4.2 Mơ hình ứng dụng 60 4.2.1 Quá trình Phân cụm liệu huấn luyện: 63 4.2.2 Lựa chọn ngẫu nhiên thuộc tính đánh giá: 67 4.2.3 Thực huấn luyện liệu với mơ hình Parallel RandomForest 67 4.3 Đánh giá hiệu suất: 73 4.3.1 Đánh giá thời gian xử lý với nhóm liệu 73 4.3.2 Đánh giá thời gian xử lý với cụm 73 4.4 Đánh giá hiệu thực tế: 74 KẾT LUẬN VÀ ĐỊNH HƯỚNG NGHIÊN CỨU TIẾP THEO 77 TÀI LIỆU THAM KHẢO 80 DANH MỤC HÌNH VẼ Hình 2.1 Kiến trúc HDFS 16 Hình 2.2 Luồng đọc liệu HDFS 18 Hình 2.3 Luồng ghi liệu HDFS 18 Hình 2.4 Mơ hình Map-Reduce 19 Hình 2.5 Cơ chế Map-Reduce 20 Hình 2.6 thành phần Spark 22 Hình 2.7 Cơ chế hoạt động Spark 23 Hình 2.8 Cơ chế hoạt động Spark RDD 25 Hình 2.9 Zeppelin phương thức hoạt động 26 Hình 2.10 Mơ hình học có giám sát 28 Hình 2.11 Mơ hình học bán giám sát 30 Hình 3.1 Đồ thị vịng DAG hình thành xử lý liệu song song Spark UI 32 Hình 3.2 Q trình xây dựng thuật tốn rừng ngẫu nhiên RandomForest 34 Hình 3.3 Quá trình phân chia liệu theo chiều dọc RDDs Spark 38 Hình 3.4 Quá trình xử lý ghép liệu đồng thời PRF 40 Hình 3.5 Ví dụ kịch phân chia liệu 42 Hình 3.6 Ví dụ task DAG cho định PRF 46 Hình 3.7 Hình dạng cụm liệu khám phá k-means 53 Hình 3.8 Thuật tốn Kmeans Spark 54 Hình 4.1 Quá trình kết hợp K-Means RandomForest 60 Hình 4.2 Tỷ lệ độ đo theo ROC tập train, test validation 69 Hình 4.3 Important Feataures v1 70 Hình 4.4 ROC - Receiver operating characteristic 71 Hình 4.5 Cumulative Gain 71 Hình 4.6 Tỷ lệ độ xác trung bình mơ hình khác 72 Hình 4.7 Phương pháp đo lường kết thực tế 74 Hình 4.8 So sánh tỷ lệ triển khai thực tế TG MHO 75 Hình 4.9 So sánh tỷ lệ triển khai thực tế MHO HO 76 DANH MỤC BẢNG Bảng 3-1: Ví dụ DSI PRF 40 Bảng 4-1: Danh mục thuộc tính đánh giá xây dựng C360 59 Bảng 4-2: Danh mục thuộc tính sử dụng 63 Bảng 4-3: Giá trị DaviesBouldin 64 Bảng 4-4: Kết phân cụm 64 Bảng 4-5: Phân nhóm khách hàng 40 tuổi 40 tuổi 66 Bảng 4-6: So sánh tỷ lệ Accuracy Precision, Recall 69 Bảng 4-7: So sánh thời gian chạy KNN PRF 70 Chương 1: Giới thiệu Trong thời đại ngày nay, để phát triển doanh nghiệp, vốn nhân lực, “dữ liệu” (data) coi nguồn lực thiếu Ai ngạc nhiên nhận thấy mua sắm trực tuyến trang thương mại điện tử eBay, Amazon, Sendo hay Tiki, trang thương mại điện tử gợi ý loạt sản phẩm có liên quan phù hợp với nhu cầu bạn Ví dụ xem điện thoại, trang mua sắm trực tuyến gợi ý cho bạn mua thêm ốp lưng, pin dự phòng; mua áo thun có thêm gợi ý quần jean thắt lưng… Bí ẩn đằng sau trang web thơng minh chào mời sản phẩm dựa nghiên cứu sở thích, thói quen khách hàng phân loại nhóm khách hàng khác Vậy thông tin để phân tích có từ đâu có tác động đến việc sản xuất kinh doanh doanh nghiệp? Thứ nhất, liệu khổng lồ khách hàng có từ thơng tin mà doanh nghiệp thu thập lúc khách hàng ghé thăm, tương tác hay mua sắm website mình; liệu mua lại từ cơng ty chuyên cung cấp liệu khách hàng Các thông tin khơng giúp nhà cung ứng hàng hóa, dịch vụ tăng lợi nhuận cho họ mà cịn tăng trải nghiệm mua sắm người dùng Một mặt, nhờ q trình tìm hiểu, phân tích khách hàng, doanh nghiệp tạo sản phẩm đáp ứng nhu cầu khách hàng, xây dựng sách phân phối bán sản phẩm đến tay người tiêu dùng cách có hiệu Mặt khác, thân người tiêu dùng tiết kiệm thời gian yên tâm trải nghiệm mua sắm Hơn nữa, tầm ngành vĩ mơ, ứng dụng liệu lớn (Big Data) giúp tổ chức phủ dự đốn tỉ lệ thất nghiệp, xu hướng nghề nghiệp tương lai để đầu tư cho hạng mục đó, cắt giảm chi tiêu, kích thích tăng trưởng kinh tế chí phương án phịng ngừa trước dịch bệnh Việc xây dựng ứng dụng tảng Big Data khai thác hiệu đem lại lợi cạnh tranh hiệu to lớn nhiều lĩnh vực, đặc biệt bối cảnh thị trường dịch vụ tài bão hịa, sở phân tích ứng dụng Big Data điều kiện nhằm ứng dụng Big Data với phân tích liệu để sử dụng nguồn tài nguyên hợp lý tối đa hóa doanh thu đưa mục tiêu kinh doanh gắn liền với hành vi khách hàng, nhằm mang lại cho doanh nghiệp phương án kinh doanh hiệu Việc sử dụng khai thác liệu lớn nguồn tài nguyên tương tự dầu khí, hay nguồn tài nguyên khác phương án để đưa doanh nghiệp tiếp cận đến người dùng cách hiệu nhất, kết hợp với mục tiêu kinh doanh để hồn thiện sách, tối đa hóa lợi ích cho người dùng tăng trưởng doanh thu bền vững cho doanh nghiệp Với đề tài “Phân Tích Hành Vi Sử Dụng Dịch Vụ Viễn Thông Của Khách Hàng Dựa Trên Thuật Tốn Phân Cụm Đưa Ra Chính Sách Khuyến Mại Về Sản Phẩm Và Theo Phân Khúc Khách Hàng” nhằm mục tiêu đưa ứng dụng Phân tích liệu lớn vào khai thác nguồn tài nguyên đặc biệt – Big Data Sử dụng công cụ khai thác Big Data, công cụ sử dụng để lưu trữ vận hành hệ thống Big Data - Hadoop, công cụ xử lý học máy, xử lý liệu lớn Spark, Zeppelin (Spark ML), ứng dụng hệ khuyến nghị, học máy kỹ thuật phân tích hành vi khách hàng nhằm đưa kết phù hợp với nhóm đối tượng khách hàng sử dụng dịch vụ Phần lại luận văn trình bày theo cấu trúc sau Chương trình bày khái niệm phục vụ cho nghiên cứu đề tài, Big Data, công cụ sử dụng trình thực đề tài, phương thức xây dựng hệ sở liệu khách hàng 360 – khung liệu sử dụng xun suốt q trình xây dựng mơ hình học máy sử dụng để đánh giá mơ hình học máy, thuật toán sử dụng trình thực Tính ứng dụng sử dụng thư viện Spark ML điểm ưu việt Spark sử dụng để xây dựng ứng dụng cho giải thuật rừng ngẫu nhiên song song Chương trình bày trình thực hiện, phiên xây dựng mơ hình kết thực nghiệm Cuối phần kết luận, ý nghĩa phương pháp triển khai, kết đạt định hướng nghiên cứu Chương 2: Công cụ, tảng, thuật tốn sử dụng ứng dụng Phân tích liệu 2.1 Các công cụ tảng Với xuất liên tục nhiều phương thức phổ biến thông tin mới, gia tăng công nghệ điện toán đám mây Internet vạn vật (IoT), liệu không ngừng tăng lên với tốc độ cao Quy mơ liệu tồn cầu liên tục tăng với tốc độ lần sau hai năm [1] Giá trị ứng dụng liệu lĩnh vực trở nên quan trọng hết Tồn lượng lớn thông tin đáng giá liệu có sẵn Sự xuất thời đại liệu lớn đặt vấn đề thách thức nghiêm trọng bên cạnh lợi ích rõ ràng Do nhu cầu kinh doanh áp lực cạnh tranh, hầu hết doanh nghiệp có yêu cầu cao xử lý liệu theo thời gian thực hợp lệ [2] Do đó, vấn đề làm để khai thác thơng tin có giá trị từ liệu khổng lồ cách hiệu xác Đồng thời, liệu lớn nắm giữ đặc điểm số chiều cao, độ phức tạp nhiễu Dữ liệu khổng lồ thường chứa thuộc tính tìm thấy biến đầu vào khác hàng trăm hàng nghìn cấp, trong số chúng chứa thơng tin Vấn đề thứ hai chọn kỹ thuật thích hợp dẫn đến hiệu suất phân loại tốt cho tập liệu chiều nhiều chiều Xem xét kiện nói trên, khai thác phân tích liệu cho liệu quy mô lớn trở thành chủ đề nóng học thuật nghiên cứu cơng nghiệp Tốc độ khai thác phân tích liệu liệu quy mô lớn thu hút nhiều quan tâm giới học thuật công nghiệp Các nghiên cứu khai thác liệu phân tán song song dựa tảng điện toán đám mây đạt nhiều thành tựu thuận lợi [3],[4] Hadoop [5] tảng đám mây tiếng sử dụng rộng rãi khai thác liệu 2.1.1 Big Data Khái niệm Big Data Big Data (Dữ liệu lớn) thuật ngữ mơ tả q trình xử lý liệu tập liệu lớn bao gồm liệu có cấu trúc hay khơng có cấu trúc Big Data quan trọng với tổ chức, doanh nghiệp liệu ngày lớn nhiều liệu giúp phân tích xác Việc phân tích xác giúp doanh nghiệp đưa định giúp tăng hiệu sản xuất, giảm rủi ro chi phí Những liệu tới từ nơi – ví dụ từ cảm biến để thu thập thông tin thời tiết, thông tin cập nhật trang web mạng xã hội, ảnh video kỹ thuật số đưa lên mạng, liệu giao dịch hoạt động mua sắm mạng – hình thức khác (có cấu trúc, phi cấu trúc, bán cấu trúc) Đó liệu lớn Big Data thuật ngữ dùng để tập hợp liệu lớn hỗn tạp cơng cụ, ứng dụng xử lí liệu truyền thống khó đảm đương Bằng việc tổng hợp lượng thông tin lớn từ nguồn khác khiến cho Big Data trở thành công cụ mạnh cho việc định kinh doanh, nhận diện hành vi xu hướng nhanh tốt nhiều so với cách thức truyền thống Big Data nhận diện ba khía cạnh chính: Dữ liệu (Data), Cơng nghệ (Technology), Quy mơ (Size) Thứ nhất, liệu (data) bao gồm liệu thuộc nhiều định dạng khác hình ảnh, video, âm nhạc… Internet [6]; gồm liệu thu thập từ hệ thống cung ứng dịch vụ công nghệ thơng tin có kết nối với hệ thống máy chủ; liệu khách hàng ứng dụng thơng minh thiết bị có kết nối mạng; liệu người dùng để lại tảng mạng xã hội, việc ứng dụng khai phá liệu lớn tạo thành quy trình khép kín, việc bổ sung liệu huấn luyên diễn liên tục [7] Do liệu cập nhật qua thiết bị kết nối mạng giờ, phút, giây đến từ nhiều nguồn khác nên khối lượng liệu lớn (Big) Hiện nay, Big Data đo lường theo đơn vị Terabytes (TB), Petabytes (PB) Exabytes (EB) Có thể dễ dàng lấy vài ví dụ Walmart xử lý triệu giao dịch khách hàng giờ, liệu nhập vào ước tính 2,5 PB; Facebook có 1.9 tỷ người dùng đồng thời, có hàng trăm server xử lý lưu trữ liệu [8] Twitter hệ thống mạng xã hội với 1,3 tỷ người dùng hoạt động giai đoạn đầu [9] Yếu tố nhận diện thứ hai Big Data công nghệ (technology) Công nghệ thường thiết kế hình thành hệ sinh thái từ lên để có khả xử lý liệu lớn phức tạp Một hệ sinh thái mạnh phải kể đến Hadoop với khả xử lý liệu tăng lên mức độ phức tạp liệu, lực công cụ vô giá ứng dụng Big Data Yếu tố nhận diện thứ ba Big Data quy mô liệu Hiện chưa có câu 10 ... công nghệ thơng tin “PHÂN TÍCH HÀNH VI SỬ DỤNG DỊCH VỤ VI? ??N THƠNG CỦA KHÁCH HÀNG DỰA TRÊN THUẬT TỐN PHÂN CỤM ĐƯA RA CHÍNH SÁCH KHUYẾN MẠI VỀ SẢN PHẨM VÀ THEO PHÂN KHÚC KHÁCH HÀNG” cơng trình nghiên... điểm khách hàng sử dụng dịch vụ khách hàng rời bỏ dịch vụ, hay từ khách hàng mua sản phẩm khách hàng sử dụng sản phẩm phụ kiện thứ hai… liệu theo trải rộng khắp nơi, rải rác nhiều dịch vụ lưu... Phân Cụm Đưa Ra Chính Sách Khuyến Mại Về Sản Phẩm Và Theo Phân Khúc Khách Hàng? ?? nhằm mục tiêu đưa ứng dụng Phân tích liệu lớn vào khai thác nguồn tài nguyên đặc biệt – Big Data Sử dụng công cụ

Ngày đăng: 09/02/2021, 23:17

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w