Khai thác trích xuất thông tin người dùng

81 1 0
Khai thác trích xuất thông tin người dùng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ Khai thác, trích xuất thơng tin người dùng TRỊNH TRƯỜNG GIANG Giang.TTCB190205@sis.hust.edu.vn Ngành Khoa học máy tính Giảng viên hướng dẫn: TS Trần Việt Trung —————— Trường: Công nghệ Thơng tin Truyền thơng Hà Nội, 04/2022 CỘNG HỒ XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc ———————————— BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ Họ tên tác giả luận văn: Trịnh Trường Giang Đề tài luận văn: Khai thác, trích xuất thơng tin người dùng Chun ngành: Khoa học máy tính Mã số SV: CB190205 Tác giả, Người hướng dẫn khoa học Hội đồng chấm luận văn xác nhận tác giả sửa chữa, bổ sung luận văn theo biên họp Hội đồng ngày 28/04/2022 với nội dung sau: • Sửa tên luận văn bìa cho với định giao đề tài • Sửa số ý luận văn chưa phù hợp, theo ý kiến Hội đồng • Bổ sung số tài liệu tham khảo sử dụng cho đầy đủ • Bỏ phần code có luận văn • Sửa lỗi tả, lỗi định dạng văn Hà Nội, ngày tháng năm Giảng viên hướng dẫn Tác giả luận văn CHỦ TỊCH HỘI ĐỒNG ĐỀ TÀI LUẬN VĂN Thơng tin học viên • Họ tên: Trịnh Trường Giang • Mã học viên: CB190205 • Điện thoại liên lạc: 0944467297• Email: Giang.TTCB190205@sis.hust.edu.vn • Lớp: Khoa học liệu (KH) • Khố: CH2019B • Luận văn tốt nghiệp thực tại: Trường Đại học Bách khoa Hà Nội • Thời gian làm Luận văn tốt nghiệp: từ ngày 27/03/2020 đến 26/03/2022 Mục đích nội dung Luận văn tốt nghiệp • Tìm hiểu, phân tích tảng liệu khách hàng (Customer Data Plat-form - CDP) có thị trường • Trên sở đó, thực nghiên cứu, triển khai hệ thống CDP kế thừa ưu điểm hệ thống CDP có, ngồi khắc phục hạn chế, bổ sung tính để hồn thiện hệ thống CDP hoàn chỉnh, cho phép khai thác, trích xuất thơng tin người dùng từ nhiều nguồn Các nhiệm vụ cụ thể Luận văn tốt nghiệp • Tìm hiểu khảo sát hệ thống CDP có thị trường • Tổng kết chức hệ thống CDP, ưu nhược điểm hệ thống CDP • Phân tích chức hệ thống CDP xây dựng triển khai • Đề xuất thiết kế hệ thống cho chức xây dựng triển khai • Đề xuất mơi trường triển khai hệ thống kiến trúc triển khai hệ thống hồn chỉnh • Thử nghiệm đánh giá kết • Kết luận định hướng hướng phát triển tương lai Lời cam đoan học viên Tôi – Trịnh Trường Giang – cam kết Luận văn tốt nghiệp cơng trình nghiên cứu thân tơi hướng dẫn TS Trần Việt Trung Các kết nêu Luận văn tốt nghiệp trung thực, khơng phải chép tồn văn cơng trình khác Xác nhận giáo viên hướng dẫn mức độ hoàn thành Luận văn tốt nghiệp cho phép bảo vệ: Hà Nội, ngày 08 tháng 04 năm 2022 Giảng viên hướng dẫn Tác giả Luận văn tốt nghiệp TS Trần Việt Trung Trịnh Trường Giang Lời cảm ơn Đầu tiên, cho xin gửi lời cảm ơn chân thành đến Thầy, Cô giáo viện Công nghệ thông tin Truyền thơng Trong suốt q trình học tập thực Luận văn tốt nghiệp, Thầy, Cô dạy không kiến thức, kỹ mà cịn truyền cho tơi cảm hứng nhiệt huyết để vững tâm suốt thời gian qua cho chặng đường dài tương lai tới Tơi xin bày tỏ lịng biết ơn sâu sắc tới TS Trần Việt Trung Thầy người định hướng, bảo tận tình, người động viên khích lệ tơi nhiều để tơi hồn thành Luận văn tốt nghiệp Ngồi ra, tơi xin gửi lời cảm ơn đến Phịng Cơng nghệ GTech thuộc Tập đồn CenGroup tạo điều kiện, mơi trường sáng tạo cho tơi hồn thành tốt nhiệm vụ Luận văn giao Đặc biệt dành lời cảm ơn đến anh Nguyễn Hoàng Long, anh Trần Việt Anh đồng nghiệp người anh thân thiết đưa ý tưởng, góp ý q trình tơi hồn thiện Luận văn Cảm ơn bạn Lương Đức Quyền – đồng nghiệp công ty, người giúp thực phần giao diện người dùng cho hệ thống Cuối cùng, xin gửi lời cảm ơn đến gia đình, anh chị, bạn bè, đồng nghiệp công ty ủng hộ tơi tinh thần suốt q trình thực Luận văn Tóm tắt nội dung luận văn Luận văn thực việc thiết kế, xây dựng, triển khai tảng liệu khách hàng (Customer Data Platform - CDP) cho phép khai thác, trích xuất thông tin người dùng từ nhiều nguồn Qua trình nghiên cứu thực thử nghiệm, kết thu Luận văn khả quan tích cực Báo cáo trình bày trình thực Luận văn tốt nghiệp, vấn đề giải quyết, định hướng tương lai cho sản phẩm Kết quả, luận văn thiết kế, xây dựng, triển khai thành công hệ thống CDP môi trường Amazon Cloud kế thừa tính ưu điểm hệ thống CDP khác có thị trường, cải tiến bổ sung tính mà sản phẩm khác cịn hạn chế Luận văn mang tính chất nghiên cứu phát triển sản phẩm, nhiên đưa kiến trúc triển khai hệ thống hồn tồn áp dụng cho môi trường sản suất (production), đáp ứng lượng người dùng lớn thực tế Nội dung Luận văn tốt nghiệp tập trung vào việc đưa phân tích chức hệ thống CDP cần xây dựng, từ đề xuất thiết kế cho thành phần, chức Cuối thực tổng hợp đề xuất kiến trúc triển khai hoàn chỉnh cho toàn hệ thống Bên cạnh đó, báo cáo đưa đánh giá ưu nhược điểm đề xuất thiết kế triển khai Tác giả Luận văn tốt nghiệp Trịnh Trường Giang Mục lục Danh sách hình ảnh Danh sách bảng Mở đầu Kiến thức tảng 2.1 Hệ thống CRM CDP 2.2 Hệ thống Microsoft Dynamics 365 Customer Insights 2.3 Mục tiêu đề tài Phân tích thiết kế hệ thống 12 14 3.1 Kiến trúc tổng quan hệ thống 3.2 Thành phần tổ chức, lưu trữ liệu trung tâm 3.2.1 Phân tích chức 3.2.2 Thiết kế lược đồ sở liệu 3.3 Thành phần ghi nhật ký người dùng 3.3.1 Phân tích chức 3.3.2 Thiết kế kiến trúc luồng xử lý 3.3.3 Các công nghệ sử dụng 3.4 Thành phần nhập liệu 3.4.1 Phân tích chức 3.4.2 Thiết kế sở liệu 3.5 Thành phần hợp liệu 3.5.1 Phân tích chức 3.5.2 Thiết kế luồng xử lý lược đồ sở liệu 3.6 Thành phần phân nhóm khách hàng 3.6.1 Phân tích chức 3.6.2 Phân tích chức Triển khai hệ thống 14 15 15 17 25 25 26 27 34 34 34 37 37 38 41 41 41 44 4.1 Cơ sở hạ tầng 4.2 Xây dựng hệ thống 4.2.1 Hệ thống sở liệu 4.2.2 Hệ thống Backend 4.2.3 Hệ thống thu thập xử lý log 4.2.4 Hệ thống giao diện người dùng 4.2.5 Kiến trúc triển khai 4.3 Triển khai hệ thống 44 47 47 50 52 54 60 63 Kết luận 5.1 Đánh giá chung 5.2 Những vấn đề tồn cần cải tiến Tài liệu tham khảo 66 66 67 69 Danh sách hình ảnh 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 2.11 2.12 2.13 2.14 3.1 Data source Microsoft Dynamics 365 Customer Insights Nhập liệu Microsoft Dynamics 365 Customer Insights Entities Microsoft Dynamics 365 Customer Insights Map liệu Microsoft Dynamics 365 Customer Insights Match liệu Microsoft Dynamics 365 Customer Insights Rule Match liệu Microsoft Dynamics 365 Customer Insights Match Preview Microsoft Dynamics 365 Customer Insights Merge liệu Microsoft Dynamics 365 Customer Insights Trang danh sách Customer Microsoft Dynamics 365 Customer Insights Trang chi tiết Customer Microsoft Dynamics 365 Customer Insights Trang Segment Microsoft Dynamics 365 Customer Insights Tạo Rule Segment Microsoft Dynamics 365 Customer Insights Trang chi tiết Segment Microsoft Dynamics 365 Customer Insights Bảng giá Microsoft Dynamics 365 Customer Insights Kiến trúc tổng quan hệ thống 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 3.10 3.11 3.12 4.1 Lược đồ sở liệu trung tâm Thiết kế Module Logging Kiến trúc cụm Kafka Streams Spark Streaming Spark Streaming Context Ví dụ việc trích xuất từ Input Dstream Caching liệu nodes Checkpoints Spark Streaming Lược đồ sở liệu Module Importer Lược đồ sở liệu Module Hợp liệu Lược đồ sở liệu Module Phân nhóm người dùng Báo cáo Magic Quadrant 2021 dịch vụ tảng & hạ tầng đám 21 26 28 30 31 31 31 32 35 39 42 4.2 4.3 4.4 4.5 4.6 4.7 4.8 4.9 4.10 mây Cơ chế hoạt động Galera Cluster MariaDB Kiến trúc hệ thống backend Kiến trúc module Logging Giao diện quản lý Apache Ambari Trang danh sách khách hàng Trang chi tiết khách hàng Trang nhập liệu Trang giao diện cho chức ánh xạ liệu Trang giao diện tạo luật để đối sánh liệu 47 49 51 52 53 54 55 55 56 56 2.10 5 6 7 9 10 10 11 11 14 4.11 Trang giao diện quản lý segment 4.12 Trang giao diện để định nghĩa segment 4.13 Trang giao diện danh sách người dùng thoả mãn segment 4.14 Trang giao diện quản lý trường liệu hệ thống 4.15 Trang giao diện tạo trường liệu cho hệ thống 4.16 Trang giao diện liệt kê danh sách loại Activity hệ thống 4.17 Trang giao diện tạo loại Activity hệ thống 4.18 Kiến trúc Kubernetes 4.19 Kiến trúc hệ thống 4.20 Màn hình quản trị tài nguyên hệ thống 4.21 Cảnh báo hệ thống có vấn đề 57 57 58 58 59 59 60 62 63 64 65

Ngày đăng: 04/06/2023, 11:33

Tài liệu cùng người dùng

  • Đang cập nhật ...