1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Xây dựng data lakehouse cho hệ thống search engine

76 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH ĐỒ ÁN TỐT NGHIỆP NGÀNH KỸ THUẬT DỮ LIỆU XÂY DỰNG DATA LAKEHOUSE CHO HỆ THỐNG SEARCH ENGINE GVHD: Th.S HUỲNH XUÂN PHỤNG SVTH: PHẠM VĂN HÙNG TRỊNH CƠNG VIỄN SKL009615 KHĨA 2018 - 2022 TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP HỒ CHÍ MINH KHOA CƠNG NGHỆ THƠNG TIN PHẠM VĂN HÙNG - 18133018 TRỊNH CÔNG VIỄN - 18133061 Đề Tài: XÂY DỰNG DATA LAKEHOUSE CHO HỆ THỐNG SEARCH ENGINE KHÓA LUẬN TỐT NGHIỆP NGÀNH KỸ THUẬT DỮ LIỆU GIÁO VIÊN HƯỚNG DẪN TS HUỲNH XUÂN PHỤNG KHÓA 2018 – 2022 TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP HỒ CHÍ MINH KHOA CƠNG NGHỆ THƠNG TIN PHẠM VĂN HÙNG - 18133018 TRỊNH CÔNG VIỄN - 18133061 Đề Tài: XÂY DỰNG DATA LAKEHOUSE CHO HỆ THỐNG SEARCH ENGINE KHÓA LUẬN TỐT NGHIỆP NGÀNH KỸ THUẬT DỮ LIỆU GIÁO VIÊN HƯỚNG DẪN TS HUỲNH XUÂN PHỤNG KHÓA 2018 - 2022 ĐẠI HỌC SƯ PHẠM KỸ THUẬT CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT TP.HCM NAM Độc lập – Tự – Hạnh Phúc PHIẾU NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN Họ tên Sinh viên 1: Phạm Văn Hùng MSSV: 18133018 Họ tên Sinh viên 2: Trịnh Công Viễn MSSV: 18133061 Ngành: Kỹ thuật liệu Tên đề tài: Xây dựng Data Lakehouse cho hệ thống Search Engine Họ tên giáo viên hướng dẫn: Huỳnh Xuân Phụng NHẬN XÉT Về nội dung đề tài khối lượng thực hiện: Ưu điểm: Khuyết điểm: Đề nghị cho bảo vệ hay không ? Đánh giá loại: Điểm: Tp Hồ Chí Minh, ngày tháng năm 2022 Giáo viên hướng dẫn (Ký & ghi rõ họ tên) ĐẠI HỌC SƯ PHẠM KỸ THUẬT CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT TP.HCM NAM Độc lập – Tự – Hạnh Phúc PHIẾU NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN Họ tên Sinh viên 1: Phạm Văn Hùng MSSV: 18133018 Họ tên Sinh viên 2: Trịnh Công Viễn MSSV: 18133061 Ngành: Kỹ thuật liệu Tên đề tài: Xây dựng Data Lakehouse cho hệ thống Search Engine Họ tên giáo viên phản biện: Lê Thị Minh Châu NHẬN XÉT Về nội dung đề tài khối lượng thực hiện: Ưu điểm: Khuyết điểm: Đề nghị cho bảo vệ hay khơng ? Đánh giá loại: Điểm: Tp Hồ Chí Minh, ngày tháng năm 2022 Giáo viên phản biện (Ký & ghi rõ họ tên) LỜI CẢM ƠN Một khóa luận tốt nghiệp trơi qua ngắn ngủi để lại nhiều cảm xúc Chúng xin gửi lời cảm ơn chân thành đến thầy Huỳnh Xuân Phụng Thầy tận tình hướng dẫn cung cấp tài liệu cần thiết cho chúng tơi Trong suốt q trình thực khóa luận, Thầy theo dõi tiến độ, giải đáp thắc mắc chia sẻ giúp vượt qua khó khăn Chúng tơi vơ trân q tâm huyết trách nhiệm Thầy công việc giảng dạy truyền đạt kiến thức đến sinh viên Chúng xin gửi lời cảm ơn sâu sắc đến Thầy Cô khoa Công nghệ Thông tin - Đại học Sư phạm Kỹ thuật TP.HCM đồng hành hỗ trợ chúng tơi suốt q trình học tập thực khóa luận Chúng tơi xin cảm ơn trường Sư phạm Kỹ thuật tạo nhiều điều kiện thuận lợi cho hoạt động phục vụ học tập sinh viên chúng tôi, đặc biệt thư viện số với nguồn tri thức vô tận Chúng gửi lời cảm ơn chân thành đến bạn khóa 2018 ngành Kỹ thuật liệu, cảm ơn góp ý chia sẻ quý giá từ tất bạn Cảm ơn động viên từ bạn để nhóm chúng tơi giữ vững tinh thần thực khóa luận tiến độ Chúng tơi ln ghi nhớ giá trị cốt lõi nhà trường, Thầy cô bạn bè mang đến để làm động lực thúc đẩy thân phát triển hoàn thiện Cơng việc chắn có khó khăn khổ luyện thành nhân, rõ ràng thân có bước tiến kiến thức, tư duy, kỹ năng, cách làm việc mối quan hệ ứng xử với người Chúng nhận thấy thân có khuyết điểm thiếu sót cần cố gắng cải thiện để tốt hơn, hướng tới mục tiêu lớn tương lai Trường ĐH Sư Phạm Kỹ Thuật TP.HCM Khoa: Công nghệ thông tin ĐỀ CƯƠNG TIỂU LUẬN CHUYÊN NGÀNH Họ tên Sinh viên 1: Phạm Văn Hùng MSSV: 18133018 Họ tên Sinh viên 2: Trịnh Cơng Viễn MSSV: 18133061 Thời gian làm khóa luận: Từ: 23/2/2022 Đến: 06/2022 Chuyên ngành: Kỹ thuật liệu Tên luận văn: Xây dựng Data Lakehouse cho hệ thống search engine GV hướng dẫn: Ts Huỳnh Xuân Phụng Nhiệm vụ khóa luận: Tìm hiểu sở lý thuyết Data lakehouse, Apache Hadoop, Superset, Search Engine Tìm hiểu cách xây dựng Data lakehouse tảng Hadoop sử dụng công cụ cần thiết dựa sở lý thuyết tìm hiểu Thực xây dựng xây dựng Data Lakehouse cho hệ thống Search Engine: quản lý loại tài liệu: word, pdf, csv, liệu từ SQL server, MySQL, Mongodb, dựa kiến thức tìm hiểu Đề cương viết khóa luận: CHƯƠNG MỞ ĐẦU 1.1 TÍNH CẤP THIẾT CỦA ĐỀ TÀI 1.2 MỤC TIÊU CỦA ĐỀ TÀI 1.3 CÁCH TIẾP CẬN VÀ PHƯƠNG PHÁP NGHIÊN CỨU 1.4 KẾT QUẢ DỰ KIẾN ĐẠT ĐƯỢC 1.5 BỐ CỤC CỦA BÀI BÁO CÁO CHƯƠNG TỔNG QUAN VỀ SEARCH ENGINE 2.1 KHÁI NIỆM VỀ SEARCH ENGINE 2.2 CẤU TRÚC VÀ ĐẶC TÍNH CỦA SEARCH ENGINE 2.3 LỢI ÍCH CỦA SEARCH ENGINE 2.4 DATA LAKEHOUSE CHO HỆ THỐNG SEARCH ENGINE CHƯƠNG TỔNG QUAN VỀ DATA LAKEHOUSE 3.1 KHÁI NIỆM VỀ DATA LAKEHOUSE 3.2 CÔNG NGHỆ SỬ DUNG TRONG DATA LAKEHOUSE 3.3 CÁC ĐẶC ĐIỂM CỦA DATA LAKEHOUSE 3.4 LỢI ÍCH CỦA DATA LAKEHOUSE CHƯƠNG KHẢO SÁT HIỆN TRẠNG 4.1 DATA LAKEHOUSE – KIẾN TRÚC DỮ LIỆU HIỆN ĐẠI 4.2 NỀN TẢNG DATABRICKS LAKEHOUSE 4.3 VAI TRÒ CỦA SEARCH ENGINE TRONG THỜI ĐẠI HIỆN NAY 4.4 CÁC SEARCH ENGINE PHỔ BIẾN HIỆN NAY 4.5 HỆ THỐNG SEARCH ENGINE CỦA GOOGLE CHƯƠNG TỔNG QUAN VỀ APACHE HADOOP, APACHE SUPERSET 5.1 TỔNG QUAN VỀ APACHE HADOOP 5.1.1 Khái niệm Apache Hadoop 5.1.2 Cấu trúc Apache Hadoop 5.1.3 Ưu điểm Apache Hadoop 5.2 TỔNG QUAN VỀ APACHE SUPERSET 5.2.1 Khái niệm Apache Superset 5.2.2 Cấu trúc Apache Superset 5.2.3 Ưu điểm Apache Superset CHƯƠNG XÂY DỰNG DATA LAKE TRÊN NỀN TẢNG HADOOP 6.1 NHU CẦU SỬ DỤNG HADOOP CHO HỆ THỐNG DATA LAKE 6.2 KIẾN TRÚC TỔNG QUAN CỦA HỆ THỐNG DATALAKE TRÊN HADOOP CHƯƠNG XÂY DỰNG DATA LAKEHOUSE CHO HỆ THỐNG SEARCH ENGINE 7.1 XÂY DỰNG HỆ THỐNG 7.1.1 Kiến trúc tổng quan Data lakehouse cho hệ thống Search Engine 7.1.2 Tạo máy ảo Ubuntu AWS Cloud 7.1.3 Cài đặt công cụ hỗ trợ truy cập 7.1.4 Cài đặt Apache Hadoop 7.1.5 Cài đặt Apache Superset 7.1.6 Cài đặt MYSQL 7.2 KẾT NỐI MYSQL VỚI SUPERSET 7.3 KẾT QUẢ THỰC HIỆN 7.3.1 Hình thành HDFS nơi để load liệu lên 7.3.2 Tạo lớp MetaData cho liêu Data Lakes 7.3.3 Thiết kế sử dụng công cụ truy vấn cung cấp thực thi SQL, thực thi công cụ hỗ trợ BI (Business Intelligence) 7.3.4 Áp dụng Machine Learning liệu với thuật toán Recommendation 7.4 SO SÁNH VỚI NHỮNG DẠNG DATA WAREHOUSE TRUYỀN THỐNG 7.4.1 Ưu điểm 7.4.2 Hạn chế CHƯƠNG 8: KẾT LUẬN 8.1 KẾT QUẢ ĐẠT ĐƯỢC 8.2 HẠN CHẾ 8.3 HƯỚNG PHÁT TRIỂN TÀI LIỆU THAM KHẢO KẾ HOẠCH THỰC HIỆN STT Thời gian Công việc 19/3/2022 Lựa chọn xác định đề tài khóa Ghi luận 26/3/2022 Tìm hiểu vấn đề chung liên quan đến đề tài (tài liệu, tốn,…) 2/4/2022 Tìm hiểu lý thuyết Cloud 9/4/2022 Tìm hiểu lý thuyết Hadoop 12/4/2022 Tìm hiểu lý thuyết HDFS 19/4/2022 Tìm hiểu lý thuyết Superset 30/4/2022 Cài đặt cụm Hadoop máy ảo 5/5/2022 Cài đặt Apache Superset cụm Quay video demo máy cài Hadoop 10/5/2022 Cài đặt xây dựng DataLake cụm Hadoop 10 14/5/2022 Cài đặt Supertset máy Ubuntu 11 20/5/2022 Kết nối hệ thống lại với gồm: Apache Hadoop, Apache Superset 12 11/6/2022 Hình thành số metadata mẫu Quay video demo cho hệ thống 13 17/6/2022 Chuyển đổi MetaData để load vào sở liệu 14 19/6/2022 Thực thi công cụ BI Quay video demo 15 21/6/2022 Hồn thiện, rà sốt báo cáo hồn Hồn thành báo chỉnh phần ứng dụng cáo ứng dụng

Ngày đăng: 12/05/2023, 13:51

Xem thêm:

w