1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Tìm hiểu kiến trúc data lakehouse và xây dựng ứng dụng

77 10 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Tìm Hiểu Kiến Trúc Data Lakehouse Và Xây Dựng Ứng Dụng
Tác giả Trần Công Tuấn Mạnh, Trần Phát Đạt
Người hướng dẫn Th.S Quách Đình Hoàng
Trường học Trường Đại Học Sư Phạm Kỹ Thuật Thành Phố Hồ Chí Minh
Chuyên ngành Công Nghệ Thông Tin
Thể loại Khóa Luận Tốt Nghiệp Kỹ Sư CNTT
Năm xuất bản 2023
Thành phố Tp. Hồ Chí Minh
Định dạng
Số trang 77
Dung lượng 8 MB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH ĐỒ ÁN TỐT NGHIỆP NGÀNH CƠNG NGHỆ THƠNG TIN TÌM HIỂU KIẾN TRÚC DATA LAKEHOUSE VÀ XÂY DỰNG ỨNG DỤNG GVHD: Th.S QCH ĐÌNH HỒNG SVTH : TRẦN CƠNG TUẤN MẠNH TRẦN PHÁT ĐẠT SKL011257 Tp Hồ Chí Minh, năm 2023 TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP.HCM KHOA CÔNG NGHỆ THÔNG TIN BỘ MÔN KỸ THUẬT DỮ LIỆU -🙞🙜🕮🙞🙜 - TRẦN CÔNG TUẤN MẠNH : 19133035 TRẦN PHÁT ĐẠT : 19133018 Đề tài: Tìm hiểu kiến trúc Data Lakehouse xây dựng ứng dụng KHÓA LUẬN TỐT NGHIỆP KỸ SƯ CNTT GIÁO VIÊN HƯỚNG DẪN Th.S Quách Đình Hồng TP Hồ Chí Minh - 2023 ĐH SƯ PHẠM KỸ THUẬT TP.HCM CỘNG HÒA XHCN VIỆT NAM KHOA CÔNG NGHỆ THÔNG TIN Độc lập – Tự – Hạnh phúc ****** ****** PHIẾU NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN Họ tên Sinh viên 1: Trần Phát Đạt MSSV 1: 19133018 Họ tên Sinh viên 2: Trần Công Tuấn Mạnh MSSV 2: 19133035 Chuyên ngành: Kỹ thuật liệu Tên đề tài: Tìm hiểu kiến trúc Data Lakehouse xây dựng ứng dụng demo Họ tên giảng viên hướng dẫn: ThS Qch Đình Hồng NHẬN XÉT Về nội dung đề tài khối lượng thực hiện: Ưu điểm: Khuyết điểm: Đề nghị cho bảo vệ hay không? Đánh giá loại: Điểm: TP Hồ Chí Minh, ngày tháng năm 2023 Giảng viên hướng dẫn (Ký & ghi rõ họ tên) ĐH SƯ PHẠM KỸ THUẬT TP.HCM CỘNG HÒA XHCN VIỆT NAM KHOA CÔNG NGHỆ THÔNG TIN Độc lập – Tự – Hạnh phúc ****** ****** PHIẾU NHẬN XÉT CỦA GIẢNG VIÊN PHẢN BIỆN Họ tên Sinh viên 1: Trần Phát Đạt MSSV 1: 19133018 Họ tên Sinh viên 2: Trần Công Tuấn Mạnh MSSV 2: 19133035 Chuyên ngành: Kỹ thuật liệu Tên đề tài: Tìm hiểu kiến trúc Data Lakehouse xây dựng ứng dụng demo Họ tên giảng viên phản biện: TS Nguyễn Thành Sơn NHẬN XÉT Về nội dung đề tài khối lượng thực hiện: Ưu điểm: Khuyết điểm: Đề nghị cho bảo vệ hay không? Đánh giá loại: Điểm: TP Hồ Chí Minh, ngày tháng Giảng viên phản biện (Ký & ghi rõ họ tên) năm 2023 LỜI CẢM ƠN Lời đầu tiên, chúng em xin gửi lời cảm ơn chân thành đến thầy Quách Đình Hồng, người giúp chúng em biết đến đề tài cho chúng em đường tốt để hồn thành khóa luận Nhờ thầy đưa lời khuyên từ kinh nghiệm thực tiễn để định hướng cho chúng em hướng với đề tài chọn, thầy ln tận tình giải đáp thắc mắc cách chi tiết suốt q trình học để chúng em có thể có thêm kiến thức để thực đề tài Tiếp đó, nhóm chúng em xin gửi lời cảm ơn chân thành đến khoa Công nghệ thông tin trường Đại học Sư Phạm Kỹ Thuật Thành Phố Hồ Chí Minh cung cấp cho chúng em kiến thức tảng, mơi trường học tập phát triển để có thể thực Khóa luận tốt nghiệp Kỹ thuật Dữ liệu kỳ học Vì Khóa luận tốt nghiệp chúng em thực thời gian không dài nên khơng thể tránh khỏi sai sót mặt chưa hoàn thiện mặt kỹ thuật cách trình bày, chúng em mong quý thầy, thơng cảm bỏ qua sai sót cho nhóm chúng em Cuối cùng, chúng em xin chúc q thầy, có thật nhiều sức khỏe, thành cơng đường nghiệp Chúng em xin chân thành cảm ơn ĐH SƯ PHẠM KỸ THUẬT TP.HCM CỘNG HỊA XHCN VIỆT NAM KHOA CƠNG NGHỆ THÔNG TIN Độc lập – Tự – Hạnh phúc ****** ****** ĐỀ CƯƠNG LUẬN VĂN TỐT NGHIỆP Họ Tên SV thực : Trần Công Tuấn Mạnh Mã Số SV : 19133035 Họ Tên SV thực : Trần Phát Đạt Mã Số SV : 19133018 Thời gian làm luận văn : từ : 15/02/2023 Đến : 11/07/2023 Chuyên ngành : Kỹ Thuật Dữ Liệu Tên luận văn : Tìm hiểu kiến trúc Lakehouse xây dựng ứng dụng GV hướng dẫn : ThS Quách Đình Hồng Nhiệm Vụ Của Luận Văn : Tìm hiểu bối cảnh lịch sử, kiến trúc có Tìm hiểu kiến trúc Data Lakehouse Xây dựng Data Lakehouse Xây dựng ứng dụng gợi ý Đề cương viết luận văn : MỤC LỤC Phần MỞ ĐẦU Tính cấp thiết đề tài Mục đích đề tài Cách tiếp cận phương pháp nghiên cứu ● Đối tượng nghiên cứu ● Phạm vi nghiên cứu Phân tích cơng trình có liên quan Kết dự kiến đạt Phần NỘI DUNG Chương - Giới thiệu Bố cục luận văn Chương - Kiến thức tảng Lịch sử bối cảnh kiến trúc phổ biến Data Lake, Data Warehouse Tìm hiểu kiến trúc, thành phần Data Lakehouse Chương - Hệ thống gợi ý nhà hàng Chi tiết thiết kế hệ thống bao gồm kiến trúc, thành phần công nghệ sử dụng Triển khai xây dựng kiến trúc Data Lakehouse Thiết kế mơ hình liệu thứ ngun Xây dựng báo cáo liệu Đào tạo mơ hình gợi ý nhà hàng Xây dựng trang web gợi ý từ liệu mơ hình bước trước Phần KẾT LUẬN Tài liệu tham khảo [1] Delta Lake: High-Performance ACID Table Storage over Cloud Object Stores, Proceedings of the VLDB Endowment [2] Lakehouse: A New Generation of Open Platforms that Unify Data Warehousing and Advanced Analytics [3] Lambda kappa and now delta [4] Get Your Free Copy of Delta Lake: The Definitive Guide [5] Welcome to the Delta Lake documentation [6] A streaming ALS implementation [7] Matrix Factorization Based Recommendation System using Hybrid Optimization Technique [8] Spark Overview [9] The Data Warehouse Toolkit [10] Apache Hudi vs Delta Lake vs Apache Iceberg - Lakehouse Feature Comparison [11] Yelp Datasets [12] Databricks, What is a Medallion Architecture ? KẾ HOẠCH THỰC HIỆN ST Thời gian Công việc T 15/2/2023-20/2/2023 - Lên kế hoạch việc chọn đề tài 21/2/2023-24/2/2023 - Tìm hiểu lĩnh vực trí tuệ nhân tạo, bao gồm có thị giác máy tính xử lý ngơn ngữ tự nhiên 25/2/2023-28/2/2023 - Tìm hiểu lĩnh vực liệu, xây dựng ứng dụng 1/3/2023-5/3/2023 - Tìm hiểu điểm thuận lợi khó khăn làm đồ án lĩnh vực 6/3/2023-10/3/2023 - Đi sâu vào tìm hiểu kiến trúc tảng liệu 11/3/2023-13/3/2023 - Lên kế hoạch tìm hiểu, xây dựng đồ án - Bắt đầu với kiến thức từ tảng báo - Xây dựng kế hoạch thử nghiệm kiến trúc, ứng dụng 14/3/2023-22/3/2023 - Tìm hiểu kiến thức lĩnh vực liệu nói chung cơng cụ lưu trữ liệu nói riêng - Từ lịch sử, bối cảnh kiến trúc khứ 22/3/2023-4/4/2023 - Tìm hiểu chuyên sâu Data lakehouse, bao gồm thành phần: định dạng bảng, công cụ tính tốn, siêu liệu - Tìm kiếm liệu Ghi 4/4/2023-8/4/2023 - Phác thảo, vẽ kiến trúc Data Lakehouse - Tìm hiểu, nghiên cứu công nghệ, kỹ thuật phục vụ cho việc xây dựng hệ thống - Viết mã, cài đặt để xây dựng hệ thống Data Lakehouse 10 9/4/2023-18/4/2023 - Xây dựng hệ thống Data Lakehouse, bao gồm định dạng bảng sử dụng Delta Lake, cơng cụ tính tốn dung Apache Spark, Apache Hive Metastore để quản trị siêu liệu 11 19/4/2023-28/4/2023 - Thử nghiệm hệ thống, điểu chỉnh thông số cài đặt bao gồm số RAM, core để công cụ tính tốn hoạt động ổn định 12 29/4/2023-5/5/2023 - Thiết kế kiến trúc hệ thống gợi ý nhà hàng Với tiêu chí hỗ trợ tích hợp nhiều cơng cụ, dễ dàng sử dụng cho người dùng - Tìm hiểu, nghiên cứu công nghệ để áp dụng vào hệ thống - Xây dựng kiến trúc data pipeline từ python Có hiệu q khó bảo trì, vận hành hệ thống 13 6/5/2023-21/6/2023 - Viết mã cài đặt pipeline cho việc đào tạo mơ hình học máy, sử dụng mơ hình ALS từ Spark MLlib - Sử dụng thêm Apache Spark vào pipeline, cho hiệu suất tải liệu vào bảng nhanh Xây dựng luồn tải liệu từ nguồn vào Bronze layer - Sử dụng MinIO AWS S3 để lưu trữ liệu thô, liệu từ Data Lakehouse ghi mơ hình học máy - Xây dựng luồng chuyển đổi liệu từ Bronze tới Silver Gold Trong đó, sử dụng dbt làm cơng cụ chủn hóa, xây dựng mơ hình thứ ngun theo tiêu chuẩn từ Ralph Kimball - Xây dựng trang web gợi ý nhà hàng , viết code python triển khai lên máy chủ 14 22/6/2023-24/6/2023 - Xây dựng pipeline đánh giá, đẩy mơ hình lên server phục vụ cho trang web gợi ý sản phẩm - Xây dựng bảng báo cáo từ liệu Gold Data Lakehouse Vẽ biểu đồ, chỉnh sửa tìm giá trị liệu 15 25/5/2023-6/6/2023 - Tiến hành tích hợp hệ thống, việc ghép liệu nguồn, data lakehouse, bảng báo cáo, trang web gợi ý sản phẩm 16 7/6/2023-8/7/2023 - Tiến hành kiểm thử đảm bảo hệ thống ổn định 19 1/7/2023-11/7/2023 - Chuẩn bị báo cáo, slide thuyết trình - Gíam sát, thử nghiệm hệ thống Ngày tháng năm 2023 Ở hình 3.3.2.6 hình biểu diễn lượng rating theo thành phố, khơng có đặc biệt việc ta quan sát đồng thời lượng tăng liệu thành phố thay đổi liệu có ảnh hưởng cho quốc gia hay khơng Lượt vote có thể phụ thuộc vào việc liệu thành phố có tiếng hay khơng Và việc lượt vote tiêu cực không ảnh hưởng nhiều đến giá trị tổng quang thành phố Hình 3.3.2.7: Biểu đồ thể trung bình lượt vote nước Hình 3.3.2.7 biểu diễn giá trị rating trung bình khu vực nước Mỹ lĩnh vực ăn uống dataset Nhìn vào hình, ta thấy đa phần đối chiều với số lượt vote cho kết rating cao số lượt vote cao Điều có nghĩa cần thành phố, khu vực có độ phổ biến cao, lượt vote tự động cao, dù có nhiều quan điểm khác nhìn chung đất nước đạt rating cao theo 59 3.4 - ĐÀO TẠO MƠ HÌNH GỢI Ý 3.4.1 Huấn luyện mơ hình ALS - Ở đây, nhóm đưa ứng dụng đơn giản, dùng tập data thu thập tạo mơ hình recommendation system đơn giản, cụ thể nhóm sử dụng thuật tốn ALS Trong mơ hình này, nhóm tập trung predict cho users nhà hàng ưa thích Thuật tốn ALS(Alternating Least Square): Giải thích đơn giản thuật tốn thuộc matrix fractorization recommendation system Ở hình 3.2.1, hình bên trái biểu thị ma trận đánh giá với user movie (trong tốn nhóm business) Vì tính chất rỗng ma trận (user đánh giá vài nhà hàng) Do đó, thuật tốn matrix factorization đời, mục đích phân rã ma trận ban đầu làm ma trận con, với d có thể coi nhân tố ẩn, điều giúp ta giải giá trị rỗng không cần thiết Khi cần thiết, ta cần lấy vector ma trận với giá trị user business tương ứng, điều giúp cải thiện tốc độ dự đoán nhiều.[5] Tóm lại, mức tổng quan, thuật tốn dựa vào thuộc tính user, item rating user cho item đó, mục đích để tính mức tương quan với giá trị có sẵn khác mà gợi ý sản phẩm phù hợp Có thể nói thuật tốn hiệu kết hợp phương pháp giảm chiều matrix tìm kiếm nhóm tương đồng (lọc cộng tác) Hình 3.4.1.1: Mơ tả thuật tốn ALS [6] Hình 3.4.1.1 mơ tả cách giảm dimension, từ tận dụng lại lọc cộng tác Hàm loss: 60 Hình 3.4.1.2: Hàm loss mơ hình [6] Hình 3.4.1.2 mơ tả cơng thức hàm loss mơ hình ALS, khơng cần q đí sâu, hàm loss hàm mơ tả sai số giá trị thực tế dự đốn Thơng thường, người ta tìm cách tối ưu hóa hàm này, việc tác động lên giá trị lamda có thể khiến sai số trở nên nhỏ Lọc cộng tác: giải thích đơn giản phương pháp chọn user có sở thích giống nhau, thơng thường thông qua việc rating sản phẩm Ở mục tiêu sản phẩm dự đoán tương lai nên ta lấy liệu gần dựa vào date bảng review Hình 3.4.1.3: Phân bố vote theo thời gian 61 Trước tiên ta nhìn vào hình 3.4.1.3 thấy lượng người vote nhà hàng tập trung thời gian gần nhiều hơn, mục tiêu ta khơng dự đốn q khứ Cũng có thể thấy lượng người có xu hướng vote tập trung đa số Hình 3.4.1.4: Phân bố user vote lần đầu theo thời gian Trước tiên liệu rating ban đầu có gần triệu rating, matrix MxN có Ta chia liệu làm 7/2/1 (train/validate/test) Tuning: Trong ALS, ta phải tuning thơng số để minimize RMSE Có thơng số quan trọng mơ hình: + Rank: số nhân tố ẩn (latent factor) mơ hình + iterations: số lần lặp + regularization: tham số chuẩn hóa (để tránh over fitting) 62 Hình 3.4.1.4: Tinh chỉnh siêu tham số iter (số lần lặp) Hình 3.4.1.4 mơ tả dao động iter, việc xét trung bình hàm thay đổi nhiều, nhiên xét giá trị iter=4 dễ đạt RMSE thấp Hình 3.4.1.5: Tinh chỉnh siêu tham số rank(số nhân tố ẩn) Hình 3.4.1.5 mơ tả dao động rank, muốn giảm phức tạp factor, theo ta quan sát, điểm rank=4 an tồn giá trị RMSE thấp, điểm lại sát cận nên ta bỏ qua Do ta chọn rank=4 63 Hình 3.4.1.6: Tinh chỉnh siêu tham số reg (regularization) Hình 3.4.1.6 mơ tả dao động regularization, thơng số quan trọng việc giảm overfitting Nhìn vào hình dễ dàng nhận thấy hội tụ vị trí reg=0.35 Do đó, ta chọn reg=0.35 giá trị tốt Như vậy, sau trình kiểm tra ta rank=4, maxIter=4, reg=0.35 Kết cho lần chạy tốt là: RMSE= 1.3710067457429629 Lý mơ hình có sai số cịn cao mơ hình thật q thưa thớt, matrix MxN 1,9M x 190K có khoảng 6M record, nhiên lâu dài mơ hình có cải thiện số rating sau ngày nhiều Sau train xong nhận thấy model đảm bảo độ tin cậy, ta có thể save mode, để dùng cho việc predicct lần sau mà khơng cần phải huấn luyện lại Hình 3.4.1.7 ghi folder chứa model save lại Hình 3.4.1.7 Folder chứa save model 64 Sau đó, ta có thể lấy mode để recommend cho user collect user mong muốn Hình 3.4.1.8: Kết gợi ý nhà hàng Hình 3.4.1.8 mơ tả output recommendation cho user 15 20 Tất nhà hàng recommend có rating cao đề xuất cho user 3.4.2 – Xây dựng hệ thống gợi ý dùng mơ hình huấn luyện Sau huấn luyện mơ hình gợi ý nhà hàng với liệu trước đó, vào sử dụng mơ hình để gợi ý nhà hàng cho người dùng Dùng mô hình gợi ý nhà hàng cho người dùng có userid 20 15, ta thu kết hình đây: Hình 3.4.1.9: Kết gợi ý nhà hàng cho người dùng Mặc dù sai số RMSE lúc huấn luận mơ hình cao, gợi ý mơ hình đưa rating cao nên kết gợi ý ổn chấp nhập 65 3.5 - XÂY DỰNG TRANG WEB GỢI Ý 3.5.1 - Kiến trúc hệ thống Hình 3.5.1.1: Mơ hình hoạt động Việc xây dựng trang web với mơ hình gợi ý sản phẩm địi hỏi việc tối ưu hóa thời gian tải tăng trải nghiệm người dùng Nhóm chọn mơ hình client-server để đảm bảo tính linh hoạt khả mở rộng hệ thống Khi người dùng đăng nhập vào trang web, mã người dùng (user_id) tự động gửi từ trang web tới máy chủ Máy chủ sử dụng mã người dùng để thực trình gợi ý nhà hàng phù hợp Quá trình thường thực cách sử dụng thuật toán gợi ý dựa liệu lịch sử đánh giá người dùng, thông tin nhà hàng thuộc tính khác Sau máy chủ xử lý q trình gợi ý, trả danh sách mã nhà hàng số đánh giá dự đốn tương ứng Thơng tin gửi từ máy chủ trở lại trang web hiển thị cho người dùng Trang web hiển thị danh sách nhà hàng gợi ý thông tin liên quan, hình ảnh, địa đánh giá Quá trình gợi ý sản phẩm có thể thực theo lịch trình cụ thể, ví dụ lần người dùng đăng nhập sau lần người dùng thực hành động đánh giá thay đổi tùy chọn Máy chủ có thể sử dụng thuật tốn học máy xử lý liệu để cải thiện độ xác q trình gợi ý theo thời gian Qua trình này, người dùng nhận gợi ý nhà hàng phù hợp với sở thích hành vi trước Điều giúp cải thiện trải nghiệm người dùng giúp họ dễ dàng tìm kiếm lựa chọn nhà hàng phù hợp với nhu cầu 66 3.5.2 - Truy cập trang web Hình 3.5.2.1: Giao diện đăng nhập Trên giao diện trang đăng nhập vào web, yêu cầu tài khoản mật người dùng Trong trường hợp tập liệu không cung cấp tài khoản mật người dùng, nhóm tạo bảng bao gồm thơng tin tên, mã tài khoản, mật tạo từ tên người dùng Hình 3.5.2.2: Giao diện trang web Nhóm dùng thông tin đăng nhập, kiểm nghiệm xem hệ thống có hoạt động ổn định hay khơng, trường hợp người dùng mới, nhóm phát triển tính đăng ký người dùng tương lai 67 Sau đăng nhập thành công, hệ thống tự động gửi mà người dùng vừa đăng nhập thành công tới mày chủ, sau máy chủ gửi lại danh sách nhà hàng gợi ý bao gồm mã nhà hàng đánh giá dự đốn Hình 3.5.2.3: Chức tổng quan Hình 3.5.2.3 hiển thị hàng trang web - Theo rating: nằm hàng Hàng yếu xét theo liệu nhà hàng có rating cao Tuy nhiên, có lưu ý, trường hợp số rating lại có số rating cao lại ưu tiên Ở đây, nhóm xét điều kiện cách phải có 20 số rating Sau xếp theo thứ tự rating, trường hợp rating có giá trị xét theo số lượt rating, trường hợp số lượt rating xét theo ngày rating Từ đó, nhóm đảm bảo lấy dịng có nhà hàng đáp ứng tốt nhất, tối đa nhóm lấy 10 dòng đầu nên chất lượng đảm bảo Ở đây, nhóm nói sơ qua cách tính xếp hạng Rating Cụ thể, rating xác định cách: rating=(v/(v+m) * R) + (m/(m+v) * C) Với: + v số vote cho nhà hàng + m số vote tối thiểu + R số vote trung bình nhà hàng + C trung bình tổng thể giá trị vote - Theo search: nằm hàng thứ hai Hàng bình thường khơng hiện, nhiên ta dùng tìm kiếm nhấn tìm kiếm liệu Ở đây, nhóm đơn giản tìm nhà hàng có mức độ tương tự với nhà hàng search Dựa theo số giống theo bình luận người dùng nhà hàng Ở đây, việc chọn bình luận xuất sắc khơng phải dễ Nhóm lọc cách ưu tiên 68 bình luận sao, sau lại xét điều kiện bình luận dài nhất, lúc chọn tương đối bình luận đạt đủ tiêu chuẩn - Theo gợi ý người dùng: Ở đây, nhóm cho trang web tính login, từ tính này, nhóm có thể biết user nào, từ cần áp dụng model training sẵn để gợi ý cho người dung 69 PHẦN - KẾT LUẬN Về tổng quan, nhóm nhận thấy kiến trúc Data Lakehouse kiến trúc có tính linh hoạt, có khả mở rộng hiệu kiến trúc truyền thống Linh hoạt chỗ cho phép lưu trữ liệu mà khơng cần định dạng cứng nhắc, dễ thích nghi với nhu cầu doanh nghiệp Có khả mở rộng chỗ kế thừa ưu điểm Data Lake, người dùng lo ngại xử lý liệu vào phi cấu trúc hay bán cấu trúc Hiệu chỗ giữ tính ACID Data Warehouse, lại cung cấp kết xử lý liệu hiệu Tuy nhiên, để sử dụng Data Lakehouse người dùng phải có kiến thức chun mơn cao, đặc biệt phải kiểm soát chất lượng liệu mà liệu vào lưu phi cấu trúc Nhìn chung, nhóm tự xây dựng riêng cho kiến trúc Data Lakehouse Triển khai mơi trường người dùng có thể truy cập, chỉnh sửa phân tích Nhóm tạo Dashboard phân tích liệu dựa lớp layer cuối cho mục đích phân tích báo cáo Về nhược điểm, ứng dụng mơ hình gợi ý, nhiên mơ hình khơng thể tự phát phát triển theo kiểu tăng cường Trong tương lai, nhóm mong muốn cải thiện nhược điểm Về hướng phát triển, nhóm dự định dùng kiến trúc streaming cho xử lý liệu, mơ hình nhóm tự build, việc pipeline để liệu streaming điều khó với nhóm Tuy nhiên, tương lai nhóm thành thạo việc sử dụng thực tiễn kiến thúc việc phát triển lên hồn tồn có thể 70 TÀI LIỆU THAM KHẢO [1] Michael Armbrust el al., Delta Lake: High-Performance ACID Table Storage over Cloud Object Stores, Proceedings of the VLDB Endowment, Vol 13, No 12, 2020 https://www.databricks.com/wp-content/uploads/2020/08/p975-armbrust.pdf [2] Michael Armbrust et al., Lakehouse: A New Generation of Open Platforms that Unify Data Warehousing and Advanced Analytics, Conference on Innovative Data Systems Research (CIDR), 2021 https://www.cidrdb.org/cidr2021/papers/cidr2021_paper17.pdf [3] Tathagata Das el al., Get Your Free Copy of Delta Lake: The Definitive Guide, Engineering Blog, Vol 1, No 7-14, 22-6-2021 https://www.databricks.com/blog/2021/06/22/get-your-free-copy-of-delta-lake-thedefinitive-guide-early-release.html [4] Vini Jaiswal el al., 6-12-2020, Welcome to the Delta Lake documentation, https://docs.delta.io/2.0.0/index.html [5] Rui Vieira, 27-5-2023, A streaming ALS implementation, https://ruivieira.github.io/a-streaming-als-implementation.html [6] P Srinivasa Rao et al., Matrix Factorization Based Recommendation System using Hybrid Optimization Technique, IAI.EU, Vol 8, No 14, 9-2021 [7] Matei Zaharia, 2012, Spark Overview, https://spark.apache.org/docs/latest/clusteroverview.html [8] Wiley, 2013, The Data Warehouse Toolkit, https://www.kimballgroup.com/data-warehouse-business-intelligenceresources/kimball-techniques/dimensional-modeling-techniques/ [9] Kyle Weller, 11-1-2023, Apache Hudi vs Delta Lake vs Apache Iceberg Lakehouse Feature Comparison, https://www.onehouse.ai/blog/apache-hudi-vs-delta-lake-vs-apache-iceberglakehouse-feature-comparison 71 [10]https://databricks-prodcloudfront.cloud.databricks.com/public/4027ec902e239c93eaaa8714f173bcfc/310381 4695917597/471484538841097/160625613570502/latest.html [11] Yelp Inc., 2011, https://www.yelp.com/dataset [12] Databricks, 1-6-2023, What is a Medallion Architecture ?, https://docs.databricks.com/lakehouse/medallion.html 72 S K L 0

Ngày đăng: 08/12/2023, 15:29

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w