1. Trang chủ
  2. » Luận Văn - Báo Cáo

Ứng dụng data lakehouse trên nền tảng amazon web services vào phân tích dữ liệu netflix

45 11 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

TRƯỜNG ĐẠI HỌC KINH TẾ KHOA THỐNG KÊ – TIN HỌC BÁO CÁO THỰC TẬP NGHỀ NGHIỆP NGÀNH HỆ THỐNG THÔNG TIN QUẢN LÝ CHUYÊN NGÀNH QUẢN TRỊ HỆ THỐNG THÔNG TIN ỨNG DỤNG DATA LAKEHOUSE TRÊN NỀN TẢNG AMAZON WEB SERVICES VÀO PHÂN TÍCH DỮ LIỆU NETFLIX Đơn vị thực tập : Công ty TMA Solutions Giảng viên hướng dẫn : TS Phan Đình Vấn ii LỜI CẢM ƠN Để hoàn thành tốt đề tài báo cáo thực tập nghề nghiệp này, nổ lực thân, em nhận giúp đỡ anh chị mentor giảng viên hướng dẫn Lời đầu tiên, nhóm em xin gửi đến q thầy, giáo Khoa Thống kê – Tin học trường Đại học Kinh Tế - Đại học Đà Nẵng Đặc biệt, em xin bày tỏ lòng biết ơn sâu sắc đến Giảng viên hướng dẫn thầy Phan Đình Vấn, người tận tâm hướng dẫn em suốt trình thực tập hồn thiện báo cáo Ngồi ra, nhóm em cịn nhận giúp đỡ nhiệt tình từ anh chị mentor Cơng ty TMA Solutions Bình Định Qua đây, em xin chân thành cảm ơn ban lãnh đạo tồn thể cán nhân viên cơng ty tạo điều kiện thuận lợi có kiến thức thực tế cần thiết Cuối nhóm em xin cảm ơn chị Tăng Thị Thúy Vân, chị Võ Thị Mỹ Lệ - mentor hướng dẫn trực tiếp thành viên nhóm cơng ty TMA Solutions Bình Định Các chị tạn tâm giúp đỡ, cung cấp tài liệu cho chúng em để hoàn thành báo cáo q trình thực tập vị trí Data Engineer cơng ty Vì thời gian thực tập kiến thức hạn chế nên báo cáo khơng thể tránh khỏi thiếu sót, mong góp ý q thầy cơ, cơng ty để chúng em rút kinh nghiệm hoàn thành tốt Nhóm chúng em xin chân thành cảm ơn! iii LỜI CAM ĐOAN Nhóm chúng em xin cam đoan đề tài “ ỨNG DỤNG DATA LAKEHOUSE TRÊN NỀN TẢNG AMAZON WEB SERVICES VÀO PHÂN TÍCH DỮ LIỆU NETFLIX ” kết nghiên cứu nhóm hướng dẫn giảng viên Phan Đình Vấn chị mentors Tăng Thị Thúy Vân, Võ Thị Mỹ Lệ Nội dung báo cáo sản phẩm mà em nỗ lực nghiên cứu trình học tập trường tham gia thực tập Cơng ty TMA Solutions Bình Định Các số liệu, kết trình bày báo cáo hoàn toàn trung thực, chúng em xin chịu hồn tồn trách nhiệm, kỷ luật mơn nhà trường đề có vấn đề xảy iv MỤC LỤC NHẬN XÉT CỦA ĐƠN VỊ THỰC TẬP ii LỜI CẢM ƠN vi LỜI CAM ĐOAN vii MỤC LỤC viii DANH MỤC HÌNH ẢNH x DANH MỤC BẢNG BIỂU .xii DANH MỤC CÁC TỪ VIẾT TẮT .xiii LỜI MỞ ĐẦU CHƯƠNG TỔNG QUAN VỀ ĐỀ TÀI VÀ GIỚI THIỆU ĐƠN VỊ THỰC TẬP TMA SOLUTIONS 1.1 Giới thiệu tổng quát doanh nghiệp thực tập 1.1.1 Lịch sử hình thành .2 1.1.2 Tầm nhìn sứ mệnh 1.2 Tổng quan vị trí việc làm Data Engineering .2 1.2.1 Giới thiệu Data Engineering 1.2.2 Các kỹ cần có .3 CHƯƠNG CƠ SỞ LÝ THUYẾT HỖ TRỢ XÂY DỰNG DATA LAKEHOUSE TRÊN NỀN TẢNG AMAZON WEB SERVICES 2.1 Data LakeHouse 2.1.1 Khái niệm 2.1.2 Tính Data Lakehouse 2.1.3 Mục đích ý nghĩa 2.2 Công cụ trực quan hóa liệu Power BI v 2.2.1 Khái niệm Power BI .5 2.2.2 Các tính bật Power BI 2.3 Tổng quan Amazon Web Services 2.3.1 Amazon Web Services gì? 2.3.2: Amazon Simple Storage Service 2.3.3 Dịch vụ Amazon Glue 2.3.4 Dịch vụ Amazon Lambda .8 2.3.5 Dịch vụ Amazon Athena 2.3.6 Dịch vụ Amazon IAM 2.3.7 Dịch vụ Amazon Cloudwatch .9 2.4 Giới thiệu ngơn ngữ lập trình 2.5.1 Ngơn ngữ lập trình Python 2.5.2 Python mang lại lợi ích 2.5.3 Pyspark .10 2.5.4 Tính PySpark .10 2.5 Xử lý liệu-ETL 11 CHƯƠNG TIẾN HÀNH XÂY DỰNG LUỒNG DỮ LIỆU VÀ PHÂN TÍCH 11 3.1 Triển khai dự án .11 3.1.1.Nguồn gốc liệu .11 3.1.2 Cấu trúc ý nghĩa liệu 12 3.2 Xử lý liệu 13 3.2.1 Định hướng xử lý liệu 13 3.2.2 Quy trình xử lý liệu .13 3.3 Tiến hành trực quan liệu 33 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .34 vi TÀI LIỆU THAM KHẢO 36 CHECK LIST CỦA BÁO CÁO 37 DANH MỤC HÌNH ẢNH Hình 3.1 Dữ liệu Kaggle tải dạng CSV 12 Hình 3.2 Quy trình làm việc AWS 14 Hình 3.3 Tạo bucket finalnetflix .14 Hình 3.4 Tạo folder finalnetflix 15 Hình 3.5 Tài file csv cần transform vào folder data sources 15 Hình 3.6 Tải file delta-core.jar vào folder jar 16 Hình 3.7 Sử dụng AWS Glue để đọc file csv sang delta 16 Hình 3.8 Đọc liệu folder datasources AWS S3 .17 Hình 3.9 Ghi liệu folder delta AWS S3 17 Hình 3.10 Tạo Crawler AWS Glue Crawler 18 Hình 3.11 Đọc liệu folder delta AWS Athena 18 Hình 3.12 Tạo function AWS Lambda 19 Hình 3.13 Tạo trigger AWS Lambda 19 Hình 3.14 Cấu hình cho trigger AWS Lambda .20 Hình 3.15 Thêm đoạn code để tự động chạy trigger AWS Lambda 20 Hình 3.16 Đưa file CSV vào folder datasources 21 Hình 3.17 Dữ liệu đọc folder datasources 21 Hình 3.18 Giao diện để ETL- làm liệu 22 Hình 3.19 Đọc liệu folder delta AWS S3 22 Hình 3.20 Xóa bỏ cột director cast 23 Hình 3.21 Xem giá trị cột rating 23 Hình 3.22 Chuyển đổi giá trị cột rating .24 Hình 3.23 Xử lý giá trị null cột date_added 24 vii Hình 3.24 Xử lý khoảng trắng cột date_added .25 Hình 3.25 Thực chuyển định dạng cột date_added 25 Hình 3.26 Chuyển đổi kiểu liệu cột date_added 26 Hình 3.27 Chuyển đổi kiểu liệu cột date_added 26 Hình 3.28 Thay giá trị null cột 27 Hình 3.29 Chuyển đổi giá trị sang cột duration 27 Hình 3.30 Điền giá trị cột rating .28 Hình 3.31 Kiểm tra cột rating 28 Hình 3.32 Xóa hàng có giá trị William Wyler 29 Hình 3.33 Xử lý giá trị null cột rating 29 Hình 3.34 Ghi liệu làm vào folder datatransformdone 30 Hình 3.35 Tạo Acceskey AWS IAM .30 Hình 3.36 Cấu hình Simba Athena ODBC .31 Hình 3.37 Thực điền Acces key vào Simba Athena ODBC .31 Hình 3.38 Thực kết nối PowerBI với Athena 32 Hình 3.39 Đổ liệu ETL-làm liệu vào PowerBI 32 Hình 3.40 Dashboard liệu 33 viii DANH MỤC BẢNG BIỂU Bảng 3.1 Cấu trúc ý nghĩa liệu Netflix 13 ix DANH MỤC CÁC TỪ VIẾT TẮT AWS: Amazon Web Services ETL: Extract – Transform – Load ACID: Atomicity, Consistency, Isolation, Durability DE: Data Engineering SAS: Statistical Analysis System SPSS: Statistical Package for the Social Sciences Amazon S3: Amazon Simple Storage Service x LỜI MỞ ĐẦU Mục tiêu đề tài Đề tài ứng dụng Data LakeHouse tảng AWS để phân tích liệu Netflix Datasets – liệu chứa thông tin chi tiết phim chương trình truyền hình Netflix Từ liệu này, đề tài trực quan hóa liệu biểu đồ dashboard để thể thông tin xu hướng số lượng, loại, hấp dẫn cá nhân hóa nội dung Netflix Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu: Người dùng hoạt động xem trực tuyến Netflix Phạm vi nghiên cứu: Nghiên cứu thực trạng người dùng hoạt động xem trực tuyến Netflix phân tích hoạt động người dùng Netflix Kết cấu đề tài Đề tài tổ chức gồm phần mở đầu, chương nội dung phần kết luận - Mở đầu Chương 1: Tổng quan đề tài giới thiệu đơn vị thực tập TMA Solution Bình Định Chương 2: Cơ sở lý thuyết hỗ trợ xây dựng data lakehouse tảng amazon web services Chương 3: Tiến hành xây dựng luồng liệu phân tích liệu xi

Ngày đăng: 12/12/2023, 19:47

Xem thêm:

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w