1. Trang chủ
  2. » Luận Văn - Báo Cáo

Xây dựng một spark pipeline sử dụng aws và delta lake

71 5 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Xây Dựng Một Spark Pipeline Sử Dụng AWS Và Delta Lake
Tác giả Lê Thị Kiều Linh
Người hướng dẫn ThS. Nguyễn Văn Chức, Mentor Vũ Anh Tiến
Trường học Trường Đại Học Kinh Tế Đà Nẵng
Chuyên ngành Hệ Thống Thông Tin
Thể loại báo cáo thực tập nghề nghiệp
Thành phố Đà Nẵng
Định dạng
Số trang 71
Dung lượng 6,81 MB

Nội dung

TRƯỜNG ĐẠI HỌC KINH TẾ KHOA THỐNG KÊ – TIN HỌC BÁO CÁO THỰC TẬP NGHỀ NGHIỆP NGÀNH HỆ THỐNG THÔNG TIN QUẢN LÝ CHUYÊN NGÀNH QUẢN TRỊ HỆ THỐNG THÔNG TIN ĐỀ TÀI: XÂY DỰNG MỘT SPARK PIPELINE SỬ DỤNG AWS VÀ DELTA LAKE Đơn vị thực tập : TMA Solutions Bình Định Giảng viên hướng dẫn : ThS Nguyễn Văn Chức LỜI CẢM ƠN Đầu tiên em xin phép gửi tri ân sâu sắc lời cảm ơn chân thành thầy cô giáo Khoa Thống kê- Tin học trường Đại Học Kinh Tế Đà Nẵng tạo điều kiện để em có điều kiện thực tập Đặc biệt, em xin trân trọng cảm ơn thầy Nguyễn Văn Chức nhiệt tình hướng dẫn để em hồn thành tốt tập Em xin gửi lời cảm ơn chân thành đến bạn toàn đội ngũ TMA Solutions Bình Định tạo điều kiện cho em tham gia thực tập nghề nghiệp Em muốn bày tỏ biết ơn trân trọng hội quý báu trải nghiệm thực tế mà em có Thời gian thực tập mang lại cho em loạt kiến thức hữu ích kỹ chuyên môn quan trọng Em có hội áp dụng kiến thức học thực tế công việc làm việc với chuyên gia lĩnh vực Điều giúp em hiểu rõ cách thức hoạt động ngành nghề phát triển kỹ cá nhân Đặc biệt, em xin chân thành gửi lời cảm ơn đến Mentor Vũ Anh Tiến hướng dẫn trực tiếp, đạo tạo điều kiện giúp đỡ em suốt trình học thực tập Trong suốt trình thực tập q trình tìm hiểu, khơng thể tránh khỏi thiếu sót hạn chế Em mong nhận ý kiến đóng góp phản hồi từ q thầy để em khắc phục sai sót rút học cho trau dồi thêm kiến thức Một lần nữa, em xin bày tỏ lòng biết ơn chân thành trân trọng sâu sắc đến tất người đồng hành em thời gian thực tập nghề nghiệp Em mang theo kinh nghiệm học hỏi tương lai cống hiến cho phát triển thân công ty LỜI CAM ĐOAN Em, tên gọi Lê Thị Kiều Linh cam đoan báo cáo thực tập nghề nghiệp mà em viết hoàn toàn dựa hiểu biết cá nhân hướng dẫn mentor Vũ Anh Tiến, với thông tin liệu thu thập từ nguồn đáng tin cậy Em xin cam kết tất thông tin kết trình bày báo cáo xác khơng bị sai lệch hay giả mạo Em xin cam đoan em thực thực tập nghề nghiệp cách chân thực trung thực, tuân thủ quy định hướng dẫn quan, tổ chức doanh nghiệp em tham gia Em thực nhiệm vụ giao với tỉ mỉ, thời hạn đạt kết mong đợi Em cam đoan em tuân thủ đạo đức nghề nghiệp không tiết lộ thơng tin bí mật thuộc tổ chức doanh nghiệp em thực tập Em chịu trách nhiệm sẵn sàng chấp nhận hậu pháp lý tuyên bố cam đoan báo cáo khơng xác Em xin cam đoan đọc hiểu nội dung lời cam đoan thực cam kết tuân thủ điều khoản cam kết nêu MỤC LỤC LỜI CẢM ƠN i LỜI CAM ĐOAN iv MỤC LỤC v DANH MỤC HÌNH ẢNH viii DANH MỤC BẢNG BIỂU x DANH MỤC CÁC TỪ VIẾT TẮT xi LỜI MỞ ĐẦU CHƯƠNG TỔNG QUAN CÔNG TY VÀ LÝ THUYẾT VỀ DATA ENGINEER 1.1 Giới thiệu tổng quát TMA Solutions Bình Định 1.1.1 Tổng quan TMA Solutions Bình Định 1.1.2 Lĩnh vực hoạt động 1.1.3 Cơ cấu tổ chức 1.2 Tổng quan vị trí Data Engineer 1.2.1 Công việc Data Engineer 1.2.2 Kỹ để trở thành Data Engineer 1.2.3 Con đường phát triển nghiệp DE 1.2.4 Mức lương CHƯƠNG CƠ SỞ LÝ THUYẾT 10 2.1 Khái niệm Data Lake, Data warehouse, ETL 10 2.1.1 Data Lake 10 2.1.2 Data Warehouse 10 2.1.3 So sánh Data Lake Data Warehouse 10 2.1.4 ETL 12 2.2 Giới thiệu Python, Apache Spark 12 2.2.1 Python 12 2.2.2 Apache Spark 13 2.3 SQL NoSQL 15 2.3.1 SQL 15 2.3.2 NoSQL 15 2.3.3 So sánh SQL NoSQL 15 2.4 Tổng quan Databrick community 17 2.5 Khái niệm Lakehouse, Delta Lake 17 2.5.1 Lakehouse 17 2.5.2 Delta Lake 18 2.6 AWS Services 20 2.6.1 S3 service 20 2.6.2 Athena service 22 2.6.3 CloudFormation 23 2.6.4 Glue 24 2.6.5 Lambda 25 2.6.6 API27 2.6.7 IAM CHƯƠNG 28 XỬ LÝ DỮ LIỆU BẰNG PYSPARK VÀ DELTA LAKE TRONG DATABRICK 30 3.1 Giới thiệu liệu 30 3.2 Xử lý liệu [1] 30 3.3 Truy vấn SQL [2] 31 3.4 Delta Lake [3] 32 CHƯƠNG TRIỂN KHAI ĐỀ TÀI 35 4.1 Giới thiệu đề tài 35 4.2 Nêu vấn đề 35 4.3 Pipeline 35 4.4 Xử lý yêu cầu 36 4.4.1 Giới thiệu liệu 37 4.4.2 Tạo Data model 37 4.4.3 Đồ data vào Data model 40 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 45 TÀI LIỆU THAM KHẢO 47 CHECK LIST CỦA BÁO CÁO 48 PHỤ LỤC 49 DANH MỤC HÌNH ẢNH Hình Cơng ty TMA Solutions Bình Định Hình Sơ đồ cấu tổ chức Hình Thành phần Apache Spark 13 Hình Tính Apache Spark 14 Hình Giao diện Databrick community 17 Hình Tính Delta Lake 19 Hình Amazon Web Service 20 Hình AWS S3 21 Hình Thành phần cấu trúc Aws S3 21 Hình 10 AWS Athena 22 Hình 11 AWS CloudFormation 23 Hình 12 AWS Glue 24 Hình 13 AWS Lambda 25 Hình 14 AWS API Gateway 27 Hình 15 AWS IAM 28 Hình 16 Bộ liệu khảo sát sức khỏe tâm thần 30 Hình 17 Dữ liệu sau xử lý 31 Hình 18 Visualize self_employd 32 Hình 19 Visualize Gender 33 Hình 20 Visualize Tech_company 33 Hình 21 Visualize Tech_company benefits 33 Hình 20 Pipeline 36 Hình 21 Dữ liệu fake_dataset_miley_shopee 37 Hình 22 Lambda 37 Hình 23 Tạo Bucket chọn Region US East (N Virginia) us-east-1 38 Hình 24 Tạo bucket 38 Hình 25 File CSV trống 39 Hình 26 Spark job 39 Hình 27 Delta table 40 Hình 28 Tạo Lambda 41 Hình 29 New Crawler 41 Hình 30 Database 42 Hình 31 New table 42 Hình 32 Kết sau chạy Lambda 42 Hình 33 Upsert data thành công 44 DANH MỤC BẢNG BIỂU Bảng So sánh Data Lake Data Warehouse 11 Bảng So sánh SQL NoSQL 16 DANH MỤC CÁC TỪ VIẾT TẮT AWS: Amazon Web Services AI: Artificial Intelligence IoT: Internet of Thing ETL: Extract, Transform, Load DE: Data Engineer ML: Machine Learning ACID: Atomicity, Consistency, Isolation Durability YARN: Yet Another Resource Negotiator ADLS (Azure Data Lake Storage) GCS (Google Cloud Storage) HDFS (Hadoop Distributed File System) BI: Business Intelligence JDBC: Java Database Connectivity 10

Ngày đăng: 12/12/2023, 19:48

HÌNH ẢNH LIÊN QUAN

Hình 1. Công ty TMA Solutions Bình Định 1.1.2. Lĩnh vực hoạt động - Xây dựng một spark pipeline sử dụng aws và delta lake
Hình 1. Công ty TMA Solutions Bình Định 1.1.2. Lĩnh vực hoạt động (Trang 13)
Hình 2. Sơ đồ cơ cấu tổ chức - Xây dựng một spark pipeline sử dụng aws và delta lake
Hình 2. Sơ đồ cơ cấu tổ chức (Trang 16)
Hình 3. Thành phần chính của Apache Spark - Xây dựng một spark pipeline sử dụng aws và delta lake
Hình 3. Thành phần chính của Apache Spark (Trang 23)
Hình 4. Tính năng của Apache Spark - Xây dựng một spark pipeline sử dụng aws và delta lake
Hình 4. Tính năng của Apache Spark (Trang 24)
Bảng 2. So sánh SQL và NoSQL - Xây dựng một spark pipeline sử dụng aws và delta lake
Bảng 2. So sánh SQL và NoSQL (Trang 27)
Hình 5. Giao diện Databrick community - Xây dựng một spark pipeline sử dụng aws và delta lake
Hình 5. Giao diện Databrick community (Trang 27)
Hình 6. Tính năng của Delta Lake - Xây dựng một spark pipeline sử dụng aws và delta lake
Hình 6. Tính năng của Delta Lake (Trang 29)
Hình 7. Amazon Web Service 2.6.1. S3 service - Xây dựng một spark pipeline sử dụng aws và delta lake
Hình 7. Amazon Web Service 2.6.1. S3 service (Trang 30)
Hình 8. AWS S3 - Xây dựng một spark pipeline sử dụng aws và delta lake
Hình 8. AWS S3 (Trang 31)
Hình 11. AWS CloudFormation - Xây dựng một spark pipeline sử dụng aws và delta lake
Hình 11. AWS CloudFormation (Trang 34)
Hình 12. AWS Glue - Xây dựng một spark pipeline sử dụng aws và delta lake
Hình 12. AWS Glue (Trang 35)
Hình 13. AWS Lambda - Xây dựng một spark pipeline sử dụng aws và delta lake
Hình 13. AWS Lambda (Trang 36)
Hình 16. Bộ dữ liệu khảo sát về sức khỏe tâm thần. - Xây dựng một spark pipeline sử dụng aws và delta lake
Hình 16. Bộ dữ liệu khảo sát về sức khỏe tâm thần (Trang 41)
Hình 18. Visualize self_employd - Xây dựng một spark pipeline sử dụng aws và delta lake
Hình 18. Visualize self_employd (Trang 43)
Hình 20. Visualize Tech_company - Xây dựng một spark pipeline sử dụng aws và delta lake
Hình 20. Visualize Tech_company (Trang 44)
Hình 20. Pipeline - Xây dựng một spark pipeline sử dụng aws và delta lake
Hình 20. Pipeline (Trang 46)
Hình 21. Dữ liệu fake_dataset_miley_shopee 4.4.2. Tạo Data model - Xây dựng một spark pipeline sử dụng aws và delta lake
Hình 21. Dữ liệu fake_dataset_miley_shopee 4.4.2. Tạo Data model (Trang 47)
Hình 22. Lambda 1 - Xây dựng một spark pipeline sử dụng aws và delta lake
Hình 22. Lambda 1 (Trang 47)
Hình 23. Tạo Bucket và chọn Region là US East (N. Virginia) us-east-1. - Xây dựng một spark pipeline sử dụng aws và delta lake
Hình 23. Tạo Bucket và chọn Region là US East (N. Virginia) us-east-1 (Trang 48)
Hình 24. Tạo 2 bucket - Xây dựng một spark pipeline sử dụng aws và delta lake
Hình 24. Tạo 2 bucket (Trang 48)
Hình 25. File CSV trống - Xây dựng một spark pipeline sử dụng aws và delta lake
Hình 25. File CSV trống (Trang 49)
Hình 4.8: File Python - Xây dựng một spark pipeline sử dụng aws và delta lake
Hình 4.8 File Python (Trang 49)
Hình 27. Delta table - Xây dựng một spark pipeline sử dụng aws và delta lake
Hình 27. Delta table (Trang 50)
Hình 28. Tạo Lambda 2 - Xây dựng một spark pipeline sử dụng aws và delta lake
Hình 28. Tạo Lambda 2 (Trang 51)
Hình 29. New Crawler - Xây dựng một spark pipeline sử dụng aws và delta lake
Hình 29. New Crawler (Trang 51)
Hình 31. New table - Xây dựng một spark pipeline sử dụng aws và delta lake
Hình 31. New table (Trang 52)
Hình 30. Database - Xây dựng một spark pipeline sử dụng aws và delta lake
Hình 30. Database (Trang 52)
Hình 33. Upsert data thành công - Xây dựng một spark pipeline sử dụng aws và delta lake
Hình 33. Upsert data thành công (Trang 54)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w