1. Trang chủ
  2. » Luận Văn - Báo Cáo

Xây dựng hệ thống xử lý và lưu trữ trên microsoft azure

58 11 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Xây Dựng Hệ Thống Xử Lý Và Lưu Trữ Trên Microsoft Azure
Người hướng dẫn ThS. Cao Thị Nhâm
Trường học Trường Đại Học Kinh Tế
Chuyên ngành Hệ Thống Thông Tin Quản Lý
Thể loại Báo Cáo Thực Tập Nghề Nghiệp
Thành phố Bình Định
Định dạng
Số trang 58
Dung lượng 5,41 MB

Nội dung

TRƯỜNG ĐẠI HỌC KINH TẾ KHOA THỐNG KÊ – TIN HỌC BÁO CÁO THỰC TẬP NGHỀ NGHIỆP NGÀNH HỆ THỐNG THÔNG TIN QUẢN LÝ CHUYÊN NGÀNH QUẢN TRỊ HỆ THỐNG THÔNG TIN Xây dựng hệ thống xử lý lưu trữ Microsoft Azure Đơn vị thực tập : TMA Solution Bình Định Giảng viên hướng dẫn : Ths Cao Thị Nhâm LỜI CẢM ƠN Em xin chân thành cảm ơn anh Phạm Minh Sỹ người hướng dẫn em lại cơng ty TMA Solutions Bình định hỗ trợ giúp đỡ nhiệt tình trình thực tập em nhiều Em xin chân thành cảm ơn Giảng viên hướng dẫn thực tập cô Cao Thị Nhâm, Giảng viên Khoa Thống Kê Tin Học trường Đại học Kinh Tế, thời gian qua tận tình hướng dẫn, hỗ trợ giải đáp thắc mắc khó khăn em suốt q trình hồn thành cáo Ngoài xin cảm ơn bạn đồng hành chung nhóm em cơng ty TMA bạn Hữu Tiến hỗ trợ suốt thời gian thực tập i LỜI CAM ĐOAN Toàn nội dung bao gồm thông tin kết trình bày báo cáo hồn toàn trung thực thực hướng dẫn hỗ trợ tận tâm giảng viên TS Cao Thị Nhâm mentor Phạm Minh Sỹ công ty TMA Solution Bình Định Em cam đoan thơng tin hồn tồn chân thức khơng bị sai lệch hay ảnh hưởng yếu tố khác Các kết trình bày dựa nỗ lực nghiên cứu tìm hiểu em cơng ty q trình thực tập 10 tuần Em xin xác nhận em thực việc nghiên cứu hoành thành báo cáo giám sát giảng viên hướng dẫn Không chép lạm dụng tài liệu ý tưởng từ nguồn khác mà khơng ghi nhận Bài cáo hồn toàn em tự nghiên cứu viết theo quy định tiêu chuẩn trường Em xin chân thành cảm ơn hỗ trợ đóng góp tất người giúp đỡ em trình nghiên cứu viết báo cáo Em xin cam đoan tất thông tin tài liệu cung cấp xác khơng có ảnh hưởng sai lệch từ nguồn bên ii MỤC LỤC LỜI CẢM ƠN i LỜI CAM ĐOAN ii MỤC LỤC iii DANH MỤC HÌNH ẢNH vi DANH MỤC BẢNG BIỂU viii DANH MỤC CÁC TỪ VIẾT TẮT ix LỜI MỞ ĐẦU CHƯƠNG TỔNG QUAN VỀ CƠNG TY VÀ VỊ TRÍ THỰC TẬP 1.1 Giới thiệu doanh nghiệp thực tập 1.1.1 Công ty TMA Bình Định solution 1.1.2 Cơ cấu tổ chức 1.2 Tổng quan vị trí việc làm Data Engineering 1.2.1 Yêu cầu kiến thức kỹ 1.2.2 Những công việc cần làm 1.2.3 Con đường phát triển 1.2.4 Những công việc liên quan chuyển hướng 1.2.5 Mức lương thành phố lớn Việt Nam CHƯƠNG CƠ SỞ LÝ THUYẾT 2.1 Data warehouse ,Data lake, Lake House 2.1.1 Data warehouse 2.1.2 Data Lake 10 2.1.3 LakeHouse 11 2.2 Apache Spark 11 2.3 Medallion Architecture and data Change Feed 12 iii 2.3.1 Bronze layer (raw data) 12 2.3.2 Silver layer (cleansed and conformed data) 13 2.3.3 Gold layer (curated business-level tables) 13 2.4 Giới thiệu Microsoft Azure 13 2.4.1 Microsoft Azure gì? 13 2.4.2 Các dịch vụ Azure cung cấp 14 2.5 Các dịch vụ demo 15 2.5.1 Azure blob 15 2.5.2 Key vault 17 2.5.3 Azure DataBricks 17 2.5.4 Data Factory 18 CHƯƠNG Tổng quan hệ thống xử lý liệu Microsoft azure 19 3.1 Tổng quan xây dựng hệ thống: 19 3.2 Quy trình xử lý hệ thống: 20 3.2.1 Kích hoạt Trigger tự động: 20 3.2.2 Xử lý liệu qua databricks pipeline: 20 3.2.3 Kết thúc quy trình xử lý lặp lại người dùng tiếp tục tải liệu lên 20 3.2.4 Công nghệ sử dụng 21 3.3 Tính lakehouse Delta Lake trình xử lý liệu21 3.4 Mô tả liệu dùng để Demo cho hệ thống 22 CHƯƠNG Xây dựng hệ thống 24 4.1 Quy trình xây dựng 24 4.1.1 Tạo stogare account 24 4.1.2 Tạo Key Vault 25 iv 4.1.3 Xử lý Databricks 26 4.1.4 Tạo SQL Server database azure 31 4.1.5 Sử Data Factory xây dựng đường ống xử lý liệu theo quy trình31 4.2 Các bước hàm xử lý liệu DataBricks 32 4.2.1 Bảng customer 32 4.2.2 Bảng Sale 32 4.3 Kiểm tra chạy thử hoạt động hệ thống sau hoàn thành gồm trigger, pipeline databricks 33 4.3.1 Lần chạy với rawdata 33 4.3.2 Lần chạy với tệp data-log 35 4.3.3 Cuối kiểm tra liệu sau lưu vào sở liệu SQL server 37 CHƯƠNG TẠO DASHBOARD BẰNG POWER BI 38 5.1 Tạo Dashboard Power Bi 38 5.1.1 Liên kết liệu SQL Azure Database vào PowerBi Desktop 38 5.2 Tạo Dashboard 39 5.2.1 Dashboard thông tin khách hàng 40 5.2.2 Dashboard hành vi khách hàng 40 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 42 Đạt 42 Hạn chế 42 Hướng phát triển: 43 TÀI LIỆU THAM KHẢO 44 PHỤ LỤC 45 v DANH MỤC HÌNH ẢNH Hình 1.1 Logo cơng ty TMA Solution Hình 1.2 Cơ cấu tổ chức cơng ty Hình 2.1 Kiến trúc Ware House, Data lake ,Lake house Hình 2.2 Kiến trúc Medallion Architecture 12 Hình 2.3 Blob storage 16 Hình 3.1 Tổng quan Pipeline 19 Hình 4.1 Tổng quát resource group Azure 24 Hình 4.2 Storage-Level01 25 Hình 4.3 StogareLevel-2 25 Hình 4.4 Tạo Key vault 25 Hình 4.5 Tạo scope databricks 26 Hình 4.6 Sử dụng Scope truy cập vào Storage 26 Hình 4.7 Tạo tham số đầu vào cho file liệu 27 Hình 4.8 Đọc liệu lần đầu 27 Hình 4.9 Đọc liệu sau lần 27 Hình 4.10 Lưu liệu vào lớp Bronze 28 Hình 4.11 Tạo Scope 29 Hình 4.12 Sử dụng scope keyvault truy cập vào Storage 29 Hình 4.13 Lưu liệu vào silver lần đầu 30 Hình 4.14 Xây dựng luồng đữ liệu Data Factory 30 Hình 4.15 Xây dựng luồng đữ liệu Data Factory 31 Hình 4.16 Hoạt động trigger Raw 33 Hình 4.17 Pipline chạy thành cơng 33 Hình 4.18 Xem kết trả ua DataBricks 34 Hình 4.19 Kết Bronze_Processing 35 Hình 4.20 Kết Silver_Processing 35 Hình 4.21 Trigeer-Long chạy thành cơng 35 vi Hình 4.22 Pipline trigger-log kích hoạt chạy thành cơng 36 Hình 4.23 Xem kết Bronze_Processing 36 Hình 4.24 Xem kết Silver_Processing 37 Hình 4.25 Kiểm tra liệu nạp vào Database 37 Hình 5.1 Cung cấp địa IP máy cho netwworking sever 38 Hình 5.2 LIên kết liệu DataBase với PowerBI 39 Hình 5.3 Dashboard thơng tin khách hàng 40 Hình 5.4 Dasboard hành vi khách hàng 41 vii DANH MỤC BẢNG BIỂU Bảng 1.1 Bảng lương Data Engineer thành phố lớn Bảng 2.1 So sánh ETL ELT 10 Bảng 3.1 Thông tin liệu 23 viii DANH MỤC CÁC TỪ VIẾT TẮT ADF : Azure Factory CdC : Change Data Capture ix b) Kiểm tra kết trả data bricks Xem chi tiết kết thông qua link Output trả Hình 4.18 Xem kết trả ua DataBricks Qua kết bên thấy Parameters khớp với file liệu raw-data tải lên để kích hoạt trigger chạy Và số lượng dòng liệu ghi vào lớp Bronze Silver 501 dịng 34 Hình 4.19 Kết Bronze_Processing Hình 4.20 Kết Silver_Processing 4.3.2 Lần chạy với tệp data-log Sau lần ta tải tệp tệp liệu data-log gồm insert, delete, update Trong Demo tải tệp data-log insert với số dòng Trong lần kiểm tra trigger-log có hoạt động hay khơng, kết trả databrick có thay đổi với số dịng insert tệp data-log hay khơng a) Hoạt động trigger-log pipeline Trigger chạy thành công Hình 4.21 Trigger-Log chạy thành cơng 35 Pipeline hoạt động thành cơng Hình 4.22 Pipeline trigger-log kích hoạt chạy thành công b) Kiểm tra kết trả Theo kết trả databricks Parameters file insert-log liệu tăng thêm lên 555 dòng so với ban đầu 501 dòng lớp Bronze Silver Hình 4.23 Xem kết Bronze_Processing 36 Hình 4.24 Xem kết Silver_Processing 4.3.3 Cuối kiểm tra liệu sau lưu vào sở liệu SQL server Sau kiểm tra xong chức hệ thống kiểm tra liệu cuối đưa vào Database để phân tích Hình 4.25 Kiểm tra liệu nạp vào Database 37 CHƯƠNG TẠO DASHBOARD BẰNG POWER BI 5.1 Tạo Dashboard Power Bi 5.1.1 Liên kết liệu SQL Azure Database vào PowerBi Desktop Lấy liên kết thực liên kết DataBase server SQL Azure tạo Sau chọn bảng liệu cần cần phân tích Đảm bảo tính bảo mật sever tất networking muốn kết nối truy cập vào server cần cung cấp địa IP Hình 5.1 Cung cấp địa IP máy cho networking server 38 Hình 5.2 LIên kết liệu DataBase với PowerBI 5.2 Tạo Dashboard Qua Dashboard có nhìn cách trực quan liệu, nhiên để phân tích sâu liệu đưa kết luận xác cần phải xây dựng thêm mơ hình machine learning, thuật tốn phân cụm phân lớp Các cơng việc data analyst thực Với ngành Data Engineer cơng việc xây dựng đường ống liệu, làm chuẩn bị nguồn liệu cho data analyst thực phân tích chuyên sâu Sau Dashboard thông tin khách hàng Dashboard hành vi mua hàng khách hàng Chúng ta có nhìn tổng qt liệu để người hình dung thông tin trực quan dễ hiểu 39 5.2.1 Dashboard thông tin khách hàng Ở Dashboard cho thấy cách tổng quan thông tin khách hàng chi tiêu hàng tháng, chuyên ngành, nghề nghiệp gia đình, quê quán, năm học sinh viên Hình 5.3 Dashboard thơng tin khách hàng 5.2.2 Dashboard hành vi khách hàng Ta nhìn thấy thương hiệu sản phẩm, cửa hàng, kênh mua sắm phương thức toán mà khách hàng lựa chọn nhiều - Về thương hiệu Asus, Dell thương hiệu mà khách hàng chọn nhiều nhất, cịn Microsof sinh viên lựa chọn - Về cửa hàng: FPT shop giới di động cửa hàng chiếm thị phần cao - Phương thức tốn: giá trị Laptop thường có giá trị cao nên đa phần người lựa chọn toán qua thẻ để đảm bảo an tồn tiện lợi 40 Hình 5.4 Dashboard hành vi khách hàng 41 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Đạt Trong suốt thời gian thực tập TMA Solution với vị trí Data Engineer, em có thêm nhiều kiến thức quý báu nhiều khía cạnh việc Những kỹ lập trình, tư phát triển hệ thống, xử lý quản lý đường ống liệu liệu.Trên kiến thức học em hiểu rõ công việc nhiệm vụ Data Engineer cần làm, em áp dụng kỹ kiến thức học vào nhiệm vụ mà mentor giao Ngồi khơng tiếp xúc với kiến thức chuyên môn liên quan đến liệu, mà em cịn có hội phát triển kỹ mềm cần thiết trình làm việc thuyết trình hay trình bày thơng tin đến người nghe Những kiến thức bảo mật lĩnh vực cơng nghệ thơng tin Trong q trình làm việc tiếp xúc với nhiều anh chị em cải thiện nhiều kỹ giao tiếp cơng ty Tóm lại q trình thực tập vừa qua em học hỏi nhiều kiến thức công việc kỹ cần thiết cho công việc từ anh chị cơng ty Em tin với học giúp ích cho nghiệp thân nhiều thời gian tới Hạn chế Ngoài điều đạt thời gian thực tập cơng ty hạn chế, thời gian hạn ngắn vịng 10 tuần để phải vừa hồn thành nhiệm vụ cơng ty hồn thành báo cáo cho trường, em nỗ lực việc học hỏi tìm hiểu đề tài Tuy nhiên thời gian ngắn nên em chưa tận dụng hết kiến thức kỹ học vào công việc thực tế nhiều Việc làm quen với ngôn ngữ lập trình mới, mơi trường làm việc Cloud Azure cần thời gian đủ dài để tìm hiểu sử dụng tối đa chức cách hoạt động chúng tạo giá trị thực hữu ích cho dự án thực tế Và cáo khơng tránh sai sót định 42 Hướng phát triển: Với tích lũy q trình học tập thực tập doanh nghiệp, em có cho hướng rõ cơng việc tới Sau thời gian thực tập em tiếp tục trau dồi rèn luyện tốt kỹ học để củng cố kiến thức Đồng thời em cố gắng tìm cơng việc với mức độ học hỏi lĩnh data để có thêm cho thân hội tiếp xúc làm việc doanh nghiệp Ngoài định hướng Data Engineer em cố gắng tìm hiểu cơng việc có liên quan data analyst, data data science Không dừng mức độ học hỏi em muốn áp dụng kiến thức học vào công việc thực tế để rút kinh nghiệm cần thiết cách tốt trước khỏi trường Em tin với việc cố gắng không ngừng mở rộng kiến thức kinh nghiệm thân giúp em đạt mức độ thành thạo lập trình xử lý phân tích liệu 43 TÀI LIỆU THAM KHẢO https://spark.apache.org/ Microsoft Azure Data warehouse 44 PHỤ LỤC Code Bronze_Processing 45 Code Silver_Processing 46 47 48

Ngày đăng: 12/12/2023, 19:48

w