BỌ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC NGUYỄN TẤT THÀNH NGUYEN TAT THANH NGUYỄN THỊ HỒNG VÂN NGHIÊN CỨU ỨNG DỤNG HỊ DỮ LIỆU TRÊN ĐIỆN TỐN ĐÁM MÂY Chuyên ngành: Công nghệ thông tin Mã số: 8480201 LUẬN VĂN THẠC sĩ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẢN KHOA HỌC: TS NGUYỀN KIM QUỐC Thành phố Hồ Chí Minh - 2023 LỜI CAM ĐOAN Tơi tên là: NGUYỀN THỊ HÒNG VÂN Mã sổ học viên: 2100000087 Tơi xin cam đoan cơng trình nghiên cím riêng tơi Nhĩíng nội dung luận văn thực hướng dần trực tiếp TS NGUYÊN KIM QUỐC Mọi tham khảo dùng luận văn trích dẫn rõ ràng tên tác giả, tên cơng trình Các số liệu kết nghiên círu luận văn tơi tự thực hiện, trung thực không trùng lặp với đề tài khác Tôi xin chịu trách nhiệm nghiên cứu cùa Tp HCM, tháng 03 năm 2023 TÁC GIẢ LUẬN VÃN (Kỷ ghi rõ họ têri) LỜI CÁM ƠN Trước hết, tơi xin bày tị lịng tri ân sâu sắc đến Tiến sĩ Nguyễn Kim Quốc - Khoa Công nghệ thông tin - Trường Đại học Nguyền Tất Thành tận tình hướng dẫn, tạo điều kiện thuận lợi nhất, giúp thực hồn thành luận văn Tơi xin gửi lời cảm ơn chân thành tới Ban giám hiệu Trường Đại học Nguyễn Tất Thành, chia sẻ, động viên tơi vượt qua khó khăn đê hồn thành cơng việc nghiên círu Tơi xin trân trọng, biết ơn sâu sắc Quý Thầy Cô Khoa công nghệ thông tin - Đại học Nguyền Tất Thành tận tâm dạy tạo điều kiện giúp đờ suốt thời gian tham gia học tập nghiên cím Khoa Cuối cùng, tơi xin bày tị lời cảm ơn đến gia đình ln chia sẻ, gánh đỡ khó khăn dành tình cảm, động viên tinh thần không thê thiếu đổi với tơi suốt q trình thực luận văn Tp Hồ Chi Minh, ngày 10 tháng năm 2023 Tác giả luận văn ii MỤC LỤC MỤC LỤC iii DANH MỤC CÁC HÌNH V DANH MỤC KÝ HIỆU VÀ VIÉT TÁT viii Chương 1: GIỚI THIỆU ĐÈ TÀI 1.1 Lý chọn đề tài 1.2 Mục tiêu nghiên cihi phạm vi đề tài 1.3 Phương pháp nghiên círu 1.4 Ý nghĩa thực tiễn đề tài Chương 2: TỔNG QUAN VÀ GIẢI PHÁP TRÊN HỔ DỮ LIỆU 2.1 Tông quan Hồ liệu (Data Lake) 2.1.1 Hồ liệu gì? 2.1.2 Phần biệt thuật ngiì Big Data Data Lake 2.1.3 Một số lợi ích Hồ liệu 2.1.4 Phần tích nâng cao với Hồ dĩr liệu .7 2.1.5 Hồ liệu đám mây gì? 2.1.6 - Phân biệt Hồ liệu (Data Lake) so với Kho liệu (Data Warehouse) cách tiếp cận khác 11 2.2 Các giải pháp Hồ liệu 14 2.2.1 Di chuyên liệu 14 2.2.2 Liru trữ an toàn dừ liệu danh mục .14 2.2.3 Phân tích cho phép khai phá liệu (Data Mining) 14 2.2.4 Machine Learning - Học máy 14 2.3 Khi sử dụng hồ dĩr liệu 15 Chương 3: MÔ HÌNH TRIỂN KHAI VÀ KHAI PHÁ HỒ DỪ LIỆU 17 3.1 Triên khai Hồ dĩr liệu Điện toán đám mây 17 3.1.1 Sắp xếp nguồn dĩr liệu phù họp cho Hồ dĩr liệu (Data Lake) .17 3.1.2 Bảo vệ Hồ liệu 18 3.1.3 Xây dựng Data Lake Điện toán đám mây 19 3.1.4 Kiến trúc mầu Hồ dĩr liệu Điện toán đám mây .22 3.1.5 Đảm bảo Hồ liệu không biến thành đầm lầy dừ liệu 24 3.1.6 Hồ liệu, Khó khăn thách thức thực triển khai 26 iiỉ 3.2 Data Mining - Khai phá Hồ dĩr liệu Điện toán đám 26 3.2.1 Data Mining gì? 26 3.2.2 ửng dụng cùa Data Mining 26 3.2.3 Các công cụ khai phá liệu 27 3.2.4 Giải pháp BI Report 28 Chương 4: XÂY DựNG VÀ ĐÁNH GIÁ HỒ DỮ LIỆU DựA TRÊN NHU CẦU THỤC TỂ CỦA DOANH NGHIỆP 43 4.1 Bài toán áp dụng .43 4.1.1 Đối tượng doanh nghiệp 43 4.1.2 Phạm vi Quản trị Phân tích liệu 44 4.2 Quy trình bước khai phá liệu thường thực doanh nghiệp: 44 4.3 tài Xây dựng Hồ liệu, Phân tích Khai phá liệu thực theo đề 45 4.3.1 Thu thập liệu 46 4.3.2 Xây dựng cấu trúc Dữ liệu mẫu từ Hồ liệu 53 4.3.3 Chuyên đôi liệu với Query Editor 56 4.3.4 Mơ hình liệu quan hệ 60 4.3.5 Thực Hàm DAX Power BI Desktop 62 4.3.6 Thực hiện: Data Visualization Power BI Desktop 64 4.3.7 Ket thực giao diện người dùng 69 4.4 Đánh giá 76 4.4.1 Kết đạt 76 4.4.2 Sự hạn che đề tài 76 Chương 5: KÉT LUẬN VÀ HUỚNG PHÁT TRIỀN 79 5.1 Kết luận 79 5.2 Vấn đề tồn đọng cân nhắc cho Doanh nghiệp triển khai Hồ liệu Phân tích liệu 79 5.3 Hướng phát triển 80 TÀI LIỆU THAM KHẢO 81 iv DANH MỤC CÁC HÌNH Hình 2.1 Cấu trúc hru trữ cùa nhà cung cấp dịch vụ Đám mây 11 Bảng 2.1 Phân biệt Hồ liệu Kho dĩr liệu 13 Hình Xây dựng Datalake On-Premises 20 Hình DataLake Đám mây Azure 21 Hình 3 Kiến trúc mẫu Azure Datalake 22 Hình Kiến trúc mầu cùa Datalake Đám mây tham chiểu tìr Data Warehouse 23 Hình Giải pháp Cloud Data Lake (Azure)cua Microsoft 29 Hình Giải pháp Cloud Data Lake (Azure) thực truy vấn dĩr liệu 30 Hình Hướng dần chọn Kho hru trữ Hồ Díĩ liệu Azure 32 Hình Hướng dẫn cung cấp địa chi URL Azure DataLake Store 33 Hình Hướng dẫn đăng nhập vào Data Lake Storage Genl 33 Hình 3.10 Hướng dẫn Ket vào Data Lake Storage Genl 34 Hình 3.11 Hướng dẫn tải tập tin liệu Azure Data Lake Store 34 Hình 3.12 Các trường sau Fields tải thành công vào Power BI 35 Hình 13 Dừ liệu mầu trường cần chuân hóa liệu 35 Hình 14 Hướng dẫn truy vấn chuyên đơi câu truy vấn 35 Hình 3.15 Hướng dần truy vấn theo trường liệu 36 Hình 3.16 Hướng dẫn chuyên đôi tập tin liệu 36 Hình 3.17 Hướng dần định dạng kiêu liệu 36 Hình 3.18 Hướng dần thực câu lệnh truy vấn 36 Hình 3.19 Hướng dần trực quan hóa liệu 37 Hình 20 Các dạng trực quan hóa dĩr liệu 37 Hình 3.21 Chọn trường liệu đê thực trực quan hóa 38 Hình 22 Hình ảnh thực trực quan hóa thành cơng 39 Hình 23 Hướng dần thao tác giao diện trực quan hóa 39 Hình 24 Hình ảnh giao diện trực quan hóa thành cơng 40 Hình 25 Hướng dần xuất báo cáo Power BI Desktop 41 V Hình 26 Hướng dần chọn diêm đến đê xuất báo cáo trênPower BI Desktop 41 Hình 27 Hộp thoại thơng báo xuất báo cáotrên Power BI Desktopthành cơng 42 Hình Các bước thực khai phá liệu 45 Bảng Bảng Danh mục sản phâm 46 Bâng Bảng dừ liệu sản phâm 47 Bâng Bảng dừ liệu nhà cung cấp 48 Bâng 4 Bảng dừ liệu bán hàng theo khu vực 49 Bâng Bảng dĩr liệu bán hàng chi tiết năm 2021 2022 50 Bảng Bảng dừ liệu thông tin khách hàng thân thiết 51 Bảng Bảng dừ liệu bán hàng cho khách hàng thân thiết 52 Hình Kiến trúc tông quan hệ thống liệu nguồn chức thực trực quan hóa liệu 54 Hình Giao diện PowerBI Desktop thực nhập dừ liệu 56 Hình 4 Thực Getdata đê kết nối file liệu nguồn 57 Hình Ket nối thành cơng với bảng dĩr liệu nguồn 58 Hình Thực chun đơi liệu truy van Query Editor 59 Hình Thực Query Editor Bảng liệu Sản phàm 59 Hình Thực Query Editor Bảng dĩr liệu bán hàng chi tiết theo ngày 60 Hình Mơ hình dĩr liệu quan hệ 61 Hình 10 Giao diện thực hàm DAX 62 Hình 4.11 Thực Hàm DAX đê tính Doanh thu Lợi luận cho doanh nghiệp : 63 Hình 12 Nhu cầu sử dụng xem Báo cáo tịng phịng ban 64 Hình 13 Trực quan hóa liệu Bán hàng theo năm ước tính cho năm 65 Hình 14 Trực quan hóa dừ liệu Bán hàng theo quý Sản phàm bán chạy 66 Hình 15 Trực quan hóa dĩr liệu Thơng tin khách hàng Thân thiết 67 Hình 16 Trực quan hóa liệu kênh bán hàng Online Sản phẩm bán 68 Hình 17 Thực xuất thành công 69 Hình 18 Giao diện người dùng trình duyệt web 70 Hình 19 Giao diện người dùng xem Báo cáo bán hàng kênh online trình duyệt web 71 vi Hình 20 Giao diện người dùng xem Báo cáo bán hàng kênh online trình duyệt web người dùng thao tác chọn Sản phàm bán 72 Hình 21 Màn hình đăng nhập Power BI thiết bị di động 73 Hình 22 Màn hình trang chủ báo cáo người dùng thiết bị di động 73 Hình 23 Trực quan hóa báo cáo bán hàng theo tịng năm ước tính cho năm Thiết bị di động .74 Hình 24 Trực quan hóa báo cáo Bán hàng theo quý Sản phâm bán chạy Thiết bị di động .74 Hình 25 Trực quan hóa báo cáo thơng tin khách hàng Thân thiết thiết bị di động 75 Hình 26 Trực quan hóa báo cáo kênh bán hàng Online Sản phàm bán thiết bị di động 75 vii DANH MỤC CÁC BẢNG Bảng 2.1 Phân biệt Hồ liệu Kho liệu 13 Bảng Bảng Danh mục sân phâm 46 Bảng Bảng liệu sản phâm 47 Bảng Bảng liệu nhà cung cấp 48 Bảng 4 Bảng dừ liệu bán hàng theo khu vực 49 Bảng Bảng dừ liệu bán hàng chi tiết năm 2021 2022 50 Bảng Bảng dừ liệu thông tin khách hàng thân thiết 51 Bảng Bảng dừ liệu bán hàng cho khách hàng thân thiết 52 viii d Thực trực quan hóa liệu kênh bán hàng Online Sản phâni bản: Home Insert Modeling View Help [xcel Data SQ1 inter Dataverse Recent data* workbook hub* Server data sources* Transform Refresh data* New visual Text box More visuals * New Quick measure measure Publish Hình 16 Trực quan hóa dừ liệu kênh bán hàng Online Sân phâm bán Trang 68 Tác giả thực xuất giao diện xem cho người dùng trình duyệt web thiết bị di động Publishing to Power BI x/ Success! Open 'Exercise.pbix' in Power BI Get Quick Insights Did you know? You can create a portrait view of your report tailored for mobile phones On the View tab, select Mobile Layout, learn morg Got it Hình 17 Thực xuất bân thành công 4.3.7 Kết thực giao diện người dùng a Giao diện trình duyệt web: Ngirời dùng đăng nhập vào https://app.powerbi.com , click vào link sau: https://app.powerbi.com/groups/c45c9a36-307c-4ab5-94fa549ble38b3ce/reports/c3b 70f02-87a8-42 78-alf5- 85df6e84114f/ReportSection92941c5ae34f85ef98fb Tùy theo phân quyền người quản trị mà người dùng có thê xem hình ảnh báo cáo thực thao tác trực quan hình ảnh báo cáo Trang 69 * J c Power Bl Oono - DxaMnng Paọes Ổ) -erne Exercise I Export Q Ú4e ứ Snare • Chat •' Team: Ọ Gat roughs GJ Create ĩ.bicrtptrcc Edit IỔ Data updated V4/23 ô A n ããã * '$ â Gender ãFemale 'SMale I Gender ã Female >Male I Customer Detect Vaeiu tS Apprl ® DapWyrner't pioeone: CD earn * T Wortjpacai Q Deens -Oacal/ewsg s : I c o Ú Sale: Sales Summary o Srousa Q ■ app.powertji.com/groups/c45c9a36-307c-4ab5-94fa-S49b1e38b3oe/reports/c3b70f02-87a8-4278-a1f5-85df6e84114f/ReportSection tla.-lnfo © 2022 TomToen © 2023 Microsoft Corporation Terms Sac Sata Hình 18 Giao diện người dùng trình duyệt web Trang 70 o Ỡ X 61 ■ app.powerbi.com