Tiểu luậnmôn học ứng dụng phân tích dữ liệu lớntrong kinh doanh đề tài tìm hiểu về quy trình etl

30 6 0
Tiểu luậnmôn học ứng dụng phân tích dữ liệu lớntrong kinh doanh đề tài tìm hiểu về quy trình etl

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH TIỂU LUẬN MƠN HỌC: ỨNG DỤNG PHÂN TÍCH DỮ LIỆU LỚN TRONG KINH DOANH ĐỀ TÀI “TÌM HIỂU VỀ QUY TRÌNH ETL” Giảng viên: Lê Thị Minh Châu Mã lớp học: ABDA433708_23_1_01 SVTH: Nhóm13   Nguyễn Thị Tường Vy 21126249   Võ Phan Kiều Trinh 21126329   Trần Ngọc Quỳnh Giao 21126132 Nguyễn Thị Phương Thanh 21126203   Thành phố Hồ Chí Minh, ngày 13 tháng 11 năm 2023 NHẬN XÉT ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… …………………………………………………………………………………………   Ký tên BẢNG PHÂN CÔNG CÔNG VIỆC Họ tên MSSV Trần Ngọc Quỳnh Giao 21126132  Nguyễn Thị Phương Thanh Nhiệm vụ Tổng quan ETL Demo Project Mức độ hoàn thành 100% Cách thức hoạt động ETL 21126203 Ứng dụng ETL 100% thực tế Các kỹ thuật ETL từ  Nguyễn Thị Tường Vy 21126249 đến nâng cao 100% Demo Project So sánh khác biệt Võ Phan Kiều Trinh 21126329 ETL ELT Rút ưu, nhược điểm 100% hướng phát triển đề tài MỤC LỤC CHƯƠNG 1: TỔNG QUAN 1.1.TỔNG QUAN VỀ ETL .1 1.1.1 Định nghĩa .1 1.1.2 Lịch sử đời phát triển 1.1.2.1 Lịch sử đời 1.1.2.2 Sự phát triển ETL 1.1.3 Tầm quan trọng ETL kinh doanh 1.2 CÁCH THỨC HOẠT ĐỘNG CỦA ETL 1.2.1 Trích xuất liệu có liên quan từ sở liệu nguồn - Extract 1.2.2 Chuyển đổi liệu để phù hợp cho việc phân tích - Transform 1.2.3 Tải liệu vào sở liệu đích - Load .7 1.3 CÁC KỸ THUẬT ETL TỪ CƠ BẢN ĐẾN NÂNG CAO 1.3.1 Kỹ thuật .8 1.3.2 Kỹ thuật nâng cao 1.4 ỨNG DỤNG CỦA QUY TRÌNH ETL TRONG THỰC TẾ 1.5 SO SÁNH SỰ KHÁC BIỆT GIỮA ETL VÀ ELT 10 CHƯƠNG 2: DEMO PROJECT 13 CHƯƠNG 3: TỔNG KẾT 22 3.1 Tóm tắt cơng việc thực 22 3.2 Ưu, nhược điểm project 22 3.3 Hướng phát triển đề tài 22 PHỤ LỤC HÌNH ẢNH .23 PHỤ LỤC BẢNG BIỂU .24 TÀI LIỆU THAM KHẢO 25 CHƯƠNG 1: TỔNG QUAN 1.1.TỔNG QUAN VỀ ETL 1.1.1 Định nghĩa Theo [1], ETL từ viết tắt ba từ tiếng Anh Extract – Transform – Load, tiếng Việt trích xuất, chuyển đổi tải  Hình 1: Quy trình ETL [6] ETL trình kết hợp liệu từ nhiều nguồn thành kho lưu trữ lớn trung tâm gọi kho liệu Theo [1], ETL sử dụng hệ thống quy tắc kinh doanh để làm xếp liệu thô, sau chuẩn bị liệu cho q trình lưu trữ, phân tích máy học (Machine Learning) Bạn giải nhu cầu thu thập thông tin kinh doanh cụ thể thơng qua phân tích liệu (chẳng hạn dự đoán kết từ định kinh doanh, tạo báo cáo bảng thông tin, tăng khả vận hành hiệu quả, v.v.) 1.1.2 Lịch sử đời phát triển 1.1.2.1 Lịch sử đời Theo [1], ETL xuất từ ngày đầu máy tính tổ chức bắt đầu lưu liệu dạng điện tử Tuy nhiên, thời điểm này, q trình thực thủ cơng Dữ liệu trích xuất từ hệ thống chuyển đổi, tải thủ công vào hệ thống khác Việc làm diễn chậm, dễ xuất lỗi tốn nhiều tài nguyên Vào năm 1970, ETL trở thành thuật ngữ sử dụng phổ biến tổ chức có liên quan đến kho liệu, sở liệu Mục tiêu đơn vị để tiến hành lưu trữ thông tin kinh doanh đa dạng Sau đó, nhu cầu tích hợp liệu sở liệu tăng lên nhanh chóng Do đó, ETL trở thành phương pháp tiêu chuẩn để thu thập liệu từ nhiều nguồn chuyển đổi trước đưa vào nguồn đích Đầu năm 1990, kho liệu xuất dẫn đến phát triển công cụ ETL Mục tiêu tự động hóa việc trích xuất liệu từ nguồn, chuyển đổi sang định dạng phù hợp để phân tích tải vào kho Những cơng cụ thường ứng dụng độc lập làm việc chỗ  Năm 2000, Big Data xuất nhu cầu xử lý liệu thời gian thực thúc đẩy công cụ ETL phát triển mạnh mẽ Những công cụ thường xây dựng Hadoop Đây khung nguồn mở để lưu trữ xử lý liệu lớn có tính  phân tán  Năm 2007, Cloud – đám mây đời cho phép doanh nghiệp thực ETL theo cách mở rộng tiết kiệm chi phí Doanh nghiệp lưu trữ xử lý khối liệu lớn đám mây mà không cần phần cứng hay phần mềm Các công cụ ETL đám mây mang đến linh hoạt lớn Doanh nghiệp tăng, giảm tài nguyên dễ dàng dựa nhu cầu 1.1.2.2 Sự phát triển ETL Theo [2], ETL phát triển qua hai giai đoạn sau:  ETL truyền thống  Dữ liệu thô trước thường lưu trữ sở liệu giao dịch hỗ trợ  nhiều yêu cầu đọc ghi không phù hợp với phân tích Để khắc phục vấn đề này, công cụ ETL tự động chuyển đổi liệu giao dịch thành liệu quan hệ với bảng liên kết với Các nhà phân tích sử dụng truy vấn để xác định mối quan hệ bảng, mẫu xu hướng  ETL đại  Khi công nghệ ETL phát triển, loại liệu nguồn liệu tăng theo cấp số nhân Công nghệ đám mây xuất để tạo sở liệu rộng lớn (cịn gọi góp liệu) Các góp liệu nhận liệu từ nhiều nguồn có tài nguyên phần cứng sở có khả mở rộng theo thời gian Các công cụ ETL trở nên tinh vi hoạt động với góp liệu đại: kho liệu, hồ liệu Kho liệu kho lưu trữ trung tâm lưu trữ nhiều sở liệu Trong sở liệu, bạn xếp liệu thành bảng cột mơ tả loại liệu bảng Phần mềm kho liệu hoạt động nhiều loại phần cứng lưu trữ, chẳng hạn ổ cứng thể rắn (SSD), ổ cứng lưu trữ đám mây khác, để tối ưu hóa việc xử lý liệu bạn Hồ liệu, bạn lưu trữ tồn liệu có cấu trúc khơng có cấu trúc kho tập trung quy mô Hồ liệu cho phép bạn sử dụng nhiều loại phân tích khác liệu bạn truy vấn SQL, phân tích liệu lớn, tìm kiếm tồn văn bản, phân tích thời gian thực máy học (ML) để định hướng định tốt 1.1.3 Tầm quan trọng ETL kinh doanh Theo [2], ETL giúp cải thiện việc thu thập phân tích thơng tin kinh doanh  bằng cách làm cho quy trình trở nên đáng tin cậy, xác, chi tiết hiệu  Bối cảnh lịch sử  ETL giúp đưa bối cảnh lịch sử có chiều sâu liệu tổ chức Doanh nghiệp kết hợp liệu cũ với liệu từ tảng ứng dụng Bạn xem tập liệu cũ song song với thông tin hơn, điều giúp bạn có nhìn dài hạn liệu Chế độ xem liệu hợp nhất  ETL cung cấp chế độ xem liệu hợp để phân tích báo cáo chuyên sâu Việc quản lý nhiều tập liệu đòi hỏi thời gian phối hợp, dẫn đến tình trạng hiệu chậm trễ ETL kết hợp sở liệu dạng liệu khác thành chế độ xem thống nhất, Quá trình tích hợp liệu cải thiện chất lượng liệu tiết kiệm thời gian cần thiết để di chuyển, phân loại chuẩn hóa liệu Điều giúp dễ dàng phân tích, hình dung hiểu tập liệu lớn  Phân tích liệu xác ETL cung cấp tính phân tích liệu xác để đáp ứng tiêu chuẩn tn thủ theo quy định Bạn tích hợp công cụ ETL với công cụ kiểm soát chất lượng liệu để lập hồ sơ, kiểm tra làm liệu, đảm bảo liệu đáng tin cậy Tự động hóa tác vụ ETL tự động hóa tác vụ xử lý liệu lặp lại nhằm giúp phân tích hiệu Các cơng cụ ETL tự động hóa q trình di chuyển liệu bạn thiết lập chúng để tích hợp thay đổi liệu theo định kỳ chí thời gian chạy Do đó, kỹ sư liệu dành nhiều thời gian để sáng tạo thời gian việc quản lý công việc tẻ nhạt di chuyển định dạng liệu 1.2 CÁCH THỨC HOẠT ĐỘNG CỦA ETL Theo [2], quy trình ETL hoạt động theo ba bước: Trích xuất liệu có liên quan từ sở liệu nguồn Chuyển đổi liệu để phù hợp cho việc phân tích Tải liệu vào sở liệu đích  Hình 2: Tổng quan cách thức hoạt động ETL [2] 1.2.1 Trích xuất liệu có liên quan từ sở liệu nguồn - Extract Theo [2], Trong q trình trích xuất liệu, cơng cụ trích xuất, chuyển đổi tải (ETL) trích xuất chép liệu thơ từ nhiều nguồn lưu trữ chúng khu vực lưu đệm Khu vực lưu đệm (hay gọi vùng đích) khu vực lưu trữ trung gian để lưu tạm thời liệu trích xuất Các khu vực lưu đệm liệu thường mang tính tạm thời, có nghĩa nội dung chúng bị xóa sau q trình trích xuất liệu hồn tất Tuy nhiên, khu vực lưu đệm giữ lại kho lưu trữ liệu nhằm mục đích khắc phục cố Tần suất hệ thống gửi liệu từ nguồn liệu đến kho liệu đích phụ thuộc vào chế sở thu thập thay đổi liệu Việc trích xuất liệu thường diễn theo ba cách sau Thông báo cập nhật  Trong q trình thơng báo cập nhật, hệ thống nguồn thông báo cho bạn  bản ghi liệu thay đổi Sau đó, bạn chạy q trình trích xuất thay đổi Hầu hết sở liệu ứng dụng web cung cấp chế cập nhật để hỗ trợ phương pháp tích hợp liệu Trích xuất tăng dần Một số nguồn liệu gửi thơng báo cập nhật xác định trích xuất liệu sửa đổi khoảng thời gian định Trong trường hợp này, hệ thống kiểm tra thay đổi theo định kỳ, chẳng hạn tuần lần, tháng lần kết thúc chiến dịch Bạn cần trích xuất liệu thay đổi Trích xuất hồn tồn Một số hệ thống xác định thay đổi liệu gửi thơng báo, đó, tải lại tất liệu lựa chọn Phương pháp trích xuất yêu cầu  bạn giữ lần trích xuất cuối để kiểm tra xem ghi ghi Bởi cách tiếp cận có khối lượng truyền liệu cao, khuyên  bạn nên sử dụng cách cho bảng nhỏ 1.2.2 Chuyển đổi liệu để phù hợp cho việc phân tích - Transform Theo [2], chuyển đổi liệu, công cụ trích xuất, chuyển đổi tải (ETL) chuyển đổi hợp liệu thô khu vực lưu đệm để chuẩn bị cho kho liệu đích Giai đoạn chuyển đổi liệu liên quan đến loại thay đổi liệu sau Chuyển đổi liệu Quy trình Lấy liệu thô chuyển Lấy liệu thô, tải liệu đổi liệu thô thành thô vào kho liệu mục tiêu, định dạng xác định sau chuyển đổi liệu thơ trước, sau tải vào kho trước phân tích liệu mục tiêu Vị trí chuyển đổi Q trình chuyển đổi diễn Quá trình chuyển đổi diễn tải máy chủ xử lý kho liệu mục tiêu thứ cấp Tính khả dụng ETL chuyển đổi tải ELT tải tất liệu liệu hệ thống liệu mà người dùng cho người dùng cần thiết xác định liệu cần chuyển đổi phân tích sau Khả hỗ trợ kho Hoạt động với kho Làm việc với giải pháp liệu liệu chỗ đám lưu trữ liệu đám mây, mây, yêu cầu định dạng hỗ trợ kiểu liệu có cấu liệu quan hệ có cấu trúc, bán cấu trúc, phi cấu trúc Quy mô liệu trúc thô Phù hợp xử lý tập Tốt xử lý lượng liệu nhỏ yêu cầu lớn liệu có cấu trúc phi Tốc độ  phép biến đổi phức tạp cấu trúc ETL chậm ELT ELT nhanh ETL sử dụng tài nguyên nội kho liệu Độ phức tạp ban đầu Ở giai đoạn đầu thực Khó cần phải có dễ dàng kiến thức sâu tools kỹ chun mơn 11 Chi phí Có thể cần nhiều thời gian Tiết kiệm chi phí hơn, tuỳ chi phí để thiết lập, tùy thuộc vào sở hạ tầng ELT thuộc vào công cụ ETL sử dụng sử dụng Bảo mật Có thể cần phải xây dựng Có thể sử dụng tính ứng dụng tùy chỉnh để tích hợp sẵn sở đáp ứng yêu cầu bảo vệ liệu mục tiêu để quản lý việc liệu  bảo vệ liệu  Bảng 1: so sánh ETL ELT  Trong số trường hợp, người dùng sử dụng hai phương pháp ETL ELT q trình tích hợp liệu, tùy thuộc vào yêu cầu cấu trúc liệu ban đầu Ví dụ, sử dụng ETL để chuyển đổi liệu từ nhiều nguồn khác lưu trữ kho liệu tạm thời, sử dụng ELT để chuyển đổi liệu từ kho liệu tạm thời lưu trữ hệ thống lưu trữ cuối 12 CHƯƠNG 2: DEMO PROJECT  Đề tài: Trích xuất, chuyển đổi tải liệu để phân tích liệu tình trạng giao hàng  Dataset : Sample - Superstore.csv Các bước tiến hành: Đầu tiên tạo Data Flow Task   Hình 1: Tạo Data Flow Task  Trong Data Flow Task, tiến hành bước sau: Bước 1: Trích xuất (Extract): Kết nối file Sample - Superstore.csv sau trích xuất sheet Orders 13  Hình 2: Chọn sheet Orders Sample - Superstore.csv  Hình 3: Show columns sheet Orders Bước 2: Chuyển đổi (Transform) (Derived): columns ● Days To Ship Schedule Trích xuất cột có tên DaysToShipSchedule  Điều kiện: Cấu trúc lệnh điều kiện SSIS: LogicalExpression?True_Value:False_Value 14 [Ship Mode] == "Same Day" ? : [Ship Mode] == "First Class" ? : [Ship Mode] == "Second Class" ? : Giải thích: Có gói cước giao hàng: Same Day, First Class, Second Class Standard Class Ship mode Số ngày Same Day First Class Second Class Standard Class  Bảng 1: Số ngày giao hàng gói cước Cột DaysToShipSchedule thể số ngày giao hàng theo Ship Mode  Hình 4: Trích xuất cột có tên DaysToShipSchedule ● Days To Ship Actual Trích xuất cột có tên DaysToShipActual  Điều kiện: DATEDIFF("day",[Order Date],[Ship Date]) 15 Giải thích: Để tính toán số ngày giao hàng thực tế lấy Ship Date trừ Order Date  Hình 5: Trích xuất cột có tên DaysToShipActual  ● Shipping Status Trích xuất cột có tên ShippingStatus  Điều kiện:  DaysToShipActual > DaytoShipSchedule ? "Shipped Late" : DaysToShipActual == DaytoShipSchedule ? "Shipped On Time" : "Shipped Early" Giải thích: Đưa tình trạng giao hàng Nếu ngày giao hàng thực tế > ngày giao hàng theo kế hoạch “Shipped Late”, với ngày giao hàng theo kế hoạch “Shipped On Time”, lại “Shipped Early” 16  Hình 6: Trích xuất cột có tên ShippingStatus Tải liệu (Load): Database/ShippingStatus/Tables  Hình 7: Tạo server bên máy SQL server  17  Hình 8: Kết nối liệu tới SQL Server   Hình 9: Chọn columns cần thiết để xuất bảng kết 18  Hình 10: Đặt tên cho bảng kết  Hình 11: Kiểm tra cột liên kết với 19  Hình 12: Thực thi nhiệm vụ  Hình 13: Các data flow sẵn sàng để chạy 20  Hình 14: Xuất kết 1000 hàng Databases/ShippingStatus SQL Server   Hình 15: Kết cuối cùng  21 CHƯƠNG 3: TỔNG KẾT 3.1 Tóm tắt cơng việc thực Đầu tiên để thực project, cần phải cài đặt SQL Server Microsoft Visual Studio Sau cần phải tìm kiếm tập liệu phù hợp Khi có đủ điều kiện nhóm tiến hành thực project qua bước Extract, Transform Load Cuối kết xuất Databases SQL server 3.2 Ưu, nhược điểm project Ưu điểm Nhược điểm - Linh hoạt: hỗ trợ tích hợp hợp liệu - SSIS hỗ trợ cho hệ điều hành từ nhiều nguồn khác databases, Window flat files, Excel, XML, - Thiếu tùy chọn tích hợp: Việc - Dễ sử dụng: Việc kết nối giao diện hỗ trợ hệ điều hành Windows gây khó người dùng với cấu hình SSIS vơ khăn việc tích hợp SSIS với đơn giản Nếu bạn không hiểu rõ cấu công cụ thuộc hệ điều hành khác trúc, bạn kiểm tra thơng qua Package Explorer - Tạo tài liệu: số tính cho phép tạo liệu chuyển đổi liệu  ban đầu 3.3 Hướng phát triển đề tài Mở rộng phạm vi phân tích: Dự án mở rộng để bao gồm nhiều liệu hơn, chẳng hạn liệu khách hàng, sản phẩm, nhà cung cấp, v.v Điều giúp doanh nghiệp có tranh tồn diện tình trạng giao hàng 22 PHỤ LỤC HÌNH ẢNH Hình 1: Quy trình ETL [6] Hình 2: Tổng quan cách thức hoạt động ETL [2] Hình 3: Quy trình hoạt động ETL ELT [4] 10 Hình 1: Tạo Data Flow Task 13 Hình 2: Chọn sheet Orders Sample - Superstore.csv 14 Hình 3: Show columns sheet Orders .14 Hình 4: Trích xuất cột có tên DaysToShipSchedule .15 Hình 5: Trích xuất cột có tên DaysToShipActual 16 Hình 6: Trích xuất cột có tên ShippingStatus 17 Hình 7: Tạo server bên máy SQL server 17 Hình 8: Kết nối liệu tới SQL Server 18 Hình 9: Chọn columns cần thiết để xuất bảng kết 18 Hình 10: Đặt tên cho bảng kết 19 Hình 11: Kiểm tra cột liên kết với 19 Hình 12: Thực thi nhiệm vụ 20 Hình 13: Các data flow sẵn sàng để chạy 20 Hình 14: Xuất kết 1000 hàng Databases/ShippingStatus SQL Server  21 Hình 15: Kết cuối 21 23 PHỤ LỤC BẢNG BIỂU Bảng 1: so sánh ETL ELT 12 Bảng 1: Số ngày giao hàng gói cước .15 24 TÀI LIỆU THAM KHẢO [1] Mastering Data Analytics, ETL gì? Tìm hiểu chi tiết quy trình ETL trong   phân tích liệu, truy cập ngày 1/11/2023 tại: https://mastering-da.com/etl-la-gi/ [2] aws, ETL(Trích xuất, chuyển đổi, tải) gì?, truy cập ngày 2/11/2023 tại: https://aws.amazon.com/vi/what-is/etl/?nc1=f_ls [3] FPT Cloud (10/3/2022), ETL gì? Cách thức hoạt động tầm quan trọng  ETL, truy cập ngày 2/11/2023 tại:  https://fptcloud.com/etl/ [4] aws, ETL ELT khác điểm nào?, truy cập ngày 3/11/2023 tại:  https://aws.amazon.com/vi/compare/the-difference-between-etl-and-elt/ https://a1digihub.com/elt-la-gi/#:~:text=S%E1%BB%B1%20kh%C3%A1c%20nhau %20gi%E1%BB%AFa%20ETL,%C4%91%C6%B0%E1%BB%A3c %20%C4%91%C6%B0a%20%C4%91%E1%BA%BFn%20data%20warehouse https://product.vinbigdata.org/duong-dan-du-lieu-etl-va-elt-dau-la-khac-biet-co-ban/ [5] Viblo.asia, Tìm hiểu quy trình ETL (Extract, Transform, Load) cách chúng  áp dụng thực tế , truy cập ngày 3/11/2023 tại: https://viblo.asia/p/tim-hieu-ve-quy-trinh-etl-extract-transform-load-va-cach-chungduoc-ap-dung-trong-thuc-te-38X4EPYXVN2 [6] Data Chanel, What is ETL And How the ETL process works , truy cập ngày 11/11/2023 tại: https://www.datachannel.co/blogs/what-is-etl-and-how-the-etl-process-works [7] Community.Tableau (2022), Sample - Superstore Sales (Excel).xls, ngày truy cập 8/11/2023, tại: https://community.tableau.com/s/question/0D54T00000CWeX8SAL/samplesuperstore-sales-excelxls 25

Ngày đăng: 12/12/2023, 15:11

Tài liệu cùng người dùng

Tài liệu liên quan