BÁO cáo bài tập NHÓM học PHẦN TIN học văn PHÒNG đề tài EXTRACT – TRANSFORM – LOAD (ELT)

12 10 0
BÁO cáo bài tập NHÓM học PHẦN TIN học văn PHÒNG đề tài EXTRACT – TRANSFORM – LOAD (ELT)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TRƯỜNG ĐẠI HỌC KINH TẾ BỘ TIN HỌC QUẢN LÝ … … BÁO CÁO BÀI TẬP NHÓM HỌC PHẦN TIN HỌC VĂN PHÒNG Đề tài EXTRACT – TRANSFORM – LOAD (ELT) Sinh viên : Huỳnh Thị Diệu Trinh Lớp tín : 46K12.2 Giáo viên hướng dẫn : Phan Đình Vấn Đà Nẵng, 2020 MỤC LỤC Chương Tổng quan ETL 1.1 Định nghĩa ETL gì? .4 1.1.1 Extract 1.1.2 Transform .4 1.1.3 Load 1.2 Cách thức hoạt động ETL 1.2.1 Giai đoạn trích xuất - Extract 1.2.2 Giai đoạn chuyển đổi - Transform .6 1.2.3 Giai đoạn Tải - Load 1.3 Tại cần công cụ ETL .8 Chương Một số thơng tin hữu ích khác ETL 2.1 Lịch sử phát triển ETL 2.2 So sánh khác biệt ETL ELT 10 I DANH MỤC CÁC BẢNG BIỂU Bảng Các quy trình trình chuyển đổi liệu DANH MỤC CÁC HÌNH ẢNH Hình Cách thức hoạt động ETL Hình Cách thức hoạt động ETL .10 II Chương Tổng quan ETL 1.1 Định nghĩa ETL gì? ETL viết tắt Extract - Transform - Load (tạm dịch: Trích xuất - biến đổi tải) Trong điện tốn, trích xuất - biến đổi - tải (ETL) quy trình chung chép liệu từ nhiều nguồn vào hệ thống đích đại diện cho liệu khác với nguồn Quá trình ETL trở thành khái niệm phổ biến năm 1970 thường sử dụng kho liệu [1] 1.1.1 Extract Extract (Trích xuất) trình đọc liệu từ sở liệu Trong giai đoạn này, liệu thu thập, thường từ nhiều loại nguồn khác 1.1.2 Transform Transform (Biến đổi) trình chuyển đổi liệu trích xuất từ biểu mẫu trước thành biểu mẫu cần có để đặt vào sở liệu khác Chuyển đổi xảy cách sử dụng quy tắc bảng tra cứu cách kết hợp liệu với liệu khác 1.1.3 Load Load (Tải) trình ghi chép liệu vào sở liệu đích Một hệ thống ETL thiết kế phù hợp trích xuất liệu từ hệ thống nguồn, thực thi tiêu chuẩn tính quán chất lượng liệu, tuân thủ liệu để nguồn riêng biệt sử dụng cuối cung cấp liệu định dạng sẵn sàng để nhà phát triển ứng dụng xây dựng ứng dụng người dùng cuối đưa định Vì việc trích xuất liệu cần có thời gian, nên thường thực song song ba giai đoạn Trong liệu trích xuất (extract), trình chuyển đổi (Transform) khác thực thi xử lý liệu nhận chuẩn bị để tải trình tải liệu bắt đầu mà khơng cần chờ hồn thành giai đoạn trước III 1.2 Cách thức hoạt động ETL Trong phần này, xem xét sâu bước ba bước quy trình ETL [2] Hình Cách thức hoạt động ETL 1.2.1 Giai đoạn trích xuất - Extract Đây phần quy trình ETL, liên quan đến việc trích xuất liệu từ hệ thống nguồn Rất doanh nghiệp sử dụng loại liệu hệ thống Hầu hết doanh nghiệp quản lý liệu từ nhiều nguồn khác sử dụng số công cụ phân tích liệu để tối ưu hóa q trình quản trị Để liệu chuyển đến đích mới, trước tiên phải trích xuất từ nguồn Trong bước quy trình ETL, liệu có cấu trúc khơng cấu trúc nhập hợp vào kho lưu trữ Dữ liệu thơ trích xuất từ nhiều nguồn khác nhau, bao gồm: - Cơ sở liệu có - Ứng dụng bán hàng tiếp thị - Ứng dụng thiết bị di động - Hệ thống quản lý khách hàng CRM - Nền tảng lưu trữ liệu IV - Kho liệu - Cơng cụ phân tích Mặc dù liệu xử lý thủ cơng, việc trích xuất liệu mã hóa tay tốn nhiều thời gian dễ bị lỗi Các công cụ ETL tự động hóa q trình trích xuất tạo quy trình làm việc hiệu đáng tin cậy 1.2.2 Giai đoạn chuyển đổi - Transform Trong giai đoạn quy trình ETL, quy tắc quy định áp dụng để đảm bảo chất lượng liệu khả truy cập Quá trình chuyển đổi liệu bao gồm số quy trình phụ: Bảng Các quy trình trình chuyển đổi liệu STT Quy trình Data cleansing Ý nghĩa Nhằm mục đích truyền liệu "đúng" cho mục tiêu Tiêu chuẩn hóa Quy tắc định dạng áp dụng cho tập liệu Loại bỏ liệu trùng lặp Dữ liệu giống loại trừ loại bỏ Xác minh Dữ liệu khơng thể sử dụng xóa liệu dị thường gắn cờ cảnh báo Sắp xếp Dữ liệu xếp theo loại Các tác vụ khác Mọi quy tắc bổ sung / tùy chọn áp dụng để cải thiện chất lượng liệu V Chuyển đổi thường coi phần quan trọng quy trình ETL Chuyển đổi liệu cải thiện tính tồn vẹn liệu đảm bảo liệu đến đích hồn tồn tương thích sẵn sàng để sử dụng 1.2.3 Giai đoạn Tải - Load Bước cuối quy trình ETL tải liệu chuyển đổi vào đích Dữ liệu tải tất lúc (tải đầy đủ) theo khoảng thời gian theo lịch trình (tải tăng dần) Tải tồn bộ: Trong q trình tải tồn ETL, liệu vào ghi mới, kho liệu Mặc dù điều hữu ích cho mục đích nghiên cứu, cách tải tồn tạo tập liệu tăng theo cấp số nhân nhanh chóng trở nên khó bảo trì Tải tăng dần: Một cách tiếp cận tồn diện dễ quản lý tải tăng dần Tải tăng dần so sánh liệu đến với có trước tạo ghi bổ sung tìm thấy thơng tin Kiểu tải gây tốn giúp quản lý kinh doanh thông minh 1.3 Tại cần công cụ ETL Các doanh nghiệp dựa vào quy trình ETL nhiều năm để có nhìn tổng qt liệu thúc đẩy định kinh doanh tốt Bằng cách cung cấp nhìn tổng hợp, ETL giúp người dùng doanh nghiệp dễ dàng phân tích báo cáo liệu liên quan đến sáng kiến họ ETL cải thiện suất chun gia liệu mã hóa tái sử dụng quy trình di chuyển liệu mà không yêu cầu kỹ kỹ thuật để viết mã tập lệnh Các tổ chức cần ETL ELT để kết nối liệu lại với nhau, đảm bảo độ xác cho liệu để làm báo cáo Nói tóm lại, cơng cụ ETL bước thiết yếu quy trình lưu trữ liệu, cho phép bạn đưa định sáng suốt thời gian ngắn VI Các loại công cụ ETL nay: - Mã hóa tay - Cơng cụ xử lý hàng loạt - Các công cụ nguồn mở - Các công cụ dựa đám mây - Công cụ thời gian thực - Công cụ ETL phù hợp với tổ chức bạn? Mỗi loại công cụ ETL khác phù hợp cho nhu cầu khác Tùy theo nhu cầu - Công cụ ETL xử lý hàng loạt: Nếu xử lý liệu thời gian thực ưu tiên cao, xử lý liệu hàng loạt ETL vừa nhanh hiệu - Các công cụ mã nguồn mở: Là giải pháp thay có chi phí thấp, dành cho gói phần mềm thương mại, ETL nguồn mở hoạt động tốt cho tổ chức vận hành bảo trì phần mềm, muốn tránh phần mềm độc quyền không cần thực chuyển đổi liệu phức tạp - Các cơng cụ ELT dựa điện tốn đám mây: Nếu doanh nghiệp bạn thích cơng cụ quản lý điện tốn đám mây bạn nên lựa chọn ETL điện tốn đám mây Các cơng cụ dựa điện tốn đám mây lưu trữ đám mây dạng SaaS triển khai trực tiếp vào sở hạ tầng đám mây riêng bạn - Công cụ thời gian thực: VII Nếu bạn cần chuyển đổi quản lý liệu lớn truyền liệu theo thời gian thực, cơng cụ ETL thời gian thực dành cho bạn Tuy nhiên, nhớ tất liệu cần xử lý thời gian thực Chương Một số thơng tin hữu ích khác ETL 2.1 Lịch sử phát triển ETL ETL trở nên phổ biến vào năm 1970 tổ chức bắt đầu sử dụng nhiều kho liệu sở liệu để lưu trữ loại thông tin kinh doanh khác Nhu cầu tích hợp liệu lan truyền sở liệu tăng lên nhanh chóng ETL trở thành phương pháp tiêu chuẩn để lấy liệu từ nguồn khác chuyển đổi trước tải vào nguồn đích Vào cuối năm 1980 đầu năm 1990, kho liệu xuất Một loại sở liệu riêng biệt, kho liệu cung cấp quyền truy cập tích hợp vào liệu từ nhiều hệ thống - máy tính lớn, máy tính mini, máy tính cá nhân bảng tính Nhưng phận khác thường chọn công cụ ETL khác để sử dụng với kho liệu khác Cùng với việc sáp nhập mua lại, nhiều tổ chức kết hợp với số giải pháp ETL khác khơng tích hợp VIII Hình Cách thức hoạt động ETL Theo thời gian, số lượng định dạng liệu, nguồn hệ thống mở rộng nhiều Trích xuất, chuyển đổi, tải số phương thức mà tổ chức sử dụng để thu thập, nhập xử lý liệu ETL ELT phần quan trọng chiến lược tích hợp liệu rộng tổ chức Tuy nhiên, ETL ELT hai khái niệm dễ bị nhầm lẫn, BizFly Cloud tìm hiểu thông tin để phân biệt 2.2 So sánh khác biệt ETL ELT - ETL q trình trích xuất, chuyển đổi tải liệu ELT q trình trích xuất, tải chuyển đổi liệu - Trong ETL, liệu chuyển từ nguồn liệu sang phân tầng vào kho liệu - ELT tận dụng kho liệu để thực biến đổi Không cần dàn dựng liệu - ETL giúp bảo mật tuân thủ liệu cách làm liệu nhạy cảm an toàn trước tải vào kho liệu IX - ETL thực phép biến đổi liệu tinh vi hiệu chi phí so với ELT - ETL giúp bảo mật tuân thủ liệu, làm liệu xấu trước tải vào đích liệu, ELT đơn giản dành cho cơng ty có nhu cầu liệu nhỏ TÀI LIỆU THAM KHẢO [1] B Clould, "ELT gì? Cách thức hoạt động ETL cần sử dụng elt?," 31 07 2020 [Online] Available: https://bixzzflycloud.n/tin-tuc/etl-la-gi-cach-thuchoat-dong-cua-elt-va-tai-sao-can-su-dung-elt-20200731175234501.htm [Accessed 13 12 2020] [2] P Vassiliadis, A Simitisis and S Spiros, "Conceptual modeling for ETL processes," in Proceedings of the 5th ACM international workshop on Data Warehousing and OLAP, 2002 X XI ... .4 1.1.1 Extract 1.1.2 Transform .4 1.1.3 Load 1.2 Cách thức hoạt động ETL 1.2.1 Giai đoạn trích xuất - Extract 1.2.2... sử dụng kho liệu [1] 1.1.1 Extract Extract (Trích xuất) q trình đọc liệu từ sở liệu Trong giai đoạn này, liệu thu thập, thường từ nhiều loại nguồn khác 1.1.2 Transform Transform (Biến đổi) q trình... hoạt động ETL .10 II Chương Tổng quan ETL 1.1 Định nghĩa ETL gì? ETL viết tắt Extract - Transform - Load (tạm dịch: Trích xuất - biến đổi tải) Trong điện tốn, trích xuất - biến đổi - tải

Ngày đăng: 18/04/2022, 12:11

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan