Công nghệ ETL (Extract, Transform and Load)

Một phần của tài liệu Nghiên cứu giải pháp xây dựng cơ sở dữ liệu tích hợp về thủ tục hành chính (Trang 37)

Nhƣ chính tên của nó đã nói lên mục đích, công nghệ ETL trích xuất dữ liệu từ các hệ thống nguồn, biến đổi nó cho phù hợp với yêu cầu hệ thống và tải các kết quả vào trong một hệ thống đích. Các nguồn và các đích thƣờng là các CSDL và các file, nhƣng chúng cũng có thể là các loại khác của các kho dữ liệu nhƣ là hàng đợi thông điệp. ETL hỗ trợ cách tiếp cận kỹ thuật hợp nhất để tích hợp dữ liệu.

Dữ liệu cũng có thể đƣợc trích xuất theo một mô hình kéo điều khiển theo lịch trình (schedule-driven) hoặc mô hình đẩy theo điều khiển sự kiện. Cả hai mô hình đó có thể tận dụng lợi thế của CDC (changed data capture). Cách thức hoạt động kéo (Pull) hỗ trợ làm hợp nhất dữ liệu và đặc biệt là thực hiện theo khối, cách thức hoạt động đẩy (Push) đƣợc thực hiện trực tuyến bằng việc truyền dữ liệu thay đổi tới kho dữ liệu đích.

Biến đổi dữ liệu có thể bao gồm tổ chức lại bản ghi dữ liệu và làm cho phù hợp, làm sạch nội dung dữ liệu và/hoặc kết hợp nội dung dữ liệu. Việc tải dữ liệu có thể là nguyên nhân làm tƣơi hoàn toàn của một kho dữ liệu đích, hoặc có thể đƣợc thực hiện bằng việc cập nhật mục tiêu đích. Các giao diện đƣợc sử dụng ở đây bao gồm các chuẩn trong thực tế, ví dụ nhƣ: ODBC, JDBC, JMS hoặc các giao diện nguyên thủy của CSDL và ứng dụng.

Trƣớc đây các giải pháp ETL phải thực hiện các tác vụ phức tạp tại các khoảng thời gian lập lịch để lấy dữ liệu từ các file phẳng và CSDL quan hệ và sau đó hợp nhất chúng vào bên trong một kho dữ liệu - data warehouse là CSDL quản lý bởi một hệ quản trị CSDL quan hệ. Tuy nhiên những năm gần đây, các nhà cung cấp sản phẩm thƣơng mại ETL đã tạo ra sự cải tiến và mở rộng các sản phẩm của họ, nhƣ là:

- Các nguồn - dữ liệu kế thừa, các gói ứng dụng, các file XML, web log, các nguồn EAI, web service, dữ liệu không có cấu trúc.

- Các đích - EAI, web service

- Chuyển đổi dữ liệu đƣợc cải tiến - hồ sơ dữ liệu, quản lý chất lƣợng dữ liệu, hỗ trợ cho các ngôn ngữ lập trình chuẩn.

- Quản trị tốt hơn - lập lịch công việc và theo dõi, quản lý metadata, khôi phục lỗi. - Hiệu suất tốt hơn - xử lý song song, cân bằng tải, caching, hỗ trợ cho các ứng dụng hệ quản trị CSDL và các giao diện tải dữ liệu.

- Bảo mật đƣợc nâng cao - hỗ trợ các gói bảo mật bên ngoài và mạng nội bộ mở rộng - Hỗ trợ cho một tiếp cận liên hiệp dữ liệu để tích hợp dữ liệu.

Tiến trình ETL gồm có 3 bƣớc.

- Trích xuất: Dữ liệu nguồn từ rất nhiều nguồn khác nhau và có thể có rất nhiều cấu trúc dữ liệu khác nhau nhƣ nhiều loại cơ sở dữ liệu, từ file excel hay từ file thô. Vì thế nhiệm vụ chính của bƣớc này là trích xuất dữ liệu từ hệ thống nguồn để xử lý.

- Chuyển đổi : Đây là quá trình rất phức tạp dùng để chuyển đổi dữ liệu nguồn một mô hình khác phù hợp và chuyển vào cơ sở dữ liệu đích. Ở bƣớc này sẽ phải sử dụng các phép chuyển đổi nhƣ:

 Chọn các cột dữ liệu phù hợp (chỉ chọn các cột cần thiết )  Chuyển đổi dữ liệu. Ví dụ : chuyển 1 thành Nam hay ngƣợc lại.

 Tạo ra các cột tính toán mới . Ví dụ: Điểm trung bình = Tổng điểm /số trình  Lọc dữ liệu.

 Sắp xếp dữ liệu

 Thực hiện các phép tổng hợp (tính tổng các cột, đếm số dòng, tính trung bình).

 Tạo ra các giá trị mới (tạo khóa tự tăng ).  Tìm kiếm hay so sánh dữ liệu.

Có thể nói đây là bƣớc quan trọng nhất trong tiến trình ETL, nó thực hiện hầu hết các nhiệm vụ của tiến trình ETL.

- Nạp dữ liệu vào kho dữ liệu: Đây là quá trình đẩy dữ liệu sau khi đã đƣợc chuyển đổi vào kho dữ liệu. Dữ liệu sau khi đã đƣợc chuyển đổi sẽ đƣợc nạp vào kho dữ liệu.

Hình 9: Quá trình xử lý của ETL

Chu kỳ sống điển hình của ELT bao gồm các bƣớc thực hiện sau đây: - Khởi tạo chu kỳ

- Thiết lập dữ liệu liên quan - Trích xuất từ các nguồn - Chuẩn hóa

- Chuyển đổi: Làm sạch, áp dụng các luật kinh doanh, kiểm tra tính toàn vẹn dữ liệu, tạo các khối kết hợp hoặc bộ phận

- Giai đoạn trung gian: Nạp vào các bảng tạm nếu sử dụng.

- Kiểm tra các báo cáo: Tuân theo các luật kinh doanh, sửa chữa nếu có sai sót.

- Xuất bản đến các bảng mục tiêu -Lƣu trữ

Một phần của tài liệu Nghiên cứu giải pháp xây dựng cơ sở dữ liệu tích hợp về thủ tục hành chính (Trang 37)