Như đã trình bày ở các chương trước, bản thân hệ thống DWH không phải là nơi sản sinh ra dữ liệu mà nhận đầu vào là các CSDL hệ thống điều hành tác nghiệp. Ta gọi các hệ thống này là hệ thống nguồn. Quá trình trích tách và chuyển đổi dữ liệu (ETL) là quá trình thu thập và chuyển đổi dữ liệu từ các hệ thống nguồn vào Kho dữ liệu.
ETL là viết tắt của Extraction – Transformation – Loading. Chú ý rằng ETL là một quá trình có phạm vi rộng với nhiều phép xử lý cũng như nhiều chiến lược sắp xếp các phép xử lý đó. Các nhà cung cấp công cụ ETL như Microsoft, Oracle, IBM,.., thực hiện những kỹ thuật khác nhau, thứ tự khác nhau nhằm đạt được cùng một mục tiêu có được dữ liệu cho Nhà kho. Để đơn giản hóa và thống nhất với nhau người ta quy chuẩn chúng là thành 3 giai đoạn trên coi đó là các giai đoạn tham chiếu. Trong nhiều tài liệu về DWH cũng nói về quá trình này nhưng không sử dụng thuật ngữ ETL.
1.1 Nhiệm vụ của tiến trình ETL
- Trích tách dữ liệu từ hệ thống nguồn
- Chuyển đổi dữ liệu lấy được sao cho phù hợp với các yêu cầu quản trị. Có những ràng buộc về mức độ chất lượng dữ liệu.
- Tải dữ liệu thu thập và chuyển đổi vào hệ thống DWH
1.2 Tính chất đầu vào và những thách thức cho ETL
Ví dụ dữ liệu đầu vào: dữ liệu phân tích thị trường, dữ liệu thời tiết, thuế,…
- Kích thước dữ liệu tác nghiệp là rất lớn từ hàng trăm cho đến hàng chục GB. Một hệ thống OLTP được thiết kế phục vụ cho các truy xuất và thu thập thông tin dạng mảnh nhỏ chứ không ở dạng mẻ lớn.
- Đội ngũ xây dựng DWH không thực sự có thể kiểm soát và can thiệp và các hệ thống nguồn như thay đổi cấu trúc CSDL, điều khiển được quá trình cập nhật CSDL,… - Tính nghèo nàn về mặt tài liệu của các hệ thống OLTP được xây dựng trước đó gây
khó khăn cho đội ngũ DWH trong việc tiếp cận, làm chủ số liệu cũng như định dạng số liệu
- Tính chất dữ liệu mỗi hệ thống nguồn nói chung là khác nhau và không thống nhất. Cùng là một đối tượng nhưng ở mỗi hệ thống trong doanh nghiệp, thông tin đối tượng được lưu một cách khác nhau, gây khó khăn cho việc phát hiện trùng lặp và hợp nhất vào DWH.
- Làm việc với dữ liệu lớn và phải đảm bảo việc duy trì dịch vụ.