Mô hình tiếp cận:
Hình 2.5: Mô hình tiếp cận ETL
Về mặt xử lý dữ liệu ra khỏi hệ thống nguồn, chúng ta có thể phân loại các phương thức ETL thành bốn cách tiếp cận:
Cách 1: Một quy trình ETL lấy dữ liệu ra bằng cách truy vấn cơ sở dữ liệu hệ thống nguồn thường xuyên. Đây là cách tiếp cận phổ biến nhất. ETL kết nối với cơ sở dữ liệu hệ thống nguồn, truy vấn dữ liệu và đưa dữ liệu ra ngoài.
Cách 2: Kích hoạt trong cơ sở dữ liệu hệ thống nguồn đẩy các thay đổi dữ liệu ra ngoài. Một trình kích hoạt cơ sở dữ liệu là tập hợp các câu lệnh SQL thực thi mỗi khi có chèn, cập nhật hoặc xóa trên bảng. Bằng cách sử dụng các kích hoạt, chúng ta có thể lưu trữ các hàng đã thay đổi trong một bảng khác.
Cách 3: Một quy trình được lên lịch trong hệ thống nguồn xuất dữ liệu thường xuyên. Cách này tương tự như cách tiếp cận đầu tiên, nhưng chương trình truy vấn cơ sở dữ liệu không phải là chương trình ETL bên ngoài. Thay vào đó, nó là một chương trình xuất khẩu nội bộ chạy trong máy chủ hệ thống nguồn.
thay đổi dữ liệu. Một tệp nhật ký cơ sở dữ liệu chứa một bản ghi các giao dịch được thực hiện cho cơ sở dữ liệu đó. Trình đọc nhật ký là một chương trình hiểu định dạng của dữ liệu trong tệp nhật ký. Nó đọc các tệp nhật ký, lấy dữ liệu ra và lưu trữ dữ liệu ở một nơi khác.
Hình 2.6: Tiến trình ETL
Ve các quy trình di chuyển dữ liệu ra ngoài, chúng ta có thể phân loại ETL thành ba cách tiếp cận.
Cách 1: Thực thi các quy trình ETL trong một máy chủ ETL riêng nằm giữa hệ thống nguồn và máy chủ kho dữ liệu. Cách tiếp cận này cung cấp hiệu suất cao nhất. ETL chạy trên máy chủ của chính nó, vì vậy nó không sử dụng tài nguyên của máy chủ kho dữ liệu hoặc máy chủ hệ thống nguồn.
Cách 2: Thực thi các quy trình ETL trong máy chủ kho dữ liệu. Cách tiếp cận này có thể được sử dụng nếu có dung lượng dự phòng trong máy chủ kho dữ liệu hoặc nếu có khe thời gian khi kho dữ liệu không được sử dụng (ví dụ vào ban đêm). Nó rẻ hơn so với cách tiếp cận đầu tiên bởi vì không cần phải cung cấp thêm máy chủ.
Cách 3: Thực hiện các quy trình ETL trong máy chủ lưu trữ hệ thống nguồn. Cách
tiếp cận này được thực hiện khi cần lưu trữ dữ liệu thời gian thực. Nói cách khác, thời điểm dữ liệu trong hệ thống nguồn thay đổi, thay đổi được truyền đến kho dữ liệu. Điều này có thể đạt được bằng cách sử dụng các kích hoạt cơ sở dữ liệu trong hệ thống nguồn.