Hiệu năng tiến trình ETL

Một phần của tài liệu Data warehouse lý thuyết và thực tiễn (Trang 54)

6.1 Hiệu năng

Các nhà cung cấp ETL áp dụng tiêu chuẩn các hệ thống ghi của họ là nhiều TB trên mỗi giờ sử dụng các máy chủ mạnh với nhiều CPU, ổ cứng, kết nối mạng lên đến GB và rất nhiều bộ nhớ.

Trên thực tế phần chậm nhất của một tiến trình ETL là pha tải CSDL. Pha này chậm vì nó phải chú ý đến vấn đề tương tranh, bảo đảm tính toàn vẹn, các chỉ mục. Vì thế để có hiệu năng tốt hơn, thì tiến trình này thực hiện bên ngoài CSDL. Một số cách thức sau hay được dùng để tăng hiệu năng:

- Phân hoạch các bảng và các chỉ mục, cố gắng giữa các bảng có kích thương tương tự nhau.

- Thực hiện tất cả các phép kiêm tra hợp lệ dữ liệu trong tầng ETL trước khi tải. Tạm bỏ phép kiểm tra toàn vẹn trong bảng đích trong quá trình tải.

- Dừng các trigger tại CSDL đích trong khi tải, thực hiện chúng tại một bước riêng. - Tạo các định danh ID trong tầng ETL chứ không phải trong CSDL.

- Bỏ các chỉ mục trước khi tải và tạo lại chúng sau khi tải.

- Sử dụng tải theo mẻ song song khi có thể. Chú ý là việc cố tải song song vào cùng một bảng thường gây ra lỗi khóa.

6.2 Xử lý song song

Các phần mềm ETL hầu như thực thi xử lý song song. Có 3 kiểu thực thi song song:

- Dữ liệu : bằng việc chia các file thành các mảnh nhỏ hơn cung cấp truy cập song song - Ống : cho phép chạy đồng thời nhiều thành phần trên cùng một dòng dữ liệu. Ví dụ :

Chỉ vào một giá trị trên bản ghi một đồng thời với thêm 2 trường vào bản ghi 2

- Thành phần : Chạy đồng thời nhiều tiến trình trên các dòng dữ liệu khác nhau trong cùng một một nhiệm vụ. Sắp xếp mọt file đầu vào trong khi thực hiện phép loại lặp trên file khác

Tất cả 3 kiểu trên thường được ghép vào trong một nhiệm vụ.

Một phần của tài liệu Data warehouse lý thuyết và thực tiễn (Trang 54)

Tải bản đầy đủ (PDF)

(126 trang)