Chuyển đổi dữ liệu (Transformation)

Một phần của tài liệu Data warehouse lý thuyết và thực tiễn (Trang 51)

Là quá trình áp dụng một tập các luật hay thủ tục vào bộ dữ liệu trích tách được trước khi chúng được tải vào hệ thống đích. Có một số dữ liệu nguồn chỉ cần rất ít xử lý thậm chi không cần trong khi cũng có nhiều hệ thống thì quá trình này trở nên rất phức tạp.

Các phép xử lý có thể được áp dụng:

- Chọn các cột nhất định nào đó có thể tải

- Dịch các giá trị bị mã hóa (Ví dụ nếu hệ thống nguồn lưu 1 để chỉ nam, 2 để chỉ nữ trong khi dữ liệu hệ thống đích lưu là M và F). Đây gọi là phép làm sạch dữu liệu, phép này không bao giờ được làm bằng tay trong ETL vì số lượng dữ liệu là rất lớn đòi hỏi cơ chế tự động. Sửa, hoàn chỉnh dữ liệu thiếu, không đọc được, hay các giá trị rỗng

- Mã hóa các giá trị không theo chuẩn ví dụ như Mr thành M

- Thu các giá trị tính toán mới (ví dụ tổng thu = số lượng * đơn giá)

- Lọc

- Sắp xếp

- Kết nối các dữ liệu với nhau từ nhiều hệ thống nguồn, cụ thể như phép liên kết hay ghép nối

- Sinh ra các giá trị khóa đại diện

- Đảo và xoay (đưa nhiều cột thành nhiều hàng và ngược lại)

- Chi nhỏ một cột thành nhiều cột (ví dụ như cột ở hệ thống nguồn chứa nhiều giá trị ghép với nhau bởi dấu phẩy)

- Áp dựng chuẩn đơn giản hóa hay phức hợp dữ liệu. Nếu không thành công thì toàn bộ dữ liệu hay một phần bị loại bỏ

Sau khi thực hiện phép này, thì có thể cảnh báo ngược lại cho các nguồn về các lỗi dữ liệu được phát hiện.

Một phần của tài liệu Data warehouse lý thuyết và thực tiễn (Trang 51)

Tải bản đầy đủ (PDF)

(126 trang)