Biến đổi dữ liệu:

Một phần của tài liệu tổng hợp kho cơ sở dữ liệu (Trang 27 - 30)

Biến đổi dữ liệu thực chất là việc kiểm tra dữ liệu và đề ra các tiêu chuẩn cho biết dữ liệu có thể được sử dụng trong kho dữ liệu hay không và đưa ra các giải pháp biến đổi phù hợp.

Dữ liệu được đưa vào data warehouse phải là dữ liệu chính xác. Tính chính xác được hiểu là dữ liệu phải có những tính chất sau:

+ Đúng đắn: dữ liệu phải mô tả trung thực đối tượng mà nó phản ánh. Ví dụ: dữ liệu mô tả những căn nhà ở Tp.Hồ Chí Minh thì bắt buộc trong địa chỉ phải chứa tên thành phố là Hồ Chí Minh.

+ Không mơ hồ: xác định rõ ý nghĩa của đối tượng được mô tả. Ví dụ: dữ liệu về dân số ở quận Thủ Đức, Tp Hồ Chí Minh. Nếu trong địa chỉ chỉ xác định là quận Thủ Đức, thì nó có thể là một địa danh khác ở đâu đó, điều này gây ra mơ hồ, không rõ nghĩa.

+ Nhất quán: các giá trị và mô tả dữ liệu phải sử dụng một quy ước thống nhất để biểu diễn. Ví dụ Tp Hồ Chí Minh, nếu quy ước viết tắt là Tp.HCM, thì trong tất cả các thể hiện của CSDL Tp Hồ Chí Minh đều phải được biểu diễn là Tp.HCM

+ Đầy đủ: thể hiện ở hai điểm: các trường dữ liệu không phải là null và các giá trị suy biến phản ánh đầy đủ và chính xác.

Như vậy, vệc cần phải làm ở giai đoạn biến đổi dữ liệu là phải phát hiện dữ liệu không chính xác để có bước xử lý thích hợp. Và để đánh giá chất lượng dữ liệu, người ta dựa vào các độ đo chất lượng dữ liệu.

Yếu tố đầu tiên cần được xây dựng trong quá trình làm sạch dữ liệu là một bảng fact gọi là bảng sự kiện lỗi (error event table) và các chiều của nó. Mỗi một lỗi hay vấn đề phát sinh trong quá trình làm sạch dữ liệu được lưu thành một dòng trong bảng fact.

Lược đồ của bảng sự kiện lỗi:

Hình 2

+ Chiều ngày tháng (date dimension) là chiều chuẩn đại diện cho trường ngày tháng.

+ Chiều screen chứa thông tin về bước kiểm tra chất lượng dữ liệu (thông thường việc kiểm tra tính đúng đắn của dữ liệu được chia ra làm nhiều bước, mỗi bước được gọi là một screen). Mục đích của bảng này để mô tả screen đó làm gì và được áp dụng khi nào, ngoài ra còn có các định nghĩa về các lỗi thường gặp, cách ứng phó khi gặp lỗi (cho qua, từ chối dữ liệu hay dừng toàn bộ hệ thống để phân tích lỗi)và độ nghiêm trọng của lỗi (severity score),...

+ Chiều khối (batch) chứa thông tin về khối dữ liệu và dòng (row) dữ liệu sinh ra lỗi trong khối đó.

Người ta thường phân loại việc kiểm tra chất lượng dữ liệu thành 4 nhóm: + Kiểm tra theo cột thuộc tính: bao gồm các bước kiểm tra giá trị null trong những cột yêu cầu giá trị, kiểm tra giá trị số nằm ngoài khoảng quy ước, độ dài của trường quá dài hoặc quá ngắn (không mong đợi), kiểm tra giá trị cột ngoài tập giá trị định sẵn hoặc không theo khuôn mẫu, kiểm tra lỗi chính tả.

+ Kiểm tra theo cấu trúc dữ liệu: kiểm tra các bảng dữ liệu có các khóa chính và khóa tham chiếu đảm bảo ràng buộc tham chiếu.

+ Kiểm tra dữ liệu có đúng với các quy tắc nghiệp vụ hay giá trị của dữ liệu suy biến có đúng hay không.

Sơ đồ mô tả việc kiểm tra dữ liệu qua các screen:

Hình 3

Để nâng cao tốc độ kiểm tra tính đúng đắn của dữ liệu, người ta tìm cách lập lịch để các screen có thể chạy song song.

Một phần của tài liệu tổng hợp kho cơ sở dữ liệu (Trang 27 - 30)

Tải bản đầy đủ (DOCX)

(75 trang)
w