Chu kỳ xử lý đảm bảo chất lượng dữ liệu

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Xây dựng và khai thác kho dữ liệu cước khách hàng tại Công ty Thông tin Viễn thông Điện lực (Trang 37 - 39)

Theo chu kỳ trên thì các bước đảm bảo chất lượng dữ liệu trong WB bao gồm:

 Sao chép lại toàn bộ siêu dữ liệu cho dữ liệu nguồn.

 Tiến hành hồ sơ hoá các nguồn dữ liệu

 Đưa ra các luật dữ liệu từ kết quả hồ sơ hoá. Hoặc tiến hành đưa vào những luật dữ liệu đã tồn tại .

 Thiết kế các luồng ánh xạ dữ liệu (hay các mappings) sử dụng các toán tử làm sạch tên và địa chỉ (name and address) và toán tử đối sánh-hợp nhất (match - merge)

 Kết hợp các luồng dữ liệu với các luồng tiến trình , bổ sung bộ kiểm định dữ liệu để đo chất lượng dữ liệu tại bất cứ điểm ra nào của tiến trình.

 Triển khai và thực thi các tiến trình để chuyển đổi dữ liệu thô thành thông tin đảm bảo chất lượng Giám sát Sao chép dữ liệu nguồn Hồ sơ hoá dữ liệu Tạo luật dữ liệu Thực hiện Tạo luồng tiến trình Thiết kế luồng ánh xạ dữ liệu

 Bước cuối cùng, chất lượng nguồn thông tin thu được sẽ tiếp tục được giám sát trong môi trường tác nghiệp của các chương trình kiểm định dữ liệu của WB. Data profiling, Data rules và Data auditors là những tính năng mới trong OWB 10g Release2. Tuy nhiên các toán tử làm sạch : name and address, match-merge thì đã có từ các phiên bản trước và được nâng cấp hơn trong phiên bản này.

Trong phạm vi nội dung luận văn, em xin được đi sâu vào tìm hiểu những tính năng mới của OWB.

3.2.1.3 Hồ sơ hoá dữ liệu

Data Profiling - hồ sơ hoá dữ liệu trong OWB là phương thức phân tích dữ liệu trên các nguồn dữ liệu một cách có hệ thống. Nó là bước đầu tiên trong quá trình tích hợp dữ liệu. DP giúp xác thực các giả định về dữ liệu, phát hiện các đặc tính mới có thể có trong dữ liệu.

Sử dụng DP, ta có thể :

 Tiến hành hố sơ hoá dữ liệu từ bất kỳ nguồn dữ liệu nào mà WB có thể truy cập được.

 Thăm dò và quan sát các kết quả thu được ở dạng bảng biểu hoặc đồ họa

 Khoan sâu xuống (Drill down) nguồn dữ liệu dựa trên kết quả hồ sơ hoá.

 Đưa ra các luật dữ liệu.

 Sử dụng các luật dữ liệu để tạo ra những sửa đổi trong dữ liệu nguồn, tiến hành làm sạch dữ liệu.

Sự tương tác giữa người dùng với WB trong quá trình hồ sơ hoá dữ liệu thông qua Wizard. Nó cho phép người dùng chọn các đối tượng tuỳ theo bài toán để xử lý hồ sơ hoá như : các bảng (tables), các khung nhìn (views), các đồi tượng chiều (dimensions) và các đối tượng khối (cubes). Sau khi tiến hành các quá trình phân tích và thống kê cần thiết, WB sẽ trả về kết quả hồ sơ dữ liệu trong một giao diện trình quản lý.

Trong DP có 3 hình thức phân tích dữ liệu chính, đó là : Phân tích thuộc tính (Attribute analysis), Phân tích sự phụ thuộc hàm (Functional dependency analysis) và phân tích tham chiếu (Referential analysis).

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Xây dựng và khai thác kho dữ liệu cước khách hàng tại Công ty Thông tin Viễn thông Điện lực (Trang 37 - 39)

Tải bản đầy đủ (PDF)

(65 trang)