Thành phần thiết kế bao gồm kho dữ liệu metadata ( metadata repository) được
chứa trong cơ sở dữ liệu oracle và một tập các công cụ thiết kế và báo cáo phía client, công cụ này được viết bằng Java hoặc HTML
Tạo ra metadata là một hoạt động thiết kế cho phép sử dụng các công cụ phía client để thiết kế các đối tượng, các quy trình và luồng công việc. Warehouse Builder hỗ trợ thiết kế lược đồ cơ sở dữ liệu quan hệ, lược đồ đa chiều, quá trình xử lý ETL và các công cụ hỗ trợ người dùng cuối thông qua client.
Các hệ thống nguồn (source system) đóng một vai trò quan trọng trong bất kỳ giải pháp ETL nào và thay vì việc thực hiện ETL một cách thủ công thì Warehouse Builder cung cấp các thành phần tích hợp các thông tin liên quan vào trong kho của nó.
Một thế mạnh của kiến trúc OWB là quy trình quản lý vòng đời, nó cho phép metadata được cập nhật dựa trên thay đổi của các dữ liệu nguồn. Sau đó OWB dễ dàng cập nhật những thay đổi và tiến trình ETL và đến hệ thống đích.
Thành phần thực thi:
Khi người dùng đã thiết kế hệ thống ETL dựa trên một mức logic, họ cần chuyển nó vào môi trường cơ sở dữ liệu vật lý. Trước khi điều này được thực hiện thì thông tin về cơ sở dữ liệu được bổ sung vào thiết kế logic. Sau khi quá trình cấu hình được hoàn thành thì mã code được sinh ra.
OWB tạo ra một ngôn ngữ chuyên biệt cho tiến trình ETL và các câu lệnh SQL DDL cho các đối tượng cơ sở dữ liệu. Mã code sinh ra được triển khai hoặc tới hệ thống hoặc tới cơ sở dữ liệu.
Thực hiện các chức năng ETL có nghĩa là chạy các mã code đã được triển khai vào trong cơ sở dữ liệu. Quá trình ETL chuyển dữ liệu từ nguồn và cơ sở dữ liệu đích.
3.2.1.2 Vấn đề đảm bảo chất lượng dữ liệu trong OWB
Như đã thảo luận ở phần trên, quá trình làm sạch dữ liệu trong KDL chính là bài toán của đảm bảo chất lượng dữ liệu (Data Quality). Thực tế cho thấy, có rất nhiều thách thức đặt ra trong việc xây dựng một KDL. Và chính do tầm quan trọng của KDL cho nên đã có rất nhiều công cụ hỗ trợ việc xây dựng KDL. Tuy nhiên, xây dựng và duy trì một KDL hiệu quả không phải là điều đơn giản. Một trong những vấn đề hàng đầu mà người sử dụng cuối băn khoăn, đó chính là chất lượng nguồn dữ liệu nạp vào trong kho. Nếu chất lượng dữ liệu không đủ độ tin cậy sẽ gây nguy hại nghiêm trọng cho các quá trình khai thác, phát hiện tri thức và ra quyết định đối với các nhà quản lý doanh nghiệp.
So với một số giải pháp thì sự khác nhau căn bản giữa chúng với WB về vấn đề chất lượng dữ liệu chính là mức độ tích hợp vào trong quá trình ETL. Trong WB, công việc thiết kế và quản lý quá trình đảm bảo chất lượng dữ liệu sử dụng cùng một giao diện với các quá trình ETL. Hơn nữa, cũng giống như bất kỳ sự chuyển đổi nào trong WB, sự chuyển đổi chất lượng dữ liệu sử dụng ngôn ngữ kịch bản và thông qua các giao diện lập trình ứng dụng (APIs). Mặt khác,việc kiểm định dữ liệu trong quá trình đảm bảo chất lượng dữ liệu cùng định dạng và vị trí với các quá trình ETL khác.
Vậy, chính xác thì WB cung cấp những tác vụ gì trong quá trình đảm bảo chất lượng dữ liệu? Có thể tóm lược hoá chúng như sau :
Đưa ra được các luật dữ liệu từ pha hồ sơ hoá , hoặc tạo ra các luật dữ liệu thủ công (Data rules).
Kiểm định dữ liệu dựa trên các luật dữ liệu (Data auditors)
Làm sạch tên (Name) và địa chỉ (Address).
Đối sánh (matching) và hợp nhất (merging) dữ liệu.