Dữ liệuDữ liệu
4.2.1. Xây dựng kiến trúc dữ liệu cho kho dữ liệu 1 Các kiến trúc dữ liệu nghiệp vụ
4.2.1.1 Các kiến trúc dữ liệu nghiệp vụ
Việc đa ra các kiến trúc là bớc đầu tiên để đi tới sự thành công trong việc thực hiện một kho dữ liệu. Trong phần này, ta đa ra ba mô hình kiến trúc. Các mô hình này đợc sử dụng phụ thuộc vào qui mô và độ phức tạp của hệ thống. Chúng đợc phân biệt bởi số lớp dữ liệu (ở mức khái niệm chứ cha phải là cài đặt thực tế). Ta có thể xác định ba cấu trúc riêng biệt sau đây:
+ Kiến trúc đơn tầng: Nguyên tắc chủ chốt và ngầm định của kiến trúc đơn tầng là mỗi phần tử dữ liệu chỉ đợc lu trữ một lần và chỉ một lần. Trong kiến trúc đơn tầng, không có sự tách biệt giữa các lớp dữ liệu. Mọi dữ liệu đều nằm trong cùng một lớp và các ứng dụng tác nghiệp cũng nh các ứng dụng thông tin đều thao tác trên cùng một nguồn dữ liệu. Kiến trúc này quá đơn giản, thờng chỉ phục vụ cho mục đích báo cáo, ít đợc sử dụng để phân tích.
Kiến trúc này cho phép các ứng dụng tác nghiệp hoạt động hiệu quả với lợng lớn dữ liệu, nhng lại ít hỗ trợ các ứng dụng phân tích thông tin do dữ liệu đợc thiết kế tối u cho điều hành tác nghiệp, nhng cha chắc phù hợp cho nhu cầu phân tích theo chủ đề.
+ Kiến trúc hai lớp đợc sử dụng rộng rãi hơn, thờng đợc áp dụng trong các tổ chức nhỏ hoặc trong các giai đoạn đầu khi xây dựng kho dữ liệu lớn của xí nghiệp. Kiến trúc hai lớp tách biệt dữ liệu thành hai phần: lớp thấp hơn gồm dữ liệu thời gian thực, đ-
ợc các ứng dụng tác nghiệp sử dụng và lớp cao hơn gồm dữ liệu dẫn xuất (derived data) đợc sử dụng trong các ứng dụng thông tin. Dữ liệu dẫn xuất có thể chỉ là sao chép đơn giản hoặc đợc tính toán, tổng hợp trên dữ liệu thời gian thực.
Tuy nhiên, kiến trúc này nảy sinh một số vấn đề trong lu trữ và và quản lý. Vấn đề đầu tiên là phải nhân bản dữ liệu khi tạo thêm lớp dữ liệu dẫn xuất, do đó làm bùng nổ lu trữ và tăng đáng kể công việc quản trị và bảo trì dữ liệu.
+ Kiến trúc ba lớp là kỹ thuật hiện đại nhất, đợc dùng trong tất cả các tình huống nghiệp vụ, khi cần có tầm nhìn tổng quát về dữ liêụ của một xí nghiệp lớn. Kiến trúc ba lớp đợc đề xuất ra căn cứ vào vai trò quan trọng của mô hình dữ liệu xí nghiệp và yêu cầu cần thêm một lớp trung gian cho phép chọn lọc, làm sạch, biến đổi dữ liệu trớc khi cung cấp cho các kho dữ liệu theo chủ đề.
Kiến trúc ba lớp chính là một cải tiến từ kiến trúc hai lớp xuất phát từ nhận thức rằng việc chuyển từ dữ liệu thời gian thực sang dữ liệu dẫn xuất cần phải qua hai giai đoạn. Hai giai đoạn đó là:
Điều hoà (reconcile) dữ liệu từ các tập dữ liệu khác nhau trong lớp thời gian thực.
Dẫn xuất dữ liệu theo yêu cầu sử dụng dựa trên các dữ liệu điều hoà (reconciled data). Nh vậy, lớp dữ liệu điều hoà đợc tạo ra giữa lớp thời gian thực và lớp dữ liệu dẫn xuất. Việc điều hoà dữ liệu giữa các tập dữ liệu khác nhau đòi hỏi phải hiểu rõ các tập đó có liên quan đến nhau nh thế nào, vai trò của chúng trong nghiệp vụ là gì. Trong thực tế, việc này đợc xác định qua quá trình mô hình hoá dữ liệu đợc tiến hành ở mức toàn xí nghiệp hay toàn tổ chức. Lớp dữ liệu điều hoà phải giải quyết vấn đề kết nối các tập dữ liệu riêng biệt với nhau khi có sự khác nhau về tên và khuôn dạng dữ liệu.
Kiến trúc dữ liệu nghiệp vụ ba lớp cùng với kiến trúc về siêu dữ liệu sẽ cung cấp một hỗ trợ rộng nhất cho các yêu cầu xây dựng kho dữ liệu.