Hình 3.5: Các giai đoạn thiết kế kho dữ liệu
Giống như trong cơ sở dữ liệu, có hai phương án chính để thiết kế kho dữ liệu và kho dữ liệu cục bộ.
Với phương án tiếp cận từ trên xuống, yêu cầu của người dùng ở các cấp tổ chức khác nhau được hợp nhất trước khi quá trình thiết kế bắt đầu và một lược đồ cho toàn bộ kho dữ liệu được xây dựng, từ đó các có thể lấy các kho dữ liệu cục bộ.
Với phương án tiếp cận từ dưới lên, một lược đồ được xây dựng cho mỗi trung tâm dữ liệu, theo yêu cầu của người dùng trong từng lĩnh vực kinh doanh. Sau đó, nhiều lược đồ kho dữ liệu cục bộ được tạo ra sẽ hợp nhất thành một lược đồ kho dữ liệu tổng thể.
Chương 4
Thiết kế kho dữ liệu khái niệm 4.1 Thiết kế kho dữ liệu khái niệm
Như đã nghiên cứu trong Chương 2, q trình thiết kế cơ sở dữ liệu thơng thường bao gồm việc tạo ra ba lược đồ cơ sở dữ liệu ở ba cấp độ khác nhau: khái niệm, logic và vật lý. Lược đồ khái niệm mô tả ngắn gọn các yêu cầu dữ liệu của người dùng mà chưa cần tính đến chuyện triển khai chi tiết.
Cơ sở dữ liệu thông thường thường được thiết kế ở cấp độ khái niệm bằng cách sử dụng một số biến thể của mơ hình quan hệ thực thể (ER). Lược đồ khái niệm có thể dễ dàng chuyển sang lược đồ quan hệ bằng cách áp dụng một tập hợp quy tắc ánh xạ.
Trong chương này, chúng ta sử dụng mơ hình MultiDim. Mơ hình này đủ mạnh để biểu diễn ở cấp độ khái niệm tất cả các yếu tố cần thiết trong kho dữ liệu và ứng dụng OLAP.
Để có một cái nhìn tổng qt về mơ hình, ta sử dụng ví dụ trong Hình
4.2, minh họa lược đồ khái niệm của kho dữ liệu Northwind. Ta giới thiệu
các thành phần chính của mơ hình.
Lược đồ bao hàm tất cả các chiều dữ liệu và dữ kiện. Chiều dữ liệu có thể có một mức hoặc nhiều mức.
Một mức tương tự như một kiểu thực thể trong mơ hình ER. Nó mơ tả một tập hợp các khái niệm trong thế giới thực, từ góc độ ứng dụng, có các đặc điểm
tương tự. Ví dụ, Product và Category là hai mức trong Hình 4.2. Các cá thể trong một mức được gọi là thành viên.
Một mức có một tập hợp thuộc tính mơ tả đặc điểm thành viên. Ngồi ra, một cấp có một hoặc một số ID xác định duy nhất thành viên của một cấp. Mỗi ID bao gồm một hoặc một số thuộc tính. Ví dụ, trong Hình 4.2, CategoryID là một ID cấp Category. Mỗi thuộc tính của một cấp mang một kiểu dữ liệu riêng, điển hình là kiểu số nguyên, số thực và chuỗi.
Hình 4.1: (a) Mức. (b) Hệ thống phân mức. (c) Số đo. (d) Dữ kiện và chiều dữ liệu. (e) Các loại số đo. (f) Tên mức. (g) Thuộc tính phân phối. (h) Các mối quan hệ độc quyền
Một dữ kiện (Hình 4.1d) liên quan đến một số mức. Ví dụ, dữ kiện về Sales trong Hình 4.2 liên quan đến các mức Employee, Customer, Supplier, Shipper, Order, Product và Time. Như trong Hình 4.1d, cùng một mức có
thể tham gia nhiều lần vào một dữ kiện, đóng vài vai trị khác nhau. Mỗi vai trị được xác định bằng một cái tên và được thể hiện bằng một liên kết riêng giữa mức tương ứng với dữ kiện. Ví dụ, trong Hình 4.2, mức Time tham gia vào dữ kiện Sales với các vai trò OrderDate, DueDate và ShippedDate. Các cá thể trong một dữ kiện gọi là thành viên dữ kiện.
Một dữ kiện có thể chứa các thuộc tính thường được gọi là các số đo. Những số đo này chứa dữ liệu (thường là số) được phân tích trên các quan điểm khác nhau. Ví dụ, dữ kiện Sales trong Hình 4.2 bao gồm các số đo Quantity, UnitPrice, Discount, SalesAmount, Freight, và NetAmount. Các thuộc tính ID của các mức liên quan đến một dữ kiện cho biết mức độ chi tiết của các số đo, tức là mức độ chi tiết mà tại đó các số đo được hiển thị.