Mô hình dữ liệu đa chiều

Một phần của tài liệu Thiết kế data warehouse và ứng dụng trong hệ thống thông tin ngành điện (Trang 34)

Data warehouse và các công cụ OLAP đều dựa trên dựa trên mô hình dữ liệu đa chiều. Mô hình này xem xét dữ liệu dưới hình dạng dữ liệu n chiều (data lược đồ). Như vậy, dữ liệu đa chiều là gì? "Dạng dữ liệu đa chiều là kiểu mà dữ liệu được mô hình hoá và được xem xét dưới góc độ đa chiều. Dạng dữ liệu này được được tạo ra bởi các chiều (dimention) và các sự kiện ( fact)."

Chiều được xem như là một thực thể mà lưu giữ các bản ghi để mô tả, làm rõ các giá trị cần phần tích. Ví dụ như một công ty điện tử có tên viết tắt là AllElectronics xây dựng một data warehouse hướng về chủ đề bán hàng nhằm lưu trữ các bản ghi mô tả việc kinh doanh sản phẩm theo các chiều như thời gian, sản phẩm, kho hàng, thành phố. Mỗi chiều đều có một bảng quan hệ liên kết với nó và được gọi là bảng chiều. Như vậy, dữ liệu trong bảng chiều thường có mục đích miêu tả giá trị sự kiện trong bảng sự kiện và thường ở dạng text.

Các câu truy vấn sẽ sử dụng điều kiện where với các tiêu chí là các cột thuộc bảng dimension để xác định giá trị fact của bảng sự kiện.

Trong bảng dimension có ràng buộc duy nhất tương ứng với foreign key ở bảng sự kiện.

Mô hình dữ liệu đa chiều tổ chức dữ liệu xung quanh một thực thể trung tâm như bảng

Bán hàng ở trên. Thực thể trung tâm này được gọi là bảng sự kiện (fact). Bảng này có kích thước lớn và có chứa các giá trị độ đo (measure) cùng với các giá trị tương ứng với giá trị khóa trong các bảng chiều mà nó có quan hệ đến. Như vậy, bảng sự kiện thường chứa 2 loại cột và có đặc điểm sau:

Các cột sự kiện (còn gọi là cột fact). Chúng là những tiêu chí đánh giá hoạt động

của doanh nghiệp.

Các cột khoá ngoài tương ứng với khoá chính của bảng chiều. Chúng chỉ ra

mối quan hệ giữa bảng sự kiệnvới bảng chiều.

 Những cột khoá ngoài trong bảng sự kiện tập hợp thành một cột khoá chính cho bảng sự kiện.

Các cột sự kiệncó thể ở mức chi tiết hoặc ở mức tổng hợp. Bảng sự kiệncó cột sự kiệnở mức tổng hợp. Do vậy, bảngđóthường được gọi là bảng tổng hợp.

Khi thiết lập được được liên kết giữa bảng sự kiện với các bảng chiều chúng ta có môt mô hình rõ ràng hơn và được gọi là lược đồ đa chiều (lược đồ).

Mặc dù, chúng ta vẫn xem xét mô hình dữ liệu đa chiều như là một cấu trúc lập phương trong hình học 3D nhưng trong môi trường data warehouse nó là một mô hình

dữ liệu n-chiều. Để cho dễ tưởng tưởng, hãy xem xét mô hình dưới dạng 2D khi mà dữ liệu bán hàng của công ty điện tử AllElectronics với thông tin về các sản phẩm theo từng quý tại thành phố Vancouver. Dữ liệu này được chỉ ra như hình vẽ bên dưới

Bảng 3: Khung nhìn dữ liệu đa chiều đơn giản

Trong hình vẽ 2D mô tả trên, dữ liệu bán hàng cho thành phố Vancouver được xem dưới khía cạnh là chiều thời gian (được tổ chức theo từng quý) và chiều sản phẩm (được tổ chức theo từng loại sản phẩm được bán). Độ đo hiển thị là doanh số bán hàng là giá trị dollars_sold của bảng sự kiện mô tả số tiền bán được theo đơn vị dollar tính trên đơn vị nghìn.

Bây giờ, hãy xem xét dữ liệu bán hàng này cũng với các chiều Thời gian, Sản phẩm

như ở trên nhưng ở nhiều vị trí như các thành phố Chicago, New York, Toronto,

Vancouver trong chiều Thành phố. Lúc này ta có khung nhìn với mô hình 3D thể hiện như hình vẽ bên dưới

Bảng 4: Khung nhìn dữ liệu đa chiều chi tiết

Khung nhìn này là tập hợp của các khung nhìn 2D ở trên theo vị trí là các thành phố bán hàng trong bảng Thành phố. Để mô tả giống với khái niệm mô hình dữ liệu đa chiều được định nghĩa ở trên ta có một mô hình lập phương 3D như hình vẽ bên dưới.

Hình 13: Hộp lập phương cho lược đồ dữ liệu 3 chiều

Giả xử tiếp chúng ta muốn xem xét dữ liệu bán hàng theo một chiều thứ 4 nữa ví dụ như chiều Nhà cung cấp. Việc biểu diễn mô hình dữ liệu với 4 chiều như vậy là khó khăn nhưng ta có thể xem xét chúng như là tập hợp các mô hình dữ liệu 3 chiều như ở bên dưới.

Hình 14: Hộp lập phương cho lược đồ dữ liệu 4 chiều

Theo cách mô tả này, chúng ta có thể biểu diễn bất cứ một mô hình dữ liệu n chiều như là một tập hợp các mô hình dữ liệu (n-1) chiều.

Trong mô hình dữ liệu đa chiều, mỗi một chiều thường được mô tả như là một đường xương trong hình hộp đa chiều. Nếu có nhiều chiều đưa ra, chúng ta có thể biểu diễn mỗi một chiều như là một đường xương và kết quả là tạo ra một mạng từ các đường xương đó. Mỗi chiều sẽ hiển thị dữ liệu theo theo các cấp độ tổng hợp dữ liệu khác nhau theo hàm nhóm. Hình vẽ bên dưới chỉ ra một mạng các đường xương hình thành lên mô hình dữ liệu đa chiều với các chiều Thời gian, Sản phẩm, Thành phố, Nhà cung cấp.

Hình 15: Mạng mô tả dữ liệu đa chiều

Trong mô hình mạng trên, mức độ tổng hợp dữ liệu thấp nhất được gọi là mức cơ bản (base cuboid) chính là mức xương mạng 4D với 4 chiều được đưa ra là Thời gian, Sản phẩm, Thành phố, Nhà cung cấp. Mức độ thấp hơn là mức xương mạng 3D với 3 chiều được đưa ra là Thời gian, Sản phẩm và Thành phố được tổng hợp cho tất cả các nhà cung cấp trong bảngNhà cung cấp. Mức tổng hợp cao nhất là mức 0D với với dữ liệu tổng hợp cho tổng doanh số bán hàng của tất cả các chiều. Mức này thường được gọi là mức đỉnh (apex cuboid).

Một phần của tài liệu Thiết kế data warehouse và ứng dụng trong hệ thống thông tin ngành điện (Trang 34)

Tải bản đầy đủ (PDF)

(96 trang)