SƠ ĐỒ HÌNH SA O STAR SCHEMA

Một phần của tài liệu Xử lý phân tích trực tuyến OLAP và ứng dụng trong khai thác kho dữ liệu (Trang 26)

Sơ đồ hình sao cho phép một hệ thống đối tượng có thể kết nối với nhiều đối tượng khác. Mô hình này thể hiện cách nhìn của NSD về nhiều vấn đề trong tác nghiệp.

Sơ đồ hình sao được đưa ra lần đầu tiên bởi Dr. Ralph Kimball. Nó được gọi là sơ đồ hình sao bởi vì các sự kiện nằm ở trung tâm của mô hình và được bao quanh bởi các phạm vi liên quan, rất giống với các điểm của một ngôi sao. Dữ liệu trong sơ đồ hình sao được xác định và phân loại theo 2 kiểu:

◊ Các sự kiện được tổ chức thành bảng Fact

◊ Phạm vi, hay các chiều của dữ liệu, được tổ chức thành các bảng

Dimension.

Bảng Fact (Bảng thực) chứa các thông tin cơ sở ở mức giao tác ở trong nghiệp vụ mà các ứng dụng cần thiết. Trước khi các dữ liệu này được đưa vào kho dữ liệu thì cần phải chọn một trường dữ liệu nào đó thường sử dụng trong các chiều phân tích để tham chiếu (xem như khoá ngoại trong các quan hệ liên kết) và sau đó đưa vào bảng các chiều. Các sự kiện là các đại lượng số của công việc. Các bảng Fact thường rất lớn, chứa hàng triệu dòng mà phần lớn là số.

 Bảng Dimension (Bảng chiều), ngược lại, thường là tương đối nhỏ so với các bảng Fact, chứa các thông tin mô tả. Bảng Dimension chứa các dữ liệu cần thiết cho việc thực hiện các giao tác nghiệp vụ theo một chiều, hay phạm vi nào đó. Mỗi bảng chiều là một đối tượng của cơ sở dữ liệu, bao gồm các giá trị mà dựa trên đó ta có thể phân loại dữ liệu. Ví dụ, trong một CSDL về bán hàng ta có các chiều sản phẩm, các vùng địa lý, các giai đoạn thời gian,…

Có hai loại chiều: Chiều phẳng và chiều phân cấp

Chiều phẳng (flat dimension): các giá trị của chiều có cùng mức, không giá trị nào đóng vai trò là cha hay con của giá trị khác.

Chiều phân cấp (hierarchical dimension): các giá trị của chiều có quan hệ một – nhiều (cha con với nhau).

Sơ đồ hình sao trở thành một lựa chọn thiết kế cơ sở dữ liệu cho DW vì có rất nhiều ưu điểm:

 Hỗ trợ rất đa dạng các câu truy vấn và xử lý khá hiệu quả những câu truy vấn đó.

 Phù hợp với cách mà NSD nhận và sử dụng dữ liệu và qua đó làm cho dữ liệu được hiểu trực quan hơn.

 Nguyên lý cơ bản của sơ đồ hình sao là một dạng dư thừa dữ liệu cải thiện thực hiện các truy vấn. Với sơ đồ hình sao, người thiết kế có thể dễ dàng mô phỏng những chức năng của cơ sở dữ liệu đa chiều. Sự phi chuẩn hóa có thể coi là sự tiền kết nối các bảng để cho các ứng dụng không phải thực hiện công việc kết nối, làm giảm thời gian thực hiện.  Sơ đồ này rất trực quan, dễ sử dụng, thể hiện khung nhìn đa chiều của

dữ liệu dùng ngữ nghĩa của cơ sở dữ liệu quan hệ. Khóa của bảng sự kiện được tạo bởi những khóa của các bảng chứa thông tin theo từng phạm vi. Tất cả các khóa đều được xác định với cùng một chuẩn đặt tên.

Những bảng Fact có chứa khóa của các bảng Dimension, có thể là với tên khác đi để đảm bảo tính duy nhất của mỗi hàng. Các bảng Dimension thường có định danh duy nhất và chứa đựng những thông tin về chiều của bảng đó. Số lượng các bảng Dimension của mỗi bảng Fact là từ 3 đến 5.

Vì bảng Fact được tổng hợp từ trước và được kết hợp theo nhiều chiều nên xu hướng có rất nhiều hàng và tăng trưởng một cách nhanh chóng.

Một sơ đồ hình sao đơn giản chỉ gồm một bảng Fact và một vài bảng Dimension. Một sơ đồ hình sao phức tạp bao gồm hàng trăm bảng Fact và bảng Dimension.

Hình 1. 4 Sơ đồ hình sao

Lưu ý: bảng Fact và các bảng Dimension đều không bắt buộc ở dạng chuẩn như đối với phương pháp thiết kế truyền thống tức là có dư thừa dữ liệu. Với loại sơ đồ này cho phép lưu trữ dư thừa dữ liệu đổi lại khả năng truy nhập nhanh hơn phù hợp với những câu hỏi phân tích nhiều chiều, phức tạp. Về bản chất, bảng Fact thuộc dạng chuẩn 1NF, với mức độ dư thừa dữ liệu rất lớn.

Một phần của tài liệu Xử lý phân tích trực tuyến OLAP và ứng dụng trong khai thác kho dữ liệu (Trang 26)