Sơ đồ hình sao (Star Schema)

Một phần của tài liệu Tài liệu về kho dữ liệu (Trang 36 - 40)

Sơ đồ hình sao đƣợc đƣa ra lần đầu tiên bởi Dr. Ralph Kimball nhƣ là một lựa chọn thiết kế cơ sở dữ liệu cho DW. Nó đƣợc gọi là sơ đồ hình sao bởi vì các sự kiện nằm ở trung tâm của mô hình và đƣợc bao quanh bởi các phạm vi liên quan, rất giống với các điểm của một ngôi sao. Sơ đồ hình sao cho phép một hệ thống đối tƣợng có thể kết nối với nhiều đối tƣợng khác.

Trong sơ đồ hình sao, dữ liệu đƣợc xác định và phân loại theo 2 kiểu:

 Các sự kiện đƣợc tổ chức thành bảng Fact

 Phạm vi, hay các chiều của dữ liệu, đƣợc tổ chức thành các bảng Dimension.

Bảng Fact chứa các thông tin cơ sở ở mức tác nghiệp ở trong nghiệp vụ mà các ứng dụng cần thiết. Ví dụ, khi phân tích dữ liệu kinh doanh thì cần những dữ liệu về những mặt hàng có đƣợc trong các giao dịch bán hàng về số lƣợng, chủng loại, giá thành, v.v.. Những dữ liệu này đều đƣợc lƣu ở bảng Fact của kho dữ liệu. Tuy nhiên, trƣớc khi các dữ liệu này đƣợc đƣa vào kho dữ liệu thì cần phải chọn một trƣờng dữ liệu nào đó thƣờng sử dụng trong các chiều phân tích để tham chiếu (xem nhƣ khóa ngoại trong các quan hệ liên kết) và sau đó đƣa vào bảng các chiều. Các sự kiện là các đại lƣợng số của công việc. Các bảng Fact thƣờng rất lớn, chứa hàng triệu dòng mà phần lớn là số.

Bảng Dimension, ngƣợc lại thƣờng là tƣơng đối nhỏ so với các bảng

Fact, chứa các thông tin mô tả. Đó là các bộ lọc hoặc các ràng buộc của những sự kiện ở bảng Fact. Bảng Dimension chứa các dữ liệu cần thiết cho việc thực hiện các giao tác nghiệp vụ theo một chiều, hay phạm vi nào đó. Ví dụ, trong ứng dụng phân tích kinh doanh, bảng Dimension bao gồm: thời gian, vùng bán hàng, loại sản phẩm, v.v.

Có hai loại chiều: chiều phẳng và chiều phân cấp

 Chiều phẳng (flat dimension): các giá trị của chiều có cùng mức, không giá trị nào đóng vai trò là cha hay con của giá trị khác.

 Chiều phân cấp (hierarchical dimension): các giá trị của chiều có quan hệ một – nhiều (cha với con).

Ví dụ về một sơ đồ hình sao

Hình 1.18 Sơ đồ dữ liệu hình sao

Hình 1.18 ví dụ một sơ đồ hình sao bao gồm bảng Fact các dữ liệu về kinh doanh và ba bảng Dimension về loại sản phẩm, chu kỳ thời gian (thời kỳ) và thị trƣờng. Khóa nguyên thuỷ của các bảng Fact là mã sản phẩm (UPC - Universal Product Code), mã chu kỳ thời gian và mã thị trƣờng. Trong ví dụ này, những khóa trên có thể là không duy nhất, bởi có thể có nhiều lần cùng bán một sản phẩm trong cùng một chu kỳ thời gian và ở cùng một thị trƣờng. Trong sơ đồ hình sao này có ba quan hệ một - nhiều liên kết giữa các dòng trong bảng Dimension với các dòng trong bảng Fact

Sơ đồ hình sao trở thành một lựa chọn thiết kế cơ sở dữ liệu cho DW vì có rất nhiều ƣu điểm:

 Hỗ trợ rất đa dạng các câu truy vấn và xử lý khá hiệu quả những câu truy vấn đó.

 Phù hợp với cách mà NSD nhận và sử dụng dữ liệu và qua đó làm cho dữ liệu đƣợc hiểu trực quan hơn.

 Nguyên lý cơ bản của sơ đồ hình sao là một dạng dƣ thừa dữ liệu cải thiện sự thực hiện các truy vấn. Với sơ đồ hình sao, ngƣời thiết kế có thể dễ dàng mô phỏng những chức năng của cơ sở dữ liệu đa chiều. Sự phi chuẩn hóa có thể coi là sự tiền kết nối (pre-joining) các bảng để cho các ứng dụng không phải thực hiện công việc kết nối, làm giảm thời gian thực hiện.

 Sơ đồ hình sao cải thiện đáng kể thời gian truy vấn và cho phép thực hiện một số tính năng đa phạm vi. Sơ đồ này rất trực quan, dễ sử dụng, thể hiện khung nhìn đa chiều của dữ liệu dùng ngữ nghĩa của cơ sở dữ liệu quan hệ. Khóa của bảng sự kiện đƣợc tạo bởi những khóa của các bảng chứa thông tin theo từng phạm vi (Dimension Table). Tất cả các khóa đều đƣợc xác định với cùng một chuẩn đặt tên.

Những bảng Fact có chứa khóa của các bảng Dimension, có thể là với tên khác đi để đảm bảo tính duy nhất của mỗi hàng. Các bảng Dimension

thƣờng có định danh duy nhất và chứa đựng những thông tin về chiều của bảng đó. Số lƣợng các bảng Dimension của mỗi bảng Fact là từ 3 đến 5.

Một sơ đồ hình sao đơn giản chỉ gồm một bảng Fact và một vài bảng

và bảng Dimension.

Lƣu ý: bảng Fact và các bảng Dimension đều không bắt buộc ở dạng chuẩn nhƣ đối với phƣơng pháp thiết kế truyền thống tức là có dƣ thừa dữ liệu. Với loại sơ đồ này cho phép lƣu trữ dƣ thừa dữ liệu đổi lại khả năng truy nhập nhanh hơn phù hợp với những câu hỏi phân tích nhiều chiều, phức tạp. Về bản chất, bảng Fact thuộc dạng chuẩn I, với mức độ dƣ thừa dữ liệu rất lớn.

Một phần của tài liệu Tài liệu về kho dữ liệu (Trang 36 - 40)

Tải bản đầy đủ (PDF)

(107 trang)