Mô hình DW được phát sinh từ một mô hình dữ liệu tổng thể (mô hình dữ liệu mức xí nghiệp) (Enterprise Data Model - EDM). EDM được tổ chức thành các vùng theo chủ điểm SA. SA là phần chính của sự chia nhỏ các công việc cần được quan tâm nhằm đáp ứng nhu cầu người sử dụng tốt hơn. Nếu một tổ chức không có sẵn EDM thích hợp, EDM cũ được phép dùng tiếp và bổ sung các SA mới [1].
Để bắt đầu việc thiết lập mô hình, cần quan tâm tới khung nhìn hiện tại và trong tương lai sắp tới, nghĩa là mô tả và hiểu dữ liệu được chứa trong những hệ thống kế thừa.
Mô hình dữ liệu DW có tính chủ đề, phụ thuộc vào công việc nghiệp vụ và các vấn đề nảy sinh. Nó có thể được thiết lập theo:
Sơ đồ hình sao (Star Schema)
(LUAN.VAN.THAC.SI).Xu.ly.phan.tich.truc.tuyen.OLAP.va.ung.dung.trong.khai.thac.kho.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Xu.ly.phan.tich.truc.tuyen.OLAP.va.ung.dung.trong.khai.thac.kho.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Xu.ly.phan.tich.truc.tuyen.OLAP.va.ung.dung.trong.khai.thac.kho.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Xu.ly.phan.tich.truc.tuyen.OLAP.va.ung.dung.trong.khai.thac.kho.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10
Sơ đồ hình tuyết rơi (Snowflake)
Sơ đồ hỗn hợp
1.4.2 Sơ đồ hình sao - Star Schema
Sơ đồ hình sao cho phép một hệ thống đối tượng có thể kết nối với nhiều đối tượng khác. Mô hình này thể hiện cách nhìn của NSD về nhiều vấn đề trong tác nghiệp.
Sơ đồ hình sao được đưa ra lần đầu tiên bởi Dr. Ralph Kimball. Nó được gọi là sơ đồ hình sao bởi vì các sự kiện nằm ở trung tâm của mô hình và được bao quanh bởi các phạm vi liên quan, rất giống với các điểm của một ngôi sao.
Dữ liệu trong sơ đồ hình sao được xác định và phân loại theo 2 kiểu:
◊ Các sự kiện được tổ chức thành bảng Fact
◊ Phạm vi, hay các chiều của dữ liệu, được tổ chức thành các bảng Dimension.
Bảng Fact (Bảng thực) chứa các thông tin cơ sở ở mức giao tác ở trong nghiệp vụ mà các ứng dụng cần thiết. Trước khi các dữ liệu này được đưa vào kho dữ liệu thì cần phải chọn một trường dữ liệu nào đó thường sử dụng trong các chiều phân tích để tham chiếu (xem như khoá ngoại trong các quan hệ liên kết) và sau đó đưa vào bảng các chiều. Các sự kiện là các đại lượng số của công việc. Các bảng Fact thường rất lớn, chứa hàng triệu dòng mà phần lớn là số.
Bảng Dimension (Bảng chiều), ngược lại, thường là tương đối nhỏ so với các bảng Fact, chứa các thông tin mô tả. Bảng Dimension chứa các dữ liệu cần thiết cho việc thực hiện các giao tác nghiệp vụ theo một chiều, hay phạm vi nào đó. Mỗi bảng chiều là một đối tượng của cơ sở dữ liệu, bao gồm các giá trị mà dựa trên đó ta có thể phân loại dữ liệu. Ví dụ, trong một CSDL về bán hàng ta có các chiều sản phẩm, các vùng địa lý, các giai đoạn thời gian,…
Có hai loại chiều: Chiều phẳng và chiều phân cấp
Chiều phẳng (flat dimension): các giá trị của chiều có cùng mức, không giá trị nào đóng vai trò là cha hay con của giá trị khác.
Chiều phân cấp (hierarchical dimension): các giá trị của chiều có quan hệ một – nhiều (cha con với nhau).
Sơ đồ hình sao trở thành một lựa chọn thiết kế cơ sở dữ liệu cho DW vì có rất nhiều ưu điểm:
Hỗ trợ rất đa dạng các câu truy vấn và xử lý khá hiệu quả những câu truy vấn đó.
Phù hợp với cách mà NSD nhận và sử dụng dữ liệu và qua đó làm cho dữ liệu được hiểu trực quan hơn.
Nguyên lý cơ bản của sơ đồ hình sao là một dạng dư thừa dữ liệu cải thiện thực hiện các truy vấn. Với sơ đồ hình sao, người thiết kế có thể dễ dàng mô phỏng những chức năng của cơ sở dữ liệu đa chiều. Sự phi chuẩn hóa có thể coi là sự tiền kết nối các bảng để cho các ứng dụng không phải thực hiện công việc kết nối, làm giảm thời gian thực hiện.
Sơ đồ này rất trực quan, dễ sử dụng, thể hiện khung nhìn đa chiều của dữ liệu dùng ngữ nghĩa của cơ sở dữ liệu quan hệ. Khóa của bảng sự kiện được tạo bởi những khóa của các bảng chứa thông tin theo từng phạm vi. Tất cả các khóa đều được xác định với cùng một chuẩn đặt tên.
Những bảng Fact có chứa khóa của các bảng Dimension, có thể là với tên khác đi để đảm bảo tính duy nhất của mỗi hàng. Các bảng Dimension thường có định danh duy nhất và chứa đựng những thông tin về chiều của bảng đó. Số lượng các bảng Dimension của mỗi bảng Fact là từ 3 đến 5.
Vì bảng Fact được tổng hợp từ trước và được kết hợp theo nhiều chiều nên xu hướng có rất nhiều hàng và tăng trưởng một cách nhanh chóng.
Một sơ đồ hình sao đơn giản chỉ gồm một bảng Fact và một vài bảng Dimension. Một sơ đồ hình sao phức tạp bao gồm hàng trăm bảng Fact và bảng Dimension.
Ví dụ về một sơ đồ hình sao:
(LUAN.VAN.THAC.SI).Xu.ly.phan.tich.truc.tuyen.OLAP.va.ung.dung.trong.khai.thac.kho.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Xu.ly.phan.tich.truc.tuyen.OLAP.va.ung.dung.trong.khai.thac.kho.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Xu.ly.phan.tich.truc.tuyen.OLAP.va.ung.dung.trong.khai.thac.kho.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Xu.ly.phan.tich.truc.tuyen.OLAP.va.ung.dung.trong.khai.thac.kho.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10
Hình 1. 4 Sơ đồ hình sao
Lưu ý: bảng Fact và các bảng Dimension đều không bắt buộc ở dạng chuẩn như đối với phương pháp thiết kế truyền thống tức là có dư thừa dữ liệu.
Với loại sơ đồ này cho phép lưu trữ dư thừa dữ liệu đổi lại khả năng truy nhập nhanh hơn phù hợp với những câu hỏi phân tích nhiều chiều, phức tạp. Về bản chất, bảng Fact thuộc dạng chuẩn 1NF, với mức độ dư thừa dữ liệu rất lớn.
1.4.3 Sơ đồ hình tuyết rơi - Snowflake
Trong sơ đồ hình sao, nếu bảng Dimension bắt đầu có sự tương đồng với các bảng Fact thì có thể nó cần được chia ra thành các bảng Dimension. Nếu một bảng Dimension được chia ra thành Dimension chính và Dimension phụ thì cấu trúc thu được của kết quả được coi là một sơ đồ hình tuyết rơi hoặc một cấu trúc sao mở rộng.
Như vậy, sơ đồ hình tuyết rơi là một sự mở rộng của sơ đồ hình sao tại đó mỗi cánh sao không phải là một bảng Dimension mà là nhiều bảng.
Ví dụ: Trong sơ đồ hình sao ở trên, nếu chiều sản phẩm được chia ra thành bảng chiều chính (DMSanpham) và bảng chiều phụ (Nhomhang); chiều khách hàng được chia thành hai bảng là DMKháchHang và ThanhPhanKH thì sơ đồ trên sẽ trở thành sơ đồ hình tuyết rơi, được thể hiện như hình vẽ bên dưới:
Hình 1.5 Sơ đồ tuyết rơi mở rộng của sơ đồ hình sao
Trong dạng sơ đồ này, mỗi bảng theo chiều của sơ đồ hình sao được chuẩn hóa hơn. Sơ đồ hình tuyết rơi cải thiện năng suất truy vấn, tối thiểu không gian đĩa cần thiết để lưu trữ dữ liệu và cải thiện năng suất nhờ việc chỉ phải kết hợp những bảng có kích thước nhỏ hơn thay vì phải kết hợp những bảng có kích thước lớn lại không chuẩn hóa.
1.4.4 Sơ đồ kết hợp
Trong thực tế người ta hay sử dụng hỗn hợp hai sơ đồ trên, tạo thành sơ đồ kết hợp. Sơ đồ này kết hợp giữa sơ đồ hình sao dựa trên bảng Fact và những bảng Dimension không chuẩn hóa theo các chuẩn 1NF, 2NF, 3NF và sơ đồ hình tuyết rơi trong đó tất cả các bảng Dimension đều đã được chuẩn hóa. Như vậy, trong sơ đồ kết hợp, chỉ những bảng Dimension lớn là được chuẩn hóa còn những bảng khác chứa một khối lượng lớn các cột dữ liệu chưa được chuẩn hóa.