Một số mô hình dữ liệu phổ biến trong data warehouse gồm: Sơ đồ hình sao (star schema), Sơ đồ bông tuyết (Snowflake schema), Sơ đồ chòm sao sự kiện (Fact constellations schema).
2.1.4.1 Sơ đồ hình sao (star schema)
Sơ đồ hình sao là mô hình đơn giản nhất, hay được sử dụng trong data warehouse và có dạng hình sao. Sơ đồ hình sao gồm 1 bảng trung tâm gọi là bảng sự kiện (Fact table) và được kết nối với một tập các bảng chiều (Dimension table) xung quanh. Trong sơ đồ hình sao, các thực thể không được chuẩn hoá như trong mô hình thiết kế cơ sở dữ liệu nghiệp vụ, mà có thể nhiều dữ liệu phân cấp thuộc cùng một chiều dữ liệu. Mô hình thiết kế này cho phép một hệ thống các đối tượng có thể kết nối với nhiều đối tượng khác.
21
Khóa luận tốt nghiệp
Hình 2.1: Sơ đồ hình sao (Alejandro Vaisman, 2014).
Bảng sự kiện là bảng quan trọng nhất, chứa những thông tin chính cần quan tâm. Như ví dụ, với mô hình hình sao gồm những thông tin như ProductKey, StoreKey, PromotionKey, TimeKey, Amount và Quantity... Khi đưa dữ liệu vào kho dữ liệu, thông tin bảng Fact phải gồm các khóa ngoại và các giá trị đo dùng để phân tích. Bảng chiều thường nhỏ hơn nhiều so với các bảng sự kiện. Bảng chiều sẽ chứa những thông tin mô tả về đặc điểm đối tượng, các dữ liệu cần thiết cho việc thực hiện các giao tác nghiệp vụ theo một chiều hay phạm vi nào đó. Dữ liệu của bảng chiều được liên kết với bảng sự kiện thông qua các khóa. Như ví dụ, bảng thời gian được liên kết với bảng sự kiện thông qua khóa TimeKey.
Với những sơ đồ hình sao đơn giản thì gồm một bảng sự kiện Fact và thường tối thiểu là ba bảng chiều Dimension, nhưng không phải sơ đồ hình sao nào cũng đơn giản, mà thực tế có thể một sơ đồ gồm hàng trăm bảng sự kiện và bảng chiều khác nhau.
Ưu điểm của dạng sơ đồ hình sao:
- Sơ đồ hình sao được thiết kế theo khung nhìn dữ liệu đa chiều giúp thể
hiện dữ liệu trực quan, dễ sử dụng, dễ quản lý.
- Mô hình này hỗ trợ đa dạng các thao tác xử lý khác nhau, giúp thực hiện
những câu truy vấn với độ phức tạp cao, dễ xử lý thông tin nhanh chóng.
Khóa luận tốt nghiệp
- Với sơ đồ hình sao dữ liệu chưa được chuẩn hóa hoàn toàn. Nên khác với
mô hình thực thể liên kết thì việc không chuẩn hóa dữ liệu có thể giúp người thiết kế dễ dàng lấy những thông tin cần thiết mà không cần phải thông qua nhiều bảng trung gian và giúp cải thiện đáng kể thời gian thực hiện truy vấn.
Bên cạnh đó, nhược điểm của sơ đồ này là tính dư thừa dữ liệu. Bảng Dimension được lưu trữ tách rời và không được chuẩn hóa. Bảng Fact thể hiện dữ liệu tổng hợp và kết hợp theo các bảng chiều khác nhau nên có thể gây ra tăng trưởng dữ liệu nhanh chóng, và dư thừa dữ liệu lớn. Ví dụ như trong bảng chiều cửa hàng, mỗi bảng ghi gồm thông tin của hàng, thành phố và khu vực, mà có thể các cửa hàng khác nhau nhưng thông tin thành phố và khu vực giống nhau. Vì vậy, thiết kế theo sơ đồ hình sao sẽ tốn nhiều dung lượng ổ đĩa và gây rủi ro toàn vẹn dữ liệu.
2.1.4.2 Sơ đồ bông tuyết (Snowflake schema)
Sơ đồ bông tuyết là một mở rộng của sơ đồ hình sao, có dạng hình thức cũng tương tự như bông tuyết. Khác với sơ đồ hình sao, một vài cấu trúc chiều trong sơ đồ bông tuyết sẽ được chuẩn hóa, phân cấp hơn thành một tập các bảng chiều nhỏ hơn. Nhờ đó, thiết kế hình bông tuyết sẽ giảm đớt sự dư thừa dữ liệu so với sơ đồ hình sao, vì đã chuẩn hóa các bảng Dimension về chuẩn dạng 3 như trong mô hình thiết kế cơ sở dữ liệu.
Vì vậy, ưu điểm lớn nhất của dạng sơ đồ bông tuyết là cung cấp cái nhìn đầy đủ, chi tiết về sự phân cấp các bảng trong chiều dữ liệu. Với mô hình thiết kế này, giúp chuẩn hoá dữ liệu chặt chẽ hơn, nên tránh được tình trạng dư thừa và không nhất quán trong dữ liệu. Và bên cạnh đó, mô hình cũng giúp giảm thiểu được không gian cần lưu trữ. Các bảng chiều sẽ không có kích thước lớn mà thay vào đó sẽ liên kết nhiều bảng có kích thước nhỏ hơn.
Nhưng trở ngại lớn nhất của việc triển khai sơ đồ bông tuyết là vấn đề tốc độ truy vấn chậm. Nếu có nhiều bảng được phân cấp và liên kết với nhau thì khi thực hiện câu truy vấn phức tạp việc lấy thông tin sẽ gặp khó khăn khi phải join nhiều bảng khác nhau, và sẽ làm cho tốc độ truy vấn ngày càng chậm chạp. Mà tốc độ là tiêu chí hàng đầu để thiết kế mô hình trong kho dữ liệu. Nên đôi khi, người thiết kế lại hạn chế sử dụng mô hình sơ đồ bông tuyết.
23
Khóa luận tốt nghiệp
Hình 2.2: Sơ đồ hình bông tuyết (Alejandro Vaisman, 2014). 2.1.4.3 Sơ đồ chòm sao sự kiện (Fact constellations schema)
Hình 2.3: Sơ đồ chòm sao sự kiện (Alejandro Vaisman, 2014).
Hệ thống trích xuất, chuyển đổi và tải dữ liệu (ETL - Extract, Transform, Load): thực hiện công việc chuyển đổi dữ liệu từ các hệ thống khác nhau vào một tổ
chức dữ liệu duy nhất.
- Bước thu thập (Extract): Khai thác tập hợp dữ liệu từ nhiều nguồn dữ liệu
không đồng nhất lại với nhau. Những nguồn này có thể là cơ sở dữ liệu
Khóa luận tốt nghiệp
Trong sơ đồ chòm sao sự kiện (hay là sơ đồ ngân hà - galaxy schema) gồm các bảng sự kiện Fact phức chia sẻ, dùng chung một số các bảng chiều khác nhau để tạo khung nhìn, có hình dạng một tập các ngôi sao. Sơ đồ chòm sao sự kiện là sự kết hợp giữa sơ đồ hình sao và sơ đồ bông tuyết trong đó một số bảng chiều Dimension được chuẩn hóa mà một số khác thì không được chuẩn hóa.