Chương I Khai thác dữ liệu và xử lý phân tích trực tuyến
2.4. Thiết kế CSDL cho kho dữ liệu
2.4.1. Giản đồ hình sao (Star)
Việc phân tích, dự báo địi hỏi những giản đồ CSDL chủ yếu tập trung vào những truy vấn mà bản chất là đa chiều và hướng mảng (Array-oriented). Như vậy, cơng nghệ CSDL chính của kho dữ liệu là RDBMS. Ta sẽ xem xét việc thiết kế giản đồ dữ liệu khi gắn liền nó với cơng nghệ CSDL quan hệ.
Giản đồ hình sao được đưa ra lần đầu tiên bởi Raph Kimball như là một lựa chọn thiết kế CSDL cho kho dữ liệu. Trong giản đồ hình sao, dữ liệu được xác định và phân loại theo 2 kiểu: sự kiện (bảng Fact: đối tượng trung tâm) và phạm vi (các bảng Dimension: các bảng liên kết). Trong giản đồ hình sao chỉ có một bảng liên quan trực tiếp tới hầu hết các bảng còn lại đó là bảng Fact và là bảng chứa yếu tố cốt lõi cần được phân tích. Nó được gọi là giản đồ hình sao bởi vì các sự kiện nằm ở trung tâm của mơ hình và được bao quanh bởi các phạm vi liên quan, rất giống với các điểm của một ngôi sao. Các sự kiện là các đại lượng số của công việc. Các phạm vi là các bộ lọc hoặc các ràng buộc của những sự kiện này. Ví dụ: thơng tin về khách hàng như tên, địa chỉ là một phạm vi, trong khi đó thơng tin bán hàng cho khách hàng đó là một sự kiện.
Hình 2.2. Giản đồ hình sao và hình tuyết rơi
Với giản đồ hình sao, người thiết kế có thể dễ dàng mơ phỏng những chức năng của CSDL đa chiều. Sự phi chuẩn hóa có thể coi là sự tiền kết nối
(Pre-joining) các bảng để cho các ứng dụng không phải thực hiện công việc
kết nối, làm giảm thời gian thực hiện.
Giản đồ hình sao được thiết kế là để khắc phục những hạn chế của mơ hình quan hệ hai chiều. Với cơ sở dữ liệu được thiết kế theo giản đồ hình sao, những truy vấn với những câu hỏi phức tạp liên quan tới nhiều bảng và số liệu tổng cộng trở nên đơn giản hơn và số lượng công việc cần thực hiện để đưa được ra câu trả lời là ít nhất so với một mơ hình quan hệ chuẩn. Giản đồ hình
sao cải thiện đáng kể thời gian truy vấn và cho phép thực hiện một số tính
năng đa phạm vi. Giản đồ này rất trực quan, dễ sử dụng, thể hiện khung nhìn
đa chiều của dữ liệu dùng ngữ nghĩa của CSDL quan hệ. Khóa của bảng Fact được tạo bởi những khóa của các bảng chứa thông tin theo từng phạm vi
(bảng Dimension). Tất cả các khóa đều được xác định với cùng một chuẩn đặt tên.
Ví dụ, để lấy được thông tin thành phố của khách hàng cụ thể, cần phải kết hợp khóa chỉ khách hàng đó trong bảng sự kiện (bảng Fact) với khóa của khách hàng đó trong bảng phạm vi (bảng Dimension) và đặt thuộc tính thành phố của khách hàng đó là thành phố mà họ quan tâm.
Bảng Fact có chứa khóa của các bảng Dimension, có thể là với tên khác
đi để đảm bảo tính duy nhất của mỗi hàng. Các bảng Dimension thường có định danh duy nhất và chứa đựng những thơng tin về chiều (Dimension) của
bảng đó.
Vì bảng Fact được tổng hợp từ trước và được kết hợp theo nhiều chiều nên xu hướng có rất nhiều hàng và tăng trưởng một cách nhanh chóng trong khi đó các bảng Dimension khơng có nhiều hàng và sự tăng trưởng là tĩnh.
Bảng Fact có thể bao gồm hàng chục triệu hàng. Bảng Dimension chứa đựng các thuộc tính có thể được sử dụng như các tiêu chí tìm kiếm và thường có
của nó khơng là khoá ghép như bảng Fact. Nếu một bảng Dimension bắt đầu
có sự tương đồng với bảng Fact thì nó cần được tiếp tục chia ra thành các
bảng Dimension nữa. Nếu một bảng Dimension được chia thành Dimension chính và Dimension phụ thì cấu trúc thu được gọi là một giản đồ tuyết rơi
hoặc một cấu trúc sao mở rộng.
Một giản đồ hình sao đơn giản chỉ gồm một bảng Fact và một vài bảng Dimension. Một giản đồ hình sao phức tạp bao gồm hàng trăm bảng Fact và bảng Dimension. Một vài kỹ thuật để cải thiện hiệu suất của các truy vấn
trong giản đồ hình sao bao gồm:
• Xác định sự kết hợp các bảng Fact đang tồn tại hay tạo ra một sự kết hợp mới các bảng Fact.
• Phân chia bảng Fact đến mức mà hầu hết các truy vấn chỉ truy nhập tới phần đó.
• Tạo ra các bảng Fact riêng rẽ.
• Tạo ra những tệp chỉ số đơn duy nhất hoặc các kỹ thuật khác để cải
thiện năng suất kết hợp.
Cả bảng Fact và các bảng Dimension đều không bắt buộc ở dạng chuẩn như đối với phương pháp thiết kế truyền thống tức là có dư thừa dữ liệu. Loại giản đồ này cho phép lưu trữ dư thừa dữ liệu, đổi lại khả năng truy nhập
nhanh hơn phù hợp với những câu hỏi phân tích nhiều chiều, phức tạp. Về bản chất bảng Fact thuộc dạng chuẩn 1 với mức độ dư thừa dữ liệu rất lớn.
Có thể nói giản đồ hình sao là một CSDL chỉ đọc, việc cập nhật dữ liệu là rất khó nếu khơng muốn nói là khơng thể được. Một vài bảng Dimension
chứa dữ liệu có thể được thêm vào bằng các truy vấn có kết nối, một vài bảng khác lại khơng chứa dữ liệu gì ngồi việc phục vụ đánh chỉ số cho dữ liệu.