Giản đồ hình sao (Star)

Một phần của tài liệu Phương pháp xử lý phân tích trực tuyến (Trang 29 - 32)

Việc phân tích, dự báo đòi hỏi những giản đồ CSDL chủ yếu tập trung vào những truy vấn mà bản chất là đa chiều và hướng mảng (Array-oriented). Như vậy, công nghệ CSDL chính của kho dữ liệu là RDBMS. Ta sẽ xem xét việc thiết kế giản đồ dữ liệu khi gắn liền nó với công nghệ CSDL quan hệ.

Giản đồ hình sao được đưa ra lần đầu tiên bởi Raph Kimball như là một lựa chọn thiết kế CSDL cho kho dữ liệu. Trong giản đồ hình sao, dữ liệu được xác định và phân loại theo 2 kiểu: sự kiện (bảng Fact: đối tượng trung tâm) và phạm vi (các bảng Dimension: các bảng liên kết). Trong giản đồ hình sao chỉ

có một bảng liên quan trực tiếp tới hầu hết các bảng còn lại đó là bảng Fact và là bảng chứa yếu tố cốt lõi cần được phân tích. Nó được gọi là giản đồ hình sao bởi vì các sự kiện nằm ở trung tâm của mô hình và được bao quanh bởi các phạm vi liên quan, rất giống với các điểm của một ngôi sao. Các sự kiện là các đại lượng số của công việc. Các phạm vi là các bộ lọc hoặc các ràng buộc của những sự kiện này. Ví dụ: thông tin về khách hàng như tên, địa chỉ

là một phạm vi, trong khi đó thông tin bán hàng cho khách hàng đó là một sự

kiện.

Hình 2.2. Giản đồ hình sao và hình tuyết rơi

Với giản đồ hình sao, người thiết kế có thể dễ dàng mô phỏng những chức năng của CSDL đa chiều. Sự phi chuẩn hóa có thể coi là sự tiền kết nối

(Pre-joining) các bảng để cho các ứng dụng không phải thực hiện công việc kết nối, làm giảm thời gian thực hiện.

Giản đồ hình sao được thiết kế là để khắc phục những hạn chế của mô hình quan hệ hai chiều. Với cơ sở dữ liệu được thiết kế theo giản đồ hình sao, những truy vấn với những câu hỏi phức tạp liên quan tới nhiều bảng và số liệu tổng cộng trở nên đơn giản hơn và số lượng công việc cần thực hiện để đưa

được ra câu trả lời là ít nhất so với một mô hình quan hệ chuẩn. Giản đồ hình sao cải thiện đáng kể thời gian truy vấn và cho phép thực hiện một số tính năng đa phạm vi. Giản đồ này rất trực quan, dễ sử dụng, thể hiện khung nhìn

đa chiều của dữ liệu dùng ngữ nghĩa của CSDL quan hệ. Khóa của bảng Fact

được tạo bởi những khóa của các bảng chứa thông tin theo từng phạm vi (bảng Dimension). Tất cả các khóa đều được xác định với cùng một chuẩn đặt tên.

Ví dụ, để lấy được thông tin thành phố của khách hàng cụ thể, cần phải kết hợp khóa chỉ khách hàng đó trong bảng sự kiện (bảng Fact) với khóa của khách hàng đó trong bảng phạm vi (bảng Dimension) và đặt thuộc tính thành phố của khách hàng đó là thành phố mà họ quan tâm.

Bảng Fact có chứa khóa của các bảng Dimension, có thể là với tên khác

đi để đảm bảo tính duy nhất của mỗi hàng. Các bảng Dimension thường có

định danh duy nhất và chứa đựng những thông tin về chiều (Dimension) của bảng đó.

Vì bảng Fact được tổng hợp từ trước và được kết hợp theo nhiều chiều nên xu hướng có rất nhiều hàng và tăng trưởng một cách nhanh chóng trong khi đó các bảng Dimension không có nhiều hàng và sự tăng trưởng là tĩnh. Bảng Fact có thể bao gồm hàng chục triệu hàng. Bảng Dimension chứa đựng các thuộc tính có thể được sử dụng như các tiêu chí tìm kiếm và thường có kích thước nhỏ hơn nhiều, rất quen thuộc với người sử dụng từ trước. Khoá

của nó không là khoá ghép như bảng Fact. Nếu một bảng Dimension bắt đầu có sự tương đồng với bảng Fact thì nó cần được tiếp tục chia ra thành các bảng Dimension nữa. Nếu một bảng Dimension được chia thành Dimension chính và Dimension phụ thì cấu trúc thu được gọi là một giản đồ tuyết rơi hoặc một cấu trúc sao mở rộng.

Một giản đồ hình sao đơn giản chỉ gồm một bảng Fact và một vài bảng Dimension. Một giản đồ hình sao phức tạp bao gồm hàng trăm bảng Fact và bảng Dimension. Một vài kỹ thuật để cải thiện hiệu suất của các truy vấn trong giản đồ hình sao bao gồm:

• Xác định sự kết hợp các bảng Fact đang tồn tại hay tạo ra một sự kết hợp mới các bảng Fact.

• Phân chia bảng Fact đến mức mà hầu hết các truy vấn chỉ truy nhập tới phần đó.

• Tạo ra các bảng Fact riêng rẽ.

• Tạo ra những tệp chỉ số đơn duy nhất hoặc các kỹ thuật khác để cải thiện năng suất kết hợp.

Cả bảng Fact và các bảng Dimension đều không bắt buộc ở dạng chuẩn nhưđối với phương pháp thiết kế truyền thống tức là có dư thừa dữ liệu. Loại giản đồ này cho phép lưu trữ dư thừa dữ liệu, đổi lại khả năng truy nhập nhanh hơn phù hợp với những câu hỏi phân tích nhiều chiều, phức tạp. Về

bản chất bảng Fact thuộc dạng chuẩn 1 với mức độ dư thừa dữ liệu rất lớn. Có thể nói giản đồ hình sao là một CSDL chỉ đọc, việc cập nhật dữ liệu là rất khó nếu không muốn nói là không thể được. Một vài bảng Dimension chứa dữ liệu có thể được thêm vào bằng các truy vấn có kết nối, một vài bảng khác lại không chứa dữ liệu gì ngoài việc phục vụđánh chỉ số cho dữ liệu.

Một phần của tài liệu Phương pháp xử lý phân tích trực tuyến (Trang 29 - 32)

Tải bản đầy đủ (PDF)

(125 trang)