4.1 Giản đổ hình sao Star

Một phần của tài liệu Khai thác dữ liệu và xử lý phân tích trực tuyến (Trang 29)

Để giải quyết những vấn để kinh doanh trong thời kỳ hiện đại này việc phân tích thị trường và dự háo tài chính đòi hỏi những giản đồ cư sớ dữ liệu chủ yếu tập trung vào những truy vấn mà bản chất là da chiều và hướng mảng (array-oritíiUed).

Như vậy, công nghệ cơ sở dữ liệu chính của KDL là RDBMS, ta sẽ xem xét việc thiết kế giản đồ dữ liệu khi gắn liền nó với công nghệ CSDL quan hệ.

Giản đồ hình sao được đưa ra lần đầu tiên bởi Dr. Raph Kimball như là một lựa chọn thiết k ế cơ sở dữ liệu cho KDL [14], [19]. Trong gián đồ hình sao, dữ liệu được xác định và phản loại theo 2 kiểu: sự kiện (báng Fact: dối tượng Hung tám) và phạm vi (các bảng dimension: các bảng liên kết). Trong giản đồ hình sao chí có một bảng liên quan trực tiếp tới hầu hết các bảng còn lại đó là bảng Fact và là bảng chứa yếu tố cốt lõi cẩn được phân tích. Nó được gọi là giản đồ hình sao bởi vì các sự kiện nằm ở trung tâm của mô hình và được bao quanh bởi các phạm vi liên quan, rất giống với

các điểm của một ngôi sao. Các sự kiện là các đại lượng số của công việc. Các phạm vi là các bộ lọc hoặc các ràng buộc của những sự kiện này. Chẳng hạn: thông tin về khách hàng như tên, địa chỉ là một phạm vi, trong khi đó thông tin bán hàng cho khách hàng đó là một sự kiện.

Với giản đổ hình sao, người thiết kế có thể dễ dàng mô phỏng những chức năng của cơ sở dữ liệu đa chiều. Sự phi chuẩn hóa có thể coi là sự tiền kết nối (pre-joining) các bảng để cho các ứug dụng không phải thực hiện công việc kết nối, làm giảm thời gian thực hiện.

Giản đổ hình sao được thiết kế là để khắc phục những hạn chế của IĨ1Ô hình quan hệ hai chiều. Với cơ sở dữ liệu dược thiết kế theo gián dồ hình sao, những truy vấn với những câu hỏi phức tạp liên quan tới nhiều bảng và số liệu tổng cộng trở nên đơn giảiĩ li ơn và số lượng công việc cần thực hiện để đưa dược ra câu trả lời là ít nhất so với một m ô hình quan hệ chuẩn. Giản đồ hình sao cái thiện đáng kể thời gian truy vấn và cho phép thực hiện một số tính năng đa phạm vi. Giản dồ này rất trực quan, dễ sử dụng, thể hiện khung nhìn đa chiều của dữ liệu dùng ngữ nghĩa của cơ sở dữ liệu quan hệ. Khóa của bảng sự kiện được tạo bởi những khóa của các bảng chứa thông tin theo từng phạm vi (Dimension table). Tất cả các khóa đểu dược xác định với cùng một chuẩn đặt tên.

Để lấy được thông tin chẳng hạn dựa trên một thành phố của khách hàng cụ thể, cần phải kết hợp khóa chỉ khách hàng đó trong bảng sự kiện-bảng Fact (Fact table) với khóa của khách hàng đó trong bảng chiều - bảng Dimension và đặt thuộc tính thành phố của khách hàng đó là thành phố mà họ quan tâm.

Bảng Fact có chứa khóa của các bảng Dimension, có thể là với tên khác đi để đảm báo tính duy nhất của mỗi hàng. Các bảng Dimension thường có định danh duy nhất và chứa đựng những thông tin về chiều (Dimension) của bảng đó.

Vì bảng Fact được tổng hợp từ trước và được kết hợp theo nhiều chiều nên xu hướng có rất nhiều hàng và tăng trưởng một cách nhanh chóng trong khi đó các bảng Dimension không có nhiều hàng và sự tăng irưởng là tĩnh. Bảng Fact có thổ bao gồm hàng chục triệu hàng. Bảng Dimension chứa đựng các llniộc tính có thể

được sử dụng như các tiêu chí tìm kiếm và thường có kích thước nhỏ hơn nhiều, rất quen thuộc với người sử dụng lừ nước. Khoá của 11Ó không là khoá ghép như bảng sự kiện. Nếu một báng Dimension bắt dầu có sự lương (.lồng với báng Fact thì có thể nó cần được chia ra thành các bảng Dimension. Nếu một bảng Dimension được chia ra thành Dimension chính và Dimension thứ 2 thì cấu lnic thu được của kết quả được coi là một giản đổ tuyết rơi hoặc một cấu trúc sao mở rộng [14], [19J.

M ột giản đồ hình sao đơn giản chỉ gồm một háng Fact và một vài bảng Dimension. Một giản đồ hình sao phức tạp bao gồm hàng trăm bảng Fact và bảng Dimension. Một vài kỹ thuật để cải thiện công suát của các truy vấn trong giản đổ hình sao bao gổm:

■ Xác định sự kết hợp các bảng Fact dang tồn lại hay tạo ra một sự kết hợp mới các bảng Fact.

■ Phân chia bảng Facl đến mức mà hầu hết các truy vấn chỉ truy nhập tới phần đó. ■ Tạo ra các bảng Fact riêng rẽ.

■ Tạo ra những tệp chỉ số đơn duy nhất hoậc các kỹ thuật khác để cải thiện năng suất kết hợp.

Lưu ý là kể cả bảng Fact và các bảng Dimension đều không bất buộc ở dạng chuẩn như đối với phương pháp thiết kế truyền thống tức là có dư thừa dữ liệu. Với loại giản đổ này cho phép lưu trữ dư thừa dữ liêu dổi lại khả năng truy nhập nhanh hơn phù hợp với những cáu hỏi phân tích nhiều chiều, phức tạp. v ề bản chất, bảng Fact thuộc dạng chuẩn 1, với mức độ dư thừa dữ liệu rất lớn.

Có thể nói giản đồ hình sao là một cư sở dữ liệu chỉ dọc, việc cập nhật dữ liệu là rất khó, nếu không muốn nói là không thể dược. Một vài bảng Dimension chứa dữ liệu có thể dược thêm vào bằng các truy vấn có kết nối, một vài bảng khác lại không chứa dữ liệu gì ngoài việc phục vụ đánh chỉ số cho dữ liệu.

Một phần của tài liệu Khai thác dữ liệu và xử lý phân tích trực tuyến (Trang 29)

Tải bản đầy đủ (PDF)

(86 trang)