1. Trang chủ
  2. » Luận Văn - Báo Cáo

Công nghệ xử lý phân tích trực tuyến trong việc trợ giúp quyết định

86 611 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 86
Dung lượng 1,66 MB

Nội dung

Hệ trợ giúp quyết định theo tiếp cận này, có thể giúp cho nhà quản lý thiết lập một mô hình OLAP cho ứng dụng cụ thể của mình trong việc tổ chức CSDL đa chiều, và giúp cho họ dễ dàng tro

Trang 1

PHẠM MINH QUÝ

Công nghệ xử lý phân tích trực tuyến trong

việc trợ giúp quyết định

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

HÀ NỘI, 2003

Trang 2

1.2.4 Dữ liệu gắn với thời gian và có tính lịch sử 8

1.3 Kho dữ liệu và hệ xử lý giao dịch trực tuyến 9

1.3.2 Sự khác nhau giữa kho dữ liệu và OLTP 10

2 Kiến trúc và các thành phần cấu thành kho dữ liệu 11

2.1.3 Kiến trúc kho dữ liệu với vùng tạm và dữ liệu chuyên đề 12

2.2.2 Công cụ thu thập, làm sạch và chuyển đổi dữ liệu nguồn 13

2.2.5 Phân tích và truy cập của người sử dụng cuối 16

Trang 3

4.2.1 Phân hoạch dữ liệu và cơ chế song song 24 4.2.2 Thiết kế khung nhìn và chỉ số cho kho dữ liệu vật lý 25 CHƯƠNG II – MÔ HÌNH DỮ LIỆU CHO XỬ LÝ PHÂN TÍCH TRỰC TUYẾN 35

2.1 Xây dựng lại theo logic của thiết kế lược đồ đa chiều 41

2.3.3 Loại bỏ các phụ thuộc hàm yếu cho tổng hợp 45

CHƯƠNG III – CÔNG NGHỆ XỬ LÝ PHÂN TÍCH TRỰC TUYẾN TRONG

Trang 4

4 Ứng dụng công nghệ OLAP trong hỗ trợ quyết định 66

4.2.2 Các hệ thống thông tin điều hành - EIS 67

4.2.4 Phân tích theo kịch bản (chuỗi sự kiện) 68

1.3 Giới thiệu công cụ khai thác kho dữ liệu của Oracle 71

Trang 5

CÁC THUẬT NGỮ VÀ TỪ VIẾT TẮT

Phần này nhằm mục đích mô tả các từ viết tắt và các thuật ngữ đƣợc sử dụng trong luận văn Một số thuật ngữ tiếng Anh phổ biến, quen thuộc có chỗ tác giả vẫn giữ nguyên, một số thuật ngữ đƣợc dịch sang tiếng viết và có mở ngoặc chú thích khi sử dụng lần đầu

MOLAP - Multidimention

OLTP - Online Transaction

Anh)

Trang 6

PHẦN MỞ ĐẦU

Trong bối cảnh công nghệ thông tin phát triển mạnh mẽ, dữ liệu ngày càng được tập trung trong những cơ sở dữ liệu (CSDL) khổng lồ, nhu cầu truy nhập vào tất cả các dữ liệu để lấy ra thông tin là cần thiết Cách tổ chức dữ liệu có hiệu quả nhất để trợ giúp nhu cầu truy nhập tìm ra thông tin cần thiết là kho dữ liệu

Ở nước ta ngày càng có nhiều kho dữ liệu được xây dựng và lượng dữ liệu ngày một lớn Nhưng việc khai thác hiện nay chưa có hiệu quả, vì trong kho dữ liệu lớn,

đa chiều thường chứa nhiều thông tin (tri thức) ẩn kín mà các công cụ truyền thống như kỹ thuật truy vấn SQL rất khó và nhiều khi không phát hiện được Hơn thế nữa,

do yêu cầu của người sử dụng liên tục thay đổi, đòi hỏi các câu trả lời phải theo thứ

tự khác nhau

Yêu cầu làm thể nào có thể khai thác thông tin có hiệu quả, thoả mãn nhu cầu khai thác mức cao của người dùng, đòi hỏi phải có công nghệ khai thác thích hợp, hiện nay xử lý phân tích trực tuyến (OLAP) là một trong các phương pháp khai thác

có hiệu quả trên những tập dữ liệu lớn và hỗn hợp Trước đây công nghệ này ít được áp dụng vì nó đắt tiền, khó cài đặt, không mềm dẻo trong khai thác Nhưng đến nay trên thế giới công nghệ OLAP thực sự đã và đang được nghiên cứu, phát triển mạnh mẽ và ngày càng đuợc sử dụng rộng rãi trong khai thác dữ liệu, hỗ trợ ra quyết định Ở nước ta việc áp dụng công nghệ này đến nay vẫn chưa được phát triển

Xuất phát từ nhu cầu thực tiễn tôi chọn hướng đề tài nghiên cứu: “Công nghệ xử

lý phân tích trực tuyến trong việc trợ giúp quyết định” nhằm tìm hiểu về kho dữ

liệu và công nghệ OLAP sử dụng để khai thác trên các kho dữ liệu, hướng tới xây dựng các hệ thống có khả năng ứng dụng công nghệ phân tích trực tuyến vào khai thác dữ liệu phục vụ cho công tác quản lý, hỗ trợ ra quyết định

Đề tài đề cập đến việc nghiên cứu nhằm hướng đến xây dựng các hệ thống trợ giúp quyết định sử dụng phương pháp luận OLAP Luận văn sẽ tập trung vào các công việc chính là nghiên cứu vấn đề tổ chức, xây dựng kho dữ liệu, nhấn mạnh vào nghiên cứu mô hình CSDL đa chiều và phân tích dữ liệu trực tuyến để trợ giúp ra quyết định

Trang 7

Hệ trợ giúp quyết định theo tiếp cận này, có thể giúp cho nhà quản lý thiết lập một mô hình OLAP cho ứng dụng cụ thể của mình trong việc tổ chức CSDL đa chiều, và giúp cho họ dễ dàng trong hoạt động phân tích, tìm kiếm thông tin theo những khía cạnh khác nhau của dữ liệu, nhằm thu thập được tối đa những gì họ cần hiểu rõ, để từ đó có thể ra được những quyết định tốt nhất một cách nhanh chóng Không giống với các hệ trợ giúp quyết định truyền thống thường được xây dựng với mục đích đưa ra giải pháp tối ưu cho một bài toán cụ thể, trong một phạm vi ứng dụng hẹp, công nghệ OLAP hướng đến việc giúp người sử dụng có thể khai thác được tối đa khả năng tiềm ẩn của một khối lượng dữ liệu lớn, nhằm thu được những thông tin tổng hợp ở đủ các khía cạnh khác nhau của dữ liệu, để từ đó có thể ra các quyết định một cách nhanh chóng Do đặc điểm này, phạm vi ứng dụng của hệ trợ giúp quyết định sử dụng công nghệ OLAP dựa vào dữ liệu là rộng rãi cho các bài toán khác nhau, trong nhiều lĩnh vực khác nhau

Nội dung của luận văn được chia thành bốn chương:

Chương 1: Nội dung chủ yếu giới thiệu lý thuyết chung về kho dữ liệu - phương

pháp tổ chức, thiết kế CSDL và xây dựng kho dữ liệu Nhấn mạnh trong việc thiết

kế CSDL vật lý của kho dữ liệu bằng việc sử dụng thuật toán A* và các luật của Thumb để chọn khung nhìn và chỉ số tối ưu việc bảo trì kho dữ liệu

Chương 2: Trình bày về mô hình dữ liệu đa chiều và các dạng chuẩn dữ liệu đa

chiều trong mô hình CSDL đa chiều sử dụng trong OLAP

Chương 3: Trình bày những lý thuyết cơ bản về công nghệ OLAP trong việc hỗ

trợ ra quyết định, cách tổ chức lưu trữ dữ liệu, việc chỉ số hóa khung nhìn để tối ưu tốc độ truy vấn

Chương 4: Xây dựng một ứng dụng sử dụng các công cụ và công nghệ của

Oracle nhằm mô tả cho việc ứng dụng công nghệ OLAP trong việc hỗ trợ ra quyết định

Trang 8

CHƯƠNG I – KHO DỮ LIỆU

Các doanh nghiệp, tổ chức kinh tế - xã hội đều đang phải đối đầu với sự thay đổi của thị trường, sự thay đổi hoàn thiện của các chính sách kinh tế xã hội Để có thể đưa ra một quyết định đúng đắn, trước hết phải có khả năng nhanh chóng truy nhập được tới các thông tin mà doanh nghiệp, tổ chức có sẵn Đối với một doanh nghiệp,

tổ chức, muốn có một quyết định đúng đắn, cần nghiên cứu cả những dữ liệu trong quá khứ và hiện tại, nhằm phân tích và xác định ra các xu hướng có thể ở hiện tại và tương lai Để phục vụ phân tích dữ liệu cần được tập trung lại và do đó sẽ tạo ra những CSDL khổng lồ Cách tổ chức dữ liệu có hiệu quả nhất để trợ giúp nhu cầu truy nhập thông tin hỗ trợ ra quyết định là tổ chức thành các kho dữ liệu

1.1 Định nghĩa kho dữ liệu

Kho dữ liệu (Data warehouse-DW) là một tập hợp các CSDL tích hợp, hướng chuyên đề, được thiết kế cho việc truy vấn và phân tích hơn là xử lý giao dịch để hỗ trợ cho chức năng trợ giúp quyết định, mà mỗi đơn vị dữ liệu đều liên quan tới một khoảng thời gian cụ thể [2]

Kích thước của kho dữ liệu thường rất lớn, được tổ chức, lưu trữ và phân tích phục vụ cho việc cung cấp các thông tin liên quan đến nghiệp vụ của tổ chức Kho

dữ liệu phục vụ cho việc phân tích với kết quả mang tính thông tin cao Các hệ thống thông tin thu thập, xử lý dữ liệu loại này còn gọi là hệ xử lý phân tích trực tuyến - OLAP

Một kho lưu trữ dữ liệu thường được sử dụng như là các thông tin cơ sở cho một

hệ thống hỗ trợ quyết định Nó được thiết kế để khắc phục những vấn đề vấp phải khi một doanh nghiệp hay tổ chức cố gắng thực hiện chiến lược phân tích có sử dụng cùng CSDL mà được sử dụng cho xử lý giao dịch trực tuyến - OLTP

1.2 Đặc điểm dữ liệu của kho dữ liệu

Kho dữ liệu được thiết kế để giúp cho việc phân tích dữ liệu Ví dụ để biết nhiều hơn về dữ liệu bán hàng của tổ chức, doanh nghiệp có thể xây dựng một kho dữ liệu tập trung vào chuyên đề bán hàng Sử dụng kho dữ liệu này có thể trả lời được các

Trang 9

câu hỏi có liên quan đến bán hàng như: “Khu vực nào tiêu thụ sản phẩm là Video nhiều nhất trong quí I năm 2003” Đây là khả năng cho phép định nghĩa kho dữ liệu theo các chuyên đề, tạo ra kho dữ liệu hướng chuyên đề

Dữ liệu trong kho dữ liệu là dữ liệu chỉ đọc và chỉ có thể được kiểm tra, không được sửa đổi bởi người sử dụng cuối Thông tin trong kho dữ liệu được tải vào sau khi dữ liệu trong hệ thống điều hành được cho là quá cũ

Không biến động thể hiện ở chỗ: dữ liệu được lưu trữ lâu dài trong kho dữ liệu Mặc dù có thêm dữ liệu mới nhập vào nhưng dữ liệu cũ trong kho vẫn không bị xoá, điều đó cho phép cung cấp thông tin về một khoảng thời gian dài, cung cấp đủ

số liệu cần thiết cho các mô hình nghiệp vụ phân tích, thống kê, dự báo

Một kho chứa dữ liệu bao hàm một khối lượng lớn dữ liệu lịch sử Dữ liệu được lưu trữ thành một loạt các bản sao, mỗi bản ghi phản ánh những giá trị của dữ liệu tại một thời điểm nhất định thể hiện một khung nhìn của một vùng chuyên đề trong một giai đoạn Do vậy cho phép khôi phục lại lịch sử và so sánh một cách chính xác các giai đoạn khác nhau Yếu tố thời gian đóng vai trò như một phần của khoá để bảo đảm tính đơn nhất của mỗi hàng và cung cấp đặc trưng về thời gian cho dữ liệu

Trang 10

1.2.5 Dữ liệu tổng hợp và chi tiết

Dữ liệu chi tiết là thông tin mức thấp nhất được lưu trữ trong kho dữ liệu Dữ liệu tác nghiệp là thông tin mức thấp nhất của tổ chức, doanh nghiệp Dữ liệu tác nghiệp thuần tuý không được lưu trữ trong kho dữ liệu

Dữ liệu tổng hợp là dữ liệu được gộp lại qua nhiều giai đoạn khác nhau Các dữ liệu tổng hợp mang thông tin tổng hợp ở mức cao

1.3 Kho dữ liệu và hệ xử lý giao dịch trực tuyến

Dữ liệu phát sinh từ các hoạt động hàng ngày được thu thập, xử lý để phục vụ công việc nghiệp vụ cụ thể của một tổ chức thường được gọi là dữ liệu tác nghiệp

và hoạt động thu thập xử lý loại dữ liệu này được gọi là xử lý giao dịch trực tuyến (Online Transaction Processing - OLTP)

Các hệ thống OLTP có các đặc điểm sau:

- Trợ giúp nhiều người sử dụng đồng thời trong việc thêm và sửa đổi dữ liệu

- Diễn tả trạng thái thay đổi bắt buộc của tổ chức nhưng không lưu lại lịch sử

- Chứa đựng những số lượng lớn các dữ liệu, bao gồm dữ liệu tổng quát để kiểm soát sự thực hiện

- Được điều chỉnh để đáp ứng nhanh tới sự thực hiện tích cực

- Cung cấp cơ sở hạ tầng công nghệ để trợ giúp các thao tác thường ngày của một tổ chức

Chính từ những đặc điểm này, nếu chúng ta sử dụng CSDL xử lý giao dịch trực tuyến cho phân tích trực tuyến thì thường gặp những khó khăn sau:

- Các yêu cầu phân tích, tổng kết những khối lượng lớn dữ liệu, ảnh hưởng tới khả năng của hệ thống

- Sự thực hiện của hệ thống khi đáp ứng những yêu cầu phân tích phức tạp có thể chậm hoặc không ổn định, cung cấp sự hỗ trợ không đầy đủ cho những người sử dụng trong phân tích trực tuyến

- Sự thay đổi dữ liệu thường xuyên gây trở ngại cho tính tin cậy của thông tin phân tích

- An ninh trở nên phức tạp hơn khi sự phân tích trực tuyến được kết hợp với xử

lý giao dịch trực tuyến

Trang 11

1.3.2 Sự khác nhau giữa kho dữ liệu và OLTP

Kho dữ liệu và hệ OLTP xây dựng phục vụ cho nhu cầu khác nhau Sự khác nhau

cơ bản giữa hai hệ thống này là dạng chuẩn của dữ liệu, kho dữ liệu thường không

sử dụng dạng chuẩn 3NF, còn trong các hệ thống OLTP thường sử dụng chuẩn 3NF Sau đây là sự khác nhau tiêu biểu giữa kho dữ liệu và các hệ thống OLTP [9]:

Công

việc

thực

hiện

Kho dữ liệu được thiết kế để phù

hợp với các truy vấn đặc biệt

Người dùng không cần quan tâm

đến khối lượng công việc thực hiện

của kho như thế nào, vì vậy kho dữ

liệu phải được tối ưu cho các khả

năng thao tác truy vấn đa dạng và

phong phú

Các hệ thống OLTP chỉ hỗ trợ cho các thao tác sử dụng đã được định nghĩa trước Các ứng dụng có thể được thiết

kế chỉ hỗ trợ các thao tác đó

Sửa đổi

dữ liệu

Kho dữ liệu được cập nhật định kỳ,

thường xuyên qua các công cụ

chuyển đổi sử dụng các kỹ thuật

sửa đổi trên dữ liệu lớn, dữ liệu

gộp Người sử dụng cuối không

trực tiếp cập nhật dữ liệu

Trong các hệ thống OLTP, người sử dụng cuối thường đưa ra các thông báo sửa đổi dữ liệu cá nhân của mình trong CSDL.Cơ sở dữ liệu OLTP luôn được cập nhật, phản ánh trạng thái hiện tại của mỗi giao dịch nghiệp vụ

Thiết

kế lược

đồ

Các kho dữ liệu thường được thiết

kế phi chuẩn hoặc các lược đồ cục

bộ được phi chuẩn nhằm để tối ưu

tốc độ thực hiện truy vấn dữ liệu

Các hệ thống OLTP thường sử dụng lược đồ chuẩn hoá cho toàn bộ hệ thống để tối ưu thực hiện các công việc cập nhật hàng ngày và đảm bảo tính kiên định của dữ liệu

Thao

tác tiêu

biểu

Một truy vấn tiêu biểu trong kho dữ

liệu quét qua hàng ngàn hoặc hàng

triệu bản ghi dữ liệu

Một thao tác OLTP chỉ truy nhập đến một nhóm ít các bản ghi dữ liệu

Dữ liệu

lịch sử

Các kho dữ liệu thường lưu dữ liệu

nhiều tháng, năm phục vụ cho việc

phân tích số liệu lịch sử

Các hệ rhống OLTP thuờng chỉ lưu dữ liệu hiện hành của vài tuần, tháng, năm phục vụ cho xử lý giao dịch hiện tại

Trang 12

2 Kiến trúc và các thành phần cấu thành kho dữ liệu

2.1 Kiến trúc kho dữ liệu

Các kho dữ liệu và các kiến trúc kho không phải luôn luôn là giống nhau mà phụ thuộc vào hoàn cảnh cụ thể của tổ chức, doanh nghiệp Thông thường có ba dạng kiến trúc cơ bản sau của kho dữ liệu [9]:

Kiến trúc đơn giản nhất của một kho dữ liệu là người sử dụng cuối truy nhập trực tiếp dữ liệu được dẫn xuất từ nhiều hệ thống nguồn thông qua kho dữ liệu Mô hình của kiến trúc này như sau:

Kho d÷ liÖu

Siªu d÷

liÖu

D÷ liÖu tæng hîp D÷ liÖu th«

Hình 1 Kiến trúc kho dữ liệu cơ bản

Cần phải làm sạch và xử lý dữ liệu tác nghiệp trước khi đưa chúng vào trong kho Công việc này có thể được thực hiện một cách tự động, hầu hết các kho dữ liệu dùng một vùng tạm thay thế Một vùng tạm sẽ làm đơn giản hoá việc xây dựng tổng hợp và quản lý kho dữ liệu Mô hình của kiến trúc này như sau:

Trang 13

Siêu dữ

liệu

Dữ liệu tổng hợp Dữ liệu thô

Siêu dữ liệu

Hỡnh 2 Kiến trỳc kho dữ liệu với vựng tạm

Cú thể tuỳ biến kiến trỳc kho dữ liệu thành cỏc nhúm khỏc nhau bờn trong của tổ chức bằng cỏch đƣa ra cỏc kho dữ liệu chuyờn đề cho cỏc vựng nghiệp vụ đặc biệt

Mụ hỡnh của kiến trỳc này nhƣ sau:

Siêu dữ

liệu

Dữ liệu tổng hợp Dữ liệu thô

Dữ liệu chủ đề

Dữ liệu chủ đề

Dữ liệu chủ đề

Các dữ liệu chủ đề

Siêu dữ liệu

Hỡnh 3 Kiến trỳc kho dữ liệu với vựng tạm và dữ liệu chuyờn đề

Trang 14

2.2 Các thành phần cấu thành kho dữ liệu

Bao gồm các hệ thống bên trong và bên ngoài của một tổ chức, doanh nghiệp Các hệ thống nằm trong được coi như là các hệ thống nguồn hoặc các hệ thống đã

có sẵn

Hệ thống đã có sẵn (Legacy System-LS): là hệ thống tác nghiệp hỗ trợ công tác

nghiệp vụ Hệ thống này đã từng được phát triển sử dụng các công nghệ có sẵn và vẫn phù hợp với các nhu cầu nghiệp vụ Các hệ thống này có thể được thực hiện trong nhiều năm và có lẽ không có hoặc có rất ít minh chứng bằng tài liệu

Dữ liệu ngoài: là dữ liệu không nằm trong các hệ thống tác nghiệp của một tổ

chức, là những dữ liệu do người sử dụng cuối yêu cầu để điền vào bức tranh tổng thể các nhu cầu nghiệp vụ của họ

Các LS được phát triển xung quanh các vùng nghiệp vụ phục vụ cho dự án Các ứng dụng được phát triển cùng với dữ liệu mà các dữ liệu này lại đáp ứng nhiều nhu cầu khác nhau Cùng là một dữ liệu nhưng lại có tên khác nhau, hoặc thuộc các hệ thống đo lường khác nhau Kết quả cuối cùng là các nguồn dữ liệu cần được đánh giá và các định nghĩa cần được đưa vào siêu dữ liệu để nhắm tới các vấn đề sau:

- Xác định các nguồn khác nhau, cấu trúc file khác nhau, các nền khác nhau

- Hiểu được dữ liệu nào có trong các hệ thống nguồn đang tồn tại, các định nghĩa nghiệp vụ của dữ liệu, và bất kỳ các quy tắc nghiệp vụ nào cho dữ liệu

- Phát hiện sự giao nhau về thông tin của các hệ thống khác nhau

- Quyết định dữ liệu tốt nhất trong các hệ thống Mỗi hệ thống cần được đánh giá để quyết định hệ thống nào có dữ liệu rõ ràng và chính xác hơn

Một phần quan trọng trong cài đặt là sử dụng những dữ liệu đã được tinh chế từ những hệ thống tác nghiệp và đưa chúng vào một khuôn dạng thích hợp cho các ứng dụng thông tin Những công cụ này thực hiện tất cả các công việc chuyển đổi, tóm tắt, những thay đổi quan trọng, những thay đổi về cấu trúc và những cô đọng cần thiết cho sự chuyển đổi dữ liệu riêng rẽ thành thông tin có thể được dùng trong những công cụ hỗ trợ quyết định Nó sản sinh ra những chương trình và kiểm soát

Trang 15

những câu lệnh cần thiết để chuyển dữ liệu vào kho dữ liệu từ nhiều hệ thống tác nghiệp khác nhau Nó cũng duy trì siêu dữ liệu Các chức năng chính bao gồm:

- Loại bỏ những dữ liệu không mong muốn từ những CSDL tác nghiệp

- Chuyển đổi thành những tên và những định nghĩa dữ liệu chung

- Tính toán các tổng và dữ liệu đã được chuyển hóa

- Thiết lập những mặc định cho các dữ liệu bị mất

- Làm cho những thay đổi về định nghĩa dữ liệu nguồn trở nên thích hợp

Những công cụ này có thể tiết kiệm được một cách đáng kể thời gian và sức lực Tuy nhiên nhiều công cụ có sẵn mới chỉ có ích cho việc tinh chế những dữ liệu đơn giản Do đó việc phát triển những thủ tục tinh chế có khả năng tuỳ biến là cần thiết Các công đoạn thực hiện bao gồm:

Trích lấy dữ liệu

Trích lấy dữ liệu là xử lý lấy các dữ liệu đã được xác định trước ra khỏi các hệ thống tác nghiệp và các nguồn dữ liệu ngoài Có các công cụ và các trình tiện ích phục vụ cho quá trình trích lấy dữ liệu Chẳng hạn, các trình tiện ích loại bỏ nhanh

để trích lấy dữ liệu, các phương tiện dễ dàng tái tạo lại CSDL, các công cụ tạo ra các đoạn mã ngôn ngữ thế hệ ba hoặc bốn để trích lấy dữ liệu

Các vấn đề xung quanh việc trích lấy dữ liệu bao gồm cơ cấu thời gian, trong đó

dữ liệu được trích lấy và hiệu quả của việc trích lấy dữ liệu đó

Với mọi phương thức trích chọn dữ liệu, siêu dữ liệu luôn đóng vai trò quan trọng trong quá trình xử lý Siêu dữ liệu mẫu bao gồm các phần: các định nghĩa của

hệ thống nguồn, các khuôn dạng vật lý, phương thức và bản liệt kê của sự trích lấy

dữ liệu Có thể dùng các công cụ hoặc tạo tài liệu bằng tay để thu được siêu dữ liệu

Tinh chế dữ liệu

Dữ liệu sau khi được trích lấy sẽ được tinh chế thông qua các công việc làm sạch, chuyển đổi, và tích hợp dữ liệu Các công cụ đó có thể thực hiện trên một tập các thông số đã được xác định trước, trên logic mờ hoặc các thuật toán may rủi Các thuật toán may rủi với tập luật mở rộng mô phỏng suy diễn của con người làm cho việc tiến hành nhanh hơn

Trước khi có thể chuyển đổi và tích hợp dữ liệu, nên thiết lập hệ thống đo lường

và chuẩn hoá các định nghĩa, ngữ nghĩa Mục đích của việc chuyển đổi và tích hợp

Trang 16

là chuyển dữ liệu thành thông tin và làm cho chúng dễ hiểu và dễ sử dụng hơn đối với người sử dụng cuối

Các định nghĩa của dữ liệu phải chính xác, đầy đủ, tin cậy và có giá trị Nếu dữ liệu đã được đưa vào kho dữ liệu không đúng thì sau đó phải tính tới việc xem lại quá khứ Việc này liên quan nhiều tới việc tổ chức Các câu hỏi cần đặt ra trước khi

có thay đổi cái cũ là thay đổi có hợp pháp và đúng quy cách không? Doanh nghiệp,

tổ chức có thể đáp ứng được những thay đổi này không? Thay đổi có phải là lâu dài không? Nếu câu trả lời là có cho cả 3 câu hỏi trên thì thay đổi đó là có thể thực hiện được

Các CSDL đa chiều, dựa trên công nghệ CSDL phổ biến hoặc được cài đặt sử dụng trên nền RDBMS quen thuộc đã xuất hiện trên thị trường CSDL đa chiều được thiết kế để khắc phục những giới hạn tồn tại trong kho dữ liệu gây ra do bản chất của mô hình dữ liệu quan hệ Cách tiếp cận này gắn liền với các công cụ OLAP như một thành phần đối tác của các kho dữ liệu đa chiều Các công cụ này gộp lại thành nhóm công cụ truy vấn, tạo báo cáo, phân tích và đào xới dữ liệu

Kho dữ liệu chuyên đề là CSDL có những đặc điểm giống với kho dữ liệu nhưng với quy mô nhỏ hơn và lưu trữ dữ liệu về một lĩnh vực, một chuyên ngành Các kho

dữ liệu chuyên đề có thể được hình thành từ một tập con dữ liệu của kho dữ liệu

Trang 17

hoặc cũng có thể được xây dựng độc lập và sau khi xây dựng xong, các kho dữ liệu chuyên đề có thể được kết nối tích hợp lại với nhau tạo thành kho dữ liệu

Kho dữ liệu chuyên đề là một kho dữ liệu thứ cấp gồm các dữ liệu tích hợp của kho dữ liệu Kho dữ liệu chuyên đề được hướng tới một phần của dữ liệu thường được gọi là một vùng chuyên đề được tạo ra dành cho một nhóm người sử dụng Dữ liệu trong kho dữ liệu chuyên đề cho thông tin về một chuyên đề xác định, không phải về toàn bộ các hoạt động nghiệp vụ đang diễn ra trong một tổ chức Thể hiện thường xuyên nhất của kho dữ liệu chuyên đề là một kho dữ liệu riêng rẽ theo phương diện vật lý, thường được lưu trữ trên một máy chủ riêng, trong một mạng cục bộ phục vụ cho một nhóm người nhất định Đôi khi kho dữ liệu chuyên đề kết hợp với công nghệ OLAP tạo ra các quan hệ theo dạng hình sao đặc biệt hoặc những siêu khối dữ liệu cho việc phân tích của nhóm người cùng có mối quan tâm trên một phạm vi dữ liệu Có thể chia làm hai loại kho dữ liệu chuyên đề:

Kho dữ liệu chuyên đề phụ thuộc: chứa những dữ liệu được lấy từ kho dữ liệu

và những dữ liệu này sẽ được trích lọc và tinh chế, tích hợp lại ở mức cao hơn để phục vụ một chuyên đề nhất định

Kho dữ liệu chuyên đề độc lập: không giống như kho dữ liệu chuyên đề phụ

thuộc, kho dữ liệu chuyên đề loại này được xây dựng trước kho dữ liệu và dữ liệu được lấy từ các nguồn dữ liệu tác nghiệp Phương pháp này đơn giản hơn và chi phí thấp hơn nhưng đổi lại có những điểm yếu Mỗi kho dữ liệu chuyên đề độc lập có cách tích hợp riêng, do đó dữ liệu từ nhiều kho dữ liệu chuyên đề khó đồng nhất với nhau Kho dữ liệu chuyên đề thể hiện hai vấn đề: thứ nhất là tính ổn định trong các tình huống từ một kho dữ liệu chuyên đề nhỏ ban đầu lớn lên nhanh chóng theo nhiều chiều và thứ hai là sự tích hợp dữ liệu Khi thiết kế kho dữ liệu chuyên đề phải chú ý tới tính ổn định của hệ thống, sự đồng nhất của dữ liệu và vấn đề về khả năng quản lý

Mục đích chính của kho dữ liệu là cung cấp thông tin hỗ trợ cho các cán bộ lãnh đạo để tạo ra những quyết định chiến lược Những người sử dụng này liên hệ với

Trang 18

kho dữ liệu thông qua việc sử dụng công cụ đầu cuối Với các mục đích khác nhau công cụ được chia ra làm năm loại chính sau:

- Các công cụ tạo báo cáo và truy vấn dữ liệu

- Các công cụ phát triển ứng dụng

- Các công cụ về hệ thống thông tin điều hành (EIS )

- Các công cụ xử lí phân tích trực tuyến

- Các công cụ khai phá dữ liệu (Data mining)

Khi nói về siêu dữ liệu là nói về sự hiểu biết về hệ thống, về nghiệp vụ Nói về vùng chứa siêu dữ liệu là nói về các bảng CSDL vật lý được sử dụng để lưu trữ siêu

dữ liệu mà sẽ được phân phát tới các người sử dụng kỹ thuật và nghiệp vụ của nó (Một thuật ngữ khác cần chú ý là Từ điển dữ liệu - từ điển dữ liệu tập trung hơn về

dữ liệu, vùng chứa từ điển dữ liệu cung cấp các thông tin về dữ liệu như: các định nghĩa, các mối quan hệ, nguồn gốc, phạm vi, cách dùng, và định dạng dữ liệu Mục đích của từ điển dữ liệu là hỗ trợ người quản trị CSDL trong lập kế hoạch, điều khiển và đánh giá việc tập hợp, lưu trữ và sử dụng dữ liệu) Vùng chứa siêu dữ liệu chứa hai kiểu của siêu dữ liệu:

- Siêu dữ liệu kỹ thuật cung cấp cho người phát triển và nhân viên kỹ thuật các thông tin về hỗ trợ quyết định và các hệ thống tác nghiệp của họ mà cần phải bảo trì và sự tăng trưởng của các hệ thống đó theo thời gian

- Siêu dữ liệu nghiệp vụ hỗ trợ các cán bộ nghiệp vụ sử dụng các hệ thống hỗ trợ quyết định và nghiệp vụ Siêu dữ liệu nghiệp vụ cung cấp các cho các nhà

Trang 19

phân tích hỗ trợ quyết định con đường truy xuất thông tin trong kho dữ liệu của các hệ thống hỗ trợ quyết định

Sử dụng siêu dữ liệu trong kho dữ liệu ta có thể trả lời các câu hỏi:

- Có thể tìm thấy dữ liệu ở đâu?

- Tồn tại những loại thông tin, dữ liệu nào?

- Dữ liệu thuộc loại nào, có dạng ra sao?

- Trong các CSDL khác nhau thì dữ liệu có liên quan với nhau như thế nào?

- Dữ liệu được lấy từ đâu và nó thuộc ai quản lý?

Trong môi trường CSDL phức tạp, một siêu dữ liệu phù hợp là không thể thiếu bởi nó định ra cấu trúc CSDL tác nghiệp và cả cấu trúc kho dữ liệu Chính siêu dữ liệu là cách để người sử dụng và các ứng dụng có thể tiếp cận được với những thông tin được lưu trữ trong kho dữ liệu Siêu dữ liệu cần được thu thập khi kho dữ liệu được thiết kế và xây dựng Siêu dữ liệu phải có sẵn cho tất cả những người sử dụng kho dữ liệu để hướng dẫn họ dùng kho dữ liệu

Hiện nay có hai mô hình siêu dữ liệu chuẩn cho xây dựng siêu dữ liệu của DW là [10]: MDC (Meta Data Coalition) được phát triển bởi hãng Microsoft và OMG (Object Management Group) được phát triển bởi các hãng Oracle, IBM, Hypersion, Unisys và NRC Mục tiêu chính của mô hình là: chia sẻ siêu dữ liệu công cụ và khả năng tương tác giữa các công cụ Giống các mô hình chuẩn khác, mô hình siêu dữ liệu chuẩn tốt là được xây dựng phát triển và hỗ trợ của nhiều hãng cung cấp phần mềm có uy tín, có tính mở để thao tác được với nhau và phải thoả mãn các điều kiện như: (1) Không phụ thuộc vào công nghệ; (2) Không phụ thuộc vào hãng cung cấp (nhiều hãng cùng xây dựng); (3) Nằm trong phạm vi hiện thực phát triển; (4) Được cài đặt sử dụng rộng rãi

Theo cách khai thác truyền thống: Kho dữ liệu được sử dụng để khai thác các

thông tin bằng các công cụ truy vấn và báo cáo Tuy nhiên, nhờ có việc chiết xuất, tổng hợp và chuyển đổi từ các dữ liệu thô sang dạng các dữ liệu chất lượng cao và

có tính ổn định, kho dữ liệu đã giúp cho việc nâng cao các kỹ thuật biểu diễn thông tin truyền thống Bằng cách tạo ra một tầng ẩn giữa người dùng và CSDL, các dữ

Trang 20

liệu đầu vào của các kỹ thuật này được đặt vào một nguồn duy nhất Việc hợp nhất này loại bỏ được rất nhiều lỗi sinh ra do việc phải thu thập và biểu diễn thông tin từ rất nhiều nguồn khác nhau cũng như giảm bớt được sự chậm trễ do phải lấy các dữ liệu bị phân đoạn trong các CSDL khác nhau, tránh cho người dùng khỏi những câu lệnh SQL phức tạp Tuy nhiên, đây mới chỉ là cách khai thác với kỹ thuật cao để đưa ra các dữ liệu tinh và chính xác hơn chứ chưa đưa ra được dữ liệu “tri thức”

Xử lý phân tích trực tuyến: Kho dữ liệu được sử dụng để hỗ trợ cho phân tích

trực tuyến Trong khi ngôn ngữ truy vấn chuẩn SQL và các công cụ làm báo cáo truyền thống chỉ có thể miêu tả những gì có trong CSDL thì phân tích trực tuyến có khả năng phân tích dữ liệu, xác định xem giả thuyết đúng hay sai Tuy nhiên, phân tích trực tuyến lại không có khả năng đưa ra được các giả thuyết Hơn nữa, kích thước quá lớn và tính chất phức tạp của kho dữ liệu làm cho rất khó có thể sử dụng cho những mục đích như đưa ra các giả thuyết từ các thông tin mà chương trình ứng dụng cung cấp

Khai phá dữ liệu: Trước đây, kỹ thuật học máy thường được sử dụng để tìm ra

những giả thuyết từ các thông tin dữ liệu thu thập được Tuy nhiên, thực nghiệm cho thấy chúng thể hiện khả năng rất kém khi áp dụng với các tập dữ liệu lớn trong kho dữ liệu này Phương pháp thống kê tuy ra đời đã lâu nhưng không có gì cải tiến

để phù hợp với sự phát triển của dữ liệu Đây chính là lý do tại sao một khối lượng lớn dữ liệu vẫn chưa được khai thác và thậm chí được lưu chủ yếu trong các kho dữ liệu không trực tuyến Điều này đã tạo nên một lỗ hổng lớn trong việc hỗ trợ phân tích và tìm hiểu dữ liệu, tạo ra khoảng cách giữa việc tạo ra dữ liệu và việc khai thác

dữ liệu đó Trong khi đó, càng ngày người ta càng nhận thấy rằng nếu được phân tích thông minh thì dữ liệu sẽ là một nguồn tài nguyên quí giá trong cạnh tranh trên thương trường Để đáp lại những thách thức trong thực tiễn cũng như trong nghiên cứu đã đưa ra một phương pháp mới đáp ứng cả nhu cầu trong khoa học cũng như trong hoạt động thực tiễn, đó chính là công nghệ khai phá dữ liệu

Xây dựng kho dữ liệu vừa là một tiến trình công việc và cũng đồng thời là một kiến trúc nhằm thực hiện các công việc như: lựa chọn, chuyển đổi, lưu chuyển, bảo

Trang 21

toàn tính toàn vẹn, tích hợp, làm sạch dữ liệu, đưa dữ liệu từ nhiều nguồn dữ liệu tác nghiệp vào hệ thống quản lý cơ sở dữ liệu để phục vụ các quá trình ra quyết định của doanh nghiêp Kiến trúc của các kho dữ liệu cung cấp nhiều khả năng mềm dẻo, nhiều khả năng mở rộng để phục vụ cho các ứng dụng hiện có của tổ chức, doanh nghiệp cũng như cho các ứng dụng trong tương lai

Quá trình xây dựng kho dữ liệu có thể bắt đầu bằng việc xây dựng các kho dữ liệu chuyên đề nghĩa là sau khi xây dựng xong các kho dữ liệu chuyên đề tiến hành kết nối, tích hợp chúng với nhau tạo thành kho dữ liệu Theo cách này, kho dữ liệu chuyên đề chính là mô hình, là bước đầu tiên của quá trình xây dựng kho dữ liệu Ngược lại, cách thứ hai, ta có thể xây dựng kho dữ liệu trước sau đó tạo ra các kho

dữ liệu chuyên đề Mỗi phương pháp đều có thuận lợi và khó khăn của nó, tuỳ điều kiện cụ thể ta lựa chọn hay kết hợp các phương pháp cho phù hợp Phương pháp phân tích, thiết kế và quá trình xây dựng kho dữ liệu có thể được chia thành các bước sau:

- Bước 1: Xác định chiến lược và xây dựng kế hoạch

- Bước 2: Khảo sát, đánh giá hiện trạng hệ thống

- Bước 3: Phân tích, thiết kế hệ thống

- Bước 4: Triển khai xây dựng hệ thống

- Bước 5: Khai thác và duy trì hệ thống

4.1 Thiết kế logic cho kho dữ liệu

Thiết kế logic là thiết kế ở mức khái niệm và trừu tượng, ở mức này ta chỉ định nghĩa ra các kiểu thông tin mà ta cần, không chỉ ra xử lý với việc thực hiện vật lý chi tiết Quá trình thiết kế logic liên quan đến việc định ra phạm vi dữ liệu bên trong mối quan hệ Một kỹ thuật có thể được sử dụng để mô hình hoá thông tin, yêu cầu ở mức logic là sử dụng mô hình quan hệ thực thể Mô hình hoá quan hệ thực thể liên quan đến việc định ra các thực thể, các thuộc tính của thực thể, và mối quan hệ giữa các thực thể Trong thiết kế logic cho kho dữ liệu sẽ chỉ ra tập các thực thể và các thuộc tính tương ứng với các bảng sự kiện và các bảng chiều Mối quan hệ giữa các đối tượng CSDL trong kho được thể hiện trên các lược đồ Một lược đồ là tập hợp các đối tượng của CSDL, gồm: các bảng, khung nhìn, chỉ số Phần này của luận văn trình bầy các lược đồ CSDL của kho [2,9]

Trang 22

4.1.1 Lược đồ hình sao

Lược đồ hình sao được Dr Ralph Kimball đưa ra đầu tiên, đây là một lựa chọn thiết kế CSDL cho kho dữ liệu Lược đồ hình sao là lược đồ kho dữ liệu đơn giản nhất Trong lược đồ hình sao, dữ liệu được xác định và phân loại theo 2 kiểu: bảng

sự kiện - Fact (đối tượng trung tâm) và bảng chiều - Dimension (các bảng liên kết) Trong lược đồ hình sao chỉ có một bảng liên quan trực tiếp tới hầu hết các bảng còn lại đó là bảng sự kiện và là bảng chứa yếu tố cốt lõi cần được phân tích Nó được gọi là lược đồ hình sao bởi vì các bảng sự kiện nằm ở trung tâm của mô hình và được bao quanh bởi các bảng chiều liên quan, rất giống với điểm của một ngôi sao Các sự kiện là các đại lượng số của công việc Các chiều là các bộ lọc hoặc các ràng buộc của những sự kiện này Chẳng hạn thông tin về khách hàng như tên, địa chỉ là một bảng chiều, trong khi đó thông tin bán hàng cho khách hàng là một bảng sự kiện

B¶ng sù kiÖn (Fact)

B¶ng chiÒu (Dimension)

B¶ng chiÒu (Dimension)

B¶ng chiÒu (Dimension)

B¶ng chiÒu (Dimension)

B¶ng chiÒu (Dimension)

Hình 4 Lược đồ hình sao của cơ sở dữ liệu

Với lược đồ hình sao, người thiết kế có thể dễ dàng mô phỏng những chức năng của CSDL đa chiều Sự phi chuẩn hóa có thể coi là sự tiền kết nối các bảng để cho các ứng dụng không phải thực hiện công việc kết nối, làm giảm thời gian thực hiện Lược đồ hình sao được thiết kế là để khắc phục những hạn chế của mô hình quan

hệ hai chiều Với CSDL được thiết kế theo lược đồ hình sao, những truy vấn với những câu hỏi phức tạp liên quan tới nhiều bảng và số liệu tổng hợp trở nên đơn giản hơn và số lượng công việc cần thực hiện để đưa được ra câu trả lời là ít nhất so

Trang 23

với một mô hình quan hệ chuẩn Lược đồ hình sao cải thiện đáng kể thời gian truy vấn và cho phép thực hiện một số tính năng đa chiều Lược đồ này rất trực quan, dễ

sử dụng, thể hiện khung nhìn đa chiều của dữ liệu dùng ngữ nghĩa của CSDL quan

hệ Khóa của bảng sự kiện được tạo bởi những khóa của các bảng chứa thông tin theo từng chiều

Bảng sự kiện có chứa khóa của các bảng chiều, có thể là với tên khác đi để đảm bảo tính duy nhất của mỗi hàng Các bảng chiều thường có định danh duy nhất và chứa đựng những thông tin về chiều của bảng đó Vì bảng sự kiện được tổng hợp từ trước và được kết hợp theo nhiều chiều nên xu hướng có rất nhiều bản ghi và tăng trưởng một cách nhanh chóng trong khi đó các bảng chiều có ít bản ghi và tốc độ tăng trưởng rất nhỏ Bảng chiều chứa đựng các thuộc tính có thể được sử dụng như các tiêu chí tìm kiếm và thường có kích thước nhỏ hơn nhiều, rất quen thuộc với người sử dụng từ trước Khoá của nó không là khoá ghép như bảng sự kiện Nếu một bảng chiều bắt đầu có sự tương đồng với bảng sự kiện thì có thể nó cần được chia ra thành các bảng chiều Nếu một bảng chiều được chia ra thành chiều chính và chiều thứ hai thì cấu trúc thu được của kết quả được coi là một lược đồ tuyết rơi hoặc cấu trúc lược đồ hình sao mở rộng

Một lược đồ hình sao đơn giản chỉ gồm một bảng sự kiện và một vài bảng chiều Một lược đồ hình sao phức tạp bao gồm hàng trăm bảng sự kiện và bảng chiều Một vài kỹ thuật để cải thiện công suất của các truy vấn trong lược đồ hình sao bao gồm:

- Xác định sự kết hợp các bảng sự kiện đang tồn tại hay tạo ra một sự kết hợp mới các bảng sự kiện

- Phân chia bảng sự kiện đến mức hầu hết truy vấn chỉ truy nhập tới phần đó

- Tạo ra các bảng sự kiện riêng rẽ

- Tạo tệp chỉ số duy nhất hoặc kĩ thuật khác để cải thiện năng suất kết hợp Lưu ý là kể cả bảng sự kiện và các bảng chiều đều không bắt buộc ở dạng chuẩn như đối với phương pháp thiết kế truyền thống tức là có sự dư thừa dữ liệu Với loại lược đồ này cho phép lưu trữ dư thừa dữ liệu đổi lại khả năng truy nhập nhanh hơn phù hợp với những câu hỏi phân tích nhiều chiều, phức tạp Về bản chất, bảng sự kiện thuộc dạng chuẩn một, với mức độ dư thừa dữ liệu rất lớn

Trang 24

Có thể nói lược đồ hình sao là một CSDL chỉ đọc, việc cập nhật dữ liệu là rất khó, nếu không muốn nói là không thể được Một vài bảng chiều chứa dữ liệu có thể được thêm vào bằng các truy vấn có kết nối, vài bảng khác lại không chứa dữ liệu gì ngoài việc phục vụ đánh chỉ số cho dữ liệu

4.1.2 Lược đồ hình tuyết rơi

Lược đồ hình tuyết rơi (snowflake) là một sự mở rộng của lược đồ hình sao tại

đó mỗi cánh sao không phải là một bảng chiều mà là lớp bảng chiều Trong dạng lược đồ này, mỗi bảng theo chiều của lược đồ hình sao được chuẩn hóa hơn

B¶ng sù kiÖn (Fact)

Líp c¸c b¶ng chiÒu (Dimension)

Líp c¸c b¶ng chiÒu (Dimension)

Líp c¸c

b¶ng chiÒu

(Dimension)

Líp c¸c b¶ng chiÒu (Dimension)

Líp c¸c b¶ng chiÒu (Dimension)

B¶ng chiÒu (Dimension)

B¶ng chiÒu (Dimension) B¶ng chiÒu

(Dimension)

B¶ng chiÒu

(Dimension)

B¶ng chiÒu (Dimension)

B¶ng chiÒu (Dimension)

B¶ng chiÒu (Dimension)

B¶ng chiÒu (Dimension)

B¶ng chiÒu (Dimension)

B¶ng chiÒu (Dimension) B¶ng chiÒu

(Dimension)

B¶ng chiÒu (Dimension)

B¶ng chiÒu (Dimension) B¶ng chiÒu

(Dimension)

B¶ng chiÒu

(Dimension)

B¶ng chiÒu (Dimension)

B¶ng chiÒu (Dimension) B¶ng chiÒu

(Dimension)

B¶ng chiÒu (Dimension)

B¶ng chiÒu (Dimension)

Hình 5 Lược đồ tuyết rơi của CSDL

Lược đồ hình tuyết rơi cải thiện năng suất truy vấn, tối thiểu không gian đĩa cần thiết để lưu trữ dữ liệu và cải thiện năng suất nhờ việc chỉ phải kết hợp những bảng

Trang 25

có kích thước nhỏ hơn thay vì phải kết hợp những bảng có kích thước lớn lại không chuẩn hóa Nó cũng làm tăng tính linh hoạt của các ứng dụng bởi sự chuẩn hóa và ít mang bản chất theo chiều hơn Nó làm tăng số lượng các bảng và làm tăng tính phức tạp của một vài truy vấn cần có sự tham chiếu tới nhiều bảng Một vài công cụ

đã che giấu người sử dụng cuối lược đồ CSDL vật lý và cho phép làm việc ở mức khái niệm Những công cụ này đã ánh xạ những truy vấn của người sử dụng tới sơ

đồ vật lý Cần một hệ quản trị CSDL để thực hiện công việc này lần đầu tiên khi công cụ cài đặt

4.1.3 Lược đồ kết hợp

Là kết hợp giữa lược đồ hình sao dựa trên bảng sự kiện và những bảng chiều không chuẩn hóa theo các chuẩn 1NF, 2NF, 3NF và lược đồ hình tuyết rơi trong đó tất cả các bảng chiều đều đã được chuẩn hóa Trong lược đồ loại này chỉ những bảng chiều lớn là được chuẩn hóa còn những bảng khác chứa một khối lượng lớn các cột dữ liệu chưa được chuẩn hóa

Một vài CSDL và các công cụ truy vấn của người sử dụng cuối nhất là các công

cụ OLAP đòi hỏi mô hình dữ liệu phải là lược đồ hình sao bởi vì nó là một mô hình

dữ liệu quan hệ nhưng lại được thiết kế để hỗ trợ mô hình dữ liệu đa chiều là điểm cốt lõi của OLAP Các CSDL và công cụ này được điều chỉnh cho phù hợp để thực hiện được các yêu cầu truy vấn đối với mô hình này

4.2 Thiết kế vật lý kho dữ liệu

Thiết kế vật lý là tập hợp các dữ liệu trong suốt giai đoạn thiết kế logic vào một

mô tả của cấu trúc CSDL vật lý Thiết kế vật lý được định hướng bởi các mặt tối ưu thực hiện truy vấn và việc bảo trì CSDL Do các kho dữ liệu thường chứa các bảng

dữ liệu rất lớn (nhất là các bảng sự kiện) và các yêu cầu kỹ thuật để tối ưu tốc độ truy vấn và bảo trì hệ thống, cho nên việc thiết kế phải quan tâm đến việc tạo một số thành phần sau trong thiết kế vật lý kho dữ liệu

Đây là hai phương pháp quan trọng cho việc giải quyết vấn đề tối ưu tốc độ của thiết kế CSDL vật lý Việc thực hiện song song (còn gọi là cơ chế song song) làm giảm rất nhiều thời gian đáp ứng cho các thao tác tập trung vào dữ liệu trong CSDL

Trang 26

lớn như kho dữ liệu Phân hoạch dữ liệu là phân chia dữ liệu của các bảng, các chỉ

số thành các đoạn con Có bốn phương pháp phân hoạch dữ liệu thường hay sử dụng là[9]: Phân hoạch phạm vi, phân hoạch băm, phân hoạch danh sách và phân hoạch hỗn hợp (kết hợp của các phương pháp trên) Việc áp dụng phương pháp phân hoạch nào vào ứng dụng tuỳ thuộc vào yêu cầu cụ thể Ví dụ phương pháp phân hoạch theo phạm vi thuận lợi cho dữ liệu theo dõi lịch sử

Các truy vấn trong kho dữ liệu thường phức tạp, liên quan đến kết nối của nhiều bảng quan hệ Do đó việc xây dựng các khung nhìn và chỉ số vật lý là hết sức quan trọng để tăng tốc độ truy vấn của người sử dụng, tăng tốc độ của các truy vấn thực hiện bảo trì kho Phần này của luận văn sẽ trình bầy thuật toán A* (thuật toán dùng

để tìm kiếm sử dụng kỹ thuật tìm kiếm tốt nhất đầu tiên) để chọn ra tập các khung nhìn và chỉ số hỗ trợ để giảm thiểu thời gian truy vấn dữ liệu trong kho[12]

Giả sử ta có một hệ thống kho dữ liệu được mô hình như sau:

Hình 6 Kho dữ liệu với khung nhìn chính

dữ liệu (bảng quan hệ) trong kho, gọi sự thay đổi đó là thay đổi delta

Kho dữ liệu thường có khối lượng dữ liệu lớn, vì vậy để cải thiện tốc độ truy vấn viết theo thuật ngữ của khung nhìn, các khung nhìn thường được cụ thể hoá bằng cách lưu kết quả của khung nhìn trong kho, các khung nhìn không được cụ thể hoá

Trang 27

gọi là các khung nhìn ảo (không lưu kết quả trong kho) Việc truy vấn dữ liệu trên các khung nhìn đã được cụ thể hoá, nhanh hơn rất nhiều các truy vấn trên các khung nhìn ảo do khung nhìn được cụ thể hoá đã được tính toán trước Các dữ liệu trong các khung nhìn đã được cụ thể hoá sẽ trở lên không nhất quán khi dữ liệu cơ sở trong kho thay đổi Để dữ liệu trong các khung nhìn đã cụ thể hoá được nhất quán với dữ liệu cơ sở, cần phải tính toán lại dữ liệu (thực hiện công việc bảo trì) trong các khung nhìn đó Để việc bảo trì thuận lợi, tránh sự va chạm với người sử dụng cuối khi truy vấn các khung nhìn trong kho, có thể thực hiện việc bảo trì khung nhìn vào các thời gian không có hoặc có rất ít người sử dụng truy vấn đến, thường thực hiện bảo trì về ban đêm là hiệu quả nhất

Một vấn đề quan trọng cho việc tạo kho dữ liệu vật lý là đưa ra một tập khung nhìn cần được cụ thể hoá phục vụ cho việc bảo trì kho theo sự thay đổi delta Có thể tăng thêm các khung nhìn và các chỉ số trong kho để tối thiểu thời gian cho việc bảo trì các khung nhìn Theo mô hình kho ở trên ta có khung nhìn RST được cụ thể hoá,

bổ sung thêm khung nhìn ST Khi đó tổng chi phí bảo trì RST và ST có thể nhỏ hơn chi phí bảo trì RST (khi không có ST) Ví dụ khi có một lệnh thêm dữ liệu vào R, nhưng không làm thay đổi S,T Để thêm dữ liệu vào R trên RST, phải ước lượng việc bảo trì biểu thức mà tính toán các bộ để thêm dữ liệu vào RST do việc thêm dữ

bảo trì RST, ST được gọi là khung nhìn hỗ trợ Thêm nữa các khung nhìn hỗ trợ có thể có lợi cho việc cụ thể hoá các chỉ số, các chỉ số có thể xây dựng trên các quan

hệ, khung nhìn chính, khung nhìn hỗ trợ Vấn đề quan tâm ở đây là việc lựa chọn các khung nhìn hỗ trợ và các chỉ số (View index Selection - VIS) được cụ thể hoá

để tổng phí cho việc bảo trì kho nhỏ nhất

Vấn đề tối ưu

Một thuật toán tối ưu phải tối thiểu tổng chi phí cho việc bảo trì kho Tổng chi phí tối thiểu trong trường hợp này gồm các chi phí: (1) áp dụng các thay đổi delta tới các quan hệ cơ sở của kho; (2) tối thiểu biểu thức tính bảo trì các khung nhìn được cụ thể hóa; (3) giảm thiểu các chỉ số bị ảnh hưởng của việc sửa đổi Ta sẽ đưa

ra một thuật toán vét cạn, tuy thuật toán vét cạn không có ý nghĩa thực tế cho việc

Trang 28

tìm kiếm trong một vấn đề khối lƣợng lớn, nhƣng mục đích để minh họa tính phức tạp của vấn đề và đƣa ra một so sánh cơ bản với các giải pháp khác Thuật toán vét cạn đƣa ra nhƣ sau:

For mối tập con của các khung nhìn hỗ trợ

for mỗi tập con của các chỉ số

{Tính tổng chi phí và lưu vết các khung nhìn và chỉ số hỗ trợ để đạt chi phí nhỏ nhất}

[1] Lựa chọn khung nhìn

khung nhìn chính đã sẵn sàng cho cụ thể hoá, nó không nằm trong tập các khung

nhau xuất hiện trong bản đồ truy vấn khung nhìn Để xem xét tất cả các tập con có

- Các thuộc tính có các tân từ kết nối (join) và chọn (select) trên đó

- Các thuộc tính khoá cho các quan hệ cơ sở trong kho, ở đó sự thay đổi tới quan hệ cơ sở bao gồm việc xoá và cập nhật

- Các thuộc tính trong mệnh đề gộp(Group by) và sắp xếp (Order by) của lệnh Select

Khi mỗi khung nhìn đƣợc cụ thể hoá, sẽ có các chỉ số ứng cử, I phải đƣợc tính toán lại ở mỗi vòng lặp bên trong Số phần tử trong I cho mỗi trạng thái khung nhìn riêng tỷ lệ với số khung nhìn đƣợc cụ thể hoá và quan hệ cơ sở của trạng thái đó

ƣớc lƣợng các tập con các chỉ số ứng cử có thể, số trạng thái chỉ số có thể ứng với

Trang 29

nhất cho các biểu thức bảo trì khung nhìn Do đó vấn đề VIS cho một khung nhìn

n

) (đánh giá thô) vấn đề tối ưu truy vấn trong trường hợp chung nhất Tối ưu truy vấn là vấn đề phức tạp do sự có mặt các khung nhìn được cụ thể hoá Ví dụ cho các quan hệ cơ sở và

Create V(R0, R1, S0, S1, T0, T1) As

Select * From R, S, T Where R.R1 = S.S1 and S.S0 = T.T0 and T.T1 <= 10

Hình sau có thể chỉ ra tất cả các nút mà có thể xuất hiện trong bản đồ truy vấn

chọn trên T

Hình 7 Bản đồ truy vấn

Dưới mỗi khung nhìn là tập các thao tác được sử dụng cho dẫn xuất ra khung

Mỗi bước kết quả trung gian có thể là khung nhìn được cụ thể hoá hoặc khung nhìn hỗ trợ Theo trên ta có tập các khung nhìn hỗ trợ ứng cử của C là {RS,ST‟,RT‟, T‟} Giả sử V là được cụ thể hoá ở kho dữ liệu, một tập con bất kỳ có thể của C có thể được cụ thể hoá là các khung nhìn hỗ trợ ở kho để tối thiểu tổng phí bảo trì Hơn nữa, các chỉ số trên V, các quan hệ cơ sở, các khung nhìn hỗ trợ cần phải được xem xét

Một đường dẫn cập nhật tương ứng với bản đồ truy vấn cụ thể cho ước lượng phí bảo trì khung nhìn Ví dụ công thức tính phí bảo trì cho một insert tới R trên V là

Trang 30

bẩy đường dẫn cập nhật có thể là: 1 - (R S) T‟; 2 - (R S) (ST‟)

Sự lựa chọn đường dẫn cập nhật có thể làm ảnh hưởng đến chỉ số được cụ thể hoá Nếu đường dẫn (1) được chọn, khi đó chỉ số có thể được xây dựng trên thuộc tính kết nối của T‟ để giúp cho tính toán phí bảo trì Nếu (2) được chọn, ST‟ là được

cụ thể hoá, một chỉ số có thể được xây dựng trên thuộc tính kết nối của ST‟

Sự thay đổi của các quan hệ cơ sở cần phải được chuyển tới tất cả khung nhìn chính và khung nhìn hỗ trợ được cụ thể hoá Khi chuyển sự thay đổi tới nhiều quan

hệ cơ sở trên nhiều khung nhìn được cụ thể hoá có nhiều cách cho tối ưu truy vấn

có thể được mô tả trong hình thức này Giả định rằng các khung nhìn không có sự

tự kết nối đến chính nó và tất cả các quan hệ cơ sở đều có khoá để đơn giản hoá mô hình chi phí Giả định rằng các chỉ số được xây dựng được lưu trữ theo kiểu cây cân

dựng trên các quan hệ và các khung nhìn được lưu ở dạng vun đống (heap) Xét hai toán tử kết nối vật lý thông thường nhất là: kết nối các khối lồng nhau và kết nối chỉ

số

Giả sử rằng các quan hệ cơ sở ở nguồn được lặp lại ở kho và các điều kiện lựa chọn luôn ở dạng đẩy xuống (pushed down) trên quan hệ cơ sở Khi xét cấu trúc dữ liệu để cụ thể hoá, phải hạn chế để cấu trúc dữ đó có thể duy trì qua các lệnh cập nhật SQL Xét các khung nhìn hỗ trợ hoặc các chỉ số được cụ thể hoá Các chỉ số trên các thuộc tính trong các quan hệ cơ sở, khung nhìn chính và các khung nhìn hỗ trợ đó là các khoá hoặc liên quan đến các điều kiện chọn hoặc điều kiện kết nối

Trang 31

Một khung nhìn V hỗ trợ đã đƣợc cụ thể hoá có thể là kết quả của các điều kiện chọn đƣợc áp dụng tới một quan hệ cơ sở, hoặc nhiều kết nối quan hệ cơ sở, mỗi điều kiện chọn đƣợc đẩy xuống

[2] Mô hình truyền (propagation) sự thay đổi

Xét ba kiểu thay đổi detal là thêm (insert), xóa (delete), cập nhật (update) Ta phân biệt hai kiểu update là: (1) update thay thế giá trị của thuộc tính khoá hoặc các thuộc tính liên quan trong điều kiện kết nối/chọn đƣợc gọi là cập nhật hiện (exposed update), còn các update khác đƣợc gọi là cập nhật ẩn (protected update) Các cập nhật hiện là kết quả các bộ đang bị xoá từ khung nhìn và đƣợc thêm vào khung nhìn Do đó ta truyền các cập nhật hiện giống nhƣ việc xoá bỏ theo sau việc thêm Phần sau tất cả các tham chiếu cập nhật đƣợc sử dụng là cập nhật ẩn Cập nhật ẩn có thể đƣợc áp dụng trực tiếp tới khung nhìn khi chúng chỉ thay đổi giá trị thuộc tính của các bộ trong khung nhìn, không bao giờ thêm hoặc di chuyển (remove) các bộ

từ khung nhìn

Giả sử rằng mục đích của việc xác định chi phí bảo trì một khung nhìn mà mỗi thay đổi tới mỗi quan hệ cơ sở là đƣợc truyền tới khung nhìn và các khung nhìn hỗ trợ liên quan khác nhau Do đó, chi phí cho việc bảo trì một khung nhìn hoặc hỗ trợ khung nhìn V là tổng chi phí mỗi kiểu truyền thay đổi tới mỗi quan hệ cơ sở có liên quan trong V Xét ví dụ sau:

của V Khi truyền các việc thêm vào, xét việc sử dụng lại các kết quả của việc đánh giá việc thêm vào cho một khung nhìn trong việc đánh giá việc thêm

V

Trang 32

ẩn, và các chỉ số đó là trên các thuộc tính khoá hoặc liên quan trong điều kiện chọn và kết nối, ta không phải cập nhật các chỉ số của V

Giải pháp tối ưu sử dụng thuật toán A*

Thuật toán A* trình bầy ở đây là cải tiến của thuật toán tìm kiếm vét cạn Đầu vào của thuật toán là một tập M các khung nhìn và chỉ số có thể cho cụ thể hoá M không gồm các quan hệ cơ sở (B) và khung nhìn chính V, mà gồm các chỉ số mà có thể định nghĩa trên đó (V và B bị ràng buộc để được cụ thể hoá) Mục tiêu của thuật toán là chọn một tập con M‟ của M để cụ thể hoá sao cho tổng chi phí C nhỏ nhất Tổng phí được đưa ra trong một tập con đặc biệt các khung nhìn và chỉ số M‟ có thể được biểu diễn như sau:

C(M‟) =

Hàm maint_cost(m,M‟) trả về chi phí của việc truyền các thay đổi tới khung nhìn hoặc chỉ số m (giả sử chỉ các khung nhìn và chỉ số trong M‟ là cụ thể hoá)

Thay vì trực tiếp tìm kiếm trên M ta cài đặt thuật toán A* để tăng tốc độ Bắt đầu

kết thúc khi tìm thấy một giải pháp được tìm thấy mà tất cả các khung nhìn và chỉ

số được xét và đảm bảo rằng tổng phí nhỏ nhất Gọi các bước trung gian được tìm kiếm trong thuật toán là trạng thái cục bộ Mỗi trạng thái cục bộ mô tả bởi một bộ (Mc, M‟): trong đó Mc là tập đặc trưng từ M mà đã được xem xét và M‟ là tập đặc trưng từ Mc mà đã được chọn cụ thể hoá Để thuận lợi, ta sẽ gọi Mu = M - Mc là tập đặc trưng không cần xét Từ tập các trạng thái cục bộ A*, chọn triển vọng tốt

mỗi trạng thái (trong đó M‟u là tập đặc trưng không được xét sẽ được chọn) Chi phí chính xác của giải pháp tốt nhất từ trạng thái cục bộ có thể phân tích thành C =

g + h với: (1) g là chi phí bảo trì cho lựa chọn M‟; (2) h là chi phí bảo trì cho M‟u

Ta có thể chỉ tính toán g chỉ sử dụngM‟ thông việc qua sử dụng thứ tự cục bộ

Trang 33

Giả sử các quan hệ cơ sở và V là được cụ thể hoá

Giả sử tập trạng thái S={s} trong đó s là trạng thái cục bộ và có

Công thức này yêu cầu một tìm kiếm vét cạn để tìm M‟u nhỏ nhất Thay vì tìm

thì C = C^

Diễn giải thuật toán A* cho vấn đề VIS: tập trạng thái S chứa tất cả các trạng thái

cục bộ hoạt động Lúc khởi tạo chỉ có một trạng thái cục bộ mà không có khung nhìn hay chỉ số đƣợc xem xét Mỗi lần lặp, thuật toán chọn ra trạng thái cục bộ với giới hạn chi phí thấp nhất Nếu trạng thái đƣợc chọn có Mc = M thì đó là trạng thái tối ƣu Nếu trạng thái đƣợc chọn không phải là tối ƣu, nó bị đƣa ra khỏi tập các trạng thái hoạt động và mỗi khung nhìn hoặc chỉ số mà có thể đƣợc đƣa thêm tới tập

min ( maint_cost(m,M‟ M‟u))

M’u Mu m M’u

Trang 34

các khung nhìn và chỉ số được xem xét mà không ảnh hưởng đến thứ tự cục bộ, hai trạng thái được đưa thêm vào tập các trạng thái hoạt động: một trạng thái với khung nhìn hoặc chỉ số được đưa thêm vào tập được chọn M‟, và một trạng thái không đưa vào

giới hạn trên của lợi ích hướng tới bảo trì các khung nhìn khác (bao gồm cả V)

Hàm h_maint_cost(m,M‟) không giống nhau khi m là một khung nhìn hay là một chỉ số Nếu m là một chỉ số hàm trả về chi phí bảo trì m với tất cả các việc thêm vào

và xóa bỏ sẽ được truyền tới khung nhìn mà m xây dựng trên đó Nếu m là một khung nhìn, hàm trả về chi phí bảo trì m chỉ bao gồm việc truyền việc thêm vào tới các quan hệ cơ sở mà khung nhìn m tham chiếu và chi phí truyền việc sửa đổi và xóa bỏ tới các quan hệ mà khung nhìn m tham chiếu đến (giả sử tồn tại chỉ số thích hợp cho các việc này)

Hàm max_benefit(m, M‟) - hàm sinh lợi cũng không giống nhau với các trường hợp m là khung nhìn hay là chỉ số (1) Nếu m là một chỉ số trên một khung nhìn v cho thuộc tính khóa của quan hệ cơ sở R được tham chiếu trong v, hàm trả về chi phí truyền việc xóa bỏ và sửa đổi từ R tới v (mà không có m) trừ chi phí truyền việc xóa bỏ và sửa đổi từ R tới v (có m); (2) Nếu m là một chỉ số trên một khung nhìn v cho một thuộc tính kết nối mà kết nối v tới một vài quan hệ R không được tham

các quan hệ trong v và mỗi quan hệ S trong v‟ nhưng không trong v, chi phí của việc quét v (lợi ích lớn nhất tương ứng với một chỉ số kết nối sử dụng m khi truyền việc thêm vào từ s vào v‟); (3) Nếu m là một chỉ số cho cả hai là khóa và thuộc tính kết nối, thì lợi ích của (1) và (2) đều được cộng vào Nếu m là một khung nhìn lợi ích lớn nhất của m là chi phí của việc cụ thể hóa m khi truyền việc thêm vào tới các khung nhìn mà m là khung nhìn con Tổng cộng hàm max_benefit cho mỗi khung

nhưng không trong m, chi phí của việc cụ thể hóa m dựa vào các khung nhìn và các chỉ số trong Mc

m Mu

Trang 35

Các luật của Thumb

Các luật của Thumb có thể trợ giúp, hướng dẫn người quản trị kho dữ liệu trong việc lựa chọn một tập các khung nhìn và các chỉ số hỗ trợ mà không cần phải sử dụng thuật toán đầy đủ

Luật 1: Cụ thể hóa một khung nhìn hỗ trợ V khi kích thước của nó là nhỏ hơn

tổng kích thước của các khung nhìn và các quan hệ cơ sở mà nó được dẫn xuất

Luật 2: Cụ thể hóa một khung nhìn hỗ trợ V mà không có bất kỳ việc xóa hoặc

sửa

Luật 3: Trong việc xét có cụ thể hóa một khung nhìn hỗ trợ hay không, mà tỉ lệ

kích cỡ của nó với kích cỡ vùng đệm không là vấn đề

Luật 4: Xây dựng chỉ số trên một khung nhìn hỗ trợ V cho thuộc tính R.A là

khóa của quan hệ R có liên quan trong V nếu (1) có một số xóa và sửa tới R, (2) số sửa và xóa tới tất cả các quan hệ cơ sở có liên quan trong V không được vượt quá kích thước trong V, (3) và số thêm và xóa tới V không vượt quá kích cỡ trong V

Luật 5: Xây dựng chỉ số trên một khung nhìn hỗ trợ V cho một thuộc tính R.A

mà liên quan trong một điều kiện kết nối R.A = S.B trong khung nhìn chính khi (1)

S là không liên quan trong V, (2) số thêm vào tới các quan hệ cơ sở không liên quan trong V nhưng liên quan trong khung nhìn chính không vượt quá kích thước trong

V, (3) và số thêm vào và xóa tới V không vượt quá kích thước trongV

Luật 6: Không xây dựng chỉ số trên quan hệ cơ sở R cho thuộc tính R.A liên

quan trong điều kiện chọn C trừ khi (1) các chỉ số trên R cho thuộc tính có liên quan

được cụ thể hóa, (3) C được chọn, (4) số xóa và sửa tới R không vượt quá kích cỡ trong R

Luật 7: Xây dựng chỉ số trên một khung nhìn hỗ trợ V cho một thuộc tính R.A

nếu với bất kỳ các luật trên luật 4 hoặc luật 6, tất cả nhưng điều kiện cuối cùng thỏa mãn, và chỉ số phù hợp với bộ nhớ

Trang 36

CHƯƠNG II – MÔ HÌNH DỮ LIỆU CHO XỬ LÝ PHÂN TÍCH

TRỰC TUYẾN

Dữ liệu của OLAP được tổ chức dưới hình thức đa chiều Việc nghiên cứu và đưa ra một mô hình dữ liệu đa chiều là cần thiết cho việc xây dựng CSDL đa chiều phục vụ cho khai thác Trong phần này của luận văn sẽ nghiên cứu và đưa ra mô hình CSDL đa chiều cho OLAP và các dạng chuẩn cho CSDL đa chiều Sự cần thiết của các dạng chuẩn đa chiều là đảm bảo khả năng tổng hợp bên trong lược đồ ứng dụng và giảm bớt dữ liệu thưa trong khối Dữ liệu tổng hợp là cấn thiết cho thao tác gộp, thao tác liên quan đến đào sâu, cuộn lên trong OLAP

Trong cách tiếp cận này, một mô hình dữ liệu đa chiều được xây dựng trên một

mức, một chiều là một mắt lưới của các mức, mối quan hệ phân mức giữa các chiều thành phần được chia ra thành các miền phân mức trên chiều, một miền phân cấp chiều là một tập các chiều thành phần, được tổ chức trong các mức phân cấp, tương ứng với các mức khác nhau, điều này cho phép xem xét một giản đồ chiều như một tập các mức cục bộ có thứ tự Mỗi đường dẫn trong lưới của một phân cấp chiều bắt đầu từ mức giới hạn cao nhất dọc theo lược đồ chiều đến thấp nhất (bắt đầu ở mức gốc và kết thúc ở mức lá) gọi là đường dẫn chiều, nói cách khác đường dẫn chiều là danh sách tuyến tính các mức được sắp xếp Kết quả là các chiều với bất ký độ phức tạp nào trong cấu trúc có thể được mô tả trong mô hình này

Vïng N-íc All

T.Phè

§Þa lý

QuÝ N¨m All

MÆt hµng S¶n phÈm

Hình 8 Các chiều và phân cấp chiều

Trang 37

all 2003 Q1.2003

1.2003 2.2003 3.2003

T1.2003 T5.2003 T9.2003

1.1.2003 6.1.2003 1.2.2003 3.2.2003 3.3.2003

Hình 9 Một thể hiện của chiều thời gian

1.1 Các khái niệm về chiều

Ta có các định nghĩa sau về chiều trong CSDL đa chiều [13,12]:

Định nghĩa 1: Miền phân cấp chiều

Miền phân cấp của một chiều D là một tập khác rỗng, ký hiệu là dom(D) và

trong một chiều

trong đó:

- V = dom(D): tập các đỉnh thể hiện phân cấp các chiều

quan hệ có thứ tự theo phân cấp

Ví dụ hình vẽ thể hiện một cây của chiều thời gian, ta có:

Định nghĩa 2: Mức chiều

Trang 38

Giả sử Levels(D) = All  (l1, ,lh) với h  N , là tập các mức của chiều D, Trong đó:

Định nghĩa 3: Lược đồ chiều

mức bộ phận có thứ tự (các mức được sắp xếp)

- Levels(D) là tập các mức chiều

nếu (dmt dom(li)) và (dmu dom(lj)): dmt L dmu

Định nghĩa 4: Đường dẫn chiều

Đường dẫn trong một lược đồ chiều là danh sách tuyến tính các mức được sắp xếp Được định nghĩa như sau:

 li, lj Levels(D) ta có:

path(li, lj) =

Định nghĩa 5: Phân cấp chiều

li L lj nếu li L lj

li L lt, , lu L lj nếu lt, , lu Levels(D): li L lt, , lu L lj

 trong các trường hợp khác

Trang 39

m  N là tập các phân cấp của chiều D Trường hợp m = 1 thì chiều có cấu trúc phân cấp đơn, các trường hợp khác gọi là chiều có cấu trúc đa phân cấp

Định nghĩa 6: Các toán tử chiều

Có hai toán tử chiều, giả sử đặt tên cho hai toán tử đó là ancestor và descendant, hai toán tử này để đưa ra các khả năng dẫn hướng dọc theo một cấu trúc chiều, được định nghĩa một cách đệ quy như sau:

 li, la, ld Levels(D) và dm  dom(li)  dom(D):

- ancestor (Q1.2003, Năm, Thời gian) = 2003

1.2 Độ đo

Độ đo (measure) là đối tượng phân tích chính trong mô hình CSDL đa chiều [12,13]

Định nghĩa 1: Lược đồ độ đo

Một lược đồ độ đo M là một bộ đôi của các bảng Sự kiện và phép toán được áp dụng cho bảng sự kiện Ký hiệu lược đồ độ đo Mschema(M)=<Fname,O> trong đó:

- Fname là tên của bảng sự kiện tương ứng

dụng cho một bảng sự kiện riêng biệt, trong đó: Composite là một toán tử (ví

dụ tính trung bình) mà độ đo không thể được sử dụng để tự động nhận được

Không xác định – nếu path(la, li) = 

dm- dom(la): dm- -(dm)  - nếu la L liancestor (dm-, la, D) - trong trường hợp khác

Không xác định – nếu path li, ld) = 

dm+ dom(ld): dm+ +(dm)  - nếu li L ld

decendant (dm+, ld, D) - trong trường hợp khác

Trang 40

từ các tổng hợp ở mức cao hơn Còn độ đo None là các độ đo không được tính toán gộp Trong trường hợp đó độ đo là sự kiện

Định nghĩa 2: Miền của độ đo

Giả sử cho V là một miền giá trị của độ đo (V có thể là tập số N hoặc Z, hoặc R)

1.3 Khối dữ liệu

Một khối đa chiều là được xây dựng trên một tập các chiều và một tập các độ đo Khối đa chiều bao gồm một tập các ô Mỗi ô là giao của giữa tập các chiều thành phần và các giá trị của độ đo Hơn nữa các ô được nhóm lại thành các nhóm, mỗi nhóm thể hiện ánh xạ từ các miền x-bộ của các mức độ đo (biến độc lập) tới các miền y-số của các độ đo (biến phụ thuộc) Ví dụ khối dữ liệu đa chiều như sau:

Thêi gian

10 15

20 12 50

Qu¹t TIvi

§Çu Video Radio B¨ng

Hình 10 Khối bán hàng gồm các chiều: Địa lý, Sản phẩm, Thời gian và bảng

sự kiện Bán hàng

Cho tập các chiều D = D1, D2, ,Dx; x  N và một tập các độ đo: M = M1,

Định nghĩa 1: Lược đồ khối

- Cname: là tên của khối

- Dschemas là các lược đồ của x chiều, được ký hiệu bởi:

Ngày đăng: 02/07/2015, 19:59

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w