Thiết kế và triển khai cơ sở dữ liệu đa chiều

MỤC LỤC

Toán tử đại số(Algebra)

Một trường hợp khác của cửa sổ phân loại của bề rộng thay đổi (ví dụ trung bình tích lũy) hoặc cửa sổ của bề rộng dữ liệu phụ thuộc (ví dụ giá cổ phần trung bình tương ứng đến thời kỳ cổ phần tăng(bullish)) là cũng được phủ bởi sàn(framework). Cuối cùng, chúng ta suy xét tổng kết, chúng bao gồm không chỉ sự áp dụng của các hàm như: max, min, sum, count đến đa tập định nghĩa giá trị bởi nhóm của các bộ mà còn các hàm thống kê như: variance(phương sai), mode(kiểu), tính toán thương mại như: proportions(tỉ lệ), quartiles.

Hình 1.3 kết quả của một toán tử lát cắt hình vuông trên bảng ở hình 1.1. Lát cắt hình vuông chỉ là một trường hợp đặc biệt của phép chọn quan hệ đã mở rộng cho các bảng MDD.

Phép tính (Calculus)

Cuối cùng phép hàm summarization được áp dụng đến kết quả truy vấn theo cú pháp gB←A(A|F), nghĩa trực quan của chúng là giống như trong đại số khi tranh luận là được giải thích như kết quả bảng trả lời từ truy vấn (A|F). Truy vấn tính toán đầu của hình 1.6 tính toán một bảng các ô này của bảng vào ở đây Sales là lớn hơn thực sự của giá trị Cost với bảng kết quả có hai chiều Component và Location tương ứng Part và City riêng biệt.

Giới thiệu

Trong khi phân vùng có thể là hữu ích bất cứ khi nào chỉ có một nhóm thuộc tính thường được yêu cầu tiêu biểu cho mỗi truy vấn, hợp nhất có thể được thuận lợi khi khối lượng công việc đáng kể là bị ảnh hưởng trên các truy vấn drill-across, nghĩa là, xây dựng các truy vấn tham gia của hai hoặc nhiều khung nhìn nhận được (deriving) từ các cube khác nhau. Các vấn đề về việc xác định phân vùng tối ưu cho một khối lượng công việc đã được điều tra rộng rãi trong bối cảnh của trung tâm cũng như các hệ thống cơ sở dữ liệu phân tán, xem xét không thừa phân bổ các mảnh (ví dụ, xem [6] [14] [16]); tiếc là, kết quả được báo cáo trong tài liệu, có thể không được áp dụng ở đây từ khi có sự thừa, giới thiệu bởi ràng buộc các view cụ thể(materializing views binds)các phân vùng cho rằng vấn đề của quyết định đó view(s) mỗi truy vấn phải được thi hành.

Kiến thức nền(Background)

Khối và mô hình(Cubes and Patterns)

So sánh với hoạt động của các cơ sở dữ liệu, trong MD các quyền lợi của sự phân mảnh được nâng cao hơn nữa do nhiều truy vấn thực hiện các kế hoạch do sự hiện diện của các view thứ cấp dư thừa. Các lợi ích đặc biệt có liên quan nếu MD được thực hiện trên một kiến trúc song song, nếu các mảng đĩa là được chấp nhận và sự phân mảnh được ghép đôi với một thuật toán định vị, các truy vấn đòi hỏi nhiều phân mảng phân bổ trên nhiều đĩa khác nhau có thể có hiệu quả parallelized.

The Workload

Nếu không, các nhà thiết kế cú thể thử để xỏc định một lừi workload một priori: trờn thực tế, núi cỏch khỏc, người sử dụng thông thường là biết trước kiểu dữ liệu phân tích, người ta sẽ thực hiện thường xuyên hơn cho các mục đích quyết định(decisional) hoặc thống kê; nói cách khác, một số lượng đáng kể các truy vấn được nhằm mục đích rút trích dữ liệu tóm tắt để điền vào các báo cáo tiêu chuẩn. Khi đó mô hình {Part, Customer, ShipDate} và tất cả mô hình khác kém hơn P là được phổ biến đến LineItem và Shipment, một truy vấn drill-across có thể là một câu hỏi về tổng cặp giá trị bởi các khách hàng của mỗi vùng nhận mỗi bộ phận, đặc trưng bỏi Patt(q) = {CRegion, Part}, Meas(q) = {DiscountPrice, ShippingCost} and sel(q) = 1.

Phân mảnh dọc của các view

Problem Statement

Ngầm hiểu biểu diễn của không liên quan bao gồm một sự phân chia lên trên một tập của các khối thuộc về MD mà lần lượt các phân vùng tập các truy vấn và tập các view theo khối chúng là được định nghĩa ở trên; để mà giảm độ phức tạp là có nghĩa là sẽ được áp dụng một cách riêng biệt cho từng bộ các truy vấn trên các thiết lập tương ứng có liên quan các khối. Chúng tôi tin nó thuận lợi quản lý phân tách thiết kế logic từ mức vật lý để cả hai cung cấp giải pháp tổng quát giảm phức tạp; vì vậy hàm chi phí đưa ra có ý định trước trừu tượng từ bất kỳ giả định trên truy cấp các đường dẫn, dựa trên số trang đĩa các bộ ta quan tâm cho một truy vấn là được lưu trữ.

Hình 2.3 Mảng sự phân mảnh đại diện một giải pháp khả thi

Giới thiệu

Ý tưởng chính của mô hình đa chiều là mỗi chiều của khối dữ liệu đa chiều ví dụ như các sản phẩm, các cửa hàng, hoặc thời gian có thể được xem như là phần của khóa chính, tìm ra tích Đề các sản phẩm của các phần tử trong các chiều. Như minh họa ở hình 3.1, trên cơ sở các phần tử của chiều, ví dụ như các hàng hóa đơn lẻ trong chiều sản phẩm, các sự phân loại có thể được định nghĩa để xác định các lớp C khác nhau như các product families, groups, hoặc các product areas, mỗi nút của sự phân loại ở mức phân loại cụ thể có thể được xem như một thể hiện của thuộc tính phân loại tương ứng(CAi).

Phương pháp ROLAP truyền thống

Lược đồ hình sao

Cách truyền thống đơn giản nhất để mô hình bộ khung thông tin cần kiểm tra này được sử dụng trong suốt quá trình phân tích là sử dụng một bảng chiều đơn lẻ Di(1<=i<=n) cho mỗi chiều để giải quyết các mục mức cao trong hệ thống phân loại cấp và biểu diễn các thuộc tính chiều. Chính lược đồ của bảng chiều cho chiều i nó chứa thuộc tính chính PAi, tất cả các thuộc tính sự phân lớp CAj(1<=j<=p) và tập hoàn chỉnh của các thuộc tính chiều DAk(1<=k<=m).

Cách thiết kế Object-Relational

Định nghĩa kiểu

Để đặt nó vào bảng tóm tắt, trong trường hợp phương pháp cổ điển, câu truy vấn (vô nghĩa) như tìm tổng doanh thu của Home Appliances bởi ‘video system’ sẽ dẫn đến một sự tìm kiếm hết trên bảng chiều. Tương tự như khái niệm cổ điển của kết thừa, các lớp cụ thể của các sản phẩm được suy ra từ các lớp khái quát hơn của các sản phẩm và các thuộc tính cụ thể của chiều được thêm vào kiểu được suy ra.

Các định nghĩa Bảng Typed

Sự xây dựng kiểu bảng này rất có giá trị vì nó tạo ra được các tiện ích sau: Xem xét vị trí mà chúng ta cài đặt chợ dữ liệu cho một nhóm sản phẩm cụ thể, ví dụ video equipment. Các hàng hóa mới có thể được thêm, một số hàng hóa có thể bị phân loại lại và các sản phẩm khác có thể bị xóa bởi vì chúng không còn được bán nữa hoặc việc bán của chỳng khụng cũn được theo dừi.

Thao tác dữ liệu

Một lần nữa chúng ta phải gộp các giá trị của các tham chiếu tới kiểu các bảng chiều tương ứng của chúng, nghĩa là các chứng thực hàng hóa được gộp vào Articles_T , các tên cửa hàng được gộp vào Shops_T. Ví dụ như nhóm dữ liệu thực thể theo khu vực(từ bảng các Shop) và các nhóm các sản phẩm (từ bảng các Article) có thể được sử dụng kí hiệu cụ thể’->’ mà không có liên kết nào.

Mô hình cơ sở dữ liệu đa chiều (Modeling Multidimensional Databases)

Cơ sở dữ liệu đa chiều hiện tại 1. Ví dụ

Các thuộc tính được xác định là: product, date, supplier được xem như là các chiều trong khi các thuộc tính xác định như là sales được xem như dữ kiện (measures) (các chiều được gọi là các thuộc tính xác định và các sự kiện được gọi trị số hoặc tổng các thuộc tính trong tài liệu cơ sở dữ liệu thống kê [sho82]). Một phân cấp khác là phân cấp cơ sở trên mà công ty sản xuất sản phẩm và chủ công ty đó, cụ thể là, sản phẩm → hãng sản xuất→ tổng công ty (product → manufacturer → parent company) (chú ý đến phân tích một chợ dự trữ).

Mô hình dữ liệu đề xuất 1. Mô hình

Như một kết quả ứng dụng của phép toán, nhiều hơn giá trị một thành phần có thể vạch ra thành phần tương tự (tức là liên kết tương tự của các giá tri của các thuộc tính chiều) của khối trả lời. Nó có thể được tính nhanh như một trường hợp đặc biệt của tự nối của một khối sử dụng phép biến đổi fmerge trên các chiều đang được kết hợp và các hàm biến đổi đồng nhất cho các chiều khác.

Hình 4.2. Khối logic trong đó sales là một chiều.

Áp dụng các phép toán vào câu truy vấn

Chúng ta có thể tạo ra một chiều mới D biểu diễn như một chức năng f của chiều D’ khác bằng cách, đầu tiên đưa D’ vào các phần tử khối, sau đó biến đổi các phần tử của khối bằng cách áp dụng chức năng f và cuối cùng lấy ra phần tương úng của phần tử khối xem như một chiều mới D. Restric (giới hạn) C trên chiều thời gian là tháng này (“this” month), Merge (kết hợp) supplier với một điểm đơn sử dụng tổng bán hàng bằng hàm felem và Associate (kết hợp) nó với C1 theo chiều product sử dụng hàm felem để chỉ cho ra thành phần của C khi nó được xem như là các thành phần tương thích từ C1 (ngược lại trả về 0).