.1 1 Cáck hối dữ liệu con (subcube)

Một phần của tài liệu Khai thác dữ liệu và xử lý phân tích trực tuyến (Trang 62)

- p m: xác suất đột biến

3.3 .1 1 Cáck hối dữ liệu con (subcube)

Subcube là một bộ phận của khôi dữ liệu (data cube). Nói cách khác, mỗi phần tử của tập các tập con của các chiều của KDL sẽ là một subcube. Xét tiếp ví dụ 1, mỗi cặp ịmặt_hàng, khách_hàng} sẽ tương ứng với mộl subcube chứa mặt_hàng bán ra cho từng khách J ia n g . Trong SQL các subcube chí khác nhau bới câu lệnh gộp (Groupby Clause), ớ dây chúng la cũng cho subcube tương ứng với một tập các thuộc tính có thể gộp được với nhau. Như vậy (m ặ U ià n g , khách J ia n g } sẽ tương ứng với một subcube được xác định bởi cảu hỏi trong SQL như sau:

SELECT mặt hàng, khách_hàng, SUM(hàng_bán) ASTolalSales FROM R

G ROU P BY mặt_hàng, khácli_lìàng

3 . 3 . 1 . 2 C âu h ỏi (Q u eries)

Mỗi câu hỏi có thể sử dụng chiểu Iilur là thuộc tính đế lựa chọn (Irong SQL: chiều là thuộc tính trong Groupby Clause - câu lệnh gộp lại hoặc tương ứng với where Clause - câu lệnh mà ở đó thỏa điều kiện nào đó).

Sử dụng cách viết rút gọn của mô hình, chúng ta có lliể viết câu hỏi Q dưới dạng: yLô[)S - Trong đó Ỵ xác định những thuộc tính gộp lại (Groupby) còn ô xác định các thuộc tính chọn để tập hợp lại (Selection) của từng câu hỏi; c - khách_hàng (customer), p - mặt_hàng (part) và s - hàng_bán (sale). Tất nhiên thứ tự các thuộc

t í n h là k h ô n g q u a n tr ọ n g , c â u h ỏ i Ypô st c ũ n g h o à n to àn g i ô n g n h ư y pô cs.

Mỗi câu hỏi dạng yt(ôp = constant(R)) là yêu cầu về lát cất thông qua subcube (customer, part). Chúng ta qui định câu hỏi tổng quát: ytôp và gọi nó là câu hỏi về lát cắt (slice query) đối với subcube (customer, part). Dạng tổng quát yG| Gkô cho subcube (G l, Gk, S l, .... Sl) là những subcube nhỏ nhất tham gia trả lời CỈ10 cầu hỏi trên, với k, 1 là những thứ nguyên của KDL.

3 . 3 . 1 . 3 Chỉ s ố (Indexes)

Để tăng tốc độ xử lý các câu hỏi chúng ta có thể sứ dụng cấu Irúc chỉ số B_cây (B-Tree: Balance-Tree [11]). Ví dụ đối với subcube (p,s), chúng ta có thể xâydựng đánh chỉ số như sau:

Ips: Tim những chỉ số mà nó được ghép lại từ chiều p (part) với chiều s(sales). Isp: Tim những chỉ số mà nó dược ghép lại từ hai chiều s và p

Ớ đây thứ tự các chiều là quan trọng. Cho trước một giá trị của p, chúng ta có thể sử dụng Ips để tìm tất cả các hàng trong subcube(p,s) mà nó có giá trị p. Tương tự, cho trước cặp (p,s) chúng ta sử dụng Ips để tìm trong subcube(p,s) những hàng, cột có cặp giá trị đó.

Sử dụng chí số B-cây sẽ giúp chúng ta rút ngắn được thời gian trả lới cho các câu hỏi. Đôi với mỗi view chúng ta có một số cách chỉ số hóa. Ví dụ với subcube (p,s), chúng ta có thể xây dựng 4 cách đánh chỉ số như sau: IpCps), Ụ p s), ỉ1IS(ps), ISp(ps)

Một phần của tài liệu Khai thác dữ liệu và xử lý phân tích trực tuyến (Trang 62)

Tải bản đầy đủ (PDF)

(86 trang)