Thuật toán tính size của mảnh

Một phần của tài liệu Gộp nhóm các giá trị lặp của các thuộc tính trong các mảnh của cơ sơ dữ liệu phân tán (Trang 61 - 62)

Với mỗi mảnh hhõn hợp, ta có thể phải tính kích thƣớc của chúng để có thể khi cần thì tính chi phí khi truyền các mảnh trên mạng. Kích thƣớc (tính theo bytes) của một mảnh F(B1,B2,….,Bk) (với Bi là thuộc tính thứ i của mảnh) có số bộ là n đƣợc tính nhƣ sau:     k i i B length n F Size 1 ) ( ) ( Trong đó,

 Length(Bi) là chiều dài của thuộc tính thứ i  n là số bộ của F

Áp dụng công thức trên, ta tiến hành tính kích thƣớc cho từng mảnh tƣơng ứng.

Nhận xét:

Qua hai thuật toán phân mảnh ngang, phân mảnh hỗn hợp thì chúng ta có một mảnh hỗn hợp bao gồm các thuộc tính có giá trị lặp với số lƣợng lớn hơn 2 khi đó các việc gộp nhóm mới có giá trị tiết kiệm dung lƣợng thiết bị lƣu trữ, thời gian truyền khố dữ liệu đó trên mạng. Vì khi lƣu trữ chúng ta chỉ cần lƣu trữ các thuộc tính của mảnh hỗn hợp đã thu đƣợc và một bộ các giá trị của thuộc tính cùng khóa của nó và các khóa của các bộ còn lại. Khi cần sử dụng ngƣời ta có thể liệt kê thuộc tính các khóa của mảnh hỗn hợp, còn các

Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/

giá trị của mảnh hỗn hợp sẽ là bộ giá trị đƣợc kèm theo. Việc tiết kiệm này cũng đƣợc thể hiện khi truyền các mảnh hỗn hợp trên mạng.

Việc gộp nhóm quan trọng nhất là phân mảnh ngang để tìm tìm ra số bộ có giá trị lặp tại số thuộc tính nào đó, còn phân mảnh dọc là để tách nhóm các giá trị lặp đó khỏi các bộ của mảnh ngang đã cho mà tạo ra mảnh hỗn hợp.

Một phần của tài liệu Gộp nhóm các giá trị lặp của các thuộc tính trong các mảnh của cơ sơ dữ liệu phân tán (Trang 61 - 62)