Tìm tập mục phổ biến theo thuật toán song song Data Distribution

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Nghiên cứu các luật kết hợp song song trong khai phá dữ liệu (Trang 41 - 42)

2. 2. 2. 1. 3. Thuật toán song song Eclat

Thuật toán song song Eclat [18] dùng phƣơng pháp nhóm các tập mục phổ biến có liên quan với nhau bằng cách sử dụng lƣợc đồ phần chia lớp tƣơng đƣơng, với mỗi lớp tƣơng đƣơng chứa tập các tập mục ứng viên quan hệ tƣơng đƣơng với nhau. Phƣơng pháp này sử dụng kỹ thuật tổ chức cơ sở dữ liệu theo chiều dọc để nhóm các giao dịch liên quan với nhau:

- Phân lớp tƣơng tƣơng: Gọi Lk là tập các itemset phổ biến, giả sử Lk đƣợc sắp xếp theo thứ tự từ điển. Có thể phân hoạch các tập mục trong Lk thành các lớp tƣơng đƣơng: Nếu các phần tử trong Lk có k-1 thành viên đầu tiên giống nhau thì chúng thuộc cùng một lớp. Ký hiệu lớp tƣơng đƣơng chứa a là Sa = [a]. Trong phạm vi một lớp, ta sinh k-itemset ứng viên bằng cách kết nối tất cả  | |

2

Si

= |Si|(|Si| -1) / 2 cặp tiền tố là định danh của lớp. Trong đó |Si| là số phần tử của lớp có định danh là i. Các k- itemset ứng viên đƣợc sinh ra từ các lớp khác nhau sẽ độc lập với nhau.

chiều dọc. Với cách tổ chức này, một cơ sở dữ liệu gồm danh sách các mục và mỗi mục xác định một danh sách các định danh của giao dịch có chứa mục đó, ký hiệu tid- List. Những ƣu điểm của cách tổ chức dữ liệu theo chiều dọc nhƣ sau:

- Nếu tid-List đã đƣợc sắp xếp theo thứ tự tăng dần thì độ hỗ trợ của k-itemset ứng viên có thể đã đƣợc tính toán bởi phép lấy giao các tid-List của hai (k-1)- subset bất kỳ.

- Các danh sách của định danh của giao dịch tid-List chứa tất cả các thông tin liên quan về một tập mục. Vì vậy, khi tính độ hỗ trợ cho một tập mục không cần phải quét toàn bộ cơ sở dữ liệu.

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Nghiên cứu các luật kết hợp song song trong khai phá dữ liệu (Trang 41 - 42)

Tải bản đầy đủ (PDF)

(71 trang)