Bảng băm H2, với tập mục ứng viên 2-item

Một phần của tài liệu (LUẬN văn THẠC sĩ) ứng dụng một số kỹ thuật khai phá dữ liệu để phân tích dữ liệu viễn thông nhằm tăng cường chất lượng dịch vụ khách hàng (Trang 31 - 33)

Bảng băm này được sinh bằng cách duyệt các giao dịch trong CSDL khi xác định tập F1 từ C1. Nếu độ hỗ trợ tối thiểu bằng 3, thì các tập mục trong các nhóm 0, 1, 3, và 4 không thể là phổ biến và do vậy chúng không thể có trong

C2.

(2) Giảm số lần quét giao dịch (transaction reduction): Giảm số lượng giao dịch phải duyệt ở lần lặp tiếp theọ Một giao dịch không chứa tập mục phổ biến k-item nào thì cũng không thể chứa tập phổ biến k+1-item. Do đó, một

giao dịch thật sự có thể được đánh dấu hoặc loại bỏ trong lần duyệt CSDL tiếp theo với các tập mục j-item, với j > k, sẽ không cần đến nó nữạ

(3) Phân hoạch (partitioning): Phân chia dữ liệu để tìm tập mục ứng viên k- item. Kỹ thuật phân hoạch chỉ duyệt CSDL hai lần để khai phá tập mục phổ biến. Kỹ thuật này bao gồm hai giai đoạn.

Trong giai đoạn I, thuật toán chia nhỏ tập giao dịch của D thành n phân vùng không giao nhaụ Nếu ngưỡng độ hỗ trợ tối thiểu cảu các giao dịch trong D là

min_sup, thì độ hỗ trợ đối với một phân vùng là min_sup  số giao dịch trong

phân vùng đó. Với mỗi phân vùng, tất cả các tập mục phổ biến bên trong

phân vùng đó được tìm thấy, gọi là tập mục phổ biến địa phương. Thủ tục sử dụng cấu trúc dữ liệu đặc biệt đó là, đối với mỗi tập mục, lưu trữ các định danh TID của các giao dịch chứa các mục trong tập mục. Điều này cho phép tìm kiếm tất các tập phổ biến cục bộ k-item, với k = 1, 2, …, chỉ trong một

Một phần của tài liệu (LUẬN văn THẠC sĩ) ứng dụng một số kỹ thuật khai phá dữ liệu để phân tích dữ liệu viễn thông nhằm tăng cường chất lượng dịch vụ khách hàng (Trang 31 - 33)

Tải bản đầy đủ (PDF)

(75 trang)