KHÁI NIỆM PRE-LARGE-ITEMSET

Một phần của tài liệu Khai phá tập phổ biến trên cơ sở dữ liệu tăng trưởng trong lĩnh vực mua bán hàng (Trang 46 - 48)

7. Bố cục luận văn

2.2. KHÁI NIỆM PRE-LARGE-ITEMSET

Mặc dù thuật toán FUP chỉ quan tâm và xử lý trên những giao dịch mới được thêm vào, do đó sẽ tiết kiệm được thời gian cho việc cập nhật các luật mới vào tập luật kết hợp, nhưng trong trường hợp 3 (Bảng 2.7) thuật toán FUP vẫn phải quét lại CSDL ban đầu, để xác định xem những ứng viên không phổ biến trong CSDL ban đầu nhưng phổ biến trong những giao dịch được thêm vào có phổ biến trong CSDL sau khi đã được cập nhật các giao dịch mới vào hay không. Điều này xảy ra rất thường xuyên, đặc biệt khi số lượng các giao dịch thêm vào nhỏ. Đặc biệt hơn nữa, mỗi lần chỉ có một giao dịch mới được thêm vào thì tất cả các item trong giao dịch mới được thêm vào luôn phổ biến, vì vậy trong tình huống này thì thuật toán FUP xử lý không hiệu quả.

Khái niệm pre-large itemset được Tzung-Pei Hong, Ching-Yao Wang, Yu-Hui Tao đưa ra trong bài báo A new Incremental Data Mining Algorithm Using Pre-large

Itemsets, 2001 [10].

Một pre-large itemset không phải thực sự là một large itemset, nhưng nó hứa

hẹn sẽ là một large itemset trong tương lai. Một ngưỡng hỗ trợ thấp (lower support) và một ngưỡng hỗ trợ cao (upper support) được sử dụng để nhận ra khái niệm pre-

large itemset. Ngưỡng hỗ trợ cao thì giống với ngưỡng minsup trong các thuật toán

khai phá dữ liệu thông thường. Một itemset phải có độ hỗ trợ lớn hơn ngưỡng hỗ trợ cao thì mới được gọi là large. Ngưỡng hỗ trợ thấp định nghĩa một ngưỡng hỗ trợ thấp nhất để một itemset được xem là pre-large. Một itemset có support nhỏ hơn ngưỡng hỗ trợ thấp thì được xem là small. Pre-large itemset có thể xem giống như một bộ đệm (buffer) trong tiến trình khai phá dữ liệu tăng trưởng và được sử dụng để làm giảm đi số lượng ứng viên cần phải duyệt CSDL ban đầu để xác định độ hỗ trợ.

Hình 2.4. 9 trường hợp xảy ra khi thêm các giao dịch mới vào CSDL [10]

Trường hợp 1, 5, 6, 8 và 9 trên Hình 2.13 không ảnh hưởng đến tập luật kết hợp đã khai phá được trong CSDL ban đầu (có nghĩa là không có luật mới nào được thêm vào và cũng không có luật nào cần phải loại bỏ). Trường hợp 2 và 3 thì có thể phải loại bỏ một số luật trong tập luật ban đầu, trường hợp 4 và 7 có thể sẽ phải thêm tập luật một số luật mới. Như vậy nếu chúng ta biết được tất cả các tập large và pre-

large itemset cùng với độ hỗ trợ của chúng trong mỗi bước lặp thì trường hợp 2, 3 và

4 có thể xử lý dễ dàng. Chú ý rằng số lượng các giao dịch được thêm vào CSDL so với số lượng các giao dịch đã có sẵng là rất nhỏ, đặc biệt khi CSDL ngày càng lớn. Trong trường hợp 7 ta thấy rằng một itemset không thể là large trong CSDL sau khi

đã được cập nhật khi mà số lượng các giao dịch được thêm vào là quá nhỏ so với số lượng các giao dịch trong CSDL ban đầu. Bảng tổng kết 9 trường hợp xảy ra khi thêm giao dịch vào một CSDL thể hiện dưới Bảng 2.5

Bảng 2. 1. 9 trường hợp xảy ra khi thêm mới giao dịch vào CSDL [10]

TH: CSDL gốc – CSDL thêm vào Kết quả

TH 1: Large – Large Luôn luôn large

TH 2: Large - Pre-large Large hoặc pre-large,tùy thuộc vào độ hỗ trợ

TH 3: Large - Small Large, pre-large hoặc small, tùy thuộc vào độ hỗ trợ

TH 4: Pre-large - Large Pre-large or large, tùy thuộc vào độ hỗ trợ TH 5: Pre-large - Pre-large Luôn luôn pre-large

TH 6: Pre-large - Small Pre-large hoặc small, tùy thuộc vào độ hỗ trợ

TH 7: Small - Large Pre-large hoặc small khi số lượng giao dịch thêm vào nhỏ hơn ngưỡng f [10]

TH 8: Small - Pre-large Small hoặc Pre-large TH 9: Small - Small Luôn luôn small

Một phần của tài liệu Khai phá tập phổ biến trên cơ sở dữ liệu tăng trưởng trong lĩnh vực mua bán hàng (Trang 46 - 48)

Tải bản đầy đủ (PDF)

(101 trang)