Thuật toán tìm tập phổ biến

Một phần của tài liệu luật kết hợp mờ và ứng dụng đối với một số bài toán dự báo (Trang 57 - 60)

Sử dụng cây CUFP-Tree như Hình 2.4, thuật toán tìm tập phổ biến được thực hiện như sau:

Bƣớc 1: Duyệt lần lượt từng item một trong Header_Table theo thứ tự từ dưới

lên trên. Trong ví dụ thứ tự thực hiện lần lượt là: f, d, c, b, e, nút f được thực hiện đầu tiên.

Bƣớc 2: Nút f được thực hiện đầu tiên, tìm các nút f trong cây. Trong cây CUFP-

Bƣớc 3: Các tập ứng cử và expCount được lấy từ trong mảng expAry của mỗi nút. Trong ví dụ này các tập ứng cử được lưu trữ trong mảng expAry của nút f. Kết quả là:ef: 1.406245, bf: 1.77026 và ebf: 1.27597406.

Bƣớc 4: Cộng dồn giá trị expCountcủa các itemset giống nhau lại. Trong ví dụ

này chỉ có nút f. Không thực hiện cộng dồn.

Bƣớc 5: Trong ví dụ này, độ hỗ trợ tối thiểu là 30% (0.3 * 6 = 1.8). Những tập

ứng cử trong Bước 4 có giá trị lớn hơn hoặc bằng 1.8 thì đưa vào tập phổ biến. Trong ví dụ các itemset được sinh ra trong bước 4 được kiểm tra có thỏa mãn độ hỗ trợ tối thiểu không. Trong ví dụ này không có itemset nào thỏa mãn.

Bƣớc 6: Lặp lại với các item khác trong Header_Tablecho đến khi item cuối cùng được xử lý, chúng ta thu được tập phổ biến như trong Bảng 2.10.

Bảng 2.10: Tập phổ biến

1- ItemSets 2- ItemSets

Item Expected count Item Expected count

e 2.219 cd 2.239085 b 2.72 eb 1.96112 c 2.62 d 2.563 f 1.951 2.6. Kết luận

Chương 2 trình bày những nội dung chính sau:

- Rời rạc hóa thuộc tính dựa vào tập mờ.

- Khai phá luật kết hợp mờ: Trình bày một số nội dung cơ bản của bài toán khai phá luật kết hợp mờ.

- Trình bày thuật toán khai phá luật kết hợp mờ dựa trên thuật toán Apriori. Với thuật toán này, CSDL được mờ hóa sau đó sử dụng thuật toán tựa Apriori để tìm tập phổ biến.

- Trình bày thuật toán khai phá luật kết hợp mờ dựa trên cây FP-Tree.Với thuật toán này CSDL giao dịch được mờ hóa, sau đó sẽ sử dụng cấu trúc cây FP để

biểu điễn dữ liệu giao dịch tạo thành cây CUFP-Tree. Sau đó sử dụng cây CUFP để tìm tập phổ biến. Với cách biểu diễn CSDL giao dịch như vậy kết quả thực nghiệm cho thấy tốt hơn so với phương pháp sử dụng dựa trên thuật toán Apriori.

Với cách tiếp cận biểu diễn CSDL giao dịch mờ dựa trên cây CUFP trong vài năm gần đây được các nhà khoa học quan tâm, và đây là hướng nghiên cứu mang lại nhiều kết quả khả quan so với các phương pháp đề xuất trước đây.

Trong chương 3, hai phương pháp đề cập trong chương 2 sẽ được cài đặt thử nghiệm và đánh giá kết quả thu được sau khi thử nghiệm.

CHƢƠNG 3. ỨNG DỤNG KHAI PHÁ DỮ LIỆU TRONG MÔ HÌNH DỰ BÁO

Một phần của tài liệu luật kết hợp mờ và ứng dụng đối với một số bài toán dự báo (Trang 57 - 60)