Đánh giá các giải thuật

Một phần của tài liệu (LUẬN văn THẠC sĩ) khai phá tập mục thường xuyên có trọng số trên cơ sở dữ liệu giao tác (Trang 58 - 59)

Nhƣ đã nói trong phần 2, giải thuật WFIM (Apriori) dựa trên giải thuật Apriori nhƣng sử dụng khoảng trọng số và ngƣỡng trọng số nhỏ nhất. Giải thuật WFIM là giải thuật khai phá tập mục thƣờng xuyên đầu tiên sử dụng mô hình giải thuật FP- Growth và các nghiên cứu mở rộng [7], [12], cũng cho thấy rằng hiệu năng của giải

thuật dựa trên thuật toán FP-Growth tốt hơn rất nhiều so với giải thuật dựa trên thuật toán Apriori trên phƣơng diện thời gian thực hiện và các hƣớng mở rộng thuật toán.

Đầu tiên, chúng ta sẽ so sánh giải thuật WFIM với một số giải thuật khác nhƣ MINWAL, WFIM (Apriori), FP-Growth. Thuật toán WFIM có 2 cải tiến so với các thuật toán còn lại. Cải tiến thứ nhất là cách mô tả trọng số mới, khoảng trọng số và ngƣỡng trọng số nhỏ nhất. Cải tiến thứ hai là sử dụng phƣơng pháp tập mục lớn dần để khai phá tập mục thƣờng xuyên có trọng số.

Để đánh giá hiệu năng của 2 cải tiến trên, ngƣời viết so sánh thuật toán với WFIM với thuật toán MINWAL, WFIM (Apriori) và FP-Growth.

Tiếp theo, ngƣời viết phân tích hiệu quả của các khoảng trọng số khác nhau và các ngƣỡng trọng số tối thiểu khác nhau. Cho thấy số lƣợng tập mục thƣờng xuyên có trọng số và thời gian thực hiện có thể giảm bớt nhờ việc điều chỉnh khoảng trọng số và ngƣỡng trọng số nhỏ nhất.

Và cuối cùng là khả năng mở rộng tốt với số lƣợng giao tác lớn trong các tập dữ liệu. Bảng 3.1. Tổng hợp số liệu thực tế Tập dữ liệu Kích thƣớc Số giao tác Số mục AM Connect 12.14M 67557 150 43 (43) Mushroom 0.83M 8124 120 23 (23) T10I4DxK 10.12–50.6M 200K-1000K 1000 10 (31)

Một phần của tài liệu (LUẬN văn THẠC sĩ) khai phá tập mục thường xuyên có trọng số trên cơ sở dữ liệu giao tác (Trang 58 - 59)

Tải bản đầy đủ (PDF)

(84 trang)