So sánh WFIM với các thuật toán khác

Một phần của tài liệu (LUẬN văn THẠC sĩ) khai phá tập mục thường xuyên có trọng số trên cơ sở dữ liệu giao tác (Trang 60 - 64)

Hình 3.2. Thời gian thực hiện so với FP-Growth (Tập dữ liệu Connect)

Hình 3.3. Số lượng tập mục thường xuyên so với các thuật toán khác (Tập dữ liệu Connect)

Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/

Hình 3.4. Thời gian thực hiện so với các thuật toán khác (Tập dữ liệu Connect)

Tất cả các thí nghiệm đều cho thấy rằng trong phần lớn trƣờng hợp, thuật toán WFIM đều có hiệu năng tốt hơn so với các thuật toán còn lại là MINWAL, WFIM (Apriori) và FP-Growth.

Trƣớc tiên, chúng ta hãy đánh giá hiệu năng trên tập dữ liệu Connect. Hình 3.1 và 3.2 cho thấy thuật toán WFIM tạo ra ít tập mục thƣờng xuyên có trọng số hơn và chạy nhanh hơn so với thuật toán FP-Growth. Hơn thế nữa, số lƣợng tập mục thƣờng xuyên có trọng số tìm thấy nhỏ hơn khi khoảng trọng số giảm xuống.

Trong hình 3.3, số lƣợng tập mục thƣờng xuyên có trọng số thuật toán WFIM (Apriori) tạo ra ít hơn so với thuật toán MINWAL và FP-Growth vì thuật toán WFIM (Apriori) có thể giảm số lƣợng tập mục thƣờng xuyên có trọng số và thời gian thực hiện nhờ điều chỉnh khoảng trọng số trong khi MINWAL không sử dụng khoảng trọng số. Tuy nhiên trong hình 3.4, thuật toán FP-Growth lại chạy nhanh hơn so với 3 thuật toán còn lại vì thuật toán FP-Growth sử dụng mô hình tập mục lớn dần nên không cần tạo ra các tập ứng viên và kiểm tra cũng nhƣ duyệt CSDL giao tác nhiều lần.

Từ hình 3.1 cho tới hình 3.4, chúng ta có thể thấy rằng thuật toán WFIM có thời gian thực hiện ngắn hơn so với các thuật toán khác. Ngoài ra, số lƣợng tập mục thƣờng xuyên có trọng số phát hiện đƣợc bằng thuật toán WFIM ít hơn so với số lƣợng tập mục thƣờng xuyên có trọng số phát hiện bởi MINWAL và FP-Growth.

Hình 3.5. Thời gian thực hiện so với các thuật toán khác (Tập dữ liệu Mushroom)

Hình 3.6. Thời gian thực hiện so với các thuật toán khác (Tập dữ liệu Mushroom)

Từ hình 3.5 tới hình 3.6 thể hiện kết quả thử nghiệm hiệu năng trên tập dữ liệu Mushroom với khoảng trọng số từ 0,4 tới 0,9. Thuật toán WFIM vẫn thực hiện tốt

Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/

hơn so với các thuật toán còn lại trên tập dữ liệu này. Khi ngƣỡng hỗ trợ giảm xuống, sự khác biệt của các thông số hiệu năng trở nên lớn hơn. Nhƣ với hình 3.5, số lƣợng tập mục thƣờng xuyên có trọng số tìm thấy của thuật toán WFIM tăng lên khi ngƣỡng hỗ trợ giảm. Tuy nhiên, có thể thấy số lƣợng tập mục thƣờng xuyên có trọng số tìm thấy bởi MINWAL và FP-Growth tăng lên nhiều hơn đáng kể.

Trong hình 3.5 và 3.6, chúng ta có thể thấy rằng các giải thuật dựa trên mô hình tập mục lớn dần, WFIM và FP-Growth, có thời gian thực hiện ngắn hơn các thuật toán dựa trên thuật toán Apriori, MINWAL và WFIM (Apriori). Sự khác biệt càng lớn khi ngƣỡng hỗ trợ giảm xuống.

Bảng 3.2. Hiệu năng đối với các ngưỡng trọng số khác nhau

Ngƣỡng hỗ trợ tối thiểu trong tập dữ liệu Connect Số lƣợng WFI WR : 0,5 – 1,5 min_weight : 1,5 Số lƣợng WFI WR : 0,5 – 1,5 min_weight : 1,0 Số lƣợng WFI WR : 0,5 – 1,5 min_weight : 0,5 64179 (95%) 125 784 1471 60801 (90%) 690 2346 5312 54046 (80%) 2769 2989 3044 47290 (70%) 3997 4089 4093

Bảng 3.2 cho thấy số lƣợng tập mục thƣờng xuyên có trọng số(WFI) với các ngƣỡng trọng số khác nhau, ta có thể thấy thuật toán WFIM tìm thấy ít tập mục thƣờng xuyên có trọng số hơn khi sử dụng các ngƣỡng hỗ trợ khác nhau. Ví dụ, khi ngƣỡng hỗ trợ là 90%, khoảng trọng số là 0,5-1,5 và ngƣỡng trọng số là 0,5 thì số lƣợng tập mục thƣờng xuyên tìm đƣợc là 5312. Tuy nhiên, số lƣợng tập mục thƣờng xuyên có thể giảm xuống còn 2346 khi ngƣỡng trọng số nhỏ nhất là 1,0 và giảm nhiều hơn nữa khi ngƣỡng trọng số nhỏ nhất là 0,5. Bằng cách này, có thể tìm đƣợc số lƣợng thích hợp tập mục thƣờng xuyên có trọng số bằng cách điều chỉnh ngƣỡng trọng số.

Một phần của tài liệu (LUẬN văn THẠC sĩ) khai phá tập mục thường xuyên có trọng số trên cơ sở dữ liệu giao tác (Trang 60 - 64)

Tải bản đầy đủ (PDF)

(84 trang)