Đánh giá thuật toán - nghiên cứu khai phá luật kết- 123docz.net

Thuật toán khai phá luật kết hợp mờ được thử nghiệm và đánh giá theo nhiều tiêu chí như thời gian thực hiện (tốc độ), số lượng tập phổ biến và số lượng luật tin cậy, ảnh hưởng của các giá trị ngưỡng fminsup và fminconf, ảnh hưởng của kích thước CSDL (số trường và số bản ghi), tính hiệu quả tuỳ theo sự lựa chọn của toán tử T – norm, v.v.. Dữ liệu thử nghiệm là CSDL chẩn đoán bệnh tim mạch (tạo bởi George John), CSDL chẩn đoán bệnh đái đường và CSDL về các phương tiện giao thông vận tải (tạo bởi Drs. Pete Mowforth và Barry Shepherd)

+ Thử nghiệm: đo thời gian xử lý khi biến đổi giá trị fminsup. Các thông số khác (kích thước CSDL, fminconf, v.v..) được giữ cố định. Thời gian tìm kiếm phụ thuộc hoàn toàn vào ngưỡng fminsup.

Hình 7 – Thời gian xử lý tăng mạnh khi giảm giá trị fminsup

Giá trị fminsup (%) 15 10 8 6 4 3 2 1

Thời gian xử lý (s) 0.09 0.25 0.44 0.84 2.02 3.30 7.17 24.08

Như chúng ta đã biết, khi fminsup càng bé thì số lượng tập phổ biến tìm được càng lớn. Do đó, thời gian để thực hiện các hàm Join, Prune, Checking

trong thuật toán bảng 10 càng lớn. Kết quả là thời gian xử lý tăng theo hàm mũ khi giảm dần giá trị của ngưỡng fminsup.

Thời gian: đo số lượng tập phổ biến và số lượng luật tin cậy khi biến đổi ngưỡng fminsup. Tất cả các thông số khác (kích thước CSDL, fminconf, v.v..) đều cố định. Số lượng tập phổ biến và số lượng luật tin cậy phụ thuộc hoàn toàn vào sự thay đổi của giá trị ngưỡng fminsup:

Hình 8 - Số lượng tập phổ biến và luật tăng mạnh khi giảm dần fminsup

Giá trị fminsup(%) 30 20 10 8 6 4 2 1

Số lượng tập phổ biến 26 69 184 240 304 412 596 833

Số lượng luật tin cậy 2 25 105 141 178 267 418 665

+ Thử nghiệm: đo số lượng luật tin cậy khi thay đổi độ tin cậy tối thiểu fmincof. Các thông số khác của hệ thống (kích thước CSDL, fminsup, toán tử T-norm) được cố định

Giá trị fminconf(%) 10 0

95 90 85 80 75 70 65 60

Số lượng luật tin cậy 24 46 12

0 245 357 493 61 8 81 3 968 + Thử nghiệm: thời gian xử lý biến đổi theo kích thước dữ liệu ( tăng hoặc giảm số lượng thuộc tính):

Hình 10 - Thời gian xử lý tăng mạnh khi tăng nhẹ số lượng thuộc tính

Số lượng thuộc tính mờ 13 15 18 20 21 22

Thời gian xử lý (giây) 0.03

1 0.17 2 1.06 3 3.672 7.109 26.844 Từ biểu đồ trên, chúng ta thấy rằng thời gian xử lý tăng theo tốc độ hàm mũ khi ta tăng dần số lượng thuộc tính

+ Thử nghiệm: thời gian xử lý biến đổi theo kích thước dữ liệu (tăng hoặc giảm số lượng bản ghi):

Hình 11 - Thời gian xử lý tăng tuyến tính với số lượng bản ghi Số lượng bản ghi 271 1081 4321 1728 1 23416 69121 138241 Thời gian xử lý (giây) 0.06 3 0.09 4 0.14 1 0.375 0.719 1.375 2.375

Thời gian xử lý tăng tuyến tính khi ta tăng dần số lượng bản ghi trong CSDL. Biểu đồ trên cho thấy thời gian xử lý tăng gần như gấp đôi số lượng bản ghi hay số lượng giao dịch trong CSDL.

+ Thử nghiệm: số lượng tập phổ biến và số lượng luật tin cậy thay đổi theo phép toán T-norm (hàm min, tích đại số, tích chặn, tích Drastic):

Biểu đồ trên cho thấy rằng kết quả khai phá (số lượng tập phổ biến và số lượng luật tin cậy) thay dổi khá mạnh khi ta thay đổi toán tử T-norm. Điều này là hợp lý bởi độ hỗ trợ của một tập phổ biến phụ thuộc rất nhiều vào toán tử T – norm. Sử dụng hàm min và tích Drastic cho toán tử T-norm thì cho quá nhiều luật tin cậy so với khi sử dụng tích đại số và tích bị chặn. Nhớ rằng, số lượng luật tin cậy càng nhiều không đồng nghĩa với ưu điểm bởi điều mà người dùng mong đợi nhất lại là chất lượng của luật. Số lượng luật nhận được khi sử dụng tích đại số và tích bị chặn là chấp nhận được. Tuy nhiên, chất lượng của luật sinh ra khi sử dụng tích bị chặn lại không cao. Do đó, sự lựa chọn phù hợp nhất chính là tích đại số.

+ Thử nghiệm: số lượng tập phổ biến và luật tin cậy biến đổi theo giá trị ngưỡng gắn với mỗi tập mờ.

Hình 13 - Kết quả khai phá phản ánh sự thay đổi của ngưỡng được gắn với các tập mờ

Từ biểu đồ trên, chúng ta thấy rằng số lượng tập phổ biến và số lượng luật kết hợp tin cậy giảm dần khi tăng dần giá trị ngưỡng gắn với các tập mờ. Giá trị phù hợp của ngưỡng có thể do người dùng quyết định. Nếu người dùng muốn

thu được những tập phổ biến và luật “hẹp” thì họ phải tăng giá trị ngưỡng. Tập phổ biến “hẹp” ở đây hàm ý những tập phổ biến có độ hỗ trợ tuy nhỏ, nhưng chất lượng chúng thì đảm bảo. Ví dụ tập mờ Age_Old có giá trị ngưỡng là 0.5 hoàn toàn khác với tập mờ Age_Old có giá trị ngưỡng là 0.8. Cả hai đều ám chỉ cùng một tập mờ. Tuy nhiên tập có ngưỡng 0.5 bao hàm những người từ 60 tuổi trở lên, trong khi tập có ngưỡng 0.8 lại bao hàm những người có tuổi lớn hơn hoặc bằng 80. Rõ ràng, độ hỗ trợ của tập có ngưỡng 0.8 là nhỏ hơn, nhưng chất lượng biểu thị mức độ già của nó lại tốt hơn.