Tham số thuật toán

Một phần của tài liệu Đồ án tốt nghiệp nghiên cứu datamining microsoft server 2005 với thuật toán microsoft association rules và microsoft decision tree (Trang 32)

3. Cách sử dụng Microsoft Association Rules

3.4 Tham số thuật toán

Thuật toán kết hợp rất nhạy cảm với việc cài đăt tham số thuật toán. Sau đây là danh sách những tham số cho Microsoft Association Algorithm.

• Minimum_Support là tham số giới hạn. Nó khai báo item yêu cầu hỗ trợ tối thiểu phải thấy đủđiều kiện như một itemset phổ biến. Giá trị của nó trong khoảng từ 0

đến 1. Giá trị mặc định là 0.03. Nếu giá trị này được đặt quá thấp. Ví dụ: 0.001 – thuật toán mất nhiều thời gian xử lý và đòi hỏi nhiều bộ nhớ.

Nếu Minimum_Support được đặt lớn hơn 1, nó được xem như giới hạn cho một số những trường hợp thay vì phần trăm.

Maximum_Support là tham số giới hạn. Nó xác định một ngưỡng hỗ trợ tối thiểu của itemset phổ biến. Giá trị của nó trong khoảng từ 0 đến 1, Giá trị mặc định là 0.001. Tham số này có thểđược dùng để lọc ra những item hay xảy ra.

Nếu Maximum_Support được thiết lập lớn hơn 1, nó được xem như giới hạn cho một số trường hợp thay vì tỷ lệ phần trăm.

Minimum_Probability là tham số giới hạn. Nó xác định khả năng tối thiểu cho một luật kết hợp. Giá trị của nó trong khoảng từ 0 đến 1. Mặc định là 0.4.

Minimum_Importance là tham số giới hạn cho luật kết hợp. Những luật ít quan trọng hơn Minimum_Importance được tìm ra.

• Minimum_Itemset_Size chỉ rõ kích thước nhỏ nhất của một itemset. Mặc định là 0. Đôi khi không cần chú ý đến số lớn của một item nhỏ hơn. Chẳng hạn, có thể chỉ

quan tâm trong itemset có kích thướt lớn hơn 4.

Việc giảm bớt Minimum_Itemset_Size sẽ không giảm bớt thời gian tiến trình bởi vì thuật toán phải bắt đầu với itemset kích thướt 1 và tăng kích thướt lên từng bước.

• Maximum_Itemset_Count xác định số lớn nhất của các itemset. Nếu không

được chỉ ra, thuật toán sẽ tạo ra tất cả các itemset dựa vào Minimum_Support. Tham số

này tránh việc tạo ra số lớn nhất của các itemset. Khi có quá nhiều itemset, thuật toán chỉ giữ top n itemset dựa vào sốđiểm quan trọng của các itemset.

• Optimized_Prediction_Count được dùng để đặt số các item giới thiệu được hỏi bởi câu truy vấn dự đoán. Mặc định thuật toán sử dụng các luật với chiều dài là 2 cho dựđoán. Có thể tăng số này lên để có chất lượng dựđoán tốt hơn.

Một phần của tài liệu Đồ án tốt nghiệp nghiên cứu datamining microsoft server 2005 với thuật toán microsoft association rules và microsoft decision tree (Trang 32)