Tham số thuật tốn

Một phần của tài liệu Nghiên cứu data mining trong microsoft server 2005 với thuật toán microsoft association rule và microsoft decision tree (Trang 32 - 33)

3. Cách sử dụng Microsoft Association Rules

3.4Tham số thuật tốn

Thuật tốn kết hợp rất nhạy cảm với việc cài đăt tham số thuật tốn. Sau đây là danh sách những tham số cho Microsoft Association Algorithm.

• Minimum_Support là tham số giới hạn. Nĩ khai báo item yêu cầu hỗ trợ tối thiểu phải thấy đủđiều kiện như một itemset phổ biến. Giá trị của nĩ trong khoảng từ 0

đến 1. Giá trị mặc định là 0.03. Nếu giá trị này được đặt quá thấp. Ví dụ: 0.001 – thuật tốn mất nhiều thời gian xử lý và địi hỏi nhiều bộ nhớ.

Nếu Minimum_Support được đặt lớn hơn 1, nĩ được xem như giới hạn cho một số những trường hợp thay vì phần trăm.

Maximum_Support là tham số giới hạn. Nĩ xác định một ngưỡng hỗ trợ tối thiểu của itemset phổ biến. Giá trị của nĩ trong khoảng từ 0 đến 1, Giá trị mặc định là 0.001. Tham số này cĩ thểđược dùng để lọc ra những item hay xảy ra.

Nếu Maximum_Support được thiết lập lớn hơn 1, nĩ được xem như giới hạn cho một số trường hợp thay vì tỷ lệ phần trăm.

Minimum_Probability là tham số giới hạn. Nĩ xác định khả năng tối thiểu cho một luật kết hợp. Giá trị của nĩ trong khoảng từ 0 đến 1. Mặc định là 0.4.

Minimum_Importance là tham số giới hạn cho luật kết hợp. Những luật ít quan trọng hơn Minimum_Importance được tìm ra.

• Minimum_Itemset_Size chỉ rõ kích thước nhỏ nhất của một itemset. Mặc định là 0. Đơi khi khơng cần chú ý đến số lớn của một item nhỏ hơn. Chẳng hạn, cĩ thể chỉ

quan tâm trong itemset cĩ kích thướt lớn hơn 4.

Việc giảm bớt Minimum_Itemset_Size sẽ khơng giảm bớt thời gian tiến trình bởi vì thuật tốn phải bắt đầu với itemset kích thướt 1 và tăng kích thướt lên từng bước.

• Maximum_Itemset_Count xác định số lớn nhất của các itemset. Nếu khơng

được chỉ ra, thuật tốn sẽ tạo ra tất cả các itemset dựa vào Minimum_Support. Tham số

này tránh việc tạo ra số lớn nhất của các itemset. Khi cĩ quá nhiều itemset, thuật tốn chỉ giữ top n itemset dựa vào sốđiểm quan trọng của các itemset.

• Optimized_Prediction_Count được dùng để đặt số các item giới thiệu được hỏi bởi câu truy vấn dự đốn. Mặc định thuật tốn sử dụng các luật với chiều dài là 2 cho dựđốn. Cĩ thể tăng số này lên để cĩ chất lượng dựđốn tốt hơn.

Một phần của tài liệu Nghiên cứu data mining trong microsoft server 2005 với thuật toán microsoft association rule và microsoft decision tree (Trang 32 - 33)