Các cơ sở dữ liệu trong thực tế thương có rất nhiều thuộc tắnh, những thuộc tắnh cần thiết cho lĩnh vực mà bài toán khai phá dữ liệu mà chúng ta đang xử lý không phải là tất cả. Việc lựa chọn những thuộc tắnh phù hợp để tiến hành các phương pháp khai phá dữ liệu là rất cần thiết. Các thuộc tắnh dư thừa không cần thiết trong quá trình khai phá tri thức không chỉ làm cho bài toán trở lên phức tạp mà còn dẫn đền một thực tế là số tri thức được phát hiện sẽ không nhiều vì phải phụ thuộc vào cả những thuộc tắnh không được coi là
Số hóa bởi Trung tâm Học liệu Ờ Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
đặc trưng của bài toán. Mục tiêu của việc lựa chọn thuộc tắnh là phải đưa ra được một tập tối ưu các thuộc tắnh trong cơ sở dữ liệu. Từ đó các luật sinh ra trong cơ sở dữ liệu sẽđạt được hiệu quả cao nhất, dữ liệu mà chúng ta thực sự phải làm việc sẽ nhỏ đi rất nhiều.
Có hai phương pháp lựa chọn thuộc tắnh thường được sử dụng là lọc và bọc. Trong đó thì phương pháp lọc thực chất là tìm những thuộc tắnh tối thiểu trong tập các thuộc tắnh, chọn ra các thuộc tắnh có độ phù hợp cao hơn theo tiêu chuẩn sau:
+ Lựa chọn những thuộc tắnh là cho số trường hợp thoả mãn tăng nhanh. + Chọn những thuộc tắnh có it giá trị khác nhau.
Phương pháp này là khá đơn giản và tốc độ là tương đối nhanh. Phương pháp thứ hai sử dụng thuật toán quy nạp đánh giá. Tư tưởng của thuật toán này là sử dụng 3 cách tìm kiếm: tìm kiếm toàn bộ, tìm kiếm kinh nghiệm và tìm kiếm không xác định.
Phương pháp này sử dụng các thuật toán quy nạp nên độ phức tạp lớn nhưng bù lại thì kết quả mang lại sẽ chắnh xác và toàn diện hơn.