Lựa chọn thuộc tính liên quan đến quá trình lựa chọn một tập con của các thuộc tính liên quan từ một tập các thuộc tính ban đầu. Lựa chọn thuộc tính làm giảm số lượng các thuộc tính cho đầu vào các mô hình nhằm làm giảm chi phí thu thập dữ liệu và chi phí tính toán. Hơn nữa, nó không những mang lại kết quả chính xác hơn mà còn nhỏ gọn và dễ hiểu hơn. "Lựa chọn thuộc tính, như là một bước tiền xử lý cho quá
trình học máy, rất hiệu quả trong việc giảm chiều, loại bỏ dữ liệu không phù hợp, tăng độ chính xác, và cải thiện toàn diện kết quả" (Kira & Rendell, 1992). Lựa chọn thuộc tính bao gồm các lựa chọn riêng lẻ hoặc nhóm nhỏ. Lựa chọn thuộc tính riêng lẻ xếp các thuộc tính riêng biệt theo một số liệu cụ thể mà lựa chọn nhóm có tính đến sự tương tác và mối tương quan giữa các thuộc tính.
Trong bài toán phân lớp, lựa chọn thuộc tính nhằm mục đích chọn tập các thuộc tính có khả năng phân biệt cao. Nói cách khác là chọn tính thuộc tính có khả năng phân biệt các mẫu thuộc lớp khác nhau. Do thông tin của nhãn là sẵn có nên sự phù hợp của các thộc tính được đánh giá cao.
Lựa chọn thuộc tính chủ yếu ảnh hưởng đến giai đoạn đào tạo của bài toán phân lớp. Sau khi tạo ra các thuộc tính, thay vì trực tiếp huấn luyện dữ liệu với toàn bộ các thuộc tính, ta thực hiện lựa chọn tập các tính năng và sau đó huấn luyện dữ liệu với các tính năng đã được chọn. Các tính năng được chọn có thể là độc lập với các thuật toán học (như filter models) hoặc có thể lặp đi lặp lại sử dụng các thuật toán để đánh giá chất lượng các tính năng lựa chọn (như wrapper models). Các tính năng được lựa chọn cuối cùng được sử dụng cho giai đoạn phân lớp và dự báo.
Hình 9 - Lựa chọn thuộc tính trong phân lớp dữ liệu
Từ dữ liệu thu thập được và với thời gian phân tích là 3 tháng cho các thuê bao tôi thu thập được 101 thuộc tính. Chi tiết các thuộc tính này được mô tả tại phụ lục 1 của luận văn. Trong 101 thuộc tính này có 5 thuộc tính nằm trong dữ liệu quản lý khách hàng, 62 thuộc tính của thông tin chi tiết sử dụng dịch vụ của thuê bao và 34 thuộc tính thuộc dữ liệu hóa đơn và khuyến mại của thuê bao.
Hình 10 - Số lượng thuộc tính được thu thập
Từ các thuộc tính thu thập được ban đầu thực hiện lựa chọn và đánh giá từng thộc tính, thực hiện loại bỏ các thuộc tính có độ chính xác thấp và các thuộc tính có tỉ lệ lỗi cao bằng wrapper models.