Lựa chọn tập thuộc tính

Trong thực tế, dữ liệu cần phân tích có thể lên đến hàng trăm thuộc tính, trong đó nhiều thuộc tính không liên quan hay không đóng góp đáng kể đến mục đích phân tích dữ liệu. Lấy ví dụ, một cửa hàng bán đĩa CD muốn phân loại các khách quen (dữ liệu lưu trữ trong database) vào hai nhóm với tiêu chí là họ sẽ mua hay không mua một mẫu sản phẩm mới của họ để xác định chiến lược kinh doanh. Họ sẽ tiến hành phân tích dữ liệu của từng khách hàng để phân loại, dữ liệu này bao gồm thông tin cá nhân của khách hàng và hồ sơ mua bán tại cửa hàng này. Như vậy, mỗi mẫu dữ liệu có thể bao gồm hàng trăm thuộc tính và rất nhiều trong số đó không đóng góp gì cho việc phân tích như địa chỉ, số điện thoại vv…

Vấn đề đặt ra ở đây là làm sao loại bỏ được những thuộc tính không cần thiết đó hay nói cách khác là chọn ra một tập con các thuộc tính có kích thước nhỏ nhất sao cho khi tiến hành phân tích dữ liệu trên tập các thuộc tính này ta thu được một cấu trúc phân bố dữ liệu vào các lớp tương ứng có độ sai lệch ít nhất so với cấu trúc phân bố thu được nếu ta phân tích trực tiếp trên tập dữ liệu thô (theo một tiêu chuẩn

nào đó được định nghĩa trước). Đây là một vấn đề rất quan trọng vì khi quá trình phân tích dữ liệu chỉ tập trung trên tập tối ưu các thuộc tính rút gọn đó thì chi phí tính toán sẽ giảm đi đáng kể và các mẫu tìm được sẽ đơn giản dễ hiểu đồng thời đảm bảo được tính chính xác, tránh được các trường hợp kết quả phân tích không chính xác do nhiễu (đa phần là xuất hiện ở các thành phần dữ liệu không liên quan đến mục đích phân tích)

Giả sử với mỗi mẫu dữ liệu ta có n thuộc tính thì sẽ có 2n tập con các thuộc tính, do đó rõ ràng tiếp cận theo hướng vét cạn để giải quyết vấn đề này là không hiệu quả. Để giải quyết vấn đề này các hướng tiếp cận thông thường là các phương pháp Heuristic, các phương pháp này chủ yếu áp dụng nguyên lý Greedy, đưa ra những quyết định tối ưu tại từng thời điểm để thu gọn không gian tìm kiếm và tiếp cận lời giải tối ưu. Thực nghiệm cho thấy những phương pháp này khá hiệu quả và thường đưa ra những lời giải “gần tối ưu” ( xấp xỉ lời giải tối ưu ).

Những quyết định “tối ưu” tại mỗi thời điểm thường là xác định những thuộc tính nào là có ảnh hưởng lớn đến sự phân bố dữ liệu và những thuộc tính nào có ảnh hưởng không đáng kể bằng các phương pháp, tiêu chuẩn thống kê ( giả sử là các thuộc tính độc lập xác suất với nhau )

Các mô hình Heuristic nói trên thường là sự kết hợp của các phương pháp cơ bản sau đây :

• Stepwise forward selection : Quá trình bắt đầu với một tập rỗng các thuộc tính, ở mỗi bước thuộc tính “tốt” nhất trong các thuộc tính chưa thuộc tập tối ưu sẽ được xác định thông qua một tiêu chuẩn nào đó và them vào tập tối ưu.

Hình 2.15 Forward Selection

• Stepwise backward elimination : Quá trình sẽ bắt đầu với toàn bộ các thuộc tính. Ở mỗi bước những thuộc tính “tồi” nhất sẽ được xác định và bỏ đi.

• Kết hợp Stepwise forward selection và Stepwise backward selection : Tại mỗi bước chọn ra thuộc tính “tốt” nhất them vào tập tối ưu vả bỏ đi những thuộc tính “tồi” nhất trong tập các thuộc tính còn lại.

• Cây quyết định (Decision Tree) : áp dụng các thuật toán phổ biến trên cây quyết định như ID3, C4.5, CART. Tại mỗi nút trong của cây có một test kiểm định thuộc tính “tốt” nhất, mỗi nút ngoài ứng với 1 class phân hoạch. Dữ liệu sẽ được đẩy từ trên xuống, những thuộc tính nào xuất hiện trên cây sẽ là những thuộc tính trong tập tối ưu.

Hình 2.17 Decision Tree Induction

Điều kiện dừng của các phương pháp trên có thể tùy biến, phụ thuộc vào bản chất của từng vấn đề, thường là sẽ có một ngưỡng kết thúc để dừng quá trình chọn

tập thuộc tính tối ưu. Ví dụ : điều kiện dừng của Forward Selection có thể là khi thuộc tính tốt nhất có độ đo tầm quan trọng nhỏ hơn ngưỡng hay với Backward Elimination thì điều kiện dừng có thể là khi độ đo tầm quan trọng của thuộc tính “tồi” nhất lớn hơn ngưỡng vv …

Dữ liệu bị thiếu (missing)

Dữ liệu bị nhiễu (noisy)