Chương 2: Trích chọn thuộc tính
2.2. Tiêu chuẩn chọn lựa
Tất cả các chiến lược tìm kiếm đều có nhu cầu đánh giá một thuộc tính hoặc một tập con thuộc tính để xác định thuộc tính/tập con đó là tốt hay không tốt. Việc đánh giá này thường là phức tạp và có nhiều chiều đánh giá. Ví dụ, đánh giá có thể được đo lường theo những khía cạnh (1) Các thuộc tính được chọn lựa có làm tăng độ chính
xác của bộ phân lớp hay không và (2) Các thuộc tính được chọn lựa có giúp làm đơn giản các kết quả học do đó sẽ các kết quả này có thể dễ dàng để hiểu hay không…
Dưới đây là một số đo lường thường được sử dụng trong trích chọn thuộc tính.
2.2.1. Đo lường thông tin
Thông tin là một cách đo lường độ không ổn định của người nhận tin khi một người nhận tất cả các tin nhắn. Nếu người nhận tin biết được tin nhắn nào đang đến thì sự ngạc nhiên (uncertainty) của anh ta sẽ thấp. Trong trường hợp anh ta hoàn toàn không biết tin nhắn nào đang đến, chúng ta giả sử rằng tất có các tin nhắn có xác suất đến bằng nhau, thì sự ngạc nhiên của anh ta đối với tin nhắn đó là cao. Trong ngữ cảnh của phân lớp, các tin nhắn là các lớp. Giả sử U là một hàm đo lường độ không ổn định của lớp, nếu U có giá trị lớn có nghĩa là mức độ không ổn định cao.
Cho một hàm đo lường độ không ổn định U và P(ci) là tiền xác suất (prior probability) của lớp ci, thông tin thu được (information gain) từ một thuộc tính X, ký hiệu IG(X), được định nghĩa là sự khác biệt giữa độ không ổn định ban đầu (prior uncertainty) và độ không ổn định kỳ vọng (expected posterior uncertainty) khi sử dụng thuộc tính X.
Tiêu chí đánh giá thuộc tính dựa trên khái niệm thông tin thu được được thực hiện như sau: Trong 2 thuộc tính X và Y, thuộc tính X được chọn lựa dựa nếu IG(X) >
IG(Y). Điều này có nghĩa là một thuộc tính được chọn khi nó có thể làm giảm độ không ổn định nhiều hơn. Nói một cách khác, nếu một thuộc tính không thể làm giảm độ không ổn định thì thuộc tính đó là thuộc tính không liên quan (irrelevant).
2.2.2. Đo lường khoảng cách
Kiểu đo lường này cũng được biết đến như là đo lường khác biệt hoặc đo lường phân biệt. Đo lường này được thực hiện thông qua việc đo khoảng cách giữa các hàm xác suất điều kiện lớp. Ví dụ đối với trường hợp có 2 lớp, D(X) là khoảng cách giữa P(X|c1) và P(X|c2), luật đánh giá thuộc tính xây dựng dựa trên khoảng cách D(X) nói rằng, trong hai thuộc tính X và Y thuộc tính X được chọn nếu D(X) > D(Y). Mục đích của việc chọn lựa này là ta cố gắng tìm ra các thuộc tính sao cho hai lớp được phân chia (khoảng cách giữa 2 lớp) là xa nhất có thể được. Một khoảng cách lớn hơn cũng có nghĩa là sẽ dễ dàng hơn để phân chia hai lớp. Nếu P(X|c1) và P(X|c2) có giá trị bằng nhau thì D(X)=0, thuộc tính X không có vai trò gì trong việc phân chia hai lớp c1 và c2.
Ngược lại nếu D(X)=1 (P(X|c1)=0 và P(X|c2)=1 hoặc P(X|c1)=1 và P(X|c2)=0) thì D(X) đạt cực đại và việc phân chia hai lớp c1 và c2 lúc này là dễ dàng thực hiện nhất.
2.2.3. Đo lường phụ thuộc
Đo lường này cũng được biết đến như là đo lường mối quan hệ, đo lường mối liên hệ. Đo lường này được thiết kế để lượng hóa mối quan hệ giữa hai biến bằng việc nếu biết được giá trị một biến ta có thể dự đoán được giá trị của biến còn lại. Trong đánh giá thuộc tính, thay bằng việc kiểm tra một thuộc tính thay đổi thông tin thu thập được hoặc thay đổi kỳ vọng xác suất lớp như thế nào, thì chúng ta sẽ xem xét một thuộc tính liên hệ với một lớp như thế nào (mạnh hay yếu). Gọi R(X) là đo lường phụ thuộc giữa thuộc tính X và lớp C, ta chọn thuộc tính X dựa trên đo lường phụ thuộc với thuộc tính Y nếu R(X) > R(Y). Nói một cách khác, chúng ta chọn thuộc tính có mối liên hệ chặt chẽ với lớp C hơn. Nếu X và C là độc lập thống kê thì giữa X và Y sẽ không có mối liên hệ và việc loại bỏ thuộc tính X sẽ không làm ảnh hưởng đến việc phân lớp các thuộc tính còn lại. Nếu mỗi giá trị của thuộc tính X có mối liên hệ với một giá trị của lớp C, chúng ta kỳ vọng rằng R(X) sẽ có giá trị cực đại và thuộc tính X được chọn thuộc về lớp C.
2.2.4. Đo lường độ đồng nhất
Chúng ta nhận thấy rằng cả ba phương pháp đo lường ở trên đều sử dụng chung một cách là có gắng tìm ra các thuộc tính sao cho việc tuyên bố nó thuộc về lớp này mà không thuộc về lớp khác là thuyết phục nhất. Một hạn chế chung của cả ba phương pháp này là chúng không chỉ ra được mối liên hệ giữa hai thuộc tính tốt như nhau trong tập thuộc tính được chọn lựa, do đó đôi khi dẫn đến việc chọn “thừa” thuộc tính.
Đo lường độ đồng nhất (consistency measure) cố gắng tìm ra số lượng thuộc tính cần thiết nhỏ nhất có thể phân chia các các lớp sao cho độ đồng nhất giữa việc sử dụng các thuộc tính được chọn lựa này với việc sử dụng toàn bộ các thuộc tính là như nhau.
Một cách trực quan đo lường độ đồng nhất cố gắng tìm một tập thuộc tính con sao cho P(C|FullSet) = P(C|Subset). Tiêu chí đánh giá thuộc tính dựa trên đo lường độ đồng nhất được phát biểu như sau: Chúng ta nên chọn tập tối thiểu các thuộc tính mà tập các thuộc tính này có thể giữ được độ đồng nhất của dữ liệu như là toàn bộ các thuộc tính. Không đồng nhất xuất hiện khi hai thực thể có những giá trị thuộc tính tương tự nhau nhưng lại thuộc về hai lớp khác nhau. Sử dụng đo lường độ đồng nhất có thể loại bỏ được các thuộc tính thừa và thuộc tính không liên quan trong dữ liệu.
2.2.4. Đo lường chính xác
Kiểu đo lường này phụ thuộc vào bộ phân lớp. Cho một bộ phân lớp, trong rất nhiều khả năng có thể của các tập con thuộc tính, tập con thuộc tính được chọn là tập con cho kết quả dự đoán tốt nhất. Chúng ta thấy rằng phương pháp đo lường này hoàn toàn khác biệt với các phương pháp đo lường ở trên. Phương pháp này xuất hiện nhằm trả lời câu hỏi, nếu chúng ta muốn có một tập các thuộc tính có thể cải thiện độ chính xác của bộ phân lớp thì tại sao không sử dụng độ chính xác phân lớp như một đo lường ?. Tuy nhiên, cũng xuất hiện một số khó khăn đối với kiểu đo lường này đó là:
(1) Làm thế nào ước lượng được độ chính xác dự đoán thực sự và tránh được hiện tượng overfitting; (2) Sẽ rất mất thời gian để một bộ phân lớp học được từ các dữ liệu bằng một giải thuật nào đó.
Hình 2.3 [3-4] dưới đây thể hiện mối quan hệ giữa 5 kiểu đo lường được trình bày ở trên.
Hình 2. 2: Mối quan hệ giữa 5 kiểu đo lường