Trong thực tế của các ứng dụng nhân dạng mẫu, đơn giản ta chỉ cần sử dụng một luật quyết định như các công thức (1-2a) và (1-7c) khi đó sẽ tạo ra nhiều biên quyết định, và rất dễ xuất hiện nhiễu ở trong dữ liệu, ảnh hưởng đến độ chính xác của các tính toán phân lớp. Nhiễu mẫu nằm gần biên quyết định có thể thay đổi lớp được gán chỉ với một điều chỉnh nhỏ. Nghĩa là thực tế, phần lớn các mẫu mang đặc điểm của cả 2 lớp. Đối với các mẫu như vậy, thích hợp cho vệc đặt chúng trong một lớp đặc biệt để có thể xem xét kỹ hơn. Điều này chắc chắn phải trong một số ứng dụng, ví dụ như, trong lĩnh vực y tế, nơi ranh giới giữa bình thường và khác thường là cần phải phân tích thêm. Một cách giải quyết là gắn một sự định tính(qualifications) trong việc tính toán xác suất hậu nghiệm P(ωi|x) cho lớp ωi. Chẳng hạn chúng ta gắn định tính "definite" nếu xác suất lớn hơn 0.9, "probable" nếu xác suất giữa 0.9 và 0.8, và "possible" nếu xác suất bé hơn 0.8. Theo cách này thì với nút chai có case 55 (xem hình 11) sẽ được phân lớp là một "possible" cork của lớp "super", và case 54 là một "probable" cork của lớp "average".
Thay vì gắn mô tả định tính vào lớp nhận được, một phương pháp khác được sử dụng trong một số trường hợp nhất định đó là quy định cho sự tồn tại của một lớp đặc biệt gọi là lớp từ chối hay là miền quyết định (reject region).
Ký hiêu:
ω*: lớp được phân;
ωi: lớp với xác suất hậu nghiệm cực đại, chẳng hạn P(ωi|x) = max P(wj|x) với mọi lớp ωij # ωi.
Luật Bayes có thể viết như sau ω*= ωi
Bây giờ ta quy định xác suất hậu nghiệm của một nút chai phải cao hơn nhiều so với một ngưỡng từ chối (reject threshold) nhất định λr, nếu không nó sẽ được phân
vào reject class wr. Công thức Bayes được viết lại như sau:
(1-14)
Khi tính toán tỉ số hợp lý (likelihood ratio) với tỷ số xác suất tiên nghiệm
(prevalence ratio), thì ta phải nhân tỉ số này với (1-λr)/λr. Một lớp c không bao giờ có
một rejection nếu λr < (c-1)/c, do đó λr Є [(c-1)/c, 1]. * ( | ) ( | ) i i r r i r if P x if P x
Chúng ta sẽ minh họa khái niệm reject class sử dụng dữ liệu cork stoppers. Giả sử rằng một reject threshold λr = 0.7 là ngưỡng được quy định. Tính biên quyết định cho reject class là đủ để xác định hàm phân lớp với các xác suất tiên nghiệm P(ω1) = 1-λr = 0.3, P(ω2) = 1-λr = 0.7. Các đường thẳng quyết định là các đường nghiêng và giao với trục tung tại PRT10=15.5 và PRT10=20.1. Chú ý rằng hai đường này có xu hướng đối xứng nhau qua đường thẳng quyết định đã được xác định. Hình 12 là biểu đồ phân tán với các đường quyết định mới. vùng ở giữa hai đường thẳng là reject region.
Chúng ta hãy xem các ma trận phân lớp hiển thị trong Hình 13. Nhớ lại một chút ta sẽ thấy rằng có 4 mẫu của lớp 1 và 5 mẫu của lớp 2 bị phân lớp sai, là nằm trong reject region chiếm 9% số mẫu. Số lượng phân lớp sai bây giờ cho lớp 1 là 1mẫu và cho lớp 2 là 5 mẫu, tổng số lỗi là 6%.
Chương 3 Phân lớp Naive Bayes