Như trờn, tỷ lệ sai số phải được biết một cỏch chớnh xỏc.
20.6.3.3. Ma trận mập mờ (Befuddlement)
Sai sốước lượng bỡnh phương trung bỡnh thực tế là
pTB pTB K i i i i N p p N MSEE 1 1 1 1 (56) trong đú ma trận B cú cỏc phần tử K i ml li ml ml C C B 1 2 1 (57)
trong đúml là hàm delta Kronecker, chẳng hạn,
1 , 0 1 , 1 m m ml (58)
Chỉ phụ thuộc vào ma trận kết hợp, B là một biểu thức của cỏc tỷ lệ sai số bộ phõn lớp. Nú được gọi là ma trận mập mờ(Befuddlement) để trỏnh sự kết hợp. Cỏc phần tử của ma trận này là khụng õm. Nếu bộ phõn lớp là tốt (chẳng hạn, cỏc phần tử ngoài đường chộo của C nhỏ) thỡ B xấp xỉ ma trận kết hợp bằng cỏch thay 1 - cij vào
đường chộo.
Giống như với B, cỏc phần tử của p và đều khụng õm. Vỡ thế, số hạng thứ hai của biểu thức (56) cú thể khụng bao giờ õm và khụng thể giảm MSEE, khụng cú ảnh hưởng đến p và nhận được.
Khi bộ phõn lớp khụng cú sai số (chẳng hạn, khi C = I), tất cả cỏc phần tử của B
đều là 0 và số hạng thứ hai suy giảm dần. Điều này để lại số hạng thứ nhất khi sai số bộước lượng chỉ cú được từ kớch thước mẫu giới hạn. Do đú, theo lý thuyết, ta cú thể đỏnh giỏ cỏc tỷ lệ với mức độ chớnh xỏc bất kỳ mong muốn (thậm chớ với bộ ước lượng kộm) bằng cỏch xem xột một lượng đối tượng đủ lớn.
Biểu thức (56) cũng cho phộp ta so sỏnh cỏc bộ phõn lớp khỏc nhau để chọn ra một bộ hỗ trợ tốt nhất cho việc đỏnh giỏ tỷ lệ. Căn cứ vào ma trận kết hợp của một bộ phõn lớp riờng biệt, ta cú thể tớnh thành phần mập mờ của MSEE (vớ dụ, pTB) mà bộ phõn lớp sẽđúng gúp. Bộ phõn lớp đúng gúp ớt sai số mập mờ nhất là tốt hơn cho cụng việc đỏnh giỏ tỷ lệ.
Với một bộ phõn lớp tồi, thành phần sai số mập mờ trong biểu thức (56) sẽ bị chi phối và đũi hỏi thờm nhiều mẫu để khắc phục những tỏc động phõn lớp sai. Núi cỏch khỏc, nếu bộ phõn lớp đủ tốt sao cho thành phần sai số mập mờ ớt hơn đỏng kể so với
thành phần sai số lấy mẫu, thỡ sự cải thiện vượt bậc của bộ phõn lớp cú thể khụng đỏng giỏ so với kết quả của sự cố gắng.
20.6.3.4. Sự mập mờ hai lớp
Bõy giờ chỳng ta quay trở lại với trờng hợp hai lớp. Nếu 1 và 2 nhỏ, ma trận mập mờ gần giống với 2 2 1 1 B (59)
và sai số mập mờđược cho bởi
2 1 2 1 2 2 1 2 1 2 p T B p (60) Bởi vỡ chỉ xuất hiện như một tổng, nờn chỳng đơn thuần chỉ cú tỏc dụng nhõn tỷ lện trong trường hợp này. Hơn nữa, nếu p nhỏ (chẳng hạn, lượng nữ là hiếm), thỡ nú bằng2(phõn loại nhầm thành nam) cú mặt nhiều nhất trong MSEE và ngược lại nếu
p lớn. Nếu sự hoà hợp xấp xỉ như nhau (p 0.5), thỡ cả hai sai số đều phiền toỏi như nhau.
Thường thỡ một bộ phõn lớp cú một tham số điều chỉnh để điều khiển việc cõn bằng cỏc yếu tố khỏc nhau giữa1và2. Ta cú thể giảm yếu tố tốn kộm nhất bằng cỏch tăng cường cỏc yếu tố khỏc. Trong trường hợp đú, biểu thức (60) đưa ra cỏch tối ưu hoỏ cỏch thiết lập.
20.7. TỔNG KẾT NHỮNGĐIỂM QUAN TRỌNG
1. Cỏc đặc trưng sử dụng đối với sự phõn lớp phải phõn biệt đối xử, tin cậy, độc lập và ớt số.
2. Một tập huấn luyện được sử dụng để thiết lập cỏc tham số phải là điển hỡnh và khụng bị lệch.
3. Hiệu suất bộ phõn lớp (tỷ lệ sai số) cú thểđỏnh giỏ bằng cỏch phõn lớp một tập thử nghiệm đó biết.
4. Cỏc đặc trưng hiệu quả cú sự thay đổi nhỏ trong phạm vi lớp, tương quan thấp và sự tỏch biệt thay đỏi được chuẩn hoỏ giữa cỏc giỏ trị trung bỡnh của lớp. 5. Định lý Bayes [biểu thức (11)] đưa ra xỏc suất của một đối tượng theo từng lớp
riờng biệt.
6. Quy tắc quyết định Bayes tối thiểu hoỏ độ rủi ro khi thao tỏc một bộ phõn lớp. 7. Cỏc tham số chưa biết cú thểước lượng theo khả năng xảy ra tối đa và cỏc kỹ
thuật Bayes.
8. Một mạng nơ ron là một sự tập hợp cỏc phần tử xử lý giống nhau đó được kết nối và được sắp xếp theo lớp. Mối nỳt tớnh toỏn một tổng trọng số cỏc đầu vào của nú và chuyển đầu ra của nú qua cỏc nỳt trong lớp tiếp theo.
9. Trong một mạng nơ ron sử dụng để nhận dạng mẫu, vec tơđặc trưng được đặt vào lớp đầu tiờn và lớp cuối cựng đưa ra một sự phõn cụng cụng việc.
10. Cỏc mạng nơ ron được huấn luyện bằng cỏch ỏp dụng lặp đi lặp lại tập huấn luyện, với những điều chỉnh nho nhỏ tạo ra cỏc trọng số liờn kết tại mỗi bước. 11. Một bộ phõn lớp mạng nơ ron là mục tiờu của việc huấn luyện xếp chồng,
trong đú nú tựđiều chỉnh với tập huấn luyện.
12. Hiệu suất của một bộ phõn lớp mạng nơ ron được huấn luyện tốt thường giống hiệu suất của một bộ phõn lớp được thiết kế tốt. Tri thức ớt ỏi về bài toỏn
rất cần thiết cho việc phỏt triển bộ phõn lớp mạng nơ ron, nhưng cú sẵn tri thức tối thiểu đối với quỏ trỡnh thực hiện quyết định.
13. Cỏc sai số phõn lớp đưa sự sai lệch vào trong một ước lượng tỷ lệ. Với một bộ ước lượng bị lệch, sự đỏng giỏ khụng hội tụ vềđỳng tỷ lệ cơ bản khi kớch thước mẫu tăng.
14. Sự lệch lạc (bias) cú thể được loại bỏ khỏi một ước lượng tỷ lệ bằng cỏch nhõn vec tơ của cỏc tỷ lệ quan sỏt được với nghịch đảo của ma trận kết hợp [biểu thức (55)]. Một kớch thức mẫu lớn mạng lại cỏc ước lượng tỷ lệ với độ chớnh xỏc tuỳ ý.
15. Với một bụh ước lượng khụng bị lệch, sai số ước lượng bỡnh phương trung bỡnh cú hai thành phần, một là do lấy mẫu và một là do phõn lớp sai [biểu thức (56)]. Cả hai thành phần đều tiờn tới 0 khi kớch thước mẫu lớn.
16. Một bộ phõn lớp tốt hơn cho việc đỏnh giỏ tỷ lệ là bộ phõn lớp mà cú sai số mập mờ, pTB ,thấp.
BÀI TẬP
1. Trọng lượng trung bỡnh của một quả cam là 100 gam, với độ lệch tiờu chuẩn là 25 gam. Trọng lượng trung bỡnh của một quả bưởi là 180 gam, với độ lệch tiờu chuẩn là 40 gam. Những quả cam thường bằng hay lớn gấp rưỡi những quả bưởi. Bảy quả trong một cỏi hộp riờng biệt nặng 80, 100, 120, 140, 160 và 200 gam. Hộp đú chứa được bao nhiờu quả cam?
2. Một trường đại học cú số lượng sinh viờn nam và nữ xấp xỉ bằng nhau. Trong một bộ ước lượng tỷ lệ giới tớnh sinh viờn hai lớp, hai sai số phõn loại nhầm luụn luụn bằng nhau, nhưng chỳng cú thể rỳt gọn bằng cỏch cải tiến thuật giải hơn nữa. Giỏ trị nào của 1 và 2 sẽ tạo ra sai số mập mờ bằng với sai số lấy mẫu? 1 và 2 cú thể thấp đến bao nhiờu để sai số mập mờ chỉ bằng 1/8 sai số lấy mẫu?
3. Trờn sõn một trường đại học nào đú, số lượng nam chiếm 3/4 nhúm sinh viờn. trong một bộ ước lượng giới tớnh sinh viờn hai lớp hiện cú, sai số phõn lớp nhầm của cả hai là 0.25. Cú bao nhiờu sinh viờn phải được phỏng vấn để giảm MSEE xuống cũn 1%? Tỷ lệ sai số cú thể giảm bằng cỏch cải tiến thuật giải. Bạn cố gắng giảm sai số nào để giảm bớt kớch thước mẫu yờu cầu? Nếu bạn chỉ giảm một sai số, giỏ trị nào của 1 và 2 sẽ tạo ra sai số mập mờ bằng nửa sai số lấy mẫu? Cú bao nhiờu sinh viờn phải được phỏng vấn để giảm MSEE xuống cũn 1%?
DỰ ÁN
1. Phỏt triển một bộ phõn lớp Bayes hai lớp, hai đặc trưng và huấn luyện nú để định rừ số nam và nữ bằng cỏch dựng chiều cao và trọng lượng cơ thể như cỏc đặc trưng. Viết một bài ngắn gọn mụ tả quỏ trỡnh thiết kế, huấn luyện và thực hiện của bộ phõn lớp.
2. Phỏt triển một chương trỡnh phõn lớp Bayes mà cú thể xỏc định sự thớch hợp của cỏc quõn bài (rụ, cơ, chuồn, bớch) trong cỏc ảnh số của biểu tượng thớch hợp. Kiểm tra chương trỡnh bằng một người đỏnh bài.
3. Huấn luyện một mạng nơ ron để phõn lớp cỏc vec tơ ngẫu nhiờn từ ba phõn bố. Sử dụng một tập huấn luyện nhỏ, chỉ ra sai số trờn tập huấn luyện và trờn một tập thử nghiệm riờng biệt như một hàm khối lượng của quỏ trỡnh huấn luyện. Đưa ra bằng thực nghiệm để làm sỏng tỏ việc huấn luyện xếp chồng.
4. Sử dụng cỏc lớp, đặc trưng, tập huấn luyện và tập thử nghiệm như nhau, so sỏnh hiệu suất của một mạng nơ ron và một bộ phõn lớp Bayes. Viết một bài ngắn gọn để tổng kết những điều thuận lợi và khụng thuận lợi của chỳng.