- Mở đầu
3.4.1 Giới thiệu
Một Confusion matrix (Kohavi và Provost, 1998) được dịch là ma trận nhầm lẫn, ma trận lẫn lộn hay còn một tên gọi khác là ma trận sai số. Trong lĩnh vực trí tuệ nhân tạo, ma trận nhầm lẫn được sử dụng như một công cụ trực quan trong học có giám sát (supervised learning) hoặc học không có giám sát (inunsupervised learning), nó là điển hình của ma trận so khớp (matching matrix). Mỗi một cột trong ma trận mô tả các trường hợp trong một lớp dự đoán, trong khi đó mỗi một dòng trong ma trận mô tả các trường hợp trong một lớp thực tế. Các ô giao của cột và dòng chứa các giá trị là số trường hợp hoặc số tỉ lệ % hoặc xác suất xuất hiện để biểu thị một cách định lượng cho sự phân biệt các lớp. Một lợi ích của ma trận nhầm lẫn là nó cho ta thấy khi hệ thống có sự không phân biệt rõ ràng giữa 2 lớp.
Khi tập dữ liệu là không cân bằng, số lượng mẫu trong các lớp rất khác nhau, tỉ lệ lỗi của việc phân lớp không đại diện cho hoạt động thật sự của sự phân lớp này.
Cho ví dụ, xét một mô hình dự báo cho 10,000 yêu cầu bảo hiểm cho dù có một số trường hợp gian lận. Mô hình này dự đoán chính xác 9,700 trường hợp không gian lận, và 100 trường hợp gian lận. Mô hình này cũng dự báo không chính xác 150 trường hợp không là gian lận để được gian lận, và 50 trường hợp có gian lận để được không gian lận. Ma trận nhầm lẫn được trình bày như sau:
Lớp dự đoán
Không gian lận 9700 150
Gian lận 50 100
Bảng 3.3 Một ma trận nhầm lẫn đơn giản (2 x 2).
Một ví dụ khác, mô hình xem xét cho 3 loại thú vật là mèo, chó và thỏ. Có 8 con mèo, mô hình dự đoán là 5 mèo và 3 chó. Có 6 con chó, mô hình dự đoán là 2 mèo, 3 chó và 1 thỏ. Có 13 con thỏ, mô hình dự đoán là 2 chó và 11 thỏ. Ma trận nhầm lẫn sẽ như sau: Lớp dự đoán L ớp t hự c tế Mèo Chó Thỏ Mèo 5 3 0 Chó 2 3 1 Thỏ 0 2 11 Ví dụ: Bảng 3.4 Một ma trận nhầm lẫn (3 x 3)
Hình có bảng sau cho thấy việc sử dụng ma trận nhầm lẫn cho sự nhận biết âm vị (phoneme) khi liên kết và huấn luyện nhận dạng âm vị theo mô hình HMM. Các giá trị số thể hiện bằng tỉ lệ %.
Hình 3.7 Bảng nhầm lẫn có chứa ma trận nhầm lẫn với sự nhận biết các nguyên âm trong ngôn ngữ Hungarian.
Ô đầu tiên của dòng đầu tiên cho biết nguyên âm /a/ được nhận biết là /a/ với
99.1%.
Ô thứ hai của dòng đầu tiên cho biết nguyên âm /a/ được nhận biết là /a:/ với 0%. Ô đầu tiên của dòng thứ hai cho biết nguyên âm /a:/ được nhận biết là /a/ với 0.7%. Ô thứ hai của dòng thứ hai cho biết nguyên âm /a:/ được nhận biết là /a:/ với 99.3%. ..vv.
Ví dụ:
Hình có bảng sau cho thấy việc sử dụng ma trận nhầm lẫn với 39 âm vị (phoneme) trong ngôn ngữ tiếng Anh khi liên kết và huấn luyện theo mô hình HMM.
Hình 3.8 Bảng nhầm lẫn có chứa ma trận nhầm lẫn cho 39 âm vị (phoneme) trong ngôn ngữ tiếng Anh.
N
N