X Màutóc A1 Chiều cao A2 Cân năng A3 Dùng thuốc A4 Kết quả:y (Label) B
3 Overcast Hot High False Yes 4RainyMildHighFalseYes
3.4.2. Bàn luận và đánh giá độ chính xác của thuật tốn
Để đánh giá độ chính xác của hàm mục tiêu người ta dung ma trận nhầm lẫn (Confusion Matrix). Ma trận là bảng (hai chiều). Cách thức tạo bảng (ma trận): hàng: giá trị thực tế; cột: giá trị dự báo. Giả sử kết qua đau ra nhị phân {T, F}
Trang đó T: Đúng là Yes, là “Ram nắng”… cịn F: có rhwwe là Sai, NO, “Không” tùy theo ngữ cảnh bài toán.
GIÁ TRỊ DỰ BÁO GIÁ TRỊ
THỰC TẾ T (True) True Positive: TPT (True) False Negative:F (False)FN
F (False) False Positive:FP True Negative: TN
Một số chỉ số thông dụng được dùng để đánh giá một giải thuật máy học. Giả sử để đánh giá một bộ phân loại hai lớp tạm gọi là dương và âm:
Số đúng dương (TP- True Positive): số phần tử dương thực tế được phân loại đúng dương. Số sai âm (FN- False Negative): số phần tử dương thực tế được phân loại sai sang âm. Số đúng âm (TN- True Negative): số phần tử âm thực tế được phân loại đúng âm. Số sai dương (FP- False Positive): số phần tử âm thực tế được phân loại dương.
TP Rate: tỉ lệ những phần tử được phân loại lớp x mà đúng trên tổng số những phần tử thuộc
lớp x. Cho biết tỉ lệ lớp x được phân loại đúng là bao nhiêu, tương tự với recall (Độ bao phủ hay độ hồi tưởng) có ý nghĩa tương tự như TP rate
TP Rate=Recall= TP+TPFN (3.12)
FP Rate: tỉ lệ những phần tử được phân loại lớp x, nhưng mà nó khơng thuộc lớp x (phân loại
sai) chia cho tổng những phần tử không thuộc lớp x. Cho biết lớp x bị phân loại sai là bao nhiêu. FP Rate=
FP FP+TN
(3.13)
Độ chính xác (precision): tỉ lệ những phần tử thật sự là lớp x trên tổng số những phần tử được
phân loại vào lớp x. Số kết quả chính xác chia cho số kết quả trả về.
Precision = TP+TPFP
(3.14)
Độ đo F1: chỉ số cân bằng giữa độ chính xác (Precision) và độ bao phủ (Recall). Nếu độ
chính xác, độ bao phủ cao và cân bằng thì độ đo F1 lớn, cịn độ chính xác và độ bao phủ nhỏ và khơng cân bằng thì độ đo F1 nhỏ.
F1=(PrecisionPrecision∗Recall+Recall)/2=2∗Precision∗RecallPrecision+Recall
Accuracy= TP+TN
(TP+TN)+(FN+FP)
Để xem xét đầy đủ hơn ta có bảng các tiêu chí sau đây, kềm với các thuật ngữ phân loại sai số.
Điều kiện dương (P): Số lượng các trường hợp thực sự tích cực trong dữ liệu Điều kiện phủ định (N): Số lượng các trường hợp tiêu cực thực sự trong dữ liệu True positive (TP): sự chính xác
Âm tính thực (TN):sự từ chối chính xác Dương tính giả (FP): báo động giả, lỗi loại I Sai âm tính (FN): Lỗi, loại II lỗi
tỷ lệ thực dương (TPR) còn được gọi là Độ nhạy (sensitivity), thu hồi (recall), tỷ lệ đạt
(3.1)
Cụ thể hoặc tỷ lệ tiêu cực thực sự (TNR)
(3.2)
Giá trị tiên đốn chính xác hoặc tích cực (PPV)
(3.3)
Giá trị tiên đoán âm (NPV)
(3.4)
(3.5)
Rơi ra hoặc tỷ lệ dương tính giả (FPR)
(3.6) Tỷ lệ khám phá sai (FDR) (3.7) Tỷ lệ bỏ sót sai (FOR) (3.8) Độ chính xác (ACC) (3.9)
Điểm số F1: Là trung bình hài hịa cảu độ chính xác và độ nhạy
(3.10)
Hệ số tương quan Matthews (MCC)
(3.11)
Thơng tin hoặc thơng tin chính xác của người dự kiến (Bookmaker Informedness -BM)
(3.12)
Đánh dấu (MK)
(3.13)
Confusion Matrix [10] tuy nhiên, ma trận nhầm lẫn chỉ dùng cho: - hai lớp phân loại
- các mẫu ra và mẫu dự đoán cùng số lượng
Đối với bài toán sử dụng mạng BAM, ma trận này chưa tượng trưng. Lý do: - Đặc trưng hay số mẫu vào và ra khác nhau
- Không phải phân loại 2 lớp mà là nhiều lớp
Một số chỉ số thông dụng được dùng để đánh giá một thuật toán máy học. Giả sử để đánh giá một bộ phân loại hai lớp tạm gọi là dương và âm:
Số đúng dương (TP- True positive): số phần tử dương được phân loại dương. Số sai âm (FN- False negative): số phần tử dương được phân loại âm.
Số đúng âm (TN- True negative): số phần tử âm được phân loại âm. Số sai dương (FP- False positive): số phần tử âm được phân loại dương.
TP Rate: tỉ lệ những phần tử được phân loại lớp x mà đúng trên tổng số những phần tử
thuộc lớp x. Cho biết tỉ lệ lớp x được phân loại đúng là bao nhiêu, tương tự với recall. TP Rate= TP+TPFN (3.1
2)
FP Rate: tỉ lệ những phần tử được phân loại lớp x, nhưng mà nó khơng thuộc lớp x
(phân loại sai) chia cho tổng những phần tử không thuộc lớp x. Cho biết lớp x bị phân loại sai là bao nhiêu.
FP Rate=FPFP+TN
(3.13) Độ chính xác (precision): tỉ lệ những phần tử thật sự là lớp x trên tổng số những phần tử được phân loại vào lớp x. Số kết quả chính xác chia cho số kết quả trả về.
Precision = TP+TPFP (3.14)
Độ bao phủ (recall): có ý nghĩa tương tự như TP rate.
Recall = TP+TPFN
(3.1 5)
Độ đo F1: chỉ số cân bằng giữa độ chính xác (precision) và độ bao phủ (recall). Nếu độ chính xác, độ bao phủ cao và cân bằng thì độ đo F1 lớn, cịn độ chính xác và hồi tưởng nhỏ và khơng cân bằng thì độ đo F1 nhỏ.
F1 = 2∗Precision∗RecallPrecision+Recall
(3.1 6)
Để tính độ chính xác, chỉ cần tính tổng phần tử trên đường chéo [i,j] của ma trận confusion chia cho tổng phần tử. Tổng số phần tử không nằm trên đường chéo là lỗi dự đoán của thuật toán
Bài tập ngày 21. 1). Tìm bộ luật cho cơ sở dữ liệu “Weather” bằng 2 thuật toán: Độ lộn xộn và thuật toán ID3.
2) Nghiên cứu và nêu ý nghĩa của các độ đo “Precition”, “Recall”, “Accuracy”, F1 3. Nghiên cứu và thử chạy phần mềm WEKA.
Nhận xét:
1) Thuật toán ID3 đơn giản nhưng có độ quá khớp (Over-Fiting) cao do việc chọn một vài cành có tỷ lệ đối tượng khơng đồng đều để xác định luật.
2) Độ quá khớp (Over-Fiting) là độ đo chính xác cao đối với dữ liệu huấn luyện, nhưng kém
chính xác với những dữ liệu mới, mặc dù chỉ khác vài giá trị đặc trưng so với những dữ liệu đặc trưng đã được huấn luyện.
3) Khi nghiên cứu dữ liệu huấn luyện, tồn tại dữ liệu có thuộc tính Ai có nhiều giá trị j hơn các thuộc tính khác (Ví dụ thuộc tính Màu tóc có 3 giá trị; trong khi thuộc tính Đung thuốc chỉ có 2 giá trị) thì độ lợi thơng tin IG tăng trên các thuộc tính nhiều giá trị phân chia (phân hoạch). Để giảm bớt độ lệch này, Quinlan đề xuất tỷ số độ lợi (GainRatio).
Tỷ số độ lợi t ính đến số lượng và độ lớn của các nhánh khi chọn một thuộc tính để chia (phân hoạch), được tính bằng độ lợi thơng tin chia cho thơng tin của phân phối dữ liệu trên các nhánh. Đấy chính là tử tương cải biên của Thuật toán C4,5 được Quinlan cải tiến năm 1993 từ ID3 là một trong nhiều thuật toán khác khắc phục nhược điểm này. Ta xem xét cụ thể hơn thuật toán C4.5 sau đây.