2.1 Học máy
2.1.8 Phương pháp đánh giá
Hold-out
- Tồn bộ tập dữ liệu (data) sẽ được chia thành 2 tập con datatrain và datatest khơng giao nhau (|datatrain| >>|datatest|).
- Tập huấn luyện datatrain: để huấn luyện hệ thống
- Tập kiểm thử datatest: để đánh giá hiệu năng của hệ thống sau khi đã được huấn luyện Yêu cầu:
- Dữ liệu thuộc tập kiểm thử datatest khơng được sử dụng trong quá trình huấn luyện hệ thống.
- Dữ liệu thuộc tập huấn luyện datatrain khơng được sử dụng trong quá trình đánh giá hệ thống sau khi huấn luyện. Ví dụ: Ta cĩ thể chọn |datatrain| = (2/3). | data| và |data test | = (1/3).|data|
- => Cách đánh giá này phù hợp khi ta bộ dữ liệu (data) cĩ kích thước lớn. Stratified sampling
Được sử dụng khi các tập ví dụ cĩ kích thước nhỏ hoặc khơng cân xứng
(unbalanced datasets). Ví dụ: cĩ ít, hoặc khơng cĩ các ví dụ với một số lớp Mục tiêu: Phân bố lớp (Class distribution) trong tập huấn luyện và tập kiểm thử phải xấp xỉ như trong tập tồn bộ các ví dụ (data)
- Stratified sampling là một phương pháp để cân xứng về phân bố lớp
- Đảm bảo tỉ lệ phân bố lớp trong tập huấn luyện và tập kiểm thử sẽ là xấp xỉ nhau
=> Phương pháp này khơng áp dụng được cho bài tốn học máy dự đốn/hồi quy (vì giá trị đầu ra của hệ thống là một giá trị số, khơng phải là một nhãn lớp) Repeated hold-out
Đây là phương pháp sẽ áp dụng phương pháp đánh giá Hold-out nhiều lần, để sinh ra các tập huấn luyện và thử nghiệm khác nhau. Trong mỗi lần lặp, một tỉ lệ nhất định của tập dữ liệu (data) được chọn ngẫu nhiên nhằm tạo nên tập huấn luyện (cĩ thể kết hợp với phương pháp Stratified sampling). Đối với các giá trị lỗi (hoặc giá trị với các tiêu chí đánh giá khác) ghi nhận trong các bước lặp này được lấy trung bình cơng để xác định lỗi tổng thể. => Tuy nhiên phương pháp này chưa được tốt vì
- Mỗi bước lặp ta lại cĩ một tập kiểm thử khác nhau
- Cĩ một số dữ liệu sẽ được dùng nhiều lần (trùng lặp) trong các tập kiểm thử Cross validation (k-fold, leave-one-out)
- Tập dữ liệu (data) được chia thành k tập con khơng giao nhau (gọi là “fold”) cĩ kích thước xấp xỉ nhau.
- Mỗi lần lặp, một tập con trong k tập sẽ được dùng để làm tập kiểm thử, (k-1) tập cịn lại sẽ được sử dụng làm tập huấn luyện.
- k giá trị lỗi (mỗi giá trị tương ứng với mỗi “fold”) sẽ được tính trung bình cộng
để thu được giá trị lỗi tổng thể.
Ví dụ: ta cĩ thể chia data thành 10 hoặc 5 folds (k = 10 hoặc k = 5)
Thơng thường mỗi tập con (fold) được lấy mẫu phân tầng (xấp xỉ phân bố lớp) trước khi áp dụng quá trình đánh giá Cross validation
Confusion Matrix ma trận nhầm lẫn hay ma trận lỗi là một bố cục bảng cụ thể cho phép hình dung hiệu suất của một thuật tốn. Ma trận nhầm lẫn là một trong những kỹ thuật đo lường hiệu suất phổ biến nhất và được sử dụng rộng rãi cho các mơ hình phân loại. Nhìn thuật ngữ của nĩ thì trơng cĩ vẻ khĩ hiểu nhưng thực tế nĩ lại rất dễ hiểu [7]
Xét ví dụ thực tế : Vào một ngày khám bệnh tại 1 tại bệnh viện A cĩ 100 bệnh nhân đến khám một loại bệnh, giả sử biết trước trong 100 bệnh nhân cĩ 60 người mắc bệnh, 40 người khơng cĩ bệnh. Sau khi thăm khám, bệnh viện đưa ra kết quả: + Trong 60 người bệnh thật thì cĩ 45 người chẩn đốn cĩ bệnh, 15 người chẩn đốn khơng mắc bệnh.
+ Trong 40 người khơng mắc bệnh thì cĩ 30 người chẩn đốn khơng mắc bệnh, 10
người chẩn đốn là mắc bệnh.
Bảng 2.1 Ví dụ về ma trận nhầm lẫn
Dự đốn Thực tế Dương tính Âm tính
Dương tính TP (45) FP (10)
Âm tính FN (15) TN (30)
● Condition positive (P): Tổng số ca dương tính thực tế. ● Condition Negative (N): Tổng số ca âm tính thực tế.
● True positive (TP): Số các ca dự đốn dương tính đúng hay dương tính thật. ● True negative (TN): Số các ca dự đốn âm tính đúng hay âm tính thật.
● False positive (FP): Số các ca dự đốn dương tính sai hay dương tính giả. ● False negative (FN): Số các ca dự đốn âm tính sai hay âm tính giả. Với các thuật ngữ trên, ta cĩ các chỉ số đánh giá sau:
● Độ chính xác – Accuracy:
Độ chính xác=TP+TN
P+N =TP+FPTP+TN+TN+FN=45+10030
● Sensitivity, Recall, Hit Rate, Or True Positive Rate (TPR): Độ nhạy - Tỷ lệ dương tính thực:
Độ nhạy=TPP =TP+TPFN=4545+15
● Precision Or Positive Predictive Value (PPV): Tỉ lệ dương tính đốn đúng
Tỉ lệ dươngtính đốn đúng=TP+TPFP=4545+10
● Negative Predictive Value (NPV): Tỉ lệ âm tính đốn đúng
Tỉ lệ âmtính đốn đúng=TNTN+FN=30+1530
● Miss Rate Or False Negative Rate (FNR): Tỉ lệ dương tính giả
Tỉ lệ âmtính giả=FP
N =TNFP+FP=30+1010
● False Discovery Rate(FDR): Tỉ lệ đốn dương tính sai
Tỉ lệ đốn dươngtính sai=FPFP+TP=45+1010
● False Omission Rate (FOR): Tỉ lệ đốn âm tính sai
Tỉ lệ đốn âmtính sai=FNFN+TN=30+1515
● F1 score - Điểm F1: Điểm F1 là một trung bình hài hịa Precision và Recall
F1=2∗Precision∗RecallPrecision+Recall - Recall
Recall cũng là một metric quan trọng, nĩ đo lường tỷ lệ dự báo chính xác các trường hợp positive trên tồn bộ các mẫu thuộc nhĩm positive. Cơng thức của độ Recall :
Recall=TP+TPFN
Precision cao đồng nghĩa với việc độ chính xác của các điểm tìm được là cao. Recall cao đồng nghĩa với việc True Positive Rate cao, tức tỷ lệ bỏ sĩt các điểm thực sự positive là thấp.
- Precision (Độ tin cậy)
Precision là một trong những metrics cĩ thể khắc phục trường hợp thước đo Accuracy khơng phản ánh đúng hiệu quả của mơ hình, cơng thức như sau:
Precision= TP TP+FP
Độ tin cậy được tính bằng số trường hợp dự đốn đúng chia cho tổng số trường hợp dự đốn đúng với số trường hợp dự đốn sai
Với một cách xác định một lớp là positive, Precision được định nghĩa là tỉ lệ số
điểm true positive trong số những điểm được phân loại là positive (TP + FP). Precision cao đồng nghĩa với việc độ chính xác của các điểm tìm được là cao. [8]
Một mơ hình phân lớp tốt là mơ hình cĩ cả Precision và Recall đều cao, tức càng gần một càng tốt. Cĩ hai cách đo chất lượng của bộ phân lớp dựa vào Precision và Recall: Precision-Recall curve và F-score.