Hình 2.12: Đồ thị của hàm ReLU Bảng 2.1: Ma trận nhầm lẫn

Một phần của tài liệu Luận văn thạc sỹ: ÁP DỤNG MỘT SỐ THUẬT TOÁN HỌC MÁY TRONG NHẬN DẠNG TIN TUYỂN DỤNG GIẢ (Trang 53 - 55)

Trên thực tế, ta cần áp dụng nhiều thuật tốn Học máy để chọn ra mơ hình phù hợp nhất cho bài tốn. Vấn đề đặt ra là làm thế nào để đạt được mợt đánh giá đáng tin cậy về hiệu quả của mơ hình và lựa chọn mơ hình phù hợp. Do đĩ, cần xây dựng mợt số tiêu chí để đánh giá mơ hình.

2.5.1.Ma trận nhầm lẫn

Ma trận nhầm lẫn (Confusion maxtrix) được sử dụng đối với các bài tốn phân loại, giúp thống kê kết quả phân loại.

Ví dụ ma trận nhầm lẫn như sau:

Bảng 2.3: Ma trận nhầm lẫn

Phân loại dự đốn bởi Học máy Dương tính Âm tính Phân lớp thực sự Dương tính TP FN Âm tính FP TN

Thơng tin trong ma trận nhầm lẫn như sau:

TP (True positive hay Dương tính thật): Số lượng mẫu trên thực tế là dương tính và được dự đốn dương tính.

FP(False positive hay Dương tính giả): Số lượng mẫu trên thực tế là âm tính nhưng được dự đốn là dương tính.

TN (True Nagative hay Âm tính thật): Số lượng mẫu trên thực tế là âm tính và được dự đốn là âm tính.

FN (False Negative hay Âm tính giả): Số lượng mẫu trên thực tế là dương tính nhưng được dự đốn là âm tính.

Sai lầm loại I: Giống như FP, là trường hợp mẫu trên thực tế là âm tính nhưng được dự đốn là dương tính.

Sai lầm loại II: Giống như FN, là trường hợp mẫu trên thực tế là dương tính nhưng được dự đốn là âm tính.

2.5.2.Các điểm số phân loại

Độ chính xác của mơ hình được tính tốn như sau:

 Precision: Bằng tổng số các mẫu được phân loại chính xác chia cho tổng số mẫu được phân loại vào lớp đĩ.

Precision(C ) i i i i TP TP FP = +

 Recall: Bằng tổng số các mẫu thuộc lớp Ci được phân loại chính xác chia cho tổng số mẫu của lớp Ci Recall(C ) i i i i TP TP FN = +

 F1: Tiêu chí đánh giá F1 là sự kết hợp của 2 tiêu chí là Precision và Recall:

2×Precision×Recall 2 1 1 1 Precision+Recall Precision Recall F = = +

 Accuracy: Độ chính xác bằng tổng số mẫu được phân loại đúng chia cho tổng số mẫu. TP TN accuracy TP TN FP FN + = + + +  ROC-AUC Score

AUC - ROC là một phương pháp tính tốn hiệu suất của một mơ hình phân loại theo các ngưỡng phân loại khác nhau. Giả sử với bài tốn phân loại nhị phân (2 lớp) sử dụng hồi quy logistic, việc chọn các ngưỡng phân loại [0;1] khác nhau sẽ

ảnh hưởng đến khả năng phân loại của mơ hình và ta cần tính tốn được mức độ ảnh hưởng của các ngưỡng. AUC là từ viết tắt của Area Under The Curve cịn ROC viết tắt của Receiver Operating Characteristics. ROC là một đường cong biểu diễn xác suất và AUC là phần diện tích nằm dưới đường cong ROC, biểu diễn mức độ phân loại của mơ hình.

AUC-ROC (Area Under The Receiver Operating Characteristics là xác suất rằng một mẫu dương tính được lấy ngẫu nhiên sẽ được xếp hạng cao hơn một mẫu âm tính được lấy ngẫu nhiên. Biểu diễn theo cơng thức, ta cĩ AUC = P(score(x+) > score(x-)).

Hình 2.13: Điểm số ROC-AUC

Một phần của tài liệu Luận văn thạc sỹ: ÁP DỤNG MỘT SỐ THUẬT TOÁN HỌC MÁY TRONG NHẬN DẠNG TIN TUYỂN DỤNG GIẢ (Trang 53 - 55)

Tải bản đầy đủ (DOCX)

(95 trang)
w