Cho rằng kết quả của việc phân loại là một hàm số liên tục (Phương trình bậc 2), chứ không phải là một giá trị riêng biệt, việc đánh giá dựa trên các biểu đồ ROC (ROC) và Precision-Recall (PR). Một lớp có thể thu được cho một điểm dữ liệu j từ điểm sj’ bằng cách sử dụng một ngưỡng s *. Một điểm dữ liệu được coi là trong lớp FAIL nếu sj '≥s *. Các s * nhỏ hơn, nhiều trường hợp được phân loại như là thất bại. Do đó, bằng cách giảm s * số TP tăng lên làm những FP mất cân đối. Tương tự, ở các giá trị ngưỡng khác nhau, một độ chính xác nhất định được thu được. Đường cong ROC tính tỷ lệ Tích cực so với False Positive Rate - FPR của phân loại vì ngưỡng khác nhau. Tương tự như vậy, đường cong PR sẽ hiển thị độ phân giải xác nhận (bằng TPR hoặc độ nhạy). Thường xuyên để đánh giá một phân loại bằng cách tính diện tích dưới ROC (AUROC) và diện tích dưới các đường cong PR (AUPR), có thể dao động từ 0 đến 1. Các giá trị AUROC lớn hơn 0,5 tương ứng với các phân loại hoạt động tốt hơn các phép đoán ngẫu nhiên, trong khi AUPR đại diện cho độ chính xác phân loại trung bình, , Một lần nữa, càng cao càng tốt. AUROC và AUPR không phụ thuộc vào sự phân bố tương đối của hai lớp, vì vậy chúng đặc biệt phù hợp hoặc các vấn đề về sự mất cân bằng cấp lớp như trong quá trình giải quyết vấn đề.
Hình 4.1: Các giá trị AUROC và AUPR qua các lần đánh giá
Hình 4.1 cho thấy các giá trị AUROC và AUPR thu được cho tất cả các bộ dữ liệu, đánh giá trên dữ liệu kiểm tra toàn bộ. Đối với tất cả các điểm chuẩn, giá trị AUROC rất tốt, trên 0,75 và đến 0,97. AUPR dao động từ 0,38 đến 0,87. Hiệu suất dường như tăng lên, đặc biệt là về độ chính xác, vào cuối dấu vết. Hiệu suất thấp được quan sát thấy trong hai tiêu chuẩn đầu tiên có thể là do một số tính năng tổng hợp (những người trên 3 hoặc 4 ngày) được tính toán với dữ liệu chưa đầy đủ ngay từ đầu.Để đánh giá hiệu quả của các thông số khác nhau và phương pháp tiếp cận toàn bộ.
Hình 4.2: Biểu đồ đánh giá lần chạy thứ 4 cho kết quả xấu nhất
Hình 4.3: Biểu đồ đánh giá lần chạy thứ 14 cho kết quả xấu nhất
Hình 4.2 và 4.3 hiển thị các đường cong ROC và PR cho các đánh giá cho kết quả tệ nhất và tốt nhất trong 15 lần đánh giá (lần lượt là 4 và 14). Hiệu suất của các phân loại riêng biệt trong toàn thể cũng được hiển thị (như các điểm trong không gian ROC). Chúng ta có thể thấy rằng các phân loại riêng lẻ dẫn đến FPR rất thấp, điều này rất quan trọng trong việc dự báo những thất bại. Tuy nhiên, trong nhiều trường hợp, các giá trị TPR cũng rất thấp. Điều này có nghĩa là hầu hết các dữ liệu thử nghiệm được phân loại là SAFE và rất ít thất bại thực sự được xác định.
TPR dường như tăng lên khi các thông số fsafe giảm, nhưng tại các chi phí của FPR và chính xác. Các điểm chấm cho thấy sự phụ thuộc rõ ràng giữa ba biện
pháp vẽ và các giá trị bảo vệ. Khi lượng dữ liệu huấn luyện SAFE giảm, các bộ phân loại trở tốt hơn và có thể xác định được nhiều thất bại hơn, đây là một kết quả quan trọng cho vấn đề mất cân bằng. Ngoài ra, các ô cho thấy rõ rằng các bộ phân loại đơn đạt được với các giá trị khác nhau cho SAFE là rất đa dạng, điều này rất quan trọng để có được hiệu năng đồng bộ tốt.
Nhìn chung, các điểm tương ứng với các phân loại riêng lẻ dưới đường cong ROC và PR mô tả hiệu suất của tổng thể. Điều này chứng minh rằng phương pháp tổng thể là tốt hơn so với các phân loại đơn cho vấn đề này, có thể cũng do sự đa dạng của chúng. Một số trường hợp ngoại lệ xuất hiện (điểm trên các đường kẻ cố định), tuy nhiên với TPR rất thấp (dưới 0.2) do đó trong một khu vực của ROC / PR không gian mà không phải đáng quan tâm. Luận văn quan tâm đến việc tối đa hóa TPR trong khi vẫn giữ được FPR. Cụ thể, FPR không bao giờ vượt quá 5%, có nghĩa là ít báo động sai. Tại ngưỡng này, hai ví dụ từ Hình 4.1 và Hình 4.2 hiển thị các giá trị TPR là 0,272 (trường hợp xấu nhất) và 0,886 (trường hợp tốt nhất), tương ứng với các giá trị chính xác là 0,502 và 0,728. Điều này tốt hơn nhiều so với các phân loại cá nhân ở cấp độ này, cả về độ chính xác và TPR. Đối với dự đoán thất bại, điều này có nghĩa là giữa 27,2% và 88,6% lỗi được xác định như vậy, trong khi từ tất cả các trường hợp được đánh dấu là lỗi, khoảng 50,2% đến 72,8% là thất bại thực sự.
Để phân tích các hàm ý của các kết quả thu được chi tiết hơn, mối quan hệ giữa phân loại và thời gian chính xác cho đến sự kiện XÓA tiếp theo đã được nghiên cứu cho các điểm dữ liệu. Điều này rất quan trọng bởi vì ban đầu luận văn đã gán nhãn SAFE cho tất cả các điểm dữ liệu vượt quá 24 giờ so với lỗi. Theo phân loại này, một máy sẽ được coi là ở trạng thái an toàn cho dù nó không thành công trong 2 tuần hoặc trong 2 ngày. Tương tự, nó được coi là trong FAIL cho dù nó không thành công trong 23 giờ hoặc trong 10 phút. Rõ ràng đây là những tình huống rất khác nhau, và tác động của phân loại sai lệch khác nhau tùy thuộc vào thời gian cho sự thất bại tiếp theo. Hình 5 hiển thị đồ hoạ này. Khi thời gian để sự thất bại tiếp theo giảm xuống, một điểm dữ liệu SAFE bị phân loại sai như các FAIL ít hơn như một phân loại sai, vì sự thất bại thực sự đang đến gần. Tương tự, một điểm FAIL có nhãn là SAFE có tác động tiêu cực cao hơn khi nó gần với điểm thất bại.
Hình 4.4: Ngưỡng dao động giữa FAIL và SAFE