Bộ các độ đo đánh giá mô hình phân lớp

Một phần của tài liệu (LUẬN án TIẾN sĩ) nghiên cứu một số mô hình học ontology và ứng dụng trong miền dầu khí (Trang 39 - 41)

1.2. GIỚI THIỆU CHUNG VỀ HỌC ONTOLOGY

1.2.4. Bộ các độ đo đánh giá mô hình phân lớp

Học ontology dựa trên kỹ thuật học máy phân lớp được áp dụng trong đa phần nội dung luận án, vì vậy, mục này giới thiệu độ đo đánh giá mô hình phân lớp được luận án sử dụng khi kiểm thử trên tập dữ liệu kiểm thử (test dataset).

Tồn tại một số độ đo đánh giá mô hình phân lớp, tuy nhiên, luận án sử dụng bộ các độ đo hồi tưởng (Recall: R), chính xác (Precision: P) và độ đo điều hòa F của R và P do tính phổ biến và độ tin cậy của việc sử dụng bộ độ đo này.

Trong phân lớp nhị phân, độ chính xác P (Precision) và độ hồi tưởng R (Recall) thể hiện mức độ chính xác và mức độ đầy đủ của phân lớp trên lớp dữ liệu dương [5]. Bảng 1.1 trình bày ma trận nhầm lẫn (confusion matrix) chứa thông tin về các kết quả dự đoán và thực tế đưa ra bởi một bộ phân lớp.

Bảng 1.1. Ma trận nhầm lẫn của một bộ phân lớp

Kết quả phân lớp Thực tế

Được phân vào lớp dương (P)

Được phân vào lớp âm (N)

Thực tế là dữ liệu dương (P)

TP (True Positive) - phân lớp đúng dữ liệu dương vào lớp dương

FN (False Negative – phân lớp sai dữ liệu dương vào lớp âm) Thực tế là ví dụ âm (N) FP (False Positive –

phân lớp sai ví dụ âm vào lớp dương)

TN (True Negative – phân lớp đúng ví dụ âm vào lớp âm)

Như vậy,

TP(True Positive): số lượng các dữ liệu dương được phân lớp đúng. FN(False Negative): số lượng các dữ liệu dương bị phân lớp sai. FP(False Positive): số lượng các ví dụ âm bị phân lớp sai.

Dựa trên ma trận nhầm lẫn, độ chính xác (P: Precision) và độ hồi tưởng (R: Recall) của các lớp dương được định nghĩa như sau:

P = 𝑇𝑃

𝑇𝑃+𝐹𝑃 (1.1)

𝑅 = 𝑇𝑃

𝑇𝑃+𝐹𝑁 (1.2)

Trong đó, độ chính xác P là số lượng các dữ liệu dương được phân lớp đúng chia cho tổng số các ví dụ được phân lớp là dương.

Độ hồi tưởng R là số lượng các dữ liệu dương được phân lớp đúng chia cho tổng số các dữ liệu dương thực tế trong tập dữ liệu thử nghiệm. Hình 1.6 cho một minh họa trực quan về độ hồi tưởng và độ chính xác [5].

Hình 1.6. Minh họa độ hồi tưởng và độ chính xác. R là tập ví dụ kiểm thử được bộ phân lớp gán nhãn dương, L là tập vị dụ kiểm thử thực tế có nhãn dương [5].

Độ chính xác và độ hồi tưởng không có quan hệ trực tiếp với nhau, điều này vừa có điểm tích cực là cung cấp một khung nhìn đo lường hai chiều đánh giá mô hình phân lớp lại vừa có điểm hạn chế là tạo khó khăn khi xem xét, so sánh độ hiệu quả của các mô hình phân lớp khác nhau. Để việc so sánh đánh giá các bộ phân lớp khác nhau được thuận tiện, độ đo F (F-score) sauđây được sử dụng:

𝐹𝛽 = (𝛽2+1)∗𝑃∗𝑅

𝛽2∗𝑃+𝑅 (1.3)

Trường hợp đặc biệt khi chọn giá trị =1, độ đo F (F-score hay F1-score) được gọi là trung bình điều hòa (harmonic mean) của độ chính xác và độ hồi tưởng. Để tường minh thêm ý nghĩa “trung bình điều hòa”, F được trình bày dưới dạng sau đây:

𝐹 = 12

P+1

R

(1.4)

Công thức (1.4) cho thấy trung bình điều hòa F của hai số sẽ tiến gần đến số nhỏ hơn, do đó, giá trị độ đo F cao chỉ trong trường hợp cả P và R đều phải cao. Như vậy, F là rất “nhạy” đối với sự thay đổi của P hoặc R vì chỉ cần P hay R có một thay đổi nhỏ cũng dẫn tới sự thay đổi tương ứng của F.

Trong phân lớp đa lớp, các độ đo trung bình mịn (micro-average) hoặc độ đo trung bình thô (macro-average) được tính toán trên tập các các độ đo P-R với từng nhãn lớp. Gọi pi, ri, TPi, FPi, FNi (i=1,..k) là độ chính xác, độ hồi tưởng, số lượng TP, số lượng FP và số lượng FN tương ứng với lớp i.

Độ chính xác trung bình thô pM và độ hồi tưởng trung bình thô rM được tính toán như sau:

𝑝𝑀 = 1

𝑘∑𝑘𝑖=1𝑝𝑖 và 𝑟𝑀 = 1

𝑘∑𝑘𝑖=1𝑟𝑖 (1.5) Độ chính xác trung bình mịn và độ hồi tưởng trung bình mịn được tính toán như sau:

𝑝µ = ∑𝑘𝑖=1𝑇𝑃𝑖

∑𝑘𝑖=1(𝑇𝑃𝑖+𝐹𝑃𝑖) và 𝑟µ = ∑𝑘𝑖=1𝑇𝑃𝑖

∑𝑘𝑖=1(𝑇𝑃𝑖+𝐹𝑁𝑖) (1.6) Cặp độ đo trung bình mịn được ưa chuộng hơn cặp độ đo trung bình thô. Độ đo F được tính toán trên cặp độ đo trung bình tương ứng.

Một phần của tài liệu (LUẬN án TIẾN sĩ) nghiên cứu một số mô hình học ontology và ứng dụng trong miền dầu khí (Trang 39 - 41)

Tải bản đầy đủ (PDF)

(150 trang)