Các độ đo dựa trên mẫu

Một phần của tài liệu (LUẬN án TIẾN sĩ) nghiên cứu cải tiến phân lớp đa nhãn văn bản và ứng dụng luận án TS máy tính 624801 (Trang 45 - 47)

Chương 1 TỪ PHÂN LỚP ĐƠN NHÃN TỚI PHÂN LỚP ĐA NHÃN

1.2. Giới thiệu chung về phân lớp đa nhãn

1.2.3.1. Các độ đo dựa trên mẫu

- Độ chính xác tập con:

( ) ∑⟦ ( ) ⟧

(1.22)

Độ chính xác tập con đánh giá sự phân chia của các mẫu được phân lớp chính xác, ví dụ tập nhãn được dự đốn là đồng nhất với tập nhãn đúng.

- Hamming Loss

( ) ∑ ( )

(1.23)

Trong đĩ, là sự khác nhau giữa 2 tập dữ liệu. Chỉ số hamming loss đánh giá tỷ lệ cặp thể hiện-nhãn bị phân lớp sai, ví dụ một nhãn liên quan bị bỏ qua hoặc gán nhãn khơng liên quan. Khi mỗi mẫu trong chỉ liên quan đến một nhãn, ( ) bằng lần về tỷ lệ phân lớp nhầm theo phương pháp truyền thống.

- , ( ) ∑ ( ) ( ) (1.24) ( ) ∑ ( ) ( ) (1.25) ( ) ∑ ( ) (1.26)

( ) ( ) ( ) ( )

( ) ( ) (1.27) Ngồi ra, là một phiên bản tích hợp của ( ) ( ) với nhân tố cân bằng . Lựa chọn phổ biến nhất là dẫn đến trung bình điều hịa của độ đo precision và recall.

Khi hàm giá trị thực trung gian ( ) đã xác định, bốn độ đo xếp hạng dựa trên nhãn cĩ thể được định nghĩa như sau:

- One-error

( ) ∑⟦[ ( )] ⟧

(1.28)

One-error đánh giá số lần nhãn được xếp hạng cao nhất khơng nằm trong tập nhãn cĩ thể. Do đĩ, nếu mục tiêu của hệ thống đa lớp là gán một nhãn đơn cho một tài liệu, độ đo one-error sẽ đếm số lần nhãn được dự đốn khơng nằm trong Y. Trong phân lớp đơn nhãn, độ đo one-error tương ứng với độ đo lỗi thơng thường.

- Coverage:

( ) ∑ ( )

(1.29)

Trong khi độ đo one-error đánh giá thực thi của một hệ thống đối với nhãn được xếp hạng đầu, mục tiêu của độ đo coverage là xác định độ đo của một hệ thống đối với tất cả các nhãn cĩ thể của tài liệu. Coverage được định nghĩa như khoảng cách trung bình cho tất cả các nhãn thích hợp được gán cho một ví dụ thử nghiệm.

Đối với phân lớp đơn nhãn, coverage là thứ hạng trung bình của nhãn đúng và coverage nhận giá trị zero nếu hệ thống khơng xuất hiện lỗi phân lớp nào.

- Ranking Loss: Tính phân bố trung bình của các cặp nhãn. ( ) ∑

̅

*( ) ( ) ( ) ( ) ̅+| (1.30) - Average Precision

( ) ∑ ∑ |{ ( ) ( ) }| ( ) (1.31)

Độ đo Average Precision đánh giá thành phần trung bình của các nhãn liên quan được xếp hạng cao hơn một nhãn cụ thể .

Các độ đo, one-error, coverage và ranking loss, giá trị càng thấp thì thực thi của hệ thống càng tốt, với giá trị tối ưu của ∑ cho coverage và 0 cho one-error và ranking loss. Đối với độ đo đa nhãn dựa trên mẫu khác, giá trị đo càng lớn, thì hệ thống thực thi càng tốt, và giá trị tối ưu là 1.

Một phần của tài liệu (LUẬN án TIẾN sĩ) nghiên cứu cải tiến phân lớp đa nhãn văn bản và ứng dụng luận án TS máy tính 624801 (Trang 45 - 47)