Phƣơng pháp đánh giá bộ phân lớp

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu giải thuật học cộng tác (co training) và ứng dụng vào bài toán khai phá quan điểm (Trang 32 - 33)

Sau khi cĩ mơ hình đƣợc huấn luyện qua bộ dữ liệu huấn luyện DTrain, cần đánh giá mơ hình trƣớc khi cĩ thể đƣa vào áp dụng trong thực tế.

Việc đánh giá bộ phân lớp dựa trên việc áp dụng mơ hình đối với các dữ liệu thuộc tập đánh giá DTest, sử dụng mơ hình cho từng trƣờng hợp dữ liệu ở

DTest để biết đƣợc lớp dự báo c dự đốn bởi mơ hình.

Hai độ đo đƣợc dùng phổ biến để đánh giá bộ phân lớp là độ hồi tƣởng (recall) ρ và độ chính xác (precision) π.

Sau khi áp dụng mơ hình trên DTest, với mỗi lớp c C ta xác định các giá trị sau TPc, TFc, FPc, FNc nhƣ Bảng 2.1.[1]

Bảng 2.1. Cách xác định các giá trị TP, TN, FP, FN

Lớp c Giá trị thực tế

Thuộc lớp c Khơng thuộc lớp c Giá trị qua bộ phân lớp Thuộc lớp c TPc FNc Khơng thuộc lớp c FPc TNc Trong đĩ: Ký hiệu: L : Tập các dữ liệu gán nhãn. U : Tập các dữ liệu chƣa gán nhãn Thuật tốn: Lặp (cho đến khi U = )

Huấn luyện bộ phân lớp giám sát h trên tập L

Sử dụng h để phân lớp dữ liệu trong tập U

Tìm tập con U‟U cĩ độ tin cậy cao nhất:

L + U’ L U U’ U

- TPc (true positives): số lƣợng mẫu thực sự thuộc lớp c đƣợc thuật tốn phân lớp gán cho giá trị đúng.

- TNc (true negatives): số lƣợng mẫu khơng thuộc lớp c đƣợc thuật tốn phân lớp gán cho giá trị đúng.

- FPc: số lƣợng mẫu thực sự thuộc lớp c đƣợc thuật tốn phân lớp gán cho giá trị sai.

- FNc: số lƣợng mẫu khơng thuộc lớp c đƣợc thuật tốn phân lớp gán cho giá trị sai.

Với phân lớp nhị phân, giá trị các độ đo pc và rc đƣợc tính nhƣ sau:

Đối với phân lớp đa lớp, các giá trị pc và rc đƣợc ánh giá theo các độ đo: - Trung bình thơ pM và rM:

- Trung bình mịn p và r:

Ngồi ra, cĩ một phƣơng pháp đánh giá đơn giản hơn thơng qua hai thơng số độ chính xác (Accuracy) và tỉ lệ lỗi (Error rate) nhƣ sau:

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu giải thuật học cộng tác (co training) và ứng dụng vào bài toán khai phá quan điểm (Trang 32 - 33)