Đánh giá phân cụm - Phân cụm đa mức Web bằng thuật- 123docz.net

Các trang web khi được trích rút từ website được trích rút theo từng chủ đề nhỏ. Những chủ đề này được dùng trong việc đối sánh với kết quả phân cụm để đánh giá kết quả việc phân cụm.

Đại lượng sử dụng đểđánh gia là Độ chính xác (Precision), độ hồi tưởng (Recall) và độ đo F (F-Score)[9]. Độ chính xác với một cụm được tính bằng số tài liệu phân cụm đúng trên tổng số tài liệu được phân vào cụm đó. Độ hồi tưởng với một cụm được xác định bằng số tài liệu đúng trên tổng số tài liệu thực chất thuộc về cụm đó.

Độ chính xác với cụm thứ i được tính như sau:

a<Db =aa+ a

Độ hồi tưởng với cụm thứ i được tính như sau:

DZZ =aa+ M

Trong đó: TP = true positive, FP = false positive, FN = false negative. Chi tiết về TP, FP, FN được giải thích trong bảng sau:

Cụm Chuyên gia xếp “đúng” Chuyên gia xếp “sai” Tổng số Máy phân cụm xếp “đúng” a a Máy phân cụm xếp “sai” M M M − Tổng số M − N Hình 8: Giải thích về các đại lượng TP, FP, FN, TN

Độ chính xác và độ hồi tưởng có sự được mất (tradeoff) với nhau. Để đánh giá tổng kể kết quả, ta sử dụng đại lượng F-score được tính như sau:

=uu+ 1 aa +

Với u > 0 là tham số thể hiện mức độ quan tâm với độ chính xác hoặc độ hồi tưởng của hệ thống. Trong khóa luận này, tôi sử dụng giá trị của u là 1.

Sau đó, để đánh giá kết quả tổng thể của hệ thống, ta tính trung bình các giá trị độ chính xác, độ hồi tưởng và F-score trên tất cả các cụm:

a<Db = ∑ a<Db / v DZZ = ∑ DZZ / v − b<D = ∑ / v

Chương 4. Thực nghiệm