Đối với một hệ thống mà hiệu quả hoạt động phụ thuộc vào phản hồi, đồng thời có sự tương tác thường xuyên
Đánh giá hiệu năng toàn bộ hệ thống đã xây dựng là khó trong trường hợp của hệ thống gợi ý tin tức tiếng Việt xenoNews, vì các lý do chính sau:
- Không có bộ dữ liệu chuẩn để tính toán hiệu năng, so sánh các thuật toán
- Hồ sơ người dùng cố gắng mô hình hoá sở thích của độc giả. Thế nhưng “sở thích” ở đây chỉ mang tính tương đối. Sở thích mỗi người không phải là bất biến, và
thống nhất. Do đó, một người duyệt cùng một danh sách tin, vào những thời điểm
khác nhau, có thể cho kết quả đánh giá khác nhau.
- Các phương pháp đánh giá chuẩn trong học máy, như đánh giá chéo (n-fold cross-
validation) không áp dụng được cho ngữ cảnh hệ thống này. Nguyên nhân chủ yếu
là do đặc tính có thứ tự thời gian của tin tức. Do vậy, với dữ liệu dạng này, sử dụng độ đo trên sẽ gây biến dạng lớn tới kết quả.
- Phân phối của các tin tức là không đều, ví du: mỗi ngày, lượng tin bài cho các chuyên mục khác nhau rất khác nhau.
Trong bài toán phân loại, có một độ đo thông dụng là Accuracy (tạm dịch là „Độ
đúng đắn’, để phân biệt với „Độ chính xác‟ - Precision), ví dụ: Accuracy được tính bằng
tỉ lệ các tin được phân lớp đúng. Tuy nhiên, tôi không sử dụng độ đo này, bởi vì nó không phản ảnh được hiệu quả hệ thống đang xét. Có thể hình dung vấn đề của độ đo Accuracy như sau. Do tỉ lệ các tin “không liên quan” (đến sở thích đọc của người dùng) cao hơn nhiều so với tỉ lệ các tin “có liên quan”, nếu một bộ phân lớp coi tất cả tin tức đều là “không liên quan”, thì có thể dễ dàng đạt Độ đúng đắn cao hơn những bộ phân lớp chỉ có thể xác định đúng vài bài viết “có liên quan” đến người dùng. Do vậy, Precision (Độ
chính xác) và Recall (Độ hồi tưởng) trong Thu thập thông tin (IR) được dùng làm thước
đo đánh giá hệ thống. Cụ thể trong trường hợp của xenoNews, độ chính xác là phần trăm các tin bài được hệ thống đánh giá là “có liên quan” (gợi ý ra cho người dùng), sau đó được người dùng phản hồi là gợi ý chính xác. Còn độ hồi tưởng là phần trăm các bài báo người dùng cho là “có liên quan” (đến sở thích, đặc điểm đọc của họ), đồng thời hệ thống cũng đã đưa vào kết quả gợi ý cho người dùng đó.
Cần phải đánh giá Độ chính xác và Độ hồi tưởng song song với nhau, do việc nâng cao từng độ đo riêng biệt là dễ. Một bộ phân lớp hữu ích cho các mục đích gợi ý cần phải đưa ra được nhiều đối tượng thông tin thực sự phù hợp cho người dùng (tối ưu độ hồi tưởng), với độ chính xác cao (tối ưu độ chính xác). Để hợp nhất hai giá trị này, Lewis và cộng sự Gale đã đề xuất độ đo F-measure, một giá trị kết hợp có trọng số giữa Precision và Recall, khoảng giá trị từ 0 đến 1. Các kết quả báo cáo trong luận văn này coi Độ chính xác và Độ hồi tưởng có tầm quan trọng như nhau. Từ đó, ta có công thức F1 được định nghĩa như sau:
1 2 precision recall F precision recall