Việc đánh giá chất lượng của tin tứctư vấn trả về bởi hệ thống là một bài toán khó, vì không có một độ đo ngữ nghĩa đánh giá chính xác được sự phù hợp giữa người dùng và tin tức hệ thống trả lại.
Herlocker [18] đưa ra hai nguyên nhân chủ yếu dẫn tới việc đánh giá các hệ thống tư vấn là khó khăn. Nguyên nhân đầu tiên là chất lượng của hệ tư vấn phụ thuộc vào tập
dữ liệu sử dụng. Một hệ tư vấn tin tức có mô hình tốt chưa chắc đã tư vấn tốt hơn một hệ tư vấn có dữ liệu tốt(như một cơ sở dữ liệu tin tức phong phú). Nguyên nhân thứ hai là việc đánh giá hệ tư vấn có thể hướng tới các mục tiêu khác nhau. Trong một số hệ thống, các đánh giá có thể dựa trên số lần tư vấn dẫn đến quyết định đúng và sai. Trong một số khác, các đánh giá có thể dựa trên xem xét người dùng hài lòng hoặc không hài lòng đối
với các kết quả tư vấn.
Do các nguyên nhân này, để đánh giá tính đúng đắn của mô hình tư vấn đã được đề xuất, chúng tôi chủ yếu dựa vào việc thu thập ý kiến người sử dụng về kết quả tư vấn.
Bên cạnh đó, dựa vào kết quả nghiên cứu về phân tích sở thích của người sử dụng
thông qua lịch sử trình duyệt (history browser) được chúng tôi đề xuất trong công trình nghiên cứu sinh viên 2010 [1], chúng tôi đưa ra một phương pháp đánh giá tự động mô
hình phân tích sở thích dựa vào sự tương đồng giữa sở thích nổi trội trong phiên duyệt
web với sở thích nổi trội của lịch sử duyệt web của người sử dụng trong cùng một thời
điểm. Phương pháp đánh giá này sẽ xem xét sự tương đồng giữa sở thích của người sử
dụng trên nhiều trang và sở thích người sử dụng trên hệ thống để đưa ra sự đánh giá.
Chúng tôi so sánh 2 loại sở thích trên bằng cách lấy 3 chủ đề ẩn phổ biến nhất của 2 loại
sở thích ra làm đại diện, nếu giữa chúng có sự xuất hiện của 1 chủ đề cụ thể nào thì xem
37
Chương 4: Thực nghiệm và đánh giá