Đểđánh giá sựảnh hưởng của chủđềẩn đối với kết quả xếp hạng chúng ta tiến hành cài đặt 2 hệ thống xếp hạng như sau:
• Hệ thống thứ nhất sử dụng SVM-Rank chỉ với các đặc trưng về tần suất xuất hiện của từ khóa trong tài liệu (TF-IDF). Hệ thống này được gọi là RTF.
• Hê thống thứ hai sử dụng SVM-Rank với các đặc trưng về tần suất xuất hiện của từ khóa và các xác suất để tài liệu thuộc vào các chủđề ẩn. Hệ thống này gọi là RHT.
Chọn môt số truy vấn, tiến hành tìm kiếm bằng tay trên một vài máy tím kiếm như
MSN, Yahoo, Google. Tổng số truy vấn được sử dụng là 40 truy vấn, về các lĩnh vực khác nhau như: computer, sport, medicine… Từ các trang kết quả, lấy về 5 quảng cáo cho mỗi truy vấn. Việc đánh giá mô hình được tiến hành theo hai bước:
• Từ các quảng cáo thu được, tiến hành loại bỏ từ dừng, các kí tự, kí hiệu không có ý nghĩa. Xác định chủđề ẩn cho mỗi quảng cáo, tính phân phối xác suất của mỗi chủ đề trên quảng cáo. Xây dựng véc tơ quảng cáo từ các xác suất thu được và tần suất xuất hiện của từ khóa trong quảng cáo. Sử dụng công cụ SVM-Rank với mô hình thu được trong quá trình học để xếp hạng các kết quả.
• Lấy ý kiến đánh giá của người dùng đối với danh sách kết quả thu được theo truy vấn. Tiến hành lấy ý kiến 5 người dùng, đưa ra cho họ một yêu cầu như: “với truy vấn như trên, bạn hãy lần lượt click vào các link sau theo thứ tự phù hợp”. Ý kiến của mỗi người dùng sẽđược sử dụng để xác định một sốđộđo cho mô hình, cuối cùng chúng ta tính kết quả cuối cùng bằng cách lấy trung bình các độđo.