Chương 3 Mô hình đề xuất và thực nghiệm
3.1 Cơ sở thực tiễn
Như đã trình bày ở các chương trước, tính độ tương tự cho truy vấn là một trong những bài toán khó. Do đặc trưng của truy vấn thường ngắn và mang ý chủ quan của con người nên việc tính toán độ tương tự giữa các câu truy vấn chưa đạt được kết quả cao khi sử dụng các phương pháp tính độ tương tự văn bản truyền thống.
Userlog là những dữ liệu về lịch sử truy vấn của người dùng. Nó là những ví dụ thực tiễn nhất của quá trình người dùng thực hiện đưa truy vấn vào máy tìm kiếm và lựa chọn các tài liệu mà người dùng thấy phù hợp nhất. Vì vậy, userlog chính là nguồn dữ liệu rất có giá trị để so sánh, tính toán sự tương tự nhau giữa các truy vấn mà người dùng đưa vào dựa vào kết quả lựa chọn văn bản của người dùng. Tất nhiên, ta khó có thể tin vào kết quả thống kê của một lượng nhỏ dữ liệu lịch sử truy vấn nhưng với một lượng lớn userlog được sưu tập từ một máy tìm kiếm có uy tín như Google hay Yahoo, ... thì đây sẽ là khối dữ liệu mang lại kết quả tính độ tương tự truy vấn rất có hiệu quả. Thực tế, đã có rất nhiều bài báo sử dụng lưu vết truy vấn của máy tìm kiếm – userlog để tính toán độ tương tự giữa các câu truy vấn [12] [15] [17].
Từ bộ userlog được thu thập từ máy chủ của máy tìm kiếm Google, luận văn sẽ trình bày một phương pháp tính độ tương tự giữa các câu truy vấn dựa vào phương pháp sử dụng lưu vết truy vấn của máy tìm kiếm [12] và đề xuất mô hình tính toán như trình bày ở mục sau.