Xếp hạng trong máy tìm kiếm

Tốc độ phát triển nhanh chóng của World Wide Web (www) dẫn đến nhu cầu tìm kiếm các tài liệu trên internet trở nên rất lớn, máy tìm kiếm được sử dụng để phục vụ cho nhu cầu này của con người. Từ yêu cầu của người dùng, thường là một truy vấn, máy tìm kiếm sẽ tìm kiếm và đưa ra các tài liệu phù hợp với yêu cầu đó. Tuy nhiên số lượng kết quả phù hợp với truy vấn có thể là rất lớn, lên tới hàng trăm hay hàng nghìn, người dùng không thể lần lượt duyệt từng kết quả này để xác định đâu là tài liệu mình muốn tìm. Do vậy, bài toán đặt ra là phải tiến hành xếp hạng các tài liệu trả về từ máy tìm kiếm theo thứ

tự giảm dần vềđộ phù hợp với truy vấn đầu vào. Việc xếp hạng sẽ giúp người dùng nhanh chóng tiếp cận với kết quả mong muốn, tiết kiệm được rất nhiều thời gian.

Bài toán xếp hạng có ý nghĩa rất quan trọng trong máy tìm kiếm. Khác với những xếp hạng đơn giản như xếp hạng học sinh theo điểm trung bình, xếp hạng nhân viên theo số lượng công việc hoàn thành… có một tiêu chí xếp hàng rõ ràng và hàm tính dạng có thể dễ xác định. Việc xếp hạng các kết quả trả về từ máy tìm kiếm là rất phức tạp, mỗi tài liệu có nhiều đặc trưng khác nhau, cần tìm ra mối quan hệ giữa các đặc trưng đó.Và từđó kết hợp các đặc trưng lại để xây dựng hàm tính hạng phù hợp. Có rất nhiều thuật toán

được đưa ra như: HITS, PageRank, TrustRank… mỗi thuật toán đều có những ưu, nhược

điểm riêng.

[21]

Học xếp hạng được Joachims đánh giá là lĩnh vực nổi lên với sự phát triển lớn mạnh trong các nghiên cứu về tìm kiếm thông tin (information retrieval) và học máy (machine learning). Nói một cách khác, học hàm tính hạng hiện đang là vấn đềđược quan tâm trong lĩnh vực học máy và có nhiều ứng dụng trong tìm kiếm thông tin. Học xếp hạng là học hàm của các đặc trưng để sắp xếp các đối tượng theo độ phù hợp, ưu tiên hay độ

quan trọng…tùy vào từng ứng dụng cụ thể. Hiện nay nghiên cứu các phương pháp học tính hạng đang được nhiều nhà khoa học trên thế giới quan tâm. Dưới đây là thuật toán SVM-Rank, một trong những thuật toán học tính hạng phổ biến.

Mô hình ước lượng CTR(Click Through Rate)

Học xếp hạng và SVM Rank