Tính hạng thực thể 17

Một phần của tài liệu MỘT SỐ THUẬT TOÁN PHÂN HẠNG ẢNH PHỔ BIẾN VÀ ÁP DỤNG TRONG HỆ THỐNG TÌM KIẾM ẢNH LỚP TRÊN THỬ NGHIỆM (Trang 27 - 28)

Tìm kiếm thực thể trên Web là một hướng đi mới dựa trên tìm kiếm văn bản thông thường. Cùng với sự phát triển của các kỹ thuật trích rút thông tin, các máy tìm kiếm thực thể ngày càng nhận được nhiều sự quan tâm nghiên cứu của các nhà khoa học. Với máy tìm kiếm thực thể, người dùng có thể dễ dàng tìm được thông tin về một đối tượng nào đó. Ví dụ, đối với truy vấn “các trường đại học ở Việt Nam”, máy tìm kiếm thực thể sẽ trả về danh sách tên các trường đại học ở Việt Nam đúng như mong muốn của người dùng. Trong khi đó, các máy tìm kiếm thông thường sẽ trả về danh sách các trang Web có chứa từ khóa trong truy vấn. Do vậy, người dùng sẽ phải duyệt qua nội dung nhiều trang Web mà không chắc chắn sẽ có được thông tin mong muốn ở những kết quả đầu tiên. Kết quả trả về của máy tìm kiếm thực thể là các thực thể của đối tượng cần tìm, mỗi thực thể được xác định không chỉ xét trên một trang độc lập mà có thể được tổng hợp qua nhiều trang Web. Vì thế, vấn đề đưa các thực thể phù hợp với truy vấn nhất lên đầu tiên trong danh sách trả về cho người dùng là rất quan trọng. Hay nói cách khác, xếp hạng thực thể là vấn đề cốt lõi của máy tìm kiếm thực thể.

Bài toán xếp hạng thực thể được phát biểu như sau:

Gọi , , … , là tập các thực thể được trích ra từ các trang Web. Mỗi thực thể được biểu diễn bởi các cặp (<thuộc tính>,<giá trị>). Định nghĩa ,

là một mô tả của thực thể , trong đó là định danh thực thể: và tập các đặc tính , … , là tập các cặp (<thuộc tính>,<giá trị>). Ví dụ, trường đại học Công Nghệ có ID là DHCN và các đặc tính như là (tên, đại học Công Nghệ),

(năm_thành_lập, 2005)…

Truy vấn , … , là một tập các cặp (<thuộc tính>,<giá trị>) thể hiện yêu cầu của người dùng tìm kiếm các thực thể có các giá trị ứng với các thuộc tính

18

Với đầu vào là một tập các mô tả thực thể … và một truy vấn q, đầu ra của một hệ thống xếp hạng thực thể là một danh sách các thực thể đã được xếp hạng … . Độ phù hợp của thực thể đối với truy vấn q được xác định bởi

_ , .

Giá trị của , được dùng để xếp hạng các kết quả trả về, do đó việc xác định hàm , là vấn đề quan trọng. Với mỗi bài toán xếp hạng thực thể cho mỗi loại đối tượng sẽ có một số thuật toán xếp hạng thực thể phù hợp với bài toán đó tùy thuộc vào các thuộc tính của đối tượng cần tìm.

Hình 3. Một mô hình học xếp hạng trong máy tìm kiếm thực thể [4]

Một phần của tài liệu MỘT SỐ THUẬT TOÁN PHÂN HẠNG ẢNH PHỔ BIẾN VÀ ÁP DỤNG TRONG HỆ THỐNG TÌM KIẾM ẢNH LỚP TRÊN THỬ NGHIỆM (Trang 27 - 28)