Mô hình không gian véctơ 45

Một phần của tài liệu Luận án: Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở (Trang 57 - 58)

Mô hình không gian véctơđược đề xuất bởi Salton và CS (1975). Trong mô hình đó các tài liệu và truy vấn được biểu diễn trong một không gian véctơđa chiều, với mỗi chiều tương

ứng với một term19. Khi mỗi term là một từ thì số chiều của một véctơ bằng tổng số từ

trong tập tài liệu huấn luyện. Độ tương tự giữa một tài liệu và một truy vấn được đo bằng

cosine của góc giữa hai véctơ - véctơ của tài liệu và véctơ của truy vấn. Salton và CS

19 Chúng tôi không dịch thuật ngữterm, sử dụng nguyên bản tiếng Anh, với nghĩa đó là một từ hoặc cụm từ

quan trọng. Tổng số trang thực thể 1.660.067 Tổng số trang đổi hướng 1.652.676 Tổng số trang phân giải nhập nhằng 74.129 Tổng số thể loại 210.292 Tổng số liên kết ra của các trang thực thể 55.943.564 Tổng số liên kết giữa các trang thể loại 448.110

(1975) cũng cho thấy rằng việc gán trọng số cho các term dựa vào tần suất xuất hiện của chúng trong tập tài liệu huấn luyện cải thiện đáng kể hiệu quả truy hồi tài liệu, so với việc gán trọng số cho các term giới hạn trong hai giá trị 0 và 1. Có nhiều phương pháp gán trọng số cho các term, trong đó tf.idfđược xem là hiệu quả và được sử dụng rộng rãi nhất, với nhiều cách tính khác nhau đã được đề xuất cho tfidf. Sau đây là một trong những cách đó.

Với mỗi tài liệu d D, tần suất xuất hiện của term t trong d gọi là tfd,t và được tính bằng số lần xuất hiện của t trong tài liệu đó. Số tài liệu trong D có chứa t kí hiệu là dft. Giá

trịidft tính trên D là logarít của giá trịđảo của dft, và được tính bằng log

t

df D

. Do đó trọng

số của một term t trong tài liệu dwd,t= tfd,t × idft = tfd,t ×log

t

df D

.

Một phần của tài liệu Luận án: Phân giải nhập nhằng thực thể có tên dựa trên các ontology đóng và mở (Trang 57 - 58)