Trong mô hình này, mỗi tài liệu được đặc trưng bởi 1 vector của tập các từ
ngữ (term). Tập các từ ngữ này được xác định bởi quá trình lập chỉ mục của hệ
thống. Có nghĩa là với mỗi tài liệu cụ thể DOCi sẽ được xác định bởi tập từ
ngữ TERM1 ,TERM2,…..,TERMt (Từ ngữở đây có thể gọi 1 cách rộng hơn là yếu tố thông tin vì nó có thể là một từ, ngữ được trích dẫn từ các tài liệu hay một từ , cụm từ lấy từ các từđiển thuật ngữ đồng nghĩa). Một tập các tài liệu DOC1, DOC2, …., DOCn có thểđược biểu diễn thành 1 ma trận trong đó mỗi dòng của ma trận là 1 tài liệu, mỗi cột biểu diễn 1 yếu tố thông tin của các atì liệu.
TERM1 TERM2 … TERMt DOC1 TERM11 TERM12 … TERM1t DOC2 TERM21 TERM22 … TERM2t ….
Luận văn : Đánh giá các hệ thống tìm kiếm thông tin
TERMij gọi là trọng số thông tin của yếu tố thông tin TEMj trong tài liệu DOCi , nó chính là tần số xuất hiện của TERMj trong tài liệu DOCi.
TERMij=0 có nghĩa là trong tài liệu DOCi không tồn tại yếu tố thông tin TERMj
=> Tương tự như vậy các câu truy vấn khi được đưa vào hệ thống cũng sẽ được biểu diễn thành vector có t thành phần TERM có sẵn của tài liệu. Nhưng giá trị của các TERMij không phải là trọng số mà có giá trị trị nhị phân.
- Khi TERMij=0 : từ (ngữ) của câu truy vấn không có trong tập yếu tố thông tin tài liệu
- TERMij=1 : từ (ngữ) của câu truy vấn có trong tập yếu tố thông tin tài liệu Biểu diễn hình học của tập vec-tơ tài liệu:
Tập tài liệu gồm n DOC : DOC1, DOC2,…,DOCn và t yếu tố thông tin TERM1, TERM2, …, TERMt.
Theo mô hình vector : một tài liệu biểu diễn thành 1 vector trên không gian t chiều . Vậy ta có n vector tài liệu
DOC1 (TERM11,TERM12,…..,TERM1t) DOC2 (TERM21,TERM22,…..,TERM2t) ….
DOCn (TERMn1,TERMn2,…..,TERMnt)
Lần lượt tính cos của góc tạo bởi 2 vector tài liệu DOCi,DOCj theo cộng thức sau:
∑
COS (DOCi, DOCj)=
√ ∑ √ ∑
Ta thấy góc α tạo bởi 2 vector DOCi , DOCj càng nhỏ thì vector DOCi và DOCj càng gần nhau hay trọng số của các yếu tố thông tin so với tài liệu DOCi, DOCj gần bằng nhau tài liệu DOCi và DOCj có cùng chủđề
Để thể hiện ý nghĩa trên ta có khái niệm độ tương tự (TERMik * TERMjk) k=1 t (TERMik)^2 k=1 t (TERMjk)^2 k=1 t
Luận văn : Đánh giá các hệ thống tìm kiếm thông tin
Độ tương tự của các tài liệu chính là cos của góc tạo bởi 2 vector DOCi, DOCj