Mô hình vec-tơ của hệ thống SMART

Một phần của tài liệu xây dựng bộ ngữ liệu để đánh giá bằng tiếng Việt và chương trình trợ giúp đánh giá các hệ tìm kiếm thông tin (Trang 67 - 69)

Trong mô hình này, mỗi tài liệu được đặc trưng bởi 1 vector của tập các từ

ngữ (term). Tập các từ ngữ này được xác định bởi quá trình lập chỉ mục của hệ

thống. Có nghĩa là với mỗi tài liệu cụ thể DOCi sẽ được xác định bởi tập từ

ngữ TERM1 ,TERM2,…..,TERMt (Từ ngữở đây có thể gọi 1 cách rộng hơn là yếu tố thông tin vì nó có thể là một từ, ngữ được trích dẫn từ các tài liệu hay một từ , cụm từ lấy từ các từđiển thuật ngữ đồng nghĩa). Một tập các tài liệu DOC1, DOC2, …., DOCn có thểđược biểu diễn thành 1 ma trận trong đó mỗi dòng của ma trận là 1 tài liệu, mỗi cột biểu diễn 1 yếu tố thông tin của các atì liệu.

TERM1 TERM2 … TERMt DOC1 TERM11 TERM12 … TERM1t DOC2 TERM21 TERM22 … TERM2t ….

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin

TERMij gọi là trọng số thông tin của yếu tố thông tin TEMj trong tài liệu DOCi , nó chính là tần số xuất hiện của TERMj trong tài liệu DOCi.

TERMij=0 có nghĩa là trong tài liệu DOCi không tồn tại yếu tố thông tin TERMj

=> Tương tự như vậy các câu truy vấn khi được đưa vào hệ thống cũng sẽ được biểu diễn thành vector có t thành phần TERM có sẵn của tài liệu. Nhưng giá trị của các TERMij không phải là trọng số mà có giá trị trị nhị phân.

- Khi TERMij=0 : từ (ngữ) của câu truy vấn không có trong tập yếu tố thông tin tài liệu

- TERMij=1 : từ (ngữ) của câu truy vấn có trong tập yếu tố thông tin tài liệu Biểu diễn hình học của tập vec-tơ tài liệu:

Tập tài liệu gồm n DOC : DOC1, DOC2,…,DOCn và t yếu tố thông tin TERM1, TERM2, …, TERMt.

Theo mô hình vector : một tài liệu biểu diễn thành 1 vector trên không gian t chiều . Vậy ta có n vector tài liệu

DOC1 (TERM11,TERM12,…..,TERM1t) DOC2 (TERM21,TERM22,…..,TERM2t) ….

DOCn (TERMn1,TERMn2,…..,TERMnt)

Lần lượt tính cos của góc tạo bởi 2 vector tài liệu DOCi,DOCj theo cộng thức sau:

COS (DOCi, DOCj)=

√ ∑ √ ∑

Ta thấy góc α tạo bởi 2 vector DOCi , DOCj càng nhỏ thì vector DOCi và DOCj càng gần nhau hay trọng số của các yếu tố thông tin so với tài liệu DOCi, DOCj gần bằng nhau tài liệu DOCi và DOCj có cùng chủđề

Để thể hiện ý nghĩa trên ta có khái niệm độ tương tự (TERMik * TERMjk) k=1 t (TERMik)^2 k=1 t (TERMjk)^2 k=1 t

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin

Độ tương tự của các tài liệu chính là cos của góc tạo bởi 2 vector DOCi, DOCj

Một phần của tài liệu xây dựng bộ ngữ liệu để đánh giá bằng tiếng Việt và chương trình trợ giúp đánh giá các hệ tìm kiếm thông tin (Trang 67 - 69)