Giả sử D = {d1, d2, …, dn} là tập cỏc tài liệu và T={t1, t2,…,tm} là tập cỏc từ chỉ mục của tập tài liệu D. Theo mụ hỡnh khụng gian vector, mỗi tài liệu được biểu diễn bởi một vector trọng số [wi1,wi2, …,wim] trong đú wij là trọng số của từ thứ j trong tài liệu i. Trong TRSM, khụng gian dung sai được ký hiệu qua một vũ trụ của tất cả cỏc từ chỉ mục
U = T = {t1, t2,..., tM }
í tưởng là xỏc định được mối quan hệ giữa cỏc từ chỉ mục trong cỏc lớp. Với mục đớch này, quan hệ dung sai R được xỏc định là sự xuất hiện đồng thời của cỏc từ trong tất cả cỏc tài liệu từ tập D. Việc lựa chọn quan hệ đồng xuất hiện của cỏc từ chỉ mục để định nghĩa quan hệ dung sai là để xỏc định mối quan hệ ngữ nghĩa và làm sỏng tỏ ý nghĩa thực sự của cỏc từ trong ngữ cảnh của cỏc tài liệu và sẽ giỳp việc tớnh toỏn trở lờn đơn giản và hiệu quả.
Lớp dung sai của cỏc từ
Giả sử fD(ti, tj) là số lượng cỏc tài liệu trong D xuất hiện cả hai từ ti và tj. Hàm khụng chắc chắn I phụ thuộc vào ngưỡng θ được định nghĩa là
Iθ(ti) = {tj | fD(ti, tj) ≥ θ} ∪ {ti }
Rừ ràng hàm trờn thỏa món cỏc tớnh chất đối xứng và bắc cầu với mọi ti và tj ∈ T. Vỡ vậy quan hệ dung sai I TxT cú thể định nghĩa qua hàm I:
tiI tj tj ∈ Iθ(ti) Trong đú Iθ (ti) là lớp dung sai của từ chỉ mục tj
Trong bối cảnh thu thập thụng tin, một lớp dung sai biểu diễn một khỏi niệm được đặc trưng bởi cỏc từ mà nú chứa. Bằng việc thay đổi ngưỡng θ (phụ thuộc vào số lượng cỏc tài liệu) cú thể điều chỉnh độ liờn quan của cỏc từ trong lớp dung sai (hay núi cỏch khỏc là độ chớnh xỏc của cỏch biểu diễn khỏi niệm bởi một lớp dung sai).
X Y X Y X ) , ( chắc chắn được định nghĩa là
Hàm tớnh độ phụ thuộc của từ khoỏ ti T, X T:
| ( ) | ( , ) ( ( ), ) | ( ) | i i i i I t X t X I t X I t
Từ những giả sử trờn ta cú thể coi tất cả cỏc lớp dung sai của mỗi ti đều là cỏc tập con cú cấu trỳc, nghĩa là P(I(ti)) =1 với ti T
Cỏc xấp xỉ trờn và dưới của tập X T trong khụng gian vừa xỏc định được: B(X) = {ti T : (I(ti),X) = 1}
B(X) = {ti T: (I(ti),X) > 0}
Cú thể hiểu cỏc xấp xỉ này như sau: Nếu coi X là 1 khỏi niệm được mụ tả khụng chắc chắn bởi cỏc từ chỉ mục mà nú chứa thỡ B(X) là tập cỏc khỏi niệm mà cú một vài nghĩa chung với X, cũn B(X) là “lừi” của khỏi niệm X.
Vớ dụ 4-9: Xột vũ trụ cỏc từ được tỏch từ tập kết quả tỡm kiếm trả về bằng mỏy tỡm kiếm Google với từ khúa thường dựng là: jaguar. Lớp dung sai được tạo ra với ngưỡng đồng xuất hiện = 9.Ta thấy rằng cỏc lớp dung sai sinh ra cho thấy cỏc nghĩa khỏc nhau của từ “Jaguar”: Một con mốo, một xe hơi, một loại điều khiển Game, một hệ điều hành,…
Từ Lớp dung sai Tần số tài liệu Atari Atari, Jaguar 10
Mac Mac, Jaguar, OS, X 12
onca Onca, Jaguar, Panthera 9
Club Jaguar, club 27
Panthera Onca, Jaguar, Panthera 9
Information Jaquar, information 9
OS Mac, Jaguar, OS, X 15
Site Jaguar,site 19
Welcome Jaguar, Welcome 21
X Mac, Jaguar, OS, X 14
Cars Jaguar, Cars 24
Bảng 4-4. Cỏc lớp dung sai quan trọng của cỏc từ được sinh ra từ 200 snippets trả về từ mỏy tỡm kiếm Google với từ khúa “jaguar” và ngưỡng đồng xuất hiện = 9