Mô hình không gian vector

Một phần của tài liệu PHÂN BIỆT NHẬP NHẰNG TÊN NGƯỜI TRONG HỆ THỐNG TÌM KIẾM THỰC THỂ (Trang 31 - 33)

Mô hình biểu diễn vector [1] là một mô hình truyền thống cho việc đo độ tương đồng giữa hai văn bản. Theo mô hình này, mỗi văn bản được biểu diễn bởi một không gian nhiều chiều, trong đó mỗi chiều tương ứng với một từ trong văn bản. Một từ với độ quan trọng được xác định bằng một phương pháp đánh chỉ số trong văn bản, và giá trịđược chuẩn khóa trong khoảng [0,1].

Ví dụ hình mô tả hai văn bản d1 và d2 được biểu diễn bởi các vector v1 và v2 gồm ba chiều T1, T2, T3

25

Một số phương pháp đánh trọng số cho từ trong văn bản:

- Phương pháp dựa trên tần số từ khóa

Giá trị của một từ khóa được tính dựa trên số lần xuất hiện của từ khóa (TF – Term Frequency) trong văn bản. Gọi tfijlà tần số xuất hiện của từ khóa ti trong văn bản dj khi đó có thể tính trọng số wij theo một trong các công thức dưới đây:

wij = tfij (3.1) wij= 1 + log(tfij) (3.2) wij= tfij (3.3)

- Phương pháp dựa trên nghịch đảo tần số văn bản (IDF – Inverse Document

Frequency )

Gọi dfi là số lượng văn bản có chứa từ khóa ti trong tập m văn bản đang xét, thì giá trị của tần số từđược tính bởi công thức:

wij = log (

i

df

m ) = log(m) – log(dfi) (3.4)

Phương pháp này được giải thích dựa trên lập luận rằng một từ xuất hiện trong nhiều văn bản thuộc tập văn bản D thì không quan trọng bằng một từ xuất hiện trong ít văn bản thuộc tập D, nghĩa là một từ quá thông dụng sẽ có độ quan trọng kém hơn một từ chỉ xuất hiện trong một văn bản hoặc một tập nhỏ các văn bản. - Phương pháp TFIDF T2 T3 T1 v1 v2 θ

26

Phương pháp này là tổng hợp của hai phương pháp TF và IDF, giá trị của ma trận trọng sốđược tính như sau:

(3.5)

Một phần của tài liệu PHÂN BIỆT NHẬP NHẰNG TÊN NGƯỜI TRONG HỆ THỐNG TÌM KIẾM THỰC THỂ (Trang 31 - 33)