Mô hình không gian vector

Một phần của tài liệu LUẬN VĂN: PHÂN BIỆT NHẬP NHẰNG TÊN NGƯỜI TRONG HỆ THỐNG TÌM KIẾM THỰC THỂ ppt (Trang 31 - 33)

Mô hình biểu diễn vector[1] là mộtmô hình truyền thống cho việc đo độ tương đồng giữa hai văn bản. Theo mô hình này, mỗi văn bản được biểu diễn bởi một không

gian nhiều chiều, trong đó mỗi chiều tương ứng với một từ trong văn bản. Một từ với độ quan trọng được xác định bằng một phương pháp đánh chỉ số trong văn bản, và giá trị được chuẩn khóa trong khoảng [0,1].

Ví dụ hình mô tả hai văn bản d1 và d2 được biểu diễn bởi các vector v1 và v2 gồm ba chiều T1, T2, T3

Một số phương pháp đánh trọng số cho từ trong văn bản:

-Phương pháp dựa trên tầnsố từ khóa

Giá trị của một từ khóa được tính dựa trên số lần xuất hiện của từ khóa (TF –

Term Frequency) trong văn bản. Gọi tfijlà tần số xuất hiện của từ khóa ti trong văn

bản dj khi đó có thể tính trọng số wij theo một trong các công thức dưới đây:

wij = tfij (3.1) wij= 1 + log(tfij) (3.2) wij= tfij (3.3)

- Phương pháp dựa trên nghịch đảo tần số văn bản (IDF – Inverse Document

Frequency )

Gọi dfi là số lượng văn bản có chứa từ khóa ti trong tập m văn bản đang xét, thì giá trị của tần số từ được tính bởi công thức:

wij = log (

i df

m ) = log(m) – log(dfi) (3.4)

Phương pháp này được giải thích dựa trên lập luận rằng một từ xuất hiện trong

nhiều văn bản thuộc tập văn bản D thì không quan trọng bằng một từ xuất hiện trong ít văn bản thuộc tập D, nghĩa là một từ quá thông dụng sẽ có độ quan trọng kém hơn

một từ chỉ xuất hiện trong một văn bản hoặc một tập nhỏ các văn bản.

-Phương pháp TFIDF T2 T3 T1 v1 v2 

Phương pháp này là tổng hợp của hai phương pháp TF và IDF, giá trị của ma

trận trọng số được tính như sau:

(3.5)

Một phần của tài liệu LUẬN VĂN: PHÂN BIỆT NHẬP NHẰNG TÊN NGƯỜI TRONG HỆ THỐNG TÌM KIẾM THỰC THỂ ppt (Trang 31 - 33)

Tải bản đầy đủ (PDF)

(50 trang)