6 Chương 4 Bài toỏn phõn loại văn bản tiếng việt và giải phỏp
6.4.1.4 Cỏc cụng thức tớnh toỏn sử dụng trong thuật giải
Văn bản đó được chỳng ta tiền xử lý, kết quả là tạo ra một vector. Trong phần này chỳng ta sẽ đi vào tỡm hiểu cỏc cụng thức sử dụng để tớnh ra đụ liện quan của văn bản đầu vào và cỏc văn bản tập mẫu. Và dựa trờn những cụng thức đú chỳng ta sẽ đề xuất cụng thức cải tiến cho chỳng ta.
Dữ liệu đầu vào là một vector văn bản mẫu.
Đầu ra : độ liờn quan của văn bản đầu vào và cỏc văn bản trong tập mẫu. [ 26192 ] = “hổ” ; [ 8132 ] = “chăm súc” ; [ 72465 ] = “vườn”
[65978] = “trắng” ; [4373] = “bỡnh sữa” ; [8769] = “chạy quanh” ; [25719] = “hiếm” ; [71994] = “với những” ; [61183] = “thỳ” ;
[38780] = “mexico” ; [11409] = “cú một” ; [43999] = “nhõn viờn” ;
Hỡnh 4.13. Mụ hỡnh tớnh độ liờn quan của văn bản truy vấn và văn bản mẫu Trong đú : ∑ = = n 1 t 2 t d, d w W : là trọng số của văn bản Dd (1)
wd,t =wt.rd,t: là trọng số của term t đối với văn bản Dd (2)
log2(1 )
t t
f N
w = + : trọng số của term t đối với toàn bộ tập văn bản {Dd}
(3)
N: số văn bản (4)
ft : số văn bản xuất hiện term t (5)
f d,t: là số lần xuất hiện của term trong văn bản Dd (6)
t q, t t q, , f max f . .5 05 0 + = t q
r là quan hệ của term t đốii vơi văn bản Q (7)
rd,t =1+log2fd,t: là quan hệ của term t đối với văn bản Dd (8)
Trờn đõy là mụ hỡnh cũng như cụng thức tớnh độ liờn quan của văn bản đầu vào Q và văn bản của tập mẫu.
Lưu trữ dạng vector thưa
Vector của tập mẫu
XÁC ĐỊNH ĐỘ LIấN QUAN THEO CễNG THỨC
BỘ XÁC ĐỊNH ĐỘ LIấN QUAN của văn bản đầu vầo với văn bản
mẫu
Vector văn bản đầu vào
Chỳng ta dựa vào phương phỏp tớnh độ liờn quan của văn bản đầu vào đối với cỏc văn bản mẫu như trờn để đề ra một cụng thức cú tớnh cải tiến về độ chớnh xỏc.