Phân lo i tài li u:
D a vào vi c tính đ t ng t gi a các vector tài li u ta có th phân lo i tài li u, nh ng tài li u có đ t ng t g n nhau s x p vào 1 l p
• M c đích c a vi c phân tài li u:
Là đ t o ra 1 t p tin cluster document. D i đây là ví d c a t p tin cluster: (TERMik * QTERMjk) k=1 t (TERMik)^2 k=1 t (QTERMjk)^2 k=1 t
Lu n v n : ánh giá các h th ng tìm ki m thông tin
M i 1 đi m x ký hi u cho 1 vector tài li u, kho ng cách gi a 2 đi m x t l ngh ch v i đ t ng t (kho ng cách gi a 2 đi m x càng l n có ngh a là đ t ng t gi a 2 tài li u càng nh và ng c l i).
M i đ ng tròn đ i di n cho l p tài li u.
đ c tr ng cho l p đó ng i ta đnh ngh a thêm 1 vector đ c bi t g i là vector centroid , nó c ng gi ng nh tr ng tâm c a t p các đi m x , đ c th hi n trên hình v là ‘o’.
• Cách tính vector centroid
Gi s có m tài li u thu c l p p, vector centroid c a l p p đ c bi u di n nh sau:
CENTROIDp = CTERMp1 , CTERMp2,….,CTERMpt Trong đó :
CTERMpk = ∑ TERMik
v i TERMik là tr ng s c a term k c a tài li u i trong l p p
• M c đích c a vi c đ a ra vector centroid:
u tiên ,m i câu truy v n s đ c so sánh v i các vector centroid đ tính
đ t ng t gi a vector truy v n và vector centroid thay vì ph i tính v i t t c các vector tài li u . N u đ t ng t đó đ l n (có ngh a là l p tài li u đó thích
1 m i=1 m x x x x x o x x x x o x x x o o x o o x x x
Lu n v n : ánh giá các h th ng tìm ki m thông tin
h p) thì ta ti p t c so sánh vector truy v n v i các vector tài li u trong l p mà vector centroid đó đ i di n . Tài li u nào có đ t ng t l n s đ c ph c h i
Gi s có n tài li u trong t p c s d li u tài li u đ c phân chia thành x l p (nên có x vector centroid) , m i l p có kh n ng ch a n/x tài li u
S l n so sánh gi a câu truy v n và vector centroid là x l n.
Sau khi đã so sánh x l n v i các vector centroid ta ch n đ c 1 vector centroid có đ t ng t l n nh t và ti n hành so sánh v i n/x tài li u trong l p có vector centroid đó đ i di n
T ng s l n so sánh là x + n/x (*)
N u không thi t l p t p tin cluster (t c là không đnh ngh a vector centroid ) t ng s l n so sánh c a 1 câu truy v n v i n t p tài li u là n l n
Áp d ng b t đ ng th c Cauchy cho bi u th c (*): x + ≥ 2ạ n
D u “=” x y ra khi x = x = ạ n
V y s l n so sánh ít nh t s là 2ạ n v i s cluster trong t p tài li u là x =
ạ n
i v i t p tài li u l n v i các tài li u có nhi u ch đ khác nhau không
đ ng nh t thì s l ng cluster (l p) s l n, lúc đó s l n so sánh gi a vector truy v n và các vector centroid s l n . gi i quy t tr ng h p này , m t l n n a ta l i áp d ng ph ng pháp tính đ t ng t gi a các vector centroid nh cách tính đ t ng t gi a các tài li u đ phân l p cho t p vector centroid.
Nói tóm l i vi c tính đ t ng t gi a các tài li u đ phân l p tài li u t o ra 1 vector đ i di n cho l p đó g i là vector centroid , t ng t vi c phân l p vector centroid s t o ra 1 vector đ i di n cho l p vector centroid đó g i là vector supercentroid và l p đó đ c g i là superclass
Do đó vi c tìm ki m tài li u s đ c th c hi n qua 3 b c:
i. u tiên so sánh vector truy v n v i các vector supercentroid thu c
x n
x n
Lu n v n : ánh giá các h th ng tìm ki m thông tin
ii. Sau đó so sánh câu truy v n v i các vector centroid c a các superclass tho b c 1
iii. Cu i cùng so sánh câu truy v n v i các vector tài li u c a các l p mà vector centroid tho b c 2
• M t ví d v c u trúc c a t p tin cluster:
Vi c t ch c các file cluster ph i thích h p v i s phát tri n c a t p c s d li u tài li u, b i vì 1 tài li u m i đ c thêm vào c s d li u c ng s đ c th c hi n so sánh t ng t nh đ i v i câu truy v n. Các item c a tài li u s
đ c so sánh v i các supercentroid và các centroid đã có , k t qu là tài li u s
đ c thêm vào nh ng cluster thích h p mà đ t ng t gi a các cluster đ l n. Sau đó h th ng ph i ti n hành tính l i các vector supercentroid và centroid c a nh ng cluster v a m i có thêm tài li u m i
SUPERCENTROIDk SCTERMk1 , SCTERMk2 , …… , SCTERMkt CENTROIDPOINTER i CENTROIDPOINTER j ….
CENTROIDi CTERMi1 , CTERMi2 , …… , CTERMit
DOCPOINTER i1 DOCPOINTER i2 …..
CENTROIDj CTERMj1 , CTERMj2 , …… , CTERMjt
DOCPOINTER j1 DOCPOINTER j2 ….
DOCi1 TERMi11 , TERMi12 , …… , TERMi1t
DOCi2 TERMi21 , TERMi22 , …… , TERMi22
DOCj1 TERMj11 , TERMj12 , …… , TERMj1t
DOCj2 TERMj21 , TERMj22 , …… , TERMj22
……
Lu n v n : ánh giá các h th ng tìm ki m thông tin
Xác đ nh tài li u thích h p tr v C i ti n câu truy v n:
Th t c c i ti n câu truy v n c a h th ng SMART còn đ c g i là quá trình g i thông tin ph n h i v tính liên quan c a tài li u (Relevance feedback) vi c
đánh giá đ liên quan mà ng i s d ng cung c p cho h th ng d a trên nh ng tài li u đ c ph c h i c a câu truy v n tr c đó, đ xây d ng l i mô hình vector truy v n m i. M c đích c a quá trình này là xây d ng câu truy v n m i có hi u qu th c thi t t h n
Th t c c i ti n câu truy v n đ c th c thi nh sau:
i. Các t ng xu t hi n trong tài li u đ c ng i dùng xác đnh là có liên quan s đ c thêm vào mô hình vector truy v n ban đ u ho c tr ng s c a nh ng t ng này (term) s đ c t ng lên.
ii. Các t ng xu t hi n trong tài li u đ c ng i dùng xác đ nh là không có liên quan s đ c xoá ra kh i câu truy v n ban đ u ho c tr ng s c a nó s
đ c gi m lên.Th t c c i ti n câu truy v n s đ c th c thi m t cách t đ ng d a vào thông tin ph n h i t phía ng i dùng. Quá trình này có th đ c ti n hành nhi u l n đ tìm ra câu truy v n t i u nh t