IV. V nđ tính tr ngs cho tch mc 27
3. Giá tr phân bi tt 29
phân bi t c a m c t là giá tr phân bi t m c đ t ng
đ ng gi a các tài li u. N u m t m c t có trong ch m c mà làm cho
đ t ng t c a các tài li u cao thì nó có đ phân bi t kém (ngh a là t này th ng xuyên xu t hi n trong các tài li u) và ng c l i. Nh vây các m c t có đ phân bi t cao nên đ c ch n đ l p ch m c. Th c ch t vi c s d ng đ phân bi t này c ng cho k t qu t ng đ ng v i vi c s d ng t n s ngh ch đ o và t l tín hi u nhi u.
G i SIMILAR(Di, Dj) là đ t ng quan gi a c p tài li u Di và Dj. Khi đó, đ t ng quan trung bình c a t p tài li u này là:
( i, j)
AvgSim=∑SIMILAR D D ∀ ≠i j
G i AvrSimk là đ t ng quan trung bình c a t p tài li u khi b t k. Rõ rành, n u t k xu t hi n th ng xuyên trong t p tài li u thì khi b t k, đ t ng quan trung bình s gi m. Ng c l i, n u t k ch t p trung trong m t s tài li u, Khi b k, đ t ng quan trung bình s t ng lên.
Giá tr phân bi t DifValuek c a t k đ c tính nh sau:
k k
DifValue = AvgSim − AvgSim
Tr ng s c a t k trong tài li u i đ c tính b ng cách k t h p gi a T ng s c a k trong tài li u I FREQik và DifValuek:
*
k k k
Weight = DifValue FREQ
4. T p tin ngh ch đ o tài li u
T p tin l u tr c ti p(direct file) là t p tin mà chính các m c thông tin đã cung c p th t chính c a t p tin.
Ng c l i t p tin ngh ch đ o (inverted file) đ c x p theo ch đ , m i ch đ l i bao g m m t t p các m c thơng tin.
Ví d ta có t p các tài li u, m i tài li u ch a danh sách các t . N u m t t xu t hi n trong m t tài li u, ghi 1. Ng c l i ghi 0. Khi
T 1 T 2 T 3
Tài li u 1 1 1 0
Tài li u 2 0 1 1
Tài li u 3 1 0 1
B ng t p tin l u tr c ti p
Tài li u 1 Tài li u 2 Tài li u 3
T 1 1 0 1
T 2 1 1 0
T 3 0 1 1
B ng t p tin l u ngh ch đ o. 5. T i sao ph i s d ng t p tin ngh ch đ o?
Trong m t h th ng tìm ki m thơng tin, t p tin ngh ch đ o có ý ngh a r t l n, giúp vi c truy c p đ n l y thơng tin c a t có trong trang nào m t cách nhanh chóng. Ví d khi ng i dùng nh p câu truy v n có 2 t , h th ng s tách thành 2 t “t 1” và “t 2”. D a vào t p tin ngh ch đ o ta d dàng xác đnh đ c các tài li u có ch a 2 t này đ
tra v cho ng i tìm ki m. Tuy nhiên, khó kh n chính c a t p tin ngh ch đ o là khi thêm m t tài li u m i, t t c các t có liên quan đ n tài li u này đ u ph i đ c c p nh t l i.
Rõ ràng vi c này t n m t chi phí l n n u t p tin ngh ch đ o l n. Trong th c t , t p tin ngh ch đ o tài li u có th ch a hàng tr m ngàn t . Tuy nhiên, trong h th ng tìm ki m thơng tin, ng i ta ch c n c p nh t l i t p tin t i theo th i đi m đnh k . Vì v y, t p tin ngh ch đ o v n đ c s d ng đ l p ch m c.
Lê Nguy n ồn Trí – 0851010294 31/70 Võ Nguy n Minh Tuân - 0851010308
CH NG 4: NH NG V N C A B PH N
GIAO TI P, SO KH P VÀ S P X P K T QU TR V
I. V n đ giao ti p v i ng i dùng
Search Engine nh n d li u câu h i và yêu c u tìm ki m t ng i dùng, nên giao di n ph i đ n gi n, d s d ng và rõ ràng v i ng i dùng. Câu h i ng i dùng nh p vào s đ c x lý t c là tách t cho câu h i. Ph ng pháp tách t cho câu h i đ c dùng theo ph ng pháp tách t cho tài li u thu th p đ đ m b o s t ng thích. Sau đó, h th ng s tìm ki m trong t p tin ch m c đ xác đnh các tài li u liên quan đ n câu h i c a ng i dùng.