Giá tr phân bi tt 29 

Một phần của tài liệu 0762Lìm hiểu Search Engine và xây dựng ứng dụng minh hoạ. (Trang 30 - 32)

IV.  V nđ tính tr ngs cho tch mc 27 

3. Giá tr phân bi tt 29 

phân bi t c a m c t là giá tr phân bi t m c đ t ng

đ ng gi a các tài li u. N u m t m c t có trong ch m c mà làm cho

đ t ng t c a các tài li u cao thì nó có đ phân bi t kém (ngh a là t này th ng xuyên xu t hi n trong các tài li u) và ng c l i. Nh vây các m c t có đ phân bi t cao nên đ c ch n đ l p ch m c. Th c ch t vi c s d ng đ phân bi t này c ng cho k t qu t ng đ ng v i vi c s d ng t n s ngh ch đ o và t l tín hi u nhi u.

G i SIMILAR(Di, Dj) là đ t ng quan gi a c p tài li u Di và Dj. Khi đó, đ t ng quan trung bình c a t p tài li u này là:

( i, j)

AvgSim=∑SIMILAR D D ∀ ≠i j

G i AvrSimk là đ t ng quan trung bình c a t p tài li u khi b t k. Rõ rành, n u t k xu t hi n th ng xuyên trong t p tài li u thì khi b t k, đ t ng quan trung bình s gi m. Ng c l i, n u t k ch t p trung trong m t s tài li u, Khi b k, đ t ng quan trung bình s t ng lên.

Giá tr phân bi t DifValuek c a t k đ c tính nh sau:

k k

DifValue = AvgSimAvgSim

Tr ng s c a t k trong tài li u i đ c tính b ng cách k t h p gi a T ng s c a k trong tài li u I FREQik và DifValuek:

*

k k k

Weight = DifValue FREQ

4. T p tin ngh ch đ o tài li u

T p tin l u tr c ti p(direct file) là t p tin mà chính các m c thông tin đã cung c p th t chính c a t p tin.

Ng c l i t p tin ngh ch đ o (inverted file) đ c x p theo ch đ , m i ch đ l i bao g m m t t p các m c thơng tin.

Ví d ta có t p các tài li u, m i tài li u ch a danh sách các t . N u m t t xu t hi n trong m t tài li u, ghi 1. Ng c l i ghi 0. Khi

T 1 T 2 T 3

Tài li u 1 1 1 0

Tài li u 2 0 1 1

Tài li u 3 1 0 1

B ng t p tin l u tr c ti p

Tài li u 1 Tài li u 2 Tài li u 3

T 1 1 0 1

T 2 1 1 0

T 3 0 1 1

B ng t p tin l u ngh ch đ o. 5. T i sao ph i s d ng t p tin ngh ch đ o?

Trong m t h th ng tìm ki m thơng tin, t p tin ngh ch đ o có ý ngh a r t l n, giúp vi c truy c p đ n l y thơng tin c a t có trong trang nào m t cách nhanh chóng. Ví d khi ng i dùng nh p câu truy v n có 2 t , h th ng s tách thành 2 t “t 1” và “t 2”. D a vào t p tin ngh ch đ o ta d dàng xác đnh đ c các tài li u có ch a 2 t này đ

tra v cho ng i tìm ki m. Tuy nhiên, khó kh n chính c a t p tin ngh ch đ o là khi thêm m t tài li u m i, t t c các t có liên quan đ n tài li u này đ u ph i đ c c p nh t l i.

Rõ ràng vi c này t n m t chi phí l n n u t p tin ngh ch đ o l n. Trong th c t , t p tin ngh ch đ o tài li u có th ch a hàng tr m ngàn t . Tuy nhiên, trong h th ng tìm ki m thơng tin, ng i ta ch c n c p nh t l i t p tin t i theo th i đi m đnh k . Vì v y, t p tin ngh ch đ o v n đ c s d ng đ l p ch m c.

Lê Nguy n ồn Trí – 0851010294 31/70 Võ Nguy n Minh Tuân - 0851010308

CH NG 4: NH NG V N C A B PH N

GIAO TI P, SO KH P VÀ S P X P K T QU TR V

I. V n đ giao ti p v i ng i dùng

Search Engine nh n d li u câu h i và yêu c u tìm ki m t ng i dùng, nên giao di n ph i đ n gi n, d s d ng và rõ ràng v i ng i dùng. Câu h i ng i dùng nh p vào s đ c x lý t c là tách t cho câu h i. Ph ng pháp tách t cho câu h i đ c dùng theo ph ng pháp tách t cho tài li u thu th p đ đ m b o s t ng thích. Sau đó, h th ng s tìm ki m trong t p tin ch m c đ xác đnh các tài li u liên quan đ n câu h i c a ng i dùng.

Một phần của tài liệu 0762Lìm hiểu Search Engine và xây dựng ứng dụng minh hoạ. (Trang 30 - 32)

Tải bản đầy đủ (PDF)

(71 trang)