Sd ng mô hình vec-t

Một phần của tài liệu Tài liệu Luận văn: XÂY DỰNG BỘ NGỮ LIỆU ĐỂ ĐÁNH GIÁ BẰNG TIẾNG VIỆT VÀ CHƯƠNG TRÌNH TRỢ GIÚP ĐÁNH GIÁ CÁC HỆ TÌM KIẾM THÔNG TIN docx (Trang 69 - 73)

Phân lo i tài li u:

D a vào vi c tính đ t ng t gi a các vector tài li u ta có th phân lo i tài li u, nh ng tài li u có đ t ng t g n nhau s x p vào 1 l p

M c đích c a vi c phân tài li u:

Là đ t o ra 1 t p tin cluster document. D i đây là ví d c a t p tin cluster: (TERMik * QTERMjk) k=1 t (TERMik)^2 k=1 t (QTERMjk)^2 k=1 t

Lu n v n : ánh giá các h th ng tìm ki m thông tin

M i 1 đi m x ký hi u cho 1 vector tài li u, kho ng cách gi a 2 đi m x t l ngh ch v i đ t ng t (kho ng cách gi a 2 đi m x càng l n có ngh a là đ t ng t gi a 2 tài li u càng nh và ng c l i).

M i đ ng tròn đ i di n cho l p tài li u.

đ c tr ng cho l p đó ng i ta đnh ngh a thêm 1 vector đ c bi t g i là vector centroid , nó c ng gi ng nh tr ng tâm c a t p các đi m x , đ c th hi n trên hình v là ‘o’.

Cách tính vector centroid

Gi s có m tài li u thu c l p p, vector centroid c a l p p đ c bi u di n nh sau:

CENTROIDp = CTERMp1 , CTERMp2,….,CTERMpt Trong đó :

CTERMpk = ∑ TERMik

v i TERMik là tr ng s c a term k c a tài li u i trong l p p

M c đích c a vi c đ a ra vector centroid:

u tiên ,m i câu truy v n s đ c so sánh v i các vector centroid đ tính

đ t ng t gi a vector truy v n và vector centroid thay vì ph i tính v i t t c các vector tài li u . N u đ t ng t đó đ l n (có ngh a là l p tài li u đó thích

1 m i=1 m x x x x x o x x x x o x x x o o x o o x x x

Lu n v n : ánh giá các h th ng tìm ki m thông tin

h p) thì ta ti p t c so sánh vector truy v n v i các vector tài li u trong l p mà vector centroid đó đ i di n . Tài li u nào có đ t ng t l n s đ c ph c h i

Gi s có n tài li u trong t p c s d li u tài li u đ c phân chia thành x l p (nên có x vector centroid) , m i l p có kh n ng ch a n/x tài li u

S l n so sánh gi a câu truy v n và vector centroid là x l n.

Sau khi đã so sánh x l n v i các vector centroid ta ch n đ c 1 vector centroid có đ t ng t l n nh t và ti n hành so sánh v i n/x tài li u trong l p có vector centroid đó đ i di n

T ng s l n so sánh là x + n/x (*)

N u không thi t l p t p tin cluster (t c là không đnh ngh a vector centroid ) t ng s l n so sánh c a 1 câu truy v n v i n t p tài li u là n l n

Áp d ng b t đ ng th c Cauchy cho bi u th c (*): x + ≥ 2ạ n

D u “=” x y ra khi x = x = ạ n

V y s l n so sánh ít nh t s là 2ạ n v i s cluster trong t p tài li u là x =

ạ n

i v i t p tài li u l n v i các tài li u có nhi u ch đ khác nhau không

đ ng nh t thì s l ng cluster (l p) s l n, lúc đó s l n so sánh gi a vector truy v n và các vector centroid s l n . gi i quy t tr ng h p này , m t l n n a ta l i áp d ng ph ng pháp tính đ t ng t gi a các vector centroid nh cách tính đ t ng t gi a các tài li u đ phân l p cho t p vector centroid.

Nói tóm l i vi c tính đ t ng t gi a các tài li u đ phân l p tài li u t o ra 1 vector đ i di n cho l p đó g i là vector centroid , t ng t vi c phân l p vector centroid s t o ra 1 vector đ i di n cho l p vector centroid đó g i là vector supercentroid và l p đó đ c g i là superclass

Do đó vi c tìm ki m tài li u s đ c th c hi n qua 3 b c:

i. u tiên so sánh vector truy v n v i các vector supercentroid thu c

x n

x n

Lu n v n : ánh giá các h th ng tìm ki m thông tin

ii. Sau đó so sánh câu truy v n v i các vector centroid c a các superclass tho b c 1

iii. Cu i cùng so sánh câu truy v n v i các vector tài li u c a các l p mà vector centroid tho b c 2

M t ví d v c u trúc c a t p tin cluster:

Vi c t ch c các file cluster ph i thích h p v i s phát tri n c a t p c s d li u tài li u, b i vì 1 tài li u m i đ c thêm vào c s d li u c ng s đ c th c hi n so sánh t ng t nh đ i v i câu truy v n. Các item c a tài li u s

đ c so sánh v i các supercentroid và các centroid đã có , k t qu là tài li u s

đ c thêm vào nh ng cluster thích h p mà đ t ng t gi a các cluster đ l n. Sau đó h th ng ph i ti n hành tính l i các vector supercentroid và centroid c a nh ng cluster v a m i có thêm tài li u m i

SUPERCENTROIDk SCTERMk1 , SCTERMk2 , …… , SCTERMkt CENTROIDPOINTER i CENTROIDPOINTER j ….

CENTROIDi CTERMi1 , CTERMi2 , …… , CTERMit

DOCPOINTER i1 DOCPOINTER i2 …..

CENTROIDj CTERMj1 , CTERMj2 , …… , CTERMjt

DOCPOINTER j1 DOCPOINTER j2 ….

DOCi1 TERMi11 , TERMi12 , …… , TERMi1t

DOCi2 TERMi21 , TERMi22 , …… , TERMi22

DOCj1 TERMj11 , TERMj12 , …… , TERMj1t

DOCj2 TERMj21 , TERMj22 , …… , TERMj22

……

Lu n v n : ánh giá các h th ng tìm ki m thông tin

Xác đ nh tài li u thích h p tr v C i ti n câu truy v n:

Th t c c i ti n câu truy v n c a h th ng SMART còn đ c g i là quá trình g i thông tin ph n h i v tính liên quan c a tài li u (Relevance feedback) vi c

đánh giá đ liên quan mà ng i s d ng cung c p cho h th ng d a trên nh ng tài li u đ c ph c h i c a câu truy v n tr c đó, đ xây d ng l i mô hình vector truy v n m i. M c đích c a quá trình này là xây d ng câu truy v n m i có hi u qu th c thi t t h n

Th t c c i ti n câu truy v n đ c th c thi nh sau:

i. Các t ng xu t hi n trong tài li u đ c ng i dùng xác đnh là có liên quan s đ c thêm vào mô hình vector truy v n ban đ u ho c tr ng s c a nh ng t ng này (term) s đ c t ng lên.

ii. Các t ng xu t hi n trong tài li u đ c ng i dùng xác đ nh là không có liên quan s đ c xoá ra kh i câu truy v n ban đ u ho c tr ng s c a nó s

đ c gi m lên.Th t c c i ti n câu truy v n s đ c th c thi m t cách t đ ng d a vào thông tin ph n h i t phía ng i dùng. Quá trình này có th đ c ti n hành nhi u l n đ tìm ra câu truy v n t i u nh t

Một phần của tài liệu Tài liệu Luận văn: XÂY DỰNG BỘ NGỮ LIỆU ĐỂ ĐÁNH GIÁ BẰNG TIẾNG VIỆT VÀ CHƯƠNG TRÌNH TRỢ GIÚP ĐÁNH GIÁ CÁC HỆ TÌM KIẾM THÔNG TIN docx (Trang 69 - 73)

Tải bản đầy đủ (PDF)

(187 trang)