Các vn vđ liên quan

Một phần của tài liệu Tài liệu Luận văn: XÂY DỰNG BỘ NGỮ LIỆU ĐỂ ĐÁNH GIÁ BẰNG TIẾNG VIỆT VÀ CHƯƠNG TRÌNH TRỢ GIÚP ĐÁNH GIÁ CÁC HỆ TÌM KIẾM THÔNG TIN docx (Trang 49)

C s đánh giá h th ng tìm ki m thông tin: m t t p tài li u (document) đ i di n m t t p ch đ (topic) đ i di n m t vài câu truy v n cho m i ch đ

b ng đánh giá đ liên quan c a m i tài li u v i m i ch đ

Do đó v n đ c b n c a vi c đánh giá là ph i th ng nh t quan đi m v m c đ liên quan.

liên quan là m t khái ni m đa khía c nh (multifaceted), đa chi u (multidimensional). Khái ni m v đ liên quan đ n nay v n là m t v n đ khó kh n trong l nh v c khoa h c thông tin.Nh ng cu c nghiên c u g n đây đã t p trung vào nhân t nh h ng lên vi c đánh giá đ liên quan và chi u (ho c tiêu chu n) c a đ liên quan. Có nhi u lo i đ liên quan: đ liên quan thu t toán, đ

liên quan ch đ , đ liên quan nh n th c, đ liên quan tình hu ng, đ liên quan

Lu n v n : ánh giá các h th ng tìm ki m thông tin

liên quan v n mang tính ch quan, đánh giá đ liên quan th ng không th ng nh t do tính cá nhân và nhân t th i gian :

- M t tài li u đ c đánh giá là có liên quan v i t l nào đó nh ng đ i v i ng i khác t l này s khác => đ liên quan ph thu c tính cá nhân

- M t tài li u đ c đánh giá là có liên quan v i t l nào đó t i th i

đi m t , nh ng t i th i đi m t’ t l đó s thay đ i => đ liên quan ph thu c nhân t th i gian . Tuy nhiên s thay đ i này có th ch p nh n đ c do nó t ng đ i th p

Trong h u h t các th nghi m đánh giá h th ng tìm ki m thông tin (bao g m c nh ng th nghi m c a TREC) ng i ta th ng quan tâm đ liên quan nh phân (có ngh a là tài li u ho c là đ c đánh giá là có liên quan (1) ho c không có liên quan (0)). u đi m c a d liên quan nh phân là vi c tính toán R, P đ n gi n ; khuy t đi m là không th ph n ánh đ c kh n ng liên quan c a tài li u nhi u m c đ đúng v i th c t .

Trong cách đánh giá tìm ki m thông tin c a TREC, khái ni m “liên quan” là m t khái ni m tuy t đ i: m t tài li u ho c là liên quan ho c là không liên quan. i u gi s này nh m làm đ n gi n hóa vi c tính toán các đ đo. Nhi u cu c ki m tra khác đã ti n hành đánh giá v i t l đ liên quan nhi u m c đ .

liên quan 3 c p đ đã đ c th c hi n H i ngh NTCIR 1999 (NII- NACSIS Test Collection for IR systems), WEB track c a TREC-9.

liên quan 4 c p đ c dùng trong NTCIR 2000.

T l đ liên quan c a m t tài li u t i v trí th N s đ c tr hao, đi u này ph n ánh m t tình tr ng là tài li u tr v càng phía d i danh sách càng có ít giá tr h n đ i v i ng i s d ng : m c dù do m c đ t ng quan không gi m nh ng s trùng l p th ng tin v i nh ng tài li u phía trên c ng làm cho tài li u phìa d i kém ph n giá tr h n.

Lu n v n : ánh giá các h th ng tìm ki m thông tin

thông tin c b n gi ng nh tìm ki m trên m ng, tìm ki m câu tr l i cho m t câu h i đ c bi t nào đó ho c cho m t vài s tham kh o nào đó, gi s r ng m t ng i dùng đ c l t qua các tài li u đ c tr v s b t đ u v i tài li u d th y nh t ,n i b t nh t ( phía trên danh sách) do đó đ liên quan c a tài li u phía d i danh sách s ph thu c vào nh ng tài li u đã đ c đ c. Kh n ng m t tài li u ch a nh ng thông tin m i s gi m xu ng đ n cu i danh sách tài li u. S ph thu c này th ng đ c b qua trong nh ng l n nghiên c u tìm ki m thông tin.

Ngoài ra vi c đnh giá đ liên quan này mang tính ch quan. Chúng ta th ng có nhi u ý ki n khác nhau v m c đ liên quan. Do đó m c đ liên quan c a tài li u đ c phân bi t:

b ng liên quan đ c đ nh giá do tác gi c a tài li u hay không ph i tác gi

b ng liên quan đ c đnh giá b i m t nhóm đánh giá

b ng liên quan đ c đnh giá trong cùng đi u ki n hay đ c đ nh giá trong các đi u ki n khác nhau

2.2.3.4.3. ánh giá v i đ liên quan nhi u c p đ

(Multiple degree relevance or non-binary relevance)

Trong m t vài th nghi m v đánh giá đ liên quan nhi u c p đ ch có m t vài thí nghi m th c s cho th y l i ích c a vi c đánh giá đ liên quan nhi u c p đ khác nhau.

bao ph (R) , đ chính xác (P) là ph ng pháp c đi n đ đánh giá kh n ng th c thi c a IR và th ng đ c tính d a trên vi c đánh giá đ liên quan nh phân. Do đó vi c đánh giá đ liên quan nhi u c p đ ch đ c ti n hành b c đ u , sau đó nh ng giá tr m c đ s đ c qui v 2 giá tr 0,1 đ đánh giá

Ví d : đánh giá đ liên quan đ c ti n hành 3 m c đ :

o có liên quan (relevant) => ký hi u A

o liên quan m t ph n (partically relevant ) => ký hi u B

Lu n v n : ánh giá các h th ng tìm ki m thông tin

M c đ liên quan s đ c qui v 2 giá tr đ tính R , P. Có 2 cách tính: A, B mang giá tr 1 (có liên quan)

C mang giá tr 0 (không liên quan) ho c

A mang giá giá tr 1 (có liên quan) B,C mang giá tr 0 (không liên quan)

V i cách ti n hành nh v y đ duy trì m c đ liên quan c a tài li u,

đnh d ng m t t p tin đánh giá đ liên quan (relevant judgement) nh sau:

topic-ID dumy doc-ID relevant assessment

Trong đó :

topic-ID : ch s c a ch đ (topic)

dumy : là tr ng cho bi t tài li u đó có m c đ liên quan là bao nhiêu (A,ho c B ,ho c C)

doc-ID : ch s tài li u

relevant assessment: mang giá tr 0 ho c 1 , giá tr đánh giá đ liên quan sau khi đ c qui v đ liên quan nh phân.

M t ví d khác v đo đ liên quan c a tài li u 4 m c đ :

o đ liên quan cao (highly relevant)

o đ liên quan v a (fairly relevant)

o đ liên quan trung bình (marginally relevant)

o không liên quan (irrelevant)

Tuy nhiên trong các H i ngh v ánh giá các h th ng thông tin g n đây,

đ liên quan nh phân v n còn đ c xem là m t cách đánh giá chu n, th m chí nhi u tr ng h p đánh giá đ liên quan nhi u c p đ nh ng c ng đ c qui v đánh giá nh phân đ tính đ bao ph và đ chính xác. Cách ti n hành này có khuy t đi m là nó không ki m tra đ c t ng m c đ c th c a đ liên quan. M t s ng i có quan đi m là cách đo đ R và P d a vào vi c đánh giá nh phân là nên tránh vì cách tính nh v y không quan tâm đ n s thay đ i và đ

Lu n v n : ánh giá các h th ng tìm ki m thông tin

ph c t p c a m c đ liên quan, làm sai l ch tính t nhiên và th c t c a đ liên quan. M t gi i pháp đ gi i quy t v n đ này là t ng quát hoá đ R và P.

D a vào lý thuy t, th c nghi m, nghiên c u, m c đ liên quan c a tài li u thay đ i m t cách rõ ràng, m t vài tài li u thì liên quan nhi u h n, m t s khác thì ít h n. Th t là khó đ xác đnh m c đ liên quan khi ti n hành đánh giá.

i u này còn tu thu c vào tình hu ng đánh giá h th ng c a chúng ta.

2.2.3.4.4.Ph ng pháp đo đ bao ph (R), đ chính xác (P) d a trên đ liên quan nhi u c p đ

Ph ng pháp đo d a vào đ bao ph (R ) và đ chính xác (P) là m t ph ng pháp truy n th ng nh ng đ đo R,P ch đ c tính d a vào đ liên quan nh phân

i v i tr ng h p đ liên quan nhi u c p đ ta có 2 cách gi i quy t sau: - qui t t c m c đ liên quan v 2 giá tr 0,1 (gi ng nh đ a v d liên

quan nh phân ) => cách này theo Schamber là nên tránh - t ng quát hoá R và P

bao ph t ng quát và đ chính xác t ng quát:

(generalized , non-binary recall and precision)

G i R là t p n tài li u đ c ph c h i t c s d li u tài li u

D= { d1, d2, …, dN } v i m t câu truy v n thu c v m t ch đ nào

đó , R ≤ D

G i tài li u di trong c s d li tài li u có t l đ liên quan là r(di)

bao ph t ng quát gR và đ chính xác t ng quát gP đ c tính theo công th c nh sau:

d R n ∑ r(d) gP = d R d D ∑r(d) ∑r(d) gR=

Lu n v n : ánh giá các h th ng tìm ki m thông tin

Cách tính này c ng t ng t tính R, P nh phân truy n th ng , nó c ng cho phép tính R trung bình và P trung bình c a t p câu truy v n, tính P d a trên R, ho c tính d a trên ng ng gi i h n s tài li u tr v và c ng cho phép bi u di n

đ ng cong PR

Ghi chú : r(d) là m t con s th c có giá tr trong kho ng (0.0, 1.0) Ví d v i m c đ liên quan là 4. Tính r(d)

o M c đ liên quan cao : 3 => r(d)=3/4

o M c đ liên quan v a : 2 => r(d)=2/4

o M c đ liên quan trung bình : 1 => r(d)=1/4 Không liên quan :0 => r(d)=0

2.2.4. TREC và đánh giá theo chu n TREC

2.2.4.1. TREC là gì?

TREC là vi t t t c a Text REtrieval Conference, có ngh a là H i ngh v Tìm ki m Thông tin V n b n, đ c t ch c h ng n m t i Vi n Qu c gia v Tiêu chu n và Công ngh Hoa K (NIST _ National Institute Standard and Technology) [ 8]. TREC là m t lo t H i ngh chuyên cung c p c s h t ng cho vi c ki m tra, đánh giá quy mô l n v công ngh tìm ki m (ch y u là tìm ki m v n b n). H i ngh TREC đ c t o ra đ thúc đ y nghiên c u v các công ngh tìm ki m thông tin. Các m c tiêu chính c a TREC là :

• Khuy n khích các nghiên c u trong tìm ki m thông tin d a trên ng li u

đánh giá qui mô l n.

• Phát tri n giao ti p, liên l c gi a các ngành công nghi p, giáo d c và chính ph b ng cách cung c p m t di n đàn m đ trao đ i các ý ki n nghiên c u.

• H tr trao đ i công ngh t nh ng phòng thí nghi m nghiên c u thành nh ng s n ph m th ng m i.

• C i thi n v t b t các ph ng pháp lu n tìm ki m trên các v n đ th gi i th c và các đ đo cho tìm ki m thông tin.

Lu n v n : ánh giá các h th ng tìm ki m thông tin

• T o ra m t lo t ng li u đánh giá liên quan các khía c nh khác nhau c a tìm ki m thông tin.

• Phát tri n các công ngh đánh giá thích h p s n có mà đ c s d ng b i ngành công ngh p và giáo d c, bao g m c vi c phát tri n các công ngh

đánh giá m i thích h p h n v i các h th ng hi n t i. Chu trình H i ngh h ng n m c a TREC :

TREC g m các l nh v c t p trung khác nhau g i là TRACK. Nhi m v c a các TRACK ch y u là t p trung vào v n đ con c a tìm ki m thông tin v n b n. Chính nh ng TRACK này ti p thêm sinh l c, và làm cho TREC ti p t c phát tri n vì nh ng TRACK này th c hi n :

+ Ng li u chuyên môn hóa h tr nghiên c u trong các l nh v c m i.

+ Nh ng thí nghi m qui mô l n g nh ng l i mà công vi c g p ph i.

Kêu g i tham gia Xác đnh công vi c Ki m đ c tài li u Th nghi m tìm ki m thông tin Phát tri n ch đ ánh giá đ liên quan ánh giá k t qu Phân tích k t qu H i ngh TREC Ti n hành công b

Lu n v n : ánh giá các h th ng tìm ki m thông tin

Tuy nhiên, s phát tri n t p h p TRACK trong m t TREC c th ph thu c vào :

+ S h ng ng c a nh ng ng i tham gia.

+ Các công vi c mà TREC đ a ra có thích h p hay không

+ Nhu c u v tài tr

+ S ràng bu c v ngu n ng li u…

ánh giá theo tiêu chu n c a TREC chính là xây d ng b ng l êu dùng đ đánh giá theo chu n c a TREC và ph ng pháp đánh giá theo đ liên quan theo chu n TREC, thêm vào đó là ph ng pháp đánh giá k t qu theo chu n 11 đi m c a đ bao ph .

Vì ph ng pháp đánh giá theo đ liên quan, ph ng pháp đánh giá k t qu theo chu n 11 đi m c a đ bao ph đã đ c trình bày đ n trong các ph n trên nên chúng tôi ch y u s trình bày trong ph n ti p theo v cách xây d ng ng li u c a TREC.

2.2.4.2. Cách xây d ng ng li u c a TREC

Nh chúng tôi đã đ c p, TREC đánh giá các h th ng tìm ki m thông tin theo mô hình h ng h th ng. Theo mô hình này, b t bu c h th ng đánh giá ph i th c hi n các công vi c đã đ c p trong ph n 2.2.2. Trong đó, ph n xây d ng b ng li u đánh giá là ph n quan tr ng nh t và TREC làm r t t t công vi c này do kích th c c a b ng li u r t l n và th c t . Ngoài ra, vi c đánh giá thì m cho r t nhi u nhóm nghiên c u, s ng i tham gia vào TREC qua các n m t ng lên m t cách nhanh chóng. S l ng có ý ngh a các nhóm tham gia m i n m, b o đ m s

n đnh và có th so sánh qua các n m. TREC c ng xây d ng b ng li u dùng đ đánh giá g m ba ph n : t p tài li u hay kho ng m u, t p câu truy v n, và b ng

đánh giá liên quan chu n. i v i t ng ph n, TREC đ u đ a ra các chu n xây d ng và đnh d ng khá t t. Vì v y, chúng tôi c ng th c hi n đnh d ng b ng li u theo chu n TREC. Sau đây là cách xây d ng ng li u c a TREC [ 9].

Lu n v n : ánh giá các h th ng tìm ki m thông tin

2.2.4.2.1.Xây d ng t p h p các tài li u

Tùy thu c vào m c đích, nhu c u c a ng i th c hi n đánh giá, h s ch n t p các tài li u xác đnh đ xây d ng. T p tài li u này ph i là m u c a các lo i v n b n mà h ch n. Tuy nhiên, t p các tài li u này ph i đ c xem xét các

đi u ki n v th lo i, s l ng, là v n b n đ y đ ho c là b n tóm t t. Ngoài ra, vi c l a ch n t p tài li u mà ph n ánh đ c tính đa d ng c a v n đ , c a vi c l a ch n t ng , v n phong, hình th c… c ng r t quan tr ng. T p h p tài li u th ng ph i r t l n.

Ng li u chính c a TREC ch a 3 gigabytes v n b n (trên 1,000,000 tài li u). Các tài li u đ c s d ng các TRACK khác nhau là nh ho c l n ph thu c vào nhu c u c a TRACK đó và d li u có s n.

Các t p tài li u chính c a TREC ch y u bao g m nh ng bài báo gi y và nh ng bài báo đi n t , ngoài ra còn có m t s tài li u khác nh ng s l ng tài li u này r t ít. Nh ng c u trúc c p cao trong m i tài li u đ c gán nhãn b ng SGML, và m i tài li u đ c gán b i m t th xác đnh duy nh t đ c g i là

Một phần của tài liệu Tài liệu Luận văn: XÂY DỰNG BỘ NGỮ LIỆU ĐỂ ĐÁNH GIÁ BẰNG TIẾNG VIỆT VÀ CHƯƠNG TRÌNH TRỢ GIÚP ĐÁNH GIÁ CÁC HỆ TÌM KIẾM THÔNG TIN docx (Trang 49)

Tải bản đầy đủ (PDF)

(187 trang)