Nhn xét ch ng trình h tr đánh giá h th ng tìm k im thông tin

Một phần của tài liệu Tài liệu Luận văn: XÂY DỰNG BỘ NGỮ LIỆU ĐỂ ĐÁNH GIÁ BẰNG TIẾNG VIỆT VÀ CHƯƠNG TRÌNH TRỢ GIÚP ĐÁNH GIÁ CÁC HỆ TÌM KIẾM THÔNG TIN docx (Trang 179 - 187)

tin

4.4.1. u đi m

• Có th đánh giá đ c các h th ng ti ng Anh và Ti ng Vi t

• Không ph thu c vào c u trúc đnh d ng c a b ng li u dùng đ đánh giá

• So sánh đ c các h th ng tìm ki m

• ánh giá các h th ng tìm ki m d a trên đ ng cong RP tr c quan d hi u

• M c dù h n ch v đ c thù c a ngôn ng ti ng Vi t v i các ngôn ng khác. Ví d ti ng Vi t là lo i hình đ n l p phi hình thái, còn ti ng Anh là lo i hình bi n cách hay còn g i là lo i hình khu t chi t trong đó xác

đnh ranh gi i t không ph i d a vào kho ng tr ng nh các th ti ng bi n hình khác, nh ng chúng tôi đã gi i quy t đ c v n đ này b ng cách chu n hóa l i t ti ng Vi t đ các h th ng tìm ki m ti ng Anh có th hi u đ c ranh gi i t ti ng Vi t và tìm ki m đ c v i ti ng Vi t.

4.4.2. Khuy t đi m

H th ng tr giúp đánh giá th t s cho k t qu đáng tin c y khi b ng đánh giá liên quan chu n chính xác và khách quan. Do đó đánh giá h th ng tr giúp

đánh giá ph thu c vào b ng đánh giá liên quan chu n

Ti ng Vi t là m t ngôn ng có d u nên vi c mã hoá Ti ng Vi t c ng gây nhi u khó kh n trong vi c l p ch m c c a các h th ng tim ki m ti ng Anh v i kho ng li u là ti ng Vi t.

Do đó vi c ch y các h th ng tìm ki m thông tin v n ch dành cho ti ng Anh không th ti n hành cho Ti ng Vi t. Trong lu n v n này, chúng tôi đã nghiên c u các h th ng tìm ki m thông tin ti ng Anh nh SMART, IOTA, TERRIER, LUCENE và đã g p r t nhi u khó kh n v i vi c l p ch m c cho

Lu n v n : ánh giá các h th ng tìm ki m thông tin

kho ng li u Ti ng Vi t m c dù chúng tôi đã c g ng h t s c ch nh s a mã ngu n cho t t c các h th ng này. Nh ng cu i cùng, ch có h th ng LUCENE có th tìm ki m đ c v i Ti ng Vi t. B ng đánh giá liên quan chu n đ c trích ra t ph n giao c a hai h th ng LUCENE và Search4VN. Vì v y b ng đánh giá liên quan chu n lúc đ u có m t s ch ch a chính xác do có ít h th ng tìm ki m thông tin ti ng Vi t. Chúng tôi đã c g ng kh c ph c v n đ này b ng cách xem l i b ng liên quan chu n b ng th công và l y ra nh ng tài li u nào th t s liên quan đ n câu h i nh t đ hoàn thi n b ng này. Cách làm này ch là gi i pháp t m th i cho b ng li u dùng đ đánh giá hi n t i c a chúng tôi. N u có nhu c u phát tri n thêm b ng li u dùng đ đánh giá, các b n nên xây d ng thêm b ng đánh giá này b ng cách ch y nhi u h th ng tìm ki m thông tin ti ng Vi t h n mà không c n thay đ i gì v mô hình c a h th ng.

Lu n v n : ánh giá các h th ng tìm ki m thông tin

Ch ng 5 : K T LU N

Công tác đánh giá (evaluation) m t mô hình, m t h th ng nói chung c ng quan tr ng không kém so v i vi c xây d ng m t mô hình hay m t h th ng.

tài c a chúng tôi nh m t đ ng hoá công tác đánh giá các h th ng tìm

ki m thông tin (IR systems). V i vi c t đ ng hoá đó, chúng ta có th đánh giá

m t cách nhanh chóng, chính xác và quan tr ng là khách quan kh n ng và

hi u su t tìm ki m c a các h th ng tìm ki m thông tin.Nh s đánh giá đó, nh ng ng i xây d ng h th ng IR có đ c s ph n h i (feedback) nhanh chóng k p th i, đ h k p đi u ch nh (setting) l i mô hình, ph ng pháp mà h v a cài đ t, th nghi m cho m t h th ng IR. Chính nh s đi u ch nh k p th i và phù h p các thông s c a mô hình trên chính h th ng IR đó, t đó h m i có th đ a đ n m t h th ng IR t i u (optimal IR system).

Nh có s đánh giá k p th i và nhanh chóng nh v y mà các nhà xây d ng h th ng IR s đ c khích l v m t tinh th n, ti t ki m v m t th i gian, công s c, thay vì ph i đ i m t th i gian dài ch đ i s đánh giá b ng ph ng pháp th công nh tr c đây (ph i đ cho nhi u ng i s d ng trong th i gian dài r i m i nh n đ c ý ki n ph n h i t phía ng i s d ng, các ý ki n này có th chính xác mà c ng có th là ch quan). T đó, h càng có tinh th n, th i gian và công s c đ đ u t vào vi c c i thi n mô hình/ph ng pháp c a mình đ c nhi u h n.

Vi c đánh giá này là đ bi t đ c đi m m nh, đi m y u c a t ng h th ng IR mà t đó ta ch n ra đ c h th ng IR t i u ph c v cho nhu c u tìm ki m thông tin m t cách có hi u qu .

Chúng tôi hy v ng đ tài này s là m t đóng góp nh có ý ngh a cho vi c nghiên c u v l nh v c tìm ki m thông tin.

Lu n v n : ánh giá các h th ng tìm ki m thông tin

Ch ng 6 : H NG PHÁT TRI N

Vi c nghiên c u đánh giá các h th ng tìm ki m thông tin r t đa d ng v i nhi u ph ng pháp, mô hình đánh giá khác nhau. Nh ng mô hình, ph ng pháp này đang đ c ti p t c nghiên c u, bàn lu n trên th gi i.

Trên c s nh ng ph n đã nghiên c u và th c hi n, đ tài c a chúng tôi có các h ng phát tri n sau :

H ng phát tri n v mô hình đánh giá t ng quát: mô hình đánh giá h ng ng i dùng.

H ng phát tri n v ph ng pháp xây d ng b ng li u dùng đ đánh giá, đ c bi t trong ph ng pháp xây d ng b ng đánh giá liên quan chu n nh m t o ra b ng đánh giá khách quan và chính xác.

H ng phát tri n v ph ng pháp đánh giá: Ngoài cách đánh giá d a vào 11 đi m chu n c a đ bao ph , đ tài có th phát tri n thêm các ph ng pháp đánh giá khác nh ph ng pháp đánh giá d a trên đ

chính xác trung bình nghiêm ng t (Mean Average Precision – MAP), đo d a trên giá tr đ n Swet’s E-Measure (Single-valued Measure) ho c chi u dài tìm ki m trung bình.

Lu n v n : ánh giá các h th ng tìm ki m thông tin PH L C 1. Câu h i m u: <TOPIC> <TOP> <TOPID>1</TOPID>

<TITLE>kinh t tri th c</TITLE>

<DES>n n kinh t tri th c là gì, ý ngh a c a n n kinh t tri th c, tình hình xây d ng n n kinh t tri th c? <DES>

<NARR> Các tài li u liên quan ph i có đ nh ngh a và ý ngh a c a kinh t tri th c,các y u t hình thành n n kinh t tri th c, nhu c u xây d ng n n kinh t tri th c t i Vi t Nam, tình hình n n kinh t tri th c t i Vi t Nam</NARR>

</TOP> <TOP>

<TOPID>2</TOPID>

<TITLE>v án tham nh ng l n</TITLE>

<DES> thông tin v các v án tham nh ng l n </DES>

<NARR>Các tài li u liên quan ph i ch a thông tin v các v án tham nh ng l n,các t i danh liên quan nh nh n h i l , bi n th công qu , nguyên nhân và h u qu c a tham nh ng, ý ki n c a nhân dân và báo chí, các bi n pháp ch ng tham nh ng trong b máy công quy n</NARR>

</TOP> <TOP>

<TOPID>3</TOPID>

<TITLE>an toàn giao thông t i Vi t Nam</TITLE> <DES>v n đ an toàn giao thông t i Vi t Nam </DES>

Lu n v n : ánh giá các h th ng tìm ki m thông tin

<NARR> Các tài li u liên quan ph i nói v tình hình an toàn giao thông t i Vi t Nam g m có các chính sách c a chính ph v an toàn giao thông, tình tr ng vi ph m tr t t an toàn giao thông, ùn t c giao thông ,tai n n giao thông </NARR>

</TOP> </TOPIC> 2. Tài li u m u <DOCUMENT> <DOC> <DOCID>1</DOCID>

<TITLE>Thanh niên VN: đ ng l c cho nh ng ý t ng m i, t m nhìn m i </TITLE> <AUTHOR>Tác gi : .Bình</AUTHOR> <DATE>Ngày :01/12/2000</DATE> <NEWS>Tên t báo : Tu i tr S báo : 155/2000 Th lo i :

Trang : trang 1, 14</NEWS>

<CONTENT>Thanh niên VN: đ ng l c cho nh ng ý t ng m i, t m nhìn m i.

(TT-Hà N i) - T i l khai m c Di n đàn thanh niên (TN) VN v i ch

đ “S n sàng cho th k 21” sáng 30-11 t i Hà N i (do H i Liên hi p TN VN ph i h p v i các c quan LHQ t i VN t ch c), ông Edouard Wattez, đi u ph i viên th ng trú LHQ t i VN, đã nh n m nh: “V i 60% dân s đ tu i d i 30, VN th t s là m t đ t n c tr . ây là m t th i đi m khá đ c bi t trong l ch s đ t n c các b n - th i đi m c a hòa bình và đ i m i, th i đi m c a VN đã

Lu n v n : ánh giá các h th ng tìm ki m thông tin

qu c t và vai trò c a VN ngày càng tr nên quan tr ng h n. TN VN có vai trò quan tr ng trong quá trình m c a v i th gi i....

. Bình</CONTENT> </DOC>

</DOCUMENT>

3. B ng đánh giá liên quan chu n

B ng đánh giá liên quan chu n g m hai thành ph n chính: câu h i và các tài li u liên quan th t s c a câu h i đó.

C u trúc DTD c a file ch a b ng đánh giá liên quan chu n đ c t ch c nh sau:

<!ELEMENT RELEVANT(REL*)> <ELEMENT REL(DOCID)>

<!ATTLIST REL TOPID CDATA #REQUIRE> Di n gi i:

<TOPID>: ch s c a topic

<DOC ID>: ch s c a tài li u có liên quan v i câu h i có ch s là TOPID Ví d m t ph n b ng đánh giá liên quan chu n:

<RELEVANT> <REL TOPID="1 "> <DOCID>10456</DOCID> <DOCID>3407</DOCID> <DOCID>2476</DOCID> </REL> <REL TOPID="2 "> <DOCID>6689</DOCID> <DOCID>1582</DOCID> <DOCID>12854</DOCID> </REL>

Lu n v n : ánh giá các h th ng tìm ki m thông tin

Tài li u tham kh o

[ 1 ] Ricardo Beaza-Yates & Berthier Ribeiro-Neto, Modern Information Retrieval, Addison Press, Anh, 1999.

[ 2 ] Wessel Kraaij, Variations on Language Modeling for Information Retrieval, Thesis Enschede, Print Partners Ipskamp, Enschede, 2004.

[ 3 ] Mei-Mei Wu & Danie H. SonnenWald, Reflections on Information Retrieval Evaluation, H i ngh TREC, 2004.

[ 4 ] F C Johnson, J R Griffiths, R J Hartley, A framework for the evaluation of Internet search engines, The Council of Museums, Archives and Libraries, Anh, 2001.

[ 5 ] Van Rijsbergen C.J., Information Retrieval, Tái b n l n 2, ButterWorths, Luân ôn, 1979, Ch ng 7 có t i

http://www.dcs.gla.ac.uk/Keith/Chapter.7/Ch7.html

[ 6 ] Gerard Salton, Micheal J. McGrill, Introduction to Modern Information Retrieval, International Student Edition, New York, 1983.

[ 7 ] Pia Borlund , The IIR evaluation model: a framework for evaluation of interactive information retrieval systems, Information Research, 2003.

[ 8 ] H i ngh TREC : http://trec.nist.gov

[9 ] Ellen M. Voorhees, Overview of TREC 2003, National Institute of Standards and Technology, 2003.

[ 10 ] inh i n, giáo trình X lý Ngôn ng T nhiên, i h c Khoa h c T nhiên Tp. H Chí Minh, 2004.

[ 11 ] Nguy n V n Tu, T và v n t ti ng Vi t hi n đ i, NXB i h c & THCN, Hà N i , 1978.

[ 12 ] a ch ftp c a SMART : ftp://ftp.cs.cornell.edu/pub/smart/

[ 13 ] Jean-Pierre Chevallet, XIOTA: An open XML framework for IR Experimentation, H i ngh CLEF, 2004.

Lu n v n : ánh giá các h th ng tìm ki m thông tin

[ 15 ] a ch trang Web c a Lucene :

http://lucene.apache.org/java/docs/index.html

Một phần của tài liệu Tài liệu Luận văn: XÂY DỰNG BỘ NGỮ LIỆU ĐỂ ĐÁNH GIÁ BẰNG TIẾNG VIỆT VÀ CHƯƠNG TRÌNH TRỢ GIÚP ĐÁNH GIÁ CÁC HỆ TÌM KIẾM THÔNG TIN docx (Trang 179 - 187)

Tải bản đầy đủ (PDF)

(187 trang)