Ng li uting V it

Một phần của tài liệu Tài liệu Luận văn: XÂY DỰNG BỘ NGỮ LIỆU ĐỂ ĐÁNH GIÁ BẰNG TIẾNG VIỆT VÀ CHƯƠNG TRÌNH TRỢ GIÚP ĐÁNH GIÁ CÁC HỆ TÌM KIẾM THÔNG TIN docx (Trang 59 - 66)

Chúng tôi xây d ng b ng li u dùng đ đánh giá b ng ti ng Vi t và ch ng trình đánh giá các h th ng tìm kíêm thông tin, đ c bi t là các h th ng tìm ki m thông tin ti ng Vi t nên vi c nói đ n ng li u ti ng Vi t là ph n không th thi u.

Lu n v n : ánh giá các h th ng tìm ki m thông tin

Khác v i ti ng Anh, Pháp (th ng đ c dùng trong các h th ng tìm ki m th ng tin ph bi n), ti ng Vi t có nh ng đ c thù riêng, đ c bi t trong vi c xác đnh t ti ng Vi t.

2.3.1. T

2.3.1.1. Quan ni m v t

Theo [10 ], thì t ng h p t các sách ngôn ng h c đ i c ng, sách ng pháp và sách v t v ng h c, chúng tôi xin trình bày l i m t s đnh ngh a đi n hình v t nh sau:

♦ T là m t hình thái t do nh nh t.

♦ T là đ n v ngôn ng có tính hai m t : âm và ngh a. T có kh n ng đ c l p v cú pháp khi s d ng trong l i.

♦ T là đ n v nh nh t có ngh a c a ngôn ng , đ c v n d ng đ c l p, tái hi n t do trong l i nói đ xây d ng nên câu”. ây c ng chính là đ nh ngh a mà trong ngôn ng h c đ i c ng hay s d ng.

T các đnh ngh a trên, ta rút ra nh ng nét đ c tr ng chính c a t nh sau: V hình th c : t ph i là m t kh i v c u t o (m t chính t , ng âm) V n i dung : t ph i có ý ngh a hoàn ch nh.

V kh n ng : t có kh n ng ho t đ ng t do và đ c l p v cú pháp.

Ngoài ra, ta còn g p m t s thu t ng khác trong ngôn ng h c đ i c ng mà S.E.Jakhontov [ 11] đ a ra đ nh n di n t , nh :

1. T ng âm: đó là nh ng đ n v đ c th ng nh t v i hi n t ng ng âm nào

đó. i v i Vi t ng , đó chính là nh ng âm ti t, hay còn g i là “ti ng”, “ti ng m t 2. T chính t : đó là nh ng kho ng cách gi a 2 ch trên v n t ; t c là nh ng

đ n v đ c vi t li n thành kh i, đ i v i ti ng Vi t, đó chính là “ch ”

3. T hoàn ch nh: đó là nh ng c u trúc n đnh, không th tách r i hay hoán v các thành t c a chúng.

Lu n v n : ánh giá các h th ng tìm ki m thông tin

4. T t đi n h c: đó là đ n v mà c n c vào đ c đi m ý ngh a c a nó ph i x p riêng trong t đi n.

5. T bi n t : đó là nh ng đ n v luôn luôn g m 2 ph n: g c t (bi u th ý ngh a đ i t ng) và ph t (bi u th m i liên h v i các t khác trong câu). ây còn g i là t ng pháp.

V ph ng di n x lý t đ ng b ng máy tính, thì t chính t và t t đi n là hai lo i đ c nh n di n d nh t và đ c s d ng nhi u nh t trong tài li u này.

2.3.1.2. Quan ni m v hình v

Trong ng pháp truy n th ng thì hình v đ c xem là thành t tr c ti p đ t o nên t . Do đó, hình v đ c xem nh là đ n v t bào g c, đ n v t bào c a ng pháp, và còn đ c g i là t t . Chính vì v y, mà vi c nh n di n hình v ph i là b c đi

đ u tiên trong vi c nh n di n t . nh n di n hình v , Jakhontov đ a ra cách phân xu t câu đ n m c t i gi n, g i là t câu, hay hình v ; ngoài ra, gi i ngôn ng h c hay s d ng ph ng pháp l p hình vuông Greenberg đ đ i sánh. Ví d : đ i sánh “có lý” và “có ý”, ta tách đ c thành 3 hình v : “có”, “lý” và “ý”.

Tr c h t ta hãy xem l i quan ni m v hình v (morpheme) trong ngôn ng h c

đ i c ng: theo Baudouin de Courtenay thì hình v là b ph n nh nh t có ngh a c a t , còn theo Bloomfield thì hình v là đ n v ngôn ng nh nh t có ngh a. Nh ng quan ni m th ng th y trong ngôn ng h c đ i c ng là: “hình v là đ n v ngôn ng nh nh t có ngh a và/ho c có giá tr (ch c n ng) v m t ng pháp”. “T ” đ c c u t o b ng m t hình v hay nhi u hình v k t h p v i nhau theo nh ng nguyên t c nh t đ nh. Ví d : anti-virus (ch ng vi rút). Hình v bao g m hai lo i: hình v t do (nh : work, home,…) và hình v h n ch (nh : -ed, -less,…). Trong hình v h n ch g m hình v bi n t (nh : work-ed) và hình v phái sinh (nh : home-less).

2.3.1.3. Khái ni m v c u t o t

Lu n v n : ánh giá các h th ng tìm ki m thông tin

Ví d : anti + poison = antipoison. Hình v là đ n v ngôn ng nh nh t có ngh a và/ho c có giá tr (ch c n ng) v m t ng pháp.

Hình v g m các lo i :

- Hình v t do : t nó xu t hi n v i t cách là m t t đ c l p, ví d : house, man, black, nhà, ng i, đen...

- Hình v h n ch : xu t hi n trong t th đi kèm, ph thu c vào hình v khác, nó bao g m các hình v bi n t và hình v phát sinh.

Ví d : -ing, -ed, -s, -ness, ...

c u t o t , ng i ta dùng các ph ng th c : - Dùng m t hình v .

- T h p 2 hay nhi u hình v .

- Thêm ph t (ti n, trung, h u t ) vào. - Láy.

2.3.2. Ranh gi i t

Nh n di n ranh gi i t (word boundary identification) hay còn g i là phân

đo n t (word segmentation) là m t công đo n tiên quy t đ i v i h u h t các h x lý ngôn ng t nhiên. i v i các ngôn ng bi n hình (ti ng Anh, ti ng Nga,...) thì ranh gi i t đ c xác đ nh ch y u b ng kho ng tr ng hay d u câu, còn đ i v i các ngôn ng đ n l p (trong đó có ti ng Vi t) thì kho ng tr ng không th là tiêu chí đ nh n di n t . Mu n xác đnh đ c ranh gi i t trong các ngôn ng này, chúng ta ph i d a vào các thông tin m c cao h n, nh hình thái, t pháp, cú pháp, ho c ng ngh a và th m chí c ng d ng.

Lu n v n : ánh giá các h th ng tìm ki m thông tin

Ch ng 3 : THI T K VÀ CÀI T

3.1. Xây d ng b ng li u dùng đ đánh giá

Nh chúng tôi đã trình bày trong các ph n trên, chúng tôi xây d ng b ng li u dùng đ đánh giá theo tiêu chu n c a TREC. Vi c xây d ng g m 3 ph n sau :

3.1.1. Xây d ng kho ng li u b ng ti ng Vi t

Chúng tôi xây d ng kho ng li u dùng đ đánh giá b ng cách thu th p tài li u t các báo đi n t , ch ng h n : www.tuoitre.com.vn, www.thanhnien.com.vn,

www.vnexpress.net . Các tài li u này bao g m r t nhi u l nh v c khác nhau g m có khoa h c k thu t, kinh t , giáo d c, v n hóa, th i s … Kho ng li u c a chúng tôi cho đ n nay đã có g n 15.000 tài li u, v i kích th c l u tr là 34 MB.

Tuy nhiên, các tài li u này d i d ng thô, ch a đ c chu n hóa nên b c quan tr ng nh t là chu n hóa ng li u.

3.1.1.1. Chu n hóa ng li u

Chu n hóa ng li u là chu n hoá thành m t d ng, m t tiêu chu n duy nh t. Vi c chu n hoá ng li u g m các nhi m v sau:

3.1.1.1.1.Chu n hóa d ng ng li u

Chu n hoá d ng ký t : đ a v đúng d ng đi n t , đnh d ng t p tin (t các đ nh d ng t p tin khác nhau s chuy n v txt, lo i b nh ng th không ph i là v n b n), đúng mã ký t (chuy n v mã Unicode). Chu n hoá t p tin: m i t p tin ng li u s g m m t s câu (kho ng 2000 t ), m i câu có th n m trên m t dòng, h t câu, ng t xu ng dòng c ng sau d u ch m câu. M i đ u câu, s có m t mã s đnh danh đ cho bi t thông tin v v n b n, nh : ngôn ng (Anh, Vi t, Pháp, Hoa, …), l nh v c c a t p tin (v n h c, tin h c, kinh t , th thao,…), ti u lo i (nh : trong v n h c có truy n ng n, ti u thuy t,

Lu n v n : ánh giá các h th ng tìm ki m thông tin

th , ký, …) và thông tin v s hi u câu (câu th m y trong t p tin), s hi u v n b n (v n b n th m y trong ti u lo i/l nh v c đang xét). Chu n hoá chính t : xem xét bi n th hình thái chính t , nh : quy t c b d u thanh (v i ti ng Vi t: b d u trên nguyên âm chính theo nguyên t c th m m hay b trên nguyên âm chính theo nguyên t c ng âm h c), các bi n th ch vi t, nh : cách vi t i/y trong ti ng Vi t “hoá lý” và “hóa lí”.

3.1.1.1.2. nh d ng ng li u

Sau khi thu th p ng li u và chu n hóa ng li u v d ng v n b n, chúng tôi chuy n t t c ng li u sang đ nh d ng XML v i m t th đnh danh nh DOCNO c a TREC. Th đnh danh c a chúng tôi là DOCID. S d chúng tôi chuy n sang đnh d ng XML là vì nh th chúng tôi có th d dàng chuy n đ i đnh d ng đ tìm ki m cho t t c các h th ng tìm ki m khác nhau. nh d ng ng li u c a chúng tôi có trong ph n ph l c.

Chúng tôi có ch ng trình cho phép chuy n đ i đnh d ng t text sang XML gi ng tài li u c a chúng tôi. Ch ng trình này r t h u ích trong vi c t o thêm tài li u cho kho ng li u c a chúng tôi.

3.1.2. Xây d ng t p câu h i b ng ti ng Vi t

T p câu h i đ c xây d ng b ng cách đ c l t qua m t s tài li u và t o m t t p X câu h i. Sau đó, chúng tôi t o đnh d ng cho câu h i theo tiêu chu n c a TREC, t c câu h i ph i có ph n đnh danh, tiêu đ , mô t và t ng thu t. Câu h i c ng

đ c đnh d ng XML.

Ti p theo, chúng tôi ch y t p X các câu h i cho các h th ng tìm ki m. R i xem l i k t qu tìm ki m c a các h th ng đ l a ch n nh ng câu h i nào là t i u nh t

đ t o t p Y câu h i chính th c. Vì v y Y luôn nh h n hay b ng X.

C câu h i và ng li u ti ng Vi t đ u ph i đ c tách t trong tr ng h p

Lu n v n : ánh giá các h th ng tìm ki m thông tin

Anh không th nào đ c dùng đ đánh giá h th ng ti ng Vi t. Do đó, chúng tôi c ng xây d ng m t ch ng trình tách t cho ng li u ti ng Vi t.

3.1.3. Tách t ti ng Vi t

nh n di n ranh gi i t , chúng tôi đã s d ng m t s hình nh : MM Maximum Matching: forward / backward ; LRMM: Left Right, RLMM: Right Left và ph ng pháp MMSEG : Maximum Matching Segmentation.

Theo ph ng pháp LRMM đ phân đo n t ti ng Vi t trong m t ng /câu, ta đi t trái sang ph i và ch n t có nhi u âm ti t nh t mà có m t trong t đi n, r i c ti p t c cho t k ti p cho đ n h t câu. V i cách này, ta d dàng tách đ c chính xác các ng /câu nh : “h p tác xã | mua bán”; “thành l p | n c | Vi t Nam | dân ch | c ng hoà”,…. Ph ng pháp RLMM thì ng c l i, trong m t câu/ng , ta

đi t ph i sang trái và ch n t có nhi u âm ti t nh t mà có m t trong t đi n, r i c ti p t c cho t k ti p cho đ n h t câu. Ph ng pháp MMSEG là s k t h p c a c hai ph ng pháp LRMM và RLMM, do đó MMSEG cho k t qu t t h n hai ph ng pháp trên.

3.1.4. Xây d ng b ng đánh giá

Chúng tôi xây d ng b ng đánh giá theo ph ng pháp Pooling. Chúng tôi ch y các h th ng khác nhau đ đánh giá. Chúng tôi đã tìm hi u các h th ng sau:

H th ng SMART [12 ] c a i h c Cornell phát tri n, m t h th ng kinh

đi n v mô hình vec-t .

H th ng XIOTA [ 13], h th ng cho phép đnh d ng ng li u theo XML,

đ c phát tri n t i Pháp.

H th ng Terrier [14 ] c a i h c Glasgow, Scot-len. H th ng này đ c dùng đ ch y các track Tetra, Robust c a TREC.

H th ng Lucene [15 ], do nhóm Jakarta Apache phát tri n, đây là m t search engine đ c dùng ph bi n.

Lu n v n : ánh giá các h th ng tìm ki m thông tin

H th ng Tìm ki m Ti ng Vi t hay Search4Vn c a m t nhóm làm lu n

v n khóa 2001 phát tri n đ tìm ki m thông tin ti ng Vi t.

Tuy nhiên, đa s các h th ng làm cho ti ng Anh nên mã hóa c a các h th ng này không h tr ti ng Vi t (m c dù ti ng Vi t đ c mã hóa b ng mã Unicode), vì v y mu n th c thi các h th ng tìm ki m cho ti ng Vi t b t bu c chúng tôi ph i th c hi n chuy n mã cho ch ng trình tìm ki m. Các h th ng này đ c vi t trên r t nhi u ngôn ng khác nhau, g m có ngôn ng C trên Linux, ngôn ng BASH Shell, ngôn ng Java, JSP, ngôn ng DOT NET; và tài li u cho các thành ph n mã ngu n không đ y đ nên chúng tôi khó có th ch nh s a h t t t c các h th ng. Chúng tôi đã làm h t kh n ng có th đ đ c mã ngu n và tìm cách s a mã cho h th ng tìm ki m nh ng chúng tôi ch có th ch y đ c vài h th ng.

Sau khi ch y các h th ng, chúng tôi giao các b ng liên quan l i thành b ng liên quan chu n. Sau đó, chúng tôi đ c l i và t o b ng đánh giá liên quan chu n hòan ch nh.

3.1.4.1. H th ng SMART

3.1.4.1.1.Gi i thi u h th ng SMART

SMART là m t h th ng tìm ki m thông tin d a trên mô hình vector đ c

đ xu t b i Salton vào cu i nh ng n m 60. M c đích chính c a SMART là cung c p m t n n t ng cho vi c xây d ng tìm ki m thông tin, l p ch m c,

đánh giá tìm ki m thông tin.

M c đích th hai là cung c p cho ng i dùng thông tin cu i cùng v a nh thích h p v i ng i dùng.

SMART có nh ng u đi m và khuy t đi m c a nó.SMART đ c thi t k r t linh ho t, nó cho phép thêm ch nh s a các đo n mã và có th ch y trên b t k h th ng UNIX v i yêu c u v kích th c b nh nh .

Một phần của tài liệu Tài liệu Luận văn: XÂY DỰNG BỘ NGỮ LIỆU ĐỂ ĐÁNH GIÁ BẰNG TIẾNG VIỆT VÀ CHƯƠNG TRÌNH TRỢ GIÚP ĐÁNH GIÁ CÁC HỆ TÌM KIẾM THÔNG TIN docx (Trang 59 - 66)

Tải bản đầy đủ (PDF)

(187 trang)