Th ngh im các cách trích x ut thơng tin

Một phần của tài liệu Nghiên cứu phương pháp thống kê Bayes và Xây dựng ứng dụng phân loại văn bản tiếng Việt (Trang 95)

Vi c trích xu t thơng tin v t n s xu t hi n c a t , đ liên quan gi a t và ch

đ đ c th c hi n thơng qua module Google Extractor. Nh m m c đích t ng t c trích thơng tin t Google, chúng em đã th nghi m trích thơng tin b ng nhi u cách khác nhau và th c hi n k t n i đ n Google s d ng nhi u lu ng (>=15). Bên c nh

đĩ, đ tránh vi c ph i th c hi n tìm ki m nhi u l n, các t p tin đ m đ c s d ng v i m c đích l u l i hay c p nh t k t qu các l n tìm ki m tr c.

6.2.1. Các ph ng pháp th nghi m

Chúng em s d ng 3 cách khác nhau đ l y k t qu tìm ki m bao g m s d ng d ch v web do Google cung c p, t i trang k t qu v máy c c b sau đĩ s d ng XPath hay tìm ki m chu i.

6.2.1.1. Google web service

D ch v web là m t ng d ng cung c p giao di n l p trình, h tr s truy n thơng t ng d ng này đ n ng d ng khác qua m ng dùng XML. D ch v web c a Google t i đa ch http://api.google.com/GoogleSearch.wsdl là m t ph ng pháp ti n l i đ khai thác cơng c tìm ki m này. Tuy nhiên, ta ph i đ ng kí tài kho n tr c khi s d ng. V i m i tài kho n Google gi i h n s l ng truy v n là 1000 truy v n/ngày. Các tham s c n bi t khi s d ng d ch v :

Tham s tìm ki m q Câu truy v n n S k t qu tr v trên t ng trang lr Gi i h n ph m vi ngơn ng tìm ki m ie B ng mã câu truy v n s d ng oe B ng mã c a k t qu tr v B ng 6. 4. Tham s s d ng d ch v Google

Truy v n đ c bi t Câu truy v n Ý ngh a

Lo i b m t t bass –music “-” đ lo i b 1 t ra kh i k t qu tìm ki m

T khĩa OR vacation london OR paris

OR

Gi i h n site Admission

site:www.stanford.edu

site: ch tìm ki m trong site

đ c ch đnh Gi i h n ngày Star Wars

daterange:2452122- 2452234

daterange: ch tr v các file cĩ nhãn th i gian thõa đi u ki n L c file Google filetype:doc OR

filetype:pdf

filetype: ch tìm ki m các file cĩ ki u m r ng đ c li t kê Lo i tr file Google doc -filetype:

-filetype:pdf

-filetype: ng c l i v i

filetype:

Tìm theo tiêu đ intitle:Google search intitle: ch tìm ki m tiêu đ web

B ng 6. 5. M t s câu truy v n đ c bi t c a Google

Trong quá trình th nghi m s d ng d ch v web c a Google, chúng em nh n th y th i gian đáp ng khơng đ c nhanh (kho ng >5s cho m t truy v n-s d ng m ng Internet c a tr ng) h n n a cịn t n t i nhi u l i. Lý do cĩ th k đ n nh phiên b n d ch v đang trong quá trình th nghi m (b n β), h n ch do dung l ng m ng, chi phí ch ng th c. Gi i h n 1000truy v n/ngày c ng nh h ng đ n ch ng trình khi ph i th c hi n trích xu t trên l ng l n các t . kh c ph c v n đ này, chúng em s d ng bi n pháp t i trang k t qu v .

6.2.1.2. Xpath và tìm ki m chu i

Trang k t qu tr v s đ c chuy n sang đ nh d ng xHTML dùng cho vi c trích xu t dùng Xpath (http://www.w3.org/TR/XPath20) hay th c hi n tìm ki m trên chu i. C hai ph ng pháp này đ u cho hi u su t t t (kho ng 1-3s/truy v n).

Xpath là đnh d ng đ c W3C đ ngh đ c s d ng r ng rãi trong vi c truy v n t p tin XML. S d ng Xpath cĩ thu n l i h n tìm ki m chu i ch cĩ th s d ng trích xu t trên nhi u ngơn ng tr v t Google và n u c u trúc c a trang web thay

đ i thì ta v n l y đ c thơng tin tr v c a Google. Trong khi đĩ vi c tìm ki m chu i s ph thu c vào các câu đ c bi t (nh “các k t qu ”... ). Do đĩ, n u các trang tr v c a Google trình bày khác đi, cách tìm ki m chu i s khơng cho k t qu mong mu n. Tuy nhiên, s d ng cách tìm ki m chu i s cho k t qu nhanh h n dùng Xpath vì h th ng khơng ph i t n m t th i gian phân tích d li u thành d ng tài li u XML.

6.2.2. Nh n xét

Hi n t i, đi u chúng ta quan tâm hàng đ u là t c đ trích thơng tin t Google. M t khác, trang web Google cĩ c u trúc kh n đnh, h u nh khơng thay đ i. Vì v y khi th c hi n th nghi m, chúng em s d ng cách th c tìm ki m chu i đ đ t t i đ cao nh t. Tuy nhiên, chúng em v n xây d ng các l a ch n rút trích đ t o tính linh ho t trong th nghi m.

6.3. D li u th nghi m 6.3.1. Ngu n d li u

D li u th nghi m đ c l y t trang tin t c VnExpress.net (www.vnexpress.net) t i th i đi m tháng 6/2005. ây là m t trong nh ng trang tin t c đi n t đ u tiên t i Vi t Nam ra đ i vào ngày 26/2/2001, đ n nay đã h n b n n m ho t đ ng v i l ng đ c gi đơng đ o trong c n c và qu c t . Ngồi các trang m c do phĩng viên c a t báo vi t, VnExpress.net cịn m r ng đĩn nh n các bài vi t do đ c gi g i v t kh p n i đ làm phong phú thêm cho n i dung c a t báo và c p nh t tin t c th ng xuyên nhanh chĩng.

6.3.2. S l ng d li u th nghi m

T các m c c a VnExpress.net, đ u tiên chúng em ch n l c ra m t s m c chính đ l y d li u th nghi m.

Vì chúng em quy đnh t khĩa cho ch đ chính là tên ch đ đĩ nên trong quá trình th nghi m, chúng em phát hi n ra m t s tr ng h p nh p nh ng.

u tiên, t khĩa Th gi i, Xã h i cĩ ý ngh a bao quát cĩ th v Kinh t th gi i, chính tr th gi i, v n hĩa xã h i…, nên kh n ng các tin t c đ c phân lo i vào ch đ này là r t cao do t n s xu t hi n c a ch đ này v i các t ph bi n l n.

Th hai, m t s m c cĩ tên khơng đ ng nh t gi a các t báo đi n t nh trang VnExpress.net dùng Vi tính trong khi đĩ TuoiTre.com.vn l i dùng Nh p s ng s , Vnn.vn dùng Cơng ngh thơng tin và Vi n thơng.... Vi c này làm gi m k t qu khi s d ng t khĩa khĩa Vi tính cho ch đ này vì t khĩa này khơng bao quát đ c cho các trang s d ng tên ch đ khác m c dù cùng trình bày m t n i dung.

Do v y, chúng em ch s d ng m t s m c cĩ t khĩa rõ ràng. i v i m i tin t c, chúng em ch tách l y ph n tiêu đ , ph n tĩm l c và ph n chú thích nh. ây là các ph n cĩ ý ngh a phân lo i cao do đ c ng i vi t bài tĩm l c và ch n l c. ng m i ch đ , chúng em l y ng u nhiên 100 tin. Cịn cách gi i quy t ph n nh p nh ng trình bày trên s là h ng m r ng c a lu n v n. T ng d li u th nghi m là 1500 t p tin bao g m 15 ch đ c p 2, m i ch đ 100 t p tin.

Hình 6. 6. Cây ch đ 6.3.3. Nh n xét

M c dù d li u dùng th nghi m khá nh do h n ch v m t th i gian, nh ng cách th c ch n d li u và ch đ th nghi m phân lo i c a chúng em đã m r ng r t nhi u so v i 35 v n b n th nghi m c a [H. Nguyen et al, 2005] trên 5 ch đ

6.4. Th nghi m các cơng th c tính đ t ng h MI 6.4.1. Các ph ng pháp th nghi m

Nh m xác đ nh hi u qu c a các cách tính MI trong vi c tách t ti ng Vi t, chúng em th c hi n th nghi m 3 cơng th c MI đã đ c trình bày m c 4.5: m t cơng th c tính MI c a [H.Nguyen et al, 2005] (g i là MI1) , m t c a [Ong & Chen, 1999] (g i là MI2), m t do chúng em đ ngh (g i là MI3) . ng v i m i cơng th c tính MI trên, chúng em th nghi m thêm vi c tách stopword và khơng tách stopword tr c khi tách t . M c đích c a vi c tách stopword tr c khi tách t nh m t o ra nhi u ng nh h n khi đã b các t khơng cĩ ý ngh a, đ làm t ng t c đ tách t c a h th ng.

Nh v y, t ng c ng cĩ 6 th nghi m tách t nh sau:

Ü MI1 tách stop word (MI1_NonSW)

Ü MI1 khơng tách stop word (MI1_SW)

Ü MI2 tách stop word (MI2_NonSW)

Ü MI2 khơng tách stop word (MI2_NonSW)

Ü MI3 tách stop word (MI3_NonSW)

Ü MI3 khơng tách stop word (MI3_NonSW)

Chúng em th nghi m các cơng th c trên 1500 n i dung tĩm t t các tin t c c a VnExpress.net

6.4.2. K t qu

chính xác c a các cơng th c tính đ t ng h nh sau:

Cách tính MI Khơng tách stop word Cĩ tách stopword

MI 1 [H. Nguyen et al, 2005] 74% 72% MI 2 [Ong & Chen, 1999] 60% 55%

MI 3 (chúng em đ ngh ) 72% 69%

0% 10% 20% 30% 40% 50% 60% 70% 80%

MI1 MI2 MI3

Lo i MI c h ín h x á c Non SW SW Hình 6. 7. Bi u đ so sánh k t qu các cơng th c tính đ t ng h MI 6.4.3. Nh n xét

Trong 6 cách th nghi m, cách tách t dùng cơng th c MI1. cĩ đ chính xác cao nh t.

Th i gian ch y tách t lúc đ u khá lâu (trung bình kho ng 10 phút cho m t m u tĩm t t dài kho ng 100 ti ng) đa ph n là do th i gian l y thơng tin t Google. Nh ng khi thơng tin v t n s xu t hi n c a các t đã đ c l u l i t ng đ i l n (đ

l n file cache kho ng 10M), thì t c đ tách t gi m xu ng đáng k (trung bình <1giây đ i v i các v n b n khơng c n l y thơng tin t Internet)

Cách ti p c n c a cơng th c MI1 là u tiên d a trên t ghép cĩ hai ti ng, mà theo th ng kê d a trên t đi n c a chúng em, s t 2 ti ng chi m đa s trong t v ng ti ng Vi t. Cách tính này cho k t qu khá t t vì v a tho mãn đ c tính ch t t nhiên d a trên u th áp đ o c a t 2 ti ng, v a đ c ch ng minh b ng th c nghi m.

Trong các tr ng h p th nghi m cĩ tách stopword, th i gian tách t gi m đi r t nhi u (trung bình 5 phút cho v n b n m i). Tuy nhiên, trong quá trình th nghi m, chúng em nh n th y vi c tách stopword cĩ th làm sai l c ý ngh a c a v n b n ban

đ u do danh sách stopword đ a vào khơng hồn ch nh. Vì v y k t qu tách t cĩ tách stopword khơng cao nh cách tách thu n tuý.

6.5. Th nghi m phân lo i tin t c đi n t 6.5.1. Th c đo k t qu phân lo i v n b n 6.5.1. Th c đo k t qu phân lo i v n b n

đánh giá hi u qu phân lo i v n b n, thơng th ng ng i ta dùng các ch s v đ thu v -recall và đ chính xác-precision [Yang, 2000]. Cho m t ph ng pháp phân lo i v n b n, đ u vào là m t v n b n, và k t qu tr v là m t danh sách các ch đ đ c gán cho v n b n đĩ, ch s đ thu v , đ chính xác cĩ th đ c tính nh sau:

Hình 6. 8. Các thơng s dùng tính đ thu v , đ chính xác

Hình trên mơ t các thơng s sau:

Ü (A) là t t c v n b n th c hi n phân lo i v n b n cho ch đ T

Ü (B) là s v n b n đ c phân lo i l y v cho ch đ T

Ü (C) là s v n b n th c s thu c v ch đ T

Ü (D) là s v n b n l y v chính xác.

Các tham s trên đ c dùng trong cơng th c tính đ thu v -recall, đ chính xác- precision d i đây:

Vi c gán nhãn ch đ c a các ph ng pháp phân lo i v n b n cĩ th đ c đánh giá b ng cách dùng b ng tr ng h p hai chi u ng v i t ng lo i ch đ :

Ch đ đang xét ÚNG v i ch đ v n b n Ch đ đang xét SAI v i ch đ v n b n Phân lo i ÚNG v i ch đ v n b n a b Phân lo i SAI v i ch đ v n b n c d B ng 6. 7. B n tr ng h p c a phân lo i v n b n

Nh v y, v i m i k t qu phân lo i cho m t v n b n, ta s cĩ đ c m t trong 4 tr ng h p a,b,c ho c d. T đĩ, ta tính đ c các ch s sau: Ü recall a a c = + n u a + c >0, ng c l i là khơng xác đ nh. Ü precision a a b = + n u a + b >0, ng c l i là khơng xác đnh.

Ü Tuy nhiên, cách tính v i đ thu v , đ chính xác riêng r s cho k t qu khơng cân đ i. Ví d n u s v n b n l y v đúng (D) g n b ng v i s v n b n đúng th c s (C) thì ch s đ thu v s cao, tuy nhiên n u s v n b n l y v (B) khá nhi u so v i (D) s cho ch s đ chính xác nh . Do v y, thơng th ng ng i ta thêm m t ch s F1 [Yang , 1997] đ ph n ánh s cân đ i gi a 2 đ đo trên: 2 1 1 1 F recall precision = +

Ngồi ra, đ tính tốn hi u qu th c thi trên tồn b ch đ , thơng th ng ng i ta cịn s d ng hai ph ng pháp macro-averagingmicro-averaging.

Macro-averaging tính trung bình các ch s recall, precision, fallout, Acc,Err c a t t c các ch đ .

Micro-averaging tính tốn các ch s d a trên t ng giá tr a, b, c, d c a t ng ch

đ d a theo các cơng th c áp d ng tính cho m t ch đ .

S khác nhau ch y u gi a hai cách tính macro-averagingmicro-averaging

là : micro-averaging tính tốn d a trên tr ng s c a m i v n b n, nên cho k t qu trung bình trên m i v n b n (per-document average); trong khi đĩ, macro- averaging tính tốn tr ng s trên m i ch đ , do đĩ, k t qu cho s đ i di n cho giá tr trung bình trên m i ch đ (per-category average).

6.5.2. Các ph ng pháp th nghi m

ph n phân lo i v n b n, chúng em th nghi m 2 cơng th c đã đ c trình bày 5.3. là cơng th c phân lo i đ c s d ng trong [H. Nguyen et al, 2005] (g i t t là cơng th c IClass) và cơng th c tính Nạve Bayes đ c c i ti n cho phù h p v i h ng ti p c n d a trên Google (g i t t là NBClass).

ng v i cơng th c phân lo i, chúng em th nghi m v i 2 cơng th c tính MI: m t c a [H. Nguyen et al, 2005] (g i t t là MI1) và m t cơng th c MI do chúng em

đ xu t (g i t t là MI3) cho hai tr ng h p tách và khơng tách stopword. ph n này chúng em khơng th nghi m v i MI2 c a [Ong & Chen, 1999] vì k t qu tách t c a cơng th c này th p h n các cơng th c khác khá nhi u s cho k t qu khơng t t.

Nh v y t ng c ng chúng em th c hi n 8 l n th nghi m phân lo i nh sau:

Ü Cơng th c IClass + MI1 + tách stop word

Ü Cơng th c IClass + MI1 + khơng tách stop word

Ü Cơng th c IClass + MI3 + tách stop word

Ü Cơng th c IClass + MI3 + khơng tách stop word

Ü Cơng th c NBClass + MI1 + tách stop word

Ü Cơng th c NBClass + MI1 + khơng tách stop word

Ü Cơng th c NBClass + MI3 + tách stop word

Ü Cơng th c NBClass + MI3 + khơng tách stop word

Sau khi th c hi n phân lo i v n b n, chúng em s d ng các đ đo đã đ c trình bày m c 6.5.1. đ tính tốn k t qu chính xác c a các th nghi m phân lo i. K t qu tính tốn đ c trình bày trong b ng th ng kê sau:

Ph ng pháp Tên ch đ R P F1 Xã h i 0.62625 0.654047 0.639847 Khoa h c 0.72 0.975434 0.828475 Th thao 0.765 0.968245 0.854706 Kinh doanh 0.795 0.293358 0.428571 Macro 0.763437 0.892427 0.822908 IClass + MI 1 +tách stopword Micro 0.663 0.682801 0.672755 Xã h i 0.764 0.636667 0.694545

Một phần của tài liệu Nghiên cứu phương pháp thống kê Bayes và Xây dựng ứng dụng phân loại văn bản tiếng Việt (Trang 95)

Tải bản đầy đủ (PDF)

(132 trang)