Th ngh im các cách trích x ut thơng tin

Một phần của tài liệu Nghiên cứu phương pháp thống kê Bayes và Xây dựng ứng dụng phân loại văn bản tiếng Việt (Trang 95)

Vi c trích xu t thơng tin v t n s xu t hi n c a t , đ liên quan gi a t và ch

đ đ c th c hi n thơng qua module Google Extractor. Nh m m c đích t ng t c trích thơng tin t Google, chúng em đã th nghi m trích thơng tin b ng nhi u cách khác nhau và th c hi n k t n i đ n Google s d ng nhi u lu ng (>=15). Bên c nh

đĩ, đ tránh vi c ph i th c hi n tìm ki m nhi u l n, các t p tin đ m đ c s d ng v i m c đích l u l i hay c p nh t k t qu các l n tìm ki m tr c.

6.2.1. Các ph ng pháp th nghi m

Chúng em s d ng 3 cách khác nhau đ l y k t qu tìm ki m bao g m s d ng d ch v web do Google cung c p, t i trang k t qu v máy c c b sau đĩ s d ng XPath hay tìm ki m chu i.

6.2.1.1. Google web service

D ch v web là m t ng d ng cung c p giao di n l p trình, h tr s truy n thơng t ng d ng này đ n ng d ng khác qua m ng dùng XML. D ch v web c a Google t i đa ch http://api.google.com/GoogleSearch.wsdl là m t ph ng pháp ti n l i đ khai thác cơng c tìm ki m này. Tuy nhiên, ta ph i đ ng kí tài kho n tr c khi s d ng. V i m i tài kho n Google gi i h n s l ng truy v n là 1000 truy v n/ngày. Các tham s c n bi t khi s d ng d ch v :

Tham s tìm ki m q Câu truy v n n S k t qu tr v trên t ng trang lr Gi i h n ph m vi ngơn ng tìm ki m ie B ng mã câu truy v n s d ng oe B ng mã c a k t qu tr v B ng 6. 4. Tham s s d ng d ch v Google

Truy v n đ c bi t Câu truy v n Ý ngh a

Lo i b m t t bass –music “-” đ lo i b 1 t ra kh i k t qu tìm ki m

T khĩa OR vacation london OR paris

OR

Gi i h n site Admission

site:www.stanford.edu

site: ch tìm ki m trong site

đ c ch đnh Gi i h n ngày Star Wars

daterange:2452122- 2452234

daterange: ch tr v các file cĩ nhãn th i gian thõa đi u ki n L c file Google filetype:doc OR

filetype:pdf

filetype: ch tìm ki m các file cĩ ki u m r ng đ c li t kê Lo i tr file Google doc -filetype:

-filetype:pdf

-filetype: ng c l i v i

filetype:

Tìm theo tiêu đ intitle:Google search intitle: ch tìm ki m tiêu đ web

B ng 6. 5. M t s câu truy v n đ c bi t c a Google

Trong quá trình th nghi m s d ng d ch v web c a Google, chúng em nh n th y th i gian đáp ng khơng đ c nhanh (kho ng >5s cho m t truy v n-s d ng m ng Internet c a tr ng) h n n a cịn t n t i nhi u l i. Lý do cĩ th k đ n nh phiên b n d ch v đang trong quá trình th nghi m (b n β), h n ch do dung l ng m ng, chi phí ch ng th c. Gi i h n 1000truy v n/ngày c ng nh h ng đ n ch ng trình khi ph i th c hi n trích xu t trên l ng l n các t . kh c ph c v n đ này, chúng em s d ng bi n pháp t i trang k t qu v .

6.2.1.2. Xpath và tìm ki m chu i

Trang k t qu tr v s đ c chuy n sang đ nh d ng xHTML dùng cho vi c trích xu t dùng Xpath (http://www.w3.org/TR/XPath20) hay th c hi n tìm ki m trên chu i. C hai ph ng pháp này đ u cho hi u su t t t (kho ng 1-3s/truy v n).

Xpath là đnh d ng đ c W3C đ ngh đ c s d ng r ng rãi trong vi c truy v n t p tin XML. S d ng Xpath cĩ thu n l i h n tìm ki m chu i ch cĩ th s d ng trích xu t trên nhi u ngơn ng tr v t Google và n u c u trúc c a trang web thay

đ i thì ta v n l y đ c thơng tin tr v c a Google. Trong khi đĩ vi c tìm ki m chu i s ph thu c vào các câu đ c bi t (nh “các k t qu ”... ). Do đĩ, n u các trang tr v c a Google trình bày khác đi, cách tìm ki m chu i s khơng cho k t qu mong mu n. Tuy nhiên, s d ng cách tìm ki m chu i s cho k t qu nhanh h n dùng Xpath vì h th ng khơng ph i t n m t th i gian phân tích d li u thành d ng tài li u XML.

6.2.2. Nh n xét

Hi n t i, đi u chúng ta quan tâm hàng đ u là t c đ trích thơng tin t Google. M t khác, trang web Google cĩ c u trúc kh n đnh, h u nh khơng thay đ i. Vì v y khi th c hi n th nghi m, chúng em s d ng cách th c tìm ki m chu i đ đ t t i đ cao nh t. Tuy nhiên, chúng em v n xây d ng các l a ch n rút trích đ t o tính linh ho t trong th nghi m.

6.3. D li u th nghi m 6.3.1. Ngu n d li u

D li u th nghi m đ c l y t trang tin t c VnExpress.net (www.vnexpress.net) t i th i đi m tháng 6/2005. ây là m t trong nh ng trang tin t c đi n t đ u tiên t i Vi t Nam ra đ i vào ngày 26/2/2001, đ n nay đã h n b n n m ho t đ ng v i l ng đ c gi đơng đ o trong c n c và qu c t . Ngồi các trang m c do phĩng viên c a t báo vi t, VnExpress.net cịn m r ng đĩn nh n các bài vi t do đ c gi g i v t kh p n i đ làm phong phú thêm cho n i dung c a t báo và c p nh t tin t c th ng xuyên nhanh chĩng.

6.3.2. S l ng d li u th nghi m

T các m c c a VnExpress.net, đ u tiên chúng em ch n l c ra m t s m c chính đ l y d li u th nghi m.

Vì chúng em quy đnh t khĩa cho ch đ chính là tên ch đ đĩ nên trong quá trình th nghi m, chúng em phát hi n ra m t s tr ng h p nh p nh ng.

u tiên, t khĩa Th gi i, Xã h i cĩ ý ngh a bao quát cĩ th v Kinh t th gi i, chính tr th gi i, v n hĩa xã h i…, nên kh n ng các tin t c đ c phân lo i vào ch đ này là r t cao do t n s xu t hi n c a ch đ này v i các t ph bi n l n.

Th hai, m t s m c cĩ tên khơng đ ng nh t gi a các t báo đi n t nh trang VnExpress.net dùng Vi tính trong khi đĩ TuoiTre.com.vn l i dùng Nh p s ng s , Vnn.vn dùng Cơng ngh thơng tin và Vi n thơng.... Vi c này làm gi m k t qu khi s d ng t khĩa khĩa Vi tính cho ch đ này vì t khĩa này khơng bao quát đ c cho các trang s d ng tên ch đ khác m c dù cùng trình bày m t n i dung.

Do v y, chúng em ch s d ng m t s m c cĩ t khĩa rõ ràng. i v i m i tin t c, chúng em ch tách l y ph n tiêu đ , ph n tĩm l c và ph n chú thích nh. ây là các ph n cĩ ý ngh a phân lo i cao do đ c ng i vi t bài tĩm l c và ch n l c. ng m i ch đ , chúng em l y ng u nhiên 100 tin. Cịn cách gi i quy t ph n nh p nh ng trình bày trên s là h ng m r ng c a lu n v n. T ng d li u th nghi m là 1500 t p tin bao g m 15 ch đ c p 2, m i ch đ 100 t p tin.

Hình 6. 6. Cây ch đ 6.3.3. Nh n xét

M c dù d li u dùng th nghi m khá nh do h n ch v m t th i gian, nh ng cách th c ch n d li u và ch đ th nghi m phân lo i c a chúng em đã m r ng r t nhi u so v i 35 v n b n th nghi m c a [H. Nguyen et al, 2005] trên 5 ch đ

6.4. Th nghi m các cơng th c tính đ t ng h MI 6.4.1. Các ph ng pháp th nghi m

Nh m xác đ nh hi u qu c a các cách tính MI trong vi c tách t ti ng Vi t, chúng em th c hi n th nghi m 3 cơng th c MI đã đ c trình bày m c 4.5: m t cơng th c tính MI c a [H.Nguyen et al, 2005] (g i là MI1) , m t c a [Ong & Chen, 1999] (g i là MI2), m t do chúng em đ ngh (g i là MI3) . ng v i m i cơng th c tính MI trên, chúng em th nghi m thêm vi c tách stopword và khơng tách stopword tr c khi tách t . M c đích c a vi c tách stopword tr c khi tách t nh m t o ra nhi u ng nh h n khi đã b các t khơng cĩ ý ngh a, đ làm t ng t c đ tách t c a h th ng.

Nh v y, t ng c ng cĩ 6 th nghi m tách t nh sau:

Ü MI1 tách stop word (MI1_NonSW)

Ü MI1 khơng tách stop word (MI1_SW)

Ü MI2 tách stop word (MI2_NonSW)

Ü MI2 khơng tách stop word (MI2_NonSW)

Ü MI3 tách stop word (MI3_NonSW)

Ü MI3 khơng tách stop word (MI3_NonSW)

Chúng em th nghi m các cơng th c trên 1500 n i dung tĩm t t các tin t c c a VnExpress.net

6.4.2. K t qu

chính xác c a các cơng th c tính đ t ng h nh sau:

Cách tính MI Khơng tách stop word Cĩ tách stopword

MI 1 [H. Nguyen et al, 2005] 74% 72% MI 2 [Ong & Chen, 1999] 60% 55%

MI 3 (chúng em đ ngh ) 72% 69%

0% 10% 20% 30% 40% 50% 60% 70% 80%

MI1 MI2 MI3

Lo i MI c h ín h x á c Non SW SW Hình 6. 7. Bi u đ so sánh k t qu các cơng th c tính đ t ng h MI 6.4.3. Nh n xét

Trong 6 cách th nghi m, cách tách t dùng cơng th c MI1. cĩ đ chính xác cao nh t.

Th i gian ch y tách t lúc đ u khá lâu (trung bình kho ng 10 phút cho m t m u tĩm t t dài kho ng 100 ti ng) đa ph n là do th i gian l y thơng tin t Google. Nh ng khi thơng tin v t n s xu t hi n c a các t đã đ c l u l i t ng đ i l n (đ

l n file cache kho ng 10M), thì t c đ tách t gi m xu ng đáng k (trung bình <1giây đ i v i các v n b n khơng c n l y thơng tin t Internet)

Cách ti p c n c a cơng th c MI1 là u tiên d a trên t ghép cĩ hai ti ng, mà theo th ng kê d a trên t đi n c a chúng em, s t 2 ti ng chi m đa s trong t v ng ti ng Vi t. Cách tính này cho k t qu khá t t vì v a tho mãn đ c tính ch t t nhiên d a trên u th áp đ o c a t 2 ti ng, v a đ c ch ng minh b ng th c nghi m.

Trong các tr ng h p th nghi m cĩ tách stopword, th i gian tách t gi m đi r t nhi u (trung bình 5 phút cho v n b n m i). Tuy nhiên, trong quá trình th nghi m, chúng em nh n th y vi c tách stopword cĩ th làm sai l c ý ngh a c a v n b n ban

đ u do danh sách stopword đ a vào khơng hồn ch nh. Vì v y k t qu tách t cĩ tách stopword khơng cao nh cách tách thu n tuý.

6.5. Th nghi m phân lo i tin t c đi n t 6.5.1. Th c đo k t qu phân lo i v n b n 6.5.1. Th c đo k t qu phân lo i v n b n

đánh giá hi u qu phân lo i v n b n, thơng th ng ng i ta dùng các ch s v đ thu v -recall và đ chính xác-precision [Yang, 2000]. Cho m t ph ng pháp phân lo i v n b n, đ u vào là m t v n b n, và k t qu tr v là m t danh sách các ch đ đ c gán cho v n b n đĩ, ch s đ thu v , đ chính xác cĩ th đ c tính nh sau:

Hình 6. 8. Các thơng s dùng tính đ thu v , đ chính xác

Hình trên mơ t các thơng s sau:

Ü (A) là t t c v n b n th c hi n phân lo i v n b n cho ch đ T

Ü (B) là s v n b n đ c phân lo i l y v cho ch đ T

Ü (C) là s v n b n th c s thu c v ch đ T

Ü (D) là s v n b n l y v chính xác.

Các tham s trên đ c dùng trong cơng th c tính đ thu v -recall, đ chính xác- precision d i đây:

Vi c gán nhãn ch đ c a các ph ng pháp phân lo i v n b n cĩ th đ c đánh giá b ng cách dùng b ng tr ng h p hai chi u ng v i t ng lo i ch đ :

Ch đ đang xét ÚNG v i ch đ v n b n Ch đ đang xét SAI v i ch đ v n b n Phân lo i ÚNG v i ch đ v n b n a b Phân lo i SAI v i ch đ v n b n c d B ng 6. 7. B n tr ng h p c a phân lo i v n b n

Nh v y, v i m i k t qu phân lo i cho m t v n b n, ta s cĩ đ c m t trong 4 tr ng h p a,b,c ho c d. T đĩ, ta tính đ c các ch s sau: Ü recall a a c = + n u a + c >0, ng c l i là khơng xác đ nh. Ü precision a a b = + n u a + b >0, ng c l i là khơng xác đnh.

Ü Tuy nhiên, cách tính v i đ thu v , đ chính xác riêng r s cho k t qu khơng cân đ i. Ví d n u s v n b n l y v đúng (D) g n b ng v i s v n b n đúng th c s (C) thì ch s đ thu v s cao, tuy nhiên n u s v n b n l y v (B) khá nhi u so v i (D) s cho ch s đ chính xác nh . Do v y, thơng th ng ng i ta thêm m t ch s F1 [Yang , 1997] đ ph n ánh s cân đ i gi a 2 đ đo trên: 2 1 1 1 F recall precision = +

Ngồi ra, đ tính tốn hi u qu th c thi trên tồn b ch đ , thơng th ng ng i ta cịn s d ng hai ph ng pháp macro-averagingmicro-averaging.

Macro-averaging tính trung bình các ch s recall, precision, fallout, Acc,Err c a t t c các ch đ .

Micro-averaging tính tốn các ch s d a trên t ng giá tr a, b, c, d c a t ng ch

đ d a theo các cơng th c áp d ng tính cho m t ch đ .

S khác nhau ch y u gi a hai cách tính macro-averagingmicro-averaging

là : micro-averaging tính tốn d a trên tr ng s c a m i v n b n, nên cho k t qu trung bình trên m i v n b n (per-document average); trong khi đĩ, macro- averaging tính tốn tr ng s trên m i ch đ , do đĩ, k t qu cho s đ i di n cho giá tr trung bình trên m i ch đ (per-category average).

6.5.2. Các ph ng pháp th nghi m

ph n phân lo i v n b n, chúng em th nghi m 2 cơng th c đã đ c trình bày 5.3. là cơng th c phân lo i đ c s d ng trong [H. Nguyen et al, 2005] (g i t t là cơng th c IClass) và cơng th c tính Nạve Bayes đ c c i ti n cho phù h p v i h ng ti p c n d a trên Google (g i t t là NBClass).

ng v i cơng th c phân lo i, chúng em th nghi m v i 2 cơng th c tính MI: m t c a [H. Nguyen et al, 2005] (g i t t là MI1) và m t cơng th c MI do chúng em

đ xu t (g i t t là MI3) cho hai tr ng h p tách và khơng tách stopword. ph n này chúng em khơng th nghi m v i MI2 c a [Ong & Chen, 1999] vì k t qu tách t c a cơng th c này th p h n các cơng th c khác khá nhi u s cho k t qu khơng t t.

Nh v y t ng c ng chúng em th c hi n 8 l n th nghi m phân lo i nh sau:

Ü Cơng th c IClass + MI1 + tách stop word

Ü Cơng th c IClass + MI1 + khơng tách stop word

Ü Cơng th c IClass + MI3 + tách stop word

Ü Cơng th c IClass + MI3 + khơng tách stop word

Ü Cơng th c NBClass + MI1 + tách stop word

Ü Cơng th c NBClass + MI1 + khơng tách stop word

Ü Cơng th c NBClass + MI3 + tách stop word

Ü Cơng th c NBClass + MI3 + khơng tách stop word

Sau khi th c hi n phân lo i v n b n, chúng em s d ng các đ đo đã đ c trình bày m c 6.5.1. đ tính tốn k t qu chính xác c a các th nghi m phân lo i. K t qu tính tốn đ c trình bày trong b ng th ng kê sau:

Ph ng pháp Tên ch đ R P F1 Xã h i 0.62625 0.654047 0.639847 Khoa h c 0.72 0.975434 0.828475 Th thao 0.765 0.968245 0.854706 Kinh doanh 0.795 0.293358 0.428571 Macro 0.763437 0.892427 0.822908 IClass + MI 1 +tách stopword Micro 0.663 0.682801 0.672755 Xã h i 0.764 0.636667 0.694545

Một phần của tài liệu Nghiên cứu phương pháp thống kê Bayes và Xây dựng ứng dụng phân loại văn bản tiếng Việt (Trang 95)