Trong quá trình th nghi m s d ng d ch v web c a Google, chúng em nh n th y th i gian đáp ng khơng đ c nhanh (kho ng >5s cho m t truy v n-s d ng m ng Internet c a tr ng) h n n a cịn t n t i nhi u l i. Lý do cĩ th k đ n nh phiên b n d ch v đang trong quá trình th nghi m (b n β), h n ch do dung l ng m ng, chi phí ch ng th c. Gi i h n 1000truy v n/ngày c ng nh h ng đ n ch ng trình khi ph i th c hi n trích xu t trên l ng l n các t . kh c ph c v n đ này, chúng em s d ng bi n pháp t i trang k t qu v .
6.2.1.2. Xpath và tìm ki m chu i
Trang k t qu tr v s đ c chuy n sang đ nh d ng xHTML dùng cho vi c trích xu t dùng Xpath (http://www.w3.org/TR/XPath20) hay th c hi n tìm ki m trên chu i. C hai ph ng pháp này đ u cho hi u su t t t (kho ng 1-3s/truy v n).
Xpath là đnh d ng đ c W3C đ ngh đ c s d ng r ng rãi trong vi c truy v n t p tin XML. S d ng Xpath cĩ thu n l i h n tìm ki m chu i ch cĩ th s d ng trích xu t trên nhi u ngơn ng tr v t Google và n u c u trúc c a trang web thay
đ i thì ta v n l y đ c thơng tin tr v c a Google. Trong khi đĩ vi c tìm ki m chu i s ph thu c vào các câu đ c bi t (nh “các k t qu ”... ). Do đĩ, n u các trang tr v c a Google trình bày khác đi, cách tìm ki m chu i s khơng cho k t qu mong mu n. Tuy nhiên, s d ng cách tìm ki m chu i s cho k t qu nhanh h n dùng Xpath vì h th ng khơng ph i t n m t th i gian phân tích d li u thành d ng tài li u XML.
6.2.2. Nh n xét
Hi n t i, đi u chúng ta quan tâm hàng đ u là t c đ trích thơng tin t Google. M t khác, trang web Google cĩ c u trúc kh n đnh, h u nh khơng thay đ i. Vì v y khi th c hi n th nghi m, chúng em s d ng cách th c tìm ki m chu i đ đ t t i đ cao nh t. Tuy nhiên, chúng em v n xây d ng các l a ch n rút trích đ t o tính linh ho t trong th nghi m.
6.3. D li u th nghi m 6.3.1. Ngu n d li u
D li u th nghi m đ c l y t trang tin t c VnExpress.net (www.vnexpress.net) t i th i đi m tháng 6/2005. ây là m t trong nh ng trang tin t c đi n t đ u tiên t i Vi t Nam ra đ i vào ngày 26/2/2001, đ n nay đã h n b n n m ho t đ ng v i l ng đ c gi đơng đ o trong c n c và qu c t . Ngồi các trang m c do phĩng viên c a t báo vi t, VnExpress.net cịn m r ng đĩn nh n các bài vi t do đ c gi g i v t kh p n i đ làm phong phú thêm cho n i dung c a t báo và c p nh t tin t c th ng xuyên nhanh chĩng.
6.3.2. S l ng d li u th nghi m
T các m c c a VnExpress.net, đ u tiên chúng em ch n l c ra m t s m c chính đ l y d li u th nghi m.
Vì chúng em quy đnh t khĩa cho ch đ chính là tên ch đ đĩ nên trong quá trình th nghi m, chúng em phát hi n ra m t s tr ng h p nh p nh ng.
u tiên, t khĩa Th gi i, Xã h i cĩ ý ngh a bao quát cĩ th v Kinh t th gi i, chính tr th gi i, v n hĩa xã h i…, nên kh n ng các tin t c đ c phân lo i vào ch đ này là r t cao do t n s xu t hi n c a ch đ này v i các t ph bi n l n.
Th hai, m t s m c cĩ tên khơng đ ng nh t gi a các t báo đi n t nh trang VnExpress.net dùng Vi tính trong khi đĩ TuoiTre.com.vn l i dùng Nh p s ng s , Vnn.vn dùng Cơng ngh thơng tin và Vi n thơng.... Vi c này làm gi m k t qu khi s d ng t khĩa khĩa Vi tính cho ch đ này vì t khĩa này khơng bao quát đ c cho các trang s d ng tên ch đ khác m c dù cùng trình bày m t n i dung.
Do v y, chúng em ch s d ng m t s m c cĩ t khĩa rõ ràng. i v i m i tin t c, chúng em ch tách l y ph n tiêu đ , ph n tĩm l c và ph n chú thích nh. ây là các ph n cĩ ý ngh a phân lo i cao do đ c ng i vi t bài tĩm l c và ch n l c. ng m i ch đ , chúng em l y ng u nhiên 100 tin. Cịn cách gi i quy t ph n nh p nh ng trình bày trên s là h ng m r ng c a lu n v n. T ng d li u th nghi m là 1500 t p tin bao g m 15 ch đ c p 2, m i ch đ 100 t p tin.
Hình 6. 6. Cây ch đ 6.3.3. Nh n xét
M c dù d li u dùng th nghi m khá nh do h n ch v m t th i gian, nh ng cách th c ch n d li u và ch đ th nghi m phân lo i c a chúng em đã m r ng r t nhi u so v i 35 v n b n th nghi m c a [H. Nguyen et al, 2005] trên 5 ch đ
6.4. Th nghi m các cơng th c tính đ t ng h MI 6.4.1. Các ph ng pháp th nghi m
Nh m xác đ nh hi u qu c a các cách tính MI trong vi c tách t ti ng Vi t, chúng em th c hi n th nghi m 3 cơng th c MI đã đ c trình bày m c 4.5: m t cơng th c tính MI c a [H.Nguyen et al, 2005] (g i là MI1) , m t c a [Ong & Chen, 1999] (g i là MI2), m t do chúng em đ ngh (g i là MI3) . ng v i m i cơng th c tính MI trên, chúng em th nghi m thêm vi c tách stopword và khơng tách stopword tr c khi tách t . M c đích c a vi c tách stopword tr c khi tách t nh m t o ra nhi u ng nh h n khi đã b các t khơng cĩ ý ngh a, đ làm t ng t c đ tách t c a h th ng.
Nh v y, t ng c ng cĩ 6 th nghi m tách t nh sau:
Ü MI1 tách stop word (MI1_NonSW)
Ü MI1 khơng tách stop word (MI1_SW)
Ü MI2 tách stop word (MI2_NonSW)
Ü MI2 khơng tách stop word (MI2_NonSW)
Ü MI3 tách stop word (MI3_NonSW)
Ü MI3 khơng tách stop word (MI3_NonSW)
Chúng em th nghi m các cơng th c trên 1500 n i dung tĩm t t các tin t c c a VnExpress.net
6.4.2. K t qu
chính xác c a các cơng th c tính đ t ng h nh sau:
Cách tính MI Khơng tách stop word Cĩ tách stopword
MI 1 [H. Nguyen et al, 2005] 74% 72% MI 2 [Ong & Chen, 1999] 60% 55%
MI 3 (chúng em đ ngh ) 72% 69%