H th ng th nghi m phân lo i v n b n Vikass đ c xây d ng nh m m c đích ki m nghi m ph ng pháp tách t IGATEC và các ph ng pháp phân lo i đ c p ch ng tr c nh m tìm ra đ c các tham s t i u tr c khi tích h p vào tồ so n báo đi n t . Các tham s này bao g m các tham s ch y thu t tốn di truy n nh s l ng cá th ban đ u, s th h t i u, t l lai ghép, t l đ t bi n; cách tính MI hi u qu và ph ng pháp phân lo i nào cho k t qu t t h n. Ngồi tích h p mơ-đun trích t n s xu t hi n t Google, h th ng cịn cung c p các tính n ng khác nh trích tin t c, ch nh s a t khĩa. Ch c n ng c a h th ng s đ c mơ t chi ti t trong các ph n ti p theo.
6.1.2. T ch c và x lý d li u
6.1.2.1. Gi i thi u chung
H ng ti p c n c a lu n v n d a trên th ng kê t Google, đi u đĩ cĩ ngh a là m i l n c n l y t n s xu t hi n c a m t t m i, h th ng ph i th c hi n l y thơng tin t Internet. i u này làm tiêu t n r t nhi u th i gian ch đ i, do v y m i khi l y
đ c thơng tin t Google, chúng em l u l i vào m t file d li u đ m đ cĩ th s d ng l i m i khi c n đ n.
V i m c đích làm t ng t c đ x lý c a ch ng trình th nghi m, vi c qu n lý d li u hồn tồn đ c th c hi n trên file v n b n thơng th ng trên ki u phơng ph bi n c a ti ng Vi t là phơng Unicode UTF8.
H th ng th nghi m c n hai lo i thơng tin nh sau:
Ü i v i th nghi m tách t ti ng Vi t, h th ng c n thơng tin v xác su t xu t hi n c a các t trên Google.
Ü i v i vi c th nghi m phân lo i v n b n, h th ng c n thơng tin v xác
6.1.2.2. T ch c d li u
T nh ng yêu c u trên, h th ng d li u đ c thi t k thành ba file cĩ n i dung nh sau:
Hình 6. 1. T ch c file d li u
Ü File CACHE: là d ng file v n b n thơng th ng, ch a thơng tin:
X T : t đã tìm t Google
X Xác su t: xác su t c a t đĩ trên Google
X Lo i t : mang m t trong các giá tr W(là t ), NW (khơng là t ), WC ( cĩ th là t ), NWC (khơng th là t ), UD (ch a phân lo i).
Ü File KEYWORD: File đ c vi t d i d ng xml bao g m thơng tin v tên ch
đ các c p:
X Tên ch đ : tên c a ch đ các c p (c p 1 và c p 2)
X Ch s : ch s c a m i ch đ cho bi t v trí c a ch đ trong danh sách xác su t c a t v i t ng ch đ trong file Relevant.
X Ch n d ng xml đ l u tên ch đ vì tính ch t l ng nhau t ng c p c a ch đ r t thích h p v i c u trúc d ng cây c a tài li u xml.
X Ví d , ta cĩ các ch đ c p 1 là “th thao” và các ch đ c p 2 c a nĩ là “Bĩng đá”, “Qu n v t” nh hình v d i đây”
Hình 6. 2. Ch đ Th thao
Ü File RELEVANT: ch a thơng tin:
X T : t đã tìm
X Danh sách xác su t c a t v i t ng ch đ : xác su t xu t hi n đ ng th i c a t ng v i t ng ch đ theo ch s đ c l u trong file KEYWORD.
Sau khi th c hi n th nghi m, dung l ng file CACHE đã lên đ n g n 10M và file RELEVANT x p x 50M. V i kh i l ng d li u l n nh v y, vi c s d ng m t h qu n tr c s d li u là khơng c n thi t b i vì vi c x lý thơng tin trong h th ng là đ n gi n và yêu c u tiên quy t c a ch ng trình là t c đ x lý cao. Nh v y, ch n l a l u tr thơng tin d i d ng v n b n bình th ng là phù h p v i yêu c u h th ng.
6.1.2.3. X lý d li u
Khi b t đ u ho t đ ng, h th ng t đ ng th c hi n đ c các file d li u, phân tích chu i trong file đ l y thơng tin và đ a vào b nh d i d ng “b ng b m” (hashtable). H th ng th nghi m đ c phát tri n nên ngơn ng C#, là m t ngơn ng khá m nh h tr nhi u c u trúc l u tr thơng tin trong đĩ cĩ h tr b ng b m. Nh v y mà vi c t ch c d li u tr nên đ n gi n h n r t nhi u. Ngồi ra, cách x lý nh v y s làm t ng t c đ tìm ki m thơng tin c a t nh các u đi m t ch c d li u c a b ng b m.
<?xml version="1.0" encoding="utf-8" ?> <keyword>
<topic name="th thao" value="1">
<topic name="bĩng đá" value="2" /> <topic name="qu n v t" value="3" /> </topic>
6.1.3. M t s màn hình c a h th ng Vikass
Hình 6. 3. Màn hình tách t và phân lo i
STT Mơ t
1 Ch n th m c ch a các t p tin c n tách t và phân lo i 2 Ch n th m c l u k t qu
3 Li t kê tên các t p tin đ c ch n tách t và phân lo i
4 Di chuy n các t p tin qua l i đ ch n các t p tin th c hi n tách t 5 Li t kê tên t t c các t p tin cĩ trong th m c (1)
6 Th c hi n tách t và phân lo i 7 D ng tách th c thi
8 Xem t p tin k t qu phân lo i 9 Tab tùy ch n các thơng s ch y GA
10 Tab tùy ch n các thơng s nh lo i MI s d ng, cĩ s d ng stopword hay khơng ?
11 Tab ch n các t khĩa s s d ng cho vi c phân lo i
Màn hình mơđun trích xu t t Google:
Hình 6. 4. Màn hình trích xu t t Google
STT Mơ t
1 Ch n th m c ch a các t p tin nh t p tin đ m, t p tin ch a đ liên quan c a t và t khĩa,…
2 Các tùy ch n nh ch tìm ki m các t cĩ t n s 0, ch tìm các trang .vn, tìm ki m đ liên quan c a t và t khĩa…
3 Các ph ng pháp t i v s d ng
4 Thanh bi u th ti n trình tìm ki m và trích t 5 Th c hi n tìm ki m và trích xu t
6 L u l i t p tin đ m và t p tin ch a đ liên quan 7 D ng vi c tìm ki m
8 Danh sách các t đã đ c tìm ki m
Màn hình phân lo i tin t c đi n t h tr tồ so n báo đi n t :
Hình 6. 5. Màn hình phân lo i tin t c đi n t
STT Mơ t
1 Thi t l p các tham s k t n i đ n SQL server 2 L y các tin t c đ c tồ so n báo đi n t t i v 3 Th c hi n phân lo i
4 C p nh t các tin t c đã đ c phân lo i vào SQL server 5 Th c hi n t t c các b c (2),(3),(4)
6 Hi n th các thơng tin nh : n i dung tin, tên c a ch đ đ c phân lo i,…
6.2. Th nghi m các cách trích xu t thơng tin
Vi c trích xu t thơng tin v t n s xu t hi n c a t , đ liên quan gi a t và ch
đ đ c th c hi n thơng qua module Google Extractor. Nh m m c đích t ng t c trích thơng tin t Google, chúng em đã th nghi m trích thơng tin b ng nhi u cách khác nhau và th c hi n k t n i đ n Google s d ng nhi u lu ng (>=15). Bên c nh
đĩ, đ tránh vi c ph i th c hi n tìm ki m nhi u l n, các t p tin đ m đ c s d ng v i m c đích l u l i hay c p nh t k t qu các l n tìm ki m tr c.
6.2.1. Các ph ng pháp th nghi m
Chúng em s d ng 3 cách khác nhau đ l y k t qu tìm ki m bao g m s d ng d ch v web do Google cung c p, t i trang k t qu v máy c c b sau đĩ s d ng XPath hay tìm ki m chu i.
6.2.1.1. Google web service
D ch v web là m t ng d ng cung c p giao di n l p trình, h tr s truy n thơng t ng d ng này đ n ng d ng khác qua m ng dùng XML. D ch v web c a Google t i đa ch http://api.google.com/GoogleSearch.wsdl là m t ph ng pháp ti n l i đ khai thác cơng c tìm ki m này. Tuy nhiên, ta ph i đ ng kí tài kho n tr c khi s d ng. V i m i tài kho n Google gi i h n s l ng truy v n là 1000 truy v n/ngày. Các tham s c n bi t khi s d ng d ch v :
Tham s tìm ki m q Câu truy v n n S k t qu tr v trên t ng trang lr Gi i h n ph m vi ngơn ng tìm ki m ie B ng mã câu truy v n s d ng oe B ng mã c a k t qu tr v B ng 6. 4. Tham s s d ng d ch v Google
Truy v n đ c bi t Câu truy v n Ý ngh a
Lo i b m t t bass –music “-” đ lo i b 1 t ra kh i k t qu tìm ki m
T khĩa OR vacation london OR paris
OR
Gi i h n site Admission
site:www.stanford.edu
site: ch tìm ki m trong site
đ c ch đnh Gi i h n ngày Star Wars
daterange:2452122- 2452234
daterange: ch tr v các file cĩ nhãn th i gian thõa đi u ki n L c file Google filetype:doc OR
filetype:pdf
filetype: ch tìm ki m các file cĩ ki u m r ng đ c li t kê Lo i tr file Google doc -filetype:
-filetype:pdf
-filetype: ng c l i v i
filetype:
Tìm theo tiêu đ intitle:Google search intitle: ch tìm ki m tiêu đ web
B ng 6. 5. M t s câu truy v n đ c bi t c a Google
Trong quá trình th nghi m s d ng d ch v web c a Google, chúng em nh n th y th i gian đáp ng khơng đ c nhanh (kho ng >5s cho m t truy v n-s d ng m ng Internet c a tr ng) h n n a cịn t n t i nhi u l i. Lý do cĩ th k đ n nh phiên b n d ch v đang trong quá trình th nghi m (b n β), h n ch do dung l ng m ng, chi phí ch ng th c. Gi i h n 1000truy v n/ngày c ng nh h ng đ n ch ng trình khi ph i th c hi n trích xu t trên l ng l n các t . kh c ph c v n đ này, chúng em s d ng bi n pháp t i trang k t qu v .
6.2.1.2. Xpath và tìm ki m chu i
Trang k t qu tr v s đ c chuy n sang đ nh d ng xHTML dùng cho vi c trích xu t dùng Xpath (http://www.w3.org/TR/XPath20) hay th c hi n tìm ki m trên chu i. C hai ph ng pháp này đ u cho hi u su t t t (kho ng 1-3s/truy v n).
Xpath là đnh d ng đ c W3C đ ngh đ c s d ng r ng rãi trong vi c truy v n t p tin XML. S d ng Xpath cĩ thu n l i h n tìm ki m chu i ch cĩ th s d ng trích xu t trên nhi u ngơn ng tr v t Google và n u c u trúc c a trang web thay
đ i thì ta v n l y đ c thơng tin tr v c a Google. Trong khi đĩ vi c tìm ki m chu i s ph thu c vào các câu đ c bi t (nh “các k t qu ”... ). Do đĩ, n u các trang tr v c a Google trình bày khác đi, cách tìm ki m chu i s khơng cho k t qu mong mu n. Tuy nhiên, s d ng cách tìm ki m chu i s cho k t qu nhanh h n dùng Xpath vì h th ng khơng ph i t n m t th i gian phân tích d li u thành d ng tài li u XML.
6.2.2. Nh n xét
Hi n t i, đi u chúng ta quan tâm hàng đ u là t c đ trích thơng tin t Google. M t khác, trang web Google cĩ c u trúc kh n đnh, h u nh khơng thay đ i. Vì v y khi th c hi n th nghi m, chúng em s d ng cách th c tìm ki m chu i đ đ t t i đ cao nh t. Tuy nhiên, chúng em v n xây d ng các l a ch n rút trích đ t o tính linh ho t trong th nghi m.
6.3. D li u th nghi m 6.3.1. Ngu n d li u
D li u th nghi m đ c l y t trang tin t c VnExpress.net (www.vnexpress.net) t i th i đi m tháng 6/2005. ây là m t trong nh ng trang tin t c đi n t đ u tiên t i Vi t Nam ra đ i vào ngày 26/2/2001, đ n nay đã h n b n n m ho t đ ng v i l ng đ c gi đơng đ o trong c n c và qu c t . Ngồi các trang m c do phĩng viên c a t báo vi t, VnExpress.net cịn m r ng đĩn nh n các bài vi t do đ c gi g i v t kh p n i đ làm phong phú thêm cho n i dung c a t báo và c p nh t tin t c th ng xuyên nhanh chĩng.
6.3.2. S l ng d li u th nghi m
T các m c c a VnExpress.net, đ u tiên chúng em ch n l c ra m t s m c chính đ l y d li u th nghi m.
Vì chúng em quy đnh t khĩa cho ch đ chính là tên ch đ đĩ nên trong quá trình th nghi m, chúng em phát hi n ra m t s tr ng h p nh p nh ng.
u tiên, t khĩa Th gi i, Xã h i cĩ ý ngh a bao quát cĩ th v Kinh t th gi i, chính tr th gi i, v n hĩa xã h i…, nên kh n ng các tin t c đ c phân lo i vào ch đ này là r t cao do t n s xu t hi n c a ch đ này v i các t ph bi n l n.
Th hai, m t s m c cĩ tên khơng đ ng nh t gi a các t báo đi n t nh trang VnExpress.net dùng Vi tính trong khi đĩ TuoiTre.com.vn l i dùng Nh p s ng s , Vnn.vn dùng Cơng ngh thơng tin và Vi n thơng.... Vi c này làm gi m k t qu khi s d ng t khĩa khĩa Vi tính cho ch đ này vì t khĩa này khơng bao quát đ c cho các trang s d ng tên ch đ khác m c dù cùng trình bày m t n i dung.
Do v y, chúng em ch s d ng m t s m c cĩ t khĩa rõ ràng. i v i m i tin t c, chúng em ch tách l y ph n tiêu đ , ph n tĩm l c và ph n chú thích nh. ây là các ph n cĩ ý ngh a phân lo i cao do đ c ng i vi t bài tĩm l c và ch n l c. ng m i ch đ , chúng em l y ng u nhiên 100 tin. Cịn cách gi i quy t ph n nh p nh ng trình bày trên s là h ng m r ng c a lu n v n. T ng d li u th nghi m là 1500 t p tin bao g m 15 ch đ c p 2, m i ch đ 100 t p tin.
Hình 6. 6. Cây ch đ 6.3.3. Nh n xét
M c dù d li u dùng th nghi m khá nh do h n ch v m t th i gian, nh ng cách th c ch n d li u và ch đ th nghi m phân lo i c a chúng em đã m r ng r t nhi u so v i 35 v n b n th nghi m c a [H. Nguyen et al, 2005] trên 5 ch đ
6.4. Th nghi m các cơng th c tính đ t ng h MI 6.4.1. Các ph ng pháp th nghi m
Nh m xác đ nh hi u qu c a các cách tính MI trong vi c tách t ti ng Vi t, chúng em th c hi n th nghi m 3 cơng th c MI đã đ c trình bày m c 4.5: m t cơng th c tính MI c a [H.Nguyen et al, 2005] (g i là MI1) , m t c a [Ong & Chen, 1999] (g i là MI2), m t do chúng em đ ngh (g i là MI3) . ng v i m i cơng th c tính MI trên, chúng em th nghi m thêm vi c tách stopword và khơng tách stopword tr c khi tách t . M c đích c a vi c tách stopword tr c khi tách t nh m t o ra nhi u ng nh h n khi đã b các t khơng cĩ ý ngh a, đ làm t ng t c đ tách t c a h th ng.
Nh v y, t ng c ng cĩ 6 th nghi m tách t nh sau:
Ü MI1 tách stop word (MI1_NonSW)
Ü MI1 khơng tách stop word (MI1_SW)
Ü MI2 tách stop word (MI2_NonSW)
Ü MI2 khơng tách stop word (MI2_NonSW)
Ü MI3 tách stop word (MI3_NonSW)