G ii thi uh th ngth ngh im Vikass

Một phần của tài liệu Nghiên cứu phương pháp thống kê Bayes và Xây dựng ứng dụng phân loại văn bản tiếng Việt (Trang 89)

H th ng th nghi m phân lo i v n b n Vikass đ c xây d ng nh m m c đích ki m nghi m ph ng pháp tách t IGATEC và các ph ng pháp phân lo i đ c p ch ng tr c nh m tìm ra đ c các tham s t i u tr c khi tích h p vào tồ so n báo đi n t . Các tham s này bao g m các tham s ch y thu t tốn di truy n nh s l ng cá th ban đ u, s th h t i u, t l lai ghép, t l đ t bi n; cách tính MI hi u qu và ph ng pháp phân lo i nào cho k t qu t t h n. Ngồi tích h p mơ-đun trích t n s xu t hi n t Google, h th ng cịn cung c p các tính n ng khác nh trích tin t c, ch nh s a t khĩa. Ch c n ng c a h th ng s đ c mơ t chi ti t trong các ph n ti p theo.

6.1.2. T ch c và x lý d li u

6.1.2.1. Gi i thi u chung

H ng ti p c n c a lu n v n d a trên th ng kê t Google, đi u đĩ cĩ ngh a là m i l n c n l y t n s xu t hi n c a m t t m i, h th ng ph i th c hi n l y thơng tin t Internet. i u này làm tiêu t n r t nhi u th i gian ch đ i, do v y m i khi l y

đ c thơng tin t Google, chúng em l u l i vào m t file d li u đ m đ cĩ th s d ng l i m i khi c n đ n.

V i m c đích làm t ng t c đ x lý c a ch ng trình th nghi m, vi c qu n lý d li u hồn tồn đ c th c hi n trên file v n b n thơng th ng trên ki u phơng ph bi n c a ti ng Vi t là phơng Unicode UTF8.

H th ng th nghi m c n hai lo i thơng tin nh sau:

Ü i v i th nghi m tách t ti ng Vi t, h th ng c n thơng tin v xác su t xu t hi n c a các t trên Google.

Ü i v i vi c th nghi m phân lo i v n b n, h th ng c n thơng tin v xác

6.1.2.2. T ch c d li u

T nh ng yêu c u trên, h th ng d li u đ c thi t k thành ba file cĩ n i dung nh sau:

Hình 6. 1. T ch c file d li u

Ü File CACHE: là d ng file v n b n thơng th ng, ch a thơng tin:

X T : t đã tìm t Google

X Xác su t: xác su t c a t đĩ trên Google

X Lo i t : mang m t trong các giá tr W(là t ), NW (khơng là t ), WC ( cĩ th là t ), NWC (khơng th là t ), UD (ch a phân lo i).

Ü File KEYWORD: File đ c vi t d i d ng xml bao g m thơng tin v tên ch

đ các c p:

X Tên ch đ : tên c a ch đ các c p (c p 1 và c p 2)

X Ch s : ch s c a m i ch đ cho bi t v trí c a ch đ trong danh sách xác su t c a t v i t ng ch đ trong file Relevant.

X Ch n d ng xml đ l u tên ch đ vì tính ch t l ng nhau t ng c p c a ch đ r t thích h p v i c u trúc d ng cây c a tài li u xml.

X Ví d , ta cĩ các ch đ c p 1 là “th thao” và các ch đ c p 2 c a nĩ là “Bĩng đá”, “Qu n v t” nh hình v d i đây”

Hình 6. 2. Ch đ Th thao

Ü File RELEVANT: ch a thơng tin:

X T : t đã tìm

X Danh sách xác su t c a t v i t ng ch đ : xác su t xu t hi n đ ng th i c a t ng v i t ng ch đ theo ch s đ c l u trong file KEYWORD.

Sau khi th c hi n th nghi m, dung l ng file CACHE đã lên đ n g n 10M và file RELEVANT x p x 50M. V i kh i l ng d li u l n nh v y, vi c s d ng m t h qu n tr c s d li u là khơng c n thi t b i vì vi c x lý thơng tin trong h th ng là đ n gi n và yêu c u tiên quy t c a ch ng trình là t c đ x lý cao. Nh v y, ch n l a l u tr thơng tin d i d ng v n b n bình th ng là phù h p v i yêu c u h th ng.

6.1.2.3. X lý d li u

Khi b t đ u ho t đ ng, h th ng t đ ng th c hi n đ c các file d li u, phân tích chu i trong file đ l y thơng tin và đ a vào b nh d i d ng “b ng b m” (hashtable). H th ng th nghi m đ c phát tri n nên ngơn ng C#, là m t ngơn ng khá m nh h tr nhi u c u trúc l u tr thơng tin trong đĩ cĩ h tr b ng b m. Nh v y mà vi c t ch c d li u tr nên đ n gi n h n r t nhi u. Ngồi ra, cách x lý nh v y s làm t ng t c đ tìm ki m thơng tin c a t nh các u đi m t ch c d li u c a b ng b m.

<?xml version="1.0" encoding="utf-8" ?> <keyword>

<topic name="th thao" value="1">

<topic name="bĩng đá" value="2" /> <topic name="qu n v t" value="3" /> </topic>

6.1.3. M t s màn hình c a h th ng Vikass

Hình 6. 3. Màn hình tách t và phân lo i

STT Mơ t

1 Ch n th m c ch a các t p tin c n tách t và phân lo i 2 Ch n th m c l u k t qu

3 Li t kê tên các t p tin đ c ch n tách t và phân lo i

4 Di chuy n các t p tin qua l i đ ch n các t p tin th c hi n tách t 5 Li t kê tên t t c các t p tin cĩ trong th m c (1)

6 Th c hi n tách t và phân lo i 7 D ng tách th c thi

8 Xem t p tin k t qu phân lo i 9 Tab tùy ch n các thơng s ch y GA

10 Tab tùy ch n các thơng s nh lo i MI s d ng, cĩ s d ng stopword hay khơng ?

11 Tab ch n các t khĩa s s d ng cho vi c phân lo i

Màn hình mơđun trích xu t t Google:

Hình 6. 4. Màn hình trích xu t t Google

STT Mơ t

1 Ch n th m c ch a các t p tin nh t p tin đ m, t p tin ch a đ liên quan c a t và t khĩa,…

2 Các tùy ch n nh ch tìm ki m các t cĩ t n s 0, ch tìm các trang .vn, tìm ki m đ liên quan c a t và t khĩa…

3 Các ph ng pháp t i v s d ng

4 Thanh bi u th ti n trình tìm ki m và trích t 5 Th c hi n tìm ki m và trích xu t

6 L u l i t p tin đ m và t p tin ch a đ liên quan 7 D ng vi c tìm ki m

8 Danh sách các t đã đ c tìm ki m

Màn hình phân lo i tin t c đi n t h tr tồ so n báo đi n t :

Hình 6. 5. Màn hình phân lo i tin t c đi n t

STT Mơ t

1 Thi t l p các tham s k t n i đ n SQL server 2 L y các tin t c đ c tồ so n báo đi n t t i v 3 Th c hi n phân lo i

4 C p nh t các tin t c đã đ c phân lo i vào SQL server 5 Th c hi n t t c các b c (2),(3),(4)

6 Hi n th các thơng tin nh : n i dung tin, tên c a ch đ đ c phân lo i,…

6.2. Th nghi m các cách trích xu t thơng tin

Vi c trích xu t thơng tin v t n s xu t hi n c a t , đ liên quan gi a t và ch

đ đ c th c hi n thơng qua module Google Extractor. Nh m m c đích t ng t c trích thơng tin t Google, chúng em đã th nghi m trích thơng tin b ng nhi u cách khác nhau và th c hi n k t n i đ n Google s d ng nhi u lu ng (>=15). Bên c nh

đĩ, đ tránh vi c ph i th c hi n tìm ki m nhi u l n, các t p tin đ m đ c s d ng v i m c đích l u l i hay c p nh t k t qu các l n tìm ki m tr c.

6.2.1. Các ph ng pháp th nghi m

Chúng em s d ng 3 cách khác nhau đ l y k t qu tìm ki m bao g m s d ng d ch v web do Google cung c p, t i trang k t qu v máy c c b sau đĩ s d ng XPath hay tìm ki m chu i.

6.2.1.1. Google web service

D ch v web là m t ng d ng cung c p giao di n l p trình, h tr s truy n thơng t ng d ng này đ n ng d ng khác qua m ng dùng XML. D ch v web c a Google t i đa ch http://api.google.com/GoogleSearch.wsdl là m t ph ng pháp ti n l i đ khai thác cơng c tìm ki m này. Tuy nhiên, ta ph i đ ng kí tài kho n tr c khi s d ng. V i m i tài kho n Google gi i h n s l ng truy v n là 1000 truy v n/ngày. Các tham s c n bi t khi s d ng d ch v :

Tham s tìm ki m q Câu truy v n n S k t qu tr v trên t ng trang lr Gi i h n ph m vi ngơn ng tìm ki m ie B ng mã câu truy v n s d ng oe B ng mã c a k t qu tr v B ng 6. 4. Tham s s d ng d ch v Google

Truy v n đ c bi t Câu truy v n Ý ngh a

Lo i b m t t bass –music “-” đ lo i b 1 t ra kh i k t qu tìm ki m

T khĩa OR vacation london OR paris

OR

Gi i h n site Admission

site:www.stanford.edu

site: ch tìm ki m trong site

đ c ch đnh Gi i h n ngày Star Wars

daterange:2452122- 2452234

daterange: ch tr v các file cĩ nhãn th i gian thõa đi u ki n L c file Google filetype:doc OR

filetype:pdf

filetype: ch tìm ki m các file cĩ ki u m r ng đ c li t kê Lo i tr file Google doc -filetype:

-filetype:pdf

-filetype: ng c l i v i

filetype:

Tìm theo tiêu đ intitle:Google search intitle: ch tìm ki m tiêu đ web

B ng 6. 5. M t s câu truy v n đ c bi t c a Google

Trong quá trình th nghi m s d ng d ch v web c a Google, chúng em nh n th y th i gian đáp ng khơng đ c nhanh (kho ng >5s cho m t truy v n-s d ng m ng Internet c a tr ng) h n n a cịn t n t i nhi u l i. Lý do cĩ th k đ n nh phiên b n d ch v đang trong quá trình th nghi m (b n β), h n ch do dung l ng m ng, chi phí ch ng th c. Gi i h n 1000truy v n/ngày c ng nh h ng đ n ch ng trình khi ph i th c hi n trích xu t trên l ng l n các t . kh c ph c v n đ này, chúng em s d ng bi n pháp t i trang k t qu v .

6.2.1.2. Xpath và tìm ki m chu i

Trang k t qu tr v s đ c chuy n sang đ nh d ng xHTML dùng cho vi c trích xu t dùng Xpath (http://www.w3.org/TR/XPath20) hay th c hi n tìm ki m trên chu i. C hai ph ng pháp này đ u cho hi u su t t t (kho ng 1-3s/truy v n).

Xpath là đnh d ng đ c W3C đ ngh đ c s d ng r ng rãi trong vi c truy v n t p tin XML. S d ng Xpath cĩ thu n l i h n tìm ki m chu i ch cĩ th s d ng trích xu t trên nhi u ngơn ng tr v t Google và n u c u trúc c a trang web thay

đ i thì ta v n l y đ c thơng tin tr v c a Google. Trong khi đĩ vi c tìm ki m chu i s ph thu c vào các câu đ c bi t (nh “các k t qu ”... ). Do đĩ, n u các trang tr v c a Google trình bày khác đi, cách tìm ki m chu i s khơng cho k t qu mong mu n. Tuy nhiên, s d ng cách tìm ki m chu i s cho k t qu nhanh h n dùng Xpath vì h th ng khơng ph i t n m t th i gian phân tích d li u thành d ng tài li u XML.

6.2.2. Nh n xét

Hi n t i, đi u chúng ta quan tâm hàng đ u là t c đ trích thơng tin t Google. M t khác, trang web Google cĩ c u trúc kh n đnh, h u nh khơng thay đ i. Vì v y khi th c hi n th nghi m, chúng em s d ng cách th c tìm ki m chu i đ đ t t i đ cao nh t. Tuy nhiên, chúng em v n xây d ng các l a ch n rút trích đ t o tính linh ho t trong th nghi m.

6.3. D li u th nghi m 6.3.1. Ngu n d li u

D li u th nghi m đ c l y t trang tin t c VnExpress.net (www.vnexpress.net) t i th i đi m tháng 6/2005. ây là m t trong nh ng trang tin t c đi n t đ u tiên t i Vi t Nam ra đ i vào ngày 26/2/2001, đ n nay đã h n b n n m ho t đ ng v i l ng đ c gi đơng đ o trong c n c và qu c t . Ngồi các trang m c do phĩng viên c a t báo vi t, VnExpress.net cịn m r ng đĩn nh n các bài vi t do đ c gi g i v t kh p n i đ làm phong phú thêm cho n i dung c a t báo và c p nh t tin t c th ng xuyên nhanh chĩng.

6.3.2. S l ng d li u th nghi m

T các m c c a VnExpress.net, đ u tiên chúng em ch n l c ra m t s m c chính đ l y d li u th nghi m.

Vì chúng em quy đnh t khĩa cho ch đ chính là tên ch đ đĩ nên trong quá trình th nghi m, chúng em phát hi n ra m t s tr ng h p nh p nh ng.

u tiên, t khĩa Th gi i, Xã h i cĩ ý ngh a bao quát cĩ th v Kinh t th gi i, chính tr th gi i, v n hĩa xã h i…, nên kh n ng các tin t c đ c phân lo i vào ch đ này là r t cao do t n s xu t hi n c a ch đ này v i các t ph bi n l n.

Th hai, m t s m c cĩ tên khơng đ ng nh t gi a các t báo đi n t nh trang VnExpress.net dùng Vi tính trong khi đĩ TuoiTre.com.vn l i dùng Nh p s ng s , Vnn.vn dùng Cơng ngh thơng tin và Vi n thơng.... Vi c này làm gi m k t qu khi s d ng t khĩa khĩa Vi tính cho ch đ này vì t khĩa này khơng bao quát đ c cho các trang s d ng tên ch đ khác m c dù cùng trình bày m t n i dung.

Do v y, chúng em ch s d ng m t s m c cĩ t khĩa rõ ràng. i v i m i tin t c, chúng em ch tách l y ph n tiêu đ , ph n tĩm l c và ph n chú thích nh. ây là các ph n cĩ ý ngh a phân lo i cao do đ c ng i vi t bài tĩm l c và ch n l c. ng m i ch đ , chúng em l y ng u nhiên 100 tin. Cịn cách gi i quy t ph n nh p nh ng trình bày trên s là h ng m r ng c a lu n v n. T ng d li u th nghi m là 1500 t p tin bao g m 15 ch đ c p 2, m i ch đ 100 t p tin.

Hình 6. 6. Cây ch đ 6.3.3. Nh n xét

M c dù d li u dùng th nghi m khá nh do h n ch v m t th i gian, nh ng cách th c ch n d li u và ch đ th nghi m phân lo i c a chúng em đã m r ng r t nhi u so v i 35 v n b n th nghi m c a [H. Nguyen et al, 2005] trên 5 ch đ

6.4. Th nghi m các cơng th c tính đ t ng h MI 6.4.1. Các ph ng pháp th nghi m

Nh m xác đ nh hi u qu c a các cách tính MI trong vi c tách t ti ng Vi t, chúng em th c hi n th nghi m 3 cơng th c MI đã đ c trình bày m c 4.5: m t cơng th c tính MI c a [H.Nguyen et al, 2005] (g i là MI1) , m t c a [Ong & Chen, 1999] (g i là MI2), m t do chúng em đ ngh (g i là MI3) . ng v i m i cơng th c tính MI trên, chúng em th nghi m thêm vi c tách stopword và khơng tách stopword tr c khi tách t . M c đích c a vi c tách stopword tr c khi tách t nh m t o ra nhi u ng nh h n khi đã b các t khơng cĩ ý ngh a, đ làm t ng t c đ tách t c a h th ng.

Nh v y, t ng c ng cĩ 6 th nghi m tách t nh sau:

Ü MI1 tách stop word (MI1_NonSW)

Ü MI1 khơng tách stop word (MI1_SW)

Ü MI2 tách stop word (MI2_NonSW)

Ü MI2 khơng tách stop word (MI2_NonSW)

Ü MI3 tách stop word (MI3_NonSW)

Một phần của tài liệu Nghiên cứu phương pháp thống kê Bayes và Xây dựng ứng dụng phân loại văn bản tiếng Việt (Trang 89)