Các ph ng pháp tính đ liên quan gia cá ct da trên th ng kê

Một phần của tài liệu Nghiên cứu phương pháp thống kê Bayes và Xây dựng ứng dụng phân loại văn bản tiếng Việt (Trang 56)

lu th a [Simkin & Roychowdhurry, 2003] [Bagrow et al, 2004] , hay ph ng pháp

đ c đánh giá t t h n là d a vào giá tr t ng t c c đ i (Maximum Likelihood) [James & Daniel, 2005]…. M c đích c a vi c s d ng giá tr t ng t c c đ i đ

tìm ra ch s g n gi ng nhau nh t gi a hai khái ni m. Tuy nhiên, theo k t lu n c a James & Daniel(2005), các ph ng pháp tính tốn d a trên hàm m cho k t qu ch a kh quan l m và cịn mang tính ch quan.

4.2.3. Nh n xét

Ü H ng th ng kê d a trên Internet h a h n nhi u k t qu kh quan vì khơng c n ph thu c vào t p d li u hu n luy n truy n th ng mà chúng ta cĩ th t n d ng kh n ng vơ t n c a Internet thơng qua cơng c tìm ki m.

Ü D a trên nh n xét c a Rudi & Paul (2005), t l xu t hi n c a t trên Internet là khá n đnh, đi u này cho phép ta th c hi n các tính tốn chính xác và n

đnh vì ít ph thu c vào s l ng trang web trên Internet t ng lên theo th i gian.

Ü Hi n nay, các cơng trình nghiên c u theo h ng ti p c n m i này ch y u

đ c th c hi n trên ti ng Anh, cịn đ i v i ti ng Vi t thì cĩ th nĩi IGATEC là cơng trình đ u tiên áp d ng ph ng pháp này nh ng đã đ t đ c k t qu r t đáng quan tâm. Chúng em hy v ng r ng r ng nh ng n l c nghiên c u và c i ti n ph ng pháp IGATEC s đ t đ c k t qu t t h n.

4.3. Các ph ng pháp tính đ liên quan gi a các t d a trên th ng kê th ng kê

Trong ngơn ng t nhiên, nh t là lo i ngơn ng ph thu c nhi u vào ng c nh nh ti ng Vi t, đ i v i con ng i, chúng ta cĩ th d dàng xác đnh đ c ranh gi i t trong câu. Tuy nhiên, do ch a cĩ m t quy đnh c th nào v ranh gi i t ti ng Vi t, nên cĩ th nhi u ng i Vi t cĩ nhi u cách tách t khác nhau. i v i ng i chúng ta v n ch a th ng nh t đ c, nên khi dùng máy tính đ x lý ngơn ng ta v n ch a cĩ m t chu n nào đ xác đnh đâu là ranh gi i t . Vì v y, đã cĩ r t nhi u cơng

trình nghiên c u cách tính tốn đ liên quan gi a các t đ kh c ph c các cơng vi c ph c t p do cách phân tích c u trúc ng pháp trong câu đem l i.

Trong ph n này, chúng em s trình bày hai n i dung chính:

Ü Hai th c đo chu n dùng đ tính tốn đ liên quan gi a hai t trong ti ng Anh là thơng tin t ng h (Mutual Information ) và t-score.

Ü M t s ng d ng và c i ti n c a hai cơng c đo trên trong vi c tách t ti ng Hoa và ti ng Vi t.

4.3.1. Thơng tin t ng h (Mutual Information) và t-score dùng trong ti ng Anh

Thơng tin t ng h (Mutual Information) và t-score là hai khái ni m r t quan tr ng trong h c thuy t v thơng tin (Information Theory) và th ng kê đ c trình bày trong [Church et al, 1991] cho m c đích tính tốn m c đ liên quan c a hai t trong ti ng Anh.

4.3.1.1. Thơng tin t ng h MI (Mutual Information) – th c đo đ c đi m t ng t (A Measure of Similarity)

Theo Church et al (1991), vi c th ng kê thơng tin t ng h (Mutual Information) dùng đ nh n bi t các tr ng h p ngơn ng thú v , bao g m t m i quan h ng ngh a (semantic relations) nh bác s /y tá (d ng content word/content word) cho đ n m i quan h t v ng-cú pháp (lexico-syntactic) nh s xu t hi n

đ ng th i gi a đ ng t và gi i t (d ng content word/ funtion word).

MI cĩ nhi m v so sánh xác su t xu t hi n đ ng th i (joint probability) c a t x

và t y so v i xác su t tìm th y xy xu t hi n đ c l p. Cơng th c tính MI cho hai t ti ng Anh trong [Church et al, 1991] nh sau:

2 ( , ) ( ; ) log ( ) ( ) P x y I x y P x P y

Trong đĩ:

Ü xy là hai t ti ng Anh c n ki m tra m c đ k t h p l n nhau.

Ü I(x;y) là thơng tin t ng h c a hai t .

Ü P(x), P(y) là xác su t xu t hi n đ c l p c a x và c a y.

Ü P(x,y) là xác su t xu t hi n đ ng th i xy.

Theo Church et al (1991), giá tr I(x,y) càng l n thì kh n ng k t h p c a xy

càng cao.

4.3.1.2. t-score – th c đo s khác bi t (A Measure of Dissimilarity)

Chúng ta d dàng nh n ra s gi ng nhau gi a strongpowerful, tuy nhiên làm cách nào đ phân bi t s khác nhau gi a chúng. Ví d , chúng ta đ u bi t r ng ng i ta th ng nĩi strong tea, powerful car h n là nĩi powerful teastrong car. Nh ng làm sao cho máy tính nh n ra đ c s khác bi t này?

Gi s , ta bi t r ng strong supportđ c dùng ph bi n h n là powerful support, Church et al (1991) đã đ a ra cơng th c tính t-score đ đo s khác bi t trên:

1 2 2 2 1 2 ( | ) - ( | ) ( ( | ) ( | )) P w w P w w t P w w w w σ σ = − + Trong đĩ:

Ü w1,w2 là hai t t ng t nhau c n ph i phân bi t ( ví d trên là strong

powerful) .

Ü w là t dùng đ phân bi t ( ví d trên là support).

Ü P(w|w1), P(w|w2) là xác su t c a t w xu t hi n đi kèm v i t w1, w2 Lúc đĩ: 2 2 2 2 ( ) - ( ) ( ( )) ( ( )) ( ) f ( ) - ( ) ( ) 2 175 13 2 175

P powerful support P strong support t

P powerful support P strong support f powerful support strong support

N N

f powerful support f strong support

N N σ σ = − + ≈ − + − ≈ − ≈ − +

Ta nĩi r ng powerful support cĩ đ l ch chu n (standard deviation) kém strong support 13 l n. Nh v y, ta cĩ th phân bi t đ c s khác nhau gi a powerful

strong trong vi c s d ng hai t này.

4.3.2. M t s c i ti n trong cách tính đ liên quan ng d ng trong tách t ti ng Hoa và ti ng Vi t t ti ng Hoa và ti ng Vi t

4.3.2.1. Thơng tin t ng h (Mutual Information)

Khi áp d ng thơng tin t ng h MI trong tách t ti ng Hoa, Su et al (1993) cho r ng thơng tin t ng h (Mutual Information) là th c đo m c đ k t h p c a m t t . Nĩ cĩ nhi m v so sánh xác su t m t nhĩm các ký t (t ng t nh “ti ng” trong ti ng Vi t – xem gi i thích m c 3.2.3.) xu t hi n đ ng th i (joint probability) so v i xác su t tìm th y t ng ký t xu t hi n đ c l p.

Theo Su et al (1993) cách tính MI cho t cĩ 2 ký t cĩ th áp d ng cơng th c c a Church et al (1991) v i ý ngh a c a xy lúc này khơng cịn là “t ” (word) nh trong ti ng Anh mà đ c hi u là ti ng (xem gi i thích m c 3.2.3.) trong ti ng Hoa. 2 ( , ) ( ; ) log ( ) ( ) P x y I x y P x P y ≡ (1a) Trong đĩ:

Ü xy là hai ti ng c n ki m tra m c đ k t h p l n nhau trong ti ng Hoa.

Ü I(x;y) là thơng tin t ng h c a hai ti ng.

Ü P(x), P(y) là xác su t xu t hi n đ c l p c a ti ng x và c a ti ng y.

Ü P(x,y) là xác su t xu t hi n đ ng th i ti ng x và ti ng y. Cách tính MI dành cho t ghép 3 ti ng nh sau [Su et al, 1991]:

2 ( , , ) ( ; ; ) log ( , , ) D I P x y z I x y z P x y z ≡ (1b) Trong đĩ: Ü PD(x,y,z) P(x,y,z) là xác su t xu t hi n đ ng th i c a x, y và x, (Dependently)

Ü PI(x,y,z) là xác su t xu t hi n đ c l p c a x,y, z (Independently) v i

PI(x,y,z) P(x)P(y)P(z) + P(x)P(y,z) + P(x,y)P(z).

Nhìn chung I(.) >>0 s cho bi t t ghép đĩ cĩ m c đ liên quan gi a các ti ng là r t ch t ch . Ng c l i, các ti ng cĩ xu h ng xu t hi n m t cách đ c l p.

M t cách tính MI khác c ng đ c Ong & Chen (1999) đ ngh nh sau:

1 2

1 2

( & & ... & )

( ) =

( ) ( ) ( & & ... & )

n n p w w w MI cw p lw +p rwp w w w (2) Trong đĩ Ü cw = p( w1 & w2 ...&wn-1 ) Ü lw = p( w1 & w2 ...& wn-1 ) Ü rw = p ( w2 & w3 ...&wn)

Theo nghiên c u c a chúng em, hi n nay cơng trình nghiên c u v cách tách t d a trên đ t ng h MI trên ti ng Vi t ch a nhi u. đây, chúng em xin gi i thi u cách tính MI đ c đ ngh trong IGATEC trong [H. Nguyen et al, 2005]

1 2 1 2 1

( & & ... & ) ( ) =

( ) - ( & & ... & )

n n j n j p w w w MI cw p w p w w w = ∑ (3)

Nhìn vào các cơng th c tính MI, ta cĩ th d đốn đ c m i cơng th c u tiên cho m t lo i t khác nhau. Ph n ti p theo sau đây s trình bày m t s nh n xét v các cơng th c trên đ làm c s đ a ra l a ch n phù h p nh t.

4.3.2.2. Cách tính t n s t ng đ i (Relative Frequency Count)

Cách tính t n s t ng đ i cho t ghép cĩ i ti ng đ c đnh ngh a nh sau [Su et al, 1993]: i i f r K =

Trong đĩ, fi là s l n xu t hi n c a t ghép cĩ i ti ng (ith n-gram) trong t p ng li u, và K là s l n xu t hi n trung bình c a m t t . Nĩi m t cách khác, fiđ c bình th ng hố b ng cách chia cho K đ l y t l liên quan. M t cách tr c quan, ta s

nh n ra, cách tính RFC s u tiên cho nh ng t xu t hi n v i t n s r t cao mà nĩ s b m t nh ng xu t hi n trong t đi n v i t n s th p. Vì v y, RFC đ c dùng nh m t thu c tính h tr thêm cho vi c tách t .

4.3.2.3. Nh n xét v cách s d ng MI và RFC

N u ta s d ng đ ng th i MI và RFC cho vi c tách t s đem l i k t qu nh mong đ i b i vì n u ch s d ng m t cơng c tính tốn, k t qu chúng ta đ t đ c cĩ th ch u tiên cho m t cách tách nào đĩ. N u ch s d ng RFC, h th ng c a chúng ta cĩ xu h ng ch n nh ng t xu t hi n nhi u l n nh ng l i cĩ đ liên quan MI th p. Ví d , n u P(x)P(y) r t l n, nĩ cĩ th t o ra P(x,y) c ng r t l n m c dù

xy khơng h liên quan gì c vì P(x,y)/ P(x) x P(y) r t nh .

M c khác, n u ch s d ng MI thơi, thì tr ng h p P(x) và P(y) quá nh s d n đ n k t qu khơng đáng tin c y. M t t n-gram cĩ th cĩ MI cao khơng b i vì chúng k t h p ch t ch v i nhau mà b i vì khi chia hai s cùng nh nh nhau, ta s cĩ s MI l n.

Tĩm l i, ta nên s d ng c hai thơng tin MI và RFC vì th c t , m t nhĩm các t v a cĩ RFC và MI cao s cĩ xu h ng v a k t h p ch t ch v i nhau, v a đ c s d ng r ng rãi.

4.3.3. Nh n xét v các cách tính đ liên quan khi áp d ng cho ti ng Vi t

Ü Ti ng Hoa là lo i ngơn ng đ n l p gi ng ti ng Vi t, nên ta cĩ th áp d ng m t s cơng tình nghiên c u trên ti ng Hoa lên ti ng Vi t.

Ü V m t lý thuy t, ta hồn tồn cĩ th s d ng các cơng th c MI trên đ áp d ng cho ti ng Vi t, và quan th c nghi m, chúng ta s đ xu t thêm m t s c i ti n đ cơng th c tính MI phù h p v i vi c tách ti ng Vi t h n n a.

Ü i v i cơng th c RFC, ta c n phân bi t khái ni m f trong cơng th c là t n s xu t hi n c a t trong t p ng li u, K là s l n xu t hi n trung bình c a m t t (real word) trong t p ng li u. Khi s d ng t p ng li u, các s fK

là hồn tồn tính đ c. Tuy nhiên, ph ng pháp IGATEC mà chúng em s d ng l i l y k t qu s l ng trang web p ch a t c n tìm nên chúng ta khơng th tính đ c s K ( vì khơng th d a vào s l ng trang web tr v

mà quy t đnh đĩ là t hay khơng). Do v y, hi n t i, chúng em v n ch a áp d ng cách tính RFC trên ti ng Vi t.

Ü B n ch t c a ph ng pháp tính t-score là tìm s khác nhau trong vi c s d ng t trong ti ng Anh, chúng em nh n th y ch a th t s c n thi t trong vi c tách t làm t ng tính ph c t p c a vi c tính tốn. Do đĩ, ch ng em ch a áp d ng t-score vào tách t .

4.4. Ti n x lý (Pre-processing)

B i vì các bài báo đi n t đ c trình bày d i d ng html, nên tr c khi th c hi n tách t đ phân lo i, chúng em ph i x lý v n b n đ l y ra nh ng n i dung quan tâm.

4.4.1. X lý v n b n đ u vào

N i dung tĩm t t c a bài báo là r t quan tr ng vì nĩ th hi n n i dung bài báo m t cách cơ đ ng, súc tích, rõ ràng, giúp ng i xem d đốn đ c đ tài c a bài báo mu n đ c p đ n. Chính vì lý do đĩ, chúng em quy t đnh th c hi n vi c phân lo i tin t c d a trên ph n tĩm t t c a bài báo đ ti t ki m th i gian x lý và đ t

đ c k t qu chính xác cao.

Trong m i v n b n, kh i ti n x lý s nh n di n tiêu đ , tĩm t t… c a bài báo b ng cách d a vào thơng tin đ nh dang c a các th trong trang html. Theo kh o sát c a chúng em v c u trúc hi n th n i dung trang báo đi n t các trang web tin t c Vi t Nam, tác gi luơn trình bày n i dung tĩm t t (abstract) c a bài báo tr c bài vi t chi ti t, nên h ng phân lo i d a trên tĩm t t c a bài báo là kh thi.

Hình 4. 1. N i dung thơng tin c n l y

Sau khi rút trích đ c n i dung c n thi t, chúng em ti p t c th c hi n tách ng , ph c v cho cơng vi c tách t .

4.4.2. Tách ng & tách stopwords

Tách ng : ng v i m i v n b n đã rút trích t trang web, chúng em ti n hành lo i b các ký hi u, các ch s khơng c n thi t, sau đĩ, phân tích v n b n thành các ng phân cách b i d u câu.

Tách stopword: Nh m làm t ng t c đ tính tốn c a GA và l t b t các t khơng cĩ ngh a phân lo i trong câu, chúng em cĩ th nghi m tách stopword tr c khi ti n hành tách t . B c tách stopword t ra khá hi u qu trong vi c làm t ng t c

đ GA nh chia nh các ng ra thành nh ng ng nh h n. Tuy nhiên, cách tách stopword khơng ph i lúc nào c ng cho k t qu nh mong đ i b i vì tách stopword tr c khi tách t s cĩ nhi u kh n ng làm sai l c ý ngh a c a câu, nh h ng đ n vi c phân lo i sau đĩ. Do đĩ, chúng em đã th nghi m vi c tách stopword sau khi

đã tách t , k t qu phân lo i sau khi đã lo i b stopword là kh quan h n cách th c hi n ban đ u. (Xin xem ch ng 6 đ bi t k t qu th c nghi m.)

4.5. H ng ti p c n tách t d a trên th ng kê t Internet và thu t tốn di truy n (Internet and Genetic Algorithm-based ) thu t tốn di truy n (Internet and Genetic Algorithm-based )

Chúng em xây d ng hai cơng c h tr cho vi c tách t g m: cơng c trích xu t thơng tin t Google và cơng c tách t dùng thu t tốn di truy n.

4.5.1. Cơng c trích xu t thơng tin t Google

4.5.1.1. M c đích

Ngày nay, cùng v i s phát tri n nhanh chĩng c a các cơng ngh thơng tin hi n

đ i, Internet đã tr thành m t th vi n tuy t v i v i m t kh i l ng v n b n đ s . Do đĩ, vi c khai thác thơng tin t world-wide-web nh m t t p ng li u kh ng l cho các cơng trình nghiên c u s rút ng n đ c th i gian và cơng s c t xây d ng m t t p ng li u riêng. V i s giúp s c c a cơng c tìm ki m mi n phí trên m ng, nh ng thơng tin c n thi t s đ c l y v m t cách nhanh chĩng và chính xác. Chúng em ch n Google là cơng c tìm ki m chính b i vì nh ng u th v tính nhanh chĩng, chính xác, và ph bi n c a nĩ so v i các cơng c tìm ki m khác.

Trong lu n v n này, chúng em c n hai lo i thơng tin:

Ü T n s xu t hi n c a các v n b n ch a các t (document frequency) trên các trang web đ làm tính cơng th c MI, d đốn kh n ng t n t i c a m t t là

đúng hay khơng

Ü T n s các v n b n ch a t v i t khĩa đ i di n cho ch đ dùng đ tính

Một phần của tài liệu Nghiên cứu phương pháp thống kê Bayes và Xây dựng ứng dụng phân loại văn bản tiếng Việt (Trang 56)

Tải bản đầy đủ (PDF)

(132 trang)