lu th a [Simkin & Roychowdhurry, 2003] [Bagrow et al, 2004] , hay ph ng pháp
đ c đánh giá t t h n là d a vào giá tr t ng t c c đ i (Maximum Likelihood) [James & Daniel, 2005]…. M c đích c a vi c s d ng giá tr t ng t c c đ i đ
tìm ra ch s g n gi ng nhau nh t gi a hai khái ni m. Tuy nhiên, theo k t lu n c a James & Daniel(2005), các ph ng pháp tính tốn d a trên hàm m cho k t qu ch a kh quan l m và cịn mang tính ch quan.
4.2.3. Nh n xét
Ü H ng th ng kê d a trên Internet h a h n nhi u k t qu kh quan vì khơng c n ph thu c vào t p d li u hu n luy n truy n th ng mà chúng ta cĩ th t n d ng kh n ng vơ t n c a Internet thơng qua cơng c tìm ki m.
Ü D a trên nh n xét c a Rudi & Paul (2005), t l xu t hi n c a t trên Internet là khá n đnh, đi u này cho phép ta th c hi n các tính tốn chính xác và n
đnh vì ít ph thu c vào s l ng trang web trên Internet t ng lên theo th i gian.
Ü Hi n nay, các cơng trình nghiên c u theo h ng ti p c n m i này ch y u
đ c th c hi n trên ti ng Anh, cịn đ i v i ti ng Vi t thì cĩ th nĩi IGATEC là cơng trình đ u tiên áp d ng ph ng pháp này nh ng đã đ t đ c k t qu r t đáng quan tâm. Chúng em hy v ng r ng r ng nh ng n l c nghiên c u và c i ti n ph ng pháp IGATEC s đ t đ c k t qu t t h n.
4.3. Các ph ng pháp tính đ liên quan gi a các t d a trên th ng kê th ng kê
Trong ngơn ng t nhiên, nh t là lo i ngơn ng ph thu c nhi u vào ng c nh nh ti ng Vi t, đ i v i con ng i, chúng ta cĩ th d dàng xác đnh đ c ranh gi i t trong câu. Tuy nhiên, do ch a cĩ m t quy đnh c th nào v ranh gi i t ti ng Vi t, nên cĩ th nhi u ng i Vi t cĩ nhi u cách tách t khác nhau. i v i ng i chúng ta v n ch a th ng nh t đ c, nên khi dùng máy tính đ x lý ngơn ng ta v n ch a cĩ m t chu n nào đ xác đnh đâu là ranh gi i t . Vì v y, đã cĩ r t nhi u cơng
trình nghiên c u cách tính tốn đ liên quan gi a các t đ kh c ph c các cơng vi c ph c t p do cách phân tích c u trúc ng pháp trong câu đem l i.
Trong ph n này, chúng em s trình bày hai n i dung chính:
Ü Hai th c đo chu n dùng đ tính tốn đ liên quan gi a hai t trong ti ng Anh là thơng tin t ng h (Mutual Information ) và t-score.
Ü M t s ng d ng và c i ti n c a hai cơng c đo trên trong vi c tách t ti ng Hoa và ti ng Vi t.
4.3.1. Thơng tin t ng h (Mutual Information) và t-score dùng trong ti ng Anh
Thơng tin t ng h (Mutual Information) và t-score là hai khái ni m r t quan tr ng trong h c thuy t v thơng tin (Information Theory) và th ng kê đ c trình bày trong [Church et al, 1991] cho m c đích tính tốn m c đ liên quan c a hai t trong ti ng Anh.
4.3.1.1. Thơng tin t ng h MI (Mutual Information) – th c đo đ c đi m t ng t (A Measure of Similarity)
Theo Church et al (1991), vi c th ng kê thơng tin t ng h (Mutual Information) dùng đ nh n bi t các tr ng h p ngơn ng thú v , bao g m t m i quan h ng ngh a (semantic relations) nh bác s /y tá (d ng content word/content word) cho đ n m i quan h t v ng-cú pháp (lexico-syntactic) nh s xu t hi n
đ ng th i gi a đ ng t và gi i t (d ng content word/ funtion word).
MI cĩ nhi m v so sánh xác su t xu t hi n đ ng th i (joint probability) c a t x
và t y so v i xác su t tìm th y x và y xu t hi n đ c l p. Cơng th c tính MI cho hai t ti ng Anh trong [Church et al, 1991] nh sau:
2 ( , ) ( ; ) log ( ) ( ) P x y I x y P x P y ≡
Trong đĩ:
Ü x và y là hai t ti ng Anh c n ki m tra m c đ k t h p l n nhau.
Ü I(x;y) là thơng tin t ng h c a hai t .
Ü P(x), P(y) là xác su t xu t hi n đ c l p c a x và c a y.
Ü P(x,y) là xác su t xu t hi n đ ng th i x và y.
Theo Church et al (1991), giá tr I(x,y) càng l n thì kh n ng k t h p c a x và y
càng cao.
4.3.1.2. t-score – th c đo s khác bi t (A Measure of Dissimilarity)
Chúng ta d dàng nh n ra s gi ng nhau gi a strong và powerful, tuy nhiên làm cách nào đ phân bi t s khác nhau gi a chúng. Ví d , chúng ta đ u bi t r ng ng i ta th ng nĩi strong tea, powerful car h n là nĩi powerful tea và strong car. Nh ng làm sao cho máy tính nh n ra đ c s khác bi t này?
Gi s , ta bi t r ng strong supportđ c dùng ph bi n h n là powerful support, Church et al (1991) đã đ a ra cơng th c tính t-score đ đo s khác bi t trên:
1 2 2 2 1 2 ( | ) - ( | ) ( ( | ) ( | )) P w w P w w t P w w w w σ σ = − + Trong đĩ:
Ü w1,w2 là hai t t ng t nhau c n ph i phân bi t ( ví d trên là strong và
powerful) .
Ü w là t dùng đ phân bi t ( ví d trên là support).
Ü P(w|w1), P(w|w2) là xác su t c a t w xu t hi n đi kèm v i t w1, w2 Lúc đĩ: 2 2 2 2 ( ) - ( ) ( ( )) ( ( )) ( ) f ( ) - ( ) ( ) 2 175 13 2 175
P powerful support P strong support t
P powerful support P strong support f powerful support strong support
N N
f powerful support f strong support
N N σ σ = − + ≈ − + − ≈ − ≈ − +
Ta nĩi r ng powerful support cĩ đ l ch chu n (standard deviation) kém strong support 13 l n. Nh v y, ta cĩ th phân bi t đ c s khác nhau gi a powerful và
strong trong vi c s d ng hai t này.
4.3.2. M t s c i ti n trong cách tính đ liên quan ng d ng trong tách t ti ng Hoa và ti ng Vi t t ti ng Hoa và ti ng Vi t
4.3.2.1. Thơng tin t ng h (Mutual Information)
Khi áp d ng thơng tin t ng h MI trong tách t ti ng Hoa, Su et al (1993) cho r ng thơng tin t ng h (Mutual Information) là th c đo m c đ k t h p c a m t t . Nĩ cĩ nhi m v so sánh xác su t m t nhĩm các ký t (t ng t nh “ti ng” trong ti ng Vi t – xem gi i thích m c 3.2.3.) xu t hi n đ ng th i (joint probability) so v i xác su t tìm th y t ng ký t xu t hi n đ c l p.
Theo Su et al (1993) cách tính MI cho t cĩ 2 ký t cĩ th áp d ng cơng th c c a Church et al (1991) v i ý ngh a c a x và y lúc này khơng cịn là “t ” (word) nh trong ti ng Anh mà đ c hi u là ti ng (xem gi i thích m c 3.2.3.) trong ti ng Hoa. 2 ( , ) ( ; ) log ( ) ( ) P x y I x y P x P y ≡ (1a) Trong đĩ:
Ü x và y là hai ti ng c n ki m tra m c đ k t h p l n nhau trong ti ng Hoa.
Ü I(x;y) là thơng tin t ng h c a hai ti ng.
Ü P(x), P(y) là xác su t xu t hi n đ c l p c a ti ng x và c a ti ng y.
Ü P(x,y) là xác su t xu t hi n đ ng th i ti ng x và ti ng y. Cách tính MI dành cho t ghép 3 ti ng nh sau [Su et al, 1991]:
2 ( , , ) ( ; ; ) log ( , , ) D I P x y z I x y z P x y z ≡ (1b) Trong đĩ: Ü PD(x,y,z) ≡ P(x,y,z) là xác su t xu t hi n đ ng th i c a x, y và x, (Dependently)
Ü PI(x,y,z) là xác su t xu t hi n đ c l p c a x,y, z (Independently) v i
PI(x,y,z) ≡ P(x)P(y)P(z) + P(x)P(y,z) + P(x,y)P(z).
Nhìn chung I(.) >>0 s cho bi t t ghép đĩ cĩ m c đ liên quan gi a các ti ng là r t ch t ch . Ng c l i, các ti ng cĩ xu h ng xu t hi n m t cách đ c l p.
M t cách tính MI khác c ng đ c Ong & Chen (1999) đ ngh nh sau:
1 2
1 2
( & & ... & )
( ) =
( ) ( ) ( & & ... & )
n n p w w w MI cw p lw +p rw −p w w w (2) Trong đĩ Ü cw = p( w1 & w2 ...&wn-1 ) Ü lw = p( w1 & w2 ...& wn-1 ) Ü rw = p ( w2 & w3 ...&wn)
Theo nghiên c u c a chúng em, hi n nay cơng trình nghiên c u v cách tách t d a trên đ t ng h MI trên ti ng Vi t ch a nhi u. đây, chúng em xin gi i thi u cách tính MI đ c đ ngh trong IGATEC trong [H. Nguyen et al, 2005]
1 2 1 2 1
( & & ... & ) ( ) =
( ) - ( & & ... & )
n n j n j p w w w MI cw p w p w w w = ∑ (3)
Nhìn vào các cơng th c tính MI, ta cĩ th d đốn đ c m i cơng th c u tiên cho m t lo i t khác nhau. Ph n ti p theo sau đây s trình bày m t s nh n xét v các cơng th c trên đ làm c s đ a ra l a ch n phù h p nh t.
4.3.2.2. Cách tính t n s t ng đ i (Relative Frequency Count)
Cách tính t n s t ng đ i cho t ghép cĩ i ti ng đ c đnh ngh a nh sau [Su et al, 1993]: i i f r K =
Trong đĩ, fi là s l n xu t hi n c a t ghép cĩ i ti ng (ith n-gram) trong t p ng li u, và K là s l n xu t hi n trung bình c a m t t . Nĩi m t cách khác, fiđ c bình th ng hố b ng cách chia cho K đ l y t l liên quan. M t cách tr c quan, ta s
nh n ra, cách tính RFC s u tiên cho nh ng t xu t hi n v i t n s r t cao mà nĩ s b m t nh ng xu t hi n trong t đi n v i t n s th p. Vì v y, RFC đ c dùng nh m t thu c tính h tr thêm cho vi c tách t .
4.3.2.3. Nh n xét v cách s d ng MI và RFC
N u ta s d ng đ ng th i MI và RFC cho vi c tách t s đem l i k t qu nh mong đ i b i vì n u ch s d ng m t cơng c tính tốn, k t qu chúng ta đ t đ c cĩ th ch u tiên cho m t cách tách nào đĩ. N u ch s d ng RFC, h th ng c a chúng ta cĩ xu h ng ch n nh ng t xu t hi n nhi u l n nh ng l i cĩ đ liên quan MI th p. Ví d , n u P(x) và P(y) r t l n, nĩ cĩ th t o ra P(x,y) c ng r t l n m c dù
x và y khơng h liên quan gì c vì P(x,y)/ P(x) x P(y) r t nh .
M c khác, n u ch s d ng MI thơi, thì tr ng h p P(x) và P(y) quá nh s d n đ n k t qu khơng đáng tin c y. M t t n-gram cĩ th cĩ MI cao khơng b i vì chúng k t h p ch t ch v i nhau mà b i vì khi chia hai s cùng nh nh nhau, ta s cĩ s MI l n.
Tĩm l i, ta nên s d ng c hai thơng tin MI và RFC vì th c t , m t nhĩm các t v a cĩ RFC và MI cao s cĩ xu h ng v a k t h p ch t ch v i nhau, v a đ c s d ng r ng rãi.
4.3.3. Nh n xét v các cách tính đ liên quan khi áp d ng cho ti ng Vi t
Ü Ti ng Hoa là lo i ngơn ng đ n l p gi ng ti ng Vi t, nên ta cĩ th áp d ng m t s cơng tình nghiên c u trên ti ng Hoa lên ti ng Vi t.
Ü V m t lý thuy t, ta hồn tồn cĩ th s d ng các cơng th c MI trên đ áp d ng cho ti ng Vi t, và quan th c nghi m, chúng ta s đ xu t thêm m t s c i ti n đ cơng th c tính MI phù h p v i vi c tách ti ng Vi t h n n a.
Ü i v i cơng th c RFC, ta c n phân bi t khái ni m f trong cơng th c là t n s xu t hi n c a t trong t p ng li u, K là s l n xu t hi n trung bình c a m t t (real word) trong t p ng li u. Khi s d ng t p ng li u, các s f và K
là hồn tồn tính đ c. Tuy nhiên, ph ng pháp IGATEC mà chúng em s d ng l i l y k t qu s l ng trang web p ch a t c n tìm nên chúng ta khơng th tính đ c s K ( vì khơng th d a vào s l ng trang web tr v
mà quy t đnh đĩ là t hay khơng). Do v y, hi n t i, chúng em v n ch a áp d ng cách tính RFC trên ti ng Vi t.
Ü B n ch t c a ph ng pháp tính t-score là tìm s khác nhau trong vi c s d ng t trong ti ng Anh, chúng em nh n th y ch a th t s c n thi t trong vi c tách t làm t ng tính ph c t p c a vi c tính tốn. Do đĩ, ch ng em ch a áp d ng t-score vào tách t .
4.4. Ti n x lý (Pre-processing)
B i vì các bài báo đi n t đ c trình bày d i d ng html, nên tr c khi th c hi n tách t đ phân lo i, chúng em ph i x lý v n b n đ l y ra nh ng n i dung quan tâm.
4.4.1. X lý v n b n đ u vào
N i dung tĩm t t c a bài báo là r t quan tr ng vì nĩ th hi n n i dung bài báo m t cách cơ đ ng, súc tích, rõ ràng, giúp ng i xem d đốn đ c đ tài c a bài báo mu n đ c p đ n. Chính vì lý do đĩ, chúng em quy t đnh th c hi n vi c phân lo i tin t c d a trên ph n tĩm t t c a bài báo đ ti t ki m th i gian x lý và đ t
đ c k t qu chính xác cao.
Trong m i v n b n, kh i ti n x lý s nh n di n tiêu đ , tĩm t t… c a bài báo b ng cách d a vào thơng tin đ nh dang c a các th trong trang html. Theo kh o sát c a chúng em v c u trúc hi n th n i dung trang báo đi n t các trang web tin t c Vi t Nam, tác gi luơn trình bày n i dung tĩm t t (abstract) c a bài báo tr c bài vi t chi ti t, nên h ng phân lo i d a trên tĩm t t c a bài báo là kh thi.
Hình 4. 1. N i dung thơng tin c n l y
Sau khi rút trích đ c n i dung c n thi t, chúng em ti p t c th c hi n tách ng , ph c v cho cơng vi c tách t .
4.4.2. Tách ng & tách stopwords
Tách ng : ng v i m i v n b n đã rút trích t trang web, chúng em ti n hành lo i b các ký hi u, các ch s khơng c n thi t, sau đĩ, phân tích v n b n thành các ng phân cách b i d u câu.
Tách stopword: Nh m làm t ng t c đ tính tốn c a GA và l t b t các t khơng cĩ ngh a phân lo i trong câu, chúng em cĩ th nghi m tách stopword tr c khi ti n hành tách t . B c tách stopword t ra khá hi u qu trong vi c làm t ng t c
đ GA nh chia nh các ng ra thành nh ng ng nh h n. Tuy nhiên, cách tách stopword khơng ph i lúc nào c ng cho k t qu nh mong đ i b i vì tách stopword tr c khi tách t s cĩ nhi u kh n ng làm sai l c ý ngh a c a câu, nh h ng đ n vi c phân lo i sau đĩ. Do đĩ, chúng em đã th nghi m vi c tách stopword sau khi
đã tách t , k t qu phân lo i sau khi đã lo i b stopword là kh quan h n cách th c hi n ban đ u. (Xin xem ch ng 6 đ bi t k t qu th c nghi m.)
4.5. H ng ti p c n tách t d a trên th ng kê t Internet và thu t tốn di truy n (Internet and Genetic Algorithm-based ) thu t tốn di truy n (Internet and Genetic Algorithm-based )
Chúng em xây d ng hai cơng c h tr cho vi c tách t g m: cơng c trích xu t thơng tin t Google và cơng c tách t dùng thu t tốn di truy n.
4.5.1. Cơng c trích xu t thơng tin t Google
4.5.1.1. M c đích
Ngày nay, cùng v i s phát tri n nhanh chĩng c a các cơng ngh thơng tin hi n
đ i, Internet đã tr thành m t th vi n tuy t v i v i m t kh i l ng v n b n đ s . Do đĩ, vi c khai thác thơng tin t world-wide-web nh m t t p ng li u kh ng l cho các cơng trình nghiên c u s rút ng n đ c th i gian và cơng s c t xây d ng m t t p ng li u riêng. V i s giúp s c c a cơng c tìm ki m mi n phí trên m ng, nh ng thơng tin c n thi t s đ c l y v m t cách nhanh chĩng và chính xác. Chúng em ch n Google là cơng c tìm ki m chính b i vì nh ng u th v tính nhanh chĩng, chính xác, và ph bi n c a nĩ so v i các cơng c tìm ki m khác.
Trong lu n v n này, chúng em c n hai lo i thơng tin:
Ü T n s xu t hi n c a các v n b n ch a các t (document frequency) trên các trang web đ làm tính cơng th c MI, d đốn kh n ng t n t i c a m t t là
đúng hay khơng
Ü T n s các v n b n ch a t v i t khĩa đ i di n cho ch đ dùng đ tính