4.5.1.1. M c đích
Ngày nay, cùng v i s phát tri n nhanh chĩng c a các cơng ngh thơng tin hi n
đ i, Internet đã tr thành m t th vi n tuy t v i v i m t kh i l ng v n b n đ s . Do đĩ, vi c khai thác thơng tin t world-wide-web nh m t t p ng li u kh ng l cho các cơng trình nghiên c u s rút ng n đ c th i gian và cơng s c t xây d ng m t t p ng li u riêng. V i s giúp s c c a cơng c tìm ki m mi n phí trên m ng, nh ng thơng tin c n thi t s đ c l y v m t cách nhanh chĩng và chính xác. Chúng em ch n Google là cơng c tìm ki m chính b i vì nh ng u th v tính nhanh chĩng, chính xác, và ph bi n c a nĩ so v i các cơng c tìm ki m khác.
Trong lu n v n này, chúng em c n hai lo i thơng tin:
Ü T n s xu t hi n c a các v n b n ch a các t (document frequency) trên các trang web đ làm tính cơng th c MI, d đốn kh n ng t n t i c a m t t là
đúng hay khơng
Ü T n s các v n b n ch a t v i t khĩa đ i di n cho ch đ dùng đ tính m c đ liên quan c a t v i các ch đ c n phân lo i.
Do vây, nhi m v c a cơng c trích xu t thơng tin t Google s l y k t qu tìm ki m c a Google, tr v cho ch ng trình khi chúng ta đ a yêu c u tìm ki m.
4.5.1.2. Các cơng th c tính xác su t và đ t ng h
4.5.1.2.1. Các cơng th c tính xác su t
Khi nh n đ c k t qu tr v , d a vào n n t ng c a các cơng trình nghiên c u v th ng kê trên Internet c a Rudi & Paul (2005), chúng em s s d ng các cơng th c sau đây đ tính tốn ch s MI.
Các cơng th c tính xác su t các t xu t hi n trên Internet :
Ü G i count(w) là s l ng trang web ch a t w
count(w1 & w2) là s trang web ch a đ ng th i w1 và w2
Ü p(w)=count w( ) MAX Ü 1 2 1 2 ( & ) ( & ) count w w p w w MAX = Ü Trong đĩ, MAX = 4 * 109;
4.5.1.2.2. Các cơng th c tính đ t ng h (Mutual Information – MI)
i v i h ng ti p c n N-Gram đ tách t , cơng th c MI đ tính tốn kh n ng t n t i m t ng c n tách trong câu là r t quan tr ng. t ng h (Mutual Information) cho bi t thơng tin ph thu c l n nhau c a các t ghép đ c c u t o b i
n ti ng (cw = w1 w2 … wn) . i v i t m t ti ng, ta quy c MI = p(w). i v i t ghép t 2 ti ng tr lên, chúng em th nghi m 3 cách tính MI đ tìm ra các tính hi u qu nh t.
Ü MI theo cách tính c a IGATEC [H. Nguyen et al, 2005] ) (đã đ c trình bày m c 4.3.2.1.)
X 1 2
1 2 1
( & & ... & ) ( ) =
( ) - ( & & ... & )
n n j n j p w w w MI cw p w p w w w = ∑ (2)
Ü MI theo cách tính c a [Ong & Chen, 1999] (đã đ c trình bày m c 4.3.2.1.)
X Gi s ta cĩ
̇ cw = p( w1 & w2 ...& wn-1 )
̇ rw = p ( w2 & w3 ...&wn)
X 1 2
1 2
( & & ... & )
( ) =
( ) ( ) ( & & ... & )
n n p w w w MI cw p lw +p rw −p w w w (3) Ü MI do chúng em đ ngh : X Gi s ta cĩ ̇ cw = p( w1 & w2 ...&wn-1 )
̇ V i n ch n : lw = p( w1 & w2 ...& wn/2 ), rw = p ( wn/2+1 & wn/2+2 ...&wn)
̇ V i n l : lw = p( w1 & w2 ...& wn-1 ) , rw = p ( w2 & w3 ...&wn)
X 1 2
1 2
( & & ... & )
( ) =
( ) ( ) ( & & ... & )
n
n
p w w w MI cw
p lw +p rw −p w w w (4)
Chúng ta s s d ng các cơng th c trên đ tính đ thích nghi c a các cá th trong thu t tốn di truy n d i đây. K t qu c a m i cơng th c tính MI s u tiên cho nh ng lo i t ghép khác nhau mà ta s hi u rõ h n trong k t qu th c nghi m ch ng 6.