Cơng c trích x ut thơng ti nt Google

Một phần của tài liệu Nghiên cứu phương pháp thống kê Bayes và Xây dựng ứng dụng phân loại văn bản tiếng Việt (Trang 64 - 66)

4.5.1.1. M c đích

Ngày nay, cùng v i s phát tri n nhanh chĩng c a các cơng ngh thơng tin hi n

đ i, Internet đã tr thành m t th vi n tuy t v i v i m t kh i l ng v n b n đ s . Do đĩ, vi c khai thác thơng tin t world-wide-web nh m t t p ng li u kh ng l cho các cơng trình nghiên c u s rút ng n đ c th i gian và cơng s c t xây d ng m t t p ng li u riêng. V i s giúp s c c a cơng c tìm ki m mi n phí trên m ng, nh ng thơng tin c n thi t s đ c l y v m t cách nhanh chĩng và chính xác. Chúng em ch n Google là cơng c tìm ki m chính b i vì nh ng u th v tính nhanh chĩng, chính xác, và ph bi n c a nĩ so v i các cơng c tìm ki m khác.

Trong lu n v n này, chúng em c n hai lo i thơng tin:

Ü T n s xu t hi n c a các v n b n ch a các t (document frequency) trên các trang web đ làm tính cơng th c MI, d đốn kh n ng t n t i c a m t t là

đúng hay khơng

Ü T n s các v n b n ch a t v i t khĩa đ i di n cho ch đ dùng đ tính m c đ liên quan c a t v i các ch đ c n phân lo i.

Do vây, nhi m v c a cơng c trích xu t thơng tin t Google s l y k t qu tìm ki m c a Google, tr v cho ch ng trình khi chúng ta đ a yêu c u tìm ki m.

4.5.1.2. Các cơng th c tính xác su t và đ t ng h

4.5.1.2.1. Các cơng th c tính xác su t

Khi nh n đ c k t qu tr v , d a vào n n t ng c a các cơng trình nghiên c u v th ng kê trên Internet c a Rudi & Paul (2005), chúng em s s d ng các cơng th c sau đây đ tính tốn ch s MI.

Các cơng th c tính xác su t các t xu t hi n trên Internet :

Ü G i count(w) là s l ng trang web ch a t w

count(w1 & w2) là s trang web ch a đ ng th i w1 và w2

Ü p(w)=count w( ) MAX Ü 1 2 1 2 ( & ) ( & ) count w w p w w MAX = Ü Trong đĩ, MAX = 4 * 109;

4.5.1.2.2. Các cơng th c tính đ t ng h (Mutual Information – MI)

i v i h ng ti p c n N-Gram đ tách t , cơng th c MI đ tính tốn kh n ng t n t i m t ng c n tách trong câu là r t quan tr ng. t ng h (Mutual Information) cho bi t thơng tin ph thu c l n nhau c a các t ghép đ c c u t o b i

n ti ng (cw = w1 w2 … wn) . i v i t m t ti ng, ta quy c MI = p(w). i v i t ghép t 2 ti ng tr lên, chúng em th nghi m 3 cách tính MI đ tìm ra các tính hi u qu nh t.

Ü MI theo cách tính c a IGATEC [H. Nguyen et al, 2005] ) (đã đ c trình bày m c 4.3.2.1.)

X 1 2

1 2 1

( & & ... & ) ( ) =

( ) - ( & & ... & )

n n j n j p w w w MI cw p w p w w w = ∑ (2)

Ü MI theo cách tính c a [Ong & Chen, 1999] (đã đ c trình bày m c 4.3.2.1.)

X Gi s ta cĩ

̇ cw = p( w1 & w2 ...& wn-1 )

̇ rw = p ( w2 & w3 ...&wn)

X 1 2

1 2

( & & ... & )

( ) =

( ) ( ) ( & & ... & )

n n p w w w MI cw p lw +p rwp w w w (3) Ü MI do chúng em đ ngh : X Gi s ta cĩ ̇ cw = p( w1 & w2 ...&wn-1 )

̇ V i n ch n : lw = p( w1 & w2 ...& wn/2 ), rw = p ( wn/2+1 & wn/2+2 ...&wn)

̇ V i n l : lw = p( w1 & w2 ...& wn-1 ) , rw = p ( w2 & w3 ...&wn)

X 1 2

1 2

( & & ... & )

( ) =

( ) ( ) ( & & ... & )

n

n

p w w w MI cw

p lw +p rwp w w w (4)

Chúng ta s s d ng các cơng th c trên đ tính đ thích nghi c a các cá th trong thu t tốn di truy n d i đây. K t qu c a m i cơng th c tính MI s u tiên cho nh ng lo i t ghép khác nhau mà ta s hi u rõ h n trong k t qu th c nghi m ch ng 6.

Một phần của tài liệu Nghiên cứu phương pháp thống kê Bayes và Xây dựng ứng dụng phân loại văn bản tiếng Việt (Trang 64 - 66)

Tải bản đầy đủ (PDF)

(132 trang)