.M ts ci tin trong cách tính đ liên quan ng d ng trong tách tting

Một phần của tài liệu Nghiên cứu phương pháp thống kê Bayes và Xây dựng ứng dụng phân loại văn bản tiếng Việt (Trang 59 - 61)

4.3.2.1. Thơng tin t ng h (Mutual Information)

Khi áp d ng thơng tin t ng h MI trong tách t ti ng Hoa, Su et al (1993) cho r ng thơng tin t ng h (Mutual Information) là th c đo m c đ k t h p c a m t t . Nĩ cĩ nhi m v so sánh xác su t m t nhĩm các ký t (t ng t nh “ti ng” trong ti ng Vi t – xem gi i thích m c 3.2.3.) xu t hi n đ ng th i (joint probability) so v i xác su t tìm th y t ng ký t xu t hi n đ c l p.

Theo Su et al (1993) cách tính MI cho t cĩ 2 ký t cĩ th áp d ng cơng th c c a Church et al (1991) v i ý ngh a c a xy lúc này khơng cịn là “t ” (word) nh trong ti ng Anh mà đ c hi u là ti ng (xem gi i thích m c 3.2.3.) trong ti ng Hoa. 2 ( , ) ( ; ) log ( ) ( ) P x y I x y P x P y ≡ (1a) Trong đĩ:

Ü xy là hai ti ng c n ki m tra m c đ k t h p l n nhau trong ti ng Hoa.

Ü I(x;y) là thơng tin t ng h c a hai ti ng.

Ü P(x), P(y) là xác su t xu t hi n đ c l p c a ti ng x và c a ti ng y.

Ü P(x,y) là xác su t xu t hi n đ ng th i ti ng x và ti ng y. Cách tính MI dành cho t ghép 3 ti ng nh sau [Su et al, 1991]:

2 ( , , ) ( ; ; ) log ( , , ) D I P x y z I x y z P x y z ≡ (1b) Trong đĩ: Ü PD(x,y,z) P(x,y,z) là xác su t xu t hi n đ ng th i c a x, y và x, (Dependently)

Ü PI(x,y,z) là xác su t xu t hi n đ c l p c a x,y, z (Independently) v i

PI(x,y,z) P(x)P(y)P(z) + P(x)P(y,z) + P(x,y)P(z).

Nhìn chung I(.) >>0 s cho bi t t ghép đĩ cĩ m c đ liên quan gi a các ti ng là r t ch t ch . Ng c l i, các ti ng cĩ xu h ng xu t hi n m t cách đ c l p.

M t cách tính MI khác c ng đ c Ong & Chen (1999) đ ngh nh sau:

1 2

1 2

( & & ... & )

( ) =

( ) ( ) ( & & ... & )

n n p w w w MI cw p lw +p rwp w w w (2) Trong đĩ Ü cw = p( w1 & w2 ...&wn-1 ) Ü lw = p( w1 & w2 ...& wn-1 ) Ü rw = p ( w2 & w3 ...&wn)

Theo nghiên c u c a chúng em, hi n nay cơng trình nghiên c u v cách tách t d a trên đ t ng h MI trên ti ng Vi t ch a nhi u. đây, chúng em xin gi i thi u cách tính MI đ c đ ngh trong IGATEC trong [H. Nguyen et al, 2005]

1 2 1 2 1

( & & ... & ) ( ) =

( ) - ( & & ... & )

n n j n j p w w w MI cw p w p w w w = ∑ (3)

Nhìn vào các cơng th c tính MI, ta cĩ th d đốn đ c m i cơng th c u tiên cho m t lo i t khác nhau. Ph n ti p theo sau đây s trình bày m t s nh n xét v các cơng th c trên đ làm c s đ a ra l a ch n phù h p nh t.

4.3.2.2. Cách tính t n s t ng đ i (Relative Frequency Count)

Cách tính t n s t ng đ i cho t ghép cĩ i ti ng đ c đnh ngh a nh sau [Su et al, 1993]: i i f r K =

Trong đĩ, fi là s l n xu t hi n c a t ghép cĩ i ti ng (ith n-gram) trong t p ng li u, và K là s l n xu t hi n trung bình c a m t t . Nĩi m t cách khác, fiđ c bình th ng hố b ng cách chia cho K đ l y t l liên quan. M t cách tr c quan, ta s

nh n ra, cách tính RFC s u tiên cho nh ng t xu t hi n v i t n s r t cao mà nĩ s b m t nh ng xu t hi n trong t đi n v i t n s th p. Vì v y, RFC đ c dùng nh m t thu c tính h tr thêm cho vi c tách t .

4.3.2.3. Nh n xét v cách s d ng MI và RFC

N u ta s d ng đ ng th i MI và RFC cho vi c tách t s đem l i k t qu nh mong đ i b i vì n u ch s d ng m t cơng c tính tốn, k t qu chúng ta đ t đ c cĩ th ch u tiên cho m t cách tách nào đĩ. N u ch s d ng RFC, h th ng c a chúng ta cĩ xu h ng ch n nh ng t xu t hi n nhi u l n nh ng l i cĩ đ liên quan MI th p. Ví d , n u P(x)P(y) r t l n, nĩ cĩ th t o ra P(x,y) c ng r t l n m c dù

xy khơng h liên quan gì c vì P(x,y)/ P(x) x P(y) r t nh .

M c khác, n u ch s d ng MI thơi, thì tr ng h p P(x) và P(y) quá nh s d n đ n k t qu khơng đáng tin c y. M t t n-gram cĩ th cĩ MI cao khơng b i vì chúng k t h p ch t ch v i nhau mà b i vì khi chia hai s cùng nh nh nhau, ta s cĩ s MI l n.

Tĩm l i, ta nên s d ng c hai thơng tin MI và RFC vì th c t , m t nhĩm các t v a cĩ RFC và MI cao s cĩ xu h ng v a k t h p ch t ch v i nhau, v a đ c s d ng r ng rãi.

Một phần của tài liệu Nghiên cứu phương pháp thống kê Bayes và Xây dựng ứng dụng phân loại văn bản tiếng Việt (Trang 59 - 61)

Tải bản đầy đủ (PDF)

(132 trang)