Các nghiên cu v th ng kê da trên Internet

Một phần của tài liệu Nghiên cứu phương pháp thống kê Bayes và Xây dựng ứng dụng phân loại văn bản tiếng Việt (Trang 53)

V i s phát tri n nhanh chĩng c a Internet, world-wide-web đã tr thành ngu n d li u l n nh t trên th gi i, và là ngu n thơng tin ng ngh a ti m tàng đ c hàng tri u ng i dùng trên th gi i t o ra. i v i con ng i, vi c xem xét m c đ liên quan gi a hai t là r t d dàng b i vì con ng i cĩ th d a vào ki n th c thơng

th ng c a mình đ suy ra ng c nh thích h p, ví d gi a t “cái nĩn” và “màu

đ ”, con ng i d dàng nh n ra s liên quan là “cái nĩn cĩ màu đ ”. Tuy nhiên, máy tính c a chúng ta khơng cĩ kh n ng nh con ng i, vì v y, chúng ta ph i tìm ra m t cách bi u di n ng ngh a mà máy tính cĩ th “tiêu hố” đ c. Cĩ ý ki n cho r ng ta cĩ th t o m t m ng ng ngh a đ s nh m t h th ng trí tu ban đ u, sau

đĩ các ki n th c v cu c s ng th c s t đ ng xu t hi n. Tuy nhiên h ng gi i quy t này địi h i l ng chi phí kh ng l cho vi c thi t k c u trúc cĩ kh n ng tính tốn tri th c và vi c nh p các d li u chu n xác do các chuyên gia th c hi n. Trong khi n l c này v n cịn đang trong cu c đua đ ng dài, chúng ta hãy s d ng nh ng thơng tin hi n cĩ trên world-wide-web đ th c hi n vi c bi u di n ng ngh a.

Chúng ta đ u bi t r ng Internet là kho d li u vơ t n, do v y vi c khai thác các thơng tin trên đĩ khơng th th c hi n th cơng mà chúng ta ph i thơng qua s h tr c a m t cơng c tìm ki m trên m ng. Nĩi đ n cơng c tìm ki m (search engine), cĩ l tên tu i đ u tiên mà chúng ta ngh đ n là Google, m t cơng c tìm ki m hàng đ u b i t c đ và ch t l ng mà Google đem l i cho ng i dùng. Và đi u đĩ càng đ c ch ng minh c th h n khi cĩ ngày càng nhi u các cơng trình nghiên c u v th ng kê trên Internet d a vào cơng c tìm ki m Google nh trong ph n trình bày ti p theo sau đây.

4.2.2. M t s cơng trình nghiên c u v th ng kê d a trên Internet

Theo Rudi Cilibrasi & Paul Vitanyi (2005), cơng c tìm ki m Google cĩ th dùng đ t đ ng khám phá ý ngh a c a t . Ví d : Google tìm th y t “student” và “book” cùng xu t hi n v i nhau trên Internet v i t n s là 57.600.000, trong khi t “student” và “apple” l i ch xu t hi n 8.110.000.Rõ ràng, chúng ta cĩ th nh n th y “student” và “book” cĩ liên quan v i nhau m t thi t h n là “student” và “apple”.

Tác gi đã s d ng k t qu tìm ki m c a Google đ hu n luy n ng ngh a c a các t (semantic meaning of words) cho ph n m m – m t v n đ tr ng tâm trong ngành trí tu nhân t o. Gi s mu n tính tốn m c đ liên quan gi a t x v i t y, Rudi & Paul (2005) đã đ a ra cơng th c tính kho ng cách NGD (Normalise Google Distance) nh sau:

max{log ( ), log ( )} log ( , )

log min{log ( ), log ( )}

f x f y f x y NGD M f x f y − = − (1) Trong đĩ :

Ü f(x) :s trang web ch a t x mà Goole tr v

Ü f(x,y) : s trang web ch a đ ng th i t x và t y

Ü M = 8.058.044.651 là s trang web hi n t i mà Google đã đánh ch m c V i cơng th c trên, giá tr c a NGD càng nh thì m c đ liên quan gi a hai t càng cao.

Ví d : t n s xu t hi n c a “student”= 401.000.000, “book” = 387.000.000,

đ ng th i là 57.600.000, cịn “apple” là 144.000.000, “student” & “apple”= 8.110.000. V i M = 8.058.044.651, ta cĩ 6 6 6 log 401.10 log 57, 6.10 ( , ) 0.64 log 8058044651 log 387.10 NGD student book ≈ − ≈ − 6 6 6 log 401.10 log 8,11.10 ( , ) 0.97 log 8058044651 log144.10 NGD student apple ≈ − ≈ −

T k t qu trên, ta cĩ NGD(student,book)≈0.64 < NGD(student,apple)≈0.97, nên cĩ th k t lu n là “student” liên quan v i “book” nhi u h n là “apple”.

N u NGD c a hai t l n h n 1 thì tác gi nh n xét r ng hai t đĩ th ng xu t hi n cùng v i nhau trong trang web mà khơng vì m t m i liên quan nào c .

Ví d : t n s xu t hi n c a “by” là 2.770.000.000, “with” là 2.566.000.000,

đ ng th i “by” và “with” là 49.700.000. V i M = 8.058.044.651, ta cĩ NGD(by,with) ≈ 3.51

H n n a, NGD là s t l b t bi n (scale-invariant) nên cĩ tính n đnh v i s t ng tr ng s l ng trang web trên Google. ây là tính ch t r t quan tr ng b i vì M s l ng trang web do Google đánh ch m c t ng th ng xuyên, do đĩ, s trang web ch a các ng tìm ki m c ng t ng lên ng v i t l đĩ. i u này cĩ ngh a là n u M t ng g p đơi thì t n s xu t hi n c a các ng c ng t ng g p đơi. Cơng trình c a Rudi & Paul (2005) đã m ra m t h ng ti p c n m i cho các cơng trình nghiên c u khác nh tính ch t khơng gi i h n b i d li u, d dàng th c thi và là n n mĩng cho các ph ng pháp nghiên c u khác [Rudi & Paul, 2005].

Ngồi ra, theo James & Daniel (2005) cịn cĩ m t s cơng trình nghiên c u v ph ng pháp th ng kê khác trên Internet nh tính tốn k t qu tìm ki m b ng hàm lu th a [Simkin & Roychowdhurry, 2003] [Bagrow et al, 2004] , hay ph ng pháp

đ c đánh giá t t h n là d a vào giá tr t ng t c c đ i (Maximum Likelihood) [James & Daniel, 2005]…. M c đích c a vi c s d ng giá tr t ng t c c đ i đ

tìm ra ch s g n gi ng nhau nh t gi a hai khái ni m. Tuy nhiên, theo k t lu n c a James & Daniel(2005), các ph ng pháp tính tốn d a trên hàm m cho k t qu ch a kh quan l m và cịn mang tính ch quan.

4.2.3. Nh n xét

Ü H ng th ng kê d a trên Internet h a h n nhi u k t qu kh quan vì khơng c n ph thu c vào t p d li u hu n luy n truy n th ng mà chúng ta cĩ th t n d ng kh n ng vơ t n c a Internet thơng qua cơng c tìm ki m.

Ü D a trên nh n xét c a Rudi & Paul (2005), t l xu t hi n c a t trên Internet là khá n đnh, đi u này cho phép ta th c hi n các tính tốn chính xác và n

đnh vì ít ph thu c vào s l ng trang web trên Internet t ng lên theo th i gian.

Ü Hi n nay, các cơng trình nghiên c u theo h ng ti p c n m i này ch y u

đ c th c hi n trên ti ng Anh, cịn đ i v i ti ng Vi t thì cĩ th nĩi IGATEC là cơng trình đ u tiên áp d ng ph ng pháp này nh ng đã đ t đ c k t qu r t đáng quan tâm. Chúng em hy v ng r ng r ng nh ng n l c nghiên c u và c i ti n ph ng pháp IGATEC s đ t đ c k t qu t t h n.

4.3. Các ph ng pháp tính đ liên quan gi a các t d a trên th ng kê th ng kê

Trong ngơn ng t nhiên, nh t là lo i ngơn ng ph thu c nhi u vào ng c nh nh ti ng Vi t, đ i v i con ng i, chúng ta cĩ th d dàng xác đnh đ c ranh gi i t trong câu. Tuy nhiên, do ch a cĩ m t quy đnh c th nào v ranh gi i t ti ng Vi t, nên cĩ th nhi u ng i Vi t cĩ nhi u cách tách t khác nhau. i v i ng i chúng ta v n ch a th ng nh t đ c, nên khi dùng máy tính đ x lý ngơn ng ta v n ch a cĩ m t chu n nào đ xác đnh đâu là ranh gi i t . Vì v y, đã cĩ r t nhi u cơng

trình nghiên c u cách tính tốn đ liên quan gi a các t đ kh c ph c các cơng vi c ph c t p do cách phân tích c u trúc ng pháp trong câu đem l i.

Trong ph n này, chúng em s trình bày hai n i dung chính:

Ü Hai th c đo chu n dùng đ tính tốn đ liên quan gi a hai t trong ti ng Anh là thơng tin t ng h (Mutual Information ) và t-score.

Ü M t s ng d ng và c i ti n c a hai cơng c đo trên trong vi c tách t ti ng Hoa và ti ng Vi t.

4.3.1. Thơng tin t ng h (Mutual Information) và t-score dùng trong ti ng Anh

Thơng tin t ng h (Mutual Information) và t-score là hai khái ni m r t quan tr ng trong h c thuy t v thơng tin (Information Theory) và th ng kê đ c trình bày trong [Church et al, 1991] cho m c đích tính tốn m c đ liên quan c a hai t trong ti ng Anh.

4.3.1.1. Thơng tin t ng h MI (Mutual Information) – th c đo đ c đi m t ng t (A Measure of Similarity)

Theo Church et al (1991), vi c th ng kê thơng tin t ng h (Mutual Information) dùng đ nh n bi t các tr ng h p ngơn ng thú v , bao g m t m i quan h ng ngh a (semantic relations) nh bác s /y tá (d ng content word/content word) cho đ n m i quan h t v ng-cú pháp (lexico-syntactic) nh s xu t hi n

đ ng th i gi a đ ng t và gi i t (d ng content word/ funtion word).

MI cĩ nhi m v so sánh xác su t xu t hi n đ ng th i (joint probability) c a t x

và t y so v i xác su t tìm th y xy xu t hi n đ c l p. Cơng th c tính MI cho hai t ti ng Anh trong [Church et al, 1991] nh sau:

2 ( , ) ( ; ) log ( ) ( ) P x y I x y P x P y

Trong đĩ:

Ü xy là hai t ti ng Anh c n ki m tra m c đ k t h p l n nhau.

Ü I(x;y) là thơng tin t ng h c a hai t .

Ü P(x), P(y) là xác su t xu t hi n đ c l p c a x và c a y.

Ü P(x,y) là xác su t xu t hi n đ ng th i xy.

Theo Church et al (1991), giá tr I(x,y) càng l n thì kh n ng k t h p c a xy

càng cao.

4.3.1.2. t-score – th c đo s khác bi t (A Measure of Dissimilarity)

Chúng ta d dàng nh n ra s gi ng nhau gi a strongpowerful, tuy nhiên làm cách nào đ phân bi t s khác nhau gi a chúng. Ví d , chúng ta đ u bi t r ng ng i ta th ng nĩi strong tea, powerful car h n là nĩi powerful teastrong car. Nh ng làm sao cho máy tính nh n ra đ c s khác bi t này?

Gi s , ta bi t r ng strong supportđ c dùng ph bi n h n là powerful support, Church et al (1991) đã đ a ra cơng th c tính t-score đ đo s khác bi t trên:

1 2 2 2 1 2 ( | ) - ( | ) ( ( | ) ( | )) P w w P w w t P w w w w σ σ = − + Trong đĩ:

Ü w1,w2 là hai t t ng t nhau c n ph i phân bi t ( ví d trên là strong

powerful) .

Ü w là t dùng đ phân bi t ( ví d trên là support).

Ü P(w|w1), P(w|w2) là xác su t c a t w xu t hi n đi kèm v i t w1, w2 Lúc đĩ: 2 2 2 2 ( ) - ( ) ( ( )) ( ( )) ( ) f ( ) - ( ) ( ) 2 175 13 2 175

P powerful support P strong support t

P powerful support P strong support f powerful support strong support

N N

f powerful support f strong support

N N σ σ = − + ≈ − + − ≈ − ≈ − +

Ta nĩi r ng powerful support cĩ đ l ch chu n (standard deviation) kém strong support 13 l n. Nh v y, ta cĩ th phân bi t đ c s khác nhau gi a powerful

strong trong vi c s d ng hai t này.

4.3.2. M t s c i ti n trong cách tính đ liên quan ng d ng trong tách t ti ng Hoa và ti ng Vi t t ti ng Hoa và ti ng Vi t

4.3.2.1. Thơng tin t ng h (Mutual Information)

Khi áp d ng thơng tin t ng h MI trong tách t ti ng Hoa, Su et al (1993) cho r ng thơng tin t ng h (Mutual Information) là th c đo m c đ k t h p c a m t t . Nĩ cĩ nhi m v so sánh xác su t m t nhĩm các ký t (t ng t nh “ti ng” trong ti ng Vi t – xem gi i thích m c 3.2.3.) xu t hi n đ ng th i (joint probability) so v i xác su t tìm th y t ng ký t xu t hi n đ c l p.

Theo Su et al (1993) cách tính MI cho t cĩ 2 ký t cĩ th áp d ng cơng th c c a Church et al (1991) v i ý ngh a c a xy lúc này khơng cịn là “t ” (word) nh trong ti ng Anh mà đ c hi u là ti ng (xem gi i thích m c 3.2.3.) trong ti ng Hoa. 2 ( , ) ( ; ) log ( ) ( ) P x y I x y P x P y ≡ (1a) Trong đĩ:

Ü xy là hai ti ng c n ki m tra m c đ k t h p l n nhau trong ti ng Hoa.

Ü I(x;y) là thơng tin t ng h c a hai ti ng.

Ü P(x), P(y) là xác su t xu t hi n đ c l p c a ti ng x và c a ti ng y.

Ü P(x,y) là xác su t xu t hi n đ ng th i ti ng x và ti ng y. Cách tính MI dành cho t ghép 3 ti ng nh sau [Su et al, 1991]:

2 ( , , ) ( ; ; ) log ( , , ) D I P x y z I x y z P x y z ≡ (1b) Trong đĩ: Ü PD(x,y,z) P(x,y,z) là xác su t xu t hi n đ ng th i c a x, y và x, (Dependently)

Ü PI(x,y,z) là xác su t xu t hi n đ c l p c a x,y, z (Independently) v i

PI(x,y,z) P(x)P(y)P(z) + P(x)P(y,z) + P(x,y)P(z).

Nhìn chung I(.) >>0 s cho bi t t ghép đĩ cĩ m c đ liên quan gi a các ti ng là r t ch t ch . Ng c l i, các ti ng cĩ xu h ng xu t hi n m t cách đ c l p.

M t cách tính MI khác c ng đ c Ong & Chen (1999) đ ngh nh sau:

1 2

1 2

( & & ... & )

( ) =

( ) ( ) ( & & ... & )

n n p w w w MI cw p lw +p rwp w w w (2) Trong đĩ Ü cw = p( w1 & w2 ...&wn-1 ) Ü lw = p( w1 & w2 ...& wn-1 ) Ü rw = p ( w2 & w3 ...&wn)

Theo nghiên c u c a chúng em, hi n nay cơng trình nghiên c u v cách tách t d a trên đ t ng h MI trên ti ng Vi t ch a nhi u. đây, chúng em xin gi i thi u cách tính MI đ c đ ngh trong IGATEC trong [H. Nguyen et al, 2005]

1 2 1 2 1

( & & ... & ) ( ) =

( ) - ( & & ... & )

n n j n j p w w w MI cw p w p w w w = ∑ (3)

Nhìn vào các cơng th c tính MI, ta cĩ th d đốn đ c m i cơng th c u tiên cho m t lo i t khác nhau. Ph n ti p theo sau đây s trình bày m t s nh n xét v các cơng th c trên đ làm c s đ a ra l a ch n phù h p nh t.

4.3.2.2. Cách tính t n s t ng đ i (Relative Frequency Count)

Cách tính t n s t ng đ i cho t ghép cĩ i ti ng đ c đnh ngh a nh sau [Su et al, 1993]: i i f r K =

Trong đĩ, fi là s l n xu t hi n c a t ghép cĩ i ti ng (ith n-gram) trong t p ng li u, và K là s l n xu t hi n trung bình c a m t t . Nĩi m t cách khác, fiđ c bình th ng hố b ng cách chia cho K đ l y t l liên quan. M t cách tr c quan, ta s

nh n ra, cách tính RFC s u tiên cho nh ng t xu t hi n v i t n s r t cao mà nĩ s b m t nh ng xu t hi n trong t đi n v i t n s th p. Vì v y, RFC đ c dùng nh m t thu c tính h tr thêm cho vi c tách t .

4.3.2.3. Nh n xét v cách s d ng MI và RFC

N u ta s d ng đ ng th i MI và RFC cho vi c tách t s đem l i k t qu nh mong đ i b i vì n u ch s d ng m t cơng c tính tốn, k t qu chúng ta đ t đ c cĩ th ch u tiên cho m t cách tách nào đĩ. N u ch s d ng RFC, h th ng c a chúng ta cĩ xu h ng ch n nh ng t xu t hi n nhi u l n nh ng l i cĩ đ liên quan MI th p. Ví d , n u P(x)P(y) r t l n, nĩ cĩ th t o ra P(x,y) c ng r t l n m c dù

xy khơng h liên quan gì c vì P(x,y)/ P(x) x P(y) r t nh .

M c khác, n u ch s d ng MI thơi, thì tr ng h p P(x) và P(y) quá nh s d n đ n k t qu khơng đáng tin c y. M t t n-gram cĩ th cĩ MI cao khơng b i vì chúng k t h p ch t ch v i nhau mà b i vì khi chia hai s cùng nh nh nhau, ta s cĩ s MI l n.

Tĩm l i, ta nên s d ng c hai thơng tin MI và RFC vì th c t , m t nhĩm các t v a cĩ RFC và MI cao s cĩ xu h ng v a k t h p ch t ch v i nhau, v a đ c s d ng r ng rãi.

4.3.3. Nh n xét v các cách tính đ liên quan khi áp d ng cho ti ng Vi t

Ü Ti ng Hoa là lo i ngơn ng đ n l p gi ng ti ng Vi t, nên ta cĩ th áp d ng m t s cơng tình nghiên c u trên ti ng Hoa lên ti ng Vi t.

Ü V m t lý thuy t, ta hồn tồn cĩ th s d ng các cơng th c MI trên đ áp

Một phần của tài liệu Nghiên cứu phương pháp thống kê Bayes và Xây dựng ứng dụng phân loại văn bản tiếng Việt (Trang 53)

Tải bản đầy đủ (PDF)

(132 trang)