Các nghiên cu v th ng kê da trên Internet- 123docz.net

V i s phát tri n nhanh chĩng c a Internet, world-wide-web đã tr thành ngu n d li u l n nh t trên th gi i, và là ngu n thơng tin ng ngh a ti m tàng đ c hàng tri u ng i dùng trên th gi i t o ra. i v i con ng i, vi c xem xét m c đ liên quan gi a hai t là r t d dàng b i vì con ng i cĩ th d a vào ki n th c thơng

th ng c a mình đ suy ra ng c nh thích h p, ví d gi a t “cái nĩn” và “màu

đ ”, con ng i d dàng nh n ra s liên quan là “cái nĩn cĩ màu đ ”. Tuy nhiên, máy tính c a chúng ta khơng cĩ kh n ng nh con ng i, vì v y, chúng ta ph i tìm ra m t cách bi u di n ng ngh a mà máy tính cĩ th “tiêu hố” đ c. Cĩ ý ki n cho r ng ta cĩ th t o m t m ng ng ngh a đ s nh m t h th ng trí tu ban đ u, sau

đĩ các ki n th c v cu c s ng th c s t đ ng xu t hi n. Tuy nhiên h ng gi i quy t này địi h i l ng chi phí kh ng l cho vi c thi t k c u trúc cĩ kh n ng tính tốn tri th c và vi c nh p các d li u chu n xác do các chuyên gia th c hi n. Trong khi n l c này v n cịn đang trong cu c đua đ ng dài, chúng ta hãy s d ng nh ng thơng tin hi n cĩ trên world-wide-web đ th c hi n vi c bi u di n ng ngh a.

Chúng ta đ u bi t r ng Internet là kho d li u vơ t n, do v y vi c khai thác các thơng tin trên đĩ khơng th th c hi n th cơng mà chúng ta ph i thơng qua s h tr c a m t cơng c tìm ki m trên m ng. Nĩi đ n cơng c tìm ki m (search engine), cĩ l tên tu i đ u tiên mà chúng ta ngh đ n là Google, m t cơng c tìm ki m hàng đ u b i t c đ và ch t l ng mà Google đem l i cho ng i dùng. Và đi u đĩ càng đ c ch ng minh c th h n khi cĩ ngày càng nhi u các cơng trình nghiên c u v th ng kê trên Internet d a vào cơng c tìm ki m Google nh trong ph n trình bày ti p theo sau đây.

4.2.2. M t s cơng trình nghiên c u v th ng kê d a trên Internet

Theo Rudi Cilibrasi & Paul Vitanyi (2005), cơng c tìm ki m Google cĩ th dùng đ t đ ng khám phá ý ngh a c a t . Ví d : Google tìm th y t “student” và “book” cùng xu t hi n v i nhau trên Internet v i t n s là 57.600.000, trong khi t “student” và “apple” l i ch xu t hi n 8.110.000.Rõ ràng, chúng ta cĩ th nh n th y “student” và “book” cĩ liên quan v i nhau m t thi t h n là “student” và “apple”.

Tác gi đã s d ng k t qu tìm ki m c a Google đ hu n luy n ng ngh a c a các t (semantic meaning of words) cho ph n m m – m t v n đ tr ng tâm trong ngành trí tu nhân t o. Gi s mu n tính tốn m c đ liên quan gi a t x v i t y, Rudi & Paul (2005) đã đ a ra cơng th c tính kho ng cách NGD (Normalise Google Distance) nh sau:

max{log ( ), log ( )} log ( , )

log min{log ( ), log ( )}

f x f y f x y NGD M f x f y − = − (1) Trong đĩ :

Ü f(x) :s trang web ch a t x mà Goole tr v

Ü f(x,y) : s trang web ch a đ ng th i t x và t y

Ü M = 8.058.044.651 là s trang web hi n t i mà Google đã đánh ch m c V i cơng th c trên, giá tr c a NGD càng nh thì m c đ liên quan gi a hai t càng cao.

Ví d : t n s xu t hi n c a “student”= 401.000.000, “book” = 387.000.000,

đ ng th i là 57.600.000, cịn “apple” là 144.000.000, “student” & “apple”= 8.110.000. V i M = 8.058.044.651, ta cĩ 6 6 6 log 401.10 log 57, 6.10 ( , ) 0.64 log 8058044651 log 387.10 NGD student book ≈ − ≈ − 6 6 6 log 401.10 log 8,11.10 ( , ) 0.97 log 8058044651 log144.10 NGD student apple ≈ − ≈ −

T k t qu trên, ta cĩ NGD(student,book)≈0.64 < NGD(student,apple)≈0.97, nên cĩ th k t lu n là “student” liên quan v i “book” nhi u h n là “apple”.

N u NGD c a hai t l n h n 1 thì tác gi nh n xét r ng hai t đĩ th ng xu t hi n cùng v i nhau trong trang web mà khơng vì m t m i liên quan nào c .

Ví d : t n s xu t hi n c a “by” là 2.770.000.000, “with” là 2.566.000.000,

đ ng th i “by” và “with” là 49.700.000. V i M = 8.058.044.651, ta cĩ NGD(by,with) ≈ 3.51

H n n a, NGD là s t l b t bi n (scale-invariant) nên cĩ tính n đnh v i s t ng tr ng s l ng trang web trên Google. ây là tính ch t r t quan tr ng b i vì M s l ng trang web do Google đánh ch m c t ng th ng xuyên, do đĩ, s trang web ch a các ng tìm ki m c ng t ng lên ng v i t l đĩ. i u này cĩ ngh a là n u M t ng g p đơi thì t n s xu t hi n c a các ng c ng t ng g p đơi. Cơng trình c a Rudi & Paul (2005) đã m ra m t h ng ti p c n m i cho các cơng trình nghiên c u khác nh tính ch t khơng gi i h n b i d li u, d dàng th c thi và là n n mĩng cho các ph ng pháp nghiên c u khác [Rudi & Paul, 2005].

Ngồi ra, theo James & Daniel (2005) cịn cĩ m t s cơng trình nghiên c u v ph ng pháp th ng kê khác trên Internet nh tính tốn k t qu tìm ki m b ng hàm lu th a [Simkin & Roychowdhurry, 2003] [Bagrow et al, 2004] , hay ph ng pháp

đ c đánh giá t t h n là d a vào giá tr t ng t c c đ i (Maximum Likelihood) [James & Daniel, 2005]…. M c đích c a vi c s d ng giá tr t ng t c c đ i đ

tìm ra ch s g n gi ng nhau nh t gi a hai khái ni m. Tuy nhiên, theo k t lu n c a James & Daniel(2005), các ph ng pháp tính tốn d a trên hàm m cho k t qu ch a kh quan l m và cịn mang tính ch quan.

4.2.3. Nh n xét

Ü H ng th ng kê d a trên Internet h a h n nhi u k t qu kh quan vì khơng c n ph thu c vào t p d li u hu n luy n truy n th ng mà chúng ta cĩ th t n d ng kh n ng vơ t n c a Internet thơng qua cơng c tìm ki m.

Ü D a trên nh n xét c a Rudi & Paul (2005), t l xu t hi n c a t trên Internet là khá n đnh, đi u này cho phép ta th c hi n các tính tốn chính xác và n

đnh vì ít ph thu c vào s l ng trang web trên Internet t ng lên theo th i gian.

Ü Hi n nay, các cơng trình nghiên c u theo h ng ti p c n m i này ch y u

đ c th c hi n trên ti ng Anh, cịn đ i v i ti ng Vi t thì cĩ th nĩi IGATEC là cơng trình đ u tiên áp d ng ph ng pháp này nh ng đã đ t đ c k t qu r t đáng quan tâm. Chúng em hy v ng r ng r ng nh ng n l c nghiên c u và c i ti n ph ng pháp IGATEC s đ t đ c k t qu t t h n.

4.3. Các ph ng pháp tính đ liên quan gi a các t d a trên th ng kê th ng kê

Trong ngơn ng t nhiên, nh t là lo i ngơn ng ph thu c nhi u vào ng c nh nh ti ng Vi t, đ i v i con ng i, chúng ta cĩ th d dàng xác đnh đ c ranh gi i t trong câu. Tuy nhiên, do ch a cĩ m t quy đnh c th nào v ranh gi i t ti ng Vi t, nên cĩ th nhi u ng i Vi t cĩ nhi u cách tách t khác nhau. i v i ng i chúng ta v n ch a th ng nh t đ c, nên khi dùng máy tính đ x lý ngơn ng ta v n ch a cĩ m t chu n nào đ xác đnh đâu là ranh gi i t . Vì v y, đã cĩ r t nhi u cơng

trình nghiên c u cách tính tốn đ liên quan gi a các t đ kh c ph c các cơng vi c ph c t p do cách phân tích c u trúc ng pháp trong câu đem l i.

Trong ph n này, chúng em s trình bày hai n i dung chính:

Ü Hai th c đo chu n dùng đ tính tốn đ liên quan gi a hai t trong ti ng Anh là thơng tin t ng h (Mutual Information ) và t-score.

Ü M t s ng d ng và c i ti n c a hai cơng c đo trên trong vi c tách t ti ng Hoa và ti ng Vi t.

4.3.1. Thơng tin t ng h (Mutual Information) và t-score dùng trong ti ng Anh

Thơng tin t ng h (Mutual Information) và t-score là hai khái ni m r t quan tr ng trong h c thuy t v thơng tin (Information Theory) và th ng kê đ c trình bày trong [Church et al, 1991] cho m c đích tính tốn m c đ liên quan c a hai t trong ti ng Anh.

4.3.1.1. Thơng tin t ng h MI (Mutual Information) – th c đo đ c đi m t ng t (A Measure of Similarity)

Theo Church et al (1991), vi c th ng kê thơng tin t ng h (Mutual Information) dùng đ nh n bi t các tr ng h p ngơn ng thú v , bao g m t m i quan h ng ngh a (semantic relations) nh bác s /y tá (d ng content word/content word) cho đ n m i quan h t v ng-cú pháp (lexico-syntactic) nh s xu t hi n

đ ng th i gi a đ ng t và gi i t (d ng content word/ funtion word).

MI cĩ nhi m v so sánh xác su t xu t hi n đ ng th i (joint probability) c a t x

và t y so v i xác su t tìm th y x và y xu t hi n đ c l p. Cơng th c tính MI cho hai t ti ng Anh trong [Church et al, 1991] nh sau:

2 ( , ) ( ; ) log ( ) ( ) P x y I x y P x P y ≡

Trong đĩ:

Ü x và y là hai t ti ng Anh c n ki m tra m c đ k t h p l n nhau.

Ü I(x;y) là thơng tin t ng h c a hai t .

Ü P(x), P(y) là xác su t xu t hi n đ c l p c a x và c a y.

Ü P(x,y) là xác su t xu t hi n đ ng th i x và y.

Theo Church et al (1991), giá tr I(x,y) càng l n thì kh n ng k t h p c a x và y

càng cao.

4.3.1.2. t-score – th c đo s khác bi t (A Measure of Dissimilarity)

Chúng ta d dàng nh n ra s gi ng nhau gi a strong và powerful, tuy nhiên làm cách nào đ phân bi t s khác nhau gi a chúng. Ví d , chúng ta đ u bi t r ng ng i ta th ng nĩi strong tea, powerful car h n là nĩi powerful tea và strong car. Nh ng làm sao cho máy tính nh n ra đ c s khác bi t này?

Gi s , ta bi t r ng strong supportđ c dùng ph bi n h n là powerful support, Church et al (1991) đã đ a ra cơng th c tính t-score đ đo s khác bi t trên:

1 2 2 2 1 2 ( | ) - ( | ) ( ( | ) ( | )) P w w P w w t P w w w w σ σ = − + Trong đĩ:

Ü w1,w2 là hai t t ng t nhau c n ph i phân bi t ( ví d trên là strong và

powerful) .

Ü w là t dùng đ phân bi t ( ví d trên là support).

Ü P(w|w1), P(w|w2) là xác su t c a t w xu t hi n đi kèm v i t w1, w2 Lúc đĩ: 2 2 2 2 ( ) - ( ) ( ( )) ( ( )) ( ) f ( ) - ( ) ( ) 2 175 13 2 175

P powerful support P strong support t

P powerful support P strong support f powerful support strong support

N N

f powerful support f strong support

N N σ σ = − + ≈ − + − ≈ − ≈ − +

Ta nĩi r ng powerful support cĩ đ l ch chu n (standard deviation) kém strong support 13 l n. Nh v y, ta cĩ th phân bi t đ c s khác nhau gi a powerful và

strong trong vi c s d ng hai t này.

4.3.2. M t s c i ti n trong cách tính đ liên quan ng d ng trong tách t ti ng Hoa và ti ng Vi t t ti ng Hoa và ti ng Vi t

4.3.2.1. Thơng tin t ng h (Mutual Information)

Khi áp d ng thơng tin t ng h MI trong tách t ti ng Hoa, Su et al (1993) cho r ng thơng tin t ng h (Mutual Information) là th c đo m c đ k t h p c a m t t . Nĩ cĩ nhi m v so sánh xác su t m t nhĩm các ký t (t ng t nh “ti ng” trong ti ng Vi t – xem gi i thích m c 3.2.3.) xu t hi n đ ng th i (joint probability) so v i xác su t tìm th y t ng ký t xu t hi n đ c l p.

Theo Su et al (1993) cách tính MI cho t cĩ 2 ký t cĩ th áp d ng cơng th c c a Church et al (1991) v i ý ngh a c a x và y lúc này khơng cịn là “t ” (word) nh trong ti ng Anh mà đ c hi u là ti ng (xem gi i thích m c 3.2.3.) trong ti ng Hoa. 2 ( , ) ( ; ) log ( ) ( ) P x y I x y P x P y ≡ (1a) Trong đĩ:

Ü x và y là hai ti ng c n ki m tra m c đ k t h p l n nhau trong ti ng Hoa.

Ü I(x;y) là thơng tin t ng h c a hai ti ng.

Ü P(x), P(y) là xác su t xu t hi n đ c l p c a ti ng x và c a ti ng y.

Ü P(x,y) là xác su t xu t hi n đ ng th i ti ng x và ti ng y. Cách tính MI dành cho t ghép 3 ti ng nh sau [Su et al, 1991]:

2 ( , , ) ( ; ; ) log ( , , ) D I P x y z I x y z P x y z ≡ (1b) Trong đĩ: Ü PD(x,y,z) ≡ P(x,y,z) là xác su t xu t hi n đ ng th i c a x, y và x, (Dependently)

Ü PI(x,y,z) là xác su t xu t hi n đ c l p c a x,y, z (Independently) v i

PI(x,y,z) ≡ P(x)P(y)P(z) + P(x)P(y,z) + P(x,y)P(z).

Nhìn chung I(.) >>0 s cho bi t t ghép đĩ cĩ m c đ liên quan gi a các ti ng là r t ch t ch . Ng c l i, các ti ng cĩ xu h ng xu t hi n m t cách đ c l p.

M t cách tính MI khác c ng đ c Ong & Chen (1999) đ ngh nh sau:

1 2

( & & ... & )

( ) =

( ) ( ) ( & & ... & )

n n p w w w MI cw p lw +p rw −p w w w (2) Trong đĩ Ü cw = p( w1 & w2 ...&wn-1 ) Ü lw = p( w1 & w2 ...& wn-1 ) Ü rw = p ( w2 & w3 ...&wn)

Theo nghiên c u c a chúng em, hi n nay cơng trình nghiên c u v cách tách t d a trên đ t ng h MI trên ti ng Vi t ch a nhi u. đây, chúng em xin gi i thi u cách tính MI đ c đ ngh trong IGATEC trong [H. Nguyen et al, 2005]

1 2 1 2 1

( & & ... & ) ( ) =

( ) - ( & & ... & )

n n j n j p w w w MI cw p w p w w w = ∑ (3)

Nhìn vào các cơng th c tính MI, ta cĩ th d đốn đ c m i cơng th c u tiên cho m t lo i t khác nhau. Ph n ti p theo sau đây s trình bày m t s nh n xét v các cơng th c trên đ làm c s đ a ra l a ch n phù h p nh t.

4.3.2.2. Cách tính t n s t ng đ i (Relative Frequency Count)

Cách tính t n s t ng đ i cho t ghép cĩ i ti ng đ c đnh ngh a nh sau [Su et al, 1993]: i i f r K =

Trong đĩ, fi là s l n xu t hi n c a t ghép cĩ i ti ng (ith n-gram) trong t p ng li u, và K là s l n xu t hi n trung bình c a m t t . Nĩi m t cách khác, fiđ c bình th ng hố b ng cách chia cho K đ l y t l liên quan. M t cách tr c quan, ta s

nh n ra, cách tính RFC s u tiên cho nh ng t xu t hi n v i t n s r t cao mà nĩ s b m t nh ng xu t hi n trong t đi n v i t n s th p. Vì v y, RFC đ c dùng nh m t thu c tính h tr thêm cho vi c tách t .

4.3.2.3. Nh n xét v cách s d ng MI và RFC

N u ta s d ng đ ng th i MI và RFC cho vi c tách t s đem l i k t qu nh mong đ i b i vì n u ch s d ng m t cơng c tính tốn, k t qu chúng ta đ t đ c cĩ th ch u tiên cho m t cách tách nào đĩ. N u ch s d ng RFC, h th ng c a chúng ta cĩ xu h ng ch n nh ng t xu t hi n nhi u l n nh ng l i cĩ đ liên quan MI th p. Ví d , n u P(x) và P(y) r t l n, nĩ cĩ th t o ra P(x,y) c ng r t l n m c dù

x và y khơng h liên quan gì c vì P(x,y)/ P(x) x P(y) r t nh .

M c khác, n u ch s d ng MI thơi, thì tr ng h p P(x) và P(y) quá nh s d n đ n k t qu khơng đáng tin c y. M t t n-gram cĩ th cĩ MI cao khơng b i vì chúng k t h p ch t ch v i nhau mà b i vì khi chia hai s cùng nh nh nhau, ta s cĩ s MI l n.

Tĩm l i, ta nên s d ng c hai thơng tin MI và RFC vì th c t , m t nhĩm các t v a cĩ RFC và MI cao s cĩ xu h ng v a k t h p ch t ch v i nhau, v a đ c s d ng r ng rãi.

4.3.3. Nh n xét v các cách tính đ liên quan khi áp d ng cho ti ng Vi t

Ü Ti ng Hoa là lo i ngơn ng đ n l p gi ng ti ng Vi t, nên ta cĩ th áp d ng m t s cơng tình nghiên c u trên ti ng Hoa lên ti ng Vi t.

Ü V m t lý thuy t, ta hồn tồn cĩ th s d ng các cơng th c MI trên đ áp

Các nghiên cu v th ng kê da trên Internet

Linear Least Square Fit (LLSF)

Lý do chn ph ng pháp Nạve Bayes