C n phân bi t r ng hình v nh nh t c a ti ng Vi t là “ti ng”, đ c c u t o b i nhi u ký t trong b ng ch cái, trong khi hình v nh nh t c a ti ng Hoa là m t ký t . Vì ch vi t ti ng Hoa là ch t ng hình, khơng d a trên b ng ch cái Latin nh ti ng Vi t nên trong tr ng h p ti ng Hoa, ng i ta xét hình v là “ký t ”. Tuy nhiên, m i ký t (character) trong ti ng Hoa đ c phát âm thành m t “ti ng”, nên xét v m t âm v , ta cĩ th xem “ti ng” trong ti ng Hoa và ti ng Vi t là t ng t nhau. Vì v y, đ tránh s hi u nh m ý ngh a gi a ký t trong ti ng Hoa và ti ng
trong ti ng Vi t, chúng em xin phép dùng t “ti ng” đ ch cho ký t ti ng Hoa và
M c dù cĩ cách vi t khác nhau, nh ng v c u t o t và ng pháp c a ti ng Hoa và ti ng Vi t cĩ nhi u đi m t ng đ ng nhau. Xét v ngu n g c, ti ng Vi t là hình th c phiên âm c a ch Nơm do nhân dân ta sáng t o nên, v n cĩ ngu n g c t ti ng Trung Hoa th i x a.
3.2.3.1. Các cơng trình tách t ti ng Hoa
H ng ti p c n này đ n thu n rút trích m t s l ng nh t đnh các ti ng trong v n b n nh rút trích t 1 ký t (unigram) hay nhi u ký t (n-gram). M c dù h ng ti p c n này t ng đ i đ n gi n h n các h ng khác, nh ng nĩ c ng mang l i nhi u k t qu kh quan trong ti ng Hoa [Foo and Li, 2004].
H ng ti p c n d a trên m t ký t (unigram) chia v n b n ra các ký t đ n l đ
th c hi n vi c tách t . Ngày nay, h u nh ng i ta khơng s d ng ph ng pháp này nh h ng ti p c n chính trong vi c tách t n a.
H ng ti p c n d a trên nhi u ký t (n-gram) chia v n b n ra thành nhi u chu i, m i chu i g m hai, ba ký t tr lên. So v i h ng ti p c n d a trên m t ký t , h ng ti p c n này cho nhi u k t qu n đnh h n [Kwok, 1997a;1997b]. Do h n 75% t trong ti ng Hoa là t g m hai ký t , nên các ph ng pháp ph bi n là d a trên vi c tách t g m hai ký t s cho k t qu nhi u t đúng h n [Wu & Tseng, 1993].Ví d , ta cĩ m t câu ABCDEF, h ng ti p c n trên s chia câu thành AB CD EF. M t bi n th c a ph ng pháp tách t hai ký t là h ng ti p c n cách chia ch ng lên nhau, ví d ta cĩ ABCDEFG, h ng ti p c n này s chia thành AB BC CD DE DF FG. Nhĩm nghiên c u c a Swiss Federal Institute of Technology (ETH) áp d ng ph ng pháp bi n th và cĩ th c i ti n là s d ng thêm danh sách stoplist (t ng t nh các h t trong ti ng Vi t nh à, i..) đ tách các ng c a câu tr c khi tách t [Mateev et al, 1997]. Nh v y, mà kích th c v n b n c n tách t đ c gi m xu ng nh ng cĩ khuy t đi m là nĩ cĩ th làm m t ý ngh a c a câu g c.
u đi m n i b t c a h ng ti p c n d a trên nhi u ký t là tính đ n gi n và d ng d ng, ngồi ra cịn cĩ thu n l i là ít t n chi phí cho vi c t o ch m c (index) và x lý nhi u câu truy v n (query processing). Qua nhi u cơng trình nghiên c u,
h ng ti p c n tách t d a trên nhi u ký t , đ c bi t là cách tách t hai ký t đ c xem là s l a ch n thích h p[Foo & Li, 2002].
3.2.3.2. Các cơng trình tách t ti ng Vi t
Trong tr ng h p ti ng Vi t, h ng ti p c n này đ c xem là h ng ti p c n d a trên ti ng, khác v i ti ng Hoa là d a trên ký t . Vi t Nam, h ng ti p c n này c ng đã cĩ m t s cơng trình đ c ph bi n. [Lê An Hà, 2003] xây d ng t p ng li u thơ 10M, s d ng ph ng pháp quy ho ch đ ng đ c c đ i hĩa t ng xác su t xu t hi n c a các ng . G n đây nh t cĩ th k đ n cơng trình c a [H. Nguyen et al, 2005], thay vì s d ng ng li u thơ, cơng trình c a h cĩ sáng t o là l y thơng tin th ng kê t Internet và s d ng thu t tốn di truy n (Genetic Algorithm) đ tìm cách tách t t i u nh t. M c dù cơng trình c a h cịn mang tính s b , và vi c th nghi m ch a hồn ch nh, nh ng chúng em tin r ng ý t ng m i l này đem l i nhi u h a h n kh quan.
H ng ti p c n cho vi c tách t c a chúng em m r ng trên ý t ng này, ngồi ra, chúng em th c hi n m t s thay đ i quan tr ng nh m nâng cao tính chính xác c a vi c tách t . Thêm n a, chúng em đã th c hi n m t s th nghi m trên s l ng d li u đáng k nh m đ a ra các đánh giá m t cách bao quát h n, chính xác h n.