[r]
(1)T P CHÍ KHOA H C, Đ i h c Hu , S 25, 2004Ạ Ọ ạ ọ ế ố
THU T TOÁN KI M TRA ÂM TI T TI NG VI T Ậ Ể Ế Ế Ệ D A TRÊN LU T C U T O ÂM TI TỰ Ậ Ấ Ạ Ế
Nguy n Gia Đ nh, Tr n Thanh Lễ ị ầ ương Trường Đ i h c Khoa h c, Đ i h c Huạ ọ ọ ạ ọ ế 1. GI I THI UỚ Ệ
Trong th i đ i ngày nay nhu c u giao ti p b ng văn b n ngày càng nhi u. Cácờ ầ ế ằ ả ề văn b n này thả ường được in ra t máy tính thơng qua các ph n m m so n th o vănừ ầ ề ả b n nh : MS Word, Word Perfect nó c n ph i đúng, chính xác và hi u qu Đ làmả ầ ả ệ ả ể được nh v y chúng ta ph i ki m tra chính t , ng pháp văn b n trư ậ ả ể ả ữ ả ước khi in ra và g i đi. Tuy nhiên, khi văn b n l n thì vi c ki m tra do con ngử ả ệ ể ười th c hi n m t r tự ệ ấ ấ nhi u th i gian và là m t cơng vi c nhàm chán. Vì nhi u ngun nhân, trong đó cóề ộ ệ ề ngun nhân v tâm lý làm ngề ười ki m tra không ki m tra h t văn b n, ho c khiể ể ế ả ặ ki m tra xong văn b n thì cũng khơng đ m b o văn b n đúng tồn b Sai sót l nể ả ả ả ả ộ nh t trong văn b n thấ ả ường là l i chính t khơng c ý (t c là l i do đánh máy nh m).ỗ ả ố ứ ỗ ầ
Xu t phát t nh ng y u c u đó mà trong ph n m m MS Word cũng đã có ch cấ ữ ề ầ ầ ề ứ năng ki m tra chính t và ng pháp ti ng Anh m t m c đ tể ả ữ ế ộ ứ ộ ương đ i nh t đ nh.ố ấ ị Vi c ki m tra l i chính t di n ra khá d dàng trong MS Word, nh ng v i l i ngệ ể ỗ ả ễ ễ ỗ ữ pháp thì ch a hồn tồn đúng. V n đ ki m tra ng pháp đ i v i ngôn ng t nhiênư ấ ề ể ữ ố ữ ự là m t trong nh ng v n đ r t khó và đang độ ữ ấ ề ấ ược nghiên c u b i các nhà khoa h c,ứ ọ các hãng ph n m m l n trên th gi i. Đ i v i ti ng Vi t cũng đã xu t hi n ph nầ ề ế ố ế ệ ấ ệ ầ m m ki m tra chính t , đó là ph n m m Vietkey Office, ph n m m này ki m tra l iề ể ả ầ ề ầ ề ể ỗ chính t d a trên m t t p các t v ng có s n trong t đi n. Vì v y kh năng m c aả ự ộ ậ ự ẵ ể ậ ả ủ ph n m m là khơng có, t c là khơng có kh năng h c các t m i t văn b n đúngầ ề ứ ả ọ ừ ả chính t H n n a do s d ng c ch l u các t v ng trong t đi n nên ph i l u trả ữ ụ ế ự ể ả ữ m t lộ ượng khá l n các t v ng. Đó là nh ng h n ch c a ph n m m Vietkey Office.ớ ự ữ ế ủ ầ ề
(2)(3)2. PHÂN TÍCH C U TRÚC ÂM TI TẤ Ế 2.1. Âm ti tế
Âm ti t là đ n v phát âm nh nh t mà cho dù ta có phát âm ch m đ n m y điế ị ỏ ấ ậ ế ấ n a cũng không th tách ra thành các ph n nh h n đữ ể ầ ỏ ược
2.2. C u trúc âm ti t 5 thành ph n: (Cách ti p c n theo hấ ế ầ ế ậ ướng ngôn ng )ữ Theo ngôn ng h c m t âm ti t ti ng Vi t đữ ọ ộ ế ế ệ ượ ấ ừc c u t o t năm thành ph n sau:ầ
Âm đ uầ
Âm đ mệ
Âm chính Âm cu iố
Thanh đi uệ
Chúng ta có th vi t c u trúc c a m t âm ti t theo cách ti p c n 5 thành ph nể ế ấ ủ ộ ế ế ậ ầ nh sau:ư
Âm ti t = [Âm đ u][Âm đ m]<Âm chính>[Âm cu i][Thanh đi u]ế ầ ệ ố ệ
Trong đó nh ng thành ph n n m trong c p d u <> là b t bu c ph i có, nh ngữ ầ ằ ặ ấ ắ ộ ả ữ thành ph n n m trong c p d u [ ] thì có th có ho c khơng.ầ ằ ặ ấ ể ặ
Ví d : ụ
Âm ti tế Các thành ph n c u t o thành âm ti tầ ấ ạ ế
ho cặ
Âm đ uầ h Âm đ mệ o Âm chính ă Âm cu iố c Thanh đi uệ
hai
Âm đ uầ h
Âm đ mệ khơng có Âm chính ai Âm cu iố khơng có Thanh đi uệ khơng có
O
Âm đ uầ khơng có Âm đ mệ khơng có Âm chính o
(4)Đây là m t cách ti p c n r t t t trong vi c phân tích ngơn ng ti ng Vi t. Tuyộ ế ậ ấ ố ệ ữ ế ệ nhiên, cách ti p c n này r t khó khăn trong vi c ki m tra l i chính t trên máy tính.ế ậ ấ ệ ể ỗ ả Vì v y, chúng tơi đ a ra m t cách ti p c n m i ng n g n h n đ d dàng cho vi cậ ộ ế ậ ắ ọ ể ễ ệ ki m tra chính t trên máy tính.ể ả
2.3. C u trúc âm ti t ba thành ph n: (Cách ti p c n theo hấ ế ầ ế ậ ướng t h p âm)ổ ợ Chúng ta có th phân tích m t âm ti t thành ba thành ph n sau:ể ộ ế ầ
Âm đ uầ
T h p âm gi aổ ợ ữ
Âm cu iố
C u trúc c a m t âm ti t theo cách ti p c n 3 thành ph n s đấ ủ ộ ế ế ậ ầ ẽ ược vi t l i nhế ư sau:
Âm ti t = [Âm đ u]<T h p âm gi a>[Âm cu i]ế ầ ổ ợ ữ ố
Trong đó nh ng thành ph n n m trong c p d u <> là b t bu c ph i có, nh ngữ ầ ằ ặ ấ ắ ộ ả ữ thành ph n n m trong c p d u [ ] thì có th có ho c khơng.ầ ằ ặ ấ ể ặ
Ví d :ụ
Âm ti tế Các thành ph n c u t o thành âm ti tầ ấ ạ ế ho cặ
Âm đ uầ h T h p âm gi aổ ợ ữ oặ Âm cu iố c Hai
Âm đ uầ h T h p âm gi aổ ợ ữ
Âm cu iố khơng có O
Âm đ uầ khơng có T h p âm gi aổ ợ ữ o
Âm cu iố khơng có Âm đ u g m có 27 lo i nh sau:ầ
b, c, ch, d, đ, g, gh, h, k, kh, l, m, n, ng, ngh, nh, p, ph, q, r, s, t, th, tr, v, x, none T h p âm gi a có s lổ ợ ữ ố ượng r t l n, t h p âm gi a s đấ ổ ợ ữ ẽ ượ ậc c p nh t trong quáậ trinh h c văn b n c a chọ ả ủ ương trình. Ví d m t s t h p âm gi a là:ụ ộ ố ổ ợ ữ
a, ai, au, ay, e, eo, i, ia, iai, iày, iá, iáo Âm cu i g m có 9 lo i nh sau:ố
c, ch, m, n, ng, nh, p, t, none
Trong đó: none có nghĩa là âm khuy t.ế
(5)D a trên c u trúc âm ti t 3 thành ph n chúng ta th y m t ự ấ ế ầ ấ ộ t h p âm gi a ổ ợ ữ thì có th ghép v i ể m t s âm đ u ộ ố ầ và m t s âm cu i ộ ố ố nh t đ nh, đi u này có th minhấ ị ề ể h a nh sau:ọ
Âm đ uầ T h p âm gi aổ ợ ữ Âm cu iố 1. b 15. ngh
ươ
1. c
2.c 16. nh 2. ch
3. ch 17. p 3. m
4. d 18. ph 4. n
5. đ 19. q 5. ng
6. g 20. r 6. nh
7. gh 21. s 7. p
8. h 22. t 8. t
9. k 23. th 9. none
10. kh 24. tr 11. l 25. v 12. m 26. x 13. n 27. none 14. ng
Nh ng âm đ u, t h p âm gi a, âm cu i tơ đ m là có th ghép v i nhau đ t oữ ầ ổ ợ ữ ố ậ ể ể thành âm ti t: ch ng h n nh : chế ẳ ươm, chươn, chương, cươm, cươn, chương, gươm, gươn, gương
3. SO SÁNH HAI D NG C U TRÚC ÂM TI TẠ Ấ Ế
Hai d ng c u trúc âm ti t này có m t s s khác nhau trên phạ ấ ế ộ ố ự ương di n ti pệ ế c n, trong đó d ng c u trúc âm ti t 3 thành ph n là t h p c a d ng c u trúc âm ti tậ ấ ế ầ ổ ợ ủ ấ ế 5 thành ph n. Hay d ng c u trúc âm ti t 5 thành ph n là khai tri n c a d ng c u trúcầ ấ ế ầ ể ủ ấ âm ti t 3 thành ph n. Chúng ta có th th y s tế ầ ể ấ ự ương ng gi a hai d ng c u trúc nàyứ ữ ấ nh sau:ư
C u trúc âm ti t 5 thành ph nấ ế ầ C u trúc âm ti t 3 thành ph nấ ế ầ
Âm đ uầ Âm đ uầ
Âm đ mệ
T h p âm gi aổ ợ ữ
Âm chính Thanh đi uệ
(6)Nh v y, ư ậ T h p âm gi aổ ợ ữ c a c u trúc âm ti t 3 thành ph n th c ch t là baủ ấ ế ầ ự ấ thành ph n ầ Âm đ m, Âm chính, Thanh đi uệ ệ c a c u trúc âm ti t 5 thành ph n ghépủ ấ ế ầ l i.ạ
4. T CH C, CÀI Đ T VÀ NH N XÉTỔ Ứ Ặ Ậ 4.1. T ch c l u tr lu t âm ti t:ổ ứ ư ữ ậ ế
D a trên nh ng phân tích v âm ti t 3 thành ph n, chúng ta có th t ch c l uự ữ ề ế ầ ể ổ ứ tr t đi n lu t theo T h p âm gi a trên file d li u nh sau:ữ ể ậ ổ ợ ữ ữ ệ
Structure CT_AM
Tong_Am_Dau : LongInt To_Hop_Am_Giua : String(3) Tong_Am_Cuoi : LongInt End Structure
Trong đó: Tong_Am_Dau là giá tr t ng c a các Âm đ u có th đi v i t h p âmị ổ ủ ầ ể ổ ợ gi aữ
Tong_Am_Cuoi là giá tr t ng c a các Âm cu i có th đi v i t h p âm gi aị ổ ủ ố ể ổ ợ ữ
L u c u trúc âm này (có s p x p) thành m t t đi n các c u trúc âm đ sau nàyư ấ ắ ế ộ ể ấ ể chúng ta ki m tra các âm ti t trong t đi n.ể ế ể
4.2. Thu t tốn ki m tra m t âm ti t có đúng hay khơng.ậ ể ộ ế Đ u vào:ầ M t âm ti t.ộ ế
Đ u ra:ầ Âm ti t đúng chính t hay khơng.ế ả
Phương pháp:
1. Tách âm ti t ra làm 3 ph n: âm đ u, t h p âm gi a, âm cu i và chuy n thànhế ầ ầ ổ ợ ữ ố ể m t c u trúc âm ti t ộ ấ ế X, tương ng theo âm đ u, t h p âm gi a và âm cu i.ứ ầ ổ ợ ữ ố
2. Tìm t h p âm gi a trong t đi n theo phổ ợ ữ ể ương pháp tìm ki m nh phân.ế ị
3. N u tìm th y thì ti p t c bế ấ ế ụ ước 4, n u khơng thì nh y đ n bế ả ế ước 6 4. Ta l y đấ ược m t c u trúc âm ti t ộ ấ ế CTAM tương ng trong t đi n.ứ ể
5. Ki m tra xem âm đ u, âm cu i c a ể ầ ố ủ X có trong trong c u trúc âm ti t ấ ế CTAM đó hay khơng. N u có thi k t lu n là âm ti t đúng, nh y đ n bế ế ậ ế ả ế ước 7. N u không ti pế ế t c bụ ước 6
6. K t lu n âm ti t sai.ế ậ ế
7. K t thúc.ế
Vi c ki m tra toàn b các âm ti t c a văn b n là vi c ki m tra t t c các âm ti tệ ể ộ ế ủ ả ệ ể ấ ả ế có trong t đi n hay khơng.ừ ể
(7) Phương pháp này ti t ki m đế ệ ược không gian l u tr t đi n, s c u trúc l uư ữ ể ố ấ tr b ng s t h p âm gi a c a ti ng Vi t, s lữ ằ ố ổ ợ ữ ủ ế ệ ố ượng này không nhi u (kho ng 700ề ả c u trúc).ấ
Do s lố ượng c u trúc âm ti t nh nên vi c tìm ki m r t nhanh, v i phấ ế ỏ ệ ế ấ ương pháp tìm ki m nh phân thi t c đ tìm ki m là logế ị ố ộ ế 2(n) (n là s c u trúc âm ti t).ố ấ ế
TÀI LI U THAM KH OỆ Ả
1 Hoàng Phê (ch biên), ủ T đi n ti ng Vi từ ể ế ệ, Nhà xu t b n Giáo d c, Hà N iấ ả ụ ộ (1994)
2 Đoàn Thi n Thu t, ệ ậ Ng âm ti ng Vi tữ ế ệ, Nhà xu t b n Đ i h c và Trung h cấ ả ọ ọ chuyên nghi p Hà N i (1980).ệ ộ
3 Nguy n Qu c Dũng, ễ ố Ng pháp ti ng Vi tữ ế ệ, Trung tâm Đào t o T xa, Huạ ế (1995)
4 Bùi T t Tấ ươm (ch biên), ủ C s ngôn ng h c và ti ng Vi tơ ở ữ ọ ế ệ, Nhà xu t b nấ ả Giáo d c Hà N i (1997).ụ ộ
5 Phan Th Tị ươi Trình biên d chị , Nhà xu t b n Đ i h c Qu c gia, Tp. H Chíấ ả ọ ố Minh, (2001)
6 Jeffrey D. Ullman, (Tr n Đ c Quang d ch), ầ ứ ị Chương trình d chị , T p 1,2, Nhàậ xu t b n Th ng kê (2000).ấ ả ố
THE ALGORITHM FOR CHECKING THE VIETNAMESE SYLLABLES BASED ON THE CONSTRUCTING LAWS OF SYLLABLES
Nguyen Gia Đinh, Tran Thanh Luong College of Sciences, Hue University SUMMARY