Thuật toán kiểm tra âm tiết tiếng Việt dựa trên luật cấu tạo âm tiết

7 27 0
Thuật toán kiểm tra âm tiết tiếng Việt dựa trên luật cấu tạo âm tiết

Đang tải... (xem toàn văn)

Thông tin tài liệu

[r]

(1)

T P CHÍ KHOA H C, Đ i h c Hu , S  25, 2004 ạ ọ ế ố

THU T TOÁN KI M TRA ÂM TI T TI NG VI T  D A TRÊN LU T C U T O ÂM TI T

Nguy n Gia Đ nh, Tr n Thanh Lễ ương Trường Đ i h c Khoa h c, Đ i h c Huạ ọ ạ ọ ế 1. GI I THI U

Trong th i đ i ngày nay nhu c u giao ti p b ng văn b n ngày càng nhi u. Cácờ ầ ế ằ ả ề   văn b n này thả ường được in ra t  máy tính thơng qua các ph n m m so n th o vănừ ầ ề ả   b n nh : MS Word, Word Perfect  nó c n ph i đúng, chính xác và hi u qu  Đ  làmả ầ ả ệ ả ể   được nh  v y chúng ta ph i ki m tra chính t , ng  pháp văn b n trư ậ ả ể ả ữ ả ước khi in ra và  g i đi. Tuy nhiên, khi văn b n l n thì vi c ki m tra do con ngử ả ệ ể ười th c hi n m t r tự ệ ấ ấ   nhi u th i gian và là m t cơng vi c nhàm chán. Vì nhi u ngun nhân, trong đó cóề ộ ệ ề   ngun nhân v  tâm lý làm ngề ười ki m tra không ki m tra h t văn b n, ho c khiể ể ế ả ặ   ki m tra xong văn b n thì cũng khơng đ m b o văn b n đúng tồn b  Sai sót l nể ả ả ả ả ộ   nh t trong văn b n thấ ả ường là l i chính t  khơng c  ý (t c là l i do đánh máy nh m).ỗ ả ố ứ ỗ ầ

Xu t phát t  nh ng y u c u đó mà trong ph n m m MS Word cũng đã có ch cấ ữ ề ầ ầ ề ứ   năng ki m tra chính t  và ng  pháp ti ng Anh   m t m c đ  tể ả ữ ế ộ ứ ộ ương đ i nh t đ nh.ố ấ ị   Vi c ki m tra l i chính t  di n ra khá d  dàng trong MS Word, nh ng v i l i ngệ ể ỗ ả ễ ễ ỗ ữ  pháp thì ch a hồn tồn đúng. V n đ  ki m tra ng  pháp đ i v i ngôn ng  t  nhiênư ấ ề ể ữ ố ữ ự   là m t trong nh ng v n đ  r t khó và đang độ ữ ấ ề ấ ược nghiên c u b i các nhà khoa h c,ứ ọ   các hãng ph n m m l n trên th  gi i. Đ i v i ti ng Vi t cũng đã xu t hi n ph nầ ề ế ố ế ệ ấ ệ ầ   m m ki m tra chính t , đó là ph n m m Vietkey Office, ph n m m này ki m tra l iề ể ả ầ ề ầ ề ể ỗ   chính t  d a trên m t t p các t  v ng có s n trong t  đi n. Vì v y kh  năng m  c aả ự ộ ậ ự ẵ ể ậ ả ủ   ph n m m là khơng có, t c là khơng có kh  năng h c các t  m i t  văn b n đúngầ ề ứ ả ọ ừ ả   chính t  H n n a do s  d ng c  ch  l u các t  v ng trong t  đi n nên ph i l u trả ữ ụ ế ự ể ả ữ  m t lộ ượng khá l n các t  v ng. Đó là nh ng h n ch  c a ph n m m Vietkey Office.ớ ự ữ ế ủ ầ ề

(2)(3)

2. PHÂN TÍCH C U TRÚC ÂM TI T 2.1. Âm ti tế

Âm ti t là đ n v  phát âm nh  nh t mà cho dù ta có phát âm ch m đ n m y điế ị ỏ ấ ậ ế ấ   n a cũng không th  tách ra thành các ph n nh  h n đữ ể ầ ỏ ược

2.2. C u trúc âm ti t 5 thành ph n: (Cách ti p c n theo h ế ế ướng ngôn ng ) Theo ngôn ng  h c m t âm ti t ti ng Vi t đữ ọ ộ ế ế ệ ượ ấ ừc c u t o t  năm thành ph n sau:ầ

­ Âm đ uầ

­ Âm đ mệ

­ Âm chính ­ Âm cu iố

­ Thanh đi uệ

Chúng ta có th  vi t c u trúc c a m t âm ti t theo cách ti p c n 5 thành ph nể ế ấ ủ ộ ế ế ậ ầ   nh  sau:ư

Âm ti t = [Âm đ u][Âm đ m]<Âm chính>[Âm cu i][Thanh đi u]ế ầ ệ ố ệ

Trong đó nh ng thành ph n n m trong c p d u <> là b t bu c ph i có, nh ngữ ầ ằ ặ ấ ắ ộ ả ữ   thành ph n n m trong c p d u [ ] thì có th  có ho c khơng.ầ ằ ặ ấ ể ặ

Ví d : ụ

Âm ti tế Các thành ph n c u t o thành âm ti t ấ ạ ế

ho c

Âm đ uầ h Âm đ mệ o Âm chính ă Âm cu iố c Thanh đi uệ

hai

Âm đ uầ h

Âm đ mệ khơng có Âm chính ai  Âm cu iố khơng có Thanh đi uệ khơng có

O

Âm đ uầ khơng có Âm đ mệ khơng có Âm chính o

(4)

Đây là m t cách ti p c n r t t t trong vi c phân tích ngơn ng  ti ng Vi t. Tuyộ ế ậ ấ ố ệ ữ ế ệ   nhiên, cách ti p c n này r t khó khăn trong vi c ki m tra l i chính t  trên máy tính.ế ậ ấ ệ ể ỗ ả   Vì v y, chúng tơi đ a ra m t cách ti p c n m i ng n g n h n đ  d  dàng cho vi cậ ộ ế ậ ắ ọ ể ễ ệ   ki m tra chính t  trên máy tính.ể ả

2.3. C u trúc âm ti t ba thành ph n: (Cách ti p c n theo h ế ế ướng t  h p âm)ổ ợ Chúng ta có th  phân tích m t âm ti t thành ba thành ph n sau:ể ộ ế ầ

­ Âm đ uầ

­ T  h p âm gi aổ ợ ữ

­ Âm cu iố

C u trúc c a m t âm ti t theo cách ti p c n 3 thành ph n s  đấ ủ ộ ế ế ậ ầ ẽ ược vi t l i nhế ư  sau:

Âm ti t = [Âm đ u]<T  h p âm gi a>[Âm cu i]ế ầ ổ ợ ữ ố

Trong đó nh ng thành ph n n m trong c p d u <> là b t bu c ph i có, nh ngữ ầ ằ ặ ấ ắ ộ ả ữ   thành ph n n m trong c p d u [ ] thì có th  có ho c khơng.ầ ằ ặ ấ ể ặ

Ví d :ụ

Âm ti tế Các thành ph n c u t o thành âm ti t ấ ạ ế ho c

Âm đ uầ h T  h p âm gi aổ ợ ữ oặ Âm cu iố c Hai

Âm đ uầ h T  h p âm gi aổ ợ ữ

Âm cu iố khơng có O

Âm đ uầ khơng có T  h p âm gi aổ ợ ữ o

Âm cu iố khơng có Âm đ u g m có 27 lo i nh  sau:ầ

b, c, ch, d, đ, g, gh, h, k, kh, l, m, n, ng, ngh, nh, p, ph, q, r, s, t, th, tr, v, x, none T  h p âm gi a có s  lổ ợ ữ ố ượng r t l n, t  h p âm gi a s  đấ ổ ợ ữ ẽ ượ ậc c p nh t trong quáậ   trinh h c văn b n c a chọ ả ủ ương trình. Ví d  m t s  t  h p âm gi a là:ụ ộ ố ổ ợ ữ

a, ai, au, ay, e, eo, i, ia, iai, iày, iá, iáo Âm cu i g m có 9 lo i nh  sau:ố

c, ch, m, n, ng, nh, p, t, none

Trong đó: none có nghĩa là âm khuy t.ế

(5)

D a trên c u trúc âm ti t 3 thành ph n chúng ta th y m t ự ấ ế ầ ấ ộ t  h p âm gi a ổ ợ thì có  th  ghép v i ể m t s  âm đ u ộ ố và m t s  âm cu i ộ ố nh t đ nh, đi u này có th  minhấ ị ề ể   h a nh  sau:ọ

Âm đ u T  h p âm gi aổ ợ Âm cu i 1. b 15. ngh

ươ

1. c

2.c 16. nh 2. ch

3. ch 17. p 3. m

4. d 18. ph 4. n

5. đ 19. q 5. ng

6. g 20. r 6. nh

7. gh 21. s 7. p

8. h 22. t 8. t

9. k 23. th 9. none

10. kh 24. tr 11. l 25. v 12. m 26. x 13. n 27. none 14. ng

Nh ng âm đ u, t  h p âm gi a, âm cu i tơ đ m là có th  ghép v i nhau đ  t oữ ầ ổ ợ ữ ố ậ ể ể   thành   âm   ti t:   ch ng   h n   nh :   chế ẳ ươm,   chươn,   chương,   cươm,   cươn,   chương,  gươm, gươn, gương

3. SO SÁNH HAI D NG C U TRÚC ÂM TI T

Hai d ng c u trúc âm ti t này có m t s  s  khác nhau trên phạ ấ ế ộ ố ự ương di n ti pệ ế   c n, trong đó d ng c u trúc âm ti t 3 thành ph n là t  h p c a d ng c u trúc âm ti tậ ấ ế ầ ổ ợ ủ ấ ế  5 thành ph n. Hay d ng c u trúc âm ti t 5 thành ph n là khai tri n c a d ng c u trúcầ ấ ế ầ ể ủ ấ   âm ti t 3 thành ph n. Chúng ta có th  th y s  tế ầ ể ấ ự ương  ng gi a hai d ng c u trúc nàyứ ữ ấ   nh  sau:ư

C u trúc âm ti t 5 thành ph n ế C u trúc âm ti t 3 thành ph n ế

Âm đ uầ Âm đ uầ

Âm đ mệ

T  h p âm gi aổ ợ ữ

Âm chính Thanh đi uệ

(6)

Nh  v y, ư ậ T  h p âm gi aổ ợ  c a c u trúc âm ti t 3 thành ph n th c ch t là baủ ấ ế ầ ự ấ   thành ph n ầ Âm đ m, Âm chính, Thanh đi u  c a c u trúc âm ti t 5 thành ph n ghépủ ấ ế ầ   l i.ạ

4.  T  CH C, CÀI Đ T VÀ NH N XÉT 4.1. T  ch c l u tr  lu t âm ti t: ứ ư ữ ậ ế

D a trên nh ng phân tích v  âm ti t 3 thành ph n, chúng ta có th  t  ch c l uự ữ ề ế ầ ể ổ ứ   tr  t  đi n lu t theo T  h p âm gi a trên file d  li u nh  sau:ữ ể ậ ổ ợ ữ ữ ệ

Structure CT_AM

Tong_Am_Dau : LongInt To_Hop_Am_Giua : String(3) Tong_Am_Cuoi : LongInt End Structure

Trong đó: Tong_Am_Dau là giá tr  t ng c a các Âm đ u có th  đi v i t  h p âmị ổ ủ ầ ể ổ ợ   gi aữ

Tong_Am_Cuoi là giá tr  t ng c a các Âm cu i có th  đi v i t  h p âm gi aị ổ ủ ố ể ổ ợ ữ

L u c u trúc âm này (có s p x p) thành m t t  đi n các c u trúc âm đ  sau nàyư ấ ắ ế ộ ể ấ ể   chúng ta ki m tra các âm ti t   trong t  đi n.ể ế ể

4.2. Thu t tốn ki m tra m t âm ti t có đúng hay khơng. ế Đ u vào:  M t âm ti t.ộ ế

Đ u ra:  Âm ti t đúng chính t  hay khơng.ế ả

Phương pháp:

1. Tách âm ti t ra làm 3 ph n: âm đ u, t  h p âm gi a, âm cu i và chuy n thànhế ầ ầ ổ ợ ữ ố ể   m t c u trúc âm ti t ộ ấ ế X, tương  ng theo âm đ u, t  h p âm gi a và âm cu i.ứ ầ ổ ợ ữ ố

2. Tìm t  h p âm gi a trong t  đi n theo phổ ợ ữ ể ương pháp tìm ki m nh  phân.ế ị

3. N u tìm th y thì ti p t c bế ấ ế ụ ước 4, n u khơng thì nh y đ n bế ả ế ước 6 4. Ta l y đấ ược m t c u trúc âm ti t ộ ấ ế CTAM tương  ng trong t  đi n.ứ ể

5. Ki m tra xem âm đ u, âm cu i c a ể ầ ố ủ X có trong trong c u trúc âm ti t ấ ế CTAM  đó hay khơng. N u có thi k t lu n là âm ti t đúng, nh y đ n bế ế ậ ế ả ế ước 7. N u không ti pế ế   t c bụ ước 6

6. K t lu n âm ti t sai.ế ậ ế

7. K t thúc.ế

Vi c ki m tra toàn b  các âm ti t c a văn b n là vi c ki m tra t t c  các âm ti tệ ể ộ ế ủ ả ệ ể ấ ả ế   có trong t  đi n hay khơng.ừ ể

(7)

­ Phương pháp này ti t ki m đế ệ ược không gian l u tr  t  đi n, s  c u trúc l uư ữ ể ố ấ   tr  b ng s  t  h p âm gi a c a ti ng Vi t, s  lữ ằ ố ổ ợ ữ ủ ế ệ ố ượng này không nhi u (kho ng 700ề ả   c u trúc).ấ

­ Do s  lố ượng c u trúc âm ti t nh  nên vi c tìm ki m r t nhanh, v i phấ ế ỏ ệ ế ấ ương  pháp tìm ki m nh  phân thi t c đ  tìm ki m là logế ị ố ộ ế 2(n) (n là s  c u trúc âm ti t).ố ấ ế

TÀI LI U THAM KH O

1 Hoàng Phê (ch  biên),  ủ T  đi n ti ng Vi từ ế , Nhà xu t b n Giáo d c, Hà N iấ ả ụ ộ  (1994)

2 Đoàn Thi n Thu t,  ệ ậ Ng  âm ti ng Vi tữ ế , Nhà xu t b n Đ i h c và Trung h cấ ả ọ ọ   chuyên nghi p Hà N i (1980).ệ ộ

3 Nguy n Qu c Dũng,  ễ ố Ng  pháp ti ng Vi tữ ế , Trung tâm Đào t o T  xa, Huạ ế  (1995)

4 Bùi T t Tấ ươm (ch  biên),  ủ C  s  ngôn ng  h c và ti ng Vi tơ ở ữ ọ ế , Nhà xu t b nấ ả   Giáo d c Hà N i (1997).ụ ộ

5 Phan Th  Tị ươi  Trình biên d chị , Nhà xu t b n Đ i h c Qu c gia, Tp. H  Chíấ ả ọ ố   Minh, (2001)

6 Jeffrey D. Ullman, (Tr n Đ c Quang d ch),  ầ ứ ị Chương trình d chị , T p 1,2, Nhàậ   xu t b n Th ng kê (2000).ấ ả ố

THE ALGORITHM FOR CHECKING THE VIETNAMESE SYLLABLES BASED ON THE CONSTRUCTING LAWS OF SYLLABLES

Nguyen Gia Đinh, Tran Thanh Luong College of  Sciences, Hue University SUMMARY

Ngày đăng: 06/04/2021, 14:12

Tài liệu cùng người dùng

Tài liệu liên quan