Thuật toán kiểm tra âm tiết tiếng Việt dựa trên luật cấu tạo âm tiết

7 27 0
Thuật toán kiểm tra âm tiết tiếng Việt dựa trên luật cấu tạo âm tiết

Đang tải... (xem toàn văn)

Thông tin tài liệu

Trong bài báo báo này, tác giả đưa ra một phương pháp mới dùng để kiểm tra lỗi chính tả tiếng Việt. Đó là kiểm tra chính tả dựa trên luật cấu tạo âm tiết tiếng Việt, cấu trúc âm tiết theo cách tiếp cận hướng ngôn ngữ; và theo cách tiếp cận hướng tổ hợp âm,... Mời các bạn cùng tham khảo.

TẠP CHÍ KHOA HỌC, Đại học Huế, Số 25, 2004 THUẬT TOÁN KIỂM TRA ÂM TIẾT TIẾNG VIỆT DỰA TRÊN LUẬT CẤU TẠO ÂM TIẾT Nguyễn Gia Định, Trần Thanh Lương Trường Đại học Khoa học, Đại học Huế GIỚI THIỆU Trong thời đại ngày nhu cầu giao tiếp văn ngày nhiều Các văn thường in từ máy tính thơng qua phần mềm soạn thảo văn như: MS Word, Word Perfect cần phải đúng, xác hiệu Để làm phải kiểm tra tả, ngữ pháp văn trước in gửi Tuy nhiên, văn lớn việc kiểm tra người thực nhiều thời gian công việc nhàm chán Vì nhiều ngun nhân, có ngun nhân tâm lý làm người kiểm tra không kiểm tra hết văn bản, kiểm tra xong văn khơng đảm bảo văn tồn Sai sót lớn văn thường lỗi tả khơng cố ý (tức lỗi đánh máy nhầm) Xuất phát từ yều cầu mà phần mềm MS Word có chức kiểm tra tả ngữ pháp tiếng Anh mức độ tương đối định Việc kiểm tra lỗi tả diễn dễ dàng MS Word, với lỗi ngữ pháp chưa hồn toàn Vấn đề kiểm tra ngữ pháp ngôn ngữ tự nhiên vấn đề khó nghiên cứu nhà khoa học, hãng phần mềm lớn giới Đối với tiếng Việt xuất phần mềm kiểm tra tả, phần mềm Vietkey Office, phần mềm kiểm tra lỗi tả dựa tập từ vựng có sẵn từ điển Vì khả mở phần mềm khơng có, tức khơng có khả học từ từ văn tả Hơn sử dụng chế lưu từ vựng từ điển nên phải lưu trữ lượng lớn từ vựng Đó hạn chế phần mềm Vietkey Office Trong báo báo này, đưa phương pháp dùng để kiểm tra lỗi tả tiếng Việt Đó kiểm tra tả dựa luật cấu tạo âm tiết tiếng Việt Trong phần 2, giới thiệu cấu trúc âm tiết theo cách tiếp cận hướng ngôn 37 ngữ; theo cách tiếp cận hướng tổ hợp âm; Phần phần so sánh hai cách tiếp cận Cuối thuật toán, tổ chức, cài đặt số nhận xét 38 PHÂN TÍCH CẤU TRÚC ÂM TIẾT 2.1 Âm tiết Âm tiết đơn vị phát âm nhỏ mà cho dù ta có phát âm chậm đến khơng thể tách thành phần nhỏ 2.2 Cấu trúc âm tiết thành phần: (Cách tiếp cận theo hướng ngôn ngữ) Theo ngôn ngữ học âm tiết tiếng Việt cấu tạo từ năm thành phần sau: - Âm đầu - Âm đệm - Âm - Âm cuối - Thanh điệu Chúng ta viết cấu trúc âm tiết theo cách tiếp cận thành phần sau: Âm tiết = [Âm đầu][Âm đệm][Âm cuối][Thanh điệu] Trong thành phần nằm cặp dấu bắt buộc phải có, thành phần nằm cặp dấu [ ] có khơng Ví dụ: Âm tiết hai O Các thành phần cấu tạo thành âm tiết Âm đầu h Âm đệm o Âm ă Âm cuối c Thanh điệu Âm đầu h Âm đệm khơng có Âm Âm cuối khơng có Thanh điệu khơng có Âm đầu khơng có Âm đệm khơng có Âm o Âm cuối khơng có Thanh điệu khơng có 39 Đây cách tiếp cận tốt việc phân tích ngơn ngữ tiếng Việt Tuy nhiên, cách tiếp cận khó khăn việc kiểm tra lỗi tả máy tính Vì vậy, đưa cách tiếp cận ngắn gọn để dễ dàng cho việc kiểm tra tả máy tính 2.3 Cấu trúc âm tiết ba thành phần: (Cách tiếp cận theo hướng tổ hợp âm) Chúng ta phân tích âm tiết thành ba thành phần sau: - Âm đầu - Tổ hợp âm - Âm cuối Cấu trúc âm tiết theo cách tiếp cận thành phần viết lại sau: Âm tiết = [Âm đầu][Âm cuối] Trong thành phần nằm cặp dấu bắt buộc phải có, thành phần nằm cặp dấu [ ] có khơng Ví dụ: Âm tiết Hai O Các thành phần cấu tạo thành âm tiết Âm đầu h Tổ hợp âm oặ Âm cuối c Âm đầu h Tổ hợp âm Âm cuối Âm đầu khơng có Tổ hợp âm o Âm cuối khơng có Âm đầu gồm có 27 loại sau: b, c, ch, d, đ, g, gh, h, k, kh, l, m, n, ng, ngh, nh, p, ph, q, r, s, t, th, tr, v, x, none Tổ hợp âm có số lượng lớn, tổ hợp âm cập nhật trinh học văn chương trình Ví dụ số tổ hợp âm là: a, ai, au, ay, e, eo, i, ia, iai, iày, iá, iáo Âm cuối gồm có loại sau: c, ch, m, n, ng, nh, p, t, none Trong đó: none có nghĩa âm khuyết Trong cấu trúc âm tiết thành phần tổ hợp âm thành phần bắt buộc phải có, thành phần cấu tạo nên âm tiết 40 Dựa cấu trúc âm tiết thành phần thấy tổ hợp âm ghép với số âm đầu số âm cuối định, điều minh họa sau: b 2.c ch d đ g gh h k 10 kh 11 l 12 m 13 n 14 ng Âm đầu 15 ngh 16 nh 17 p 18 ph 19 q 20 r 21 s 22 t 23 th 24 tr 25 v 26 x 27 none Tổ hợp âm ươ Âm cuối c ch m n ng nh p t none Những âm đầu, tổ hợp âm giữa, âm cuối tơ đậm ghép với để tạo thành âm tiết: chẳng hạn như: chươm, chươn, chương, cươm, cươn, chương, gươm, gươn, gương SO SÁNH HAI DẠNG CẤU TRÚC ÂM TIẾT Hai dạng cấu trúc âm tiết có số khác phương diện tiếp cận, dạng cấu trúc âm tiết thành phần tổ hợp dạng cấu trúc âm tiết thành phần Hay dạng cấu trúc âm tiết thành phần khai triển dạng cấu trúc âm tiết thành phần Chúng ta thấy tương ứng hai dạng cấu trúc sau: Cấu trúc âm tiết thành phần Âm đầu Âm đệm Âm Thanh điệu Âm cuối Cấu trúc âm tiết thành phần Âm đầu Tổ hợp âm Âm cuối Như vậy, Tổ hợp âm cấu trúc âm tiết thành phần thực chất ba thành phần Âm đệm, Âm chính, Thanh điệu cấu trúc âm tiết thành phần ghép lại 41 TỔ CHỨC, CÀI ĐẶT VÀ NHẬN XÉT 4.1 Tổ chức lưu trữ luật âm tiết: Dựa phân tích âm tiết thành phần, tổ chức lưu trữ từ điển luật theo Tổ hợp âm file liệu sau: Structure CT_AM Tong_Am_Dau : LongInt To_Hop_Am_Giua : String(3) Tong_Am_Cuoi : LongInt End Structure Trong đó: Tong_Am_Dau giá trị tổng Âm đầu với tổ hợp âm Tong_Am_Cuoi giá trị tổng Âm cuối với tổ hợp âm Lưu cấu trúc âm (có xếp) thành từ điển cấu trúc âm để sau kiểm tra âm tiết từ điển 4.2 Thuật toán kiểm tra âm tiết có hay khơng Đầu vào: Một âm tiết Đầu ra: Âm tiết tả hay khơng Phương pháp: Tách âm tiết làm phần: âm đầu, tổ hợp âm giữa, âm cuối chuyển thành cấu trúc âm tiết X, tương ứng theo âm đầu, tổ hợp âm âm cuối Tìm tổ hợp âm từ điển theo phương pháp tìm kiếm nhị phân Nếu tìm thấy tiếp tục bước 4, khơng nhảy đến bước Ta lấy cấu trúc âm tiết CTAM tương ứng từ điển Kiểm tra xem âm đầu, âm cuối X có trong cấu trúc âm tiết CTAM hay khơng Nếu có thi kết luận âm tiết đúng, nhảy đến bước Nếu không tiếp tục bước 6 Kết luận âm tiết sai Kết thúc Việc kiểm tra toàn âm tiết văn việc kiểm tra tất âm tiết có từ điển hay khơng Với phương pháp kiểm tra tất âm tiết văn có tả hay không 4.3 Nhận xét: - Phương pháp tiết kiệm không gian lưu trữ từ điển, số cấu trúc lưu trữ số tổ hợp âm tiếng Việt, số lượng không nhiều (khoảng 700 cấu trúc) 42 - Do số lượng cấu trúc âm tiết nhỏ nên việc tìm kiếm nhanh, với phương pháp tìm kiếm nhị phân thi tốc độ tìm kiếm log2(n) (n số cấu trúc âm tiết) TÀI LIỆU THAM KHẢO Hoàng Phê (chủ biên), Từ điển tiếng Việt, Nhà xuất Giáo dục, Hà Nội (1994) Đoàn Thiện Thuật, Ngữ âm tiếng Việt, Nhà xuất Đại học Trung học chuyên nghiệp Hà Nội (1980) Nguyễn Quốc Dũng, Ngữ pháp tiếng Việt, Trung tâm Đào tạo Từ xa, Huế (1995) Bùi Tất Tươm (chủ biên), Cơ sở ngôn ngữ học tiếng Việt, Nhà xuất Giáo dục Hà Nội (1997) Phan Thị Tươi Trình biên dịch, Nhà xuất Đại học Quốc gia, Tp Hồ Chí Minh, (2001) Jeffrey D Ullman, (Trần Đức Quang dịch), Chương trình dịch, Tập 1,2, Nhà xuất Thống kê (2000) THE ALGORITHM FOR CHECKING THE VIETNAMESE SYLLABLES BASED ON THE CONSTRUCTING LAWS OF SYLLABLES Nguyen Gia Đinh, Tran Thanh Luong College of Sciences, Hue University SUMMARY In this paper, we introduce a new method to check the spelling mistakes in Vietnamese This method is based on the constructing laws of syllables 43 ... trúc âm tiết thành phần Âm đầu Âm đệm Âm Thanh điệu Âm cuối Cấu trúc âm tiết thành phần Âm đầu Tổ hợp âm Âm cuối Như vậy, Tổ hợp âm cấu trúc âm tiết thành phần thực chất ba thành phần Âm đệm, Âm. .. trị tổng Âm đầu với tổ hợp âm Tong_Am_Cuoi giá trị tổng Âm cuối với tổ hợp âm Lưu cấu trúc âm (có xếp) thành từ điển cấu trúc âm để sau kiểm tra âm tiết từ điển 4.2 Thuật toán kiểm tra âm tiết có... Ví dụ: Âm tiết hai O Các thành phần cấu tạo thành âm tiết Âm đầu h Âm đệm o Âm ă Âm cuối c Thanh điệu Âm đầu h Âm đệm khơng có Âm Âm cuối khơng có Thanh điệu khơng có Âm đầu khơng có Âm đệm

Ngày đăng: 18/05/2021, 16:16

Mục lục

  • TẠP CHÍ KHOA HỌC, Đại học Huế, Số 25, 2004

    • Tổ hợp âm giữa

      • TÀI LIỆU THAM KHẢO

        • THE ALGORITHM FOR CHECKING THE VIETNAMESE SYLLABLES

        • BASED ON THE CONSTRUCTING LAWS OF SYLLABLES

Tài liệu cùng người dùng

Tài liệu liên quan