Bảng mã tiếng Việt trên máy tính

Một phần của tài liệu LUẬN VĂN: NGHIÊN CỨU CÁC PHƯƠNG PHÁP XỬ LÝ TIẾNG VIỆT ỨNG DỤNG CHO TÓM TẮT VĂN BẢN doc (Trang 25 - 26)

Hiện nay, việc đưa tiếng Việt vào máy tính không chỉ để soạn thảo văn bản mà còn để xây dựng các phần mềm có giao diện tiếng Việt và cũng để xử lý tiếng Việt. Tuy nhiên, hiện nay có nhiều cách mã hoá các kí tự tiếng Việt khác nhau, dẫn tới có nhiều bảng mã khác nhau được sử dụng. Theo thống kê, có tới trên 40 bảng mã tiếng Việt khác nhau được sử dụng, do đó, việc khai thác tài liệu cũng như xử lý dữ liệu rất phức tạp.

Có thể kể đến một số bảng mã dưới đây [4]. - Mã dựng sẵn

+ Mã dựng sẵn một bảng fonts: TCVN 5712-VN1, VISCII, BachKhoa 1, VietStar…: các bảng mã này mở rộng sang cả phần mã chuẩn, nên gây ảnh hưởng nghiêm trọng trong truyền thông.

+ Mã dựng sẵn hai bảng fonts: TCVN 5712-VN3 (ABC), VietSea, VNU…: sử dụng 2 bảng mã cho một kiểu chữ nên gây dư thừa và không hiện thực việc phân biệt chữ hoa chữ thường trong các chương trình xử lý số liệu.

- Mã tổ hợp

Các bảng mã VietWare-X, Vni for Windows, TCVN 5712-VN2, BachKhoa II, VS2, 3C25… và các trang mã 1258 (Microsoft), 1129 (IBM), ISO 10646 sử dụng phương pháp mã tổ hợp.

Tuy nhiên, hiện nay việc sử dụng tiếng Việt trên máy tính vẫn chưa có sự thống nhất cao về chuẩn mã tiếng Việt, gây khó khăn lớn cho việc thu thập, khai thác và xử lý tiếng Việt. Đòi hỏi các hệ thống xử lý văn bản tiếng Việt cần phải có bước tiền xử lý để nhận dạng và quy chuẩn các kí tự về một bảng mã chung.

Tóm tại, tiếng Việt là ngôn ngữ không biến hình từ và âm tiết tính, do đó, việc phân loại từ (danh từ, động từ, tính từ…) và ý nghĩa từ là vấn đề khó, cần có nhiều

nghiên cứu thêm. Do vậy, tiền xử lý văn bản (tách từ, tách đoạn, tách câu…) trở nên rất phức tạp với việc xử lý các hư từ, phụ từ, từ láy…; hơn nữa, phương thức ngữ pháp chủ yếu là trật tự từ nên nếu áp dụng phương pháp tính xác suất xuất hiện của từ có thể không chính xác như mong đợi. Mặt khác, ranh giới xác định từ không phải là khoảng trắng, khiến cho việc tách từ trở nên khó khăn, dẫn đến khó khăn cho các giai đoạn tiếp theo như kiểm lỗi chính tả, gán nhãn từ loại, thống kê tần suất từ… Như thế, các phương pháp xử lý ngôn ngữ đang áp dụng cho tiếng Anh không thể áp dụng trực tiếp cho tiếng Việt mà cần có sự thay đổi cho phù hợp.

Một phần của tài liệu LUẬN VĂN: NGHIÊN CỨU CÁC PHƯƠNG PHÁP XỬ LÝ TIẾNG VIỆT ỨNG DỤNG CHO TÓM TẮT VĂN BẢN doc (Trang 25 - 26)

Tải bản đầy đủ (PDF)

(59 trang)