Sự phức tạp trong mã hoá tiếng Việt

1. MỤC ĐÍC H

2.2.4. Sự phức tạp trong mã hoá tiếng Việt

Do lịch sử áp dụng tiếng Việt vào công nghệ thông tin có từ rất lâu dài và có sự không thống nhất giữa các mã qua các thời kỳ mà hiện nay có rất nhiều mã khác nhaụ Tiếng Việt có tất cả 134 ký tự đặc thù Việt (kể cả chữ thường và chữ hoa). Ban đầu chúng ta dùng tiếng Việt với mã ASCII chỉ có 128 giá trị của phần mở rộng và không đủ để mã tất cả các chữ cái tiếng Việt. Do đó, có khác nhiều cách đề xuất nhằm mã hóa tiếng Việt trong khuôn khổ bảng mã 8-Bit. Không chỉ vậy, thói quen bỏ dấu cho từ của 2 miền Nam, Bắc cũng khác nhau nên đến tận bây giờ vẫn không thể thống nhất về bảng mã và bộ gõ và cách gõ được

TCVN3 (TCVN 5712-1993)[4] hay bộ gõ ABC, Việtkey khá nổi tiếng ở miền bắc với việc chỉ sử dụng chữ thường trong bảng mã, tức là chỉ cần 67 giá trị, còn chữ hoa được thể hiện bằng cách dùng phông chữ hoa thường được dùng ở miền Bắc.

VNI sử dụng giải pháp tổ hợp là dùng hai ký tự: ký tự nguyên âm và ký tự dấu ghép lồng vào nhaụ Ví dụ chữ ‘á’ được tạo thành bởi ký tự ‘a’ và ký tự dấu sắc (‘) thường được dùng ở miền Nam

Nhưng tóm lại thì cả hai cách mã hoá trên chỉ là cách giải quyết tạm thời vì cả hai giải pháp này đều có những nhược điểm và vấn đề chính là làm mất sự thống nhất trong cách mã hoá tiếng Việt. Cũng theo cách này, hàng loạt các bộ mã tiếng Việt khác ra đời như bộ mã Bách Khoa TPHCM, bộ mã Việt Toàn, bộ mã VIQR, … Kết quả là trong một thời gian dài, có đến hơn 40 cách mã hoá tiếng Việt khác nhau song song tồn tạị

Vấn đề đặt ra cũng tương tự với các ngôn ngữ khác, đặc biệt là các ngôn ngữ không thuộc hệ La-tinh như tiếng Trung Quốc, tiếng Nhật, … Theo cách này, việc sử dụng đồng thời các ngôn ngữ trong cùng một văn bản và trong cùng một phông chữ thường không thể hoặc rất khó khăn khi thực hiện.

Sự phức tạp trong mã hoá tiếng Việt

Tăng tốc độ crawl và crawl song song

Làm tươi trang Web (pages refresh)