Unicode Và Các Bảng Mã

Một phần của tài liệu XÂY DỰNG ỨNG DỤNG EXTENSIONS TRÊN MOZILA FIREFOX (Trang 59 - 61)

Vì những khó khăn kỹ thuật trong những năm trước đây, đã xuất hiện rất nhiều bảng mã tiếng Việt khác nhau và không tương thích với nhau. Chỉ sau khi unicode được sử dụng rộng rãi thì chuẩn tiếng Việt mới được quy về một mối.

Unicode là bảng mã chuẩn quốc tế vốn được thiết kếđể dùng là bảng mã duy nhất cho tất cả các ngôn ngữ khác nhau trên thế giới. Về nguyên tắc, Unicode cũng dùng 2 byte, nhưng khác với các bảng mã 2 byte của Việt Nam là Unicode là chuẩn quốc tế nên đã và sẽđược hỗ trợ trong các hệđiều hành và các chương trình ứng dụng.

Theo giới chuyên môn, Unicode tỏ ra là giải pháp trọn vẹn cho vấn đề bảng mã tiếng Việt. Đặc biệt đối với các ứng dụng Internet việc sử dụng tiếng Việt Unicode ngày càng có ưu thế hơn so với các bảng mã tiếng Việt khác.

Có hai dạng của Unicode, Unicode tổ hợp và Unicode dựng sẵn. Unicode tổ hợp và dựng sẵn chẳng qua là 2 dạng khác nhau của một chuẩn chung do tổ chức Unicode quy định. Hai dạng này hoàn toàn tương thích với nhau, có thể dùng lẫn lộn. Tuy nhiên, do đa phần các ứng dụng chưa hỗ trợ unicode một cách hoàn hảo theo như khuyến cáo của Unicode, bạn cần phải cân nhắc cẩn thận khi quyết định dùng dạng nào. Ngay cả các chuyên gia của Việt Nam cũng chưa thống nhất nên dùng dạng nào. Unicode dựng sẵn là sự lựa chọn an toàn và có ưu điểm là hiển thị tốt trong mọi môi trường.

Một số bản mã phổ biến:

Unicode: unicode dựng sẵn.

Composed Unicode: unicode tổ hợp.

ABC, VNI, VISCII, VPS, VIETWARE, BKHCM: Đây là các bảng mã tiếng Việt

cũ, hiện đang còn sử dụng phổ biến.

MS CP 1258: bảng mã tiếng Việt do Microsoft quy định. Nếu dùng bảng mã này

trong các chương trình hỗ trợ unicode của Microsoft như Office, Outlook Express... thì nó cho cùng một kết quả như unicode tổ hợp.

VIQR: Thực chất đây không phải là bảng mã mà chỉ là dạng thể hiện tiếng Việt dưới dạng "thô sơ" thông qua các ký tự chuẩn. Dạng này vẫn còn được dùng nhiều trong trao đổi email.

UTF-8 Literal, NCR Decimal, NCR Hexadecimal: Đây thực chất là các dạng thể

hiện khác nhau của Unicode dựng sẵn. Nếu bạn là người dùng bình thường và chưa nghe đến chúng thì nhiều khả năng bạn sẽ không bao giờ cần đến chúng. Các dạng này chủ yếu nhằm phục vụ những người soạn Web chuyên nghiệp khi chương trình soạn Web không cho phép soạn unicode trực tiếp.

X UTF-8: dạng đặc biệt để soạn unicode trong các chương trình vốn xuất xứ từ

Trước khi có các font chữ và bẳng mã Unicode sử dụng như hiện nay, các bảng mã như

VNI, ABC được sử dụng làm bảng mã chính ở Việt Nam. Nếu bạn từng sử dụng máy tính trươc đây sẽ hiểu những khó khăn khi không có Unicode. Sử dụng tiếng việt trong các chương trình rất khó khăn và phải dùng đến những thủ thuật.

Khi đó công việc soạn thảo văn bản chủ yếu dùng hai bảng mã phổ biến nhất VNI, và ABC. Những tài liệu văn bản, trang web được viết bằng nhiều loại font khác nhău không thuộc cùng một bảng mã hiện vẫn đang được sử dụng một cách phổ biến do tính chất ưu việt về mặt mỹ thuật chữ tiếng Việt. Nhưng điều này nảy sinh một vấn đề là không được hiển thị đúng nội dung tiếng Việt khi tài liệu web hay văn bản được đọc trên một hệ

thống khác không được cài đặt và sủ dụng những font này.

Với một người có hiểu biết về công nghệ thông tin. Việc giải quyết vấn đề này không có gì khó khăn. Nhưng với một người sử dụng bình thường thì sẽ là cả một vấn đề lớn. Do

đó giải pháp tốt nhất để giải quyết vấn đề này là sử dụng Unicode trong mọi trường hợp, do tính năng nổi trội của nó có thể hỗ trợ hiển thị tốt trên mọi hệ thống, còn với những tài liệu cũ, cách tốt nhất là chuyển chúng sang toàn bộđịnh dạng Unicode.

Để có thể xây dựng Extension hỗ trợ Mozilla Firefox hiển thị những tài liệu web cũ, ta có thể chọn giải pháp là chuyển toàn bộ những văn bản của tài liệu có thể hiển thị trên trang web sang bảng mã Unicode phổ biến nhất hiện nay.

Một phần của tài liệu XÂY DỰNG ỨNG DỤNG EXTENSIONS TRÊN MOZILA FIREFOX (Trang 59 - 61)