Unicode và ISO 106-46

I. Quá trình phát trieơn font chữ 2 byte

9. Unicode và ISO 106-46

Unicode xuât phát từ Xerox Parc. Naím 1991, Apple và các cođng ty khác đã lieđn hieơp thành moơt toơ chức phi lợi nhuaơn gĩi là Unicode Consortium nhaỉm phát trieơn, duy trì và thúc đaơy chuaơn Unicode. Unicode Consortium đã phát hành Unicode standard version 1.0 vào naím 1991. Cũng vào thời gian này toơ chức ISO (International Standard Organization ) đã hoàn thành boơ mã tương tự gĩi là ISO10646. Xét thây hai boơ mã như vaơy là quá nhieău, Unicode Consortium và ISO đã coơng tác với nhau trong hai naím 1991 – 1992 đeơ hợp nhât. Unicode 1.1 và ISO10646 đeău phát hành vào naím 1993.

Naím 1994, Nhaơt và Trung Quôc baĩt đaău sáng táo boơ mã chuaơn cho quôc gia mình tređn cơ sở ISO10646. Boơ mã chuaơn dùng tái Trung Quôc là được gĩi là mã quôc tieđu GB13000 (GB: guobiao).

Unicode là boơ mã ký tự có chieău roơng 16 bit, bao goăm tât cạ các ký tự dùng phoơ biên trong các máy tính hieơn nay. Nó bao quát các chữ viêt tređn thê giới, các chữ ân loát, ký hieơu kỹ thuaơt và toán hĩc, hình dáng hình hĩc, dâu châm cađu,… beđn cánh các ngođn ngữ hieơn đái, Unicode còn có các coơ ngữ như coơ Hy Láp, Do Thái (hebrew), Pali, Sanskrit và Nhaơt ngữ (vaín viêt).

Ngoài ra còn có moơt vùng goăm 6500 choơ trông đeơ người sử dúng có theơ táo ra những ký tự rieđng cho mình. Unicode standard khođng phađn bieơt ký tự theo khía cánh ngữ nghĩa (semantics) hay phát ađm (pronounciation).

Bởi vì Hán tự được vay mượn vào tiêng Nhaơt và Trieău Tieđn từ lađu cho neđn ba ngođn ngữ này dùng chung với nhau moơt sô chữ tượng hình (ideographs). Unicode consortium lựa chĩn theơ hieơn các chữ tượng hình chung này moơt laăn vì múc đích cụa Unicode Consortium là mã hóa các ký tự đoơc laơp giữa các ngođn ngữ. Đieău này cũng bao quát các ký tự được mã hóa theo chuaơn rieđng hieơn nay cụa các nước Trung Quôc, Đài Loan, Nhaơt, và Trieău Tieđn (Hàn Quôc).

Unicode khođng phađn bieơt ađm và nghĩa. Thođng qua sự thông nhât cụa chữ Hán, Unicode ân định khoạng 21.000 code point đôi với các chữ tượng hình thay vì là 120.000 nêu phại xử lý rieđng bieơt cho các ngođn ngữ Chađu Á.

Moơt sô chữ tượng hình nom tương tự nhưng ý nghĩa thì rât khác nhau và có theơ có moơt sô nét khác nhau, những chữ như vaơy thì có code rieđng trong các chuaơn cụa các nước Chađu Á. Có nhieău chữ (như chữ Hán giạn theơ và phoăn theơ hoaịc Kanji cụa Nhaơt) khác nhau veă hình dáng nhưng ý nghĩa lái giông nhau thì ở các chuaơn mã quôc gia chúng có code rieđng thì ở Unicode chúng cũng có code rieđng.

Maịc dù những từ được nhìn thây tređn màn hình máy tính nhưng máy tính chư biêt được những chuoêi mã, moêi sô chư tương ứng với moơt kí tự duy nhât tređn màn hình. Moơt boơ các kí tự được ánh xá thành các code point được gĩi là boơ kí tự được mã hóa (character set encoding). Moơt sự đoăng boơ đeơ có mã đơn giạn cụa sự thay thê moêi ký tự trong bạng chữ cái với moơt con sô (a=1, b=2, c=3, …). Bạng mã noơi tiêng ASCII có code point được gán cho những ký tự hoa và thường cụa các kí tự Latin, các con sô, và các ký tự thođng dúng thường dùng ở Mỹ. Những chữ khác nhau dùng những cách giại mã khác nhau.

Bạng mã cụa Chađu Á có moơt khó khaín thường gaịp là thường có nhieău hơn moơt chuaơn cho moêi ngođn ngữ. Ví dú như tiêng Nhaơt có đên 3 chuaơn chính được sử dúng là: SHIFT-JIS, ISO-2022-JP, và J-EUC. Moêi bạng mã được mã hóa baỉng những cách khođng giông nhau, tuy cùng moơt kí tự nhưng với moêi chuaơn khác nhau có code point khác nhau.

Sự chuyeơn đoơi giữa SBCS và DBCS

Táo thođng tin cho ngođn ngữ