ASCII và Katakana

Một phần của tài liệu luận văn công nghệ thông tin từ điển việt - nhật (Trang 26 - 78)

I. Quá trình phát trieơn font chữ 2 byte

2.ASCII và Katakana

Bước kê tiêp cụa ngành cođng ngheơ máy tính Nhaơt Bạn là đưa được bạng chữ cái Katakana vào bạng mã cụa máy tính. Đieău này có moơt sô lý do như sau:

 Sô lượng các ký tự có giới hán.

 Giúp cho các từ nước ngoài và các từ cụa tiêng Nhaơt được rõ ràng

 Deê dàng đeơ thực thi tređn máy tính.

 Chúng deê dàng in hay hieơn thị tùy thuoơc vào hình dáng cụa chúng.  Khođng đòi hỏi moơt trình xử lý font cho vieơc xuât các ký tự. Deê dàng

thực hieơn với moơt mức mới các ký tự vào bàn phím chuaơn.

Cách thực hieơn các ký tự Katakana deê dàng nhât là theđm những khạ naíng tiêng Nhaơt vào heơ thông máy tính. Nó có giới hán sô lượng ký tự (vừa với khođng gian tređn 127 kí tự) cho neđn nó có theơ sử dúng được câu trúc 7(8) bit. Moơt byte mã này (Single Byte Chacracter Set - SBCS) được gĩi là JIS

X0201-1989 (được đoơi vào tháng 3/1987 từ teđn cũ là JISC 6220 - 1076) và đã cho thây sự taíng cường theđm cụa bạng mã ASCII với các ký tự Katakana. Vieơc sử dúng cụa những ký tự Katakana này có moơt thuaơn lợi là nó có theơ sử dúng bàn phím chuaơn và thay đoơi giữa vieơc xuât ra chữ ASCII và Katakana, với sô lượng ký tự có giới hán. Cách bô trí bàn phím này được xác định bởi moơt chuaơn rieđng gĩi là JIS X6002-1984 (hay IIS C6233-1980 trước đó). Cách bô trí bàn phím có theđm 52 ký tự chữ cái Latinh thường và hoa, 10 chữ sô, 32 ký tự đaịc bieơt như ( !, $, &, @, +, _ ,v.v) , 8 ký tự đaịc bieơt tiêng Nhaơt, 17 ký tự đieău khieơn (như CR, LF, ETX, DEL, ESC,…) và 55 ký tự Katakana.

Đã có moơt chuaơn được xác định như thê nhưng khođng có nghĩa là buoơc mĩi người phại theo chuaơn mực này. Đieău này đã làm cho có nhieău lối bàn phím có cách bô trí sẵn khác nhau.

Hình các ký tự Katatana ban đaău trong boơ mã ASCII. 3. 7 bit JIS

Mã này toăn tái ở phieđn bạn 7 bit và 8 bit. Sự khác nhau giữa 2 phieđn bạn này là ở phieđn bạn 7 bit (từ 00 đên 7F Hex) có moơt ký tự Shifl In ( còn gĩi là SI hoaịc là Kanji out (KO), ở 0E Hex) được dùng đeơ thay đoơi giữa bạng mã ASCII va Katakana.

Đieău này có nghĩa là ban đaău heơ thông in các ký tự ASCII cho tới khi nó cháy tređn SO thì tât cạ các ký tự sau đó được in ra là ký tự Katakana. Nó ngừng khi heơ thông tìm ra được ký tự SI, đó là sự chuyeơn đoơi từ chê đoơ Katakana sang chê đoơ ASCII. Vieơc sử dúng moơt ký tự SI và moơt ký tự SO đeơ chuyeơn đoơi giữa 2 bạng mã đã xạy ra moơt sô vân đeă, vân đeă này sẽ được đeă caơp ở phaăn sau.

4. 8 bit JIS

Vân đeă xạy này khođng xạy ra khi heơ thông cụa bán có theơ sử dúng phieđn bạn 8 bit cụa JIS X0201- 1989. Trong trường hơp này heơ thông phại có theơ làm vieơc với những ký tự 8 bit (được gĩi là 8 bit clean, mà nó thì thường có theơ khođng xạy ra, trong những boơ sung mới nhât cụa UNIX, thưnh thoạng chúng được sử dúng bit cao nhât là moơt bit chẵn lẹ).

Với phieđn bạn 8 bit bán khođng phại dùng kí tự SI và SO đeơ chuyeơn đoơi giữa bạng mã ASCII và Katakana. Ký tự Katakana được định vị ở vùng

tređn 7F Hex ( vùng khođng dùng đên). Vieơc sử dúng vùng này đã nạy sinh moơt sô vân đeă khi bán làm vieơc với phaăm meăm máy tính PC IBC cũ cụa Mỹ chẳng hán, ở máy PC IBM có moơt bạng mã hoàn toàn khác trong vùng từ 7F Hex đên FF Hex. Nêu bán baĩt đaău dùng phaăm meăm nước ngoài thì có theơ xạy ra moơt màn hình neăn trođng rât tức cười bởi vì có sự xuât hieơn cụa những ký tự Katakana đã được thay thê mà khođng có luaơt leơ nào cạ. Kêt quạ là bạng mã ASCII gaăn như khođng tương thích.

Ở version 8 bit, vùng dưới 7F Hex gaăn như tương thích. Chư khác là nó làm cho moơt sô các ký tự chư gaăn như tương thích như là có dâu \ (5C Hex) thay thê cho ký tự yeđn và dâu “ (7Fhex) được thay thê baỉng dâu (-). Còn tât cạ các ký tự khác thì đúng với ASCII tương ứng.

Những ký tự Katakana có cùng kích thước với kí tư ASCII này được gĩi là Half-Width Katakana (trong Japanese Hankaku). Đieău này văn chưa là giại pháp thõa mãn cho những người sử dúng máy tính tiêng Nhaơt trước đađy. Sự thiêu các ký tự Kanji là moơt đieău quan trĩng làm cho hĩ baĩt đaău nghĩ đên cách đeơ tích hợp các ký tự Kanji vào heơ thông máy tính.

5. Sự phát trieơn cụa boơ kí tự Kanji

Đeơ hieơu veă quá trình phát trieơn cụa bạng mã Kanji chúng ta phại xem boơ ký tự non-electric mà đang được dùng đeơ định nghĩa cho JIS C6226-1978 đang đi theo hướng JIS X0208-1990, là chuaơn hieơn nay.

Nhaơt ngữ có khoạng 40000 đên 60000 chữ Kanji được biêt. Vân đeă là khođng ai có theơ nhớ được tât cạ chúng. Boơ Giáo Dúc đã baĩt đaău giới hán sô lượng chữ Kanji được dùng trong giáo dúc. Ngày nay moơt sinh vieđn Nhaơt hĩc khoạng 2000 chữ Kanji.

Lịch sử phát trieơn cụa chuaơn được baĩt đaău với những chữ Kanji được cho phép trong giáo dúc. Bạng đaău tieđn này được gĩi là Toyo Kanji và vào naím 1946 nó có 1850 chữ Kanji. Vào 1981 bạng này được thay thê baỉng bạng Yoyo Kanji, có 1946 chữ Kanji.

Những bạng khác được dùng đeơ định dáng boơ ký tự chuaơn là Gakushu Kanji với 1006 chữ Kanji thay thê cho bạng Koyiku Kanji cũ có 881 chữ Kanji, nó taíng theđm 996 chữ Kanji ( naím 1992 ) và bạng ký tự Jimei-yo Kanji có 85 chữ (naím 1946), 112 chữ (naím 1976), 166 chữ (naím 1981) và đên naím 1990 có 284 chữ . Moơt sự vieơc thú vị là Gatushu Kanji là moơt taơp hợp con cụa Joyo Kanji.

6. Boơ ký tự 2 byte (DBCS)

Boơ ký tự non-electric này được dùng đeơ xác định boơ ký tự chuaơn DBCS JIS X0208-1990 hieơn nay. Ngoài những kí tự Kanji, 83 kí tự Hiragana và 86 kí tự Katakana thì chuaơn này còn bao goăm các ký tự xêp theo chữ cái (10 kí tự sô, 52 ký tự Latinh), ký tự đaịc bieơt có 147 ký tự), ký tự Hyláp có 48 kí tự và ký tự Nga có 66 kí tự và những thành phaăn khođng luaơt leơ khác. Suôt những naím sau đã có những thay đoơi (X208 được phát hành đaău tieđn vào naím 1978, sự thay đoơi đaău tieđn được thây naím 1983, phieđn bạn hieơn nay là có từ 1990) nó được theđm vào moơt sô chữ Kanji mới, hình dáng moơt sô chữ thay đoơi và có sự thay đoơi ở vị trí cụa moơt sô chữ được thay thê.

Ngày nay chuaơn này chứa 2 câp đoơ với 2965 ký tự ở câp đoơ 1 và 3388 ký tự ở câp đoơ 2. Vào naím 1990 JSA đã giới thieơu moơt boơ ký tự DBCS boơ sung được gĩi là JIS X0212- 1990 (đođi khi còn gĩi là JIS câp đoơ 3) với 6067 chữ theđm vào. Với sự theđm vào 5801 chữ Kanji thì chuaơn này có 21 ký tự đaịc bieơt và 245 chữ Latinh, chữ Kirin, chữ Hy Láp (haău hêt có các dâu trĩng ađm như các ký tự cụa German Umlauts, Pháp, Tađy Ban Nha, Đan Mách).

Cái này cho chúng ta toơng coơng 12156 ký tự chuaơn, được chia thành 3 câp đoơ. Nhìn theo khía cánh này thì JIS X0212-1990 là moơt chuaơn rât tôt cho haău hêt các heơ thông dùng chư những ký tự được định nghĩa bởi chuaơn JIS X0212-19XX, tuy nhieđn sô lượng từ rât lớn này caăn nhieău boơ nhớ và nó cũng khođng theơ cho hieơn thị ký tự được dùng bởi SBCS. Do đó đeơ mà hieơn thị sô lượng từ khoơng loă này chúng tai caăn ít nhât là moơt boơ ký tự 2 byte (DBCS).

Ở mođi trường chuaơn 7 (hay 8 bit) chúng ta có theơ dùng bạng mã có 127 (hay 255) ký tự. Nó thì đụ cho boơ kí tự ASCII chuaơn và moơt sô cái mở roơng cho moêi quôc gia nhưng nó khođng đụ lớn đeơ xử lý hàng ngàn ký tự tượng hình Kanji.Đeơ xử lý moơt sô lượng ký tự rât lớn chúng ta caăn mở roơng sô bit đeơ lưu thođng tin cụa ký tự. Ở mođi trường 7 bit moơt bước logic là dùng 2 byte 7 bit (tức là 14 bit) đeơ lưu thođng tin, cái này sẽ cho chúng ta khạ naíng lưu trữ leđn 214 tức là 16384 ký tự. Nêu chúng ta dùng 2 byte 8bit thì chúng ta có theơ lưu đên 216 tức là 65536 ký tự). Vân đeă nạy sinh là làm cách nào đeơ phađn bieơt giữa ký tự SBCS và ký tự DBCS.

Đeơ mà tiêp túc tương thích với boơ ký tự SBCS cũ, bán phại tìm moơt giại pháp đeơ định rõ moơt byte thaơt sự là moơt ký tự SBCS hay là moơt phaăn cụa boơ ký tự DBCS .

7. Sự chuyeơn đoơi giữa SBCS và DBCS

Đáp lái sự đeă caơp ở tređn, nó thì có khạ naíng sử dúng cơ chê Shift In/Out đeơ phađn bieơt giữa SBCS và DBCS. Đieău này hoàn toàn có ích trong mođi trường 7 bit. Nó cũng có theơ được dùng trong moơt mođi trưởng 8 bit. Khạ naíng có theơ khác là trong moơt mođi trường 8 bit nó dùng MSB (Most Significant Big) như là cớ đeơ cho thây raỉng byte này là moơt ký tự SBCS (MSB=0) hoaịc moơt phaăn cụa moơt ký tự DBCS (MSB=1). Moơt SBCS có theơ thây sự bieơu dieên cùa sô nhị phađn như 0XXXXXXX và DBCS sẽ là 1XXXXXXX.

Ngày nay haău hêt các heơ thông cỡ vừa hoaịc lớn đeău dùng moơt trình tự SI/SO (hay còn gĩi là KI /KO) đeơ thay đoơi giữa những ký tự SBCS và DBCS. Có moơt cách khác là JSA cho dãy SI /SO này nhưng đáng tiêc là haău hêt những cửa hàng đái lý phaăn cứng đã chĩn dãy SI /SO khác (thường là giữa 1 và 3 byte).

Đođi khi có 2 dãy SI/KO khác nhau, moơt cái chuyeên đoơi veă boơ kí tự JIS Roman, cái còn lái chuyeơn đoơi veă boơ kí tư ASCII.

Khođng chư dãy SI/SO (KI/KO) có khác nhau veă sự thực thi cụa boơ kí tự Kana/Kanji mà còn khác nhau veă vị trí trong ma traơn được xác định baỉng hai byte. Ngoài ra moơt sô cođng ty như IBM thì khođng dùng chuaơn JIS.

Nêu như bán nhìn kỹ hơn vào những ma traơn này, bán sẽ nhaơn ra raỉng tât cạ các nhà buođn đã thay thê vùng JIS hoaịc vùng mở roơng ở những nơi khác nhau. Maịc dù nêu các ma traơn có cùng moơt nơi thì khođng có nghĩa là sẽ có cùng moơt kí tự Kanji ở cùng choê đó.

Trong thê giới máy PC tiêng Nhaơt thì Shift JIS là chuaơn cho boơ kí tự. Phieđn bạn này cụa boơ kí tự JIS đã được di chuyeơn đên những nơi khác nhau vì ở vị trí này nó có teơh dùng boơ kí tự 7 bit cũ và DBCS mà khođng caăn có dãy SI/SO ( hoaịc KI/KO). Trong Shift JIS tât cạ các kí tự 7 bit (SBSC) có MSB là 0, giông như 0XXXXXXX. nêu MSB được baơt leđn 1 thì byte đó là moơt phaăn cụa kí tự DBCS, giông như 1XXXXXXX 1XXXXXXX. Moơt ưu đieơm cụa Shift JIS là nó thì deê dàng chuyeơn đoơi từ mã JIS DBCS sang mã Shift JIS DBCS tương ứng.

8. Shift JIS and JIS

SJIS là hieơn thị hai byte cụa mã Shift JIS và hai byte JIS cụa mã JIS. SJIS1 là byte đaău tieđn JIS2 là byte thứ hai cụa mã này. Giá trị cụa những byte này naỉm từ 00Hex đên FFHex

SJIS1 = (JIS1 - 21Hex) / 2 +81Hex

if odd(JIS1) then begin

SJIS2 = JIS2 - 21Hex + 40Hex

if (SJIS2 >+ 7FHex then SJIS2 = SJIS2 + 1 end

else SJIS2 = JIS2 - 21Hex + 9Fhex

Shift JIS được dùng chụ yêu ở PC và moơt vài máy chụ. Haău hêt những cửa hàng đái lý thường chuyeơn đoơi những đốn mã giữa mã cụa hĩ và JIS hoaịc Shift JIS.

Moơt sự khác nhau nữa cụa các boơ kí tự là do người sử dúng định nghĩa những kí tự ở nơi khác nhau trong ma traơn 2 byte. Những sô đó được gĩi là kí tự Gaiji thì khác nhau ở moêi phieđn bạn cụa cửa hàng đái lý. Những kí tự Kaiji này rât caăn bởi vì moơt sô teđn cụa người Nhaơt thì được viêt với các kí tự Kanji khođng có chuaơn.

Ví dú nêu moơt cođng ty bạo hieơm muôn in moơt hóa đơn với teđn cụa khách hàng thì thođng thường sẽ dùng những kí tự Gaiji do người dùng định nghĩa cho múc đích này khi mà teđn cụa khách hàng chứa những kí tự Kanji mà khođng có sẵn trong JIS.

9. Unicode và ISO 106-46

Unicode xuât phát từ Xerox Parc. Naím 1991, Apple và các cođng ty khác đã lieđn hieơp thành moơt toơ chức phi lợi nhuaơn gĩi là Unicode Consortium nhaỉm phát trieơn, duy trì và thúc đaơy chuaơn Unicode. Unicode Consortium đã phát hành Unicode standard version 1.0 vào naím 1991. Cũng vào thời gian này toơ chức ISO (International Standard Organization ) đã hoàn thành boơ mã tương tự gĩi là ISO10646. Xét thây hai boơ mã như vaơy là quá nhieău, Unicode Consortium và ISO đã coơng tác với nhau trong hai naím 1991 – 1992 đeơ hợp nhât. Unicode 1.1 và ISO10646 đeău phát hành vào naím 1993.

Naím 1994, Nhaơt và Trung Quôc baĩt đaău sáng táo boơ mã chuaơn cho quôc gia mình tređn cơ sở ISO10646. Boơ mã chuaơn dùng tái Trung Quôc là được gĩi là mã quôc tieđu GB13000 (GB: guobiao).

Unicode là boơ mã ký tự có chieău roơng 16 bit, bao goăm tât cạ các ký tự dùng phoơ biên trong các máy tính hieơn nay. Nó bao quát các chữ viêt tređn thê giới, các chữ ân loát, ký hieơu kỹ thuaơt và toán hĩc, hình dáng hình hĩc, dâu châm cađu,… beđn cánh các ngođn ngữ hieơn đái, Unicode còn có các coơ ngữ như coơ Hy Láp, Do Thái (hebrew), Pali, Sanskrit và Nhaơt ngữ (vaín viêt).

Ngoài ra còn có moơt vùng goăm 6500 choơ trông đeơ người sử dúng có theơ táo ra những ký tự rieđng cho mình. Unicode standard khođng phađn bieơt ký tự theo khía cánh ngữ nghĩa (semantics) hay phát ađm (pronounciation).

Bởi vì Hán tự được vay mượn vào tiêng Nhaơt và Trieău Tieđn từ lađu cho neđn ba ngođn ngữ này dùng chung với nhau moơt sô chữ tượng hình (ideographs). Unicode consortium lựa chĩn theơ hieơn các chữ tượng hình chung này moơt laăn vì múc đích cụa Unicode Consortium là mã hóa các ký tự đoơc laơp giữa các ngođn ngữ. Đieău này cũng bao quát các ký tự được mã hóa theo chuaơn rieđng hieơn nay cụa các nước Trung Quôc, Đài Loan, Nhaơt, và Trieău Tieđn (Hàn Quôc).

Unicode khođng phađn bieơt ađm và nghĩa. Thođng qua sự thông nhât cụa chữ Hán, Unicode ân định khoạng 21.000 code point đôi với các chữ tượng hình thay vì là 120.000 nêu phại xử lý rieđng bieơt cho các ngođn ngữ Chađu Á.

Moơt sô chữ tượng hình nom tương tự nhưng ý nghĩa thì rât khác nhau và có theơ có moơt sô nét khác nhau, những chữ như vaơy thì có code rieđng trong các chuaơn cụa các nước Chađu Á. Có nhieău chữ (như chữ Hán giạn theơ và phoăn theơ hoaịc Kanji cụa Nhaơt) khác nhau veă hình dáng nhưng ý nghĩa lái giông nhau thì ở các chuaơn mã quôc gia chúng có code rieđng thì ở Unicode chúng cũng có code rieđng.

Maịc dù những từ được nhìn thây tređn màn hình máy tính nhưng máy tính chư biêt được những chuoêi mã, moêi sô chư tương ứng với moơt kí tự duy nhât tređn màn hình. Moơt boơ các kí tự được ánh xá thành các code point được gĩi là boơ kí tự được mã hóa (character set encoding). Moơt sự đoăng boơ đeơ có mã đơn giạn cụa sự thay thê moêi ký tự trong bạng chữ cái với moơt con sô (a=1, b=2, c=3, …). Bạng mã noơi tiêng ASCII có code point được gán cho những ký tự hoa và thường cụa các kí tự Latin, các con sô, và các ký tự thođng dúng thường dùng ở Mỹ. Những chữ khác nhau dùng những cách giại mã khác nhau.

Bạng mã cụa Chađu Á có moơt khó khaín thường gaịp là thường có nhieău hơn moơt chuaơn cho moêi ngođn ngữ. Ví dú như tiêng Nhaơt có đên 3 chuaơn chính được sử dúng là: SHIFT-JIS, ISO-2022-JP, và J-EUC. Moêi bạng mã được mã hóa baỉng những cách khođng giông nhau, tuy cùng moơt kí tự nhưng với moêi chuaơn khác nhau có code point khác nhau.

II. Các phaăn meăm hoê trợ vieơc nhaơp chữ Kana và Kanji. Có theơ hieơu raỉng người Nhaơt khođng theơ xađy dựng những bàn phím với Có theơ hieơu raỉng người Nhaơt khođng theơ xađy dựng những bàn phím với hàng ngàn phím đeơ nhaơp vào những kí tự Kana và Kanji. Vì lý do này mà hĩ

Một phần của tài liệu luận văn công nghệ thông tin từ điển việt - nhật (Trang 26 - 78)