Tiếng Việt và bộ mã Unicode Tiếng Việt và bộ mã Unicode Ðặng Minh Tuấn (dangtuan@bigfoot com) 89B Lý Nam Ðế, Hà nội, 8433872 (Báo TH&ÐS) 1 Tổng q[.]
Tiếng Việt mã Unicode Ðặng Minh Tuấn (dangtuan@bigfoot.com) 89B Lý Nam Ðế, Hà nội, 8433872 (Báo TH&ÐS) Tổng quan mã Unicode Tiếng Việt có tất 134 ký tự đặc thù Việt, 128 giá trị phần mở rộng không đủ để mã tất chữ Việt Vì xuất nhiều giải pháp khác nhằm mã hóa tiếng Việt khn khổ bảng mã 8-Bit Có thể sử dụng chữ thường mã, tức cần 67 giá trị, chữ hoa thể cách dùng Font chữ hoa giải pháp dùng TCVN 5712-1993 (VN3) mà Font chữ ABC ví dụ Giải pháp tổ hợp dùng ký tự: ký tự nguyên âm ký tự dấu ghép lồng vào Ví dụ chữ ‘á’ tạo thành ký tự ‘a’ ký tự dấu sắc (‘) mà font chữ VNI ví dụ tiêu biểu Cả giải pháp tiếng Việt có ưu điểm nhược điểm khác nhau, (xem thêm phần phân tích ưu nhược điểm Vietkey Help).Bảng mã 8-bit với 256 giá trị đủ chỗ để mã ký tự ngôn ngữ dùng chữ tượng tiếng Hán, Tiếng Nhật, Hàn quốc Từ trước đến có nhiều giải pháp khác để mã hoá ký tự ngơn ngữ máy vi tính, nhiên giải pháp thường dùng kỹ thuật tổ hợp chuỗi ký tự điều khiển (Esc) phức tạp quan trọng giải pháp khơng tương thích với Do việc sử dụng đồng thời ngôn ngữ văn font chữ thường khó khăn thực Unicode đời nhằm khắc phục nhược điểm nói nhằm xây dựng mã chuẩn vạn dùng chung cho tất ngôn ngữ giới Unicode côngxoocxiom thành lập vào năm 1991 tổ chức phi lợi nhuận nhằm phát triển chuẩn Unicode, thành viên Unicode cơng xc xiơng bao gồm công ty hàng đầu giới lĩnh vực phần mềm Adobe, Aldus, Borland, Digital, GO, IBM, HP, Lotus, Metaphor, Microsoft, NeXT, Novell, Sun, Symantec, Taligent, Unisys, and WordPerfect Unicode mã ký tự 16-Bit, tương thích hồn tồn với chuẩn quốc tế ISO/IEC 10646-1; 1993 Với 65.536 ký tự Unicode mã hố tất ngơn ngữ giới Ngoài với chế mở rộng UTF-16 Unicode chuẩn ISO 10646 cịn cho phép mã hố triệu ký tự mà không cần phải dùng đến mã điều khiển Escape Phiên Unicode 2.0 (Bản 3.0 chuẩn bị phát hành) bao gồm ngôn ngữ thuộc họ la-tinh, Greek, Cyrillic, Armenian, Hebrew, Arabic, Devanagari, Bengali, Gurmukhi, Gujarati, Oriya, Tamil, Telugu, Kannada, Malayalam, Thai, Lao, Georgian, Tibetan, Japanese Kana, the complete set of modern Korean Hangul, and a unified set of Chinese/Japanese/Korean (CJK) Chuẩn Unicode mô tả ký tự ngôn ngữ, dấu chấm câu, dấu phụ, ký hiệu toán học, dấu mũi tên ký hiệu Dingbats Hiện Unicode định nghĩa khoảng 39 000 ký tự Còn khoảng 18.000 ký tự định nghĩa mai, 917 504 ký tự định nghĩa dùng chế mở rộng UTF-16 6.400 chỗ dành cho hãng sử dụng với mục đích riêng UTF-16 dành 131.072 ký tự để dành cho mục đích dùng riêng Các chuẩn mã hố ký tự khơng định nghĩa mã ký tự, giá trị số, vị trí ký tự mà cịn định nghĩa cách biểu diễn mã ký tự dạng bit Unicode ISO-10646 quy định chế, khuôn dạng chuyển đổi UTF-8 UTF-16 Một số đặc điểm Unicode: - Mỗi ký tự bảng mã Unicode có độ dài cố định 16 Bit, nhờ Việc xử lý xâu ký tự Unicode đơn giản không phức tạp giải pháp dùng chuỗi ký tự điều khiển, phải có thuật toán tương đối phức tạp để nhận diện ký tự chuỗi Byte Trong với Unicode ký tự có độ dài Byte nên định vị dễ dàng vị trí ký tự chuỗi Byte cho trước - Unicode tránh đến mức tối đa việc định nghĩa dư thừa, trùng lặp Ví dụ ký tự ‘é’ có mã dùng chung cho ngơn ngữ tiếng Việt, tiếng Czech, nên hệ thống chữ Việt có mã nằm rải rác nhiều ví trí khơng liền Tiếng Hán, Nhật Hàn có khoảng 10 nghìn ký tự trùng nên chúng dùng chung cho 3, nhiên Unicode có vùng riêng để định nghĩa ký tự đặc thù ngôn ngữ này.- Unicode khơng quy định việc bố trí ký tự theo quy định xếp ngôn ngữ, điều hệ việc tránh định nghĩa ký tự dư thừa phải tận dùng ký tự dùng chung nên bố trí ký tự theo vùng riêng cho ngôn ngữ Hơn thực tế với nhiều ngôn ngữ người ta phải dùng thuật toán riêng để xếp xếp theo thứ tự chúng bảng chữ (tiếng Việt điển hình) Chính bảng mã tiếng Việt Unicode có ký tự Việt nằm rải rác nhiều nơi khơng theo trình tự xếp Unicode cài đặt hệ điều hành Windows NT, Windows 9.x, MacIntosh (MacOS 8), BE OS, Linux Windows NT sử dụng Unicode tảng hệ điều hành, xâu ký tự xử lý xâu Unicode, Resource, tên File NTFS Unicode Tuy nhiên để tăng tính tương thích Windows NT có hàm API để xử lý ký tự mã 8-Bit Windows NT 5.0 hỗ trợ 100 ngơn ngữ khác có tiếng Việt Ngược lại Windows 9.x không lấy Unicode làm tảng nội hệ điều hành, nhiên Win9.x lại có số hàm hỗ trợ cho việc xử lý hiển thị mã Unicode Muốn sử dụng Unicode cần phải có phần mềm hỗ trợ hiển thị cho phép gõ ký tự theo chuẩn Unicode, ngồi cần phải có Font chữ Unicode cài đặt hệ thống Hiện môi trường Windows, MS Office 2000 (Word, Excel, Powerpoint ) hỗ trợ tốt mã Unicode Trong môi trường Mạng Internet Expolore 5.0 cho phép hiển thị trang Web thiết kế theo chuẩn Unicode Tiếng Việt mã Unicode Tiếng Việt xếp vào họ La-tinh mở rộng (Latinh Extended 1), ký tự Việt phân bố không tập trung, có thuận lợi lớn tiếng Việt xếp vào họ La-tinh nên thành phần hầu hết tất font chữ Unicode, có nghĩa tiếng Việt có mặt nơi ngôn ngữ nào, đọc tiếng Việt nơi có cài đặt font Unicode Trong ngơn ngữ không thuộc họ la-tinh China, Japan, Lao, Thai khơng phải lúc có sẵn font Unicode Tiếng Việt Unicode có dạng: ký tự dựng sẵn ký tự tổ hợp Unicode có đủ 134 ký tự cho tất chữ hoa chữ thường bảng chữ tiếng Việt, đồng thời có mã cho dấu (Huyền, sắc, hỏi, ngã, nặng) để tạo ký tự Việt dạng tổ hợp, ngồi Unicode cịn có dấu riêng để biểu diễn đơn vị tiền đồng Việt nam Ví dụ: Chữ c ả n g biểu diễn dạng Unicode sau (Chuỗi số Hex): 0063 1EA3 006E 0067 (mã dựng sẵn) 0063 0041 0309 006E 0067 (mã tổ hợp) Bàn phím cho phép gõ tiếng Việt Windows 2000 sinh ký tự theo kiểu dựng sẵn, phần mỗ trợ tiếng Việt Unicode Windows 9.x lại sinh ký tự theo mã rổ hợp ( chữ tổ hợp thường có độ mỹ thuật không cao dấu bỏ cố định dùng chung nên chữ dấu đặt không hợp lý chữ thường) Cài đặt tiếng Việt Unicode 3.1 Hiển thị tiếng Việt Unicode: Ðể hiển thị tiếng Việt Unicode cần phải cài đặt font chữ Unicode, cần cài phần mềm sau: Internet Explore MS Office 2000 Windows 95/98 cài đặt Windows 2000 Khi cài đặt phần mềm font Unicode có tiếng Việt tự động cài đặt hệ thống Các font Microsoft kèm với phần mềm hỗ trợ tiếng Việt Unicode Times New Roman, Arial, Courier, Tahoma, Ngồi tải xuống font Unicode (có hỗ trợ tiếng Việt) khác Internet: Verdana, Arial Narrow, Arial Black, Bookman Old Style, Garamond, Impact, Lucida Sans Comic Sans 3.2 Gõ tiếng Việt Unicode Với Windows 2000 (Bản English) cần cài đặt thêm ngơn ngữ tiếng Việt bàn phím tiếng Việt theo chuẩn TCVN cài đặt cho phép bạn gõ tiếng Việt (Một kiểu gõ gần giống với kiểu gõ VNI) Windows 95, 98 (Bản English): tải xuống Vietnamese Support Website Microsoft, cài đặt Vi.inf để có gõ tiếng Việt Unicode theo tiêu chuẩn bàn phím TCVN Trong mơi trường Windows NT Windows 9.x Microsoft có hỗ trợ Local cho tiếng Việt tính tìm kiếm, xếp tiếng Việt hỗ trợ, Local tiếng Việt hỗ trợ cách đánh chữ số hay cách đặt ngày tháng theo quy định Việt nam Bàn phím tiếng Việt Microsoft hỗ trợ có kiểu TCVN, gây khó khăn cho người quen với kiểu gõ Telex VNI Ðể có kiểu gõ quen thuộc mơi trường Windows NT, Windows 9.x bạn dùng gõ VIETKEY (chọn code VN Win 95).Ưu điểm gõ Vietkey môi trường Unicode: hỗ trợ kiểu gõ Telex VNI, có thêm nhiều tính nâng cao với font Unicode kiểm tra lỗi tả, tự động chuyển đổi Anh-Việt, gõ tắt tất ứng dụng, phần mềm chạy mơi trường WinNT Win95 Chương trình nhỏ gọn (chỉ cần 90K), không bị conflict với phần mềm phổ thông Lạc Việt MTD, English Stady đồng thời Vietkey cho phép gõ tiếng Việt với font truyền thống ABC, VNI, Vietware Tiếng Việt Unicode: tổng cộng 140 mã định nghĩa cho tiếng Việt: 134 ký tự chữ việt, dấu dấu VNÐ Trong có 31 ký tự thuộc bảng mã 8-bit ASCII mở rộng Kết luận Mặc dù mã chuẩn quốc gia TCVN 5712-1999 công bố thời gian gần đây, với chất mã 8-Bit mã TCVN 5712-1993, mã gặp phải tranh chấp với nhiều ứng dụng phổ thông thông MS Office, đặc biệt với Internet Explore MS Publishing 2000, chữ ‘ư’ không hiển thị trang Web bị ngắt dòng sai, mã Unicode giải tranh chấp nói cho phép tiếng Việt hồ đồng với ngôn ngữ khác giới.Trong xu hoà nhập với giới nay, mã Unicode số phần mềm, công cụ hỗ trợ hiển thị gõ tiếng Việt Unicode môi trường phổ thông Windows NT Windows 9.x cộng với IE5, Office 2000, Vietkey Unicode mở cách mạng lĩnh vực tiếng Việt tương lai không xa Unicode mã dùng phổ biến thị thường tin học Việt nam ... thiết kế theo chuẩn Unicode Tiếng Việt mã Unicode Tiếng Việt xếp vào họ La-tinh mở rộng (Latinh Extended 1), ký tự Việt phân bố không tập trung, có thuận lợi lớn tiếng Việt xếp vào họ La-tinh nên... dấu đặt không hợp lý chữ thường) Cài đặt tiếng Việt Unicode 3.1 Hiển thị tiếng Việt Unicode: Ðể hiển thị tiếng Việt Unicode cần phải cài đặt font chữ Unicode, cần cài phần mềm sau: Internet Explore... Lạc Việt MTD, English Stady đồng thời Vietkey cho phép gõ tiếng Việt với font truyền thống ABC, VNI, Vietware Tiếng Việt Unicode: tổng cộng 140 mã định nghĩa cho tiếng Việt: 134 ký tự chữ việt,