Unicode và chuẩn hoá cách mã hoá tiếng Việt

Một phần của tài liệu xây dựng một công cụ tìm kiếm thực sự (Trang 67 - 68)

1. MỤC ĐÍC H

2.2.5.Unicode và chuẩn hoá cách mã hoá tiếng Việt

Unicode[7] ra đời là nhằm khắc phục các nhược điểm nói trên và nhằm xây dựng một bộ mã chuẩn vạn năng dùng chung cho tất cả mọi ngôn ngữ trên thế giớị

Hiệp hội Unicode được thành lập vào năm 1991 như một tổ chức phi lợi nhuận nhằm phát triển chuẩn Unicode, các thành viên bao gồm các công ty hàng đầu của thế giới trong lĩnh vực phần mềm như IBM, Microsoft, Adobe, Digital, Novell, Sun, …

Unicode là bộ mã ký tự 16 bit. Với 65.536 ký tự Unicode hầu như có thể mã hoá tất cả các ngôn ngữ trên thế giớị Ngoài ra với cơ chế mở rộng UTF-16 Unicode và chuẩn ISO 10646 còn cho phép mã hoá hơn 1 triệu ký tự mà không cần phải dùng đến mã điều khiển Escapẹ

Các chuẩn mã hoá ký tự không chỉ định nghĩa các mã của các ký tự, giá trị số, và vị trí của các ký tự mà còn định nghĩa cả cách biểu diễn các mã ký tự dưới dạng bit. Unicode và ISO-10646 quy định 2 cơ chế, khuôn dạng chuyển đổi là UTF-8 và UTF- 16.

ạ Một số đặc điểm của Unicode:

Unicode tránh đến mức tối đa việc định nghĩa dư thừa, trùng lặp. Ví dụ ký tự ‘é’ chỉ có một mã duy nhất dùng chung cho cả ngôn ngữ tiếng Việt, tiếng Czech, ...cũng chính vì thế nên hệ thống chữ Việt có các mã nằm rải rác ở nhiều ví trí không liền nhaụ Tiếng Hán, Nhật và Hàn có khoảng 10 nghìn ký tự trùng nhau nên chúng được dùng chung cho cả 3, tuy nhiên trong Unicode vẫn có các vùng riêng để định nghĩa những ký tự đặc thù của 3 ngôn ngữ nàỵ

Unicode về cơ bản không quy định việc bố trí các ký tự theo quy định sắp xếp của các ngôn ngữ, điều này cũng là hệ quả của việc tránh định nghĩa các ký tự dư thừa do phải tận dùng các ký tự dùng chung nên không thể bố trí các ký tự theo từng vùng

riêng cho từng ngôn ngữ. Hơn nữa thực tế với nhiều ngôn ngữ người ta phải dùng những thuật toán riêng để sắp xếp chứ không thể sắp xếp theo thứ tự của chúng trong bảng chữ cái (tiếng Việt là một điển hình). Chính vì vậy bảng mã tiếng Việt trong Unicode có các ký tự Việt nằm rải rác ở nhiều nơi và không theo một trình tự sắp xếp nàọ

b. Tiếng Việt trong bộ mã Unicode:

Tiếng Việt được xếp vào họ La-tinh mở rộng 1 (Latin Extended 1), tuy rằng các ký tự Việt phân bố không tập trung, nhưng có một thuận lợi rất lớn là do tiếng Việt được xếp vào họ La-tinh nên đây là thành phần cơ bản của hầu hết tất cả các phông chữ Unicode, có nghĩa là tiếng Việt có mặt ở mọi nơi trong bất kỳ của ngôn ngữ nào, và như thế có thể đọc được tiếng Việt ở mọi nơi có cài đặt phông Unicodẹ Trong khi đó các ngôn ngữ không thuộc họ la-tinh như Trung Quốc, Nhật Bản... thì không phải lúc nào cũng có sẵn trong các phông Unicodẹ

Tiếng Việt trong Unicode có thể có hai dạng: ký tự dựng sẵn và ký tự tổ hợp. Unicode có đủ 134 ký tự cho tất cả chữ hoa và chữ thường trong bảng chữ cái tiếng Việt, đồng thời có mã cho 5 dấu thanh (huyền, sắc, hỏi, ngã, nặng) để tạo ra các ký tự Việt dạng tổ hợp (một ký tự có dấu được biểu diễn bằng một ký tự không dấu và dấu tương ứng). Ngoài ra Unicode còn có dấu riêng để biểu diễn đơn vị tiền đồng Việt Nam.

Một phần của tài liệu xây dựng một công cụ tìm kiếm thực sự (Trang 67 - 68)