Quy ước biểu diễn ký tự tiếng Việt

Một phần của tài liệu nén văn bản tiếng việt theo huffman (Trang 65)

5. Ý nghĩa khoa học của luận văn

3.2.Quy ước biểu diễn ký tự tiếng Việt

Bảng chữ cái tiếng Việt có 29 chữ cái, theo thứ tự:

A Ă Â B C D Đ E Ê G H I K L M N O Ô Ơ P Q R S T U Ư V X Y a ă â b c d đ e Ê g h i K l m n o ô ơ p q r s t u ư v x y Ngoài ra, có 10 chữ ghép đôi và 1 chữ ghép ba.

CH GH GI KH NG NGH NH PH TH TR QU Còn có thêm các ký tự:

 Sáu nguyên âm a, e, i, o, u, y với năm dấu thanh ( sắc, huyền, hỏi, ngã, nặng ) tổ hợp thành 30 ký tự.

 Sáu nguyên âm ă, â, ê, ô, ơ, ư với sáu dấu thanh ( sắc, huyền, hỏi, ngã, nặng, không dấu ) tổ hợp thành 36 ký tự.

 Một phụ âm đặc biệt : đ

Vậy ta cần tất cả là 134 ký tự cho tiếng Việt. Bảng mã sử dụng phổ biến hiện nay trên máy tính là bảng mã ASCII 8 bit, với bảng mã này chúng ta có thể mã hóa 256 ký tự. Nhưng các ký tự có mã đến 127 đã được chuẩn hóa do đó 128 giá trị của phần mở rộng không đủ để mã tất cả các chữ tiếng Việt.

Vì vậy đã xuất hiện nhiều giải pháp khác nhau nhằm mã hóa tiếng Việt trong khuôn khổ bảng mã 8-Bit. Có thể chỉ sử dụng chữ thường trong bản mã, tức là chỉ cần 67 giá trị, còn chữ hoa được thể hiện bằng cách dùng Font chữ hoa. Giải pháp này được dùng trong TCVN 5712-1993 (VN3) mà Font chữ ABC là 1 ví dụ. Giải pháp tổ hợp là dùng 2 ký tự: ký tự nguyên âm và ký tự dấu ghép lồng vào nhau.

Để đưa tiếng Việt vào máy tính, các phần mềm tiếng Việt hiện nay sử dụng phương pháp mã đựng sẵn hoặc mã tổ hợp để xây dựng trang mã cho ký tự tiếng Việt. Mã đựng sẵn là cách mã hóa mà mọi ký tự tiếng Việt đều có một vị trí xác định. Mã tổ hợp là các ký tự Việt có dấu được tổ hợp từ một ký tự nguyên âm và một ký tự thể hiện dấu, khi sử dụng hai ký tự này tổ hợp với nhau cho ký tự có dấu.

Một phần của tài liệu nén văn bản tiếng việt theo huffman (Trang 65)