Các thư tiếng Việt và các loại mã thơng dụng trong thư tiếng Việt

Một phần của tài liệu Nghiên cứu và thiết kế hệ thống lọc thư rác tiếng việt trên linux (Trang 26 - 29)

2. Các thành phần cơ bản của một bức thư

3.5. Các thư tiếng Việt và các loại mã thơng dụng trong thư tiếng Việt

Theo chuẩn MIME, chúng ta cĩ thể dễ dàng xây dựng các thư tiếng Việt cho cả tiêu đề của thư và nội dung thư. Cụ thể, với tiêu đề chúng ta dùng dạng Encoded- Word được sử dụng cho các giá trị trong các Header. Cịn phần nội dung thì kết hợp giữa Content-TypeContent-Transfer-Encoding. Content-Transfer-Encoding sẽ làm nhiệm vụ chuyển các mã dùng để mã hĩa tiếng Việt như Unicode tổ hợp hay Unicode dựng sẵn hay phổ biến nhất là utf-8 sang dạng mà SMTP chấp nhận, cịn

Content-Type sẽ giúp các trình đọc thư và soạn thảo thư hiểu để hiển thị cho đúng với người dùng.

Do thư tiếng Việt được viết dưới nhiều loại mã khác nhau, để xử lý thư tiếng Việt ở ngay gĩi tin SMTP phải thơng qua hai giai đoạn:

• Thứ nhất là phải chuyển mã được hỗ trợ bởi SMTP (7 bít hay 8BITMIME) sang Content-Transfer-Encoding (các phương pháp mã hĩa được nêu ra trong IANA- http://www.iana.org).

• Bước thứ hai là chuyển mã kết quả của giai đoạn một về dạng chung cho tất cả các thư tiếng Việt để thuận tiện trong quá trình xử lý

Tiếng Việt cĩ tất cả 134 ký tự đặc thù Việt (trong đĩ một nửa là chữ thường và một nửa là chữ hoa). Vì vậy 128 giá trị của phần mở rộng của bảng mã ASCII 8 bit

khơng đủ để mã tất cả các chữ cái tiếng Việt. Đã xuất hiện nhiều giải pháp khác nhau nhằm mã hĩa tiếng Việt trong khuơn khổ bảng mã 8-Bit.

Cĩ thể chỉ sử dụng chữ thường trong bảng mã, tức là chỉ cần 67 giá trị, cịn chữ hoa được thể hiện bằng cách dùng phơng chữ hoa. Cách này được dùng trong TCVN 5712-1993 (TCVN3).

Giải pháp tổ hợp là dùng hai ký tự: ký tự nguyên âm và ký tự dấu ghép lồng vào nhau. Ví dụ chữ ‘á’ được tạo thành bởi ký tự ‘a’ và ký tự dấu sắc. Một đại diện cho kiểu phơng chữ này là phơng VNI.

Nhưng tĩm lại thì cả hai cách mã hố trên chỉ là cách giải quyết tạm thời vì cả hai giải pháp này đều cĩ những nhược điểm và vấn đề chính là làm mất sự thống nhất trong cách mã hố tiếng Việt. Cũng theo cách này, hàng loạt các bộ mã tiếng Việt khác ra đời như bộ mã Bách Khoa TPHCM, bộ mã Việt Tồn, bộ mã VIQR,… Kết quả là trong một thời gian dài, cĩ đến hơn 40 cách mã hố tiếng Việt khác nhau song song tồn tại.

Vấn đề đặt ra cũng tương tự với các ngơn ngữ khác, đặc biệt là các ngơn ngữ khơng thuộc hệ La-tinh như tiếng Trung Quốc, tiếng Lào, tiếng Thái,… Theo cách này, việc sử dụng đồng thời các ngơn ngữ trong cùng một văn bản và trong cùng một phơng chữ thường khơng thể hoặc rất khĩ khăn khi thực hiện.

Cũng chính vì lý do này, Unicode ra đời là nhằm khắc phục các nhược điểm nĩi trên và nhằm xây dựng một bộ mã chuẩn vạn năng dùng chung cho tất cả mọi ngơn ngữ trên thế giới.

Unicode là bộ mã ký tự 16 bit. Với 65.536 ký tự Unicode hầu như cĩ thể mã hố tất cả các ngơn ngữ trên thế giới. Ngồi ra với cơ chế mở rộng UTF-16 Unicode và chuẩn ISO 10646 cịn cho phép mã hố hơn 1 triệu ký tự mà khơng cần phải dùng đến mã điều khiển Escape.

Chuẩn Unicode mơ tả các ký tự ngơn ngữ, các dấu chấm câu, dấu phụ, ký hiệu tốn học, các dấu mũi tên và các ký hiệu Dingbats. Hiện nay Unicode đã định nghĩa khoảng 39000 ký tự. Cịn khoảng 18.000 ký tự sẽ được định nghĩa nay mai, 917504 ký tự cĩ thể được định nghĩa nếu dùng cơ chế mở rộng UTF-16. 6.400 chỗ được dành ra cho các hãng sử dụng với các mục đích riêng của mình. UTF-16 cũng dành ra 131.072 ký tự để dành cho những mục đích dùng riêng.

Các chuẩn mã hố ký tự khơng chỉ định nghĩa các mã của các ký tự, giá trị số, và vị trí của các ký tự mà cịn định nghĩa cả cách biểu diễn các mã ký tự dưới dạng bit. Unicode và ISO-10646 quy định 2 cơ chế, khuơn dạng chuyển đổi là UTF-8 và UTF-16.

Tiếng Việt trong Unicode cĩ thể cĩ hai dạng: ký tự dựng sẵnký tự tổ hợp. Unicode cĩ đủ 134 ký tự cho tất cả chữ hoa và chữ thường trong bảng chữ cái tiếng Việt, đồng thời cĩ mã cho 5 dấu thanh (huyền, sắc, hỏi, ngã, nặng) để tạo ra các ký

tự Việt dạng tổ hợp (một ký tự cĩ dấu được biểu diễn bằng một ký tự khơng dấu và dấu tương ứng). Ngồi ra Unicode cịn cĩ dấu riêng để biểu diễn đơn vị tiền đồng Việt Nam.

CHƯƠNG 2. HỆ THỐNG LỌC THƯ RÁC 1.Tổng quan về các hệ thống lọc thư rác

Một phần của tài liệu Nghiên cứu và thiết kế hệ thống lọc thư rác tiếng việt trên linux (Trang 26 - 29)

Tải bản đầy đủ (PDF)

(80 trang)