- BOM được biểu diễn trong cách mã hoá UTF16 là 0xFEFF cho
4.Tổng quan TCVN34.Tổng quan TCVN
4.Tổng quan TCVN3
• Ti ng Vi t ế ệ được th hi n qua hai d ng ch vi t, ể ệ ạ ữ ế
ch Nôm và ch qu c ng . Các v n nghiên c u ữ ữ ố ữ ấ đề ứ
bi u di n ch Nôm trong công ngh thông tin
để ể ễ ữ ệ
m i ớ được nghiên c u và g n ây ã thu ứ ầ đ đ được nh ng ữ
thành công b c u. M i quan tâm chính c a gi i ướ đầ ố ủ ớ
công ngh thông tin trong nh ng n m qua là t p ệ ữ ă ậ
trung nghiên c u ch qu c ng bi u di n bên ứ ữ ố ữ để ể ễ
trong máy tính. K t qu c a quá trình nghiên c u là ế ả ủ ứ
ã công b c m t b ng mã tiêu chu n cho ti ng
đ ố đượ ộ ả ẩ ế
Vi t, vi t t t là TCVN-5712 (1993). Cùng v i b ng ệ ế ă ớ ả
mã TCVN-5712 là s ra i c a b font ch ABC, ự đờ ủ ộ ữ
c quy nh là tiêu chu n qu c gia
4.Tổng quan TCVN3 4.Tổng quan TCVN3
• Do hạn chế về mặt biểu diễn các mã chữ trong máy
tính, nên lúc đầu người ta định ra bảng mã 8 bit để mã hóa chữ viết.
• Bảng mã 8 bit cho phép chỉ có thể bố trí tối đa 256 ký
tự, trong đó có 128 kýý tự không được phép xâm phạm, gồm các ký tự điều khiển, các ký tự thể hiện con chữ trong bảng chữ cái Latin (a, b, c, d, e, ..., z), các ký tự toán học và các ký tự khác như @, $, &, *, v.v.
• Như vậy, chỉ còn lại 128 ký tự để mã hóa chữ viết cho
nhiều ngôn ngữ khác nhau. Với các ngôn ngữ có chữ viết theo hệ Latin như tiếng Anh, tiếng Pháp... thì
không có vấn đề gì, nhưng với các ngôn ngữ có chữ viết tượng hình như tiếng Hán, tiếng Nhật... thì lại thành vấn đề lớn.
4.Tổng quan TCVN3
4.Tổng quan TCVN3
• Tiếng Việt, tuy chữ viết thuộc hệ Latin, nhưng là chữ
viết có thanh điệu nên cũng không tránh khỏi những khó khăn nhất định. Để cho rõ hơn, chúng ta có thể hình dung như sau:
• Tiếng Việt có 20 con chữ ghi phụ âm (du nhập thêm F,