Bài 3 Một số kiểu dữ liệu và dữ liệu văn bản 1 Phân loại và biểu diễn thông tính trong máy tính Biểu diễn thông tin là cách mã hóa thông tin Các kiểu dữ liệu thường gặp là văn bản, số, hình ảnh, âm th[.]
Bài 3: Một số kiểu liệu liệu văn Phân loại biểu diễn thơng tính máy tính - Biểu diễn thơng tin cách mã hóa thơng tin - Các kiểu liệu thường gặp văn bản, số, hình ảnh, âm lơgic - Việc phân loại liệu để có cách biểu diễn phù hợp nhằm tạo điều kiện thuận lợi cho việc xử lí thơng tin máy tính Bảng 1: Sơ đồ phân loại kiểu liệu Biểu diễn liệu văn a) Bảng mã ASCII - Ban đầu bảng mã dùng mã bit, với 128 mã khác thể 128 kí tự - Bảng mã bit đủ dùng cho tiếng Anh nhiều quốc gia dùng kí tự riêng, Trung Quốc, Hy Lạp, … ⇒ Người ta mở rộng bảng mã bit thành bảng mã bit gọi ASCII mở rộng cho phép mã hóa 256 kí tự b) Bảng mã Unicode tiếng Việt Unicode - Ngồi kí tự có bảng chữ tiếng Anh, Tiếng Việt cịn có 134 nguyên âm có dấu phụ âm “đ” khơng có sẵn bảng mã ASCII, phần mở rộng bảng mã ASCII lại có 128 vị trí - Tình trạng thiếu vị trí cịn trầm trọng với quốc gia dùng chữ tượng Trung Quốc, Hàn Quốc, … ⇒ Do bảng mã Unicode xây dựng dùng chung cho quốc gia - Unicode tiêu chuẩn biểu diễn kí tự văn máy tính, cho phép biểu diễn kí tự thuộc nhiều loại ngơn ngữ khác - UTF-8 hệ thống mã hóa kí tự với độ dài khác dành cho Unicode - Từ năm 2017, Việt Nam ban hành quy định bắt buộc sử dụng UTF-8 để biểu diễn kí tự Tiếng Việt máy tính, dùng bảng mã ASCII để mã hóa kí tự latinh khơng dấu, sử dụng byte để mã hóa ngun âm có dấu, kí tự Đ đ dùng byte số kí tự đặc biệt c) Số hóa văn - Tệp văn định dạng lưu trữ nhớ ngồi - Việc số hóa văn thực phần mềm soạn thảo văn Word, Writer - Hiện nhập văn nhận dạng tiếng nói ... buộc sử dụng UTF-8 để biểu diễn kí tự Tiếng Việt máy tính, dùng bảng mã ASCII để mã hóa kí tự latinh không dấu, sử dụng byte để mã hóa ngun âm có dấu, kí tự Đ đ dùng byte số kí tự đặc biệt c)