Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 19 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
19
Dung lượng
3,03 MB
Nội dung
Click icon to add picture BÀI SỐ HÓA VĂN BẢN Trang văn có nhiều chữ số Em cho biết kí tự chữ số thập phân “0”, “1”, …, “9” số hóa, chuyển thành dãy bit 6/15/XX Bảng mã ASCII Trong máy tính kí tự biểu diễn dãy bit Dãy bit gọi mã nhị phân Để thống cần có quy định chung - Quy định bảng mã ASCII – mã chuẩn Mỹ để trao đổi thông tin + Bảng mã ASCII chứa mã nhị phân chữ dùng tiếng Anh số kí hiệu khác Bảng mã ASCII + Mã ASCII kí tự dãy bit, biểu diễn 128 kí tự khác + Ngồi kí tự in hình cịn có kí tự khơng in hình (gọi kí tự điều khiển) + Tham khảo tại: https://vi.wikipedia.org/wiki/ASCII Click icon to add picture - Bảng mã ASCII mở rộng: sử dụng mã nhị phân dài bit, biểu diễn thêm 128 kí tự + Mã nhị phân kí tự có bảng mã ASCII thêm bit vào trước để đủ độ dài bit Các kí tự thêm có mã nhị phân bắt đầu với bit + Bảng mã ASCII mở rộng biểu diễn 256 kí tự khác + Tham khảo tại: https://vi.wikipedia.org/wiki/ASCII_m%E1%BB%9F_r%E1%BB%99 ng 6/15/XX Bảng mã Unicode Em tìm bảng mã ASCII mở rộng cho biết kí tự “ấ”, “ẳ”, “ế”, “ệ”, … có bảng mã không? Bảng mã Unicode - Bảng mã Unicode thống chung việc mã hóa kí tự cho tất ngôn ngữ khác giới Tham khảo tại: https://vi.wikipedia.org/wiki/Unicode PITCH DECK Click icon to add picture Mã kí tự, kí tự mã nhị phân Con đường từ kí tự mã nhị phân chia làm hai bước: Bước thứ nhất: + Cho tương ứng kí tự với mã kí tự nhất, dãy kí số + Unicode gán điểm mã cho kí tự, kí hiệu, biểu tượng, … dùng tất ngôn ngữ khác giới + Mỗi điểm mã có tên gọi Ví dụ điểm mã U+1EC7 kí tự “ệ” + Mỗi điểm mã gán tên gọi (không thể thay đổi nữa) + Không gian mã Unicode chia thành khối, khối mã dành riêng cho ngôn ngữ cụ thể + Ví dụ: Từ “Việt Nam” có điểm mã Unicode Hình Click icon to add picture Bước thứ hai: + Chuyển từ mã kí tự thành dãy bit để máy tính xử lí được, gọi mã hóa Kết bước dãy bit Đây mã nhị phân kí tự + Bảng mã Unicode thực bước thứ nhất, sang bước thứ hai có nhiều cách triển khai thực khác + Các kí tự UTF-8, UTF-16, UTF-32 hiểu chương trình thực thi khác chuyển mã kí tự Unicode thành mã nhị phân + UTF viết tắt từ tiếng Anh Unicode Transformation Format + Số nghĩa dùng khối bit để biểu diễn kí tự + UTF-8 có khả mã hóa tất 112 064 điểm mã kí tự hợp lệ Unicode cách sử dụng từ đến đơn vị mã byte (8 bit) + Nó thiết kế để tương thích lùi với ASCII: 128 kí tự Unicode, tương ứng – với ASCII, mã hóa cách sử dụng byte có giá trị nhị phân ASCII Văn hợp lệ ASCII hợp lệ UTF-8 + UTF-8 an toàn để sử dụng hầu hết ngơn ngữ lập trình 4 Dữ liệu văn số hóa văn Làm theo hướng dẫn trả lời câu hỏi: 1) Mở trình soạn thảo văn Notepad, nhập vào 30 kí tự Latinh đơn giản liền thành dịng Khơng gõ kí tự có dấu tiếng Việt Lưu tệp với tên thuanchu.txt a) b) Tệp có kích thước byte? Mỗi kí tự byte? 2) Đóng Nptepad Mở tệp thuanchu.txt trình soạn thảo WordPad Đổi màu chữ để có dịng kí tự màu khác Lưu tệp thành dạng rtf c) d) 12 Tệp có kích thước byte? Tại kích thước tăng lên vậy? Click icon to add picture Dữ liệu văn số hóa văn Văn thần chữ (plain text): - Chỉ gồm kí tự gõ nhập từ bàn phím soạn thảo văn Văn chữ dãy kí tự xếp liên tiếp từ trái sang phải, từ xuống Mỗi kí tự dãy bit 13 PITCH DECK 6/15/XX Click icon to add picture Dữ liệu văn số hóa văn Dữ liệu văn - Dữ liệu văn máy tính dãy bit biểu diễn kí tự có kiểu dáng, màu sắc thơng tin định dạng khác 14 Kí tự tiếng Việt liệu văn Nhấn Ctrl + Shift + F6 để hiển thị bảng điều khiển gõ tiếng Việt Unikey; hộp Bảng mã nháy chuột vào nút mũi tên dấu trỏ xuống để mở danh sách bảng mã có gõ UniKey Em kể tên bảng mã xuất hiện? TCVN3 - Là bảng mã tiêu chuẩn cũ Việt Nam, dùng phông chữ có “.Vn” đứng đầu - Bộ gõ tiếng Việt Unikey phổ biến có cơng cụ dễ dàng chuyển đổi văn theo tiêu chuẩn cũ sang dùng mã Unicode để phù hợp với tiêu chuẩn Hình Cơng cụ chuyển đổi mã kí tự tiếng Việt gõ Unikey Tóm tắt học - Bảng mã kí tự ASCII mở rộng gồm 256 kí tự; mã kí tự ASCII số thứ tự kí tự bảng Bảng mã chuẩn quốc tế Unicode thiết kế với mục đích thống mã kí tự để máy tính “viết chữ” nhiều ngôn ngữ khác giới - Dữ liệu văn máy tính dãy bit biểu diễn kí tự thơng tin định dạng BÀI TẬP Câu Lí đời bảng mã chuẩn quốc tế Unicode gì? Câu Em tìm hiểu cơng cụ chuyển mã có gõ tiếng Việt Unikey (Hình 2) Câu Bảng mã ASCII gì? Câu Việc chuyển kí tự thành mã nhị phân tương ứng gồm bước? Bảng mã Unicode thực bước nào? Câu Văn tiếng Việt dùng bảng mã kí tự chuẩn quy định? Click icon to add picture Thank ThankYou You 19 PITCH DECK 6/15/XX ... liệu văn số hóa văn Dữ liệu văn - Dữ liệu văn máy tính dãy bit biểu diễn kí tự có kiểu dáng, màu sắc thơng tin định dạng khác 14 Kí tự tiếng Việt liệu văn Nhấn Ctrl + Shift + F6 để hiển thị bảng... thước tăng lên vậy? Click icon to add picture Dữ liệu văn số hóa văn Văn thần chữ (plain text): - Chỉ gồm kí tự gõ nhập từ bàn phím soạn thảo văn Văn chữ dãy kí tự xếp liên tiếp từ trái sang phải,...Trang văn có nhiều chữ số Em cho biết kí tự chữ số thập phân “0”, “1”, …, “9” số hóa, chuyển thành dãy bit 6/15/XX Bảng mã ASCII Trong máy tính kí tự biểu diễn