1. Trang chủ
  2. » Mẫu Slide

Bài giảng Công cụ Multimedia: Chương 2 - Trần Nguyên Ngọc

20 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 20
Dung lượng 1,07 MB

Nội dung

 Tính tích hợp: một văn bản XML có thể được được mở trong mọi ứng dụng có cài bộ duyệt cú pháp XML.  Khả năng mở rộng: các văn bản XML có thể được sử dụng trong tất cả các lĩnh vực ứng[r]

(1)

16

2 Các dạng dữ liệu Multimedia

 Các dạng dữ liệu Multimedia gồm

 Các dạng liệu truyền thống: văn bản, số liệu…

 Âm thanh: tiếng ồn, âm nhạc, tiếng nói…

 Hình ảnh tĩnh: đồ họa, ảnh

(2)

 Đơn giản, khơng địi hỏi phải xử lý nhiều

 Mã hóa mã ASCII, ISO/IEC 646 EBCDIC

 Chuyên dùng để tạo tệp tin cấu hình, thư điện tử tính tương thích cao

 Dạng Rich Text: kiểu chữ, cỡ chữ, màu chữ…

 Các vấn đề

 Nhập: gõ phím, tự động nhận dạng text

 Xử lý: tạo văn chỉnh lý, biên tập theo nguyên tắc WYSIWYG (What you see is what you get)

 Lưu trữ: tách biệt nội dung cấu trúc, mã hóa nén, nén khơng thông tin

 Hiển thị: hiển thị cảm giác

(3)

18

2.1 Văn bản

 Biểu diễn văn bản

ASCII – American Standard Code for information interchange mã mã hóa ký tự hỗ trợ biểu diễn văn máy tính thiết bị khác liên quan

 Trước ASCII phát triển, người ta sử dụng mã để mã

hóa 26 ký tự, 10 chữ số khoảng từ 11 – 25 biểu tượng đặc biệt, ngồi cịn số ký tự điều khiển khác nhằm tương tích với chuẩn

CCITT (Consultative Committee International Telephone and Telegraph)  CCITT  ≥ 64 ký tự (tương đương với bit)

 Các công nghệ băng bấm lỗ thời cho phép bit lưu

tại vị trí

 Chính bên cạnh bit biểu diễn cho ký tự, có thêm

(4)(5)

20 2.1 Văn bản

 Biểu diễn văn bản

 Mã Unicode

 Bộ mã chuẩn dùng làm mã cho tất ngôn ngữ giới

 Hỗ trợ ký tự tượng hình phức tạp tiếng Trung Quốc, tiếng Thái

(6)

 256 mã phù hợp với ISO 8859-1

 17 mặt phẳng gồm :

 Mặt phẳng (plane 0), "Mặt phẳng đa ngôn ngữ bản" (Basic

Multilingual Plane - BMP), nơi mà đa số ký hiệu gán mã BMP chứa ký hiệu cho hầu hết ngôn ngữ đại đặc biệt ngôn ngữ CJKV (Hán-Nhật-Hàn-Việt)

 Hai mặt phẳng dùng cho ký tự "đồ họa"

 Mặt phẳng 1, "Mặt phẳng đa ngôn ngữ bổsung" (Supplementary Multilingual

Plane - SMP), dùng chủyếu cho loại chữ viết cổ, ví dụEgyptian hieroglyph (chưa mã hóa), cịn dùng cho ký hiệu âm nhạc

 Mặt phẳng 2, (Supplementary Ideographic Plane - SIP), dùng cho

khoảng 40000 chữ Trung Quốc gặp mà đa sốlà ký hiệu cổ, ngồi có sốký hiệu đại

 Mặt phẳng 14 chứa số ký tự thẻ ngôn ngữ khơng khuyến khích số ký hiệu lựa chọn biến thể

(7)

22 2.1 Văn bản

 Các dạng mã Unicode : UTF-32, UTF-16 UTF-8

 UTF-32 : sử dụng 32 bit cho mỗi ký tự, được gọi là UTF-32 ISO/IEC 10646 gọi UCS-4

 UTF-16/UCS-2

 Mã hóa dùng Unicode 20 bit Trong Windows NT, CE người ta dùng 16 bit để mã hóa ký tự BMP

 Một code point có 20 bit chia làm hai nhóm 10 bit:  Most Significant: U+D800 – U+DBFF

 Least Significant: U+DC00 – U+DFFF  D800 DC00  U+00010000

 DBFF DFFF  U+0010FFFF

(8)

 Mã hóa xâu ký tự theo UCS Unicode theo dạng ký tự

dùng byte – tương ứng sơ đồ mã hóa UCS-2 UCS-4

 UTF-8 thiết kế để tương thích với chuẩn ASCII UTF-8

sử dụng từ (ASCII) 6 byte để biểu diễn ký tự 

tương thích với hệ thống  Sơ đồ mã hóa UTF-8

 U+0000 – U+007F: ký tự ASCII

 Các ký tự > U+007F mã hóa thành dãy byte có nhóm bit đặc biệt cho khơng có byte ASCII xuất thành phần ký tự

 Byte ký tự nhiều byte 0xC0 đến 0xFD

 Byte đầu rõ có byte theo sau byte chuỗi mã ký tự xét Ví dụ: byte đầu 11110xxx: có nghĩa ký tự mã hóa chuỗi bit bao gồm byte

(9)

24 2.1 Văn bản

 Sơ đồ mã hóa UTF-8

 U+00000000 – U+0000007F: 0xxxxxxx

 U+00000080 – U+000007FF: 110xxxxx 10xxxxxx

 U+00000800 – U+0000FFFF: 1110xxxx 10xxxxxx 10xxxxxx

 U+00010000 – U+0010FFFF: 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

 U+00200000 – U+03FFFFFF: 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

 U+04000000 – U+7FFFFFFF: 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

 U+00A9  1010 1001  UTF-8: 11000010 10101001

(10)

 1991 Unicode 1.0

 1993 Unicode 1.1

 1996 Unicode 2.0

 1998 Unicode 2.1

 2000 Unicode 3.0

 2001 Unicode 3.1

 2002 Unicode 3.2

(11)

26 2.1 Văn bản

 Văn bản được đánh dấu (Markup Text)

 Biểu diễn khuôn dạng nội dung  Nội dung chuỗi ký tự văn

 Khuôn dạng cấu trúc biểu diễn văn

 Markup text: văn chứa chuối ký tự chuyên biệt thể giới hạn cấu trúc khuôn dạng phần văn

 Nhược điểm: chứa hỗn độ cấu trúc logic như: điểm bắt đầu kết thúc phần, mục với cấu trúc xác định cách bố trí văn lề…

 SGML (Standardized General Markup Language) phân tách cấu trúc logic layout document type

 Gồm nhiều phần tử (element) có tên riêng

 Sử dụng cặp start-tag end-tag để đánh dấu phần tử

 HTML (HyperText Markup Language): ngôn ngữ đánh dấu cho trang Web

(12)

Ví dụ minh họa cho XML

(13)

28

2.1 Văn bản

 Khuôn dạng văn ASCII:

 Khuôn dạng sở ASCII chuẩn ISO 8859

 Đặc tính

 Văn khơng định cấu trúc  Khơng có định dạng trang

 128 ký tự đầu không đổi, 128 ký tự sau phụ thuộc vào biến dạng  Dạng phương tiện đơn

 Khuôn dạng Rich Text: RTF.

 Ký tự có kiểu, cỡ

 Trang văn có định dạng

 Cho phép tạo văn chứa hình đồ hoạ

 Khuôn dạng Microsoft cho văn môi trường MS-DOS,

(14)

 Một số khái niệm  Ra đời từ năm 1989

 HIện nay: phiên HTML 4.01

 HTML khuôn dạng dẫn xuất từ SGML DTD

 Trong trang HTML chứa liên kết với trang HTML khác

 Trong trang HTML chứa dạng thơng tin khác như: text, hình

ảnh, video, âm

 HTML sở dịch vụ WWW

 Hiển thị trang HTML trình duyệt Web  Một số đặc điểm

 Định dạng trang Web biểu thị qua thẻ  Các thẻ biểu diễn qua dấu < >

 Thẻ ghi theo cặp: thẻ mở thẻ đóng  VD:

(15)

30

2.1 Văn bản

 Một số loại thẻ HTML.

 <HTML>: xác định văn HTML  <HEAD>: phần đầu trang HTML  <TITLE>: tiêu đề trang HTML

 <BODY>: phần thân văn HTML  <H1>: xác định cỡ chữ

(16)

 Đơn giản, dễ hiểu

 Mô tả cấu trúc văn

 Mô tả định dạng văn

 Tạo kết nối mạng

 Nhược điểm.

 Không tuân thủ theo chuẩn cấu trúc định dạng văn

 Các thuộc tính văn ít, khơng tạo văn có cấu trúc phức tạp

(17)

32

2.1 Văn bản

 Dạng văn XML(eXtensible Markup Language)  Dạng XML đươc W3C đưa vào 1998

 XML tập SGML, đơn giản hoá SGML cho viêc sử dụng WWW

 Về đặc tính:

 XML siêu ngơn ngữ: ngôn ngữ mô tả ngôn ngữ

 XML ngôn ngữ xác định cấu trúc, cho phép đưa lừ điển từ vựng cấu trúc

cú pháp liệu

 XML cho phép phân tách nội dung văn cách trình bày Điều ngược lại

với HTML

 Kiểm tra cú pháp văn bản: DTD – document type definition  Một văn XML có định dạng chặt chẽ

(18)

 Để đọc văn XML, ta phải tách thông tin văn

 Sử dụng phân tích cú pháp

 Bộ phân tích cú pháp phải cho phép tách thơng tin cách thích hợp

 Ba dạng file.

 File nội dung: văn XML

 Định dạng hiển thị: tệp định kiểu XSL

 Định dạng cách viết nội dung: DTD

 Một số dạng liệu văn dựa XML:

 OFX – Open Financial eXchange

 MathML – Mathematical Markup Language

 CML – Chemical Markup Language

(19)

34

2.1 Văn bản

 Hiệu XML:

 Dễ đọc: không cần biết lý thuyết để hiểu nội dung văn XML

 Tự mô tả mở rộng

 Cấu trúc mềm dẻo: cho phép mơ hình hố phần lớn dạng thơng tin văn

 Tính vạn động

 Khả triển khai: truyền theo giao thức dùng để truyền text: HTTP

 Tính tích hợp: văn XML được mở ứng dụng có cài duyệt cú pháp XML

 Khả mở rộng: văn XML sử dụng tất lĩnh vực ứng dụng

(20)

 Các thao tác ký tự: thao tác đơn giản ký tự thành phần cho thao tác phức tạp Thể thông qua kiểu ký tự

 Các thao tác xâu: thao tác chuỗi ký tự

 Soạn thảo biên tập văn bản: thao tác thay đổi khuôn dạng cấu trúc văn

 Định dạng văn bản: thực thao tác đặt thuộc tính bố trí văn  WYGIWYS

 So sánh mẫu tìm kiếm: tìm kiếm đoạn văn cho trước cách so sánh với mẫu theo tiêu chí tìm kiếm

Ngày đăng: 01/04/2021, 00:27