Bài giảng Công cụ Multimedia: Chương 2 - Trần Nguyên Ngọc

20 4 0
Bài giảng Công cụ Multimedia: Chương 2 - Trần Nguyên Ngọc

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

 Tính tích hợp: một văn bản XML có thể được được mở trong mọi ứng dụng có cài bộ duyệt cú pháp XML.  Khả năng mở rộng: các văn bản XML có thể được sử dụng trong tất cả các lĩnh vực ứng[r]

(1)

16

2 Các dạng dữ liệu Multimedia

 Các dạng dữ liệu Multimedia gồm

 Các dạng liệu truyền thống: văn bản, số liệu…

 Âm thanh: tiếng ồn, âm nhạc, tiếng nói…

 Hình ảnh tĩnh: đồ họa, ảnh

(2)

 Đơn giản, khơng địi hỏi phải xử lý nhiều

 Mã hóa mã ASCII, ISO/IEC 646 EBCDIC

 Chuyên dùng để tạo tệp tin cấu hình, thư điện tử tính tương thích cao

 Dạng Rich Text: kiểu chữ, cỡ chữ, màu chữ…

 Các vấn đề

 Nhập: gõ phím, tự động nhận dạng text

 Xử lý: tạo văn chỉnh lý, biên tập theo nguyên tắc WYSIWYG (What you see is what you get)

 Lưu trữ: tách biệt nội dung cấu trúc, mã hóa nén, nén khơng thông tin

 Hiển thị: hiển thị cảm giác

(3)

18

2.1 Văn bản

 Biểu diễn văn bản

ASCII – American Standard Code for information interchange mã mã hóa ký tự hỗ trợ biểu diễn văn máy tính thiết bị khác liên quan

 Trước ASCII phát triển, người ta sử dụng mã để mã

hóa 26 ký tự, 10 chữ số khoảng từ 11 – 25 biểu tượng đặc biệt, ngồi cịn số ký tự điều khiển khác nhằm tương tích với chuẩn

CCITT (Consultative Committee International Telephone and Telegraph)  CCITT  ≥ 64 ký tự (tương đương với bit)

 Các công nghệ băng bấm lỗ thời cho phép bit lưu

tại vị trí

 Chính bên cạnh bit biểu diễn cho ký tự, có thêm

(4)(5)

20 2.1 Văn bản

 Biểu diễn văn bản

 Mã Unicode

 Bộ mã chuẩn dùng làm mã cho tất ngôn ngữ giới

 Hỗ trợ ký tự tượng hình phức tạp tiếng Trung Quốc, tiếng Thái

(6)

 256 mã phù hợp với ISO 8859-1

 17 mặt phẳng gồm :

 Mặt phẳng (plane 0), "Mặt phẳng đa ngôn ngữ bản" (Basic

Multilingual Plane - BMP), nơi mà đa số ký hiệu gán mã BMP chứa ký hiệu cho hầu hết ngôn ngữ đại đặc biệt ngôn ngữ CJKV (Hán-Nhật-Hàn-Việt)

 Hai mặt phẳng dùng cho ký tự "đồ họa"

 Mặt phẳng 1, "Mặt phẳng đa ngôn ngữ bổsung" (Supplementary Multilingual

Plane - SMP), dùng chủyếu cho loại chữ viết cổ, ví dụEgyptian hieroglyph (chưa mã hóa), cịn dùng cho ký hiệu âm nhạc

 Mặt phẳng 2, (Supplementary Ideographic Plane - SIP), dùng cho

khoảng 40000 chữ Trung Quốc gặp mà đa sốlà ký hiệu cổ, ngồi có sốký hiệu đại

 Mặt phẳng 14 chứa số ký tự thẻ ngôn ngữ khơng khuyến khích số ký hiệu lựa chọn biến thể

(7)

22 2.1 Văn bản

 Các dạng mã Unicode : UTF-32, UTF-16 UTF-8

 UTF-32 : sử dụng 32 bit cho mỗi ký tự, được gọi là UTF-32 ISO/IEC 10646 gọi UCS-4

 UTF-16/UCS-2

 Mã hóa dùng Unicode 20 bit Trong Windows NT, CE người ta dùng 16 bit để mã hóa ký tự BMP

 Một code point có 20 bit chia làm hai nhóm 10 bit:  Most Significant: U+D800 – U+DBFF

 Least Significant: U+DC00 – U+DFFF  D800 DC00  U+00010000

 DBFF DFFF  U+0010FFFF

(8)

 Mã hóa xâu ký tự theo UCS Unicode theo dạng ký tự

dùng byte – tương ứng sơ đồ mã hóa UCS-2 UCS-4

 UTF-8 thiết kế để tương thích với chuẩn ASCII UTF-8

sử dụng từ (ASCII) 6 byte để biểu diễn ký tự 

tương thích với hệ thống  Sơ đồ mã hóa UTF-8

 U+0000 – U+007F: ký tự ASCII

 Các ký tự > U+007F mã hóa thành dãy byte có nhóm bit đặc biệt cho khơng có byte ASCII xuất thành phần ký tự

 Byte ký tự nhiều byte 0xC0 đến 0xFD

 Byte đầu rõ có byte theo sau byte chuỗi mã ký tự xét Ví dụ: byte đầu 11110xxx: có nghĩa ký tự mã hóa chuỗi bit bao gồm byte

(9)

24 2.1 Văn bản

 Sơ đồ mã hóa UTF-8

 U+00000000 – U+0000007F: 0xxxxxxx

 U+00000080 – U+000007FF: 110xxxxx 10xxxxxx

 U+00000800 – U+0000FFFF: 1110xxxx 10xxxxxx 10xxxxxx

 U+00010000 – U+0010FFFF: 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

 U+00200000 – U+03FFFFFF: 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

 U+04000000 – U+7FFFFFFF: 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

 U+00A9  1010 1001  UTF-8: 11000010 10101001

(10)

 1991 Unicode 1.0

 1993 Unicode 1.1

 1996 Unicode 2.0

 1998 Unicode 2.1

 2000 Unicode 3.0

 2001 Unicode 3.1

 2002 Unicode 3.2

(11)

26 2.1 Văn bản

 Văn bản được đánh dấu (Markup Text)

 Biểu diễn khuôn dạng nội dung  Nội dung chuỗi ký tự văn

 Khuôn dạng cấu trúc biểu diễn văn

 Markup text: văn chứa chuối ký tự chuyên biệt thể giới hạn cấu trúc khuôn dạng phần văn

 Nhược điểm: chứa hỗn độ cấu trúc logic như: điểm bắt đầu kết thúc phần, mục với cấu trúc xác định cách bố trí văn lề…

 SGML (Standardized General Markup Language) phân tách cấu trúc logic layout document type

 Gồm nhiều phần tử (element) có tên riêng

 Sử dụng cặp start-tag end-tag để đánh dấu phần tử

 HTML (HyperText Markup Language): ngôn ngữ đánh dấu cho trang Web

(12)

Ví dụ minh họa cho XML

(13)

28

2.1 Văn bản

 Khuôn dạng văn ASCII:

 Khuôn dạng sở ASCII chuẩn ISO 8859

 Đặc tính

 Văn khơng định cấu trúc  Khơng có định dạng trang

 128 ký tự đầu không đổi, 128 ký tự sau phụ thuộc vào biến dạng  Dạng phương tiện đơn

 Khuôn dạng Rich Text: RTF.

 Ký tự có kiểu, cỡ

 Trang văn có định dạng

 Cho phép tạo văn chứa hình đồ hoạ

 Khuôn dạng Microsoft cho văn môi trường MS-DOS,

(14)

 Một số khái niệm  Ra đời từ năm 1989

 HIện nay: phiên HTML 4.01

 HTML khuôn dạng dẫn xuất từ SGML DTD

 Trong trang HTML chứa liên kết với trang HTML khác

 Trong trang HTML chứa dạng thơng tin khác như: text, hình

ảnh, video, âm

 HTML sở dịch vụ WWW

 Hiển thị trang HTML trình duyệt Web  Một số đặc điểm

 Định dạng trang Web biểu thị qua thẻ  Các thẻ biểu diễn qua dấu < >

 Thẻ ghi theo cặp: thẻ mở thẻ đóng  VD:

(15)

30

2.1 Văn bản

 Một số loại thẻ HTML.

 <HTML>: xác định văn HTML  <HEAD>: phần đầu trang HTML  <TITLE>: tiêu đề trang HTML

 <BODY>: phần thân văn HTML  <H1>: xác định cỡ chữ

(16)

 Đơn giản, dễ hiểu

 Mô tả cấu trúc văn

 Mô tả định dạng văn

 Tạo kết nối mạng

 Nhược điểm.

 Không tuân thủ theo chuẩn cấu trúc định dạng văn

 Các thuộc tính văn ít, khơng tạo văn có cấu trúc phức tạp

(17)

32

2.1 Văn bản

 Dạng văn XML(eXtensible Markup Language)  Dạng XML đươc W3C đưa vào 1998

 XML tập SGML, đơn giản hoá SGML cho viêc sử dụng WWW

 Về đặc tính:

 XML siêu ngơn ngữ: ngôn ngữ mô tả ngôn ngữ

 XML ngôn ngữ xác định cấu trúc, cho phép đưa lừ điển từ vựng cấu trúc

cú pháp liệu

 XML cho phép phân tách nội dung văn cách trình bày Điều ngược lại

với HTML

 Kiểm tra cú pháp văn bản: DTD – document type definition  Một văn XML có định dạng chặt chẽ

(18)

 Để đọc văn XML, ta phải tách thông tin văn

 Sử dụng phân tích cú pháp

 Bộ phân tích cú pháp phải cho phép tách thơng tin cách thích hợp

 Ba dạng file.

 File nội dung: văn XML

 Định dạng hiển thị: tệp định kiểu XSL

 Định dạng cách viết nội dung: DTD

 Một số dạng liệu văn dựa XML:

 OFX – Open Financial eXchange

 MathML – Mathematical Markup Language

 CML – Chemical Markup Language

(19)

34

2.1 Văn bản

 Hiệu XML:

 Dễ đọc: không cần biết lý thuyết để hiểu nội dung văn XML

 Tự mô tả mở rộng

 Cấu trúc mềm dẻo: cho phép mơ hình hố phần lớn dạng thơng tin văn

 Tính vạn động

 Khả triển khai: truyền theo giao thức dùng để truyền text: HTTP

 Tính tích hợp: văn XML được mở ứng dụng có cài duyệt cú pháp XML

 Khả mở rộng: văn XML sử dụng tất lĩnh vực ứng dụng

(20)

 Các thao tác ký tự: thao tác đơn giản ký tự thành phần cho thao tác phức tạp Thể thông qua kiểu ký tự

 Các thao tác xâu: thao tác chuỗi ký tự

 Soạn thảo biên tập văn bản: thao tác thay đổi khuôn dạng cấu trúc văn

 Định dạng văn bản: thực thao tác đặt thuộc tính bố trí văn  WYGIWYS

 So sánh mẫu tìm kiếm: tìm kiếm đoạn văn cho trước cách so sánh với mẫu theo tiêu chí tìm kiếm

Ngày đăng: 01/04/2021, 00:27

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan