Tính tích hợp: một văn bản XML có thể được được mở trong mọi ứng dụng có cài bộ duyệt cú pháp XML. Khả năng mở rộng: các văn bản XML có thể được sử dụng trong tất cả các lĩnh vực ứng[r]
(1)16
2 Các dạng dữ liệu Multimedia
Các dạng dữ liệu Multimedia gồm
Các dạng liệu truyền thống: văn bản, số liệu…
Âm thanh: tiếng ồn, âm nhạc, tiếng nói…
Hình ảnh tĩnh: đồ họa, ảnh
(2) Đơn giản, khơng địi hỏi phải xử lý nhiều
Mã hóa mã ASCII, ISO/IEC 646 EBCDIC
Chuyên dùng để tạo tệp tin cấu hình, thư điện tử tính tương thích cao
Dạng Rich Text: kiểu chữ, cỡ chữ, màu chữ…
Các vấn đề
Nhập: gõ phím, tự động nhận dạng text
Xử lý: tạo văn chỉnh lý, biên tập theo nguyên tắc WYSIWYG (What you see is what you get)
Lưu trữ: tách biệt nội dung cấu trúc, mã hóa nén, nén khơng thông tin
Hiển thị: hiển thị cảm giác
(3)18
2.1 Văn bản
Biểu diễn văn bản
ASCII – American Standard Code for information interchange mã mã hóa ký tự hỗ trợ biểu diễn văn máy tính thiết bị khác liên quan
Trước ASCII phát triển, người ta sử dụng mã để mã
hóa 26 ký tự, 10 chữ số khoảng từ 11 – 25 biểu tượng đặc biệt, ngồi cịn số ký tự điều khiển khác nhằm tương tích với chuẩn
CCITT (Consultative Committee International Telephone and Telegraph) CCITT ≥ 64 ký tự (tương đương với bit)
Các công nghệ băng bấm lỗ thời cho phép bit lưu
tại vị trí
Chính bên cạnh bit biểu diễn cho ký tự, có thêm
(4)(5)20 2.1 Văn bản
Biểu diễn văn bản
Mã Unicode
Bộ mã chuẩn dùng làm mã cho tất ngôn ngữ giới
Hỗ trợ ký tự tượng hình phức tạp tiếng Trung Quốc, tiếng Thái
(6) 256 mã phù hợp với ISO 8859-1
17 mặt phẳng gồm :
Mặt phẳng (plane 0), "Mặt phẳng đa ngôn ngữ bản" (Basic
Multilingual Plane - BMP), nơi mà đa số ký hiệu gán mã BMP chứa ký hiệu cho hầu hết ngôn ngữ đại đặc biệt ngôn ngữ CJKV (Hán-Nhật-Hàn-Việt)
Hai mặt phẳng dùng cho ký tự "đồ họa"
Mặt phẳng 1, "Mặt phẳng đa ngôn ngữ bổsung" (Supplementary Multilingual
Plane - SMP), dùng chủyếu cho loại chữ viết cổ, ví dụEgyptian hieroglyph (chưa mã hóa), cịn dùng cho ký hiệu âm nhạc
Mặt phẳng 2, (Supplementary Ideographic Plane - SIP), dùng cho
khoảng 40000 chữ Trung Quốc gặp mà đa sốlà ký hiệu cổ, ngồi có sốký hiệu đại
Mặt phẳng 14 chứa số ký tự thẻ ngôn ngữ khơng khuyến khích số ký hiệu lựa chọn biến thể
(7)22 2.1 Văn bản
Các dạng mã Unicode : UTF-32, UTF-16 UTF-8
UTF-32 : sử dụng 32 bit cho mỗi ký tự, được gọi là UTF-32 ISO/IEC 10646 gọi UCS-4
UTF-16/UCS-2
Mã hóa dùng Unicode 20 bit Trong Windows NT, CE người ta dùng 16 bit để mã hóa ký tự BMP
Một code point có 20 bit chia làm hai nhóm 10 bit: Most Significant: U+D800 – U+DBFF
Least Significant: U+DC00 – U+DFFF D800 DC00 U+00010000
DBFF DFFF U+0010FFFF
(8) Mã hóa xâu ký tự theo UCS Unicode theo dạng ký tự
dùng byte – tương ứng sơ đồ mã hóa UCS-2 UCS-4
UTF-8 thiết kế để tương thích với chuẩn ASCII UTF-8
sử dụng từ (ASCII) 6 byte để biểu diễn ký tự
tương thích với hệ thống Sơ đồ mã hóa UTF-8
U+0000 – U+007F: ký tự ASCII
Các ký tự > U+007F mã hóa thành dãy byte có nhóm bit đặc biệt cho khơng có byte ASCII xuất thành phần ký tự
Byte ký tự nhiều byte 0xC0 đến 0xFD
Byte đầu rõ có byte theo sau byte chuỗi mã ký tự xét Ví dụ: byte đầu 11110xxx: có nghĩa ký tự mã hóa chuỗi bit bao gồm byte
(9)24 2.1 Văn bản
Sơ đồ mã hóa UTF-8
U+00000000 – U+0000007F: 0xxxxxxx
U+00000080 – U+000007FF: 110xxxxx 10xxxxxx
U+00000800 – U+0000FFFF: 1110xxxx 10xxxxxx 10xxxxxx
U+00010000 – U+0010FFFF: 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
U+00200000 – U+03FFFFFF: 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
U+04000000 – U+7FFFFFFF: 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
U+00A9 1010 1001 UTF-8: 11000010 10101001
(10) 1991 Unicode 1.0
1993 Unicode 1.1
1996 Unicode 2.0
1998 Unicode 2.1
2000 Unicode 3.0
2001 Unicode 3.1
2002 Unicode 3.2
(11)26 2.1 Văn bản
Văn bản được đánh dấu (Markup Text)
Biểu diễn khuôn dạng nội dung Nội dung chuỗi ký tự văn
Khuôn dạng cấu trúc biểu diễn văn
Markup text: văn chứa chuối ký tự chuyên biệt thể giới hạn cấu trúc khuôn dạng phần văn
Nhược điểm: chứa hỗn độ cấu trúc logic như: điểm bắt đầu kết thúc phần, mục với cấu trúc xác định cách bố trí văn lề…
SGML (Standardized General Markup Language) phân tách cấu trúc logic layout document type
Gồm nhiều phần tử (element) có tên riêng
Sử dụng cặp start-tag end-tag để đánh dấu phần tử
HTML (HyperText Markup Language): ngôn ngữ đánh dấu cho trang Web
(12)Ví dụ minh họa cho XML
(13)28
2.1 Văn bản
Khuôn dạng văn ASCII:
Khuôn dạng sở ASCII chuẩn ISO 8859
Đặc tính
Văn khơng định cấu trúc Khơng có định dạng trang
128 ký tự đầu không đổi, 128 ký tự sau phụ thuộc vào biến dạng Dạng phương tiện đơn
Khuôn dạng Rich Text: RTF.
Ký tự có kiểu, cỡ
Trang văn có định dạng
Cho phép tạo văn chứa hình đồ hoạ
Khuôn dạng Microsoft cho văn môi trường MS-DOS,
(14) Một số khái niệm Ra đời từ năm 1989
HIện nay: phiên HTML 4.01
HTML khuôn dạng dẫn xuất từ SGML DTD
Trong trang HTML chứa liên kết với trang HTML khác
Trong trang HTML chứa dạng thơng tin khác như: text, hình
ảnh, video, âm
HTML sở dịch vụ WWW
Hiển thị trang HTML trình duyệt Web Một số đặc điểm
Định dạng trang Web biểu thị qua thẻ Các thẻ biểu diễn qua dấu < >
Thẻ ghi theo cặp: thẻ mở thẻ đóng VD:
(15)30
2.1 Văn bản
Một số loại thẻ HTML.
<HTML>: xác định văn HTML <HEAD>: phần đầu trang HTML <TITLE>: tiêu đề trang HTML
<BODY>: phần thân văn HTML <H1>: xác định cỡ chữ
(16) Đơn giản, dễ hiểu
Mô tả cấu trúc văn
Mô tả định dạng văn
Tạo kết nối mạng
Nhược điểm.
Không tuân thủ theo chuẩn cấu trúc định dạng văn
Các thuộc tính văn ít, khơng tạo văn có cấu trúc phức tạp
(17)32
2.1 Văn bản
Dạng văn XML(eXtensible Markup Language) Dạng XML đươc W3C đưa vào 1998
XML tập SGML, đơn giản hoá SGML cho viêc sử dụng WWW
Về đặc tính:
XML siêu ngơn ngữ: ngôn ngữ mô tả ngôn ngữ
XML ngôn ngữ xác định cấu trúc, cho phép đưa lừ điển từ vựng cấu trúc
cú pháp liệu
XML cho phép phân tách nội dung văn cách trình bày Điều ngược lại
với HTML
Kiểm tra cú pháp văn bản: DTD – document type definition Một văn XML có định dạng chặt chẽ
(18) Để đọc văn XML, ta phải tách thông tin văn
Sử dụng phân tích cú pháp
Bộ phân tích cú pháp phải cho phép tách thơng tin cách thích hợp
Ba dạng file.
File nội dung: văn XML
Định dạng hiển thị: tệp định kiểu XSL
Định dạng cách viết nội dung: DTD
Một số dạng liệu văn dựa XML:
OFX – Open Financial eXchange
MathML – Mathematical Markup Language
CML – Chemical Markup Language
(19)34
2.1 Văn bản
Hiệu XML:
Dễ đọc: không cần biết lý thuyết để hiểu nội dung văn XML
Tự mô tả mở rộng
Cấu trúc mềm dẻo: cho phép mơ hình hố phần lớn dạng thơng tin văn
Tính vạn động
Khả triển khai: truyền theo giao thức dùng để truyền text: HTTP
Tính tích hợp: văn XML được mở ứng dụng có cài duyệt cú pháp XML
Khả mở rộng: văn XML sử dụng tất lĩnh vực ứng dụng
(20) Các thao tác ký tự: thao tác đơn giản ký tự thành phần cho thao tác phức tạp Thể thông qua kiểu ký tự
Các thao tác xâu: thao tác chuỗi ký tự
Soạn thảo biên tập văn bản: thao tác thay đổi khuôn dạng cấu trúc văn
Định dạng văn bản: thực thao tác đặt thuộc tính bố trí văn WYGIWYS
So sánh mẫu tìm kiếm: tìm kiếm đoạn văn cho trước cách so sánh với mẫu theo tiêu chí tìm kiếm