Chương 2 trình bày về các dạng dữ liệu Multimedia. Nội dung cụ thể trong chương này gồm có: Các dạng dữ liệu truyền thống (văn bản, số liệu,...), âm thanh (tiếng ồn, âm nhạc, tiếng nói…), hình ảnh tĩnh (đồ họa, ảnh,...), ảnh động (animation, video,...).
2 Các dạng liệu Multimedia Các dạng liệu Multimedia gồm Các dạng liệu truyền thống: văn bản, số liệu… Âm thanh: tiếng ồn, âm nhạc, tiếng nói… Hình ảnh tĩnh: đồ họa, ảnh Ảnh động: animation, video 16 2.1 Văn Dữ liệu văn kinh điển: plain text Đơn giản, khơng đòi hỏi phải xử lý nhiều Mã hóa mã ASCII, ISO/IEC 646 EBCDIC Chuyên dùng để tạo tệp tin cấu hình, thư điện tử tính tương thích cao Dạng Rich Text: kiểu chữ, cỡ chữ, màu chữ… Các vấn đề Nhập: gõ phím, tự động nhận dạng text Xử lý: tạo văn chỉnh lý, biên tập theo nguyên tắc WYSIWYG (What you see is what you get) Lưu trữ: tách biệt nội dung cấu trúc, mã hóa nén, nén khơng thông tin Hiển thị: hiển thị cảm giác Vấn đề phổ biến: thường gặp khơng tương thích văn 17 2.1 Văn Biểu diễn văn ASCII – American Standard Code for information interchange mã mã hóa ký tự hỗ trợ biểu diễn văn máy tính thiết bị khác liên quan Trước ASCII phát triển, người ta sử dụng mã để mã hóa 26 ký tự, 10 chữ số khoảng từ 11 – 25 biểu tượng đặc biệt, ngồi số ký tự điều khiển khác nhằm tương tích với chuẩn CCITT (Consultative Committee International Telephone and Telegraph) CCITT ≥ 64 ký tự (tương đương với bit) Các công nghệ băng bấm lỗ thời cho phép bit lưu vị trí Chính bên cạnh bit biểu diễn cho ký tự, có thêm bit khác gọi parity bit để sửa lỗi xảy q trình truyền dẫn 18 2.1 Văn Biểu diễn văn Bảng mã ASCII: Sử dụng bit để biểu diễn ký tự, ngồi có bit (parity bit) chuyên dùng để sửa lỗi 19 2.1 Văn Biểu diễn văn Mã Unicode Bộ mã chuẩn dùng làm mã cho tất ngôn ngữ giới Hỗ trợ ký tự tượng hình phức tạp tiếng Trung Quốc, tiếng Thái Unicode chiếm 1.114.112 ((16+1)*65536) code point, gán 96000 mã chữ Unicode chia làm 17 mặt phẳng Mỗi mặt gồm 65536 code point 20 2.1 Văn Mã Unicode ( tiếp ) 256 mã phù hợp với ISO 8859-1 17 mặt phẳng gồm : Mặt phẳng (plane 0), "Mặt phẳng đa ngôn ngữ bản" (Basic Multilingual Plane - BMP), nơi mà đa số ký hiệu gán mã BMP chứa ký hiệu cho hầu hết ngôn ngữ đại đặc biệt ngôn ngữ CJKV (Hán-Nhật-Hàn-Việt) Hai mặt phẳng dùng cho ký tự "đồ họa" Mặt phẳng 1, "Mặt phẳng đa ngôn ngữ bổ sung" (Supplementary Multilingual Plane - SMP), dùng chủ yếu cho loại chữ viết cổ, ví dụ Egyptian hieroglyph (chưa mã hóa), dùng cho ký hiệu âm nhạc Mặt phẳng 2, (Supplementary Ideographic Plane - SIP), dùng cho khoảng 40000 chữ Trung Quốc gặp mà đa số ký hiệu cổ, ngồi có số ký hiệu đại Mặt phẳng 14 chứa số ký tự thẻ ngơn ngữ khơng khuyến khích số ký hiệu lựa chọn biến thể Mặt phẳng 15 Mặt phẳng 16 mở cho sử dụng cá nhân 21 2.1 Văn Các dạng mã Unicode : UTF-32, UTF-16 UTF-8 UTF-32 : sử dụng 32 bit cho ký tự, gọi UTF-32 ISO/IEC 10646 gọi UCS-4 UTF-16/UCS-2 Mã hóa dùng Unicode 20 bit Trong Windows NT, CE người ta dùng 16 bit để mã hóa ký tự BMP Một code point có 20 bit chia làm hai nhóm 10 bit: Most Significant: U+D800 – U+DBFF Least Significant: U+DC00 – U+DFFF D800 DC00 U+00010000 DBFF DFFF U+0010FFFF Bộ mã sử dụng cặp thay UTF-16 22 2.1 Văn UTF-8 Mã hóa xâu ký tự theo UCS Unicode theo dạng ký tự dùng byte – tương ứng sơ đồ mã hóa UCS-2 UCS-4 UTF-8 thiết kế để tương thích với chuẩn ASCII UTF-8 sử dụng từ (ASCII) byte để biểu diễn ký tự tương thích với hệ thống Sơ đồ mã hóa UTF-8 U+0000 – U+007F: ký tự ASCII Các ký tự > U+007F mã hóa thành dãy byte có nhóm bit đặc biệt cho khơng có byte ASCII xuất thành phần ký tự Byte ký tự nhiều byte 0xC0 đến 0xFD Byte đầu rõ có byte theo sau byte chuỗi mã ký tự xét Ví dụ: byte đầu 11110xxx: có nghĩa ký tự mã hóa chuỗi bit bao gồm byte Các byte sau có giá trị từ 0x80 đến 0xBF 23 2.1 Văn Sơ đồ mã hóa UTF-8 U+00000000 – U+0000007F: 0xxxxxxx U+00000080 – U+000007FF: 110xxxxx 10xxxxxx U+00000800 – U+0000FFFF: 1110xxxx 10xxxxxx 10xxxxxx U+00010000 – U+0010FFFF: 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx U+00200000 – U+03FFFFFF: 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx U+04000000 – U+7FFFFFFF: 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx U+00A9 1010 1001 UTF-8: 11000010 10101001 U+2260 10 0010 0110 0000 UTF-8: 11100010 10001001 10100000 = 0xE2 0x89 0xA0 24 2.1 Văn Các phiên Unicode 1991 Unicode 1.0 1993 Unicode 1.1 1996 Unicode 2.0 1998 Unicode 2.1 2000 Unicode 3.0 2001 Unicode 3.1 2002 Unicode 3.2 2003 Unicode 4.0 25 Các khuôn dạng ảnh Các ảnh vector Các ưu điểm: Các nhược điểm: Mã hóa ảnh hình đơn giản Gọn, kích thước nhỏ Thay đổi kích thước đơn giản, không bị thông tin Sửa dễ dàng phần tử ảnh độc lập Không biểu diễn ảnh chụp Xử lý ảnh phức tạp với nhiều đối tượng gặp nhiều khó khăn Khn dạng khơng chuẩn, trình duyệt web khơng nhận dạng Khuôn dạng WMF: Chứa thông tin đối tượng Một file WMF chứa 65535 đối tượng 69 Các khuôn dạng ảnh Ảnh bitmap Hình ảnh biểu diễn thơng qua ma trận điểm Giá trị điểm ảnh tới mầu điểm tương ứng với sơ đồ biểu diễn màu Biểu diễn màu theo sơ đồ RGB Hai sơ đồ mã hóa màu: RGB CYMK Không gian màu chuyển đổi: RGB(1,1,1) -> CMY (0,0,0) C=1-R; G=1-M; R=1-C; Y=1-B; M=1-G;B=1-Y; 70 Các khn dạng ảnh Mã hóa màu: Giá trị điểm ảnh Màu tương ứng theo giá trị tùy theo bảng màu Phương pháp đơn giản Đối với điểm ảnh giá trị điểm ảnh giá trị màu Màu lựa chọn theo mơ hình RGB Đối với pixel: Mã hoá thành phần RGB sử dụng n bit Mơ hình màu theo RGB mã hoá theo x n bit Số lượng màu cho phép mơ hình RGB: 2n x 2n x 2n Màu thực: true color: sử dụng bit cho thành phần màu, số lượng màu cho phép biểu diễn là: 224 màu 71 Các khuôn dạng ảnh Thành phần thứ tư phần mở rộng có độ dài bit để biểu diễn Biểu diễn bảng màu N lựa chọn số 2m x 2m x 2m màu m số lượng bit để biểu diễn thành phần màu N vị trí tương ứng bảng màu Kích thước khối thông tin ảnh: Kênh alpha Kênh alpha dùng để biểu diễn tính suốt ảnh (transparence) Tính chất dùng để tránh hiệu ứng bậc thang có nhiều ảnh chồng lên X * Y * n X: số cột,Y: số hàng, n: số bit dùng để mã hoá ảnh ảnh bitmap cho chất lượng cao 72 2.3 Hình ảnh tĩnh Một số định dạng ảnh phổ biến JPEG (Joint Photographic Experts Group): phương pháp nén ảnh hiệu với tỷ lệ nén tới vài chục lần Sử dụng phương pháp nén mát thông tin Các bước gồm: Phân khối, biến đổi Cosin rời rạc (DCT), lượng tử hóa mã hóa BMP: Các tệp tin đồ họa lưu dạng BMP có phần mở rộng bmp dib Bitmap header (14 bytes): giúp nhận dạng tệp tin bitmap Bitmap information (40 bytes): lưu chi tiết hiển thị ảnh Color pallete (4x bytes), x số màu ảnh Bitmap data: liệu ảnh GIF (Graphics Interchange Format): định dạng tệp tin hình ảnh bitmap sử dụng 256 bit TIFF (Tagged Image File Format): sử dụng quét ảnh, gửi fax, xử lý văn bản, nhận dạng chữ viết… 73 2.4 Hình ảnh động Video Video chuỗi hình ảnh tĩnh trình diễn đơn vị thời gian khiến người xem có cảm giác vật chuyển động Video lưu trữ truyền nhiều môi trường khác nhau: PAL, NTSC, MPEG-4 hay DVI 3D video quy định chuẩn MPEG-4 Part 16 Animation Framework eXtension (AFX) Các đặc tính video: Số lượng khung (frame) giây Interlacing Độ phân giải Kích thước khung hình Phương pháp nén video Tốc độ truyền (đối với video số) 74 2.4 Hình ảnh động Video số Thuận lợi: Truy cập ngẫu nhiên trực tiếp thuận tiện, Việc tạo, lưu trữ ghi đọc nhiều lần không ảnh hưởng đến chất lượng ảnh Khơng cần xung xố xung đồng Xử lý thuận tiện, không gặp trở ngại giới hạn tần số, băng thông Khó khăn Tuy nhiên, tín hiệu số gặp số trở ngại xoay quanh vấn đề tính hiệu quả, chẳng hạn lọc số có giá thành tương đối cao Tiêu chuẩn lấy mẫu màu: Thuận lợi việc xử lý tín hiệu video thành phần, băng thông yêu cầu lớn 75 2.4 Hình ảnh động Video Số lượng khung hình giây (Frame rate) Thông thường từ 6-25 frame/s, tùy theo camera PAL (EU), SECAM (EU): 25 frame/s NTSC (US, Japan): 29,97 frame/s Interlacing Interlacing: Chia hình thành dòng, lần chùm electron quét dòng chẵn lẻ tiết kiệm băng thông đường truyền NTSC, PAL, SECAM sử dụng chế độ interlacing: PAL 576i50 Progressive: dòng electron quét tất hình cho hình ảnh chất lượng cao, vd: HDTV Độ phân giải Được tính theo đơn vị pixel liệu số dòng quét ngang, quét dọc với liệu tương tự NTSC: 720/704/640x480i60 PAL: 768/720x576i50 HDTV: 1920x1080p60 76 2.4 Hình ảnh động Video Kích thước hình Màn hình truyền thống: 4:3 Màn hình HD: 16x9 widescreen Các phương pháp nén video Intraframe compression: nén tương tự kỹ thuật nén ảnh Interframe compression: nén dựa khác biệt frame (chỉ lưu khác biệt) MPEG-2: sử dụng cho DVD ti vi truyền từ vệ tinh MPEG-4 dùng cho video gia đình Tốc độ truyền (bitrate): Tốc độ cao, chất lượng video tốt Video CD; Mbps DVD: Mbps HDTV: 20 Mbps 77 2.4 Hình ảnh động Hoạt hình (Animation) Tạo ảo giác quang học chuyển động nhiều hình ảnh tĩnh chiếu tiếp diễn liên tục Nguyên lý: dựa vào tượng lưu ảnh mắt (persistence of vision) Một số định dạng đồ họa: GIF, MNG, SVG, Flash kích thước nhỏ, cho phép truyền máy tính thơng qua Internet Motion capture Kỹ thuật lưu lại chuyển động tái thông qua mơ hình mơ Được sử dụng rộng rãi lĩnh vực thể thao, giải trí… 78 2.4 Hình ảnh động Một số định dạng video AVI (Audio Video Interleave) định dạng Microsoft giới thiệu vào tháng 11 năm 1992 AVI tập tin chứa âm video liệu container cho phép đồng tập tin âm thanh-với-video AVI định dạng RIFF Phần header (56 byte) chứa thông tin : Thời gian trễ frame Tốc độ liệu, Số lượng frame, Số dòng liệu Kích thước video … MKV (Matroska Multimedia Container) - chuẩn mở miễn phí định dạng container Được công bố vào ngày 06 tháng 12 2002, Matroska định dạng tập tin chứa đựng số lượng không giới hạn video, âm thanh, hình ảnh phụ đề tập tin 79 2.4 Hình ảnh động Một số định dạng video MPEG (Moving Picture Expert Group) đời vào năm 1988 nhằm mục đích chuẩn hố cho nén tín hiệu âm video Mpeg-1 chuẩn lưu trữ phục hồi ảnh động Audio lưu trữ Media Mpeg-2 chuẩn cho TV số Mpeg-4 chuẩn cho ứng dụng MultiMedia Mpeg-7 chứa đặc tả thông tin, giao diện cho việc tìm kiếm thơng tin H26x – Do tổ chức ITU đưa phục vụ cho dịch vụ hội nghị truyền hình video phone H261 – phục vụ cho truyền qua ISDN tốc độ 64 kbps Sử dụng CIF QCIF H263 – cải tiến cho video tốc độ thấp, truyền mạng thoại công cộng PSTN 80 2.4 Hình ảnh động Một số dạng tín hiệu video số theo chuẩn CIF : Common Intermediate Format Sử dụng chuẩn H261, dễ chuyển sang chuẩn PAL hay NTSC Y resolution: 352 x 288, bits/pixel(sample) CrCb/UV resolution: 176 x 144 Frame rate: 30 frames/second progressive QCIF:Quarter Common Intermediate Format Y resolution: 176 x 144, bits/pixel (sample) CrCb/UV resolution: 88 x 72 Frame rate: 30 frames/second progressive TV –NTSC Resolution: 704 x 480, 30 frames/second interlaced DVD –NTSC Resolution: 720 x 480, 24 –30 frames/second progressive 81 2.4 Hình ảnh động Các vấn đề liên quan đến thao tác: Xử lý Tạo, biên tập theo phương pháp tương tự số Các phần mềm hiển thị thao tác với ảnh động Hiển thị thao tác chuỗi video Chèn hiệu ứng thích hợp Lưu trữ: Mã hóa nén Lưu trữ, khn dạng lưu trữ Mất thông tin nén liệu Phục hồi ảnh Hiển thị ảnh, chiếu ảnh, cảm nhận ảnh 82 2.4 Hình ảnh động Đồng audio video Tại ? Dữ liệu đa phương tiện : liệu từ nhiều nguồn phương tiện (media) khác thời gian không gian Nhiệm vụ đồng bộ: xác lập lại quan hệ thời gian thực dòng liệu nguồn Một số khái niệm Đồng liên tục : đồng bám liên tục theo thời gian, Đồng điểm : đồng khối liệu thời điểm, Đồng dòng liệu phương tiện (Intramedia Synchronization) : xác lập lại quan hệ thời gian kiện dòng liệu phương tiện, đơn luồng Đồng dòng (Intermedia synchronization) : xác lập lại quan hệ thời gian dòng liệu phương tiện 83 ... 1*1 0- 12 W/m2 1*1 0-1 1 W/m2 1*1 0-1 0 W/m2 1*1 0-6 W/m2 1*1 0-5 W/m2 1*1 0-4 W/m2 6.3*1 0-3 W/m2 1*10 -2 W/m2 1*1 0-1 W/m2 1*101 W/m2 1*1 02 W/m2 1*104 W/m2 dB 10 dB 20 dB 60 dB 70 dB 80... dụng cá nhân 21 2. 1 Văn Các dạng mã Unicode : UTF- 32, UTF-16 UTF-8 UTF- 32 : sử dụng 32 bit cho ký tự, gọi UTF- 32 ISO/IEC 10646 gọi UCS-4 UTF-16/UCS -2 Mã hóa dùng Unicode 20 bit Trong... rắn 38 2. 2 Âm Các thuộc tính âm Tần số: v = f.λ, tính Hz Tai người nghe thấy âm khoảng 20 Hz – 20 kHz Tần số: tel: kHz, AM: kHz, FM: 15 kHz, HI-FI: 20 kHz, Audio CD: 22 kHz – 20 Hz: