(f t) [x () ( tw t) ]e dtXjπ f
4.4.4. Các chuẩn nén MPEG 1 MPEG-
4.4.4.1. MPEG-1
Chuẩn đầu tiên được đưa ra bởi MPEG, có tên gọi phổ biến là MPEG-1, được thiết kếđể cung cấp việc nén video và audio cho việc lưu trữ và phát lại trên các CD-ROM.
Chuẩn MPEG-1 bao gồm 3 phần. Phần 1 đề cập tới các vấn đề hệ thống (bao gồm cả ghép kênh video và audio đã mã hóa), phần 2 đề cập tới video nén và phần 3 là về
audio nén. Phần 2 (video) được phát triển với mục đích hỗ trợ việc mã hóa có hiệu quả
video cho các ứng dụng phát lại trên CD và tạo ra chất lượng video tương đương hoặc tốt hơn băng video VHS về tốc độ bit CD (khoảng 1,2 Mbps đối với video). Khi mà hầu hết các ứng dụng của người tiêu dùng đòi hỏi chỉ cần giải mã và phát lại, không bao gồm mã hóa thì nảy sinh yêu cầu phải tối thiểu hóa sự phức tạp trong giải mã. Do đó, quá trình
138
giải mã của MPEG-1 có thể xem là đơn giản hơn so với mã hóa (không giống như JPEG, bộ mã hóa và giải mã có mức độ phức tạp tương tự nhau).
Các đặc tính của MPEG-1
Tín hiệu video đầu vào tới một bộ mã hóa video MPEG-1 có khuôn dạng là 4:2:0 (Y:Cr:Cb) với độ phân giải không gian thông thường là 352×288 hoặc 352×240 pixels. Mỗi khung video được xử lý theo từng khối của một macroblock, tương ứng với một vùng 16×16 pixel trong khung hiển thị. Vùng này được tạo ra từ 16×16 mẫu độ sáng, 8×8 mẫu Cr và 8×8 mẫu Cb (vì Cr và Cb phải bằng một nửa độ phân giải ngang và dọc của thành phần độ sáng). Một macroblock bao gồm 6 khối 8×8: 4 khối độ sáng (Y), một khối Cr và một khối Cb.
Mỗi khung video được mã hóa để tạo ra một bức ảnh mã hóa. Có 3 loại chính: các
ảnh I, các ảnh P và các ảnh B. (Chuẩn này còn xác định thêm một loại ảnh là ảnh D nhưng loại này hiếm khi sử dụng trong các ứng dụng thực tế).
Ảnh loại I: không có dựđoán bù chuyển động. Ảnh loại I được sử dụng để làm tham khảo cho những ảnh dựđoán xa hơn.
Ảnh loại P: sử dụng dựđoán bù chuyển động từ một ảnh tham khảo (ảnh P hoặc ảnh I có trước ảnh P hiện tại). Do đó một ảnh loại P được dựđoán sử dụng dự đoán chuyển tiếp và bản thân một ảnh P có thểđược sử dụng làm tham khảo cho các ảnh dự đoán xa hơn.
Ảnh loại B: sử dụng dự đoán bù chuyển động từ 2 ảnh tham khảo, ảnh P và/hoặc
ảnh I trước và sau ảnh B hiện tại. Hai vectơ chuyển động được tạo ra cho mỗi macroblock trong một ảnh B: một chỉ tới một vùng thích hợp trong ảnh tham khảo trước
đó (một vectơ chuyển tiếp) và một chỉ tới một vùng thích hợp trong ảnh tham khảo tương lai (vectơ hồi tiếp). Một macroblock dựđoán bù chuyển động có thểđược thực hiện theo 3 cách: dự đoán chuyển tiếp sử dụng vecto chuyển tiếp, dự đoán hồi tiếp sử dụng vecto hồi tiếp hoặc dự đoán hai chiều (trong đó sự tham khảo dự đoán được thực hiện bằng cách lấy trung bình các tham khảo dự đoán chuyển tiếp và hồi tiếp). Thông thường, một bộ mã hóa sẽ chọn một chếđộ dự đoán (chuyển tiếp, hồi tiếp hay hai chiều) sao cho tạo ra được năng lượng thấp nhất trong macroblock sai phân. Bản thân các ảnh loại B không
được sử dụng như các tham khảo dựđoán cho bất kỳ khung dựđoán xa hơn nào.
Chuẩn MPEG-1 không thực sựđịnh nghĩa thiết kế của một bộ mã hóa: thay vào đó, chuẩn này mô tả cú pháp mã hóa và một bộ giải mã ‘tham khảo’ giả thuyết. Trong thực tế, cú pháp và chức năng được mô tả bởi chuẩn có ý nghĩa rằng một bộ mã hóa phải chứa những chức năng nhất định.
4.4.4.2. MPEG-2
Ứng dụng giải trí quan trọng tiếp theo của video mã hóa (sau lưu trữ CD-ROM) là truyền hình số. Để cung cấp một sự lựa chọn cải tiến cho truyền hình tương tự, một vài
139
đặc tính chủ yếu đã được yêu cầu đối với nguyên lý mã hóa video. Nó phải hỗ trợ hiệu quả các kích thước khung lớn hơn (thường là 720×576 hay 720×480 pixel cho độ phân giải của ITU-R 601) và mã hóa video kết hợp. Với những độ phân giải chất lượng truyền hình, video kết hợp tạo ra hình ảnh video mịn hơn. MPEG-2 đã ra đời nhằm đáp ứng những yêu cầu này.
MPEG-2 bao gồm 3 phần chính: Video, Audio (dựa trên mã hóa audio của MPEG- 1) và Systems (định nghĩa, những phần chi tiết hơn MPEG-1, ghép kênh và truyền luồng audio/visual mã hóa). Những điểm nâng cao được thêm vào bởi MPEG-2 bao gồm:
Mã hóa hiệu quả video với chất lượng truyền hình: Ứng dụng quan trọng nhất của MPEG-2 là truyền hình số quảng bá. Các chức năng chính của MPEG-2 được đánh giá là có hiệu quả trong mã hóa những độ phân giải truyền hình ở tốc độ bit trong khoảng từ 3-5 Mbps.
Hỗ trợ mã hóa video kết hợp: MPEG-2 video có một vài đặc tính hỗ trợ mã hóa một cách linh hoạt video kết hợp. Hai trường tạo ra một khung kết hợp hoàn chỉnh có thể được mã hóa như những hình ảnh riêng biệt, mỗi trường sẽđược mã hóa thành một ảnh I, P hoặc B. Các ảnh trường P và B có thể được dự đoán từ một trường trong khung khác hoặc từ trường khác trong khung hiện tại.
Khả năng phân cấp: Những chế độ tiên tiến của JPEG được mô tả trước đó là các dạng mã hóa phân cấp. Một luồng bit mã hóa phân cấp bao gồm một lớp cơ sở và một hoặc nhiều lớp tăng cường. Lớp cơ sở có thể được giải mã để tạo ra chuỗi video có thể
nhận diện mà có chất lượng nhìn bị hạn chế, và một chuỗi chất lượng cao hơn có thể được tạo ra bởi việc giải mã lớp cơ sở cộng với những lớp tăng cường, với mỗi lớp tăng cường thêm vào sẽ nâng cao chất lượng của chuỗi giải mã. MPEG-2 hỗ trợ 4 chếđộ phân cấp:
Phân cấp theo không gian
Phân cấp theo thời gian
Phân cấp SNR
Phân vùng dữ liệu
Profile và level: Hầu hết các ứng dụng đều chỉ yêu cầu một tập nhỏ giới hạn các chức năng trên diện rộng hỗ trợ bởi MPEG-2. Để khuyến khích khả năng liên kết đối với các ứng dụng ‘chủ yếu’ bất kỳ (ví dụ truyền hình số), chuẩn này bao gồm một tập các profile và level đề nghị, mỗi tập định nghĩa một tập con nhất định các chức năng của MPEG-2. Mỗi profile xác định một tập các khả năng và những khả năng quan trọng. Còn mỗi level sẽ xác định các độ phân giải không gian và thời gian.
Chuẩn MPEG-2 cũng định nghĩa những kết hợp nhất định đề nghị cho các profile và level. Main profile/low level (chỉ sử dụng mã hóa khung) thực chất là MPEG-1. Main profile/main level phù hợp với truyền hình số quảng bá và đây là sự kết hợp profile/level
được sử dụng rộng rãi nhất. Main profile/high level phù hợp với truyền hình độ nét cao (HDTV).
140
4.4.4.3. MPEG-4
Các chuẩn MPEG-1 và MPEG-2 xử lý các khung video hoàn chỉnh, mỗi khung
được mã hóa như một đơn vị riêng lẻ. Chuẩn MPEG-4 được phát triển với mục đích mở
rộng khả năng của những chuẩn trước đó theo một số hướng.
Hỗ trợ các ứng dụng có tốc độ bit thấp: MPEG-1 và MPEG-2 có hiệu quả chấp nhận được trong mã hóa các tốc độ bit khoảng trên 1 Mbps. Tuy nhiên, nhiều ứng dụng nổi bật (đặc biệt là các ứng dụng dựa trên Internet) yêu cầu tốc độ bit truyền rất thấp hơn nhiều và MPEG-1 và 2 không hỗ trợ việc nén hiệu quảở các tốc độ bit thấp.
Hỗ trợ mã hóa dựa trên đối tượng: Có thể nói hầu hết sự thay đổi nguyên tắc trong chuẩn MPEG-4 đều hướng đến mã hóa dựa trên đối tượng hay dựa trên nội dung, trong đó một cảnh video có thể được xử lý như một tập các đối tượng nền và đối tượng cận cảnh hơn là chỉ như một chuỗi các khung hình chữ nhật. Loại mã hóa này mở ra một dải rộng các khả năng, ví dụ như mã hóa độc lập các đối tượng khác nhau trong một cảnh, dùng lại các thành phần cảnh, ghép lại (các vật thể từ một số nguồn được kết hợp trong một cảnh) và độ tương tác cao. Khái niệm cơ sở sử dụng trong MPEG-4 Visual là VO (Video Object). Một cảnh video (VS) (một chuỗi các khung video) được tạo thành từ
một số các VO. MPEG-4 cung cấp các công cụ cho phép mỗi VO được mã hóa một cách
độc lập, mở ra một nhiều khả năng mới. Dưới dạng VO, một ‘khung’ tương đương với một mặt phẳng đối tượng video (VOP – Video Object Plane). Một cảnh hoàn chỉnh có thể được mã hóa như một VOP đơn hình chữ nhật và điều này tương đương với một bức ảnh dưới dạng MPEG-1 và 2.
Mã hóa dựa trên bộ công cụ: MPEG-1 có độ linh động rất hạn chế, MPEG-2 đưa ra khái niệm về ‘bộ công cụ’ gồm các profile và level mà có thể kết hợp theo nhiều cách cho các ứng dụng khác nhau. MPEG-4 mở rộng đặc điểm này thành một tập hợp các công cụ mã hóa có độ linh hoạt cao để cho phép một dải các ứng dụng cũng như một khung chuẩn hóa cho phép các công cụ mới được thêm vào ‘bộ công cụ’.
Chuẩn MPEG-4 được thiết lập nhờ đó các công cụ mã hóa và chức năng mới có thể được tăng thêm khi các phiên bản mới của chuẩn được phát triển, và do đó danh sách các công cụ cũng tiếp tục tăng lên.
4.4.4.4. MPEG-7
Mục tiêu chính của MPEG-7 là xác định một tập hợp chuẩn các bộ mô tả dùng để
mô tả nhiều loại thông tin đa phương tiện với các codec chuẩn, cũng như những cơ sở dữ
liệu khác và thậm chí cả thông tin nghe-nhìn tương tự. Các bộ mô tả cùng với các cơ chế
mô tả sẽđược kết hợp với bản thân nội dung để tạo ra một phương pháp tìm kiếm tài liệu nhanh và có hiệu quả của người dùng.
141
Một sự kiện nghe nhìn xác định có thểđược mô tả với nhiều tập hợp đặc tính khác nhau nếu những ứng dụng của chúng là khác nhau. Để mô tả những sự kiện về thị giác,
đầu tiên chúng được mô tả bởi độ trừu tượng thấp như hình dạng, kích thước, bố cục, màu sắc, sự chuyển động và các vị trí của chúng trong khung hình ảnh. Độ trừu tượng cao hơn là sự mô tả mối quan hệ thuộc về ngữ nghĩa giữa những sự trừu tượng mức thấp hơn ở trên. Tất cả những mô tả đều được mã hóa theo một cách mà chúng có thể được tìm kiếm một cách hiệu quả nhất.
Cùng với việc mô tả nội dung, có thể cần thêm một số loại thông tin khác về dữ liệu
đa phương tiện, ví dụ:
• Dạng: ví dụ như cơ chế mã hóa được sử dụng (như JPEG, MPEG-2,…), hoặc kích thước toàn bộ dữ liệu.
• Những điều kiện để truy cập tài liệu: có thể bao gồm thông tin về bản quyền, giá,…
• Sự phân loại: sự phân loại nội dung vào một số loại được định nghĩa trước.
• Liên kết đến dữ liệu liên quan khác: thông tin này sẽ giúp người dùng tăng được tốc độ của hoạt động tìm kiếm.
• Bối cảnh:đối với một số sự kiện được ghi lại, một điều quan trọng là biết được sự
kiện đặc biệt của quá trình ghi lại đó. (ví dụ, World Cup 2002, trận chung kết diễn ra giữa Brazil và Đức).
Phạm vi ứng dụng
Các phần tử mà MPEG-7 chuẩn hóa sẽ hỗ trợ một dải rộng các ứng dụng. Hiện nay MPEG-7 cũng tạo ra mạng lưới có khả năng tìm kiếm nội dung đa phương tiện như khả
năng tìm kiếm văn bản. Điều này có thể áp dụng cho việc thu được nội dung lớn cũng như cho những loại đa phương tiện cho phép con người nhận dạng nội dung nhằm mục
đích mua sắm. Thông tin sử dụng cho việc khôi phục nội dung có thể được sử dụng bởi các thực thể, cho việc lựa chọn và lọc tư liệu được quảng bá hoặc cho quảng cáo cá nhân.
Tất cả các vùng ứng dụng tạo ra việc sử dụng đa phương tiện đều có thể thu được lợi ích từ MPEG-7. Một số miền có thể tìm thấy sự hữu ích của MPEG-7 như:
Kiến trúc, di sản thực và thiết kế nội thất (ví dụ như tìm kiếm các ý tưởng).
Lựa chọn đa phương tiện quảng bá (ví dụ các kênh radio và TV).
Dịch vụ văn hóa (các bảo tàng lịch sử, phòng trưng bày nghệ thuật,…).
Các thư viện số (danh mục hình ảnh, từ điển âm nhạc, danh mục hình ảnh sinh dược, phim, video và radio thu được).
Thương mại điện tử (ví dụ quảng cáo cá nhân, các danh mục trực tuyến, danh mục các cửa hàng điện tử).
Giáo dục (nơi chứa các khóa học đa phương tiện, tìm kiếm đa phương tiện dữ liệu hỗ trợ).
142
Giải trí tại nhà (ví dụ các hệ thống cho quản lý các bộ sưu tập đa phương tiện cá nhân, bao gồm cả sự thao tác đối với nội dung như tạo video tại nhà, tìm kiếm trò chơi).
Các dịch vụ pháp y (nhận dạng các đặc điểm cá nhân, pháp lý).
Nghề báo (tìm kiếm lời nói của một nhà chính trị nào đó thông qua tên, giọng nói hoặc khuôn mặt của người đó).
Các dịch vụ danh bạđa phương tiện (ví dụ các trang vàng, các hệ thống thông tin du lịch, thông tin địa lý).
Biên tập đa phương tiện (ví dụ các dịch vụ thông tin điện tử cá nhân).
Khả năng phán đoán từ xa (ví dụ như nghiên cứu bản đồ, nghiên cứu mối quan hệ
của sinh vật sống với môi trường, quản lý nguồn tài nguyên thiên nhiên).
Mua sắm (ví dụ tìm kiếm những mẫu quần áo mà bạn yêu thích).
Giám sát (ví dụđiều khiển giao thông, vận tải trên biển, những thử nghiệm không mang tính phá hoại trong môi trường đối địch).
…
4.4.4.5. MPEG-21
Ngày nay công nghệđa phương tiện đã trở nên tiên tiến đến mức có thể truy cập vào một lượng rất lớn thông tin và các dịch vụ từ bất kỳđâu và bất kỳ lúc nào thông qua các mạng và thiết bị đầu cuối phổ biến. Tuy nhiên, không có một bức tranh hoàn chỉnh nào cho việc làm thế nào để những nhóm người khác nhau có thể tương tác một cách tốt nhất với nhau trên một cơ sở hạ tầng phức tạp. Những ví dụ về những nhóm người này như
những người cung cấp nội dung, tài chính, truyền thông, máy tính và các bộ phận điện tử
của người sử dụng và các khách hàng. Việc phát triển một khung đa phương tiện chung sẽ làm cho sự liên kết giữa những bộ phận này trở nên thuận tiện và hỗ trợ sự hoạt động và tích hợp hiệu quả hơn cho những mô hình, nguyên tắc, lợi nhuận và các khuôn dạng nội dung. Đây là nhiệm vụ của dự án về khung đa phương tiện dưới cái tên MPEG-21.
MPEG-21 là một chuẩn được mong đợi với mục tiêu mô tả một ‘bức tranh lớn’ cho việc làm thế nào để các phần tử khác nhau có thể xây dựng một cơ sở hạ tầng cho việc phân phối và sử dụng nội dung đa phương tiện – đang tồn tại hoặc đang được phát triển – có thể làm việc cùng nhau.
MPEG-21 bao gồm một phát biểu chung về nội dung đa phương tiện, một ngôn ngữ
làm đơn giản hóa sự tương thích động của nội dung vào mạng phân phối và các thiết bị
sử dụng, và nhiều công cụ khác nhau để làm cho sự quản lý các quyền số có khả năng liên kết.
143