Hình 1.1 video khung cho thấy ví dụ của các vùng đồng nhất Hình 1.2 khung Video thấp qua nền lọc Hình 1.3 video frame 2 Hình 5.1 Các đặc tính và đối tượng của MPEG-4 Visual Hình 5.2
Trang 1MỤC LỤC
DANH MỤC BẢNG BIỂU 4
DANH MỤC CÁC HÌNH VẼ 4
Lời nói đầu 8
CÁC THUẬT NGỮ VIẾT TẮT 9
Chương I 10
1.1 sự xuất hiện 10
1.2 Nén Video 12
1.3 MPEG- 4 và H.264 14
1.4 NỘI DUNG SÁCH NÀY 15
1.5 THAM KHẢO 17
CHƯƠNG 5 : MPEG-4 VISUAL 18
5.1 GIỚI THIỆU 18
5.2 TỔNG QUAN VỀ MPEG-4 VISUAL (Nén video tự nhiên) 19
5.2.1 Tính năng 19
5.3.2 Công cụ, các đối tượng, đặc tính và các mức độ 19
5.2.3 các đối tượng video 23
5.3 Mã hóa khung hình chữ nhật 24
5.3.1 Đầu vào và đầu ra định dạng video 26
5.3.2 Các Profile đơn giản 26
5.3.2.1 Lõi video Bit tốc độ cực nhỏ 27
5.3.2.2 Các công cụ mã hóa cơ bản 27
5.3.2.3 Công cụ mã hóa tối ưu 29
5.3.2.4 công cụ Truyền dẫn hiệu suất 34
5.3.3 Các chi tiết profile đơn giản 37
5.3.4 Các chi tiết Profile thời gian thực đơn giản 42
1
Trang 25.4 Mã hóa vùng và hình dạng tùy biến 44
5.4.1 Core Profile 46
5.4.1.1 Mã hóa Khuôn hình nhị phân 47
5.4.1.1 Mã hóa bù chuyển động cho hình dạng tùy biến VOPs 50
5.4.2 Phần nội dung chính 54
5.4.2.1 Mã hóa hình xám 55
5.4.2.2 Mã hóa hình tĩnh 58
5.4.4 Phần n-bit 63
5.5 Mã hóa video mở rộng 64
5.5.1 Khả năng mở rộng không gian 64
5.5.2 Khả năng mở rộng thời gian 67
5.5.3 Khả năng mở rộng hình tốt 68
5.5.4 Mã hóa liên kết rút gọn 70
5.5.5 Mã liên kết 71
5.5.6 Khả năng mở rộng phần thu nhỏ 71
5.6 Kết cấu mã hóa 71
5.6.1 Kết cấu mã hóa liên kết 75
5.6.2 Kết cấu mã hóa liên kết nâng cao 75
5.7 MÃ HÓA ÂM THANH- CHẤT LƯỢNG HÌNH ẢNH 76
5.7.1 Phần âm thanh đã được nén 76
5.7.2 Các file âm thanh gốc 77
5.8 MÃ HÓA TRƯỜNG HÌNH ẢNH TỔNG HỢP 78
5.8.1 Lưới mã hóa 2D và 3D 78
5.8.2 Mặt và hình dạng ảnh động 79
5.9 KẾT LUẬN 79
5.10 TÀI LIỆU THAM KHẢO 80
Chương VIII: Các ứng dụng và định hướng 81
Trang 38.1 Giới thiệu 81
8.2 Ứng dụng 81
8.3 Nền 81
8.4 Chọn CODE 82
8.5 Những vấn đề thương mại 82
8.5.1 Tiêu chuẩn mở? 83
8.5.2 Cấp phép MPEG-4 Visual và H.264 83
8.5.3 Nắm bắt thị trường 84
8.6 Hướng tương lai 84
8.7 Kết luận 85
TÀI LIỆU THAM KHẢO 86
3
Trang 4DANH MỤC BẢNG BIỂU
Bảng 5.1 MPEG-4 Visual Hình ảnh để mã hóa video tự nhiên.
Bảng 5.2 Đặc tính MPEG-4 Visual để mã hóa tổng hợp hoặc Video Lai Bảng 5.3 các mức cấu hình cơ bản.
Bảng 5.4 giá trị của các thành phần dc_scaler trong vùng QP.
Hình 1.1 video khung ( cho thấy ví dụ của các vùng đồng nhất )
Hình 1.2 khung Video ( thấp qua nền lọc )
Hình 1.3 video frame 2
Hình 5.1 Các đặc tính và đối tượng của MPEG-4 Visual
Hình 5.2 VOPs và VO (khung hình chữ nhât)
Hình 5.3 VOPs and VO (hình dạng tùy biến)
Hình 5.4 Video scene liên kết 3 VOs
Hình 5.5 Video cảnh sáng tác của VOS từ các nguồn riêng biệt
Hình 5.6 Các công cụ và thành phần dùng để mã hóa khung ảnh chữ nhậtHình 5.7 Chuẩn nén I-VOP và các bước giải mã
Hình 5.8 Chuẩn nén P-VOP và các bước giải mã
Hình 5.9 một hoặc 4 vector chuyển động trong 1khối macro
Hình 5.10 VOP tham chiếu và VOP hiện tại
Hình 5.11 VOP tham chiếu ngoại suy vượt ranh giới
Trang 5Hình 5.12 Macroblock được mã hóa trong chế độ nội
Hình 5.13 Hệ số DCT (luma blocks)
Hình 5.14 Dự đoán hệ số DC
Hình 5.15 Dự đoán hệ số AC
Hình 5.16 Không gian và thời lan truyền lỗi
Hình 5.17 Cấu trúc gói tin video
Hình 5.27 Giảm một nửa độ phân giải của macroblock
Hình 5.28 các công cụ và đối tượng cho mã hóa hình dạng
Hình 5.29 VO hiển thị vùng ngoài (1), bên trong (2) và ranh giới (3) macroblocksHình 5.30 VOP
Hình 5.31 mặt nạ anpha nhị phân (VOP hoàn chỉnh)
Hình 5.32 ranh giới macroblock
Hình 5.33: mặt nạ anpha nhị phân (ranh giới MB)
Hình 5.34 bối cảnh mẫu cho BAB nội
Hình 5.35 Mẫu bối cảnh cho BAB
Hình 5.36 Ví dụ về các lĩnh vực tài liệu tham khảo có chứa điểm ảnh trong suốtHình 5.37 đệm ngang và dọc trong MB ranh giới
Hình 5.38 Ranh giới MB
Hình 5.39 MB ranh giới sau khi đệm ngang
5
Trang 6Hình 5.40 MB ranh giới sau khi đệm dọc cạnh pixel
Hình 5.41 Đệm của MB trong suốt từ các điểm lân cận
Hình 5.42 Mặt nạ alpha màu xám quy mô cho MB ranh giới
Hình 5.43 MB ranh giới với tính trắng xám
Hình 5.44 Video cảnh với đối tượng nhị phân-alpha (trái) và đối tượng màu xám-alpha (bên phải)Hình 5.45 Video cảnh với đối tượng bán trong suốt
Hình 5.56 Công cụ và đối tượng cho khả năng mở rộng mã hóa
Hình 5.57 Mã hóa mở rộng: Khái niệm chung
Hình 5.58 Khung hình video gốc
Hình 5.59 Sub-lấy mẫu khung được mã hóa như là lớp cơ sở
Hình 5.60 Khung lớp cơ sở (được giải mã và up lên)
Hình 5.61 Còn lại sẽ được mã hóa như lớp tăng cường
Hình 5.62 Tăng cường thời gian P-VOP lựa chọn dự đoán
Hình 5.63 Tăng cường thời gian B-VOP lựa chọn dự đoán
Hình 5.64 Sơ đồ khối bộ mã hóa FGS (đã được rút gọn)
Hình 5.65 Khối block dư (góc trên bên trái)
Hình 5.67 Công cụ và đối tượng cho kết cấu mã hóa
Hình 5.68 Sơ đồ khối biên độ song
Trang 7Hình 5.69 Quét sơ đồ cây
Trang 8Lời nói đầu
Trong vòng vài năm trở lại dây chúng ta nghe nói rất nhiều dấn từ multimedia Vậy, một cáchchính xác, multimedia là gì? Từ lâu thuật ngữ media dùng để chỉ các thực thể như là chiếc máytruyền th ảnh máy truyền hình, nghĩa là không phải nói đến một vật mang thông tin đơn thuần, mà làmột hệ thống tương đối phức tạp, có cơ cấu, có đối tượng nhắm tới Loại truyền thông trực tiếp, từmiệng người này đến tai người kia, không sử dụng thành phần (media) trung gian Không khí truyềncác chấn động âm thanh không phải là một media mà chỉ là một vật mang vật là làm công việc táithông tin Nếu dùng một máy cassette audio để ghi lời của người nói, nội dung trong cassette khôngthể đến người nghe bằng cách truy xuất trực tiếp, phải nhờ đến một hệ thống vật lý khác: máy đọccassette Nếu để rời, cassette này chỉ được xem là một vật mang Nếu gộp cùng máy đọc cassette thìđấy là một hệ thống truyền thông, một media Media có mục đích là phát, truyền thông tin khôngđòi hỏi chỉ bằng cách nghe và nhìn Một tờ giấy in chữ nổi cho người mù đòi hỏi sự sờ mó Một tấmchức postalc có nhạc và mùi hương, đòi hỏi cùng lúc sự nhìn, nghe và ngửi Bằng chừng ấy, chúng ta
có thể nói đến một sự truyền thông đa phương tiện Và như vật, từ multimedia xuất hiện kèm vớinhiều d ảnh từ chung khác: centre de ressource multimedia (trung tâm tài nguyên đa phương tiện),post de formation multimedia (trạm đào tạo đa phương tiện), multimedia training (huấn luyện bằng
đa phương tiện), multimedia personal computer MDC (máy tính cá nhân với đa phương tiện), digitalmultimedia system (hệ thống đa phương tiện dạng số ) Trong nội dung môn học này chúng ta sẽnghiên cứu các khái niệm cơ bản về Multimedia hiểu được các ứng dụng rỗng rãi của Multimediatrong đời sống: các yêu cầu và xu hướng phát triển ứng dụng hiện nay của Multimedia, các cấu trúcthiết kế ứng dụng và các bước cần thiết để xây dựng ứng dụng đa phương tiện, nắm bắt được một sốcông cụ có sẵn trong thực tế để thiết kế các ứng dụng Multimedia
Trang 9CÁC THUẬT NGỮ VIẾT TẮT
Từ viết
ISO/IEC General Requirements for the
competence of testing and calibration
MPEG-2 Moving Picture Experts Group Phase 2 Tiêu chuẩn để mã hóa chung cho hình ảnh
chuyển động và thông tin âm thanh liên quan MPEG-4 Moving Picture Experts Group Phase 4 Chuẩn nén hình ảnh và âm thanh bit-rate thấp
Compensation
Bù chuyển dịch của khối xếp chồng
QCIF or
RVLCs Reversible Variable Length Codes Các mã độ dài biến đổi có thể biến đổi
9
Trang 10Chương I 1.1 sự xuất hiện
cảnh 1: hình ảnh của bạn (một mô hình 3D thực tế với sự xuất hiện và giọng nói của bạn) đi qua một
thế giới ảo tinh vi dân cư của các avatar khác, quảng cáo sản phẩm và video bức tường Trên mộtmàn hình video ảo là một tin tức phát đi từ kênh ưa thích của bạn; bạn muốn để xem chi tiết về tìnhhình tài chính hiện hành và do đó bạn tương tác với các chương trình phát sóng và kéo lên nhữngcon số thị trường chứng khoán mới nhất Trên màn hình khác bạn gọi lập một liên kết hội nghịtruyền hình với ba người bạn Các hình ảnh video của những người tham gia khác, gọn gàng phânđoạn từ họ nguồn gốc, được trình bày lại thêm một nền ảo
cảnh 2: mới nhẫn vidphone 3G của bạn; bạn lật nắp mở và trả lời cuộc gọi Khuôn mặtbạn của bạn
sẽ xuất hiện trên màn hình và bạn chào nhau Mỗi thấy một hình ảnh nhỏ rõ ràng của các khác trênmàn hình của điện thoại, mà không có bất kỳ sự rõ ràng 'blockiness' lớn tuổi lại mô hình điện thoạivideo Sau khi cuộc gọi kết thúc, bạn gọi lên một nguồn cấp dữ liệu video trực tiếp từ một trận đấubóng đá Các chất lượng của các dòng cơ bản, lãi suất không phải là quá lớn và bạn chuyển đổi dễdàng tới chất lượng cao (nhưng đắt hơn) 'cao cấp' dòng Trong phút chốc, những tín hiệu vô tuyếnbắt đầu để phá vỡ lên nhưng tất cả các bạn chú ý một chút, biến dạng tạm thời trong hình video
Hai kịch bản minh họa cho tầm nhìn khác nhau của thế hệ tiếp theo của đa phương tiện ứng dụng.Việc đầu tiên là một tầm nhìn MPEG-4 Visual: một phong phú, tương tác trực tuyến trên thế giớimang cùng nhau tổng hợp, tự nhiên, video, hình ảnh, 2D và 'đối tượng' 3D Thứ hai là một tầm nhìnH.264 / AVC: truyền thông video rất hiệu quả và đáng tin cậy, hỗ trợ hai chiều, "streaming" và ứngdụng truyền hình và mạnh mẽ để vấn đề truyền dẫn kênh Các hai tiêu chuẩn, đều có ưu điểm vànhược điểm của họ và mỗi người ủng hộ họ và các nhà phê bình, là ứng cử viên trong cuộc đua đểcung cấp nén video cho truyền thông thế hệ tiếp theo ứng dụng
Bật tivi và lướt qua hàng chục hoặc hàng trăm kênh kỹ thuật số Play bộ phim yêu thích trên máynghe nhạc DVD và thở phào nhẹ nhõm mà bạn có thể ném ra của bạn băng VHS cũ Điều chỉnhtrong một chương trình phát sóng tin tức truyền hình nước ngoài trên web (vẫn chỉ là mộtpostagestamp cửa sổ video nhưng sự lựa chọn và tin cậy của các luồng video được phát triển tất cảcác thời gian) Chat với bạn bè và gia đình bằng PC videophone Những hoạt động này trở thànhthường và không đáng kể, chứng minh rằng video kỹ thuật số đang trên đường trở thành một phổbiến và thành phần thiết yếu của giải trí, máy tính, phát thanh truyền hình và thông tin liên lạc
Trang 11thương mại và kỹ thuật Các thương mại ổ xuất phát từ tiềm năng doanh thu khổng lồ của việc thuyếtphục người tiêu dùng và các doanh nghiệp (a) đến thay thế công nghệ analog và kỹ thuật số côngnghệ cũ với mới, hiệu quả, chất lượng cao sản phẩm video kỹ thuật số và (b) để thông qua các sảnphẩm truyền thông và giải trí mới đã có thể được thực hiện bằng việc di chuyển đến video kỹ thuật
số Các lái xe kỹ thuật đến từ tiếp tục cải thiện hiệu suất xử lý, sự sẵn có của dung lượng lưu trữ caohơn và cơ chế truyền dẫn và nghiên cứu và phát triển của video và xử lý ảnh công nghệ
Bắt video kỹ thuật số từ nguồn của nó ( một máy ảnh hay một clip được lưu trữ ) đến đích của nó( một màn hình hiển thị ) liên quan đến một chuỗi các thành phần hoặc quy trình Chìa khóa chochuỗi này là các quá trình nén ( mã hóa) và giải nén (giải mã), trong đó băng thông ' thô' video kỹthuật số được giảm đến một kích thước có thể quản lý để truyền hoặc lưu trữ , sau đó xây dựng lạicho màn hình hiển thị Bắt nén và giải nén các quá trình "đúng" có thể đưa ra một ý nghĩa cạnh kỹthuật và thương mại cho một sản phẩm , bằng cách cung cấp chất lượng hình ảnh tốt hơn , độ tin cậylớn hơn và / hoặc linh hoạt hơn so với các giải pháp cạnh tranh Do đó có một quan tâm trong tiếptục phát triển và cải tiến của nén video và các phương pháp giải nén
và hệ thống Các bên liên quan bao gồm giải trí , truyền thông và phát thanh truyền hình các công
ty , các nhà phát triển phần mềm và phần cứng , các nhà nghiên cứu và những người nắm giữ khảnăng sinh lời bằng sáng chế về các thuật toán nén mới
Những thành công ban đầu trong ngành công nghiệp video kỹ thuật số (đặc biệt là phát sóng truyềnhình kỹ thuật số và DVD-Video) được củng cố bằng những tiêu chuẩn quốc tế ISO / IEC [1] 13.818,phổ biến được gọi là 'MPEG-2 "(sau khi nhóm làm việc đã phát triển tiêu chuẩn, Ảnh Di chuyểnExperts Group) Dự đoán của một nhu cầu cho các công cụ nén tốt hơn đã dẫn đến sự phát triển củahai tiêu chuẩn khác cho nén video, được biết đến như là ISO / IEC 14.496 Part 2 ('MPEG-4 Visual)[2] và ITU-T Recommendation H.264 / ISO / IEC 14.496 Part 10 ('H.264') [3] Video dạng MPEG-4Visual và H.264 chia sẻ cùng tổ tiên và một số tính năng phổ biến (cả hai đều vẽ trên đã được kiểmchứng kỹ thuật từ các tiêu chuẩn trước đó) nhưng có những thị kiến đáng chú ý khác nhau, tìm cáchcải tiến các chuẩn cũ theo những cách khác nhau Tầm nhìn của MPEG-4 Visual là để di chuyển đi
từ một sự phụ thuộc chặt chẽ vào hình ảnh video hình chữ nhật và cung cấp một mở, linh hoạt khuônkhổ cho truyền thông trực quan có sử dụng các tính năng tốt nhất của nén video hiệu quả và hướngđối tượng chế biến Ngược lại, H.264 có một tầm nhìn thực tế hơn, nhằm làm những tiêu chuẩn trước
đó đã (cung cấp một cơ chế cho việc nén video hình chữ nhật
hình ảnh) nhưng để làm điều đó một cách hiệu quả hơn, mạnh mẽ và thiết thực, hỗ trợ các loại ứngdụng đang trở nên phổ biến trên thị trường (chẳng hạn như phát sóng, lưu trữ và streaming)
Tại thời điểm hiện tại có một cuộc tranh luận sôi nổi về đó ( nếu một trong hai ) của các tiêu chuẩnnày sẽ đi đến thống trị thị trường MPEG - 4 Visual là trưởng thành hơn trong hai mới tiêu chuẩn( bản đầu tiên của nó đã được xuất bản vào năm 1999 , trong khi H.264 đã trở thành một quốc tếTrực quan về hiệu suất nén nhưng nó không có tính linh hoạt và rắc rối, các tiêu chuẩn cũ của Tìnhhình cấp giấy phép liên quan đến các video MPEG- 4 Visual là rõ ràng (và không phổ biến với một
số bộ phận của ngành công nghiệp ) nhưng chi phí cấp giấy phép H.264 vẫn còn phải được sự đồng ý Cuốn sách này là về hai tiêu chuẩn mới quan trọng và xem xét các nền với các tiêu chuẩn , các kháiniệm cốt lõi và các chi tiết kỹ thuật của từng tiêu chuẩn và các yếu tố đó sẽ xác định trả lời cho câuhỏi ' MPEG - 4 Visual hoặc H.264? '
1.2 Nén Video
11
Trang 12Bitrate mạng tiếp tục tăng (đáng kể trong khu vực địa phương và một chút ít như vậy trong các khuvực rộng lớn hơn), kết nối bitrate cao để nhà là phổ biến và khả năng lưu trữ của đĩa cứng, bộ nhớflash và phương tiện truyền thông quang học lớn hơn bao giờ hết Với giá mỗi truyền hoặc lưu trữ bitliên tục rơi xuống, nó có lẽ là không rõ ràng lý do tại sao ngay lập tức nén video là cần thiết (và tạisao có một nỗ lực đáng kể như vậy để làm cho nó tốt hơn) Nén video có hai lợi ích quan trọng Đầutiên, nó làm cho nó có thể sử dụng video kỹ thuật số trong truyền và môi trường lưu trữ đó sẽ không
hỗ trợ nén ('thô') video Ví dụ, tỷ Internet thông hiện có không đủ để xử lý các video không néntrong thời gian thực (ngay cả ở tốc độ khung hình thấp và / hoặc kích thước khung hình nhỏ) MộtDigital Versatile Disk (DVD) chỉ có thể lưu trữ một vài giây của video thô ở độ phân giải truyềnhình chất lượng và tỷ lệ khung hình và do đó, lưu trữ DVD-Video sẽ không được thực tế mà không
có video và âm thanh nén Thứ hai, nén video cho phép sử dụng hiệu quả hơn các truyền tải và lưutrữ các tài nguyên Nếu một kênh truyền bitrate cao có sẵn, sau đó nó là một đề nghị hấp dẫn hơn gửi
có độ phân giải cao nén video hoặc nhiều kênh video nén hơn gửi, độ phân giải thấp, dòng khôngnén duy nhất Ngay cả với những tiến bộ liên tục trong lưu trữ và công suất truyền tải, nén có thể sẽ
là một thành phần thiết yếu của đa phương tiện dịch vụ trong nhiều năm tới
Một tín hiệu mang tin có thể được nén bằng cách loại bỏ sự dư thừa từ tín hiệu Trong một hệ thốngnén lossless dự phòng thống kê được lấy ra để bản gốc tín hiệu có thể được xây dựng lại hoàn toàn ởngười nhận Thật không may , tại thời điểm hiện tại phương pháp lossless chỉ có thể đạt được một
số tiền khiêm tốn của nén của hình ảnh và video tín hiệu Hầu hết các kỹ thuật nén video thực tếđược dựa trên nén lossy , trong mà nén lớn hơn là đạt được với các hình phạt mà các tín hiệu giải mã
là không giống nhau với bản gốc
Mục tiêu của một thuật toán nén video là để đạt được nén hiệu quả trong khi giảm thiểu sự biếndạng giới thiệu bởi quá trình nén Các thuật toán nén video hoạt động bằng cách loại bỏ dư thừatrong thời gian, không gian lĩnh vực và / hoặc tần số Hình 1.1 cho thấy một ví dụ về một khungvideo duy nhất Trong khu vực được đánh dấu , có rất ít sự thay đổi trong nội dung của hình ảnh và
do đó có dư thừa không gian đáng kể Hình 1.2 cho thấy cùng một khung sau khi khu vực nền đãđược thấp qua lọc (nhẵn), loại bỏ một số nội dung tần số cao hơn các mắt người và não ( HumanVisual System) là nhạy cảm hơn với các tần số thấp hơn và do đóhình ảnh vẫn còn nhận biết mặc dùthực tế rằng có rất nhiều "thông tin" đã được gỡ bỏ Hình 1.3 cho thấy khung hình tiếp theo trongchuỗi video Trình tự đã được chụp từ một camera ở 25 khung hình mỗi giây và do đó, có rất ít thayđổi giữa hai khung hình trong khoảng thời gian ngắn của 1/25 của một giây Rõ ràng là có dư thừathời gian đáng kể , tức là hầu hết
Trang 13Hình 1.1 video khung ( cho thấy ví dụ của các vùng đồng nhất )
Hình 1.2 khung Video ( thấp qua nền lọc )
13
Trang 14Hình 1.3 video frame 2
của hình ảnh vẫn không thay đổi giữa các khung hình kế tiếp Bằng cách loại bỏ các loại khác nhaucủa dự phòng (không gian, tần số và / hoặc thời gian) có thể nén dữ liệu đáng kể tại các chi phí củamột số tiền nhất định của sự mất mát thông tin (biến dạng) Hơn nữa có thể nén thể đạt được bằngcách mã hóa các dữ liệu được xử lý bằng cách sử dụng một chương trình mã hóa entropy nhưHuffman mã hóa hoặc mã hóa số học
Hình ảnh và video nén đã là một lĩnh vực rất mới trong nghiên cứu và phát triển cho hơn 20 năm vànhiều hệ thống khác nhau và các thuật toán để nén và giải nén đã được đề xuất và phát triển Đểkhuyến khích hưởng lẫn nhau, cạnh tranh và bnhiều sự lựa chọn, nó đã được cần phải xác địnhphương pháp chuẩn mã hóa nén và giải mã để cho phép các sản phẩm từ các nhà sản xuất khác nhau
để giao tiếp hiệu quả Điều này đã dẫn đến sự phát triển của một số tiêu chuẩn quốc tế quan trọngcho hình ảnh và video
nén, bao gồm JPEG, MPEG và H.26 × loạt các tiêu chuẩn
1.3 MPEG- 4 và H.264
MPEG - 4Visual và H.264 (còn knownasAdvancedVideo Coding) là tiêu chuẩn cho các Coded đạidiện các thông tin thị giác Mỗi tiêu chuẩn là một tài liệu chủ yếu định nghĩa hai điều , một đại diệnđược mã hóa ( hoặc cú pháp ) mô tả trực quan dữ liệu ở dạng nén và một phương pháp giải mã cúpháp để tái tạo lại thông tin thị giác Mỗi tiêu chuẩn nhằm đảm bảo rằng bộ mã hóa và giải mã phùhợp có thể thành công Interwork với nhau , trong khi cho phép các nhà sản xuất tự do để phát triểncác sản phẩm cạnh tranh và sáng tạo các tiêu chuẩn đặc biệt không xác định một bộ mã hóa ; thayvào đó, họ xác định sản lượng mà một bộ mã hóa nên sản xuất Một phương pháp giải mã được xácđịnh trong mỗi tiêu chuẩn nhưng các nhà sản xuất được tự do để phát triển giải mã thay thế miễn là
họ đạt được kết quả tương tự như phương pháp trong tiêu chuẩn
MPEG-4Visual (Phần 2 của nhóm MPEG-4 tiêu chuẩn) được phát triển bởi Moving Picture ExpertsGroup (MPEG), một nhóm công tác của Tổ chức Tiêu chuẩn hóa quốc tế (ISO) Nhóm này gồm vàitrăm chuyên gia kỹ thuật (rút ra từ các ngành công nghiệp và tổ chức nghiên cứu) đáp ứng trong
Trang 15khoảng thời gian 2-3 tháng để phát triển hàng loạt các tiêu chuẩn MPEG MPEG-4 (một tiêu chuẩn
đa phần bao gồm mã hóa âm thanh, các vấn đề hệ thống và các khía cạnh liên quan của âm thanh /truyền thông hình ảnh) lần đầu tiên được hình thành vào năm 1993 và phần 2 đã được chuẩn hóa vàonăm 1999 Các nỗ lực chuẩn H.264 được khởi xướng bởi Video Coding Experts Group (VCEG),một nhóm công tác của Liên minh Viễn thông quốc tế (ITU-T) mà hoạt động trong một cách tương
tự như MPEG và đã được chịu trách nhiệm cho một loạt các tiêu chuẩn viễn thông thị giác Các giaiđoạn cuối cùng của việc phát triển các chuẩn H.264 đã được thực hiện bởi các phần Video Team,một nỗ lực hợp tác của cả hai VCEG và MPEG, làm cho nó có thể publish các tiêu chuẩn cuối cùngdưới sự bảo trợ doanh của ISO / IEC (như MPEG-4 Part 10) và ITU-T (như Khuyến nghị H.264) vàonăm 2003
MPEG-4 Visual và H.264 đã liên quan nhưng khác nhau đáng kể tầm nhìn Cả hai đều có liên quanvới khả năng nén dữ liệu trực quan nhưng MPEG-4 Visual nhấn mạnh tính linh hoạt trong khi Nhấnmạnh H.264 là về hiệu quả và độ tin cậy MPEG-4 Visual cung cấp một cách linh hoạt cao Bộ công
cụ kỹ thuật và nguồn lực mã hóa, làm cho nó có thể để đối phó với một loạt các loại dữ liệu trựcquan bao gồm cả khung hình chữ nhật (tài liệu video 'truyền thống'), các đối tượng hình (các khu vựccủa một cảnh thị giác độc đoán hình), hình ảnh tĩnh và các giống lai của tự nhiên (thực tế) và tổnghợp thông tin thị giác (máy tính tạo ra) MPEG-4 Visual cung cấp chức năng của nó thông qua mộttập hợp các công cụ mã hóa, tổ chức thành 'profile', đề nghị của nhóm các công cụ thích hợp cho cácứng dụng nhất định Lớp học của hồ sơ bao gồm hồ sơ 'đơn giản' (mã hóa của khung hình video hìnhchữ nhật), hồ sơ dựa trên đối tượng (mã hóa của đối tượng trực quan tùy hình), vẫn còn hồ sơ kết cấu(mã hóa của hình ảnh vẫn hay "kết cấu"), hồ sơ mở rộng (mã hóa ở nhiều nghị quyết, mức độ chấtlượng) và hồ sơ của phòng thu (mã hóa cho các ứng dụng studio-chất lượng cao)
Ngược lại với cách tiếp cận linh hoạt cao của MPEG - 4 Visual , cô đặc H.264 cụ thể về nén hiệuquả của các khung hình video Các tính năng chính của tiêu chuẩn bao gồm hiệu suất nén (cung cấpnén tốt hơn đáng kể hơn so với bất kỳ tiêu chuẩn trước đó ) , hiệu quả truyền dẫn ( với một số đượcxây dựng trong các tính năng để hỗ trợ đáng tin cậy , mạnh mẽ truyền dẫn qua một loạt các kênh vàcác mạng ) và tập trung vào các ứng dụng phổ biến của nén video Chỉ có ba hồ sơ hiện đang được
hỗ trợ ( trái ngược với gần 20 năm MPEG - 4 Visual ) , mỗi mục tiêu tại một lớp học của các ứngdụng truyền video phổ biến Các Hồ sơ ban đầu có thể đặc biệt hữu ích cho " đàm thoại " ứng dụngnhư hội nghị truyền hình , hồ sơ cá nhân mở rộng thêm công cụ bổ sung có thể sẽ hữu ích cho videostreaming trên mạng và cấu hình chính bao gồm các công cụ mà có thể phù hợp cho người tiêu dùngcác ứng dụng như video phát sóng và lưu trữ
1.4 NỘI DUNG SÁCH NÀY
Mục đích của cuốn sách này là để cung cấp một hướng dẫn về mặt kỹ thuật theo định hướng choMPEG - 4 Visual và H.264 / AVC tiêu chuẩn , với trọng tâm là vấn đề thực tiễn Các công trìnhkhác bao gồm các chi tiết của các bộ phận khác của chuẩn MPEG - 4 [ 4-6 ] và cuốn sách này tậptrung vào các ứng dụng MPEG - 4 Visual và H.264 để mã hóa video tự nhiên Hầu hết các ứng dụngthực tế của MPEG-4 (và các ứng dụng mới nổi của H.264) làm cho việc sử dụng một tập hợp cáccông cụ được cung cấp bởi mỗi tiêu chuẩn (một 'hồ sơ') và như vậy việc điều trị của từng chuẩn mựctrong cuốn sách này được tổ chức Theo hồ sơ, bắt đầu với các cấu hình cơ bản nhất và sau đó giớithiệu các công cụ bổ sung được hỗ trợ bởi các cấu hình nâng cao hơn
15
Trang 16Chương 2 và 3 bìa tài liệu cơ bản cần thiết đó là cần thiết cho một sự hiểu biết của cả hai MPEG-4Visual và H.264 Chương 2 giới thiệu các khái niệm cơ bản của video kỹ thuật số bao gồm chụp vàđại diện của video ở dạng số, màu sắc không gian, định dạng và đo lường chất lượng Chương 3 baogồm các nguyên tắc cơ bản của nén video, tập trung trên các khía cạnh của quá trình nén là chungcho cả hai tiêu chuẩn và giới thiệu chuyển đổi dựa trên CODEC 'mô hình' mà là trung tâm của tất cảcác tiêu chuẩn video mã hóa lớn Chương 4 xem xét các tiêu chuẩn chính mình và xem xét các cách
mà các tiêu chuẩn đã được hình thành và phát triển, thảo luận về thành phần và thủ tục của VCEG vàcác nhóm tiêu chuẩn MPEG Chương này tóm tắt nội dung của các tiêu chuẩn và đưa ra lời khuyênthiết thực về cách tiếp cận và giải thích các tiêu chuẩn và đảm bảo sự phù hợp Tiêu chuẩn mã hóahình ảnh và video liên quan được trình bày ngắn gọn
Chương 5 và 6 tập trung vào các tính năng kỹ thuật của MPEG-4 Visual và H.264 Phương pháp tiếpcận được dựa trên cấu trúc của Profiles của mỗi tiêu chuẩn (điểm phù hợp quan trọng cho các nhàphát triển CODEC) Các hồ sơ đơn giản (và Profiles liên quan) đã thể hiện bản thân để là bởi đếnnay các tính năng phổ biến nhất của MPEG-4 Visual đến nay và như vậy Chương 5 cô đặc đầu tiêntrên công cụ nén hỗ trợ bởi các Profiles, tiếp theo là phần còn lại (ít thương mại phổ biến) Cấu hình
hỗ trợ mã hóa các đối tượng video, vẫn kết cấu, khả năng mở rộng đối tượng và như vậy Bởi vìcuốn sách này chủ yếu là về nén thiên nhiên (thực tế) thông tin video, MPEG-4 Visual của công cụtrực quan tổng hợp được bảo hiểm chỉ một thời gian ngắn Của H.264 Baseline Profile được bao phủđầu tiên trong Chương 6, tiếp theo là các công cụ bổ sung bao gồm trong chính và Extended Profiles.Chương 5 và 6 make tham khảo rộng rãi trở lại Chương 3 (Video Các khái niệm mã hóa) H.264được xử lý trong chi tiết kỹ thuật nhiều hơn so với MPEG-4 Visual vì các hạn chế về tài liệu thamkhảo về các tiêu chuẩn mới hơn
Vấn đề thực tiễn liên quan đến việc thiết kế và thực hiện các codec video được thảo luận trongChương 7 Các yêu cầu thiết kế của mỗi mô-đun chức năng chính cần thiết
trong một bộ mã hóa thực tế hoặc bộ giải mã được giải quyết, từ ước lượng chuyển động thông qua
để entropy mã hóa Chương này xem xét các yêu cầu giao diện và cách tiếp cận thực tế để ngăn và
xử lý sau video để cải thiện hiệu suất nén và / hoặc chất lượng hình ảnh Các nén và hiệu suất tínhtoán của hai tiêu chuẩn được so sánh và kiểm soát tỷ lệ (phù hợp với đầu ra bộ mã hóa để truyềnhoặc lưu trữ cơ chế thực tế) và các vấn đề gặp phải trong vận chuyển và lưu trữ nén video được thảoluận
Chương 8 xem xét các yêu cầu của một số ứng dụng, danh sách hiện tại và mới nổi một số codechiện đang sẵn có và nền tảng thực hiện và thảo luận quan trọng tác động của các yếu tố thương mạinhư giấy phép bằng sáng chế Cuối cùng, một số dự đoán là
thực hiện về các bước tiếp theo trong quá trình chuẩn hóa và các vấn đề nghiên cứu mới nổi có thểảnh hưởng đến sự phát triển các tiêu chuẩn video mã hóa trong tương lai
1.5 THAM KHẢO
Trang 171 ISO / IEC 13.818 , Công nghệ thông tin - Generic Mã hóa ofMoving Hình và Associated âm thanh Thôngtin , 2000.
2 ISO/IEC 14496-2, Coding of Audio-Visual Objects – Part 2:Visual, 2001
3 ISO/IEC 14496-10 and ITU-T Rec H.264, Advanced Video Coding, 2003
4 F Pereira and T Ebrahimi (eds), The MPEG-4 Book, IMSC Press, 2002.
5 A Walsh and M Bourges-S´evenier (eds), MPEG-4 Jump Start, Prentice-Hall, 2002.
6.ISO/IEC JTC1/SC29/WG11 N4668, MPEG-4 Overview, http://www.m4if.org/resources/
Overview.pdf, March 2002
17
Trang 18CHƯƠNG 5 : MPEG-4 VISUAL
5.1 GIỚI THIỆU
ISO / IEC 14.496 Part 2 [1] (MPEG-4 Visual) cải tiến dựa trên tiêu chuẩn phổ biến MPEG-2 cả về
hệ số nén (nén tốt hơn cho chất lượng hình ảnh tương tự) và mềm dẻo hơn (cho phép một phạm virộng hơn của các ứng dụng) Nó đạt được điều này trong hai cách chính, bằng cách sử dụng cácthuật toán nén tiên tiến và bằng cách cung cấp một bộ đầy đủ của 'công cụ' để mã hóa và thao tác cácphương tiện truyền thông kỹ thuật số MPEG-4 Visual bao gồm một 'lõi' video mô hình bộ mã hóa /giải mã cùng với một số công cụ mã hóa bổ sung Các mô hình cốt lõi dựa trên DPCM lai nổi tiếng /DCT mô hình mã hóa (xem Chương 3) và các chức năng cơ bản của lõi được mở rộng bởi các công
cụ hỗ trợ (trong số những thứ khác) hệ số nén tăng cường, truyền tải đáng tin cậy, mã hóa các hìnhdạng riêng biệt hoặc 'đối tượng' trong một cảnh thị giác, nén lưới dựa trên hình ảnh động và các mặthoặc mô hình cơ thể
Nó không chắc rằng bất kỳ ứng dụng duy nhất sẽ yêu cầu tất cả các công cụ có sẵn trong MPEG-4Visual khuôn khổ và vì vậy tiêu chuẩn mô tả một loạt các profiles, bộ hoặc các nhóm của các công
cụ cho các loại đặc biệt của ứng dụng được đề nghị Ví dụ về các profile bao gồm đơn giản (một tậptối thiểu của các công cụ cho các ứng dụng phức tạp thấp), Core và Main (với các công cụ để mã hóanhiều đối tượng hình tùy tiện hình), nâng cao thời gian thực đơn giản (với các công cụ để truyền lỗiđàn hồi với độ trễ thấp) và Advanced Simple (cung cấp cải thiện nén tại các chi phí của việc gia tăng
sự phức tạp)
MPEG-4 Visual được thể hiện trong ISO / IEC 14.496-2, một tài liệu rất chi tiết dài đến hơn 500trang Phiên bản 1 được phát hành vào năm 1998 và các công cụ tiếp và profile đã được thêm vàotrong hai sửa đổi đối với các tiêu chuẩn mà đỉnh cao trong phiên bản 2 vào cuối năm 2001 Nhiềucông cụ và profile đang lên kế hoạch cho sửa đổi trong tương lai hoặc các phiên bản nhưng các 'côngcụ' cấu trúc của MPEG-4 phương tiện bất kỳ phiên bản sau của 14.496-2 nên vẫn tương thích ngượcvới các phiên bản 1
Chương này là một hướng dẫn để các công cụ và tính năng của MPEG-4 Visual Tations thực tế của MPEG-4 Visual được dựa trên một hoặc nhiều hơn các profile mặc định trong tiêu chuẩn
implemen-và vì vậy chương này được tổ chức theo profiles Sau một tổng quan về các tiêu chuẩn implemen-và phươngpháp tiếp cận của nó và các tính năng, các profile để mã hóa các khung hình video hình chữ nhậtđược thảo luận (Simple, Advanced Simple và nâng cao Real-Time Simple profiles)
Đây là bởi đến nay phổ biến nhất profiles sử dụng tại thời điểm hiện tại và như vậy họ được bảohiểm trong một số chi tiết Công cụ và profile để mã hóa các đối tượng tùy tiện hình được thảo luậntiếp theo (Core, Main và liên quan profiles), tiếp theo là profile cho khả năng mở rộng mã hóa, vẫnkết cấu mã hóa và chất lượng cao ('studio') mã hóa video
Ngoài các công cụ để mã hóa của (thế giới thực) liệu video "tự nhiên", MPEG-4 Visual mặc định
Trang 193D meshes và khuôn mặt hoạt hình và mô hình cơ thể Trọng tâm của cuốn sách này là rất nhiều về
mã hóa video tự nhiên và do đó, các profile được giới thiệu chỉ một thời gian ngắn Các công cụ mãhóa trong MPEG-4 Visual tiêu chuẩn mà không được bao gồm trong bất kỳ Profile (như quá mứcliếm Khối chuyển động bồi thường, OBMC) là (có lẽ contentiously!) Không nằm trong chương này
5.2 TỔNG QUAN VỀ MPEG-4 VISUAL (Nén video tự nhiên)
5.2.1 Tính năng
MPEG-4 Visual nỗ lực đáp ứng các yêu cầu của một loạt các ứng dụng truyền thông trực quan thôngqua một cách tiếp cận bộ công cụ dựa trên mã hóa thông tin thị giác Một số tính năng quan trọng màphân biệt MPEG-4 Visual từ tiêu chuẩn mã hóa hình ảnh trước đó bao gồm:
Nén tối ưu theo trình tự và liên kết 'tự nhiên' video (nén các trình tự của các khung hình videohình chữ nhật) Các công cụ nén chính dựa trên các tiêu chuẩn ITU-T H.263 và có thể ngoàithực hiện MPEG-1 và MPEG-2 nén video Công cụ bổ sung tùy chọn nâng cao hơn nữa néntối ưu
Mã hóa các đối tượng video (các vùng trong một video cảnh bất thường hình) Đây là mộtkhái niệm mới cho dựa theo tiêu chuẩn mã hóa video và cho phép (ví dụ) mã hóa độc lập củanền trước và nền các đối tượng trong một cảnh phim
Hỗ trợ truyền có hiệu quả trên các mạng thực tế Công cụ khả năng phục hồi lỗi giúp một bộgiải mã để phục hồi từ lỗi truyền dẫn và duy trì một kết nối video thành công trong một môitrường mạng dễ bị lỗi và các công cụ mã hóa mở rộng có thể giúp hỗ trợ truyền dẫn linh hoạttại một loạt các bitrate mã hóa
Mã hóa vẫn giữ "kết cấu" (dữ liệu hình ảnh) Điều này có nghĩa là vẫn còn hình ảnh có thể mãhoá và truyền trong khuôn khổ giống như chuyển những dữ liệu video Công cụ kết cấu mãhóa cũng có thể hữu ích trong việc kết hợp với vẽ hoạt hình dựa trên
Mã hóa của các đối tượng động trực quan như 2D và 3D mắt lưới đa giác, khuôn mặt hoạthình hoạt hình và các cơ quan của con người
Mã hóa cho các ứng dụng chuyên biệt như "studio" video chất lượng Trong loại ứng dụngnày, chất lượng hình ảnh có lẽ là quan trọng hơn
5.3.2 Công cụ, các đối tượng, đặc tính và các mức độ
MPEG-4 Visual cung cấp các chức năng mã hóa của mình thông qua một sự kết hợp của các công
cụ, các đối tượng và chương trình.A là một tập hợp con của mã hóa chức năng để hỗ trợ một tínhnăng đặc thù
Bảng 5.1 MPEG-4 Visual Hình ảnh để mã hóa video tự nhiên
19
Trang 20Đặc tính của chuẩn MPEG-4 Visual Đặc điểm chính
Advanced Simple
(cải tiến Đơn giản) Mã hóa khung hình chữ nhật với sự tối ưu hiệu năng và hỗ trợ video quét xen kẽ.Advanced Real-Time Simple
(Cải tiến thời gian thực) Mã hóa khung hình cửa sổ cho dòng dữ liệu với thời gian thực
Advanced Coding Efficiency
hơn 8 bítSimple Scalable
(khả năng thay đổi đơn giản) Có khả năng thay đổi mã hóa cho khung chữ nhật
Core Scalable
( khả năng thay đổi lõi hệ thống) Có khả năng thay đổi mã hóa cho đối tượng video
Advanced Scalable Texture
(cải tiến khả năng thay đổi cấu trúc) Có khả năng làm ổn định cấu trúc với việc nâng cao hiệu ứng và tính chất cơ bản của đối tượngAdvanced Core
(cải tiến Lõi hệ thống) Kết hợp những thuộc tính đơn giản, lõi và cải tiến các đặc tính của cấu trúc
Simple Studio (Phòng thu đơn giản) Mã hóa dựa trên đối tượng của chuỗi video chất lượng cao
Core Studio (Lõi phòng thu) Mã hóa dựa trên đối tượng của video chất lượng cao với cải
thiện nén tối ưu
Bảng 5.2 Đặc tính MPEG-4 Visual để mã hóa tổng hợp hoặc Video Lai
Basic Animated Texture
Simple Face Animation
Simple Face and Body Animation
(Chuyển động khuôn mặt và thân hình) Khuôn mặt đơn giản và thân hình chuyển động
cơ bản và đặc tính đơn giản chuyển động khuôn mặt
mã hóa video, video interlaced, mã hóa hình tượng, vv) Một đối tượng là một yếu tố video (ví dụnhư một chuỗi các khung hình chữ nhật, một chuỗi các khu vực tùy hình, một hình tĩnh) được mãhóa bằng cách sử dụng một hoặc nhiều công cụ Ví dụ, một đối tượng video đơn giản được mã hoábằng cách sử dụng một tập hợp hữu hạn của các công cụ cho hình chữ nhật chuỗi khung hình video,
Trang 21một đối tượng video được mã hóa bằng cách sử dụng các công cụ cho các đối tượng khác nhau Mộtprofile là một tập hợp của các loại đối tượng mà một CODEC được dự kiến sẽ có khả năng xử lý.MPEG-4 Visual profile để mã hóa những cảnh video 'tự nhiên' được liệt kê trong Bảng 5.1 và nhữngphạm vi từ đơn giản Profile (mã hóa của các khung hình video hình chữ nhật) thông qua profile chotùy tiện có hình dạng và khả năng mở rộng đối tượng mã hóa để profile để mã hóa video chất lượngstudio Bảng 5.2 liệt kê các profiles để mã hóa "tổng hợp" video (mắt lưới hoạt hình hoặc mặt / môhình cơ thể) và hybrid profile (kết hợp các tính năng từ video tổng hợp và tự nhiên mã hóa) Cácprofile được sử dụng để nén video tự nhiên và do đó không được đề cập chi tiết trong cuốn sáchnày.
Hình 5.1 Các đặc tính và đối tượng của MPEG-4 Visual
Hình 5.1 danh sách mỗi MPEG-4 Visual profile (cột bên trái) và các loại đối tượng thị giác (hàngtrên cùng) Các mục bảng chỉ ra đối tượng mà loại được chứa trong mỗi profile Ví dụ, một CODECtương thích với Simple Profile phải có khả năng mã hóa và giải mã các đối tượng đơn giản và CoreProfile CODEC phải có khả năng mã hóa và giải mã đơn giản và Core đối tượng Profile là một cơ
21
Trang 22chế quan trọng để khuyến khích khả năng tương tác giữa các codec từ các nhà sản xuất khác nhau.MPEG-4 Visual tiêu chuẩn mô tả một phạm vi đa dạng của các công cụ mã hóa và nó là không cóbất cứ CODEC thương mại đòi hỏi phải thực hiện tất cả các công cụ Thay vào đó, một nhà thiết kếCODEC chọn một profile có chứa đầy đủ công cụ cho các ứng dụng đích Ví dụ, một CODEC cơbản thực hiện trên một bộ xử lý điện năng thấp có thể sử dụng đơn giản profile, một CODEC chotuyến các ứng dụng video có thể chọn chi tiết thời gian thực đơn giản và như vậy Đến nay, một sốprofile đã có nhiều tác động đến thị trường hơn so với những người khác Các đơn giản và chi tiếtđơn giản profile đặc biệt phổ biến với các nhà sản xuất và người sử dụng trong khi các profile chocác mã hóa của đối tượng tùy tiện hình đã có tác động thương mại rất hạn chế (xem Chương 8 đểtiếp tục thảo luận về tác động thương mại của MPEG-4 Profiles).
Profile định nghĩa một tập hợp con của mã hóa các công cụ và trình độ hạn chế fine de trên cácthông số của bitstream Bảng 5.3 liệt kê các cấp độ cho phổ biến đơn giản dựa trên profile
Bảng 5.3 các mức cấu hình cơ bản
Cấu hình Mức Kích thước Tốc độ bit tối đa số đối tượng tối đa
Simple L0 176 × 144 64 kbps 1 simple
L1 176 × 144 64 kbps 4 simple L2 352 × 288 128 kbps 4 simple L3 352 × 288 384 kbps 4 simpleAdvanced Simple (AS) L0 176 × 144 128 kbps 1 AS or simple
L1 176 × 144 128 kbps 4 AS or simple L2 352 × 288 384 kbps 4 AS or simple L3 352 × 288 768 kbps 4 AS or simple L4 352 × 576 3 Mbps 4 AS or simple L5 720 × 576 8 Mbps 4 AS or simpleAdvanced Real-Time L1 176 × 144 64 kbps 4 ARTS or simple
Simple (ARTS) L2 352 × 288 128 kbps 4 ARTS or simple L3 352 × 288 384 kbps 4 ARTS or simple L4 352 × 288 2 Mbps 16 ARTS or simple
Simple cải tiến và cải tiến thời gian thực đơn giản) Mỗi cấp độ đặt những hạn chế về hiệu suất tối
đa yêu cầu để giải mã một chuỗi mã hóa MPEG-4 Ví dụ, một thiết bị đầu cuối timedia mul- vớikhả năng xử lý hạn chế và một lượng nhỏ bộ nhớ chỉ có thể hỗ trợ Simple Profile Cấp 0 dòng bitgiải mã Cấp xác định nơi hạn chế về số lượng bộ nhớ đệm, kích thước khung giải mã và tỷ lệ chếbiến (trong macroblocks mỗi giây) và số lượng các đối tượng video (một trong trường hợp này,một khung hình chữ nhật đơn) Một thiết bị đầu cuối có thể đối phó với các thông số này là đảmbảo được khả năng giải mã thành công bất kỳ phù hợp Simple Profile Cấp 0 dòng bit Trình độ cao
Trang 23hơn của Simple Profile cần một bộ giải mã để xử lý lên đến bốn đơn giản Profile đối tượng video(ví dụ, lên đến bốn đối tượng hình chữ nhật bao gồm các QCIF hoặc màn hình hiển thị độ phân giảiCIF).
5.2.3 các đối tượng video
Một trong những đóng góp quan trọng của MPEG-4 Visual là một động thái đi từ quan điểm "truyềnthống" của một chuỗi video như chỉ đơn thuần là một bộ sưu tập các khung hình chữ nhật của video.Thay vào đó, MPEG-4 xử lý thị giác một chuỗi video như là một tập hợp của một hoặc nhiều đốitượng video MPEG-4 Visual mặc định một đối tượng video như là một linh hoạt 'thực thể mà ngườidùng được phép truy cập (tìm kiếm, duyệt) và thao tác (cắt và dán) [1] Một đối tượng video (VO) làmột khu vực của cảnh video mà có thể chiếm một khu vực tùy tiện có hình dạng và có thể tồn tại chomột chiều dài tùy ý thời gian Một ví dụ của một VO tại một thời điểm cụ thể là một máy bay đốitượng video (VOP)
Định nghĩa này bao gồm các phương pháp truyền thống của mã hóa khung hình hoàn chỉnh, trong
đó mỗi VOP là một khung duy nhất của video và một chuỗi các khung hình một VO (ví dụ, hình 5.2cho thấy một VO gồm ba VOPs hình chữ nhật) Tuy nhiên, sự ra đời của khái niệm VO cho phépnhiều tùy chọn linh hoạt để mã hóa video Hình 5.3 cho thấy một VO gồm ba VOPs bất thườnghình, mỗi người hiện có trong một khung và mỗi mã hóa độc lập (đối tượng dựa trên mã hóa)
Đối tượng Video
V O P 2
V O P 3
VOP3
Trang 24Hình 5.3 VOPs and VO (hình dạng tùy biến)
Một cảnh trong video (ví dụ như Hình 5.4) có thể được tạo thành từ một đối tượng nền (VO3 trongnày dụ) và một số đối tượng tiền cảnh riêng biệt (VO1, VO2) Cách tiếp cận này là fl có khả nănglinh hoạt hơn nhiều so với cố định fi, kết cấu khung hình chữ nhật tiêu chuẩn trước đó Các đốitượng arate sep- có thể được mã hóa với chất lượng hình ảnh khác nhau và độ phân giải thời gian đểtái fl ect "tầm quan trọng" của họ đến hiện trường, các đối tượng từ nhiều nguồn (bao gồm tổng hợp
và các đối tượng "tự nhiên") có thể được kết hợp trong một cảnh duy nhất và các thành phần và hành
vi của các trường có thể được điều khiển bởi một người dùng cuối trong các ứng dụng tương tác cao.Hình 5.5 cho thấy một cảnh video mới được hình thành bằng cách thêm VO1 từ Hình 5.4, một VO2mới và một nền VO mới Mỗi đối tượng được mã hóa độc lập sử dụng MPEG-4 Visual (các hợp lạicủa các đối tượng hình ảnh và âm thanh được giả định được xử lý một cách riêng biệt, ví dụ nhưMPEG-4 hệ thống [2])
Trang 25Si m pl e
Si m pl e
Adva nce
d Real
Tim
e Sim ple
V O P
-In te rl a c e
Alter nate Qua nt
Gl ob
al M C
Qu art
er Pel
n C on ve rsi on
NE WP RE D
HÌNH 5.5 Video cảnh sáng tác của VOS từ các nguồn riêng biệt
để xử lý VOPs hình chữ nhật (khung hình video thường đầy đủ) được nhóm lại với nhau trong cáigọi là profiles đơn giản Các công cụ và đối tượng để mã hóa khung hình chữ nhật được thể hiệntrong hình 5.6 Các công cụ cơ bản tương tự như thông qua các tiêu chuẩn video mã hóa trước đó,DCT dựa trên mã hóa của khối macro với dự đoán chuyển động bồi thường Các đơn giản profiledựa xung quanh lai DPCM / DCT mô hình nổi tiếng (xem Chương 3, Phần 3.6) với
Hình 5.6 Các công cụ và thành phần dùng để mã hóa khung ảnh chữ nhật
công cụ bổ sung để cải thiện tính hiệu mã hóa hiệu lực và truyền hiệu lực Do sự phổ biến rộng rãicủa profile đơn giản , tăng cường profile cho VOPs hình chữ nhật đã được phát triển Các chi tiếtđơn giản profile cải thiện mã hóa thêm hiệu quả và thêm hỗ trợ cho video interlaced và nâng caothời gian bổ sung công cụ hữu ích cho thời gian thực video tuyến các ứng dụng
25
Trang 265.3.1 Đầu vào và đầu ra định dạng video
Các đầu vào cho một MPEG-4 Visual encoder và đầu ra của một bộ giải mã là một chuỗi video trong 4: 2: 0, 4: 2: 2 hay 4: 4: 4 tiến bộ hỗn hợp các định dạng (xem Chương 2) MPEG-4 Visual sử dụng bố trí lấy mẫu trong hình 2.11 cho khung lấy mẫu tiến bộ và phương pháp thể hiện trong hình 2.12 cho phân bổ luma và chroma mẫu để mỗi cặp ruộng trong một chuỗi xen kẽ
5.3.2 Các Profile đơn giản
Một CODEC đó là tương thích với đơn giản Profile nên có khả năng mã hóa và giải mã video đơn giản Đối tượng sử dụng các công cụ sau đây:
I-VOP (Intra-mã chữ nhật VOP, định dạng video cải tiến);
P-VOP (VOP chữ nhật Inter-mã, định dạng video cải tiến);
Hình 5.7 Chuẩn nén I-VOP và các bước giải mã
Hình 5.8 Chuẩn nén P-VOP và các bước giải mã
Tiêu đề ngắn (chế độ tương thích với H.263 codec);
Công cụ nén được tối ưu (bốn vector chuyển động mỗi macroblock, chuyển động không hạn chế vectơ, dự đoán Intra);
truyền tải công cụ (gói video, dữ liệu phân vùng)
5.3.2.1 Lõi video Bit tốc độ cực nhỏ
Các đơn giản Profile của MPEG-4 Visual sử dụng một mô hình CODEC được gọi là Bit với tốc độVideo rất chậm (VLBV) trung tâm (hybrid DPCM / DCT mô hình mô tả trong Chương 3) Trongphổ biến với các tiêu chuẩn khác, kiến trúc của các bộ mã hóa và giải mã là không đặc hiệu trong
Trang 27MPEG-4 Visual nhưng một thực tế thực hiện sẽ yêu cầu để thực hiện các chức năng thể hiện tronghình 5.7 (mã hóa Intra VOPs) và hình 5.8 (mã hóa của Inter VOPs ) Các công cụ cơ bản cần thiết để
mã hóa và giải mã chữ nhật I-VOPs và P-VOPs được mô tả trong phần tiếp theo (phần 3.6 củaChương 3 cung cấp một chi tiết 'đi bộ qua' của quá trình mã hóa và giải mã) Các công cụ trongVLBV Core được dựa trên chuẩn H.263 và 'tiêu đề ngắn' chế độ cho phép tương thích trực tiếp (ởcấp độ khung hình) giữa một MPEG-4 Simple Profile CODEC và H.263 Baseline CODEC
5.3.2.2 Các công cụ mã hóa cơ bản
Bảng 5.4 giá trị của các thành phần dc_scaler trong vùng QP
DCT và IDCT: Khối luma và chroma mẫu được chuyển đổi bằng cách sử dụng một 8 × 8 phía trước
DCT trong mã hóa và một 8 × 8 ngược DCT trong giải mã (xem Phần 3.4)
Lượng tử hóa: Các MPEG-4 Visual chuẩn là phương pháp thay đổi tỷ lệ lượng tử hóa biến giá trị của
bộ giải mã Thay đổi tỷ lệ được điều khiển bởi một tham số mô hình, QP, có thể mất giá trị 1-31 (giátrị lớn hơn của QP sản xuất một kích thước bước lớn hơn và do đó cao hơn nén và biến dạng) Haiphương pháp thay đổi tỷ lệ được mô tả trong tiêu chuẩn: "Phương pháp 2" (phương pháp cơ bản) và
"phương pháp 1 '(hơn linh hoạt nhưng cũng phức tạp hơn) Cách 2 ngược lượng tử hoạt động nhưsau Các DC Hệ số trong một macroblock Intra-mã được thay đổi tỷ lệ theo:
DC = DCQ dc_scaler (5.1)
DCQ là hệ số lượng tử hóa, DC là hệ số tỷ lệ và dc_scaler là một tham số mặc định trong tiêu chuẩn Trong chế độ tiêu đề ngắn hạn (xem bên dưới), dc_scaler là 8 (tức là tất cả hệ số Intra DC được thay đổi tỷ lệ với hệ số 8), nếu không dc_scaler được tính theo giá trị của QP (Bảng 5.4) Tất cả các biến
hệ số khác (bao gồm cả AC và Inter DC) đều được thay đổi tỷ lệ như sau:
27
Trang 28Mã hóa cấp trước: Các mảng sắp xếp lại tương ứng với mỗi khối được mã hóa để đại diện cho các
số không hệ số hiệu quả Mỗi số 0 Hệ số được mã hóa như một bộ ba của (cuối cùng, chạy, mức độ),nơi 'cuối cùng' chỉ ra cho dù đây là hệ thức khác không trong khối, 'chạy' tín hiệu số trước 0 và 'độ'chỉ ra ký tên và độ lớn
mã hóa Entropy: thông tin Header và (cuối cùng, chạy, mức độ) ba (xem phần 3.5) biểu diễn bởi
mã chiều dài thay đổi (VLCs) Các mã này cũng tương tự như mã Huffman và được mặc định trongtiêu chuẩn, dựa trên hệ số xác suất tính trước
Một mã I-VOP bao gồm một tiêu đề VOP, tiêu đề gói tin video lựa chọn và roblocks mac- mã Mỗikhối macro được mã hóa với một tiêu đề (mặc định loại khối macro, xác định những khối trong khốimacro chứa hệ số mã, báo hiệu những thay đổi trong tham số lượng tử hóa, vv) tiếp theo là hệ số mãcho mỗi khối 8 × 8
Trong các bộ giải mã, trình tự của VLCs được giải mã để trích xuất các hệ số lượng tử hóa biếnđược tái thu nhỏ lại và biến đổi bởi một IDCT 8 × 8 để tái tạo lại được giải mã I-VOP (Hình 5.7)
Các khu vực ing match- (hoặc dự đoán) được trừ từ các khối mẫu hiện nay để sản xuất ra một khốicòn lại Sau khi bồi thường chuyển động, các dữ liệu còn lại được chuyển đổi với DCT, lượng tửhóa, sắp xếp lại, chạy cấp mã hoá và mã hoá entropy Các dư lượng tử hóa được thay đổi tỷ lệ vàngược lại biến đổi trong bộ mã hóa để tái tạo lại một bản sao cục bộ của MB được giải mã (để có
Trang 29thêm chuyển động bồi thường dự đoán) Một mã P-VOP gồm tiêu đề VOP, tùy chọntiêu đề gói tin video và khối macro mã hóa từng chứa một header (lần này bao gồm các vectorchuyển động theo kiểu khác được mã hóa) và mã hoá cho mỗi khối 8 × 8 Các bộ giải mã hình thức
dự đoán bù chuyển động cùng dựa trên các vector chuyển động và nhận được bản sao riêng của địaphương của VOP tham khảo Các dữ liệu còn lại được giải mã được thêm vào dự đoán để tái tạo ramột khối giải mã (Motion-bù tái thiết, MCR trong hình 5.8)
Khối macro trong một P-VOP có thể được mã hóa trong chế độ Inter (với dự đoán chuyển động bồithường từ các tài liệu tham khảo VOP) hoặc chế độ Intra (không chuyển động bồi thường dự đoán).Chế độ liên thông thường sẽ cung cấp cho các mã hóa tốt nhất fide tính hiệu nhưng chế độ Intra cóthể hữu ích trong khu vực mà không có một trận đấu tốt trong một VOP trước đó, chẳng hạn như làmột khu vực mới được đậy
Tiêu đề ngắn
Các công cụ 'tiêu đề ngắn' cung cấp khả năng tương thích giữa MPEG-4 Visual và các tiêu chuẩnITU-T H.263 mã hóa video An I- hoặc P-VOP được mã hóa trong 'tiêu đề ngắn' chế độ có cú phápgiống hệt với một I-hình ảnh hay P-picture được mã hóa trong các chế độ cơ bản của H.263 Điềunày có nghĩa rằng một MPEG-4 I-VOP hoặc P-VOP nên giải mã bởi một bộ giải mã H.263 vàngược lại
Trong chế độ tiêu đề ngắn gọn, khối macro trong vòng một VOP được tổ chức trong nhóm khốigồm một hoặc nhiều hàng hoàn chỉnh của khối macro Mỗi GOB có thể (tùy chọn) bắt đầu với mộtdấu (một fide cố định độ dài mã nhị phân cho phép một bộ giải mã để khi một lỗi là gặp phải, xemPhần 5.3.2.4)
5.3.2.3 Công cụ mã hóa tối ưu
Các công cụ sau đây, một phần của profile đơn giản, có thể cải thiện nén tối ưu Họ chỉ được sửdụng khi chế độ tiêu đề ngắn không được kích hoạt
Hình 5.9 một hoặc 4 vector chuyển động trong 1khối macro
Bốn vector chuyển động mỗi khối macro
Bồi thường chuyển động có xu hướng để có hiệu quả hơn với các kích thước khối nhỏ hơn Kíchthước khối mặc định bồi thường chuyển động là 16 × 16 mẫu (luma), 8 × 8 mẫu (chroma), kết quả làmột vector chuyển động mỗi khối macro Công cụ này cung cấp cho các bộ mã hóa tùy chọn để lựachọn một kích thước khối nhỏ hơn đền bù chuyển động, 8 × 8 mẫu (luma) và 4 × 4 mẫu (chroma),cho bốn vector chuyển động mỗi khối macro Chế độ này có thể có hiệu quả hơn trong việc giảm
29
Trang 30thiểu năng lượng trong dư bù chuyển động, đặc biệt là trong lĩnh vực chuyển động phức tạp hoặc ởgần ranh giới của các đối tượng chuyển Có một chi phí tăng lên trong việc gửi bốn vector chuyểnđộng thay vì một, và do đó, các bộ mã hóa có thể chọn để gửi một hoặc bốn vector chuyển động trênmột cơ sở khối macro (Hình 5.9).
Không hạn chế chuyển động Vectors
Trong một số trường hợp, phù hợp nhất cho một khối macro có thể là một khu vực 16 × 16 mà kéodài bên ngoài ranh giới của VOP tham khảo Hình 5.10 cho thấy góc dưới bên trái của một VOP hiệntại (ảnh phải) và trước đó, tài liệu tham khảo VOP (ảnh bên trái) di chuyển vào các hình ảnh trongVOP hiện hành và do đó không phải là một trận đấu tốt cho các khối macro nhấn mạnh bên trongVOP tham khảo Trong hình 5.11, các mẫu trong các VOP tham khảo đã được ngoại suy ('độn') vượt
ra ngoài ranh giới của VOP Một trận đấu tốt hơn cho các khối mẫu thu được bằng cách cho phépcác vector chuyển động để trỏ vào khu vực ngoại suy này (các khối mẫu được đánh dấu trong hình5.11 là trận đấu tốt nhất trong trường hợp này) Các công cụ không bị hạn chế Chuyển động Vectors(UMV) cho phép vector chuyển động đến điểm bên ngoài ranh giới của VOP tham khảo Nếu mộtmẫu chỉ định bởi các vector chuyển động bên ngoài tham chiếu VOP, các mẫu cạnh gần nhất được
sử dụng để thay thế Chế độ UMV có thể cải thiện bù chuyển động tối ưu, đặc biệt là khi có đốitượng di chuyển vào và ra khỏi hình ảnh
Dự đoán Intra
tần số chậm chuyển đổi của láng giềng trong nội bộ mã 8 × 8 khối thường tương quan Trong chế độnày, DC Hệ số và (tùy chọn) hàng đầu tiên và cột của AC trong một Intra-mã hoá 8 × 8 khối được dựđoán từ nước láng giềng khối mã Hình 5.12 cho thấy một khối macro được mã hóa trong chế độ nội
và DCT cho mỗi khối luma bốn 8 × 8 được thể hiện trong hình 5.13 Các hệ số DC (trên cùng bêntrái) là rõ ràng
Hình 5.10 VOP tham chiếu và VOP hiện tại
Trang 31Hình 5.11 VOP tham chiếu ngoại suy vượt ranh giới
Hình 5.12 Macroblock được mã hóa trong chế độ nội
tương tự nhưng nó là ít rõ ràng cho dù có sự tương quan giữa hàng đầu tiên kinh và cột của hệ số
AC trong các khối
Các hệ số DC của khối hiện nay (X trong hình 5.14) được dự đoán từ Hệ số DC của trên (C) hoặcbên trái (A) trước đây mã 8 × 8 khối Các DC Hệ số giá trị thay đổi tỷ lệ của các khối A, B và C
31
Trang 324 6 8
0
4 6 8
xác định các phương pháp dự đoán DC Nếu A, B hoặc C là bên ngoài ranh giới VOP hoặc biêngiới của các gói dữ liệu video hiện tại (xem phần sau), hoặc nếu họ không phải là nội mã, giá trị hệ
số DC của họ được giả định là bằng 1024 (Hệ số DC của một khối giữa màu xám của mẫu) Sự chỉđạo của các dự đoán được xác định bởi:
Trang 33Lower left Lower right
Hình 5.13 Hệ số DCT (luma blocks)
nếu | DCA - DCB | <| DCB - DCC |
dự đoán từ khối C khác
4 0 0
3 0 0
2 0 0
1 0 0
0
0 -
1 0 0
0
2 4 6 8 5
5 0 0
4 0 0
3 0 0
2 0 0
1 0 0
0
0 -
1 0 0
0
4 6 8
C A
Trang 34Hình 5.15 Dự đoán hệ số AC
khối bởi một yếu tố rộng và PDC sau đó được trừ vào thực tế lượng tử hóa hệ số DC (QDCX) vàcòn lại (PQDCX) được mã hoá và truyền đi
Dự đoán hệ số AC được thực hiện theo một cách tương tự, với các dòng đầu tiên kinh hoặc cột của
AC dự đoán theo hướng xác định cho các DC Hệ số (Hình 5.15) Ví dụ, nếu hướng dự đoán là từkhối A, cột gốc đầu tiên của AC trong khối X được dự đoán từ cột đầu tiên của khối A Nếu hướng
dự đoán là từ khối C, hàng đầu tiên của hệ số AC trong X được dự đoán từ hàng đầu tiên kinh của
C Các dự đoán được thu nhỏ tùy thuộc vào kích thước bước của khối X và A hoặc C
5.3.2.4 công cụ Truyền dẫn hiệu suất
Một lỗi truyền dẫn như một lỗi bit hoặc mất gói có thể gây ra một bộ giải mã video để mất sự đồng
bộ với chuỗi các VLCs giải mã Điều này có thể gây ra các bộ giải mã để giải mã không chính xácmột số hoặc tất cả các thông tin sau khi xảy ra các lỗi và điều này có nghĩa rằng một phần hoặc tất
cả các VOP được giải mã sẽ bị bóp méo hoặc hoàn toàn bị mất (tức là ảnh hưởng của các lỗi lây lantrong không gian thông qua các VOP, 'lỗi tuyên truyền không gian') Nếu VOPs tiếp theo được dựđoán từ các VOP bị hư hỏng, vùng bị bóp méo có thể được sử dụng như một tài liệu tham khảo dựđoán, dẫn đến tuyên truyền lỗi thời trong VOPs tiếp theo (Hình 5.16)
Hình 5.16 Không gian và thời lan truyền lỗi
Khi một lỗi xảy ra, một bộ giải mã có thể tiếp tục giải mã chính xác khi đạt đến một điểm - thường
là một mã nhị phân duy nhất giải mã lắp vào bitstream Khi các bộ giải mã phát hiện lỗi (ví dụ bởi
vì một VLC không hợp lệ được giải mã), một cơ chế phục hồi thích hợp là để 'quét' bitstream cho
Vị trí lỗi
Trang 35đến khi một marker resynchronisation được phát hiện Trong chế độ tiêu đề ngắn, bútresynchronisation xảy ra vào lúc bắt đầu của mỗi VOP và (tùy chọn) vào đầu của mỗi GOB.
Các công cụ sau đây được thiết kế để cải thiện hiệu suất trong quá trình truyền dữ liệu video được
mã hóa và đặc biệt hữu ích, nơi có một xác suất cao của các lỗi mạng [3] Các công cụ có thểkhông được sử dụng trong chế độ tiêu đề ngắn
Video Packet
Một VOP truyền gồm một hoặc nhiều gói tin video Một gói tin video là tương tự như một láttrong MPEG-1, MPEG-2 hoặc H.264 (xem Phần 6) và bao gồm một dấu resynchronisation, mộttiêu đề fi lĩnh và một loạt các macroblocks mã để raster quét (Hình 5.17) (Gây nhầm lẫn, MPEG-4Visual tiêu chuẩn đôi khi đề cập đến các gói tin video như 'lát') Các marker resynchronisationđược theo sau bởi một số của số macroblock tiếp theo, cho phép một bộ giải mã cho vị trí cácmacroblock fi đầu tiên của gói tin một cách chính xác Sau này một tham số lượng tử và một ag fl,HEC (Tiêu đề Mã Extension) Nếu HEC được thiết lập để 1, nó được theo sau bởi một bản sao củatiêu đề VOP hiện tại, tăng số lượng thông tin mà đã được truyền nhưng cho phép một bộ giải mã
để khôi phục lại các tiêu đề VOP nếu fi đầu tiên VOP là hỏng bởi một lỗi
Các công cụ gói video có thể hỗ trợ trong việc khôi phục lỗi ở bộ giải mã theo nhiều cách, ví dụ:
1 Khi một lỗi được phát hiện, các bộ giải mã có thể resynchronise vào lúc bắt đầu của gói tinvideo tiếp theo và do đó, các lỗi không lan truyền đi xa ranh giới của các gói dữ liệu video
Hình 5.17 Cấu trúc gói tin video
2 Nếu được sử dụng, các lĩnh HEC cho phép một bộ giải mã để phục hồi một tiêu đề VOP bịmất từ các nơi khác trong VOP
3 Đoán mã hóa (chẳng hạn như mã hóa khác biệt của các tham số lượng tử hóa, dự báo của cácvector chuyển động và nội DC / AC dự đoán) không vượt qua ranh giới giữa các gói tin video Điềunày ngăn cản (ví dụ) một lỗi trong dữ liệu vector chuyển động từ tuyên truyền đến một gói tinvideo
Phân vùng dữ liệu
Các công cụ phân vùng dữ liệu cho phép một bộ mã hóa để tổ chức lại các dữ liệu được mã hóatrong một gói tin video để giảm ảnh hưởng của lỗi truyền Các gói dữ liệu được chia thành hai phânvùng, các tiên (ngay lập tức sau khi tiêu đề gói tin video) có chứa mã hóa thông tin chế độ cho mỗimacroblock cùng với DC của mỗi khối (cho macroblocks Intra) hoặc vectơ chuyển động (chomacroblocks Inter) Các dữ liệu còn lại (hệ số AC và hệ số DC của macroblocks Inter) được đặt
35
Trang 36trong phân vùng thứ hai sau một marker resynchronisation Các thông tin được gửi trong phân vùnggốc đầu tiên được coi là quan trọng nhất để giải mã đầy đủ của các gói dữ liệu video Nếu phânvùng gốc đầu tiên bị thu hồi, nó thường là có thể cho các bộ giải mã để thực hiện một nỗ lực hợp lýtại xây dựng lại các gói tin, thậm chí nếu phân vùng thứ 2 bị hư hỏng hoặc bị mất do lỗi truyền dẫn(s).
và RVLCs Một lỗi xảy ra trong dữ liệu kết cấu và các bộ giải mã quét về phía trước và phía sau đểphục hồi dữ liệu kết cấu ở hai bên của lỗi
5.3.3 Các chi tiết profile đơn giản
Các profile đơn giản, được giới thiệu trong phiên bản gốc đầu tiên của MPEG-4 Visual tiêu chuẩn,nhanh chóng trở nên phổ biến với các nhà phát triển vì tín hiệu cải thiện của nó so với các tiêuchuẩn trước đó (chẳng hạn như MPEG-1 và MPEG-2) và dễ dàng tích hợp nó vào hiện tại các ứngdụng video có sử dụng các khung hình video hình chữ nhật Việc nâng cao profile đơn giản đượcthành lập
thành một phiên bản sau này của tiêu chuẩn với các công cụ để hỗ trợ cải thiện thêm nén ciency và
mã hóa video interlaced Advanced Simple Profile CODEC phải có khả năng giải mã các đối tượngđơn giản cũng như nâng cao các đối tượng đơn giản mà có thể sử dụng các công cụ sau đây ngoàicác Profile công cụ đơn giản:
• B-VOP (dự đoán hai chiều Inter-VOP được mã hóa);
Trang 371 Chuyển dự đoán: Một MV single được phát đi, MVF, đề cập đến trước đó I- hoặc P-VOP.
2 Dự báo lùi: Một MV single được phát đi, MVB, đề cập đến tương lai I- hoặc P-VOP
3 Hai chiều suy đoán: Hai MV được truyền đi, MVF và MVB, đề cập đến trước đó và tương lai hoặc P-VOPs Các dự đoán chuyển động bồi thường cho các khối mẫu hiện nay được sản xuất bằngcách nội suy giữa luma và sắc độ mẫu trong vùng tham chiếu hai
I-4 Bidirectional trực tiếp dự đoán: Các vector chuyển động chỉ vào trước đó và tương lai I- hoặc VOPs có nguồn gốc tự động từ các MV của các khối mẫu tương tự trong tương lai I- hoặc P-VOP
P-A 'đồng bằng MV' chỉnh các MVs tự động tính được truyền đi
Trang 38HÌNH 5.20 chế độ trực tiếp vectors
Ví dụ về phương thức trực tiếp (Hình 5.20)
Previous reference VOP: I 4 , display time = 2
Current B-VOP: B 6 , display time = 6
Future reference VOP: P 7 , display time = 7
MV for same macroblock position in P 7 , MV 7 = (+5, −10)
TRB = display time(B 6 ) – display time(I 4 ) = 4
TRD = display time(P 7 ) – display time(I 4 ) = 5 MV D = 0 (no delta vector)
MV F = (TRB/TRD).MV = (+4, −8)
MV B = (TRB-TRD/TRD).MV = (−1, +2)
Vectors Chuyển động ¼ điểm ảnh
Các đơn giản Profile hỗ trợ vector chuyển động với độ chính xác một nửa-pixel và công cụ này hỗ trợ vectơ với độ chính xác ¼ điểm ảnh Các tài liệu tham khảo VOP mẫu số này dùng để vị trí nửa-pixel và sau đó một lần nữa vào các vị trí ¼ điểm ảnh trước khi ước lượng chuyển động và phân compensa- Điều này làm tăng sự phức tạp của dự toán chuyển động, bồi thường và tái thiết nhưng có thể cung cấp một đạt được trong mã hóa ef fi ciency so với bồi thường nửa-pixel (xem Chương 3)
Trang 39Profile Intra DC thay đổi tỷ lệ vẫn Các hệ lượng tử hóa coef fi cùng (xem Phần 5.3.2) nhưng khác cóthể được thay đổi tỷ lệ sử dụng một method1 thay thế.
Cients lượng tử hóa coef fi FQ (u, v) được thay đổi tỷ lệ sản xuất cients coef fi F (u, v) (trong đó u, Vare tọa độ của cient coef fi) như sau:
dụ, thực hiện chủ quan tốt hơn có thể đạt được bằng cách tăng kích thước bước cho hệ số tần số cao
và giảm hệ số cho tần số thấp Bảng 5.5 cho thấy một ví dụ đơn giản của một WW ma trận trọng số.Chuyển động toàn phần bù Macroblocks bên trong đối tượng cùng một đoạn video có thể trải nghiệmchuyển động tương tự Ví dụ, máy ảnh pan sẽ tạo chuyển động tuyến tính rõ ràng của toàn cảnh,camera thu phóng hoặc xoay sẽ tạo ra một chuyển động biểu kiến phức tạp hơn và khối macro trongmột đối tượng lớn có thể tất cả các di chuyển theo cùng một hướng Chuyển động toàn cục bồithường (GMC) cho phép một bộ mã hóa để truyền tải một số lượng nhỏ các chuyển động (congvênh) các thông số mô tả một mặc định 'toàn cầu' chuyển động cho toàn bộ VOP GMC có thể cảithiện cho việc nén ef fi tính hiệu khi một số fi cant trọng yếu của macroblocks trong VOP chia sẻ cácđặc điểm chuyển động tương tự Các chuyển động toàn cục 1 MPEG-4 Visual tiêu chuẩn mô tả cácphương pháp thay đổi tỷ lệ mặc định là "Second Inverse lượng tử hóa Phương pháp 'và thay thế,phương pháp tùy chọn là' First Inverse lượng tử hóa Phương pháp ' Mặc định ('thứ hai') Phươngpháp này đôi khi được gọi là 'H.263 lượng tử' và ('First') phương pháp thay thế như 'MPEG-4 lượng
tử "
MV Toàn cục
39
M V n ộ i s u y
Trang 40Hình 5.21 VOP, GMVs và vector nội suy
Việc sử dụng GMC được kích hoạt bằng cách thiết lập các tham số cho phép để sprite 'GMC' trongmột Video Object Layer (VOL) tiêu đề VOPs trong VOL sau đó có thể được mã hoá là S (GMC) -VOPs ('ma' VOPs với GMC), như là một thay thế cho các phương pháp mã hóa 'bình thường' (I-VOP, P-VOP hoặc B-VOP) Thuật ngữ 'ma' được sử dụng ở đây vì một loại bồi thường Chuyểnđộng toàn phần được áp dụng trong chế độ cũ 'sprite mã hóa' (một phần của Main Pro fi le, xem
Phần 5.4.2.2)