Tìm hiểu chuẩn nén video MPEG-4 H.264/AVC và ứng dụng trong thực tiễn

MỤC LỤC

LƯỢNG TỬ HểA

Quá trình lượng tử là quá trình chuyển một xung lấy mẫu thành một xung có biên độ bằng mức lượng tử gần nhất hay nói cách khác là lượng tử chuyển đổi các mức biên độ của tín hiệu đã lấy mẫu sang một trong các giá trị hữu hạn các mức nhị phân. Lượng tử hoá biến đổi tín hiệu liên tục theo thời gian thành tín hiệu có biên độ rời rạc, nhằm làm giảm ảnh hưởng của tạp âm trong hệ thống, hạn chế các mức cho phép của tín hiệu lấy mẫu và chuẩn bị truyền tín hiệu gốc từ tương tự sang số.

MÃ HểA

+ Lượng tử phi tuyến: phép nén tín hiệu theo quy luật đường cong không đồng đều, tập trung nhiều mức lượng tử ở những vùng tín hiệu nhỏ. Trong kỹ thuật nén ảnh, nén video thì loại lượng tử phi tuyến được dùng nhiều hơn vì nó giảm dung lượng đến mức tối đa với độ méo lượng tử có thể chấp nhận được.

TỐC ĐỘ BIT VÀ THÔNG LƯỢNG KÊNH TRUYỀN TÍN HIỆU SỐ .1 TỐC ĐỘ BÍT

THÔNG LƯỢNG KÊNH TRUYỀN

Tốc độ bit càng lớn thì tín hiệu tương tự khôi phục lại càng trung thực tuy nhiên nó sẽ là cho dung lượng lưu trữ và băng thông kênh truyền càng lớn. Trong thực tế để truyền tín hiệu có tốc độ bit là C (bps) thì cần băng thông kênh truyền là: B ≥43C (Hz).

MÔ HÌNH NÉN TÍN HIỆU VIDEO

LƯỢNG TIN TRUNG BÌNH (ENTROPY)

Trước khi nghiên cứu các phương pháp nén, ta cần đánh giá lượng thông tin chủ yếu được chứa đựng trong hình ảnh, từ đó xác định dung lượng tối thiểu cần sử dụng để miêu tả, truyền tải thông tin về hình ảnh. Theo công thức trên ta thấy lượng tin chứa đựng trong một hình ảnh sẽ tỉ lệ nghịch với khả năng xuất hiện của ảnh đó, nghĩa là sự kiện ít xảy ra sẽ chứa đựng nhiều thông tin hơn và bằng tổng số lượng thông tin của từng phần tử ảnh.

CÁC KỸ THUẬT NÉN VIDEO

PHÂN LOẠI CÁC KỸ THUẬT NÉN

Như vậy, số lượng tin trung bình tối thiểu cần thiết để truyền một phần tử ảnh sẽ khác nhau, nghĩa là độ dư thừa trong ảnh và giữa các bức ảnh sẽ phụ thuộc vào cách mã hóa Entropy. Trong thực tế phương pháp nén tổn hao thường được sử dụng nhiều hơn và các kỹ thuật nén tổn hao thường sử dụng như: mã hóa vi sai, biến đổi cosin rời rạc DCT, lượng tử vô hướng, quét zig-zag, mã hóa Entropy….

QUÁ TRÌNH BIẾN ĐỔI

Vì ảnh gốc có kích thước rất lớn cho nên trước khi đưa vào biến đổi DCT, ảnh được phân chia thành các MB biểu diễn các mức xám của điểm ảnh. Việc phân khối này sẽ làm giảm được một phần thời gian tính toán các hệ số chung, mặt khác biến đổi cosin đối với các khối nhỏ sẽ làm tăng độ chính xác khi tính toán với dấu phẩy tĩnh, giảm thiểu sai số do làm tròn sinh ra.

8cos7

QUÁ TRèNH MÃ HểA

Bộ mó húa cú chức năng loại bỏ độ dư thừa trong cỏc ký tự ở ngừ ra lượng tử húa và ỏnh xạ cỏc ký tự này thành cỏc từ mó tạo thành dũng bit ở ngừ ra bằng cỏc loại mó húa như: mã hóa dự đoán, mã hóa VLC, mã hóa số học nhị phân, mã hóa theo hình dạng…. Điểm bất lợi cơ bản của mã hóa dọc chiều dài là việc tạo ra bảng tra chứa toàn bộ số lượng bit trên mỗi mẫu nên không thật sự tối ưu, vì số lượng bit tối ưu nhất cho một ký tự tùy thuộc vào nội dung thông tin, mà thường là những số rất nhỏ.

CÁC CHUẨN NÉN THUỘC HỌ MPEG TRƯỚC MPEG-4 H.264/AVC

GIỚI THIỆU VỀ LỊCH SỬ PHÁT TRIỂN CỦA KỸ THUẬT MPEG

Thuật ngữ MPEG viết tắt của cụm từ Moving Picture Experts Group là 1 nhóm chuyên nghiên cứu phát triển các tiêu chuẩn về hình ảnh số và nén âm thanh theo chuẩn ISO/IEC từ năm 1988. Cho đến nay nhóm làm việc MPEG đã phát triển và phát hành nhiều tiêu chuẩn nén cho các loại ứng dụng khác nhau, nhưng nổi bật là các chuẩn MPEG-1, MPEG-2, MPEG-4, và H.264/AVC.

CÁC TIÊU CHUẨN NÉN TRƯỚC MPEG-4 H.264/AVC

MPEG-2 có thể tạo hình ảnh lớn gấp 4 lần MPEG-1 với độ nét cao hơn và rừ hơn (720 x 480 và 1280 x 720) cho phộp mó hoỏ ở nhiều mức độ phõn giải khác nhau đáp ứng cho nhiều ứng dụng như ứng dụng 2-5Mbps trong SDTV và 6- 8Mbps trong DVD, 20Mbps trong HDTV, đặc biệt được ứng dụng trong truyền hình số mặt đất với mỗi thiết bị khác nhau, sẽ có các bộ mã hoá và giải mã khác nhau nhằm giảm băng thông đường truyền. Hơn nữa một đặc điểm quan trọng của MPEG-4 là cho phép khôi phục lỗi tại phía thu nên rất thích hợp cho các ứng dụng truyền qua môi trường sẽ xảy ra lỗi như moblie, wireless…Chuẩn MPEG-4 là chuẩn quốc tế đầu tiên định nghĩa các VOP mà trong đó các phần của một cảnh có thể được thao tác riêng rẽ trong khi những phần khác vẫn.

CHUẨN NÉN MPEG-4 H.264/AVC

CÁC PROFLIES VÀ LEVELS TRONG H.264/AVC

H.264/AVC được ứng dụng rộng rãi trong nén ảnh kỹ thuật truyền hình số, các ứng dụng về đồ họa và Video tương tác 2 chiều như Games, Video Conferencing, World Wide Web hoặc các ứng dụng nhằm phân phát dữ liệu Video như truyền hình cáp, Internet TV…H.264/AVC trở thành tiêu chuẩn công nghệ trong quá trình sản xuất, phân phối và truy nhập vào hệ thống Video. Mã hoá H.264/AVC ngoài việc quan tâm đến hiệu quả mã hoá giống như các tiêu chuẩn mã hoá trước đây, còn bổ sung thêm một số công cụ cho các chức năng khác như: Mã hoá các đối tượng có hình dạng bất kỳ, nén hiệu quả các tín hiệu video liên tục và hình.

NHỮNG ĐẶC TÍNH NỔI BẬT CỦA CHUẨN NÉN H.264/AVC

+ Sử dụng bộ lọc tách khối: Trái ngược với bộ tiền xử lý hay bộ hậu xử lý, bộ lọc tách khối được áp dụng trong suốt quá trình mã hóa trên mọi frame đơn lẻ, nhưng trước đó nó sẽ được sử dụng để tham khảo cho những frame đến sau. + Kiểu truy nhập phổ biến: tăng cường khả năng chống lỗi trong mội trường khắc nghiệt, cung cấp các công cụ cần thiết để giải quyết việc mất mát gói dữ liệu trong khi truyền trong mạng gói và lỗi bit trong môi trường không dây.

KỸ THUẬT NÉN VIDEO H.264/AVC

Đầu tiên bộ giải mã Entropy nhận được các dòng bit nén từ NAL, một mặt sẽ giải mã Entropy để tách thông tin đầu mục và vector dự đoán chuyển động đưa vào bù chuyển động, mặt khác các hệ số DCT được giải lượng tử và biến đổi ngược IDCT để biến tín hiệu từ miền tần số thành tín hiệu ở miền không gian, các hệ số biến đổi ngược thu được sẽ cộng với tín hiệu dự đoán. Ảnh P chứa dữ liệu ảnh, vectơ chuyển động của ảnh hiện tại và ảnh trước đó hoặc cả hai, ảnh P có thể sử dụng các ảnh I hoặc P ngay sát phía trước nó để bù chuyển động và tiên đoán các ảnh tiếp theo nên ta có cấu trúc ảnh IPPPPIP… Mỗi khối ảnh trong ảnh P có thể được mã theo kiểu tiên đoán hoặc mã một cách độc lập, do nó sử dụng nén theo không gian và thời gian nên hiệu quả nén cao hơn so với ảnh I.

ICTDCT

Trong đó CXCT là phép biến đổi 2 chiều E là ma trận thừa số tỷ lệ co dãn. Phép toán ⊗ có nghĩa là mỗi thành phần của ma trận CXCTsẽ nhân với hệ số tỷ lệ ở cùng vị trí trong ma trận E (nhân vô hướng).

35 1 AXA T

MÃ HểA ENTROPY

Những hệ số khác 0 tần số cao, sau khi quét Zig-Zag thường kết thúc bằng nhiều số ±1 thì CAVLC sẽ báo hiệu số lượng chuỗi số kết thúc là 1(‘Trailing Ones’). Trong chuỗi sắp xếp lại biên độ của hệ số. Nắm bắt điểm này, bộ mã hóa CAVLC sử dụng việc chọn bảng dò tìm VLC thích nghi cho thông số mức tùy thuộc vào mức biên độ mã hóa gần nhất. Quá trình mã hóa một ma trận các hệ số đã biến đổi được thực hiện qua 5 bước sau:. 2) Mã hóa ký hiệu cho từng TrailingOne. Nguyên tắc của mã hóa số học là một dữ liệu được mã hóa bằng một từ đơn, nó nằm trong phạm vị [0 1] thay vì phải thiết kế một bảng mã, mã hóa số học nhị phân thích nghi CABAC cho phép ấn định số bit không nguyên/symbol, thích nghi các thống kê symbol động trong phạm vi [0 1] này.

BỘ LỌC TÁCH KHỐI TRONG VềNG

Nguyên tắc cơ bản là nếu đo được sự sai khác giữa các mẫu gần nhau ở mép khối như minh họa ở hình IV.33, thì cần phải hạn chế sai khác này để tránh hiện tượng kết khối mà độ bóng của nội dung vẫn không thay đổi. Mỗi MB và mỗi thành phần sẽ được tách riêng để lọc, các mép theo chiều thẳng đứng sẽ được lọc trước, bắt đầu tại mép nằm bên tay trái của MB cho đến các mép cuối cùng nằm bên tay phải của MB, sau đó lọc theo chiều ngang, bắt đầu với mép nằm phía trên MB cho tới mép nằm phía dưới cùng của MB.

Hình IV.30. Hiện tượng nhiễu khối, sự gián đọan giữa hai khối.

CẤU TRÚC VÀ CÚ PHÁP CHUẨN H.264/AVC

Tất cả dữ liệu được chứa trong các khối NAL, mỗi khối chứa một số nguyên byte xác định định dạng chung cho cả hệ thống định hướng gói (packet - oriented) và hệ thống định hướng dòng bit (bitstream), ngoại trừ mỗi khối NAL trong lớp truyền tải định hướng dòng bit có thể có một tiền tố mã hóa ở trước, và có thể là một trong 2 định dạng sau: định dạng theo từng đơn vị NAL hoặc theo từng byte. Một chuỗi video H.264 bao gồm một chuỗi các đơn vị NAL, mỗi đơn vị NAL sẽ chứa các thành phần RBSP như bảng 1, RBSP là một tập hợp dữ liệu tương ứng với dữ liệu video được mã hóa hay thông tin đầu mục, ví dụ một chuỗi các đơn vị RBSP như hình IV.37, trong đó các đơn vị được truyền đi dưới dạng các đơn vị NAL riêng biệt.

MỘT SỐ ỨNG DỤNG CHUẨN H.264/AVC

TRUYỀN HÌNH INTERNET IPTV

Ở nước ta một số Website cũng đã cung cấp thử nghiệm các chuơng trình truyền hình trực tuyến như VietNamNet, Công ty VTC, Đài truyền hình HTV đã ghi nhận số lượng truy cập rất lớn, cho thấy sức hấp dẫn của dịch vụ này đối với công chúng. Còn để có thể triển khai thành công dịch vụ IPTV thì mạng băng rộng đóng vai trò tiên quyết, bởi vì chỉ với mạng băng rộng mới có thể bảo đảm cung cấp đầy đủ băng thông theo yêu cầu cho các dịch vụ IPTV (như truyền hình, Video, Games, v.v..).

TRUYỀN HÌNH VỆ TINH DVB-S2

H.264 mở ra các cơ hội mới và cũng giảm giá thành áp dụng và giá thành điều hành khi so sánh với MPEG-2. Với mạng băng hẹp truyền thống, chỉ một số dịch vụ đơn giản của IPTV là có thể thực hiện được.

TRUYỀN HÌNH DI DỘNG

Đầu tiên, nội dung phải được tạo ra phù hợp với thiết bị di động có màn hình nhỏ, và điều này yêu cầu phải có kỹ thuật thu hình tinh tế nếu muốn hình ảnh được thể hiện tốt trên màn hình này (ví dụ có thể dùng 2 camera để lấy cùng một cảnh, một cho màn hình TV lớn, một cho màn hình di động nhỏ với các thông số kỹ thuật khác nhau). Ở 3G việc truyền dữ liệu phụ thuộc vào tốc độ đường truyền của mạng di động, chính vì vậy 2G hay 2,5G không đủ mạnh để đáp ứng đòi hỏi đường truyền của dịch vụ này, do tín hiệu video yêu cầu băng thông kênh truyền tương đối lớn (khoảng vài trăm kbps).

MÔ PHỎNG QUÁ TRÌNH NÉN-GIẢI NÉN CỦA H.264/AVC BẰNG MATLAB

Tuy nhiên, vì việc mã hóa một bức ảnh có quá nhiều công đoạn phức tạp, và việc mã hóa cũng tốn khá nhiều thời gian, yêu cầu bộ xử lý tốc độ cao nên không thể tách riêng từng quá trình để mô phỏng. Cao Văn Liết, “Bù chuyển động trong kỹ thuật mã hóa nội dung nguồn video tự nhiên sử dụng tiêu chuẩn nén MPEG-4”, Tạp chí khoa học kỹ thuật truyền hình 1/2005.