Chương 3 CÁC GIẢI PHÁP KỸ THUẬT PHÁT TRIỂN HỆ THỐNG TRUYỀN HÌNH TRÊN MẠNG xDSL
3.1 Giải pháp lựa chọn chuẩn nén hình ảnh
Cùng với sự phát triển mạnh mẽ của máy tính và sự ra đời của Internet thì việc tìm ra một phương pháp nén ảnh nhằm giảm bớt không gian lưu trữ thông tin và truyền thông trên mạng là yêu cầu cấp thiết. Các kỹ thuật nén video đều cố gắng giảm lượng thông tin cần thiết cho một chuỗi các bức ảnh mà không làm giảm chất lượng ảnh.
Mục đích của nén video là giảm bớt số bít khi lưu trữ và truyền bằng cách loại bỏ lượng thông tin dư thừa trong từng frame và dùng kỹ thuật mã hoá để tối thiểu hoá lượng thông tin quan trọng cần lưu giữ. Với một thiết bị lưu hình kỹ thuật số thông thường, ảnh sau khi được số hoá sẽ được nén lại. Quá trình nén sẽ xử lý các dữ liệu trong ảnh để đưa hình ảnh vào một không gian hẹp hơn như trong thiết bị nhờ kỹ thuật số hoặc qua đường dây điện thoại ...
Với thị trường lưu hình kỹ thuật số hiện nay, các chuẩn nén phổ biến là Motion JPEG (MJPEG), Wavelet, H.261/ H.263/ H.263+/ H.263++ và MPEG-1/ MPEG-2/ MPEG-4. Nhìn chung, có 02 nhóm tiêu chuẩn chủ yếu là nhóm 1 gồm định dạng nén MJPEG và Wavelet và nhóm 2 gồm các định dạng chuẩn còn lại.
3.1.1 Chuẩn nén MJPEG và Wavelet
Tính chất chung của các ảnh số là tương quan giữa các pixel ở cạnh nhau lớn, điều này dẫn tới dư thừa thông tin để biểu diễn ảnh. Việc dư thừa thông tin dẫn tới việc mã hoá không tối ưu. Do vậy cần tìm phương án biểu diễn ảnh với tương quan nhỏ nhất để giảm thiểu độ dư thừa thông tin của ảnh. Có 2 kiểu dư thừa thông tin sau:
• Dư thừa trong miền không gian: là tương quan giữa không gian pixel của ảnh (các pixel lân cận của ảnh có giá trị gần giống nhau, trừ những pixel ở giáp đường biên ảnh).
• Dư thừa trong miền tần số: là tương quan giữa những dải màu hoặc các dải phổ khác nhau.
Trọng tâm của các nghiên cứu về nén ảnh là giảm bớt một số bit để biểu diễn ảnh bằng việc loại bỏ dư thừa trong miền không gian và miền tần số càng nhiều càng tốt. Các chuẩn nén MJPEG và Wavelet đều tuân theo nguyên tắc tìm ra các phần tử dư thừa miền không gian (mỗi Frame nén tự động). Trong khi đó, đặc trưng của các chuẩn nén thuộc nhóm 2 là loại bỏ dư thừa ở cả miền không gian và miền tần số của ảnh.
MPEG là định dạng nén ảnh lâu đời nhất và đã được dùng phổ biến. Khi dùng chuẩn nén MJPEG, ảnh được phân chia thành các khối vuông ảnh, mỗi khối vuông có kích thước 8 x 8 pixel và biểu diễn mức xám của 64 điểm ảnh. Mã hoá biến đổi cosin rời rạc DCT (Discrete Cosin Tranform) trong chuẩn nén này khai thác sự tương đồng giữa các pixel trong mỗi khối để lấy ra các biểu diễn ảnh với tương quan nhỏ. Chuỗi biểu diễn sẽ bị rút ngắn tuỳ theo mức nén của hệ thống hiện hành với qui trình rút ngắn chuỗi biểu diễn. Vì vậy, hình ảnh sau khi giải nén thường có nhiều sai lệch so với ảnh gốc.
Ở chuẩn nén Wavelet, thay vì mã hoá theo từng khối 8 x 8, việc thực hiện trên toàn bộ bề mặt ảnh, một loạt các bộ phận lọc ở khâu chuyển đổi sẽ phân tích các dữ kiện về từng điểm ảnh và cho ra một tập các hệ số. Do chuẩn Wavelet có tác dụng với toàn bộ bề mặt ảnh nên các sai lệch ở ảnh giải nén sẽ khác với MJPEG. Hiệu ứng ghép mảnh không xảy đến với ảnh được quan sát nhưng độ phân giải hình ảnh giảm cũng như một vài vết mờ sẽ xuất hiện. Các định dạng Wavelet và MJPEG đều gây ra hiện tượng mất thông tin ở ảnh giải nén. Sự dư thừa khả năng lưu ảnh ở mắt người cảm thụ khi dùng chuẩn nén Wavelet ít hơn MJPEG 30%.
3.1.2 Chuẩn nén MPEG-x và H.26x
MPEG không phải là một công cụ nén đơn lẻ mà ưu điểm của ảnh nén dùng MPEG là ở chỗ MPEG có một tập hợp các công cụ mã hoá chuẩn, chúng có thể kết
Nguyên lý chung của nén tín hiệu video là loại bỏ sự dư thừa về không gian (spatial redundancy) và sự dư thừa về thời gian (temporal redundancy). Trong MPEG, việc loại bỏ sự dư thừa về thời gian (nén liên ảnh) được thực hiện trước hết nhờ sử dụng tính chất giữa các ảnh liên tiếp. Dùng tính chất này để tạo ra các bức ảnh mới nhờ vào thông tin từ những bức ảnh gửi trước đó. Do vậy ở phía bộ mã hoá chỉ cần giữ lại những ảnh có sự thay đổi so với ảnh trước, sau đó dùng phương pháp nén về không gian trong những bức ảnh sai khác này. Nói một cách cụ thể, nguyên lý chung của các chuẩn nén là phỏng đoán trước chuyển động của các frame ở bộ mã hoá. Mỗi frame ở tại một thời điểm nhất định sẽ có nhiều khả năng giống với các frame đứng ngay trước và sau đó. Các bộ mã hoá sẽ tiến hành quét lần lượt những phần nhỏ trong mỗi frame (marco blocks) và phát hiện ra marco block nào không thay đổi từ frame này tới frame khác. Phía bên thu, tức bộ giải mã đã lưu trữ sẵn những thông tin không thay đổi từ frame này tới frame khác, chúng được dùng để điền thêm vào vị trí trống trong ảnh được khôi phục.
Tuy nhiên, do sự tương đồng giữa các frame rất lớn nên sự phát hiện ra các sai lệch là rất khó. Do vậy ảnh khôi phục khó đạt được như ảnh gốc. Điều này đồng nghĩa với việc chất lượng ảnh cũng tương tự như khi dùng chuẩn Wavelet và MJPEG, nhưng dung lượng kênh truyền và không gian lưu trữ của các chuẩn nén H.26x và MPEG-x là nhỏ hơn (ví dụ như không gian lưu trữ của chuẩn H.263 nhỏ hơn Motion JPEG từ 3 tới 5 lần). Sự khác biệt giữa các chuẩn nén này (như ở H.26x và MPEG-x) chủ yếu nằm ở khâu tiên đoán các frame mới và cách thức tính toán sai lệch giữa các frame hiện tại và frame phỏng đoán. Chuẩn nén H.26x (gồm các thế hệ H.261, H.262 và H.263, ...), thường có tốc độ mã hoá tín hiệu thấp hơn MPEG-x (khoảng 1,5 Mbps với độ phân giải hình 352 x 288) do dùng chủ yếu trong viễn thông. Trong khi đó, chuẩn MPEG-2 dùng cho thị trường giải trí có độ phân giải hình cao hơn, và mang lại chất lượng hình ảnh tốt (cao hơn 1,5 Mbps với độ phân giải 352x288 hoặc 6 Mbps cho phân giải hoàn chỉnh).
3.1.3 Chuẩn nén MPEG-2
MPEG-2, ra đời năm 1994, là tên của một nhóm các tiêu chuẩn mã hóa cho tín hiệu âm thanh và hình ảnh số, được chấp thuận bởi MPEG (Moving Picture Expert Group) và được công bố trong tiêu chuẩn quốc tế ISO/IEC 13818. MPEG-2 thường được sử dụng để mã hóa âm thanh và hình ảnh cho các tín hiệu broadcast bao gồm truyền hình vệ tinh quảng bá trực tiếp và truyền hình cáp. MPEG-2 với một số sửa đổi cũng là khuôn dạng được sử dụng bởi các phim DVD thương mại tiêu chuẩn. MPEG-2 bao gồm các phần chính sau:
MPEG-2 Video part (Part 2): tương tự MPEG-1, nhưng chỉ hỗ trợ video xen kẽ (interlaced video, là khuôn dạng được sử dụng cho các hệ thống truyền hình quảng bá). MPEG-2 video không được tối ưu hóa cho các tốc độ bit thấp (nhỏ hơn 1 Mbps), nhưng lại thực hiện tốt hơn MPEG-1 ở tốc độ 3 Mbps và cao hơn. Tất cả các bộ giải mã tín hiệu video tuân theo chuẩn MPEG-2 hoàn toàn có khả năng phát lại các luồng video MPEG-1. Do có nhiều cải tiến, MPEG-2 video và các hệ thống MPEG-2 được sử dụng trong hầu hết các hệ thống truyền dẫn HDTV.
MPEG-2 Audio part (Part 3): cải tiến chức năng amm thanh của MPEG-1 bằng cách cho phép mã hóa các chương trình âm thanh với nhiều hơn hai kênh. Part 3 cũng cũng tương thích với chuẩn trước, cho phép các bộ giải mã âm thanh MPEG-1 giải mã các thành phần âm thanh nổi (stereo).
MPEG-2 được dùng để mã hóa hình ảnh động và âm thanh và để tạo ra ba kiểu khung số liệu (intra frame, forward predictive frame và bidirectional pridicted frame) có thể được sắp xếp theo một trật tự cụ thể gọi là cấu trúc nhóm các hình ảnh (group of pictures, GOP).
Một luồng video MPEG-2 được tạo nên bởi một chuỗi các khung số liệu mã hóa hình ảnh. Có ba cách để mã hóa một hình ảnh là: intra-coded (I picture), forward predictive (P picture) và bidirectional predictive (B picture). Các hình ảnh của luồng video được phân ra thành một kênh chứa thông tin về độ sáng (luminance, còn gọi là kênh Y) và hai kênh thành phần mầu (chrominance, còn gọi là các tín hiệu mầu phân biệt Cb và Cr). MPEG-2 sử dụng các chuẩn mã hóa âm thanh mới, đó là:
• Mã hóa tốc độ bit thấp với tần số lấy mấu giảm đi một nửa (MPEG-1 Layer 1/2/3 LSF).
• Mã hóa đa kênh, lên đến 5.1 kênh
• MPEG-2 AAC.
3.1.4 Chuẩn nén MPEG-4
So với các chuẩn nén đã nêu ở trên, chuẩn MPEG-4 là định dạng nén hình ảnh tiên tiến nhất, đáp ứng những đòi hỏi về kỹ thuật cũng như phù hợp với nhiều loại thị trường. Với nỗ lực không ngừng để đưa ra thị trường sản phẩm ưu việt nhất của ngành công nghiệp . Máy ghi hình kỹ thuật số chuẩn MPEG-4 với bản chất là một thiết bị thu hình kỹ thuật số có hiệu suất cao, được chọn để đáp ứng nhu cầu cấp thiết của thị trường về một định dạng nén ảnh hoàn hảo với tính năng nổi trội là, có thể thu được hệ thống lớn các nguồn hình ảnh.
MPEG-4 thực sự là một dạng nén ảnh mang tính đột phá của công nghệ nén hình đương đại, thể hiện rõ nét ở những tiêu chuẩn sau:
• Áp dụng những tiêu chuẩn có tính mở cao với sự hỗ trợ đắc lực từ ngành công nghiệp an ninh và công nghiệp máy tính.
• Hiệu suất lớn
• Khả năng truyền theo dòng và mạng lưới
• Tối thiểu hoá dung lượng kênh truyền và không gian lưu trữ trong khi vẫn giữ được tính trung thực của ảnh.
Chuẩn MPEG-4 cung cấp các phân bộ trong kết cấu logic và năng lực giải mã từng dòng bit riêng rẽ. Một profile (chất lượng của video) là một phân bộ xác định trên toàn bit stream (điều chỉnh bit stream và bộ phân giải màu), một level (độ phân giải của video) sẽ xác định một số tiêu chí bắt buộc cho tham số của bức ảnh (kích thước ảnh, số lượng bit, ...).
Những chuẩn nén MPEG-4 có profile dạng đơn giản chiếm lĩnh đa phần thị trường. MPEG-4 đã được phát triển và hoàn thiện trở thành định dạng nén hình tiên tiến, hoàn hảo, với tiêu chí tập trung phát triển những nhân tố giúp tăng cường chất lượng hình ảnh, cũng như phục vụ đắc lực cho các thiết bị giám sát có các frame dạng chữ nhật. Mỗi bit stream hiển thị trong định dạng nén MPEG-4 cung cấp một
mô tả mang tính phân tầng về hình ảnh hiển thị. Từng lớp dữ liệu được đưa vào luồng bit bởi những mật mã đặc biệt gọi là mật mã khởi nguồn.
Mỗi vật thể ảnh có thể được mã hoá dưới dạng đa lớp (scalable) hoặc đơn lớp (non scalable).
VOL (video object layer) sẽ hỗ trợ quá trình mã hoá đa lớp. Một vật thể ảnh được mã hoá dưới dạng đa lớp không gian hoặc đa lớp thời gian, đi từ phân giải thô tới phân giải tinh. Bộ phận giải mã có thể đạt được độ phân giải hình mong muốn, tuỳ theo những thông số như dải thông tần hiện có, hiệu suất máy và theo mong muốn của người dùng.
Có 02 loại VOL, loại thứ nhất mang đầy đủ chức năng của định dạng nén MPEG- 4, loại còn lại với những chức năng được giảm bớt (VOL với header dạng ngăn). Loại VOL này giúp luồng bit tương thích với đường biên ở H.263.
VOP (Video object plane)- ảnh được mã hoá độc lập hoặc mã hoá trên cơ sở tham khảo các ảnh khác qua khâu bù chuyển động ở bộ giải mã. Mỗi frame ảnh thông thường được biểu diễn bởi một VOP dạng chữ nhật.
Với chuẩn nén MPEG-4, có 3 kiểu khác nhau để mã hoá cho khối ảnh:
• VOP được mã hoá độc lập. Trong trường hợp này VOP được mã hoá gọi là Intra VOP (I-VOP).
• VOP được tiên đoán qua kỹ thuật bù chuyển động nhờ một VOP khác đã được tiên đoán trước đó. Đó là loại P-VOP (Predicted VOP).
• VOP được tiên đoán dựa trên các VOP trước và sau nó thuộc dạng B-VOP (Bidirectiional Interpolated VOP).
B-VOP được thêm vào dựa trên I-VOP và P-VOP. Ngoài việc có thể nâng cao chất lượng hình ảnh khi dùng, một ưu điểm khác của B-VOP là dùng kỹ thuật đa lớp thời gian. Với kỹ thuật này, Frame dữ liệu hiển thị được tăng cường. Những lớp tăng cường đưa thông tin vào giữa các lớp frame.
Định dạng nén ảnh MPEG-4 hỗ trợ quá trình lượng tử hoá, do vậy cũng giúp đáp ứng những đòi hỏi khác nhau về tốc độ bít. Lượng tử hoá đã có ở các chuẩn nén như H.263 và MPEG-1, MPEG-2. Bộ phận mã hoá ở định dạng nén của MPEG-4 cũng tương thích với những bộ mã hóa trong các chuẩn nén trước đây.
3.1.5 Chuẩn nén H.264/MPEG-4 Part 10/AVC
H.264, hay MPEG-4 Part 10, còn gọi là AVC (Advanced Video Coding), là chuẩn mã hóa tín hiệu video số được dùng để nén các tín hiệu số liệu ở mức cao. H.264 được viết bởi ITU-T Video Coding Exterts Group (VCEG) cùng với ISO/IEC MPEG như một nỗ lực hợp tác có chọn lọc mang tên Joint Video Team (JVT). Chuẩn ITU-T H.264 và chuẩn ISO/IEC MPEG-4 Part 10 (trước đây là ISO/IEC 14496-10) là hoàn toàn giống nhau về mặt kỹ thuật.
H.264 được đặt tên theo dòng tiêu chuẩn H.26x của ITU-T, trong khi AVC theo phía ISO/IEC MPEG. Mục đích của H.264 là tạo ra một chuẩn có khả năng cung cấp chất lượng video cao ở tốc độ bit thấp hơn hẳn (bằng một nửa hoặc thấp hơn nữa) so với yêu cầu của các chuẩn trước đó (MPEG-2, H.263 hay MPEG-2 Part 2) mà không làm tăng nhiều sự phức tạp trong thiết triển khai. Một mục tiêu khác đó là cho phép tiêu chuẩn được áp dụng cho nhiều kiểu ứng dụng (cho cả tốc độ bit thấp và cao, và cả độ phân giải video thấp và cao) và có thể làm việc tốt trên nhiều kiểu mạng và hệ thống (quảng bá, lưu trữ DVD, mạng gói RTP/IP, các hệ thống điện thoại đa phương tiện của ITU-T).
JVT gần đây đã hoàn thiện việc phát triển một số mở rộng so với chuẩn ban đầu, được biết đến với tên gọi Mở rộng phạm vi độ trung thực (Fidelity Range Extensions, FRExt). Các mở rộng này hỗ trợ mã hóa video trung thực cao bằng cách tăng độ chính xác lấy mẫu (bao gồm mã hóa 10 bit và 12 bit) và thông tin mầu sắc độ phân giải cao (bao gồm các cấu trúc lấy mẫu YUV 4:2:2 và YUV 4:4:4). Nhiều đặc điểm khác cũng được thêm vào trong các mở rộng FRExt như chuyển đổi thích ứng giữa các khối 4x4 và 8x8, các ma trận trọng số lượng tử hóa dựa trên cảm biến của các bộ mã hóa cụ thể, hỗ trợ thêm nhiều không gian màu sắc, ...
Một số tính năng mới của H.264/MPEG-4 Part 10 cho phép chuẩn này nén các tín hiệu video hiệu quả hơn so với các chuẩn cũ và và linh hoạt hơn cho các ứng dụng trong các môi trường mạng.
• Bù chuyển động đa hình sử dụng các hình ảnh đã được mã hóa trước đó làm tham chiếu theo cách linh hoạt hơn các chuẩn cũ, cho phép lên tới 32 hình ảnh tham chiếu được sử dụng (các chuẩn cũ chỉ sử dụng 1, hoặc 2 với trường hợp B picture). Tính năng đặc biệt này cho phép cải thiện tốc độ bit và chất lượng trong hầu hết các trường hợp.
• Bù chuyển động block có kích thước biến đổi với kích thước block rộng đến 16x16 và nhỏ đến 4x4, cho phép phân mảnh chính xác các vùng chuyển động.
• Cấu trúc cặp macroblock, cho phép các macroblock kích thước 16x16 (so với 16x8 ở MPEG-2).
• Độ chính xác bù chuyển động lên đến 1/4 pixel, cho phép thể hiện chính xác các dịch chuyển của vùng chuyển động.
• Đánh số khung, cho phép tạo ra các chuỗi con (điều chỉnh về thời gian bằng cách gộp một ảnh giữa