Các phương pháp điều khiển (mastering) tín hiệu 3D- 123docz.net

CHƯƠNG 2. NGHIÊN C Ứ U CÔNG NGH Ệ TRUY Ề N HÌNH 3 CHI Ề U (3DTV)

2.2. CÁC PHƯƠNG PHÁP MÃ HÓA 3DTV/3DV

2.2.1. Các phương pháp điều khiển (mastering) tín hiệu 3D

65 Phương pháp điều khiển là một cơ chếđược sử dụng để biểu thị một cảnh 3D trong dòng video sẽ được nén, lưu trữ, và/ hoặc truyền dẫn. Các chuẩn điều khiển được sử dụng trong quá trình này.

Như đã nói đến ở trên, một chuẩn điều khiển 3D, gọi là “3D Master” được định nghĩa bởi SMPTE. Tập tin điều khiển 3D độ phân giải cao là một tập tin được sử dụng để tạo ra các tập tin khác thích hợp cho nhiều kênh; ví dụ, các phiên bản dành cho rạp chiếu phim, các phiên bản dành cho các phương tiện lưu trữ (DVD, đĩa Blu-ray), và phát sóng (qua vệ tinh, phát sóng mặt đất, truyền hình cáp, IPTV, và/ hoặc phân phối qua internet). 3D Master bao gồm hai tập tin không nén (các tập tin dành cho mắt trái và mắt phải), mỗi tập tin có cùng kích thước như là một dòng video 2D. Định dạng và các thủ tục mã hóa đã được phát triển để sử dụng kết hợp với các kỹ thuật đã được thiết lập, để vận chuyển các chương trình 3D tới từng nhà qua các kênh phân phối.

Cùng với việc mã hóa video thông thường, điều khiển/ truyền dẫn 3D đòi hỏi việc mã hóa/ nén phụ thêm, đặc biệt là khi sử dụng các kênh vận chuyển truyền thống. Các sơ đồ mã hóa thêm cho CVS bao gồm: (i) nén không gian và (ii) ghép kênh theo thời gian.

2.2.1.1. Điều khiển khung cho video lập thể thông thường (CVS).

CVS là định dạng video 3D đơn giản nhất và được phát triển tốt nhất. Định dạng này chỉ xử lý với các điểm ảnh (mầu sắc) của các khung video được thu nhận bởi hai camera. Các tín hiệu video dự định để hiển thị trực tiếp sử dụng một hệ thống hiển thị 3D. Hình 27 mô tả một ví dụ về một cặp ảnh lập thể: cùng một cảnh được nhìn dưới các điểm nhìn hơi khác nhau. Hệ thống hiển thị 3D đảm bảo rằng một người xem chỉ nhìn thấy cảnh bên trái bằng mắt trái và cảnh bên phải với mắt phải để tạo ra cảm giác vềđộ sâu 3D. So sánh với các định dạng video 3D khác, các thuật toán dùng cho CVS ít phức tạp hơn.

Một cách dễ dàng để sử dụng các bộ mã hóa video đang tồn tại (và hạ tầng cơ sở) để truyền dẫn video lập thể là sử dụng các phương pháp xen kẽ được minh họa trên Hình 28. Thách thức đặt ra là không có chuẩn công nghiệp thực tế có sẵn (do đó bất cứ bộ giải mã nào cũng biết được loại xen kẽ được sử dụng bởi bộ mã hóa). Tuy nhiên, hiện có các hoạt động công nghiệp sử dụng phương pháp ghép ảnh theo kiểu trên/ dưới (cũng được gọi là nén không gian theo kiểu đỉnh/ đáy).

Hình 27 _ Một cặp ảnh lập thể (chú ý là sự khác nhau trong các cảnh của mắt trái và mắt phải ởđây được phóng đại lên đểngười đọc nhận thấy rõ hơn).

Hình 28 _ Các định dạng xen kẽ lập thể: (a) ghép kênh các khung theo thời gian; (b) ghép kênh không gian các ảnh theo dạng nằm cạnh nhau; và (c) ghép kênh không gian các ảnh theo dạng nằm trên/dưới.

2.2.1.2. Nén không gian.

Khi tìm kiếm phương pháp truyền nội dung 3D qua một hạ tầng phân phối video tiêu chuẩn, nén không gian là một giải pháp phổ biến. Nén không gian cho phép người vận hành vận chuyển một tín hiệu 3D lập thể (mà từ bây giờ chúng ta sẽ

67 gọi là tương thích khung) qua một tín hiệu video 2D HD sử dụng cùng một lượng băng tần kênh. Rõ ràng là, phương pháp này dẫn đến mất độ phân giải (cho cả hai mắt trái và mắt phải). Tiếp cận này sẽ đóng gói hai ảnh vào một khung video đơn;

thiết bị nhận (tức là set-top-box) sẽ hiển thị nội dung theo cách để cảm nhận hiệu ứng 3D (các ảnh này không thể xem được trên màn hình TV 2D tiêu chuẩn). Có một số cách kết hợp hai khung; hai phương pháp phổ biến nhất là kết hợp theo cách hai khung cạnh nhau hoặc kết hợp hai khung theo cách nằm trên/ dưới. Như được nhìn thấy trên hình vẽ, hai ảnh được định dạng lại ở giai đoạn nén/ điều khiển để vừa với khung chuẩn. Khung được kết hợp sau đó được nén bởi các phương pháp chuẩn hóa và vận chuyển tới một TV tương thích 3D, tại đó nó được định dạng lại/

hoàn trảcho người xem nội dung 3D.

Câu hỏi là làm cách nào để lấy được hai khung, khung trái và khung phải, và định dạng lại chúng cho phù hợp với một khung HD chuẩn theo cách trên/ dưới hoặc cạnh nhau. Lấy mẫu là giải pháp, nhưng chú ý là, sẽ có mất mát độ phân giải (chính xác là 50%). Một phương pháp lấy mẫu là lấy luân phiên các cột điểm ảnh từ mỗi ảnh và đóng gói các cột còn lại theo định dạng nằm cạnh nhau. Phương pháp khác là lấy luân phiên các hàng điểm ảnh từ mỗi ảnh và đóng gói các hàng còn lại theo định dạng trên/ dưới (Hình 29).

Các nghiên cứu chỉ ra rằng mắt người ít nhạy cảm với sự mất độ phân giải dọc theo hướng đường chéo của một ảnh hơn là theo hướng ngang và hướng đứng.

Điều này cho phép phát triển các bộ mã hóa tối ưu hóa chất lượng bằng cách lấy mẫu mỗi ảnh theo hướng đường chéo. Các sơ đồ mã hóa khác cũng được phát triển để cố gắng để giữ lại càng nhiều cảm nhận/ độ phân giải thực càng tốt. Một phương pháp đã được nghiên cứu sử dụng cho 3D là bộ lọc theo kiểu răng cá sấu. Răng cá sấu là một mẫu hình học bao gồm năm điểm trên cùng một mặt phẳng, bốn trong số chúng tạo thành một hình vuông (hay hình chữ nhật) và điểm thứ 5 ở chính giữa, giống như một bàn cờđam. Các băng bộ lọc răng cá sấu là các băng bộ lọc hai kênh 2D không thểphân tách được và là một công cụ hiệu quả cho các ứng dụng mã hóa ảnh. Trong các ứng dụng này, người ta mong muốn các băng bộ lọc phải được tái tạo hoàn hảo, pha tuyến tính, độ lợi mã hóa cao, độ lựa chọn tần số tốt, và các đặc tính thời gian xác định.

Hình 29 _ Lựa chọn các điểm ảnh theo (a) cạnh nhau, (b) trên/ dưới, và (c) phương pháp bộ lọc răng cá sấu (chú ý là các chấm đen hoặc trắng tạo thành lưới).

Gần như tất cả các thiết bị phần cứng để thu nhận và đưa ra các ảnh số đều sử dụng các lưới điểm ảnh vuông. Với lý do này và để tính toán dễ dàng, tất cả các thuật toán nén hiện thời (ngoại trừ việc nén ảnh ghép cho các camera một cảm biến) hoạt động trên các lưới điểm ảnh vuông. Do vậy, sơ đồ mẫu tối ưu trong không gian ảnh hai chiều là các lưới 6 cạnh; không may là, không dễ dàng ứng dụng một lưới sáu cạnh trong phần cứng và phần mềm. Do vậy, một thỏa hiệp được đưa ra là dùng lưới răng cá sấu; đây là một dạng lưới vuông như được minh họa trên Hình 29. Lưới răng cá sấu có dạng hình kim cương gần với mẫu hình lục giác tối ưu hơn là lưới hình vuông, và nó có thể dễdàng được tạo ra bằng cách lấy mẫu xuống các ảnh số thông thường mà không cần phải thay đổi phần cứng. Do lý do này, lưới răng cá sấu được chấp nhận rộng rãi bởi các camera số một cảm biến để lấy mẫu kênh mầu xanh; và cũng vậy, phần ảnh răng cá sấu gần đây được nghiên cứu như là một

69 phương tiện để mã hóa đa miêu tả. Khi sử dụng lọc răng cá sấu, các ảnh được lấy mẫu chất lượng cao được mã hóa và đóng gói trong một khung video tiêu chuẩn (với sắp xếp cạnh nhau hay theo chiều trên/ dưới). Các ảnh đã được định dạng lại và mã hóa được nén và phân phối tới từng nhà sử dụng các phương tiện truyền thống (cáp, vệ tinh, quảng bá mặt đất và các phương tiện khác).

2.2.1.3. Ghép kênh thời gian.

Ghép kênh theo thời gian nâng tốc độ khung lên gấp đôi tới 120Hz để cho phép trình diễn liên tục các ảnh dành cho mắt trái và mắt phải theo thời gian khung thông thường là 60Hz. Phương pháp này giữđược độ phân giải đầy đủ cho mỗi mắt, nhưng yêu cầu gấp đôi băng thông và dung lượng lưu trữ. Trong một sốtrường hợp nén không gian được kết hợp với ghép kênh theo thời gian; tuy nhiên, nó thường được dùng trong các định dạng sử dụng tại nhà chứ không dùng để phát sóng/

truyền dẫn. Ví dụ, TV DLP 3D của Mitsubishi sử dụng lấy mẫu các ảnh răng cá sấu (nén không gian) với tốc độđầu vào là 120Hz.

2.2.1.4. Nén video lập thể thông thường (CVS).

Thông thường, các thuật toán để nén thực hiện mã hóa và giải mã các tín hiệu video riêng rẽ, như được miêu tả trên Hình 30a. Quá trình này được gọi là phát sóng tức thời (simulcast). Cản trở của phương pháp này là lượng dữ liệu tăng lên so với video 2D; tuy nhiên, giảm độ phân giải ảnh có thể được sử dụng nếu cần thiết, để giảm yêu cầu băng tần. Bảng 5 tóm tắt các phương pháp hiện có.

Trong thực tế, chuẩn MPEG-2 bao gồm một Profile mã hóa đa cảnh MPEG-2 (MVP) cho phép tăng hiệu suất lên bằng cách kết hợp dựđoán thời gian/ trong cảnh như được minh họa trong Hình 28b. H.264/ AVC đã bổ sung bản tin Thông tin phụ tăng cường (SEI) cũng có thể sử dụng để dự đoán như được minh họa trong Hình 30b. Mặc dù, không được thiết kế cho mã hóa video lập thể, các công cụ mã hóa H.264 có thểđược sử dụng để khai thác sự tương quan giữa các cặp ảnh của video lập thể, và cung cấp khảnăng nén rất hiệu quả và tin cậy cho mã hóa phân cấp video lập thể/ đơn cảnh.

Với nhiều hơn hai cảnh, phương pháp này có thể được mở rộng cho Mã hóa video đa cảnh (MVC) như được minh họa trong hình 31; MVC sử dụng dự đoán liên cảnh bằng cách tham chiếu tới các ảnh thu được từ các cảnh lân cận. MVC đã được chuẩn hóa trong Nhóm video liên kết (JVT) của Nhóm chuyên gia mã hóa video ITU-T (VCEG) và ISO/IEC MPEG. MVC cho phép mã hóa hiệu quả các

70 chuỗi cảnh được thu nhận liên tiếp từ nhiều camera trong một dòng video đơn.

MVC hiện tại là phương pháp hiệu quả nhất để mã hóa video lập thể và MVC; với hai cảnh, hiệu suất đạt được bởi bản tin SEI lập thể của H.264/ AVC và MVC là tương tự nhau. MVC cũng được mong đợi trở thành một chuẩn mã hóa video MPEG mới cho các ứng dụng video thực tếtrong tương lai như là video 3D (3DV) và video điểm nhìn tự do (FVV). Nhóm MVC trong JVT đã lựa chọn phương pháp MVC trên cơ sở H.264/ AVC như là mô hình MVC chuẩn, do phương pháp này có hiệu suất mã hóa tốt hơn mã hóa phát sóng liên tục H.264/AVC và các phương pháp khác đã được xem xét trong yêu cầu đáp ứng của MPEG.

Hình 30 _ Mã hóa video lập thể với kết hợp dựđoán thời gian/ liên ảnh. (a) Áp dụng chuẩn mã hóa MPEG-2/ MPEG-4 truyền thống cho 3DTV; (b) Profile MPEG-2 đa điểm cảnh và bản tin H.264/AVC

SEI.

Bảng 5 _ Các phương pháp nén.

Dịch vụ Chuẩn

Mã hóa đồng thời (simulcast) Phân tách mã hóa (và truyền dẫn) hai cảnh video trong định dạng video lập thể truyền thống (CVS). Có thể sử dụng bất cứsơ đồ mã hóa nào, như là MPEG-4. Tốc độ bit thông thường gấp đôi tốc độ của 2DTV. Video cộng độ sâu (V+D) có hiệu suất băng thông lớn hơn: các nghiên cứu chỉ ra rằng bản đồ độ sâu có thể được nén tới 10-20% so với thông tin mầu sắc.

71 Mã hóa video lập thể • ITU-T Rec. H.262/ISO/IEC 13818-2

MPEG-2 Video (Profile đa cảnh).

• Truyền tải dữ liệu này được định nghĩa trong khuyến nghị Các hệ thống MPEG

“ISO/IEC 13818-1:2003 Truyền dẫn dữ liệu phụ”.

Mã hóa video đa cảnh • H.264/AVC có thể được sử dụng cho mỗi cảnh độc lập. ISO/MPEG và ITU/VCEG gần đây đã kết hợp đưa ra mở rộng MVC của H.264/AVC (phụ lục 4)

Tiêu chuẩn Mô tả

Thông tin phụ tăng cường của H.264/AVC lập thể (SEI)

H.264/AVC đã được tăng cường bản tin SEI có thể được sử dụng để dự đoán và giảm yêu cầu băng tần. Nó có thể sử dụng một vài tương quan giữa các cặp cảnh của một video lập thể.

Mã hóa video phân cấp H.264/AVC

Phụ lục G hỗ trợ khái niệm sơ đồ mã hóa video phân cấp để cho phép mã hóa một dòng video chứa một (hay một vài) dòng bit với độ phân giải thời gian và không gian thấp hơn (tín hiệu video chất lượng thấp) – mỗi dòng được phân tách hay kết hợp - so sánh với dòng bit tổng (tức là dòng bit nhận được từ các gói tách ra từ dòng bit lớn hơn), mà bản thân nó (chúng) có thể được giải mã với mức độ phức tạp và chất lượng tái tạo so sánh được với việc sử dụng các bộ mã hóa đang tồn tại (tức là H.264/MPEG-4 AVC) với cùng số lượng dữ liệu như trong dòng bit thành phần.

Sử dụng bản tin SEI được định nghĩa trong Mở rộng khoảng tin cậy H.264 (FRExt), một bộ giải mã có thể dễ dàng đồng bộ các cảnh, và một máy chủ tạo dòng hay một bộ giải mã

72 có thể dễ dàng phát hiện sự phân cấp của dòng bit video lập thểđược mã hóa.

ISO/IEC FDIS 23002-3:2007 (E) Video cộng thêm độ sâu (V+D) đã được chuẩn hóa như là một mở rộng cho tập tin 3D theo chuẩn ISO/IEC FDIS 23002-3:2007 (E)

“ISO/IEC 23002-3 Trình diễn video phụ và thông tin hỗ trợ” (còn được gọi là MPEG-C phần 3). Truyền tải dữ liệu này được xác định trong khuyến nghị các hệ thống MPEG riêng

“ISO/IEC 13818-1:2003 Vận chuyển dữ liệu phụ”

MVC (ISO/IEC 14496-10:2008 Phụ lục 1 và khuyến nghị ITU-T H.264)

Chuẩn này hỗ trợ MV+D (và V+D) mã hóa biểu thị trong dòng truyền tải MPEG-2, đã được phát triển bởi Nhóm video liên kết (JVT) của ISO/IEC MPEG và ITU-T VCEG (ISO/IEC JTC1/SC29/WG11 và ITU-T SG16 Q.6). MVC cho phép xây dựng các dòng bit thể hiện đa cảnh. MVC hỗ trợ mã hóa hiệu quả các chuỗi video được thu nhận đồng thời từ nhiều camera sử dụng một dòng video đơn.

MVC có thểđược sử dụng cho mã hóa lập thể (hai cảnh) và đa cảnh 3DTV, và cho TV điểm nhìn tự do.

Các nghiên cứu mới của MPEG, ITU-R, ITU-R BT.1198, ITU-R BT.1438

Các khởi tạo này đang được nghiên cứu, và sẽ được kết luận trong năm 2012.

Các chuẩn đang tồn tại (nhưng giới hạn):

• Rec. ITU-R BT.1198 (1995) Truyền hình lập thể dựa trên các tín hiệu hai kênh cho mắt phải và mắt trái.

• Rec.ITU-R BT.1438 (2000) Đánh giá chủ quan các ảnh truyền hình lập thể.

73 Một vài phương pháp mới cũng xuất hiện và được đề xuất để cải thiện hiệu suất, đặc biệt là cho các môi trường bị giới hạn băng tần. Một tiếp cận mới sử dụng lý thuyết nén dành cho hai mắt bằng cách sử dụng chất lượng ảnh khác hẳn nhau cho các cảnh của mắt trái và mắt phải. Các thử nghiệm đối với người xem đã chỉ ra rằng, nếu một trong các ảnh của một cặp ảnh lập thể bị giảm chất lượng, nhận thức chất lượng toàn thể của video lập thể sẽ được chi phối bởi ảnh có chất lượng cao hơn. Khái niệm này được minh họa trên Hình 32. Áp dụng khái niệm này, người ta có thể mã hóa ảnh của mắt phải với độ phân giải ít hơn ảnh của mắt trái; ví dụ, lấy mẫu xuống tới một nửa hoặc một phần tư độ phân giải (Hình 33). Một vài người gọi khái niệm này là chất lượng không đối xứng.

Hình 31 _ Mã hóa video đa cảnh với sự kết hợp dựđoán thời gian/ trong cảnh.

Hình 32 _ Sử dụng lý thuyết nén hai mắt đểđạt được hiệu quả mã hóa tốt hơn.

74 Các nghiên cứu đã chỉ ra rằng mã hóa không đối xứng với chuyển mạch chéo ở các cảnh cắt (nghĩa là luân phiên để cho các mắt nhận các ảnh mờ) là một phương pháp có thể thực hiện được để tiết kiệm băng tần. Vềcơ bản, phương pháp này cung cấp chất lượng video lập thể chủ quan chấp nhận được, và giảm được tốc độ bit: nếu sử dụng phương pháp này, dung lượng video 3D có thể được giảm tới 25%-30%

bằng việc mã hóa cảnh cho mắt phải với độ phân giải giảm xuống một phần tư độ phân giải gốc.

Hình 33 _ Mã hóa video lập thểđộ phân giải hỗn hợp.

Các phương pháp điều khiển (mastering) tín hiệu 3D

CƠ HỘI VÀ THÍCH THỨC CỦA 3DTV

H ệ thống thị giác của con người