Các phương pháp tiên tiến khác

CHƯƠNG 2. NGHIÊN C Ứ U CÔNG NGH Ệ TRUY Ề N HÌNH 3 CHI Ề U (3DTV)

2.2. CÁC PHƯƠNG PHÁP MÃ HÓA 3DTV/3DV

2.2.2. Các phương pháp tiên tiến khác

Có nhiều phương pháp mã hóa 3D khác đã được thảo luận rộng rãi, đa số dựa trên kết hợp 2D với dữ liệu mô tả(2D+M). Nguyên lý cơ bản là truyền dẫn các ảnh 2D và gói dữ liệu lập thể thu nhận được bằng các cảm biến khác, dữ liệu mô tả; dữ liệu mô tảđược truyền dẫn như là một phần của dòng video (Hình 34). Phương pháp này phù hợp với ghép kênh MPEG; do vậy, ở một mức độ nào đó, nó tương thích với các hệ thống nhúng. Truyền dẫn dữ liệu mô tả làm tăng băng tần yêu cầu:

băng tần tăng thêm khoảng từ 60%-80% phụ thuộc vào chất lượng và các kỹ thuật

75 được sử dụng. Với phương pháp này, một STB được sử dụng trong một môi trường 2D truyền thống sẽ có thể giải mã được nội dung 2D, bỏ qua dữ liệu mô tả, và hiển thị ảnh 2D một cách thích hợp; trong một môi trường 3D, STB có thể hoàn trả tín hiệu 3D.

Có một vài biến thể của phương pháp mã hóa này. Có một phương pháp dựa trên việc thu nhận một tập tin delta thể hiện sự sai lệch giữa các ảnh dành cho mắt trái và mắt phải. Một tập tin delta thường nhỏhơn tập tin dữ liệu gốc do tính chất dư thừa dữ liệu. Tập tin delta được truyền dẫn như là dữ liệu mô tả.

Hình 34 _ 2D liên kết với dữ liệu mô tả

Các công ty như là Panasonic và TDVision sử dụng phương pháp này.

Phương pháp này cũng có thể sử dụng để lưu trữ thông tin. Ví dụ, Panasonic đã có những tiến bộ (và hiệp hội đĩa Blu-ray đang nghiên cứu) trong việc sử dụng mô tả dữ liệu để đạt được chất lượng nội dung đạt chuẩn đĩa Blu-ray 3D độ phân giải đầy đủ, với độ phân giải 1920x1080p 24fps cho mỗi mắt. Chuẩn này sẽ tạo khả năng đưa đĩa Blu-ray trở thành hệ thống lưu trữ nội dung 3D chất lượng cao. Hiệp hội đĩa Blu-ray dựđịnh đưa ra chuẩn này vào đầu năm 2010 và các máy phát 3D Blu-ray sẽ được đưa ra thịtrường vào cuối năm 2010. Một phương pháp khác dựa trên nguyên lý truyền dẫn ảnh 2D cùng với một bản đồđộ sâu của mỗi cảnh.

76 2.2.2.1. Video cộng thêm độ sâu (V+D)

Như đã nói ở trên, nhiều đề xuất 3DTV thường dựa trên khái niệm cơ bản là

“video lập thể”, đó là, thu nhận, truyền dẫn và hiển thị hai dòng video riêng biệt (một cho mắt trái và một cho mắt phải). Gần đây, các đề xuất cụ thểđã được đưa ra tạo ra khảnăng kết hợp mềm dẻo truyền dẫn một video mầu không lập thể và thông tin độ sâu liên kết với mỗi điểm ảnh. Phương pháp mã hóa V+D đáp ứng được yêu cầu này.

Với thể hiện dữ liệu này, một hay nhiều cảnh “ảo” của cảnh 3D có thể được tạo ra trong thời gian thực ở phía thu, bằng các kỹ thuật Hoàn trả dựa trên cơ sởđộ sâu của ảnh (DIBR). Một hệ thống như vậy cung cấp các cấu trúc quan trọng, bao gồm sự tương thích ngược với các TV số 2D hiện tại; sự phân cấp chất lượng phù hợp với độ phức tạp của máy thu; và thích nghi dễ dàng với nhiều loại màn hình hiển thị 2D và 3D khác nhau. DIBR là quá trình tổng hợp các cảnh “ảo” của một cảnh từ các ảnh mầu tĩnh hay chuyển động và thông tin độ sâu liên kết với mỗi điểm ảnh. Theo nguyên tắc, việc tạo ra cảnh mới có thể được hiểu như là một quá trình gồm hai bước sau: trước tiên, các điểm ảnh gốc được chiếu lại vào thế giới 3D, sử dụng dữ liệu độ sâu tương ứng; sau đó, các điểm trong không gian 3D này được chiếu vào mặt phẳng ảnh của một camera “ảo” đặt ở vị trí quan sát yêu cầu. Sự ghép nối các ảnh chiếu lại (2D thành 3D) và các ảnh tiếp theo (3D thành 2D) được gọi là làm méo ảnh 3D (3D image warping) theo thuật ngữ của ngành đồ họa máy tính (CG) và sẽ được diễn tả theo mô hình toán học trong phần sau. Chuỗi xử lý tín hiệu và truyền dẫn dữ liệu của phương pháp 3DTV này được minh họa trong Hình 35; nó bao gồm bốn khối chức năng khác nhau: (i) tạo nội dung 3D, (ii) mã hóa video 3D, (iii) truyền dẫn và (iv) tạo góc cảnh “ảo” và hiển thị 3D.

Như có thể thấy trên Hình 36, một tín hiệu video và bản đồ độ sâu mỗi điểm ảnh được thu nhận và cuối cùng được truyền dẫn tới người xem. Dữ liệu độ sâu mỗi điểm ảnh có thểđược xem xét như là tín hiệu chói đơn sắc với một khoảng giới hạn [Zgần, Zxa] thể hiện khoảng cách cực đại và cực tiểu của điểm 3D tương ứng từ camera. Khoảng độ sâu được lấy mẫu với 8 bit, với điểm gần nhất có giá trị 255 và điểm xa nhất có giá trị là 0. Thực chất bản đồ độ sâu giống như một ảnh xám; các giá trị này có thể được đưa vào kênh chói của một tín hiệu video và giá trị mầu có thể thiết lập tới một giá trị không đổi. Tóm lại, định dạng này sử dụng một dòng video thông thường thêm các bản đồ độ sâu cung cấp một giá trị Z cho mỗi điểm

77 ảnh. Chú ý rằng định dạng V+D có sựtương thích ngược do một máy thu 2D sẽ chỉ hiển thị phần V của tín hiệu V+D. Các nghiên cứu của dự án ATTEST Châu Âu (Các công nghệ tiên tiến cho hệ thống truyền hình ba chiều Châu Âu) chỉ ra rằng dữ liệu độ sâu có thể được nén rất hiệu quả mà vẫn giữ được chất lượng tốt; nghĩa là, chỉ cần khoảng 20% tốc độ bit cần để mã hóa tín hiệu video mầu để truyền dẫn dữ liệu độ sâu (các kết quả định tính đã được khẳng định bởi các thử nghiệm chủ quan). Phương pháp này có thểđược coi là một trong những phương pháp biểu thị Độ sâu lập thể tiên tiến (DES).

Một cặp ảnh lập thể có thể được hoàn trả từ thông tin V+D, bằng quá trình biến đổi 3D (3D warping) tại bộ giải mã. Nói chung, một thuật toán biến đổi 3D biến đổi một lớp ảnh theo nhiều cách: ví dụ, vặn nó theo bất cứ trục nào, hoặc làm cong một lớp xung quanh chính nó hoặc thêm chiều tùy ý với một bản đồ dịch chuyển. Việc tạo ra một cặp ảnh lập thể từ một tín hiệu V+D ở phía bộ giải mã được minh họa trong Hình 37. Khả năng tái tạo này là một ưu điểm so với CSV do ảnh lập thể có thể được điều chỉnh và tùy biến sau khi truyền dẫn. Chú ý rằng, theo nguyên tắc, có thể tạo ra nhiều hơn hai cảnh ở bộ giải mã do vậy cho phép hỗ trợ hiển thịđa cảnh (và do đó hỗ trợ chuyển động thị sai do chuyển động của đầu người xem).

Hình 35 _ Hệ thống hoàn trảtrên cơ sởđộ sâu của ảnh (DIBR).

Hình 36 _ Định dạng video cộng thêm độ sâu (V+D) cho video 3D.

Hình 37 _ Tái tạo video lập thể từ các tín hiệu V+D.

V+D cho phép tương thích ngược, hiệu quả nén cao, có các chức năng mở rộng và khảnăng sử dụng các thuật toán mã hóa đang tồn tại. Để sử dụng V+D chỉ cần phải xác định cú pháp mức cao cho phép một bộ mã hóa nhận biết hai dòng video đến chính xác là dòng tín hiệu mầu và độ sâu. Khuyến nghị “ISO/IEC 23002- 3 Trình diễn video phụ và thông tin hỗ trợ” và “ISO/IEC 13818-1:2003 Vận chuyển dữ liệu phụ” cho phép 3D video theo định dạng V+D được xem xét trong hoạt động chuẩn hóa bởi các nhà phát sóng quan tâm tới việc sử dụng phương pháp này.

Tuy nhiên, cũng cần phải chú ý rằng các ưu điểm của V+D so với CSV làm tăng độ phức tạp cho cả phía phát và phía thu. Ở phía thu, tổng hợp cảnh phải được thực hiện sau khi giải mã để tạo ra góc nhìn thứ 2 của cặp ảnh lập thể. Ở phía phát (thu hình), dữ liệu độ sâu phải được tạo ra trước khi mã hóa. Quá trình này thường được thực hiện bởi dự đoán độ sâu/ chênh lệch từ cặp ảnh lập thể được thu nhận;

các thuật toán này thường phức tạp và vẫn rất nhạy cảm với lỗi. Do vậy, trong tương lai gần, V+D có thể phù hợp hơn với các ứng dụng có chức năng phát lại, trong đó dự đoán độ sâu có thể được thực hiện sau với các thuật toán mạnh, ví dụ

79 trong một trường quay hay hệ thống dựng 3D tại nhà, cho phép xem được các đoạn video 3D được tải xuống và phát sóng 3DTV.

2.2.2.2. Video đa cảnh cộng thêm độ sâu (MV+D).

Có một sốứng dụng video 3D tiên tiến hiện tại không được hỗ trợ thích hợp bởi chuẩn đang tồn tại nào và cần phải có các nỗ lực chuẩn hóa bởi ITU-R hay ISO/MPEG. Hai loại ứng dụng đó là:

• Hiển thị tự lập thểđa cảnh diện rộng (chín cảnh hoặc nhiều hơn);

• FVV (môi trường trong đó người sử dụng có thể tùy chọn điểm nhìn).

Các ứng dụng 3D này yêu cầu một định dạng video 3D cho phép hoàn trả một cách liên tục và/ hoặc một số lớn các cảnh ở đầu ra bộ giải mã. Hiện tại, không có phương pháp nào có thểđáp ứng được các yêu cầu này: MVC đã được thảo luận ở trên không hỗ trợ hoàn trả liên tục và trở nên không hiệu quả khi số cảnh tăng lên;

và V+D theo nguyên tắc có thể tạo ra nhiều hơn hai góc nhìn ở phía bộ giải mã nhưng trong thực tế, nó chỉ hỗ trợ một cách giới hạn hoàn trả liên tục xung quanh cảnh gốc (các lỗi tăng lên nhanh chóng khi khoảng cách tới điểm nhìn ảo tăng lên).

Do vậy, MPEG đã bắt đầu nghiên cứu, phát triển một chuẩn video 3D mới hỗ trợ các ứng dụng với các yêu cầu mới này.

Khái niệm MV+D được minh họa trong Hình 38. MV+D yêu cầu một số các bước xử lý phức tạp trong đó (i) độ sâu phải được dự đoán cho N cảnh ở giai đoạn thu nhận hình ảnh, và sau đó (ii) dòng video với N mầu sắc và với N độ sâu phải được mã hóa và truyền dẫn. Ở phía thu, dữ liệu phải được giải mã và hoàn trả (tái tạo) các cảnh ảo.

Hình 38 _ Khái niệm video đa cảnh cộng thêm độ sâu (MV+D).

80 Như đã đề cập tới ở trên, MV+D có thể được sử dụng để hỗ trợ hiển thị tự lập thểđa cảnh tương đối hiệu quả. Xem xét một hệ thống hiển thị hỗ trợ chín cảnh (V1-V9) đồng thời (ví dụ, với một màn hiển thị dùng các thấu kính được sản xuất bởi Phillip; Hình 39). Từ một vị trí xác định, một người xem chỉ có thể xem được một cặp ảnh lập thể, phụ thuộc vào vị trí người xem. Truyền dẫn chín cảnh trực tiếp (ví dụ bằng cách sử dụng MVC) sẽ đòi hỏi lượng băng tần khá lớn; trong ví dụ minh họa này chỉ thể hiện 3 cảnh gốc (cảnh V1, V5 và V9) cùng với bản đồ độ sâu tương ứng D1, D5 và D9 trong dòng tín hiệu được giải mã - các cảnh còn lại có thể được tổng hợp từ dữ liệu được giải mã bằng cách sử dụng kỹ thuật DIBR.

Hình 39 _ Hiển thị tự lập thểđa cảnh dựa trên MV+D.

2.2.2.3. Video phân lớp độ sâu (LDV)

LDV là một một dẫn xuất và cũng là một phương pháp thay thế cho MV+D.

LDV được cho là hiệu quảhơn MV+D do ít thông tin phải truyền đi hơn; tuy nhiên, phương pháp này yêu cầu thêm các tác vụ xử lý hình ảnh dễ xảy ra lỗi do thao tác với phần dữ liệu độ sâu không đáng tin cậy. Hiện tại, việc đánh giá tính hiệu quả của định dạng này vẫn chưa được tiến hành đầy đủ.

LDV sử dụng (i) một video mầu với bản đồ độ sâu liên kết và (ii) một lớp nền với bản đồđộ sâu liên kết; lớp nền bao gồm nội dung ảnh được che phủ bởi các vật thể phía trên trong lớp chính. Điều này được minh họa trong Hình 40 và 41.

Thông tin bị che lấp được tái tạo bằng cách biến đổi hai hay nhiều hơn các cảnh V+D lân cận từ trình diễn MV+D vào một cảnh trung tâm xác định. Dòng LDV hay các dòng thành phần có thểđược mã hóa bởi một định dạng mã hóa LDV phù hợp.

Hình 40 _ Khái niệm video phân lớp độ sâu (LDV).

Hình 41 _ Ví dụ video phân lớp độ sâu (LDV).

Chú ý rằng LDV có thể được tạo ra từ MV+D bằng cách làm biến đổi lớp ảnh chính thành các ảnh đầu vào khác (ví dụ như thêm một cảnh trái và phải). Sau đó, bằng cách loại trừ để xác định phần ảnh nào của các ảnh đầu vào được đưa vàolớp ảnh chính; các phần ảnh này sau đó được phân định như là các ảnh hữu ích và được truyền dẫn trong khi phần còn lại bị bỏ qua.

82 Hình 40 dựa trên trình diễn gần đây tại Hội thảo 3D Media của Viện Nghiên cứu Heinrich Hertz (HHI) Berlin, 15-16 tháng mười, 2009. LDV cung cấp một cảnh đơn với thông tin độ sâu và sự che lấp. Mục đích của phương pháp này là để thực hiện được việc thu nhận nội dung 3DTV tự động, đặc biệt là thu được thông tin độ sâu và sự che lấp từ dòng tín hiệu video và ngoại suy được một cảnh mới mà không bị lỗi.

Bảng 6 cung cấp thông tin tóm tắt về các vấn đề liên quan tới các phương pháp hiển thị.

Bảng 6_ Tóm tắt các định dạng

Giai đoạn đầu

Các định dạng 3D lập thể • Các tùy chọn

o Phát đồng thời (2 cảnh được truyền dẫn, băng tần tăng gấp đôi)

o Xẽn rẽ không gian theo dạng các ảnh cạnh nhau o Xen kẽ không gian theo dạng các ảnh trên/dưới o Xen kẽ thời gian (truyền dẫn hai cảnh, băng tần

tăng gấp đôi)

• Định dạng chuẩn cho 3D điện ảnh (điểm cộng)

• Định dạng chuẩn cho các màn hiển thị tiêu dùng dùng kính đểxem (điểm cộng)

• Không hỗ trợ cho các hiển thị đa cảnh không dùng kính (điểm trừ)

• Cho phép điều chỉnh thị sai bằng không (điểm cộng)

• Không có phân cấp độsâu (điểm trừ)

o Không điều chỉnh được kích thước hiển thị. o Không có chế độ sở thích cá nhân, chế độ trẻ

• Không có thông tin về vật bị che chắn o Không có thị sai chuyển động.

83 Giai đoạn sau

Video cộng thêm độ sâu:

một dòng video với bản đồđộ sâu liên kết

• Trình diễn thành công trong dự án ATTEST (2002-2004), MPEG-C Part 3

• Không phải là định dạng chuẩn cho điện ảnh 3D (điểm trừ)

• Hoàn trả dựa trên cơ sởđộ sâu của ảnh

o Hỗ trợ các màn hiển thị lập thể tiêu dùng dùng kính.

o Hỗ trợ các màn hiển thị đa cảnh không dùng kính (điểm cộng)

o Cho phép phân cấp độsâu (điểm cộng) - Điều chỉnh kích thước hiển thị

- Chếđộ sở thích cá nhân, chếđộ trẻ em o Các cảnh phải được ngoại suy (điểm trừ)

• Cho phép điều chỉnh thị sai bằng không (điểm cộng)

• Không có thông tin về vật bị che chắn (điểm trừ)

• Giảm chất lượng do việc hoàn trả dựa trên độ sâu của ảnh.

Video phân lớp độ sâu (LDV): video cộng thêm độ sâu – được tăng cường với lớp các vật thể bị che khuất với thông tin độ sâu (video với bản đồ độ sâu mỗi điểm ảnh và lớp các vật thể bị che khuất với bản đồđộ sâu)

• Không phải là định dạng chuẩn cho 3D điện ảnh (điểm trừ)

• Hoàn trảtrên cơ sởđộ sâu ảnh

o Hỗ trợ các màn hiển thị lập thể tiêu dùng dùng kính

o Hỗ trợ các màn hiển thị đa cảnh không dùng kính (điểm cộng)

o Cho phép phân cấp độsâu (điểm cộng) o Các cảnh phải được ngoại suy (điểm trừ)

• Cho phép điều chỉnh thị sai bằng không (điểm cộng)

• Cung cấp thông tin vật bị che chắn (điểm cộng) o Chất lượng tốt hơn do hoàn trả dựa trên độ sâu

84 ảnh.

Lập thểtăng cường độ sâu (DES): 2 dòng video với bản đồ độ sâu và thêm lớp vật thể bị che chắn với thông tin độ sâu (2 video với bản đồ độ sâu mỗi điểm ảnh và lớp vật thể che chắn với bản đồ độ sâu)

• Không phải là định dạng chuẩn cho 3D điện ảnh (điểm trừ)

• Sử dụng dễ dàng cho các màn hiển thị lập thể tiêu dùng dùng kính (điểm cộng)

• Hoàn trả dựa trên độ sâu ảnh

o Hỗ trợ các màn hiển thị đa cảnh không dùng kính (điểm cộng)

o Cho phép phân cấp độsâu (điểm cộng) o Các cảnh được nội suy hoặc ngoại suy

• Cho phép điều chỉnh thị sai bằng không (điểm cộng)

• Cung cấp thông tin vật thể che chắn tốt (điểm cộng lớn)

Nhiều video cộng thêm độ sâu: 2 hay nhiều dòng video với độ sâu (các cảnh ảo được nội suy ngay lập tức từ nhiều dòng video cộng thêm độ sâu(MVD))

• Không phải là định dạng chuẩn cho điện ảnh 3D (điểm trừ)

• Sử dụng dễ dàng cho các màn hình hiển thị lập thê tiêu dùng dùng kính

• Hoàn trả dựa trên độ sâu

o Hỗ trợ các màn hình hiển thị đa cảnh không dùng kính (điểm cộng)

o Cho phép phân cấp độsâu (điểm cộng) o Các cảnh được nội suy (điểm cộng)

• Cho phép điều chỉnh thị sai bằng không (điểm cộng)

• Cung cấp xử lý vật thể bị che chắn tốt nhờ thông tin dư thừa (điểm cộng)

CƠ HỘI VÀ THÍCH THỨC CỦA 3DTV

H ệ thống thị giác của con người