Các nguyên lý t ạo ảnh lập thể 3D/3DTV

CHƯƠNG 2. NGHIÊN C Ứ U CÔNG NGH Ệ TRUY Ề N HÌNH 3 CHI Ề U (3DTV)

2.1. CÁC NGUYÊN LÝ CỦA 3DV VÀ 3DTV

2.1.2. Các nguyên lý t ạo ảnh lập thể 3D/3DTV

Để thuận lợi cho việc nghiên cứu, phần này đưa thêm một số khái niệm.

Lập thể(stereo) có nghĩa là “có độ sâu, hay theo ba chiều” và nó mô tả một môi trường mà trong đó các đầu vào được kết hợp để tạo ra một nhận thức duy nhất về không gian 3 chiều.

Thị giác lập thể (stereoscopic vision) là quá trình trong đó hai cảnh do hai mắt thu được kết hợp trong não để tạo thành nhận thức hình ảnh của một ảnh 3D;

nó là kết quả của việc nhìn bằng hai mắt.

Kỹ thuật lập thể (stereoscopy) có thểđược định nghĩa là bất cứ kỹ thuật nào tạo ra cảm giác vềđộ sâu theo 3 chiều của một ảnh.

Hình 16 _ Các cấu hình camera thu ảnh lập thểcơ bản:

(a) tiếp cận chụm - “toed-in”, và (b) thiết lập song song.

Lập thể (stereoscopic) là một thuật ngữ miêu tả quá trình quan sát theo cả chiều sâu cũng như chiều cao và chiều rộng. Thuật ngữ này mô tả bất cứ quá trình hay thiết bị nào liên quan tới việc nhận thức độ sâu bằng hai mắt.

Lập thể 3D (stereoscopic 3D) đề cập tới hai ảnh được chụp từ các góc hơi khác nhau tạo thành ảnh ba chiều khi được quan sát cùng với nhau.

Lập thể không cần dùng kính mô tả các hiển thị 3D không cần yêu cầu dùng các kính đặc biệt để nhìn thấy được ảnh lập thể.

Biểu đồ lập thể (stereogram) là một thuật ngữ chung chỉ bất cứ thiết lập nào của các ảnh dành cho mắt trái và mắt phải để tạo ra được một hình ba chiều, có thể bao gồm (i) các cặp ảnh nằm cạnh nhau hay nằm trên – dưới; (ii) các ảnh được chiếu chồng lấn trên một màn hình; (iii) cặp ảnh mầu bổ sung; (iv) các ảnh cho màn hình dạng thấu kính; hoặc (v) các ảnh luân phiên dành cho mắt trái và mắt phải được kết hợp bằng các phương tiện hỗ trợ.

Ghép kênh lập thể (stereoplexing) là một cơ chếđể hợp nhất thông tin cho các cảnh của mắt trái và mắt phải vào một kênh thông tin đơn mà không yêu cầu mở rộng băng thông.

51 Dựa trên khái niệm cơ bản ở trên, một số kỹ thuật để tái tạo lại độ sâu cho người xem ảnh hoặc video đã được phát triển. Các nghiên cứu trong hơn 30 năm qua vềđồ họa và ảnh 3D chủ yếu tập trung vào các kỹ thuật nhiếp ảnh, đồ họa máy tính, các phim 3D, và phép toàn ký (lĩnh vực hình ảnh, bao gồm cảảnh ba chiều liên quan nhiều tới việc thu nhận/ biểu thị – mã hóa ảnh tĩnh, nén/ truyền dẫn/ hiển thị/ lưu trữ nội dung cho nhiếp ảnh, các ảnh trong y học, các bản vẽCAD/CAM, và đặc biệt là cho các ứng dụng độ phân giải cao mà đề tài này không nghiên cứu tới).

Vềcơ bản, một kỹ thuật được gọi là kỹ thuật tạo ảnh lập thểđã được phát triển, trong đó hai hình ảnh hay hai cảnh được thu nhận dành cho mỗi mắt, và mỗi mắt sẽ nhận được các ảnh hay cảnh thích hợp với nó theo cách này hay cách khác (Hình 17) Video 3D lập thể được dựa trên cảm nhận tự nhiên bằng hai mắt của con người; để tạo ra nội dung 3D chất lượng, các nhà sáng tạo nội dung cần phải điều khiển độ sâu và thị sai của cảnh cùng với các thông số khác. Nhận thức vềđộ sâu là khả năng nhìn thấy trong môi trường 3 chiều cho phép người xem cảm nhận được khoảng cách tương đối của các vật thể. Như đã nhấn mạnh ở trên, thị sai thay đổi theo vị trí quan sát vật thể; nghĩa là có sự sai khác về hình ảnh trong một cảnh khi nhìn từcác điểm khác nhau.

Hình 17 _Thu hình lập thể của một cảnh đểđạt được hiệu ứng 3D khi cảnh được xem với hệ thống hiển thị thích hợp.

52 Trong hình này sự phân tách giữa hai ảnh được phóng đại lên để người đọc có thể thấy được rõ ràng sự sai khác giữa các ảnh dành cho hai mắt (trong các ảnh lập thể thực tế sự sai khác không lớn).

Hình 18 _ Tạo thịsai ngang để hiển thịảnh lập thể.

Một hiển thị 3D (màn hình) cần phải tạo ra một vài loại thị sai, để tạo ra cảm giác lập thể (Hình 18). Các vật thể ở gần có thị sai lớn hơn so với các vật thểở xa khi được quan sát từ các vị trí khác nhau; do đặc điểm này, thị sai có thể được sử dụng để xác định khoảng cách. Do các mắt của một người nằm ở các vị trí khác nhau ởtrên đầu, chúng đồng thời thu nhận được các cảnh ở các góc nhìn khác nhau.

Đây là nền tảng của hiện tượng lập thể thị giác (stereopsis), quá trình não người sử dụng thị sai do các góc nhìn khác nhau từ mắt để đạt được nhận thức vềđộ sâu và ước lượng khoảng cách tới vật thể. Nhận thức độ sâu 3D có thểđược hỗ trợ bởi các hệ thống hiển thị 3D cho phép người xem nhận được các cảnh khác nhau xác định cho mỗi mắt; cặp cảnh lập thể này phải tương ứng với các vị trí của mắt người, do đó cho phép não tính toán cảm nhận độsâu 3D. Trong các năm gần đây các phương tiện chủ yếu để hiển thị ảnh lập thểđã phát triển từ cặp ảnh mầu bổ sung tới các cặp kính phân cực và chập hình.

Một vài thuật ngữ và các khái niệm cơ bản liên quan tới việc thiết lập camera để thu ảnh nổi như sau: khoảng cách giữa các trục của camera (interaxial distance) là khoảng cách giữa các thấu kính của camera trái và phải trong một

53 camera thu ảnh lập thể. Hội tụ của camera (camera convergence) là thuật ngữ dùng để biểu thị quá trình điều chỉnh ZPS trong một camera lập thể. ZPS xác định các điểm trong không gian 3D có thị sai bằng 0 trong ảnh lập thể phẳng được tạo ra; ví dụ, với một camera lập thể. Các điểm này sẽ được tái tạo với hiệu ứng lập thể trên bề mặt của màn hình hiển thị.

Hai dòng video 2D thông thường đồng thời được tạo ra bởi một cặp camera mô phỏng các mắt người quan sát môi trường từ hai góc nhìn hơi khác nhau. Các phim 3D phẳng đơn giản được tạo ra bằng cách ghi các ảnh riêng rẽ cho mắt trái và mắt phải từ hai camera được đặt cách nhau một khoảng xác định. Việc lựa chọn khoảng cách ảnh hưởng tới độ lệch giữa các ảnh dành cho mắt trái và phải, và nhờ đó tạo ra cảm giác của người xem về độ sâu. Trong khi kỹ thuật này đạt được cảm giác về độ sâu, nó thường tạo ra sự mỏi mắt cho người xem sau khi xem một chương trình trong một khoảng thời gian nhất định: trong vài phút sau khi bắt đầu xem, các phim lập thể loại này thường gây mỏi mắt và, trong một số trường hợp người xem có cảm giác tương tự như hiện tượng say vì chuyển động. Tuy vậy, kỹ thuật này được sử dụng rộng rãi để tạo ra các ảnh và phim lập thể, và nó đã được thử nghiệm rộng rãi trong truyền hình.

Ở mức hiển thị, một trong các dòng video này được hiển thị dành cho mắt trái, và dòng còn lại hiển thị cho mắt phải. Các thiết bị phổ biến để phân tách các cảnh cho mắt trái và mắt phải bao gồm các kính lọc mầu, các kính lọc phân cực, và các kính chập hình. Phân cực ánh sáng (polarization of light) là việc xắp xếp các chùm ánh sáng vào các mặt phẳng hay các vector riêng biệt bằng các bộ lọc phân cực; khi hai vector cắt nhau với góc cắt phù hợp, các tia sáng hay góc nhìn bị che khuất. Trong phương pháp dùng bộ lọc, các bộ lọc bù nhau được đặt liên kết với nhau trên hai máy chiếu các ảnh chồng lấn nhau (khi sử dụng máy chiếu) và được đưa tới hai mắt tương ứng (thông qua cặp kính mầu bổ sung, bộ lọc phân cực ánh sáng tròn hay tuyến tính, hay bộ lọc thông băng hẹp Infitec). Mặc dù công nghệ này khá đơn giản, việc phải đeo các kính khi xem phim lập thể là một cản trở lớn cho việc chấp nhận 3DTV một cách rộng rãi. Ngoài ra, phương pháp này còn có một số hạn chế, như là cần phải giữhướng của đầu phù hợp với phân cực của ánh sáng (tức là không được nghiêng đầu quá 450 sang hai bên). Có một sốcơ chế khác để tạo ra ảnh lập thể cho hai mắt, như là các bộ lọc rào chắn trên các màn hình LCD (các rào

54 chắn theo chiều đứng hoạt động như là một hàng rào, đưa dữ liệu hình ảnh theo hướng xác định tới các mắt).

Cần phải chú ý rằng năng lực xử lý thông tin độ sâu lập thể thay đổi tùy thuộc vào từng cá nhân cụ thể. Các nghiên cứu đã chỉ ra rằng có một phần trăm tương đối lớn dân số thiếu khảnăng nhận thức/ phân biệt độ sâu nếu thời gian hiển thị ảnh lập thể rất ngắn, và một phần trăm xác định của những người trưởng thành (khoảng 6%) không có khả năng xem ảnh lập thể. Hình 19 mô tả các kết quả của một nghiên cứu về sốlượng người thiếu khảnăng xem hình lập thể. Các kết quả này chỉ ra rằng các hiệu ứng hình ảnh nhanh trong các cảnh có thể không hiệu quả trong các phim 3D. Chuyển động của vật thể có thể cũng tạo ra các vấn đề về thị giác trong 3DTV lập thể. Hình 20 mô tả sự không thoải mái về thịgiác đã quan sát được trong các nghiên cứu. Trong thực tế, trong kỹ thuật điện ảnh, các công nghệ 3D số mới tạo ra những trải nghiệm thoải mái hơn cho đa số các khán giả; tuy nhiên, theo các bác sỹ nhãn khoa với một sốngười có vấn đề về mắt, một phiên chiếu 3D dài có thể tạo ra cảm giác đau đầu. Một sốngười có ít các vấn đề về mắt (tức là không có sự mất cân bằng lớn trong các cơ mắt), bộ não sẽ xử lý theo cách tự nhiên trong các trường hợp thông thường, nhưng trong một bộ phim 3D, những người này đối mặt với cảm giác, trải nghiệm hoàn toàn mới đòi hỏi phải nỗ lực thần kinh lớn hơn, làm cho họ có thể dễ bị đau đầu. Một vài người không có khảnăng nhận thức độ sâu sẽ không cảm nhận được các phim lập thể. Những người có vấn đề vềcác cơ mắt, làm cho các mắt không nhìn về cùng một vật thể, cũng có vấn đề trong việc xử lý các ảnh 3D.

Hình 19 _ Sự thiếu hụt về cảm nhận ảnh lập thể trong một bộ phận dân cư.

Hình 20_ Sự thiếu thoải mái gây ra bởi chuyển động trong một cảnh 3D.

Hiện tượng đau đầu và buồn nôn là những hiện tượng mà công nghệ 3DTV không thể loại bỏhoàn toàn được. Tuy nhiên, công nghệ số mới có thể loại bỏđược nhiều vấn đề gây ra cảm giác thiếu thoải mái khi xem phim 3D. Nguyên nhận của hiện tượng trên có thể là do các máy chiếu được thiết lập không thích hợp; các hệ thống sử dụng một máy chiếu số đơn có thể khắc phục được một phần các hiện tượng trên. Tuy nhiên, các vấn đề thuộc về bản chất của công nghệ lập thể có thể vẫn ảnh hưởng tới một số các khán giả (các vấn đề này sẽđược giải quyết bởi các hệ thống lập thểkhông dùng kính trong tương lai).

56 Hai dòng video yêu cầu cho 3DTV có thể được nén sử dụng các chuẩn nén video. Mã hóa MPEG-2 đang được sử dụng rộng rãi trong các ứng dụng TV số hiện nay và H.264/MPEG-4 AVC được mong đợi sẽ là chuẩn công nghệ video cho video số trong tương lai gần. Gần đây các mở rộng đã được phát triển cho chuẩn H.264/

MPEG-4 AVC và các chuẩn liên quan khác để hỗ trợ cho 3DTV; các công việc chuẩn hóa khác cũng đang được tiến hành. Tỷ lệ nén và chất lượng của 3DTV sẽ biến đổi phụ thuộc vào chuẩn mã hóa video được sử dụng. Trong khi dựđoán trong cảnh sẽ cải thiện hiệu quả nén so với việc truyền dẫn tức thời (truyền dẫn hai cảnh từ đầu cuối tới đầu cuối, và do đó yêu cầu băng tần kênh gấp đôi), cần phải có các tiếp cận mới, như là, mã hóa cảnh không đối xứng, video cộng thêm độ sâu, và phân lớp video để giảm yêu cầu băng tần của 3DTV. Trong giai đoạn trước mắt, ghép kênh theo thời gian và nén không gian sẽ được sử dụng rộng rãi, nhưng với sự thỏa hiệp vềđộ phân giải, như đã được thảo luận trong chương 3.

Có một sốphương pháp để tạo ra nội dung 3D, bao gồm: (i) tạo hình ảnh từ máy tính (CGI); (ii) sử dụng các camera lập thể; và (iii) chuyển đổi 2D thành 3D.

Các kỹ thuật CGI hiện tại là kỹ thuật tiên tiến nhất, với các phương pháp (và công cụ) mạnh được phát triển đểlàm phim, trò chơi, và các ứng dụng đồ họa khác – với nội dung 3D điện ảnh chủ yếu bao gồm các phim hoạt hình được tạo ra bằng CGI.

Sử dụng hệ thống camera 3D gặp nhiều thách thức hơn. Phương pháp ghép 2 camera phổ biến ở thời điểm này; một phương pháp khác là sử dụng một camera hai chiều liên kết với hệ thống tạo bản đồ độ sâu. Trong phương pháp ghép 2 camera, hai camera được liên kết với cùng một hệ thống phân tách không gian để bắt chước cách mà mắt người cảm nhận cảnh vật. Các vấn đề kỹ thuật liên quan tới độ dài tiêu điểm/ tiêu cự, là đặc biệt quan trọng đòi hỏi phải được thiết lập chính xác để tránh sự sai khác trong việc sắp xếp các camera theo chiều ngang và chiều đứng và/ hoặc hướng khác nhau (căn chỉnh thấu kính và điều khiển chuyển động phải được thêm vào hệ thống thấu kính của camera). Các kỹ thuật chuyển đổi 2D thành 3D bao gồm:

- Phân đoạn vật thể và dịch chuyển theo chiều ngang;

- Lập bản đồ độ sâu (làm tăng sốảnh và điểm nhìn ảnh hưởng tới hiệu quả sử dụng băng tần);

- Tạo ra các bản đồđộ sâu sử dụng thông tin từ nguồn ảnh 2D;

- Sử dụng cảm nhận thị giác của con người để chuyển đổi 2D thành 3D;

57 - Tạo bản đồ độ sâu thay thế (tức là cường độ mức xám của một thành phần

mầu).

Người ta thường không muốn có được nội dung 3D bằng cách chuyển đổi nội dung 2D nhưng có thểlà đây là một phương pháp để tạo ra một số lớn các nội dung 3D trong thời gian ngắn. Tuy nhiên, cần phải nhận thức được rằng “dễdàng để tạo ra được nội dung 3D, nhưng rất khó để tạo ra được nội dung 3D chất lượng cao”

Một vấn đề thực tế liên quan đến việc “chèn”, phát nội dung 3DTV. Ở giai đoạn đầu, nội dung 2D sẽ được chèn phát vào cùng một kênh nội dung 3D, theo cách giống như các nội dung thương mại có độ phân giải tiêu chuẩn vẫn được chèn phát vào trong kênh nội dung HD. Một máy thu STB có thể được lập trình để tự động phát hiện định dạng của dòng tín hiệu đến và xửlý các phương pháp đóng gói khung để hỗ trợ chuyển đổi 2D/3D cho mục đích quảng cáo.

Dưới đây tóm tắt các phương phát tạo ảnh 3D

- Kỹ thuật lập thể (stereoscopy) là một kỹ thuật đơn giản nhất và cổ nhất:

o Không tạo ra việc sao chép vật lý của ánh sáng 3D;

o Chất lượng của hiệu ứng 3D thấp;

o Thiếu thị sai;

o Tiêu điểm và hội tụ không phù hợp;

o Có thể cảm nhận được việc thiết lập hệ thống không phù hợp;

o Gây ra mỏi mắt;

o Là nguyên nhân chính cho thất bại thương mại của các kỹ thuật 3D - Video nhiều cảnh (multi-view) cung cấp một vài thị sai ngang:

o Góc quan sát giới hạn (20-450);

o Quan sát thấy hiệu ứng nhảy;

o Tạo cảm giác không thoải mái cho người xem giống như kỹ thuật lập thể;

o Yêu cầu thiết bị hiển thị có độ phân giải cao;

o Xảy ra hiện tượng thiếu các ảnh lân cận.

- Ảnh toàn phần (integral imaging) thêm thịsai đứng:

o Tiếp cận gần hơn tới việc hoàn trảtrường ánh sáng lý tưởng do số các thấu kính (các ảnh thành phần) tăng lên: 3D thật sự;

o Việc thiết lập hệ thống phức tạp;

o Yêu cầu các thiết bịcó độ phân giải rất cao;

58 o Xảy ra hiện tượng thiếu các ảnh lân cận;

- Kỹ thuật toàn ký (holography) là kỹ thuật cao cấp nhất trong việc tái tạo lại phân bố ánh sáng vật lý:

o Ghi các ảnh toàn ký khá khó khăn;

o Cần phải ghi với độ phân giải rất cao;

o Các kỹ thuật hiển thị mới;

o Mạng truyền dẫn rất phức tạp;

Các nguyên lý t ạo ảnh lập thể 3D/3DTV

CƠ HỘI VÀ THÍCH THỨC CỦA 3DTV

H ệ thống thị giác của con người