CHƯƠNG 2. NGHIÊN C Ứ U CÔNG NGH Ệ TRUY Ề N HÌNH 3 CHI Ề U (3DTV)
2.1. CÁC NGUYÊN LÝ CỦA 3DV VÀ 3DTV
2.1.1. H ệ thống thị giác của con người
Hiện tượng lập thể thị giác (stereopsis) là cảm giác độ sâu của hai mắt. Độ sâu được cảm nhận bởi hệ thống thị giác của con người bằng các tín hiệu. Các tín hiệu dùng cho hai mắt (binocular) là các tín hiệu độ sâu phụ thuộc vào sự cảm nhận của hai mắt. Các tín hiệu dành cho một mắt (monocular) là các tín hiệu độ sâu có thể cảm nhận chỉ với một mắt, như là kích thước tương đối, phối cảnh tuyến tính, hay chuyển động thị sai. Sự hợp nhất lập thể (stereoscopic fusion) là khả năng của não người tổng hợp hai ảnh ở hai góc nhìn khác nhau thành một ảnh đơn, ảnh 3D.
Quá trình điều chỉnh (accommodation) là quá trình hội tụ của các mắt. Sự hội tụ (convergence) là chuyển động xoay theo chiều ngang của các mắt (hay camera) làm cho các trục quang của chúng giao nhau tại một điểm đơn trong không gian 3D.
Khoảng cách giữa hai mắt (interocular distance) là khoảng cách giữa hai mắt của người quan sát – khoảng 64mm đối với người trưởng thành.
Độ lệch (disparity) là khoảng cách giữa các điểm tương ứng trong các ảnh của mặt trái và mắt phải. Độ lệch võng mạc (retinal disparity) là độ lệch cảm nhận được ở võng mạc của mắt người. Horopter là đường cong 3D, là một tập hợp các điểm trong không gian tại đó các ảnh ba chiều tạo thành với các điểm ảnh có độ lệch bằng 0. Khu vực hợp nhất (panum panum’s fusional area) là một vùng nhỏ xung quanh đường horopter trong đó các độ lệch võng mạc có thể được hợp nhất bởi HVS vào một ảnh 3D đơn. Điểm hội tụ (point of convergence) là một điểm trong không gian 3D trong đó trục quang của các mắt (hay các camera hội tụ) cắt nhau. Mặt phẳng hội tụ (the plane of convergence) là mặt phẳng độsâu trong đó các tia quang học của các bộ cảm biến trung tâm cắt nhau trong trường hợp thiết lập camera song song. Độ lệch chéo (crossed disparity) thể hiện các độ lệch võng mạc chỉ thị rằng các tia quang học tương ứng giao nhau ở mặt trước của horopter hay
43 mặt phẳng hội tụ. Độ lệch không chéo (uncrossed disparity) thể hiện võng mạc (hay các độ lệch camera) trong đó các tia quang học giao nhau sau horopter hay mặt phẳng hội tụ. Khoảng cách giữa hai mắt (interocular distance - cũng được gọi là khoảng cách giữa hai đồng tử) là khoảng cách giữa hai mắt của người quan sát, khoảng 64mm đối với người trưởng thành (mặc dù có sự khác biệt giữa các cá nhân cỡ ±12mm).
Hình 12 minh họa các khái niệm vềđộ lệch và hình 13 minh họa khái niệm về sự hợp nhất.
Hình 12_ Cơ chế hợp nhất tạo ảnh lập thểvà độ lệch võng mạc
44
Hình 13 _ Hợp nhất các ảnh của mắt trái và mắt phải.
Ảnh nổi là phương pháp được sử dụng để tạo một cặp các ảnh nổi hai chiều.
Ảnh nổi phẳng (plano-stereoscopic) là thuật ngữ mô tảcác phương pháp hiển thị 3D đạt được hiệu ứng độ sâu dành cho hai mắt bằng cách cung cấp cho người xem các ảnh hơi khác nhau về góc nhìn ở trên cùng một màn hình phẳng. Khoảng độ sâu (depth range) là sự mở rộng của độsâu được nhận thức khi một ảnh nổi phẳng được tái tạo bởi các phương tiện nhìn ảnh nổi.
Các điểm tương ứng (corresponding points) là các điểm trong các ảnh trái và phải tạo thành cùng một điểm trong không gian 3D. Thị sai (parallax) là khoảng cách giữa các điểm tương ứng trong các ảnh dành cho mắt trái và phải của một ảnh nổi phẳng. Góc thị sai (parallax angle) là góc của các tia quang học của hai mắt giao nhau ở một điểm xác định trong không gian 3D. Do đó, thị sai (dành cho hai mắt) là sựthay đổi vị trí của một vật thểkhi được nhìn từcác điểm khác nhau (tức là từ hai
45 mắt hay từ hai vị trí khác nhau); hay nói hơi khác đi một chút, là sự dịch chuyển hay sự sai lệch trong vị trí của một vật thểđược nhìn theo hai hướng khác nhau. Ảnh nổi thị sai âm (negative parallax) xảy ra khi các tia quang học giao nhau ở mặt trước của màn hình trong không gian của người xem (liên quan đến độ lệch chéo). Ảnh nổi thị sai dương (positive parallax) xảy ra khi các tia quang học giao nhau phía sau màn hình trong không gian màn hình (liên quan đến độ lệch không chéo). Không gian màn hình (screen space) là khu vực sau bề mặt màn hình hiển thị. Các vật thể sẽđược cảm nhận trong khu vực này nếu chúng có thịsai dương.
Hình 14 _ Thị sai: (a) thịsai dương, (b) thị sai bằng không và (c) thị sai âm.
Không gian của người xem (viewer space) là khu vực giữa người xem và bề mặt màn hình hiển thị. Các vật thể sẽđược cảm nhận trong khu vực này nếu chúng thị sai âm (xem Hình 14).
Xung đột điều chỉnh/hội tụlà độ lệch giữa việc cảm nhận và thói quen tương quan giữa việc điều chỉnh và hội tụ khi xem các ảnh nổi hai chiều. Sự cạnh tranh giữa hai mắt thể hiện xung đột cảm nhận xuất hiện trong trường hợp không có sự đối xứng giữa hai ảnh nổi (được tái tạo) về mầu sắc, hình học, độ sáng và các yếu tố khác. Xuyên nhiễu (crosstalk) là sự cách ly không hoàn hảo của các ảnh dành cho mắt trái và mắt phải khi xem nội dung lập thể 3D phẳng. Xuyên nhiễu là một hiện tượng vật lý, trái lại hiện tượng bóng ma là một hiện tượng sinh lý (Hình 15)
46
Hình 15 _ Xem một ảnh 3D trên một màn hình và xung đột vềđiều chỉnh – hội tụ liên quan.
2.1.1.1. Các tín hiệu độ sâu/ dành cho hai mắt.
Các thuật ngữmà chúng ta đã định nghĩa ở trên sẽđược sử dụng ở các phần tiếp theo. HVS có khảnăng nhận thức được độ sâu nhờ khảnăng của não diễn dịch được một vài loại tín hiệu độsâu được chia thành hai loại chính như sau: các nguồn thông tin thu được chỉ yêu cầu một mắt (tức là kích thước tương đối, phối cảnh tuyến tính hay chuyển động thịsai), được gọi là các tín hiệu dành cho một mắt, trái lại các thông tin thu nhận phải dùng cả hai mắt được gọi là các tín hiệu dành cho hai mắt. Các cảnh thường được nhìn hàng ngày thông thường chứa nhiều hơn một dạng tín hiệu về độ sâu và độ quan trọng của mỗi tín hiệu dựa trên sự học tập và kinh nghiệm của người quan sát. Ngoài ra, ảnh hưởng của các tín hiệu khác nhau trong việc nhận thức độ sâu của con người cũng phụ thuộc vào khoảng cách tương đối giữa người quan sát và các vật thể trong cảnh. Các tín hiệu dành cho hai mắt rõ ràng nhất với các cảnh quan sát dưới 10m và, do đó, chúng đặc biệt quan trọng cho 3DTV với thực tế là các mắt người được phân tách theo chiều ngang. Mỗi mắt cung cấp cho não một góc nhìn duy nhất của cảnh được quan sát. Sự phân tách theo chiều ngang này – với khoảng cách trung bình giữa các mắt khoảng 64mm cho người trưởng thành – được gọi là khoảng cách giữa hai mắt te. Nó dẫn tới khoảng cách giữa các điểm 3D được quan sát trong cảnh được phản ánh vào võng mạc trái và phải, còn được gọi là độ lệch võng mạc. Các độ lệch này cung cấp cho HVS các thông tin về khoảng cách tương đối giữa các vật thể và về cấu trúc không gian của môi trường 3D. Độ lệch võng mạc cho phép não người hợp nhất hai cảnh với góc nhìn khác nhau từ mắt trái và mắt phải thành một ảnh 3D đơn.
47 Hình 12 mô tả chi tiết quá trình hợp nhất tạo ảnh nổi. Nguyên lý là, khi nhìn vào thế giới 3D, các mắt xoay cho đến khi các trục quang của chúng hội tụ (giao nhau ở một điểm) ở “vật thể quan sát” và chuyển các điểm hội tụ trên vật thể tới các điểm ảnh tương ứng trong các võng mạc; do vậy, không tạo ra bất cứ độ lệch võng mạc nào. Điều này xảy ra tương tự với tất cảcác điểm trong horopter được xác định bởi các điểm cốđịnh và các điểm nút cho cả hai mắt. Tuy nhiên, các điểm khác sẽ tạo ra các độ lệch võng mạc với biên độ càng trở nên rộng hơn, tại các điểm càng xa so với các điểm 3D trên horopter.
Các độ lệch gây ra bởi các điểm ở mặt trước của horopter được gọi là xuyên chéo, trong khi các độ lệch gây ra bởi các điểm sau horopter được gọi là không xuyên chéo. Khi mà các độ lệch xuyên chéo hay không xuyên chéo không vượt quá một biên độxác định, hai điểm nhìn phân tách có thểđược trộn lại bởi não người để tạo thành cảm nhận 3D đơn. Khu vực nhỏxung quanh horopter trong đó các độ lệch được trộn lại để tạo thành ảnh 3D gọi là khu vực hợp nhất Panum. Các điểm ngoài khu vực này không được trộn và người quan sát sẽ nhìn thấy các ảnh kép, tạo nên hiện tượng nhìn một thành hai (diplopia).
2.1.1.2. Sự điều chỉnh (accommodation)
Các ảnh kép vừa được miêu tả ở trên thường không ảnh hưởng tới việc cảm nhận thị giác do kết quả của các thói quen khác gắn liền với quá trình hội tụđã được mô tả. Phối hợp với việc xoay các trục quang, mắt cũng tập trung (điều chỉnh bằng cách thay đổi hình dạng của các thủy tinh thể) vào vật thể cần quan sát. Điều này rất quan trọng với hai lý do. Thứ nhất, tập trung vào điểm hội tụ cho phép người quan sát nhìn thấy vật thể quan tâm một cách rõ ràng và sắc nét. Thứ hai là, việc nhận thức các ảnh kép, kết quả của các phần của cảnh nằm ngoài khu vực hợp nhất Panum, được loại bỏ một cách có hiệu quả do việc tăng khả năng làm mờ quang học.
Mặc dù việc thực hiện trong thực tế khá khác biệt với việc sử dụng các kỹ thuật đặc biệt khác nhau, đa số các hệ thống hiển thị và chiếu lập thể dựa trên cùng một nguyên lý cơ bản là cung cấp cho người xem hai ảnh với góc nhìn khác nhau cho mắt trái và mắt phải. Thông thường, các cảnh hơi khác nhau về góc nhìn này được biểu thị trên cùng một màn hình phẳng. Các hệ thống hiển thị này được gọi là các thiết bị ảnh nổi phẳng. Trong trường hợp này, việc nhận thức các thông tin độ sâu dành cho hai mắt được tạo ra từ khoảng cách không gian giữa các điểm tương
48 ứng trong cả hai cảnh phẳng, đó là, từ thị sai P, tạo ra độ lệch võng mạc trong các mắt của người xem. Do đó, nhận thức 3D ấn tượng phụ thuộc vào, cùng với các yếu tố khác, các thông số như là khoảng cách tới người xem, và cả loại và mức độ thị sai.
2.1.1.3. Thị sai:
Như mô tả trên Hình 14, có ba trường hợp khác nhau cần được xem xét:
1. Thị sai dương: các điểm ảnh tương ứng có thị sai dương hoặc gọi là thị sai không xuyên chéo P khi điểm trong cảnh của mắt phải nằm về phía phải nhiều hơn so với các điểm ảnh tương ứng trong cảnh của mắt trái. Do đó, các tia nhìn liên quan hội tụ tại một điểm 3D sau màn hình, do vậy cảnh 3D được tái tạo được nhận thức trong không gian màn hình. Hơn nữa, nếu thị sai P chính xác bằng khoảng cách giữa hai mắt người xem te, điểm 3D sẽ được tái tạo ở vô cực. Điều này cũng có nghĩa là cực đại của thịsai dương là te.
2. Thị sai bằng 0: với thị sai bằng 0, các điểm ảnh tương ứng nằm ở cùng vị trí trong các cảnh dành cho mắt trái và mắt phải. Điểm 3D kết quả do đó được quan sát trực tiếp ở trên màn hình, một tình huống mà thường được gọi là thiết lập thị sai bằng không (ZPS)
3. Thị sai âm: các điểm ảnh kết hợp với thị sai âm hay còn gọi là thị sai xuyên chéo P khi mà các điểm nằm trong cảnh dành cho mắt phải nằm về phía trái nhiều hơn so với các điểm tương ứng trong cảnh dành cho mắt trái. Các tia nhìn do đó hội tụ tại một điểm 3D ở mặt trước của màn hình trong không gian người xem.
Góc thị sai là không giới hạn khi nhìn các cảnh trong thế giới thực. Trong trường hợp này, các mắt đồng thời hội tụvà điều chỉnh trên vật thể quan tâm. Như đã giải thích, việc kết hợp này thể hiện các hoạt động cho phép người quan sát hợp nhất ảnh lập thể của vật thể quan tâm và, đồng thời, nén hiệu ứng nhìn một thành hai (ảnh kép) cho các phần của cảnh nằm ngoài vùng hợp nhất Panum xung quan vật thể được quan tâm. Tuy nhiên, trong việc tạo ra các ảnh lập thể quá trình này hơi khác. Khi nhìn vào một hiển thị 3D lập thể, các mắt luôn luôn điều chỉnh trên bề mặt của màn hình, nhưng chúng hội tụ theo thị sai (Hình 15). Độ lệch do kinh nghiệm và thói quen tương quan giữa điều chỉnh và hội tụđược gọi là xung đột điều chỉnh – hội tụ. Nó là một trong những nguyên nhân chính gây ra mỏi mắt, rối loạn và mất hiệu ứng lập thể trong các sản phẩm nội dung 3D lập thể. Do vậy, đảm bảo
49 rằng góc thị sai cực đại ∆αmaxđược giữ trong giới hạn chấp nhận được, hay nói theo cách khác, đảm bảo rằng thế giới 3D được tái tạo gần với bề mặt màn hình hiển thị 3D là rất quan trọng.
Việc tạo ra các ảnh nổi phẳng đòi hỏi phải thu hình với một camera thu hình nổi được đồng bộ hóa. Do hệ thống 2 camera này được thiết lập đểthu được các tín hiệu độ sâu tự nhiên dành cho hai mắt, nên không ngạc nhiên là thiết kế của chúng mô tả giống như HVS. Ví dụ, khoảng cách giữa các trục quang của camera tc
thường được chọn bằng với khoảng cách giữa hai mắt người te. Ngoài ra, tương tự với khảnăng hội tụ của HVS, hệ thống camera lập thể cần phải được thiết lập để có được điều kiện hội tụ mong muốn hay gọi là ZPS; tức là chọn được phần cần ghi của cảnh 3D để tái tạo chính xác trên màn hình hiển thị. Như được mô tả trong Hình 16, điều này có thểđạt được bằng hai cấu hình camera khác nhau.
1. Thiết lập chụm - “Toed-In”: thiết lập chụm - toed-in được mô tả trong Hình 16(a), điểm hội tụ nằm trên một mặt phẳng liên kết cùng với các thấu kính trái và phải của các camera.
2. Thiết lập “song song”: được mô tả trong Hình 16(b), một mặt phẳng hội tụ được thiết lập cốđịnh theo mặt phẳng các cảm biến của camera.
Tiếp cận chụm - toed-in theo trực quan có vẻnhư là giải pháp tốt hơn do nó phù hợp với nguyên tắc hội tụ của HVS. Tuy nhiên, như đã mô tả trước đây, tiếp cận song song vẫn là giải pháp tốt hơn, do nó cung cấp chất lượng ảnh lập thểcao hơn.