Bài toán đối sánh

Đối sánh ảnh là công việc tìm sự tương ứng giữa hai hay nhiều ảnh (hình 2.8).P1’ và P2’ cùng là ảnh của P, trong khi Q1’ và Q2’ cùng là ảnh của Q. Tìm mối quan hệ

giữa các ảnh đầu vào là một lĩnh vực khó trong thị giác máy, đặc biệt khi các ảnh

đầu vào không có ràng buộc. Trong vòng 15 năm qua đã có rất nhiều nghiên cứu xung quanh vấn đề này.

Có nhiều loại ràng buộc, tuy nhiên trong một thuật toán, một phương pháp giải không thể thoả mãn hết các ràng buộc đưa ra. Dưới đây là một số ràng buộc của bài toán đối sánh.

Ràng buộc hình học: (i) Ràng buộc epiloplar: với cặp điểm tương ứng (x, x’) thì x’ phải nằm trên đường epipolar của x và ngược lại. Nhờ ràng buộc này không gian tìm kiếm khi đối sánh giảm từ hai chiều xuống 1 chiều thông qua quá trình chỉnh sửa ảnh. (ii) Ràng buộc về sự hiển thị: vật có bị che khuất bởi vật khác hay không, vật có nằm trong cửa sổ hiển thị hay không, hay vật có nằm trong tầm nhìn hay không...

Ràng buộc vật lý: thể hiện cách các mô hình đối tượng, khung cảnh khi có sự tương tác với ánh sáng.

Ràng buộc duy nhất: Mỗi một điểm thuộc ảnh thứ nhất chỉ có duy nhất một điểm

đối sánh tương ứng duy nhất trên ảnh thứ hai và ngược lại.

Ràng buộc liên tục: Xét cặp đối sánh ứng cử viên (c1i,c2j) trong đó c1i thuộc ảnh thứ

nhất, c2j thuộc ảnh thứ hai. N(c1i), và N(c2j) tương ứng là lân cận của c1i và c2j. (c1i,c2j) là một cặp đối sánh tốt nếu có nhiều cặp đối sánh (d1k, d2l) trong đó

và

( )i

k N c

d1 ∈ 1 d2l∈N( )c2j sao cho vị trí tương đối của d1k với c1i tương tự quan hệ

giữa d2l với c2j.

Theo một khảo sát năm 1988 [2], các nhà nghiên cứu thông thường sử dụng kết hợp các ràng buộc nêu trên. Tuy nhiên, bản báo cáo khảo sát cũng chỉ ra rằng không có một kĩ thuật, thuật toán nào tối ưu và có thể giải quyết hết được tất cả cảc ràng buộc. Mỗi cách tiếp cận khác nhau thì sử dụng một độđo nào đó và cũng có những hạn chế của nó. Việc đối sánh với các ảnh chụp sử dụng camera tự do được chia làm hai loại chính [29]: Đối sánh dựa trên miền và đối sánh dựa vào đặc trưng.

Đối sánh dựa trên miền: trong cách tiếp cận này các thuật toán sử dụng độ đo độ

Đối sánh dựa vào các đặc trưng: thực hiện việc đối sánh dựa trên các tham số mức cao hơn đó là các đặc trưng của ảnh, những thuật toán này được phân loại tiếp dựa vào các loại đặc trưng:

• Đối sánh dựa vào biên (Edge-string based) • Đối sánh dựa vào góc (Corner based)

• Đối sánh dựa vào kết cấu (Texture region based)

Trong qui trình dựng mô hình 3 chiều từ các ảnh bao gồm cả hai loại đối sánh trên.

Đối sánh đặc trưng được sử dụng trước để tìm ra mối liên hệ giữa các ảnh và được áp dụng trong quá trình tiền xử lý để tính ra ma trận cơ bản F. Trong bước này chỉ

một lượng ít các cặp điểm của hai ảnh được đối sánh. Ngược lại, đối sánh dựa trên miền sẽ sinh ra một bản đồ “dày dặc” các cặp điểm tương ứng tại bước đối sánh.

A. Đối sánh dựa trên miền

Cho 2 ảnh chụp cùng một cảnh. Ảnh càng ít bị co dãn thì việc tính độ tương tự giữa hai ảnh càng dễ dàng. Nếu ảnh được chia thành các miền nhỏ hơn thì với mỗi một miền nhỏ việc tìm miền nhỏ tương ứng với nó ở ảnh khác cũng dễ dàng hơn. Do vậy, trong các kĩ thuật đối sánh miền, ảnh được chia thành các miền con hay các khối, một độ đo độ tương tự được đưa ra để đánh giá mức độ tương tự giữa các miền con của hai ảnh. Việc sử dụng độ đo tương tự nào quyết định đến sự thành công của các kĩ thuật đối sánh dựa trên miền. Độđo độ tương tự bắt nguồn từ cường

độ mức xám của ảnh là một giải pháp tốt trong thử nghiệm. Các thuật toán thuộc dạng này luôn cho một bản đồ dày đặc các cặp điểm đối sánh, từ đó, độ sâu được tính cho tất cả các điểm ảnh ở trong cảnh.

Có rất nhiều thuật toán về đối sánh miền, bảng 2.2 dưới đây tóm tắt một số thuật toán. Phillippe Leclercq và John Morris thực hiện một số thử nghiệm để tiến hành so sánh các thuật toán này [11]. Theo đánh giá này, thuật toán P2P cho kết quả tốt nhất, các thuật toán Corr1, Corr2, SSD và SAD cho kết quả khá tốt với các mức độ

nhiễu khác nhau, trong khi đó thuật toán Census cho tỉ lệ lỗi cao khi tính độ chênh lệch.

Thuật toán Hàm đánh giá đối sánh Tác giả

Corr1: Normalized Intensity Difference ( ) ∑ ∑ ∑ − 2 2 2 R R L I I I IL [Faugeras et al. 1993] Corr2: Correlation ∑ ∑∑2 2 R R L L I I I I [Faugeras et al. 1993]

SAD: Sum of Absolute Differences ( ) ∑ − 2 R L I I [Faugeras et al. 1993] SSD: Sum of Square Difference ∑IL −IR [Faugeras et al. 1993]

P2P: Pixel-to-Pixel “Động” (Dynamic) [Birchfield và Tomasi 1998]

Census Biến đổi Census [Zabih và Woodfill 1994]

Bảng 2.2. Một số thuật toán đối sánh dựa trên miền

Hình 2.9 là đồ thị biểu thị kết quả so sánh một số thuật toán đối sánh dựa trên miền. Mặc dù, thuật toán SSD, SAD, Corr1 và Corr2 có kết quả không tốt bằng P2P nhưng việc triển khai các thuật toán này lại dễ dàng hơn so với P2P nên các thuật toán này vẫn được dùng phổ biến.

B. Đối sánh dựa vào đặc trưng

Các đặc trưng thông thường có các thuộc tính sau: tính duy nhất, tính lặp lại và có ý nghĩa vật lý. Ưu điểm khi sử dụng kĩ thuật đối sánh dựa vào đặc trưng là các biểu diễn dựa trên đặc trưng cung cấp sự linh hoạt tính toán cho người lập trình. Sự linh hoạt thể hiện ở chỗ, các ràng buộc toán học được áp dụng rõ ràng, rành mạch cho cấu trúc dữ liệu. Khi so sánh với đối sánh dựa trên miền, các kĩ thuật đối sánh dựa vào đặc trưng chỉ cho một lượng ít cặp điểm đối sánh kết quả, nhưng chính xác hơn và đáng tin cậy hơn.

Trong cách tiếp cận đối sánh dựa vào đặc trưng, đầu tiên cặp ảnh được xử lý để lấy ra các đặc trưng. Sau đó xử lý đối sánh trên các đặc trưng này. Một câu hỏi được đặt ra là loại đặc trưng nào sẽđược sử dụng đểđối sánh? Đường biên, góc, đoạn thẳng,

đường cong là những đặc trưng sử dụng tốt khi có sự thay đổi phép chiếu phối cảnh, do vậy được sử dụng rộng rãi trong đối sánh. Biên và góc dễ trong khâu trích chọn nhưng khi đối sánh lại hay gặp hiện tượng nuốt ảnh. Trong khi đường thẳng và

đường cong ít xảy ra hiện tượng nuốt ảnh nhưng lại mất thêm thời gian để trích chọn.

Hầu hết các hệ thống đối sánh dựa trên đặc trưng không chỉ giới hạn ở các kiểu đặc trưng cụ thể mà kết hợp các dạng đặc trưng lại với nhau. Như hệ thống đối sánh Weng đưa ra năm 1988 kết hợp độ trù mật, các đường biên, các góc. Trong khi hệ

thống của Lim và Bin (1987) lại sử dụng sự phân cấp các đặc trưng thay đổi từ các

Dưới đây là một số kiểu đặc trưng dùng cho đối sánh:

Đường biên: Có rất nhiều toán tử dùng để tìm các đường biên trong một ảnh như

toán tử Candy, Laplace.

Thuộc tính của đường biên dùng cho đối sánh có thể là: các tọa độ (vị trí của các

đường biên trong ảnh), hướng cục bộ, độ trù mật của hai bên biên.

Góc: Phương pháp tìm điểm góc sớm nhất có lẽ là của Beaudet (1978) có tên gọi DET. Những toán tử phát hiện góc được công bố trong những năm 1980 gồm có: các toán tử của Dreshler và Nagel (1982), Kitchen và Rosenfeld (1982), Zuniga và Haralick (1983), Harris (1988)…Toán tử phát hiện góc SUSAN là 1 trong những toán tửđược sử dụng phổ biến vì tính đơn giản và hiệu quả.

Thuộc tính của góc dùng để đối sánh cho các điểm góc có thể là tọa độ của góc hay dạng của góc (dạng chữ Y, L hay A…)

Đoạn thẳng: Để trích chọn ra các đoạn thẳng trong ảnh có thể áp dụng một trong những toán tử dò biên. Các đoạn thẳng được hình thành bằng cách hòa trộn các thao tác trên các đường biên dựa trên một số tiêu chuẩn về khoảng cách, độ tương tự. Một số thuật toán tìm đường thẳng đã được công bố như thuật toán của Nevatia và Babu (1980), Fishler và Bolles (1983), Weiss và Boldt (1986).

Thuộc tính của đường thẳng dùng cho đối sánh: tọa độ điểm đầu điểm cuối, trung

điểm, hướng của đường thẳng.

Đường cong: Đối sánh các đường cong không được sử dụng rộng rãi vì trích chọn các đường cong rất khó. Deriche và Faugeras thông báo về toán tử phát hiện đường cong (1990) là một trong số rất ít nghiên cứu vềđường cong.

Đường tròn, Elip, đa giác: Những đặc trưng này thường xuất hiện ở cảnh chụp trong nhà.

Đặc trưng điểm góc SUSAN được sử dụng do vậy việc đối sánh được tìm hiểu trong luận văn thuộc loại đối sánh góc và có 2 bước chính sau đây:

• Tìm ra tập C các cặp đối sánh ứng cử viên từ 2 tập các điểm góc của 2 ảnh sử dụng cửa sổ tương quan. • Tìm ra tập D các cặp đối sánh tốt nhất từ tập C dùng thủ tục phục hồi, nói cách khác, loại bỏ những cặp đối sánh ứng cử viên tồi từ tập C. 2.2.4. Tìm ma trận cơ bản F A. Ma trận cơ bản F Ma trận cơ bản F là biểu diễn đại số của hình học epipolar và được tính từ các cặp

đối sánh (x,x’). Ràng buộc epipolar biểu diễn mối quan hệ giữa một điểm trong cặp

điểm đối sánh với đường epipolar tương ứng của nó. Điểm đối sánh x’ trên ảnh thứ

2 của điểm x trên ảnh thứ nhất chỉ nằm trên đường epipolar tương ứng l’ của x. '

l xα

Phép ánh xạ từđiểm tới đường nêu trên được biểu diễn bởi ma trận cơ bản F. Phép ánh xạ từ một điểm x trong một ảnh tới epipolar l’ tương ứng trên ảnh còn lại gồm 2 bước. Đầu tiên điểm x được ánh xạ đến một điểm x’ nào đó trên đường l’ của ảnh thứ 2. Điểm x’ này là một trong những ứng cử viên đối sánh của x. Bước thứ hai,

đường epipolar l’ được xác định thông qua x’ và điểm epipople e’.

- Bước 1: Tìm điểm x’. quan sát hình 2.10, mặt phẳng π không đi qua 2 tâm camera C và C’. Một tia chiếu đi qua tâm chiếu thứ nhất C và điểm x gặp mặt phẳng π tại điểm X. Tia chiếu đi qua tâm chiếu 2 C’ và điểm X giao với mặt phẳng ảnh 2 tại x’. x và x’ là ảnh của điểm 3 chiều X. Với một tập xiđiểm ảnh trên ảnh thứ nhất, qua các phép chiếu qua mặt phẳng π được một tập tương

ứng. Phép ánh xạ như vậy có được thông qua ma trận đồng hình của mặt phẳng của ' i x π H π, do vậy x' =Hπx.

Hình 2.10. Tìm điểm tương ứng x’ của x qua mặt phẳng π - Bước 2: Xây dựng đường epipolar l’. l' =e'×x' =[ ]e' xx' mặt khác

do đó x H x' = π [ ]e H x Fx l' = ' × π = Trong đó định nghĩa F =[ ]e' ×Hπ là ma trận cơ bản.

(Result 8.3 - tr 225) [15] Ma trận cơ bản F thoả mãn điều kiện sau:

'Fx=

trong đó (x,x’) là cặp điểm đối sánh trên hai ảnh.

Một số thuật toán được đề cập đến trong cuốn sách của Hartley [15] như: Thuật toán 8 điểm được chuẩn hóa (phụ lục B), thuật toán tối thiểu lỗi đại số, thuật toán tối thiểu lỗi hình học Gold Standard và thuật toán tính F sử dụng RANSAC.

Trong cuốn sách, Hartley cũng nêu ra việc đánh giá một số thuật toán thông qua thực nghiệm. Việc đánh giá được tiến hành trên 3 thuật toán đầu tiên. Một vài kết luận được đưa ra [15]:

• Hai thuật toán sau kết quả không có mấy sự khác biệt.

• Để tính toán được nhanh nên sử dụng thuật toán 8 điểm được chuẩn hóa. Thuật toán này nếu được áp dụng là bước ước lượng đầu tiên trong các thuật toán khác thì cho kết quả rất tốt.

• Để đạt kết quả chính xác như mong muốn, nên sử dụng thuật toán tối thiểu lỗi đại số.

• Đểđạt được kết quả tốt nhất với giả thiết nhiễu phân phối theo hàm Gaussian thì sử dụng thuật toán Gold Standard.

Đồng thời trong cuốn sách Hartley cũng đề xuất thuật toán sử dụng RANSAC với một sốđặc điểm sau:

• Chỉ cần lấy mẫu 7 cặp điểm đối sánh tương ứng để tính F. Thuật toán sẽ tự động tính ra ma trận hạng 2 chứ không cần xử lý như trong thuật toán 8

điểm.

• Một lượng lớn các mẫu cặp điểm đối sánh được gọi đến nhằm đưa ra kết quả

có độ chính xác cao.

2.2.5. Chỉnh sửa ảnh

Để dựng được mô hình 3 chiều, tất cả các cặp ảnh tương ứng trong hai ảnh gốc phải

được tìm ra. Như vậy, xét một điểm x trong ảnh thứ nhất ta phải tìm được điểm x’ tương ứng trong ảnh thứ hai, từ đó, đi tìm điểm 3 chiều X của x và x’. Tuy nhiên, khi đã biết điểm x, việc tìm kiếm x’ trong toàn bộảnh hai thì không hiệu quả. Chỉnh sửa ảnh có tác dụng làm giảm không gian tìm kiếm x’ từ 2 chiều xuống 1 chiều. Như trình bày ở trên, cho cặp điểm tương ứng (p, p’) thì pvà p’ phải thoả mãn ràng buộc epiplar (hình 2.11). Cho trước ảnh bên trái I, điểm P 3 chiều có điểm ảnh p trên I phải tính điểm p’. P phải thuộc đường thẳng nối liền điểm p và tâm chiếu C, do vậy điểm tương ứng p’ thuộc ảnh của đường thẳng nối p và C nêu trên. Hay nói cách khác p’ thuộc l’. Ảnh được chỉnh sửa sao cho tất cả các epipolar đều nằm ngang. Do vậy x2 được tìm bằng cách quét trên các đường nằm ngang. Không gian tìm kiếm của x2đã rút từ 2 chiều sang 1 chiều. Hầu hết các thuật toán đối sánh toàn bộ ảnh đều thực hiện trên ảnh đã được chỉnh sửa nhằm giảm không gian tìm kiếm xuống 1 chiều.

Hình 2.11. Ràng buộc epipolar

Vậy nhiệm vụ của chỉnh sửa ảnh là biến đổi ảnh sao cho các đường epipolar song song với nhau theo chiều ngang (hình 2.12). Nhiều phương pháp chỉnh sửa ảnh đã

được biết đến. Phương pháp chỉnh sửa ảnh phẳng (planar rectification) [16,17] dùng một biến đổi tuyến tính đơn trên mỗi ảnh đầu vào, xoay các camera sao cho các mặt phẳng ảnh giống nhau. Phương pháp này đơn giản, nhanh chóng và bảo toàn một số đặc trưng của ảnh như các đường thẳng. Tuy nhiên, phương pháp này có thể cho ảnh kết quả quá lớn, bị bóp méo và không “đóng” (unbounded). Kĩ thuật chỉnh sửa ảnh trục (cylindrical rectification) [20] sử dụng các biến đổi riêng biệt cho mỗi đường epipolar. Tuy nhiên kĩ thuật này quá phức tạp và các toán tử cần

được tính toán trong không gian 3 chiều. Các thuật toán chỉnh sửa ảnh khác nhau

được đưa ra trong các bài giảng (Ayache and Lustman, 1991; Fusiello et al ., 2000; Hartly, 1999; Robert et al., 1995; Mulligan and Kanillidis, 2000; Isgro and Trucco, 1999). Hầu hết các thuật toán đều sử dụng phép biến đổi thuần nhất.

Đề tài này sử dụng phương pháp đề xuất bởi Marc Pollefeys [8]. Biến đổi hai

ảnh sao cho các đường epipolar của hai ảnh trùng nhau. Sau đó tiến hành biến đổi

ảnh sang tọa độ cực sao cho các đường epipolar song song với nhau và song song với đường cơ bản.

Hình 2.12. Chỉnh sửa ảnh

2.2.6. Khôi phục độ sâu

Độ chênh lệch

Độ lệch thị giác (vision disparity): là sự khác biệt giữa hai ảnh trên võng mạc của mắt khi quan sát đối tượng. Điều này xảy ra vì hai mắt ở vị trí khác nhau cho nên mặc dù quan sát cùng một đối tượng nhưng mắt trái không thu nhận cùng một thông tin như mắt phải [24].

Bản đồ chênh lệch của ảnh sau khi chỉnh sửa:

Chỉnh sửa ảnh tạo ra các ảnh mới có các đường epipolar song song với nhau và

Xây dựng ảnh chỉnh sửa