Một số thuật toán đối sánh dựa trên miền

Hình 2.9 là đồ thị biểu thị kết quả so sánh một số thuật toán đối sánh dựa trên miền. Mặc dù, thuật toán SSD, SAD, Corr1 và Corr2 có kết quả không tốt bằng P2P nhưng việc triển khai các thuật toán này lại dễ dàng hơn so với P2P nên các thuật toán này vẫn được dùng phổ biến.

B. Đối sánh dựa vào đặc trưng

Các đặc trưng thông thường có các thuộc tính sau: tính duy nhất, tính lặp lại và có ý nghĩa vật lý. Ưu điểm khi sử dụng kĩ thuật đối sánh dựa vào đặc trưng là các biểu diễn dựa trên đặc trưng cung cấp sự linh hoạt tính toán cho người lập trình. Sự linh hoạt thể hiện ở chỗ, các ràng buộc toán học được áp dụng rõ ràng, rành mạch cho cấu trúc dữ liệu. Khi so sánh với đối sánh dựa trên miền, các kĩ thuật đối sánh dựa vào đặc trưng chỉ cho một lượng ít cặp điểm đối sánh kết quả, nhưng chính xác hơn và đáng tin cậy hơn.

Trong cách tiếp cận đối sánh dựa vào đặc trưng, đầu tiên cặp ảnh được xử lý để lấy ra các đặc trưng. Sau đó xử lý đối sánh trên các đặc trưng này. Một câu hỏi được đặt ra là loại đặc trưng nào sẽđược sử dụng đểđối sánh? Đường biên, góc, đoạn thẳng,

đường cong là những đặc trưng sử dụng tốt khi có sự thay đổi phép chiếu phối cảnh, do vậy được sử dụng rộng rãi trong đối sánh. Biên và góc dễ trong khâu trích chọn nhưng khi đối sánh lại hay gặp hiện tượng nuốt ảnh. Trong khi đường thẳng và

đường cong ít xảy ra hiện tượng nuốt ảnh nhưng lại mất thêm thời gian để trích chọn.

Hầu hết các hệ thống đối sánh dựa trên đặc trưng không chỉ giới hạn ở các kiểu đặc trưng cụ thể mà kết hợp các dạng đặc trưng lại với nhau. Như hệ thống đối sánh Weng đưa ra năm 1988 kết hợp độ trù mật, các đường biên, các góc. Trong khi hệ

thống của Lim và Bin (1987) lại sử dụng sự phân cấp các đặc trưng thay đổi từ các

Dưới đây là một số kiểu đặc trưng dùng cho đối sánh:

Đường biên: Có rất nhiều toán tử dùng để tìm các đường biên trong một ảnh như

toán tử Candy, Laplace.

Thuộc tính của đường biên dùng cho đối sánh có thể là: các tọa độ (vị trí của các

đường biên trong ảnh), hướng cục bộ, độ trù mật của hai bên biên.

Góc: Phương pháp tìm điểm góc sớm nhất có lẽ là của Beaudet (1978) có tên gọi DET. Những toán tử phát hiện góc được công bố trong những năm 1980 gồm có: các toán tử của Dreshler và Nagel (1982), Kitchen và Rosenfeld (1982), Zuniga và Haralick (1983), Harris (1988)…Toán tử phát hiện góc SUSAN là 1 trong những toán tửđược sử dụng phổ biến vì tính đơn giản và hiệu quả.

Thuộc tính của góc dùng để đối sánh cho các điểm góc có thể là tọa độ của góc hay dạng của góc (dạng chữ Y, L hay A…)

Đoạn thẳng: Để trích chọn ra các đoạn thẳng trong ảnh có thể áp dụng một trong những toán tử dò biên. Các đoạn thẳng được hình thành bằng cách hòa trộn các thao tác trên các đường biên dựa trên một số tiêu chuẩn về khoảng cách, độ tương tự. Một số thuật toán tìm đường thẳng đã được công bố như thuật toán của Nevatia và Babu (1980), Fishler và Bolles (1983), Weiss và Boldt (1986).

Thuộc tính của đường thẳng dùng cho đối sánh: tọa độ điểm đầu điểm cuối, trung

điểm, hướng của đường thẳng.

Đường cong: Đối sánh các đường cong không được sử dụng rộng rãi vì trích chọn các đường cong rất khó. Deriche và Faugeras thông báo về toán tử phát hiện đường cong (1990) là một trong số rất ít nghiên cứu vềđường cong.

Đường tròn, Elip, đa giác: Những đặc trưng này thường xuất hiện ở cảnh chụp trong nhà.

Đặc trưng điểm góc SUSAN được sử dụng do vậy việc đối sánh được tìm hiểu trong luận văn thuộc loại đối sánh góc và có 2 bước chính sau đây:

• Tìm ra tập C các cặp đối sánh ứng cử viên từ 2 tập các điểm góc của 2 ảnh sử dụng cửa sổ tương quan. • Tìm ra tập D các cặp đối sánh tốt nhất từ tập C dùng thủ tục phục hồi, nói cách khác, loại bỏ những cặp đối sánh ứng cử viên tồi từ tập C. 2.2.4. Tìm ma trận cơ bản F A. Ma trận cơ bản F Ma trận cơ bản F là biểu diễn đại số của hình học epipolar và được tính từ các cặp

đối sánh (x,x’). Ràng buộc epipolar biểu diễn mối quan hệ giữa một điểm trong cặp

điểm đối sánh với đường epipolar tương ứng của nó. Điểm đối sánh x’ trên ảnh thứ

2 của điểm x trên ảnh thứ nhất chỉ nằm trên đường epipolar tương ứng l’ của x. '

l xα

Phép ánh xạ từđiểm tới đường nêu trên được biểu diễn bởi ma trận cơ bản F. Phép ánh xạ từ một điểm x trong một ảnh tới epipolar l’ tương ứng trên ảnh còn lại gồm 2 bước. Đầu tiên điểm x được ánh xạ đến một điểm x’ nào đó trên đường l’ của ảnh thứ 2. Điểm x’ này là một trong những ứng cử viên đối sánh của x. Bước thứ hai,

đường epipolar l’ được xác định thông qua x’ và điểm epipople e’.

- Bước 1: Tìm điểm x’. quan sát hình 2.10, mặt phẳng π không đi qua 2 tâm camera C và C’. Một tia chiếu đi qua tâm chiếu thứ nhất C và điểm x gặp mặt phẳng π tại điểm X. Tia chiếu đi qua tâm chiếu 2 C’ và điểm X giao với mặt phẳng ảnh 2 tại x’. x và x’ là ảnh của điểm 3 chiều X. Với một tập xiđiểm ảnh trên ảnh thứ nhất, qua các phép chiếu qua mặt phẳng π được một tập tương

ứng. Phép ánh xạ như vậy có được thông qua ma trận đồng hình của mặt phẳng của ' i x π H π, do vậy x' =Hπx.

Hình 2.10. Tìm điểm tương ứng x’ của x qua mặt phẳng π- Bước 2: Xây dựng đường epipolar l’. l' =e'×x' =[ ]e' xx' mặt khác - Bước 2: Xây dựng đường epipolar l’. l' =e'×x' =[ ]e' xx' mặt khác

do đó x H x' = π [ ]e H x Fx l' = ' × π = Trong đó định nghĩa F =[ ]e' ×Hπ là ma trận cơ bản.

(Result 8.3 - tr 225) [15] Ma trận cơ bản F thoả mãn điều kiện sau:

'Fx=

trong đó (x,x’) là cặp điểm đối sánh trên hai ảnh.

Một số thuật toán được đề cập đến trong cuốn sách của Hartley [15] như: Thuật toán 8 điểm được chuẩn hóa (phụ lục B), thuật toán tối thiểu lỗi đại số, thuật toán tối thiểu lỗi hình học Gold Standard và thuật toán tính F sử dụng RANSAC.

Trong cuốn sách, Hartley cũng nêu ra việc đánh giá một số thuật toán thông qua thực nghiệm. Việc đánh giá được tiến hành trên 3 thuật toán đầu tiên. Một vài kết luận được đưa ra [15]:

• Hai thuật toán sau kết quả không có mấy sự khác biệt.

• Để tính toán được nhanh nên sử dụng thuật toán 8 điểm được chuẩn hóa. Thuật toán này nếu được áp dụng là bước ước lượng đầu tiên trong các thuật toán khác thì cho kết quả rất tốt.

• Để đạt kết quả chính xác như mong muốn, nên sử dụng thuật toán tối thiểu lỗi đại số.

• Đểđạt được kết quả tốt nhất với giả thiết nhiễu phân phối theo hàm Gaussian thì sử dụng thuật toán Gold Standard.

Đồng thời trong cuốn sách Hartley cũng đề xuất thuật toán sử dụng RANSAC với một sốđặc điểm sau:

• Chỉ cần lấy mẫu 7 cặp điểm đối sánh tương ứng để tính F. Thuật toán sẽ tự động tính ra ma trận hạng 2 chứ không cần xử lý như trong thuật toán 8

điểm.

• Một lượng lớn các mẫu cặp điểm đối sánh được gọi đến nhằm đưa ra kết quả

có độ chính xác cao.

2.2.5. Chỉnh sửa ảnh

Để dựng được mô hình 3 chiều, tất cả các cặp ảnh tương ứng trong hai ảnh gốc phải

được tìm ra. Như vậy, xét một điểm x trong ảnh thứ nhất ta phải tìm được điểm x’ tương ứng trong ảnh thứ hai, từ đó, đi tìm điểm 3 chiều X của x và x’. Tuy nhiên, khi đã biết điểm x, việc tìm kiếm x’ trong toàn bộảnh hai thì không hiệu quả. Chỉnh sửa ảnh có tác dụng làm giảm không gian tìm kiếm x’ từ 2 chiều xuống 1 chiều. Như trình bày ở trên, cho cặp điểm tương ứng (p, p’) thì pvà p’ phải thoả mãn ràng buộc epiplar (hình 2.11). Cho trước ảnh bên trái I, điểm P 3 chiều có điểm ảnh p trên I phải tính điểm p’. P phải thuộc đường thẳng nối liền điểm p và tâm chiếu C, do vậy điểm tương ứng p’ thuộc ảnh của đường thẳng nối p và C nêu trên. Hay nói cách khác p’ thuộc l’. Ảnh được chỉnh sửa sao cho tất cả các epipolar đều nằm ngang. Do vậy x2 được tìm bằng cách quét trên các đường nằm ngang. Không gian tìm kiếm của x2đã rút từ 2 chiều sang 1 chiều. Hầu hết các thuật toán đối sánh toàn bộ ảnh đều thực hiện trên ảnh đã được chỉnh sửa nhằm giảm không gian tìm kiếm xuống 1 chiều.

Hình 2.11. Ràng buộc epipolar

Vậy nhiệm vụ của chỉnh sửa ảnh là biến đổi ảnh sao cho các đường epipolar song song với nhau theo chiều ngang (hình 2.12). Nhiều phương pháp chỉnh sửa ảnh đã

được biết đến. Phương pháp chỉnh sửa ảnh phẳng (planar rectification) [16,17] dùng một biến đổi tuyến tính đơn trên mỗi ảnh đầu vào, xoay các camera sao cho các mặt phẳng ảnh giống nhau. Phương pháp này đơn giản, nhanh chóng và bảo toàn một số đặc trưng của ảnh như các đường thẳng. Tuy nhiên, phương pháp này có thể cho ảnh kết quả quá lớn, bị bóp méo và không “đóng” (unbounded). Kĩ thuật chỉnh sửa ảnh trục (cylindrical rectification) [20] sử dụng các biến đổi riêng biệt cho mỗi đường epipolar. Tuy nhiên kĩ thuật này quá phức tạp và các toán tử cần

được tính toán trong không gian 3 chiều. Các thuật toán chỉnh sửa ảnh khác nhau

được đưa ra trong các bài giảng (Ayache and Lustman, 1991; Fusiello et al ., 2000; Hartly, 1999; Robert et al., 1995; Mulligan and Kanillidis, 2000; Isgro and Trucco, 1999). Hầu hết các thuật toán đều sử dụng phép biến đổi thuần nhất.

Đề tài này sử dụng phương pháp đề xuất bởi Marc Pollefeys [8]. Biến đổi hai

ảnh sao cho các đường epipolar của hai ảnh trùng nhau. Sau đó tiến hành biến đổi

ảnh sang tọa độ cực sao cho các đường epipolar song song với nhau và song song với đường cơ bản.

Hình 2.12. Chỉnh sửa ảnh

2.2.6. Khôi phục độ sâu

Độ chênh lệch

Độ lệch thị giác (vision disparity): là sự khác biệt giữa hai ảnh trên võng mạc của mắt khi quan sát đối tượng. Điều này xảy ra vì hai mắt ở vị trí khác nhau cho nên mặc dù quan sát cùng một đối tượng nhưng mắt trái không thu nhận cùng một thông tin như mắt phải [24].

Bản đồ chênh lệch của ảnh sau khi chỉnh sửa:

Chỉnh sửa ảnh tạo ra các ảnh mới có các đường epipolar song song với nhau và song song với đường cơ bản dựa trên ràng buộc epipolar. Tiến hành đối sánh trên

ảnh chỉnh sửa làm cho không gian tìm kiếm điểm đối sánh giảm từ 2 chiều xuống 1 chiều.

Nếu m1(u1,v1) thuộc ảnh thứ nhất, thì điểm tương ứng trên ảnh thứ hai là m2(u2,v2), tuy nhiên, đối với cặp ảnh đã được chỉnh sửa, với m1(u1,v1) thì điểm đối sánh tương

ứng sẽ là m2(u2,v1). Độ chênh lệch d được định nghĩa như sau d=u2-u1(hình 1.13). L là độ dài của đường cơ bản CC’. Z là độ sâu của điểm 3 chiều (khoảng cách tính từ điểm 3 chiều đến đường cơ bản). f là tiêu cự của camera (khoảng cách từ mặt

phẳng ảnh đến đường cơ bản). Hai mặt phẳng ảnh song song với đường cơ bản vì

ảnh đã được chỉnh sửa.

Dựa vào các quan hệ hình học của các đại lượng nêu trên, ta có được mối liên hệ

giữa độ sâu và độ chênh lệch theo công thức toán học sau:

d f L Z

Tuy nhiên nếu sử dụng công thức này trong tính toán độ sâu thì ta cần biết đại lượng L độ dài của đường cơ bản. Hay nói cách khác biết vị trí của hai camera khi chụp 2 ảnh đầu vào.

Hình 2.13. Mối liên hệ giữa độ chênh lệch và độ sâu

Điểm 3 chiều có thể tính được thông qua phép chiếu ngược lại từ hai điểm ảnh qua 2 tâm chiếu C và C’. Giao điểm của hai tia chiếu này là điểm 3 chiều cần tìm. Dẫu không biết được độ dài của đường cơ bản, nhưng các ma trận camera lại thể hiện các phép chiếu ngược. Các thuật toán tam giác tận dụng mối quan hệ giữa các ảnh thể hiện ở ma trận F, tìm ra các ma trận camera từđó tìm ra điểm 3 chiều thông qua các phép biến đổi.

CHƯƠNG 3: XÂY DỰNG BỘ CÔNG CỤ DỰNG MÔ HÌNH 3 CHIỀU TỪ CẶP ẢNH CHỤP

3.1. Mô hình bộ công cụ dựng mô hình 3 chiều từ cặp ảnh

Để có được một bộ công cụ hoàn chỉnh, chúng tôi lựa chọn mỗi bước trong qui trình tổng thể một kĩ thuật để triển khai và áp dụng dựa vào một sốưu điểm của chúng về độ phức tạp, thời gian tính toán cũng nhưđộ chính xác đã được phân tích ở chương 2. Các kĩ thuật được lựa chọn kết hợp lại với nhau và được biểu diễn bởi mô hình sau:

Tính điểm góc SUSAN

Đối sánh ảnh tương quan

2 ảnh Thuật toán tam

giác tối ưu Tập các điểm

3 chiều Chuyển sang tọa độc cực Tính ma trận F Đối sánh điểm SUSAN

Hình 3.1. Mô hình bộ công cụ dựng lấy thông tin 3 chiều từ cặp ảnh

Các phần tiếp theo của chương 3 sẽ đi sâu vào nghiên cứu từng kĩ thuật cũng như

thuật toán được lựa chọn trong mô hình để triển khai.

3.2. Điểm góc SUSAN

3.2.1. Một vài khái niệm

Để tìm ra các cạnh và góc của một đối tượng, ta sử dụng một mặt nạ hình tròn

(circular mask) và tâm hình tròn được coi như hạt nhân (nueleus) của mặt nạ. Xét một đối tượng hình chữ nhật màu đen trên nền trắng: Mặt nạ hình tròn có rơi vào 5 vị trí như sau (hình 3.2)

Hình 3.2. Mặt nạ hình tròn và vị trí tương đối so với đối tượng

Điểm đang xét là điểm mà ta cần quan tâm xem có phải là điểm đặc trưng hay không và tại đó ta đặt hạt nhân của mặt nạ hình tròn. Một miền ảnh đang xét là miền nằm trong vùng mặt nạ. Miền USAN (Univalue Segment Assimilating Nucleus) là miền bao gồm các điểm ảnh thuộc miền ảnh đang xét sao cho mỗi điểm ảnh đều có

độ sáng giống với độ sáng của điểm tại vị trí hạt nhân (hình 3.3).

Miền không cùng mức xám với hạt nhân

Miền cùng mức xám với hạt nhân

Hình 3.3. Miền USAN

Miền USAN mang rất nhiều thông tin quan trọng về trúc của miền ảnh xung quanh

điểm đang xét. Quan sát từ hình 3.2, hình 3.3 ta thấy, miền USAN đạt diện tích cực

1/2 diện tích cực đại này thì hạt nhân tiến dần tới biên của đối tượng. Diện tích miền USAN càng nhỏ đi, thì vị trí hạt nhân của mặt nạ càng tiến tới góc của đối tượng. Dựa vào miền USAN tìm ra các điểm góc SUSAN.

Một ảnh đầu vào được xử lý để đưa ra miền USAN cho từng điểm ảnh, từ thông tin của các miền USAN tìm ra những điểm góc, gần góc hoặc thuộc biên đối tượng (hình 3.4). Càng gần tới điểm góc số lượng điểm ảnh của miền USAN càng giảm.

Hình 3.4 Tìm điểm đặc trưng SUSAN

Đối với cách tiếp cận phát hiện góc này, rõ ràng không cần tính đến độ biến đổi mức xám hoặc xét đến giảm nhiễu của ảnh trước khi tiến hành trích chọn đặc trưng. Các điểm góc được dùng dưới dạng các điểm đặc trưng phải thoả mãn một số yêu cầu sau:

• Tất cả các điểm góc phải được phát hiện. • Không điểm góc nào phát hiện ra bị lỗi. • Các điểm góc phải được định vị tốt. • Các điểm góc phải được dùng hiệu quả

3.2.2. Thuật toán tìm điểm góc SUSAN

Phát hiện điểm góc SUSAN sử dụng mặt nạ hình tròn có bán kính 3.4 điểm ảnh,

Một số thuật toán đối sánh dựa trên miền

Các dạng đặc trưng khác nhau của ảnh

Đối sánh ảnh và lấy độ sâu