6. Dự kiến kết quả (vi ết theo từng nội dung nghiên cứ u, dự kiến logíc và khoa học,
1.4.2. Hệ thống dẫn đường cho robot cứu hộ sử dụng thị giác máy tính
Hệ thống stereo thị giác là hệ thống dùng để quan sát mơi trường bằng hai camera thị giác. Bản thân thuật ngữ “stereo” cĩ nguồn gốc từ tiếng Latin cĩ nghĩa là rắn, chắc chắn. Vậy ta hiểu vấn đề là để thu thập thơng tin từ mơi trường một cách chính xác, đầy đủ thì hệ thống quan sát cần phải cĩ nhiều camera đặt ở các gĩc độ
khác nhau. Hệ thống camera thị giác stereo thường đặt hai camera theo phương nằm
ngang giống như mắt người và mắt của hầu hết các động vật. Các đối tượng trong phạm vi quan sát được phản chiếu hình ảnh qua thấu kính của mỗi camera lên màn
chắn. Hệ thống thu được dữ liệu này gọi là cảnh. Tất nhiên mỗi cảnh gồm cĩ hai
ảnh, tương ứng camera bên trái thì cho ảnh trái và camera bên phải thì cho ảnh phải. Lúc này các đối tượng trong cảnh lại được hiện thị trong khơng gian hai chiều. Vấn
đề là nhờ cĩ quá trình và phương pháp xử lý thích hợp của hệ thống stereo thị giác này mà các đối tượng trong mơi trường được tái tạo trong một phối cảnh khơng gian ba chiều. Quá trình này gọi là chuyển đổi ngược phối cảnh. Quá trình này diễn ra càng nhanh và chính xác thì càng thuận lợi cho sự di chuyển tới đích, nhận dạng đối tượng… của hệ thống. Đối với bộ ĩc của con người thì vấn đề chuyển đổi phối cảnh ngược khơng cĩ gì khĩ khăn. Tuy nhiên đối với các máy tính thị giác thì cần phải giải quyết nhiều vấn đề phức tạp nhằm đạt được mục đích khai thác tối đa thơng tin nằm trong cảnh thu nhận được.
Hệ thống dẫn đường sử dụng thị giác máy tính vẫn cịn là một lĩnh vực mới mẻ ở Việt Nam và vẫn đang trong giai đoạn phát triển trên thế giới. Áp dụng kỹ
thuật này cho robot, chi phí tính tốn sẽ lớn nhưng đổi lại cĩ được nhiều thơng tin từ một hệ thống đầu vào duy nhất.
Bạch Ngọc Minh 17 Hình 0-5 : Hệ thống dẫn đường sử dụng thị giác máy tính
Trong quá trình hoạt động, rơ bốt cần thực hiện các thao tác chủ yếu là quan sát, thu thập dữ liệu về mơi trường xung quanh, đồng thời di chuyển hợp lý tới mục tiêu. Hầu hết các hoạt động trên đều diễn ra trong thời gian thực tức là địi hỏi việc xử lý dữ liệu thu thập được một cách nhanh chĩng với sự đảm bảo về tính chính xác.
Stereo camera[7] sẽ thu nhận hình ảnh từ mơi trường vào dưới dạng thơng tin hình ảnh. Sau đĩ, bộ vi điều khiển nhúng bên trong nĩ sẽ phân tích các hình ảnh thành các bề mặt, các vật cản và đối tượng.
Các thơng tin này sau đĩ được kết hợp cùng các thơng tin khác, được tổng hợp thành một tấm bản đồ mà hệ thống tìm đường cĩ thể hiểu được. Hệ thống tìm
đường dựa trên bản đồ và mục đích hành động sẽ đưa ra con đường chuẩn cho robot. Qua đĩ, nĩ đưa ra các tín hiệu điều khiển cho các cơ cấu chấp hành của robot thực hiện.
Để thu hẹp phạm vi của đồ án, đồ án này sẽ chỉ đưa ra cách trích ra các mặt phẳng và các vật cản trong mơi trường từ kết quả thu được của stereo camera. Các phương pháp vạch ra sẽ yêu cầu tài nguyên tính tốn thấp nhưng cĩ được kết quả
Bạch Ngọc Minh 18 Cuộc cách mạng khoa học kỹ thuật là một bước phát triển vượt bậc của lồi người, cuộc cách mạng đĩ đã làm thay đổi hồn tồn cuộc sống của con người trong tất cả mọi lĩnh vực của cuộc sống như cuộc sống, sản xuất, lao động,… Một thành tựu đáng kể đến là sự ra đời của robot. Robot thay thế các cơng việc nặng nhọc, làm việc trong mơi trường độc hại, nguy hiểm đến tính mạng. Đối với một số địa hình
khĩ khăn để di chuyển và xác định phương hướng ( vùng rừng núi, sa mạc, vùng nhiễm phĩng xạ, khí độc, khu vực bị khủng bố, vùng thiên tai,…). Ở những nơi này cần cĩ sự hỗ trợ của robot. Để cĩ thể hoạt động tốt tại các mơi trường này thì cần
phải cĩ một hệ thống định vị dẫn đường thơng minh cho robot khi vận hành. Trên thế giới và Việt Nam thì đã xuất hiện nhiều phương pháp khác nhau để định vị dẫn
đường cho robot ví dụ như:
• Hệ thống định vị sử dụng sĩng radio (Radio navigation) [1]. Với hệ thống
này để xác định một đối tượng (một vị trí) thì ta sử dụng sĩng điện từ để xác định vị trí thơng qua ba điểm ( tam giác). Với phương pháp này thì cĩ nhiều ưu điểm và
nhược điểm. Nhưng nhược điểm lớn nhất là khơng thể tích hợp trong các hệ thống
cĩ kích thước nhỏ.
• Hệ thống định vị GPS. Đây là một hệ thống định vị sử dụng vệ tinh nhân tạo do bộ quốc phịng Mỹ thiết lập và xây dựng. Để xác định vị trí thì cần phải cĩ ít nhất ba vệ tinh để xác định tọa độ điểm đĩ. Với sự phát triển mạnh về kỹ thuật làm cho kích thước và độ chính xác của máy thu ngày càng được nâng cao về chất lượng . Chính vì lý do đĩ mà hệ thống GPS ngày càng được tích hợp nhiều trong hệ thống
đặc biệt là trên robot.
Hệ thống RNV với mục đích thay thế cho con người cho cơng việc cứu hộ
trong những mơi trường khắc nghiệt, nhiễm độc hay phĩng xạ… ảnh hưởng tới sức
khỏe cũng nhưtính mạng của con người tham gia cơng tác này.
1.5. Cơ sở tính tốn ảnh stereo
Mọi cách giải quyết mới đều phải được phát triển trên một nền tảng sẵn cĩ. Ở
chương 2, các kỹ thuật cơ bản của xử lý ảnh 3D sẽ được đưa ra để làm cơ sở phát triển cho các thuật tốn về sau. Bước đầu tiên, chúng ta sẽ tìm hiểu về ảnh 3D và
Bạch Ngọc Minh 19 máy quay 3D, nền tảng cơ sởđầu tiên của hệ thống. Sau đĩ, các kỹ thuật xử lý để
trích ra nội dung của ảnh sẽ được bàn đến. Các kỹ thuật này chỉ là cơ bản để những kỹ thuật được phát hiện trong đồ án này sẽ dựa vào đĩ mà hồn thiện.
1.5.1. Ảnh 3D và ứng dụng
Ảnh 3D là ảnh mà bản thân nĩ cĩ chứa nội dung về chiều sâu. Các điểm ảnh ngồi các giá trị về màu sắc, tọa độ theo hai trục cơ bản cịn cĩ giá trị về chiều sâu.
Để tạo nên được tấm ảnh 3D, người ta thực hiện đồng thời hai tấm ảnh về cùng một nội dung nhưng khác hướng.
Hình 0.5: Một cảnh trong phim 3D
Hình 0.5 thể hiện một tấm ảnh 3D được theo dõi bằng mắt kính chuyên dụng.
Ảnh trên được cấu tạo từ hai tấm ảnh khác nhau được trộn bởi 2 dải màu khác nhau. Khi nhìn ảnh trên bằng kính mắt chuyên dụng, mỗi mắt của người xem sẽ thấy một
ảnh. Sự chênh lệch vị trí trong 2 tấm ảnh nhìn thấy sẽ tạo nên cảm giác về độ sâu cho người xem.
Thực tế, khi tách hai tấm ảnh của một ảnh 3D, chúng ta sẽ cĩ thể nhận được những bức ảnh tương tự như trong Hình 0.6.
Ảnh 3D cĩ nhiều ứng dụng hơn là để giải trí. Nĩ cĩ khả năng lưu trữ độ sâu
điểm ảnh nên cũng được sử dụng cho các ứng dụng yêu cầu độ sâu điểm ảnh. Nĩi cách khác, từ một tấm ảnh 3D, chúng ta cĩ thể mơ tả lại khơng gian hoặc lấy những thơng tin hữu ích từđộ sâu điểm ảnh. Các đối tượng 3D cũng cĩ thểđược trích ra từ
Bạch Ngọc Minh 20
a b
Hình 0.6 : Ảnh 3D sau khi tách ra
a: Ảnh nhìn thấy ở mắt trái; b: Ảnh nhìn thấy ở mắt phải
1.5.2. Stereo camera
Stereo camera là thiết bị thu ảnh 3D hoặc thu phim 3D. Về cơ bản, stereo camera cũng giống những máy ảnh hoặc máy quay chuyên dụng khác, nhưng nĩ cĩ
hai ống kính mắc song song (
Hình). Hai ống kính của một stereo-camera được sử dụng để lấy hai hình ảnh trong một ảnh 3D.
Hình 0.7 : Stereo camera
Hình 0.8 thể hiện hoạt động của một stereo camera. Các chi tiết sẽ được thu vào 2 tấm ảnh thơng qua 2 ống kính của camera cùng một lúc. Lúc này, tọa độ của
Bạch Ngọc Minh 21
Hình 0.8: Hoạt động của stereo camera
Ta cĩ:
= x1 – x2 (0-1)
Và khoảng cách từđiểm A đến camera sẽđược tính:
(0-2)
Như vậy, từ các tọa độ ảnh thu được của điểm A trên hai tấm ảnh trái phải, ta sẽ thu được khoảng cách từ camera tới điểm A. Khoảng cách này cịn được gọi là
độ sâu điểm ảnh ký hiệu bằng z.
1.5.3. Bản đồ chênh lệch và bản đồđộ sâu
Bản đồ chênh lệch (Disparity map) và bản độ sâu (Depth map) là hai loại bản
đồ thể hiện khoảng cách của các điểm ảnh trong khơng gian đến mặt phẳng quy chiếu.
Bạch Ngọc Minh 22
Hình 0.9: Bản đồ chênh lệch
Bản đồ sai lệch thể hiện giá trị trong cơng thức (0-1) và (0-2). Các vị trí ở
gần màn ảnh quy chiếu sẽ cĩ giá trị cao hơn so với những điểm ở xa. Vì vậy, khi thể
hiện dưới dạng ảnh xám, các điểm ở xa cĩ màu đen và các điểm ở gần cĩ màu sáng hơn. Lý do của việc này là các điểm ở xa sẽ cho độ sai lệch nhỏ hơn các điểm ở
gần.
Hình 0.10: Bản đồđộ sâu
Bản đồđộ sâu thể hiện giá trị z ở trong cơng thức (0-2). Ngược lại với bản đồ
chênh lệch, bản đồ độ sâu thể hiện những điểm ảnh ở gần với giá trị thấp hơn những điểm ảnh ở xa. Theo như cơng thức (0-2) thì z sẽ tỷ lệ nghịch với . Chính vì thế nên mới cĩ sựđối lập giữa hai bản đồ như vậy.
Sử dụng cơng thức (0-2), chúng ta cĩ thể biến đổi từ một bản đồ chênh lệch sang một bản đồđộ sâu và ngược lại.
Bạch Ngọc Minh 23
1.5.4. Mối quan hệ giữa ảnh độ sâu và tọa độ thực:
Hình 0.11 :Quan hệđộ sâu và tọa độ thực
Hình 0.11 thể hiện mối quan hệ giữa độ sâu trong bản đồđộ sâu và tọa độ thực của điểm ảnh. Trên bản đồ độ sâu, giá trị x’Ađược thể hiện là tọa độ của điểm ảnh trong bản đồ. Bên cạnh đĩ, giá trị zA lại được thể hiện dưới dạng giá trị của điểm
ảnh trong bản đồ. Như vậy, tọa độ thực sự xA là một đại lượng chưa biết nhưng cĩ thể suy ra từ bản đồđộ sâu. Cơng thức (0-3) là mối liên hệ giữa tọa độ thực x và các tọa độởảnh độ sâu:
(0-3)
Như vậy, từ bản đồđộ sâu, chúng ta vẫn chưa cĩ được sự mơ tả một cách xác thực các yếu tố 3D. Ta cần phải thực hiện một bước nữa thơng qua cơng thức (0-3)
để cĩ được ảnh 3D trong hệ trục tọa độ Euclide 3D vuơng gĩc. Đối với tọa độ y của
điểm A, ta sẽ sử dụng cơng thức tương tự cơng thức (0-3) để tính.
1.5.5. Phương pháp tính bản đồ chênh lệch
1. Giới thiệu
Stereo thị giác là một lĩnh vực nghiên cứu hiện đại và phát triển, thu hút sự
chú ý của nhiều nhà khoa học quan tâm (Forsyth và Ponce 2002; Hartley và Zisserman 2004). Hàng năm, các phương pháp tiếp cận mới đều được giới thiệu.
Đến nay lĩnh vực thị giác stereo đã được mở rộng theo nhiều hướng chuyên sâu với khối lượng nghiên cứu rất lớn. Điều này tạo ra khĩ khăn cho người quan tâm khi muốn nắm bắt các phương pháp, các kiến thức đạt được trong nghiên cứu. Do đĩ
Bạch Ngọc Minh 24 việc thực hiện một cuộc khảo sát trong lĩnh vực thị giác stereo sẽ đáp ứng tốt cho những người gắn bĩ với lĩnh vực này cũng như người mới quan tâm cĩ thể bắt kịp một cách nhanh chĩng.
Việc phân loại chính xác các thành tựu nghiên cứu cĩ thể tham khảo các tác giả Scharstein và Szeliski (2002) và Sunyoto, Mark và Gavrila (2004), các phương pháp đã được đề xuất (Yoon và Kweon 2006a; Klaus et al. 2006). Xu hướng mới nhất trong lĩnh vực này chủ yếu là theo đuổi các tiêu chí thời gian thực, tốc độ thực hiện, cũng như độ chính xác cao. Ngày nay, sự phát triển của các thuật tốn lõi đã
đạt được nhiều tiến bộ, giúp cho nhà nghiên cứu hàng đầu tập trung vào hướng đổi mới kết quả trong việc triển khai trên phần cứng hiệu quả hơn.
2. Phân loại
Phát hiện cặp liên hợp trong hình ảnh stereo là một vấn đề nghiên cứu đầy thách thức cịn được gọi là vấn đề tương ứng. Ví dụ, bài tốn tìm cho mỗi điểm trong hình ảnh bên trái một điểm tương ứng trong ảnh bên phải (Barnard và Thompson 1980). Để xác định hai điểm này từ một cặp ảnh stereo thì điều cần thiết là đo lường sự giống nhau của các điểm. Điểm được coi là tương ứng phải khơng cĩ bất kỳ sự mơ hồ tức là phải khác biệt một cách rõ ràng với các điểm ảnh xung quanh nĩ. Cĩ một số thuật tốn đã được đề xuất để giải quyết vấn đề này. Tuy nhiên, tất cả các thuật tốn này đều sử dụng hàm chi phí kết hợp để thiết lập sự
tương ứng giữa hai điểm ảnh. Cĩ ba phương pháp phổ biến nhất là phương pháp dựa trên sự khác biệt cường độ tuyệt đối (AD), phương pháp dựa trên sự khác biệt cường độ bình phương (SD) và phương pháp dựa trên sự tương quan chéo chuẩn (NCC).
Đánh giá các loại chi phí kết hợp khác nhau cĩ thể được tìm thấy trong Scharstein và Szeliski 2002, Mayoral và cộng sự 2004;. Hirschmuller và Scharstein 2007. Thơng thường, chi phí kết hợp được tổng hợp trên các vùng hỗ trợ. Những khu vực hỗ trợ, thường được gọi là cửa sổ phức hợp, cĩ thể là hình vuơng hoặc hình chữ nhật, cĩ thể cĩ kích thước cốđịnh hoặc là những cửa sổ thích nghi.
Bạch Ngọc Minh 25 1. Phương pháp tổng sự khác biệt tuyệt đối (SAD - Sum of Absolute
Differences):
(0-4)
Theo cơng thức (0-4), việc tính giá trị chênh lệch của điểm (x,y) được thực hiện bằng phép tính hiệu trong cửa sổ W. Do đĩ thuật tốn đơn giản. Cửa sổ
W và phạm vi chênh lệch d càng lớn thì số phép tính tăng. Thơng thường cĩ thể thực tính SAD với cửa sổ 3x3, hoặc 5x5 hoặc 7x7 hoặc 11x11. Phạm vi chênh lệch d thường chọn dưới 120 với các giá trị tham khảo như 16, 50, 128.
2. Phương pháp tổng bình phương khác biệt (SSD – Sum of Squared Differences):
(0-5)
Phương pháp này tính tổng của các bình phương của các hiệu nên xuất hiện thêm phép nhân trước khi tính tổng. Do đĩ độ phức tạp tăng lên đáng kể. 3. Phương pháp dựa trên sự tương quan chéo chuẩn (NCC)
(0-6)
Trong đĩ Il, Ir là những giá trị cường độ trong hình ảnh trái và phải, (x, y) là tọa độ của điểm ảnh, d là giá trị sai lệch được xem xét và W là cửa sổ phức hợp. Việc lựa chọn các giá trị sai lệch thích hợp cho mỗi điểm ảnh được thực hiện sau đĩ.
Phương pháp này cĩ độ phức tạp cao nhất vì xuất hiện các phép tốn tiêu tốn nhiều tài nguyên của máy tính như phép bình phương, khai căn. Do đĩ việc
ứng dụng của thuật tốn này trong các hệ thống thời gian thực là khơng khả
Bạch Ngọc Minh 26
(0-7)
tức là, cho mỗi điểm ảnh (x, y) và cho giá trị khơng đổi cĩ sự khác nhau d, chi phí tối thiểu được lựa chọn. Phương trình (0-4)Error! Reference source not
found. được dùng cho phương pháp SAD. Tuy nhiên, trong nhiều trường hợp lựa chọn khác biệt là một quá trình lặp đi lặp lại, vì độ chênh lệch của mỗi điểm ảnh là tùy thuộc vào sự chênh lệch của các điểm ảnh lân cận.
Kết quả là, cần thiết cĩ nhiều lần lặp lại để tìm ra các thiết lập tốt nhất của sự
chênh lệch. Giai đoạn này tạo nên sự khác biệt giữa thuật tốn địa phương với thuật tốn tồn cục. Quá trình tính tốn thường thêm một bước nữa để kết quả tốt hơn gọi là khâu lọc. Cấu trúc chung của phần lớn các thuật tốn tương ứng stereo