Thị giác máy

Thị giác là một giác quan cơ bản của con người, nó cung cấp một lương lớn thông tin về môi trường xung quanh cũng như các phản ứng của môi trường với các tác động[7]. Vì vậy các nhà khoa học đã nỗ lực nghiên cứu để tạo ra những sensor có thể bắt chước được khả năng này của con người. Một trong những sensor như vậy, CCD camera là thành phần thường được sử dụng trong các hệ thống robot hiện nay.

Hình 1.22 Một số loại CCD camera

Ta sẽ nghiên cứu thêm về mô hình thị giác máy sử dụng camera CCD và cách thức xử lý những hình ảnh thu được từ camera ở chương 2.

CHƢƠNG 2 THỊ GIÁC MÁY 2.1 Mở đầu

Hầu như toàn bộ các robot di động tự quản trị ngày nay đều được trang bị camera. Cũng giống như cơ quan thị giác ở con người nên được gọi là thị giác máy, camera là một trong những loại sensor mạnh nhất được sử dụng trong robot hiện nay. Thị giác máy cung cấp cho robot một lượng thông tin cực lớn về môi trường đồng thời cho cho phép robot tương tác một cách thông minh với môi trường xung quanh robot. Các nhà khoa học đã có những nỗ lực lớn để tạo ra các sensor bắt chước được mắt của con người và họ đã đạt được những tiến bộ đáng kể. Những camera ngày nay không chỉ đã góp phần nâng cao khả năng quan sát của con người, giúp con người vượt qua nhưng hạn chế (chỉ nhìn được một dải phổ ánh sáng rất hẹp (350nm-750nm), độ phân giải kém…) mà còn trang bị thị giác cho các máy móc phục vụ xã hội con người.

Với sự phát triển của kỹ thuật tính toán số, các ảnh thu nhận được từ các thiết bị tạo ảnh như camera đã được số hoá và được xử lý trực tiếp bằng máy tính số. Trong những năm gần đây, xử lý ảnh số đã được phát triển và trở thành một lĩnh vực khoa học. Xử lý ảnh số đã nâng cao chất lượng của ảnh đồng thời phân tích và lý giải ảnh phục vụ các mục đích riêng biệt. Hình 2.1 chỉ ra hệ thống thu nhận và xử lý ảnh số thông thường.

Để mở đầu chương này, các quá trình tạo ảnh, biểu diễn ảnh và quá trình số hoá ảnh sẽ được đề cập đến một cách sơ lược. Phần tiếp theo sẽ trình bày vắn tắt một số khái niệm cơ bản của thị giác mày tính và xử lý ảnh. Phần còn lại của chương này sẽ trình bày chi tiết hơn về việc xử lý nâng cao chất lượng ảnh số lối vào bằng chương trình máy tính.

2.2 Quá trình tạo ảnh và các mô hình ảnh

2.2.1 Mắt người

Ở đây ta mô tả vắn tắt về cấu trúc giải phẫu của mắt. Hình 2.2a là một phác hoạ mặt được cắt thẳng đứng của nhãn cầu bao gồm các thành phần chính của mắt: mống mắt và con ngươi sẽ điều khiển lượng ánh sáng xuyên vào nhãn cầu; giác mạc và thấu kính cùng với nhau làm khúc xạ ánh sáng để tạo ảnh lên võng mạc và cuối cùng là võng mạc ở đó ảnh được tạo thành [2].

a) b)

Hình 2.2 Cấu tạo của mắt (a) và mô hình mắt Helmoltz (b)

Mặc dù nó có dạng hình cầu, nhãn cầu về chức năng giống với một camera với trường nhìn (viết tắt là FOV-Field Of View) bao phủ một vùng 1600 (rộng)1350 (cao). Một vài mô hình mắt được đưa ra tuân theo luật quang hình bậc nhất, hình 2.2b minh hoạ một trong số đó, mô hình mắt sơ lược của Helmoltz. Các hằng số cho trên hình là trong trường hợp mắt nhìn ở vô cùng (mắt không điều tiết). Tất nhiên mô hình này chỉ là xấp xỉ của các đặc tính quang học thực của mắt.

Ta hãy mô tả sâu hơn về các thành phần của mắt. Giác mạc là một cửa sổ khúc xạ trong suốt và có độ cong cao. Ánh sáng tới mắt sẽ xuyên qua nó trước khí bị ngăn chặn một phần bởi mống mắt đục. Đồng tử mắt là một lỗ hổng ở tâm của mống mắt, đường kính của nó thay đổi khoảng từ 1 tới 8 mm tương ứng với sự thay đổi của độ chiếu sáng, nó dãn ra khi ánh sáng thấp để làm tăng thêm năng lượng đến võng mạc và co lại trong điều kiện chiếu sáng bình thường để giới hạn sự mờ ảnh do quang sai cầu của mắt. Khả năng khúc xạ (nghịch đảo của tiêu cự) của mắt, phần lớn là do hiệu ứng khúc xạ của mặt giao tiếp không khí – giác mạc, và được hiệu chỉnh bởi sự biến dạng của thuỷ tinh thể sao cho vật hội tụ sắc nét. Trong những người khoẻ mạnh, nó thay đổi giữa 60 diopter (không điều tiết) và 68 diopter (1 diopter = 1 m-1) tương ứng với dải tiêu cự giữa 15 và 17 mm.

Hình 2.3 Phân bố của các tế bào hình nón và hình que trên võng mạc

Bản thân võng mạc là một màng mỏng được xếp thành từng lớp cư trú bởi hai loại tế bào nhận sáng – hình que và hình nón – đáp ứng với ánh sáng có bước sóng từ 330 nm tới 730 nm (từ tím tới đỏ). Các tế bào hình nón kém nhạy sáng hơn và chủ yếu là để nhìn ban ngày. Chúng có trách nhiệm cảm nhận màu sắc. Có ba loại tế bào hình nón tương ứng nhạy với các phổ ánh sáng khác nhau (đỏ, lục, lam) giữ vai trò chủ đạo trong nhận thức màu. Có khoảng 100 triệu tế bào hình que và 5 triệu tế bào hình nón trong mắt người. Phân bố không gian của chúng thay đổi về hai phía của võng mạc. Vùng trung tâm (macula lutea) ở chính giữa võng mạc ở đó tập trung các tế bào hình nón với mật độ cao và ảnh được hội tụ sắc nét mỗi khi mắt

Góc cân đối với điểm vàng (deg)

S ố t ế b ào c ả m th ụ Hình que Hình nón Điểm mù

tập trung sự chú ý của nó vào một đối tượng. Các tế bào hình nón tập trung cao nhất tại điểm vàng (fovea), là một chỗ lõm giữa vùng trung tâm, đạt tới 2.6105/mm2 (hình 2.3). Ngược lại, không có các tế bào hình que trong điểm vàng, nhưng mật độ tế bào hình que tăng về phía rìa của trường nhìn. Cũng có một điểm mù trên võng mạc, ở đó các sợi tế bào hạch đi vào võng mạc và tạo dây thần kinh quang học.

Các tế bào hình que là các tế bào nhận kính thích ánh sáng cực kỳ nhạy: chúng có khả năng đáp ứng với chỉ một photon, nhưng chúng đem đến chi tiết không gian tương đối kém bởi vì nhiều tế bào hình que cùng đổ về neuron giống nhau trong võng mạc. Trái lại, các tế bào hình nón trở thành tích cực tại mức ánh sáng cao hơn, nhưng tín hiệu lối ra của mỗi tế bào hình nón trong điểm vàng được mã hoá bởi một vài neuron, đem lại độ phân giải cao trong vùng đó.

2.2.2 Camera

Những ống kính camera ghi hình là những máy móc đầu tiên bắt chước mắt người. Camera có thể có hoặc không trang bị thấu kính. Mô hình buồng tối camera đầu tiên được phát minh vào thế kỷ 16 không có các thấu kính, nhưng thay vào đó là một lỗ (pinhole) để hội tụ các tia sáng lên trên tường hoặc tấm mờ. Các lỗ dần dần được thay thế bởi các thấu kính càng ngày càng phức tạp.

Nói chung camera thường có hai bộ phận cơ bản một là hệ thống tạo ảnh và hai là bề mặt tạo ảnh có chứa chất nhạy cảm quang. Bề mặt tạo ảnh của một camera thông thường là hình chữ nhật, nhưng các camera toàn cảnh có thể trang bị mặt tạo ảnh hình trụ để tăng trường nhìn. Những phần tử nhạy tạo ảnh có những đặc trưng khác nhau. Chúng có thể ghi nhận một ảnh rời rạc hoặc một ảnh liên tục về mặt không gian. Hệ thống tạo ảnh có thể là lỗ hoặc là hệ thấu kính trong các camera hiện đại. Ta sẽ khảo sát các quá trình tạo ảnh và các phần từ nhạy tạo ảnh dưới đây.

Phép chiếu phối cảnh

Hãy tưởng tượng ta cầm một cái hộp, châm một lỗ nhỏ vào một trong số các mặt của hộp bằng một đinh ghim, và thay thế mặt đối diện bằng một tấm mờ. Nếu ta đặt

nguồn sáng nào đó (một ngọn nến chẳng hạn), ta sẽ nhìn thấy hình ngọn nến lộn ngược xuất hiện trên tấm mờ (hình 2.4a).

Hình 2.4 (a)Mô hình tạo ảnh qua lỗ(b)Minh hoạ cách tính phương trình phối cảnh

Ảnh này được hình thành bởi những tia sáng phát ra từ cảnh gần với mặt hộp. Nếu lỗ được giảm nhỏ tới một điểm (dĩ nhiên không thể đạt được về mặt vật lý), thì chính xác một tia sáng sẽ đi qua xuyên qua mỗi điểm trong mặt phẳng tấm mờ (mặt phẳng ảnh), lỗ và một điểm cảnh tương ứng nào đó.

Trong thực tế, lỗ có một kích thước nào đó (mặc dù nhỏ), và mỗi điểm trong mặt phẳng ảnh tập hợp ánh sáng từ một hình nón của những tia sáng, vì vậy mô hình được lý tưởng hoá và đơn giản này của tạo ảnh hình học có ít hiệu quả. Tuy vậy, mô hình chiếu phối cảnh lỗ (cũng được gọi là phối cảnh trọng tâm), đầu tiên được đề xuất bởi Brunelleschi hồi đầu thế kỷ 15, rất tiện lợi về toán học. Bất chấp sự đơn giản, nó thường cung cấp một sự xấp xỉ chấp nhận được của quá trình tạo ảnh. Đôi khi để dễ tính ta thay ảnh thật bằng một ảnh ảo đối xứng với ảnh thật qua lỗ.

Bằng các phép tính hình học đơn giản, ta dễ dàng thu được các phương trình cho phép chiếu phối cảnh (hình 2.4b). Trong hình điểm C’ là giao điểm của trục quang và ’ được gọi là tâm ảnh. Điểm này có thể được sử dụng như là gốc toạ độ ảnh và là điểm tâm để tính trong các thủ tục chuẩn hoá (calibration) camera.

Lấy điểm P là một điểm thuộc quang cảnh có toạ độ (x,y,z) và P’ là ảnh của

P có toạ độ là (x’,y’,z’). Do P’ nằm trên mặt phẳng ảnh ta có z’=f’. Từ ba điểm P, O,

và P’ cùng nằm trong một đường thẳng, ta có OP'OP, do vậy

30 Vậy         z y f y z x f x ' ' ' ' (2.1) Phép chiếu Affine

Như đã nói trong phần trên, phối cảnh lỗ chỉ là một xấp xỉ của quá trình tạo ảnh hình học. Ngoài ra ta còn có một lớp xấp xỉ thô hơn được gọi là mô hình chiếu affine, cũng được sử dụng trong một số trường hợp. Hai phép chiếu affine có thể kể ra là phép chiếu phối cảnh yếu và phép chiếu trực giao. Phép chiếu phối cảnh yếu là một mô hình có thể chấp nhận được trong nhiều điều kiện tạo ảnh, nhưng phép chiếu trực giao thuần tuý thường không thực tế. Ta sẽ không mô tả chi tiết mà kể tên chúng vì chúng chỉ có ý nghĩa mang tính lịch sử.

Các camera có thấu kính

Đa số các camera được trang bị hệ thấu kính. Có hai lý do chính là: Trước hết là để tập hợp ánh sáng từ một tia sáng đơn lẻ sẽ đến mỗi điểm khác nhau trong mặt phẳng ảnh dưới phép chiếu lỗ lý tưởng. Thực tế các lỗ tất nhiên có một kích thước hữu hạn, vì vậy mỗi điểm trong mặt phẳng ảnh được chiếu bởi một hình nón của những tia sáng trương một góc đặc hữu hạn. Lỗ lớn hơn hình nón rộng hơn và ảnh sáng hơn, nhưng một pinhole lớn sẽ cho ảnh không rõ nét. Làm co lỗ tạo ra ảnh sắc nét, nhưng làm giảm số lượng ánh sáng đến mặt phẳng ảnh, và có thể đưa đến hiệu ứng nhiễu xạ. Lý do chính thứ hai là khi sử dụng một thấu kính sẽ giữ ảnh sắc nét trong khi tập hợp được ánh sáng từ một vùng lớn.

Bỏ qua sự nhiễu xạ, giao thoa và các hiện tượng quang học vật lý khác, hoạt động của thấu kính tuân theo các định luật quang hình.

Ta minh hoạ quá trình tạo ảnh của điểm P qua thấu kính mỏng trong hình 2.5a. Ta có được phương trình 2.2 để tính vị trí ảnh P’

f z z 1 1 ' 1   (2.2)

31 ở đó ) 1 ( 2   n R

f là tiêu cự của thấu kính.

Hình 2.5 Quá trình tạo ảnh qua thấu kính mỏng (a) và thấu kính dầy (b)

Ta thấy rằng phương trình thể hiện qua hệ vị trí của P và P’ là chính xác giống như phép chiếu phối cảnh lỗ nếu ta lấy z’=f’. Từ P và P’ nằm trên đường thẳng xuyên qua tâm của thấu kính và các điểm ở vị trí –z chỉ hội tụ sắc nét khi mặt phẳng ảnh ở ví trí z’. Khi z, là các vật như các vì sao, sẽ được ảnh tại vị trí cách tâm thấu kính một khoảng là f. Hai điểm F và F’ tại vị trí cách tâm thấu kính một khoảng f trên quang trục được gọi là hai tiêu điểm của thấu kính.

Trong thực tế khi ánh sáng đến thấu kính bị khúc xạ trên biên giới phải sẽ không lập tức khúc xạ tiếp trên biên giới trái mà giữa hai quá trình khúc xạ trên nó phải truyền qua môi trường vật chất chế tạo thấu kính, do đó quá trình tạo ảnh của các thấu kính thực sẽ khác. Mô hình hiện thực hơn của hệ quang học đơn giản là thấu kính dầy. Các phương trình mô tả quá trình tạo ảnh của nó dễ dàng đạt được từ phương trình khúc xạ và chúng cũng giống như các phương trình phối cảnh lỗ và phép chiếu thấu kính mỏng ngoại trừ một sai khác (hình 2.5b). Nếu H và H’ là hai điểm chính của thấu kính, thì phương trình 2.2 giữ nguyên khi –z (tương ứng là z’) là khoảng cách giữa điểm P (tương ứng là P’) và mặt phẳng chứa điểm H (tương ứng là H’) trực giao với trục quang.

Trong thực tế, các vật nằm trong một phạm vi khoảng cách hội tụ nhỏ (được gọi là chiều sâu của trường hoặc chiều sâu tiêu điểm). Chiều sâu trường tăng theo số

f của thấu kính (số f là tỷ lệ giữa tiêu cự của thấu kính và đường kính nó). Trường nhìn của một camera là phần của không gian cảnh mà thật sự chiếu lên trên phim

của camera. Nó không được định nghĩa chỉ bởi tiêu cự, mà còn phụ thuộc vào vùng phim có thể được lộ sáng trong một camera chụp ảnh, hoặc vùng nhạy CCD trong một camera số (hình 2.6).

Hình 2.6 Minh hoạ trường nhìn của camera

Cảm biến ảnh CCD (Charge Couple Device)

Vô tuyến truyền hình (viết tắt là TV) được phát minh vào nhưng năm 20 của thế kỷ 20 đã trở thành yếu tố chính thúc đẩy sự phát triển của các bộ cảm biến điện tử.

Vidicon là một loại ống chân không TV phổ biến. Nó là một vỏ bọc bằng thuỷ tinh có một súng điện tử ở một đầu và một màn hình (faceplate) ở đầu kia. Phía sau của màn hình được phủ một lớp màng mỏng chất quang dẫn lại phủ lên một film kim loại trong suốt tích điện dương. Sự phủ kép này tạo thành bia. Ống được bao quanh bởi các cuộn hội tụ và lái để quét bia lặp đi lặp lại bằng chùm điện tử được phát ra từ súng. Chùm này đặt một lớp điện tử lên bia để cân bằng điện tích dương của nó. Khi một vùng nhỏ của màn hình được chiếu sáng, các điện tử chạy xuyên qua làm xả hết điện tích cục bộ của bia. Khi chùm điện tử quét vùng này, nó thay thế các điện tử đã mất, tạo ra dòng điện tỉ lệ với cường độ ánh sáng tới. Sự thay đổi của dòng điện sau đó được chuyển đổi thành tín hiệu hình ảnh bằng mạch vidicon. Vidicon và các thiết bị cùng họ được dùng đến tận đầu những năm 1980 trong mọi ứng dụng truyền hình, bao gồm camera quảng bá, camera xách tay, camera theo dõi. Các camera CCD (Charge Couple Device) được đề xuất năm 1970 và đã thay thế các camera vidicon trong hầu hết các ứng dụng hiện đại. Cảm biến CCD sử dụng một lưới hình chữ nhật của các điểm (pixel) thu thập điện tử phủ trên một đế silic mỏng để ghi lại năng lượng ánh sáng đến mỗi điểm trong chúng. Mỗi một điểm

được tạo thành bằng cách cấy một lớp SiO2 trên đế và sau đó lắng đọng một cấu trúc cổng dẫn lên trên. Khi photon đập vào silic, thì cặp điện tử lỗ trống được tạo ra (chuyển đổi quang điện) và điện tử bị bắt giữ bằng giếng điện thế được tạo thành bởi tác động của một điện thế dương ở cổng tương ứng. Các điện tử được tạo ra ở

Sensor xác định khoảng cách

Sensor xác định khoảng cách