L ỜI CẢM ƠN
2.1.1. Biên và các kiểu biên cơ bản trong ảnh
Các đặc trưng của ảnh thường bao gồm các thành phần như: mật độ xám, phân bố xác suất, phân bố không gian, biên ảnh [2]. Biên là một vấn đề chủ yếu và đặc biệt quan trọng trong phân tích ảnh vì các kĩ thuật phân đoạn ảnh chủ yếu dựa vào biên.
Hiện nay có nhiều định nghĩa về biên ảnh [1] và mỗi định nghĩa được sử dụng trong một số trường hợp nhất định. Song nhìn chung, ta có thể hiểu là: một điểm ảnh có thể coi là biên nếu ở đó có sự thay đổi đột ngột về mức xám.
Ví dụ: Đối với ảnh đen trắng, một điểm được gọi là điểm biên nếu nó là điểm đen có ít nhất một điểm trắng bên cạnh.
Tập hợp các điểm biên tạo thành biên, hay còn gọi là đường bao của ảnh (boundary). Chẳng hạn, trong một ảnh nhị phân, một điểm có thể được gọi là biên nếu đây là một điểm đen và có ít nhất một điểm trắng nằm trong lân cận điểm đó.
Mỗi một biên là một thuộc tính gắn liền với một điểm riêng biệt và được tính toán từ những điểm lân cận nó. Đó là một biến Vector bao gồm hai thành phần:
- Độ lớn của Gadient.
- Hướng φ được xoay đối với hướng Gradient ψ. 2.1.1.1. Biên lý tưởng:
Việc phát hiện biên một cách lý tưởng là việc xác định được tất cả các đường bao trong đối tượng. Biên là sự thay đổi đột ngột về mức xám nên sự thay đổi cấp xám giữa các vùng trong ảnh càng lớn thì càng dễ dàng nhận ra biên.
Hình sau đây minh hoạ điểm ảnh có sự biến đổi mức xám u(x) một
cách đột ngột:
Một biên được coi đó là biên lý tưởng khi mà có sự thay đổi cấp xám lớn giữa các vùng trong ảnh. Biên này thường chỉ xuất hiện khi có sự thay đổi cấp xám qua một điểm ảnh.
2.1.1.2. Biên dốc:
Biên dốc xuất hiện khi sự thay đổi cấp xám trải rộng qua nhiều điểm ảnh. Vị trí của cạnh được xem như vị trí chính giữa của đường dốc nối giữa cấp xám thấp và cấp xám cao. Tuy
nhiên đây chỉ là đường dốc trong toán học, từ khi ảnh được kỹ thuật số hoá thì đường dốc không còn là đường thẳng mà thành những đường lởm chởm, không trơn.
Hình 2.1 Đường biên lý tưởng
Hình 2.3 Đường biên không trơn 2.1.1.3. Biên không trơn:
Trên thực tế, ảnh thường có biên không lý tưởng, các điểm ảnh trên ảnh thường có sự thay đổi mức xám đột ngột và không đồng nhất, đặc biệt là ảnh nhiễu. Trong trường hợp không nhiễu (biên lý tưởng), bất cứ một sự thay đổi cấp xám nào cũng thông báo sự tồn tại của một biên. Trường hợp đó khó có khả năng xảy ra, ảnh thường là không lý tưởng, có thể là do các nguyên nhân sau:
- Hình dạng không sắc nét.
- Nhiễu: do một loạt các yếu tố như: kiểu thiết bị nhập ảnh, cường độ ánh sáng, nhiệt độ, hiệu ứng áp suất, chuyển động, bụi…, chưa chắc rằng hai điểm ảnh có cùng giá trị cấp xám khi được nhập lại có cùng cấp xám đó trong ảnh. Kết quả của nhiễu trên ảnh gây ra một sự biến thiên ngẫu nhiên giữa các điểm ảnh. Sự xuất hiện ngẫu nhiên của các điểm ảnh có mức xám chênh lệch cao làm cho các đường biên dốc trở lên không trơn tru mà trở thành các đường biên gồ ghề, mấp mô, không nhẵn, đây chính là đường biên trên thực tế.
2.1.2. Vai trò của biên trong nhận dạng
Một cách tổng quan có thể nói rằng bất kỳ một hệ thống xử lý ảnh nào cũng tuân theo một số giai đoạn sau:
Con người thường nhìn nhận sự vật theo hai cách hoặc là dựa vào biên hoặc là dựa vào xương của chúng. Chẳng hạn, ta dựa vào biên khi quan sát các đối tượng như ao, hồ hoặc một cái xe ô tô. Nhưng nếu để phân biệt một khúc sông với những đối tượng khác trên bản đồ địa hình thì ta lại dựa vào xương của nó. Vì vậy, cùng với xương thì biên có một tầm quan trọng đặc biệt trong phân tích và nhận dạng hình ảnh.
Biên là một vấn đề chủ yếu trong phân tích ảnh vì các kỹ thuật phân đoạn ảnh chủ yếu dựa vào biên. Có thể thấy tầm quan trọng của biên khi ta theo dõi một kiến trúc sư làm việc. Giả sử anh ta muốn thiết kế một phòng khách sang trọng, nét đầu tiên được phác họa chính là đường biên hay tường của căn phòng sau đó mới đến các chi tiết nội thất bên trong. Như vậy, mới chỉ nhìn biên của sự vật ta cũng đã hình dung ít nhiều về nó và có thể phân biệt được nó với các sự vật khác.
Nhìn chung về mặt toán học, có thể xem điểm biên của ảnh là một điểm mà ở đó có sự thay đổi đột ngột về độ sáng. Xuất phát từ cơ sở đó, người ta thường sử dụng hai phương pháp phát hiện biên sau:
Hình 2.4 Sơ đồ phân tích ảnh Phân đoạn
ảnh
Phân loại Ảnh đầu vào cho
quá trình tiền xử lý
Phân loại Phân tích
Phương pháp phát hiện biên trực tiếp là làm nổi biên dựa vào sự biến thiên về độ sáng của ảnh. Kỹ thuật chủ yếu được dùng là dựa vào đạo hàm. Nếu lấy đạo hàm bậc nhất của ảnh ta có phương pháp Gradient, nếu lấy đạo hàm bậc hai ta có phương pháp Laplace.
Phương pháp phát hiện biên gián tiếp. Nếu bằng một cách nào đó ta phân biệt được ảnh bằng các vùng thì đường phân ranh giới giữa các vùng đó chính là biên. Hai kỹ thuật dò biên và phân vùng các đối tượng là hai bài toán đối ngẫu nhau. Thật vậy, dò biên để phân lớp một đối tượng ảnh, nhưng nếu phân lớp xong thì thì có nghĩa là đã phân vùng được các đối tượng ảnh và ngược lại, khi đã phân vùng được các đối tượng ảnh thì cũng phân lớp được các đối tượng ảnh và ta có thể phát hiện biên.
Phương pháp phát hiện biên trực tiếp tỏ ra khá hiệu quả và ít chịu ảnh hưởng của nhiễu, song nếu sự vật có sự biến đổi độ sáng không đột ngột phương pháp này tỏ ra rất kém hiệu quả.
Phương pháp dò biên gián tiếp tuy khó cài đặt nhưng lại áp dụng tốt cho những ảnh có sự biến thiên độ sáng ít.
2.2. Các phương pháp dò biên trực tiếp
2.2.1. Phương pháp Gradient
Phương pháp Gradient là phương pháp dò biên cục bộ dựa vào cực đại của đạo hàm. Theo định nghĩa, Gradient là một vector biểu thị tốc độ thay đổi giá trị của điểm ảnh theo 2 hướng x và y. Các thành phần của Gradient được tính bởi: dx y x f y dx x f x y x f fx ( , ) ( , ) ( , ) dy y x f dy y x f y y x f fy ( , ) ( , ) ( , ) (13)
Với dx, dy là khoảng cách giữa các điểm theo hướng x và y (được tính bằng số điểm ảnh). Trong hệ toạ độ cực ta có:
f(x,y) = f(r.cos, r.sin)
x = r.cos, y = r.sin. ⇒ r y y f r x x f r f fxcos + fysin và y y f x x f f r.fx.sin + r.fy.cos.
Trong thực tế, khi ta nói lấy đạo hàm của ảnh thực ra chỉ là mô phỏng và xấp xỉ đạo hàm bằng các kỹ thuật nhân chập hay phép cuộn. Do ảnh số là tín hiệu rời rạc nên đạo hàm không tồn tại.
* Kỹ thuật PreWitt:Kỹ thuật này sử dụng 2 mặt nạ theo hai hướng x và y như sau:
Quá trình tính toán được thực hiện qua 2 bước: * Bước 1: Tính I Hx và I Hy
* Bước 2: Tính (I Hx ) + (I Hy)
* Kỹ thuật Sobel: Tương tự như kỹ thuật PreWitt, kỹ thuật Sobel sử dụng 2 ma trận mặt nạ nhân chập là: -1 0 1 Hx = -2 0 2 -1 0 1 -1 -2 -1 Hy = 0 0 0 1 2 1 -1 0 1 Hx = -1 0 1 -1 0 1 -1 -1 -1 Hy = 0 0 0 1 1 1 dx = dy = 2 (14) (15)
2.2.2. Phương pháp Laplace
Các phương pháp đánh giá Gradient ở trên làm việc rất tốt khi độ sáng thay đổi rõ nét. Tuy nhiên, khi mức xám thay đổi chậm, miền chuyển tiếp trải rộng, phương pháp Gradient lại kém hiệu quả so với phương pháp đạo hàm bậc 2 Laplace [11]. Theo định nghĩa, toán tử Laplace như sau:
2f = 2 2 2 2 y f x f Ta có: x y x f y x f x f x x f ( ( 1, ) ( , )) ) ( 2 2
[f(x+1,y) - f(x,y)] - [f(x,y) - f(x-1,y)]
= f(x+1,y) – 2f(x,y) + f(x-1,y). Tương tự: 2 2 y f
f(x,y+1) - 2f(x,y) + f(x,y-1).
Mặt nạ nhân chập:
Trong thực tế, người ta thường sử dụng một số biến dạng khác của toán tử Laplace bằng cách sử dụng một số mặt nạ sau:
2.3. Phương pháp dò biên tổng quát
2.3.1. Khái niệm chu tuyến
Chu tuyến của đối tượng ảnh E được định nghĩa là dãy các điểm ảnh P0,P1,P2,...Pn của E thoả mãn: Với i=1,2,...,n Q E với Q là 4-láng giềng
0 1 0 H = 1 -4 1 0 1 0 0 -1 0 H1 = -1 4 -1 0 -1 0 -1 -1 -1 H2 = -1 8 -1 -1 -1 -1 1 -2 1 H3 = -2 4 -2 1 -2 1 (16) (17)
của Pi và Pi-1,Pi-1 là 8-láng giềng của Pi. Trong đó P0=Pn. Khi đó, ta cũng gọi n là độ dài hay chu vi của chu tuyến.
Trong đó, 4-láng giềng được định nghĩa là các điểm trực tiếp bên trên, dưới, trái, phải của một điểm. Và 8-láng giềng là những điểm 4-láng giềng
hoặc các điểm trên trái, trên phải, dưới trái, dưới phải trực tiếp của một điểm.
* Chu tuyến đối ngẫu
Hai chu tuyến C = <p1,p2,...pn> và C’ = <q1,q2,...qn> được gọi là hai chu tuyến đối ngẫu của nhau nếu và chỉ nếu:
i j sao cho pi và qj là 8 láng giềng của nhau. Các điểm pi là ảnh thì qj là nền và ngược lại.
* Chu tuyến trong
Chu tuyến C được gọi là chu tuyến trong nếu và chỉ nếu:
Chu tuyến đối ngẫu C’ của nó là chu tuyến của các điểm nền. Độ dài của chu tuyến C’ nhỏ hơn độ dài của chu tuyến C.
* Chu tuyến ngoài
Chu tuyến C được gọi là chu tuyến ngoài (hình 2.7) nếu và chỉ nếu: Chu tuyến đối ngẫu C’ của C là chu tuyến các điểm nền. Độ dài của chu tuyến C’ lớn hơn độ dài chu tuyến C.
Từ định nghĩa, ta thấy chu tuyến ngoài của một đối tượng là một đa giác có độ dày bằng một bao quanh đối tượng.
P Hình 2.5 Các 4- láng giềng của điểm ảnh P P Hình 2.6 Các 8- láng giềng của điểm ảnh P
2.3.2.Phương pháp dò biên tổng quát
Giả sử ảnh đã được phân vùng. Về cơ bản thuật toán dò biên trong một vùng bao gồm các bước cơ bản sau:
+ Bước 1: Xác định điểm biên xuất phát. + Bước 2: Dự báo điểm biên tiếp theo:
bn+1 = T(bn)
+ Bước 3: Lặp lại bước hai cho đến khi nào gặp điểm xuất phát
Do xuất phát từ một tiêu chuẩn và định nghĩa khác nhau về điểm biên, quan hệ liên thông [3], nên các toán tử dò biên cho ta những đường biên với sắc thái khác nhau.
Kết quả tác động của toán tử dò biên lên một điểm biên (bn) là một
điểm biên (bn+1), là điểm 8-láng giềng của bn. Thông thường các toán tử này được xây dựng như một hàm đại số bool trên các 8-láng giềng của bn. Mỗi cách xây dựng toán tử đều phụ thuộc vào định nghĩa quan hệ liên thông về
Hình 2.8 Chu tuyến trong và chu tuyến ngoài của một đối tượng
Chu tuyến trong
Chu tuyến ngoài
Chu tuyến C
Chu tuyến C’
Hình 2.7 Ví dụ về các chu tuyến đối ngẫu
điểm biên, và sẽ gây khó khăn cho việc khảo sát các tính chất của đường biên. Ngoài ra vì mỗi bước dò biên đều phải kiểm tra tất cả 8 - láng giềng của mỗi điểm nên toán tử thường kém hiệu quả. Để khắc phục hạn chế trên ta sẽ phân tích toán tử dò biên thành hai bước:
+ Xác định cặp nền vùng tiếp theo. + Lựa chọn điểm biên.
* Bởi vậy thuật toán tổng quát sẽ trở thành: + Bước 1: Xác định cặp nền vùng xuất phát. + Bước 2: Xác định cặp nền vùng tiếp theo.
+ Bước 3: Lặp lại bước hai cho đến khi gặp cặp nền vùng xuất phát. Khái niệm cặp vùng nền được định nghĩa gồm một điểm vùng và một điểm nền, trong đó nếu điểm vùng đi được một vòng chu tuyến thì điểm nền cũng đi được một vòng chu tuyến đối ngẫu.
Các bước được mô tả cụ thể như sau:
- Bước 1: Việc xác định cặp nền vùng xuất phát được xác định bằng cách duyệt ảnh lần lượt từ trên xuống dưới, từ trái qua phải, rồi kiểm tra điều kiện theo định nghĩa ánh xạ cặp nền vùng (chỉ mang tính quy ước). Ở đây ta chọn điểm vùng xuất phát là điểm vùng đầu tiên duyệt đến. Điểm nền xuất phát là điểm ngay sau điểm vùng xuất phát (theo chiều ngang).
- Bước 2: Ta gọi ánh xạ cặp nền vùng tiếp theo là toán tử dò biên. Cách tìm cặp nền vùng tiếp theo như sau: lấy tâm là điểm vùng hiện tại, ta xoay theo chiều kim đồng hồ bắt đầu từ điểm nền hiện tại, cho đến khi gặp một điểm vùng là 8-láng giềng của điểm vùng hiện tại thì dừng lại, điểm đó chính là điểm vùng tiếp theo. Vẫn lấy tâm là điểm vùng hiện tại, điểm nền tiếp theo là điểm 8-láng giềng của điểm vùng hiện tại ngay sau điểm vùng tiếp theo xoay ngược chiều kim đồng hồ.
- Bước 3: Cặp nền vùng tiếp theo tìm được trong bước hai được coi là cặp nền vùng hiện tại. Sau đó lặp lại bước hai. Bước 3 được lặp lại cho đến khi gặp lại cặp nền vùng xuất phát.
2.4. Một số phương pháp dò biên nâng cao
2.4.1. Phương pháp Canny
Phương pháp này do John Canny [6] ở phòng thí nghiệm MIT khởi xướng vào năm 1986. Canny đã đưa một tập hợp các ràng buộc mà một phương pháp phát hiện biên phải đạt được. Ông đã trình bày một phương pháp tối ưu nhất để thực hiện được các ràng buộc đó. Và phương pháp này được gọi là phương pháp Canny.
* Ý tưởng của phương pháp này là định vị đúng vị trí bằng cách cực tiểu hoá phương sai δ2 của vị trí các điểm cắt "Zero" hoặc hạn chế số điểm cực trị cục bộ để chỉ tạo ra một đường bao.
Các ràng buộc mà phương pháp phát hiện biên Canny đã thực hiện được đó là: mức lỗi, định vị và hiệu suất. Trong đó:
+ Mức lỗi: có ý nghĩa là một phương pháp phát hiện biên chỉ và phải tìm tất cả các biên, không biên nào được tìm bị lỗi.
+ Định vị: Điều này nói đến độ chênh lệch cấp xám giữa các điểm trên cùng một biên phải càng nhỏ càng tốt.
+ Hiệu suất: là làm sao cho khi tách biên không được nhận ra nhiều biên trong khi chỉ có một biên tồn tại.
Ràng buộc mức lỗi và định vị được dùng để đánh giá các phương pháp phát hiện biên. Còn ràng buộc về hiệu suất thì tương đương với mức lỗi dương.
Canny đã giả thiết rằng nhiễu trong ảnh tuân theo phân bố Gauss và đồng thời ông cũng cho rằng một phương pháp phát hiện biên thực chất là
một bộ lọc nhân xoắn có khả năng làm mịn nhiễu và định vị được cạnh. Vấn đề là tìm một bộ lọc sao cho thoả mãn tối ưu nhất các ràng buộc ở trên.
2.4.2. Phương pháp Shen – Castan
Shen và Castan [7] có cùng quan điểm với Canny về một mẫu chung trong việc tách các đường biên. Đó là: nhân xoắn ảnh với một mặt nạ làm