Phát hiện biên là quá trình định vị các điểm trong khi làm nổi biên, hay nó làm tăng độ tương phản giữa các vùng và nền cho đến khi biên đó có thể thấy được một cách dễ dàng.. Hiện nay,
Trang 1ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI
ĐẶNG QUANG HUY
PHƯƠNG PHÁP PHÁT HIỆN BIÊN ẢNH
LUẬN VĂN THS CÔNG NGHỆ THÔNG TIN
Người hướng dẫn PGS.TS Ngô Quốc Tạo
Hà Nội 2007
Trang 2MỤC LỤC
LỜI CẢM ƠN 3
DANH MỤC CÁC CHỮ CÁI VIẾT TẮT 4
DANH MỤC CÁC BẢNG 5
DANH MỤC CÁC HÌNH VẼ 6
MỞ ĐẦU 8U CHƯƠNG 1 - TỔNG QUAN VỀ XỬ LÝ ẢNH VÀ BIÊN 10
1.1 TỔNG QUAN VỀ XỬ LÝ ẢNH 10
1.2 BIÊN VÀ ỨNG DỤNG 11
1.2.1 Biên và các phương pháp phát hiện biên cơ bản 11
1.2.2 Một số khái niệm về biên 14
1.2.3 Ứng dụng của biên 15
CHƯƠNG 2 - NHỮNG PHƯƠNG PHÁP PHÁT HIỆN BIÊN 17
2.1 PHƯƠNG PHÁP TUYẾN TÍNH 17
2.1.1 Phương pháp đạo hàm bậc nhất Gradient 17
2.1.2 Phương pháp đạo hàm bậc hai Laplace 35
2.1.3 Phát hiện biên thích ứng 48
2.1.4 Đánh giá phương pháp tuyến tính 51
2.2 PHƯƠNG PHÁP PHI TUYẾN 52
2.2.1 Phát hiện biên hình chóp 52
2.2.2 Phương pháp Sobel 53
2.2.3 Toán tử la bàn Kirsch 54
2.2.4 Đánh giá nhận xét phương pháp phi tuyến 55
2.3 PHƯƠNG PHÁP NÂNG CAO 57
2.3.1 Phương pháp Canny 58
2.3.2 Phương pháp Shen - Castan 66
CHƯƠNG 3 - PHÁT HIỆN BIÊN DỰA VÀO WAVELET 71
Trang 33.1 PHƯƠNG PHÁP PHÁT HIỆN BIÊN 71
3.2 SỬ DỤNG WAVELET ĐỂ PHÁT HIỆN BIÊN 72
3.3 KẾT QUẢ SO SÁNH 78
KẾT LUẬN 83
TÀI LIỆU THAM KHẢO 84
Trang 4DANH MỤC CÁC CHỮ CÁI VIẾT TẮT
Kí hiệu Giải thích
BLI Ảnh nhị phân
DOG Toán tử Gaussian khác
DWT Biến đổi Wavelet rời rạc
FDOG Toán tử đạo hàm bậc một Gaussian ISEF Bộ lọc mũ đối xứng vô hạn
LOC Hàm định vị
LOG Laplace của Gaussian
SNR Tỉ số tín hiệu nhiễu
Trang 5DANH MỤC CÁC BẢNG
Bảng 2-1: Bảng cung cấp các ngưỡng tối ưu 33
Bảng 2-2: Bảng đánh giá phương pháp Sobel 55
Bảng 2-3: Bảng đánh giá phương pháp la bàn 56
Bảng 3-1: Bảng giá trị trung bình của các phương pháp 80
Trang 6DANH MỤC CÁC HÌNH VẼ
Hình 1-1: Quá trình xử lý ảnh 10
Hình 1-2: Các bước cơ bản trong một hệ thống xử lý ảnh 11
Hình 1-3: Tập ảnh để đánh giá các phương pháp 16
Hình 2-1: Mô hình biên 18
Hình 2-2: Chênh lệch Gradient của ảnh quả ớt 19
Hình 2-3: Gradient của ảnh quả ớt 20
Hình 2-4: Toán tử hướng phát hiện biên với quy ước 3x3 21
Hình 2-5: Gradient Prewitt, Sobel và Frei Chen với ảnh quả ớt 22
Hình 2-6: Mảng 3x3 thúc đẩy trả lại toán tử biên Gradient trực giao khác 23
Hình 2-7: Boxcar, Kim tự tháp, Argyle, Macleod và FDOG với ảnh quả ớt 25 Hình 2-9: Ma trận đáp ứng mẫu Gradient 3x3 29
Hình 2-10: Hình ảnh quả ớt cho bốn toán tử Gradient mẫu 3x3 30
Hình 2-11: Các mật độ xác suất điều kiện Gradient biên điển hình 31
Hình 2-12: Lấy ngưỡng trong phương pháp Sobel 35
Hình 2-13: Hình ảnh làm mảnh bản đồ biên của những quả ớt 36
Hình 2-14: Các đáp ứng của ảnh quả ớt ngọt 39
Hình 2-15: Vùng Laplace theo phép lấy Gaussian 40
Hình 2-16: Các mẫu Laplace đổi dấu 41
Hình 2-17: Mảng đáp ứng xung tương ứng 3x3 với Chebyshev 46
Hình 2-18: Các đáp ứng Chebtshev cho ảnh Ớt ngọt đơn sắc 48
Hình 2-19: Trùng khớp biên theo một chiều và hai chiều 49
Hình 2-20: Mô hình biên toán học tiếp tuyến 50
Hình 2-21: Kết quả áp dụng phương pháp Sobel và la bàn Kirsch 57
Hình 2-22: Quá trình nonmax-suppress (lọc các điểm biên) 62
Hình 2-23: Các bước khác nhau trong quá trình xử lý bàn cờ 64
Hình 2-24: Quá trình phân ngưỡng trễ 65
Trang 7Hinh 2-25: So sánh tương quan giữa hai phương pháp Canny và Shen-Castan.
70
Hình 3-1: Biên của ảnh cái hộp 71
Hình 3-2: Xác định biên của con chó nằm trên bậc thang 72
Hình 3-3: Biên ảnh của Filopodia 72
Hình 3-4: Dùng DWT cho biến đổi Neurite 73
Hình 3-5: Đặc điểm thấy được ở một hộp đơn 75
Hình 3-6: Các đặc điểm thấy được từ ảnh con chó nằm ở bậc thang 75
Hình 3-7: Sử dụng 3 trong 5 tiêu chuẩn cho ảnh con chó nằm bậc thang 76
Hình 3-8: Sử dụng 3 tiêu chuẩn cho ảnh của Filopodia 76
Hình 3-9: Sử dụng tự liên kết trong ảnh hộp đơn 77
Hình 3-10: Sử dụng tự liên kết trong ảnh con chó nằm bậc thang 77
Hình 3-11: Sử dụng tự liên kết trong của Filopodia 77
Hình 3-12: Đường biên được tìm thấy 81
Hình 3-13: Khoảng cánh từ tâm biên 81
Trang 8MỞ ĐẦU
Ngày nay, với sự phát triển mạnh mẽ của mọi lĩnh vực khoa học, kinh
tế, xã hội v.v… việc ứng dụng Công nghệ Thông tin vào tất cả các lĩnh vực đã đem lại hiệu quả cao Ở nước ta, ngành Công nghệ Thông tin tuy mới được hội nhập nhưng tốc độ phát triển khá nhanh và ngày càng được ứng dụng rộng trong nhiều lĩnh vực của nền kinh tế, góp phần thúc đẩy sự phát triển của xã hội Một trong những lĩnh vực có nhiều ứng dụng trong thực tiễn đó là Xử Lý ảnh
Xử lý hình ảnh là khâu quan trọng trong việc trao đổi thông tin giữa người và máy Theo thống kê cho thấy thì có khoảng 79% thông tin mà con người thu nhận được bằng thị giác là qua hình ảnh Xử lý ảnh đã góp phần quan trọng cho việc quan sát trở nên tốt hơn
Có nhiều ứng dụng cần tới các thông tin hình ảnh như: Xử lý ảnh trong
hệ thống thông tin văn phòng, trong quân sự, trong quảng cáo, trong thăm dò địa chất, vẽ bản đồ, trong các cửa hàng siêu thị, trong hoạt hình
Trong xử lý ảnh, việc nhận dạng và phân lớp các đối tượng đòi hỏi rất nhiều các quá trình và thao tác khác nhau, nhưng thông dụng hơn vẫn là quá trình dò tìm biên ảnh Cùng với sự phát triển của ngành Công nghệ Thông tin,
xử lý ảnh ngày càng được áp dụng rộng trong nhiều lĩnh vực thì dò tìm biên càng trở thành một công cụ cần thiết hơn
Phát hiện biên là quá trình định vị các điểm trong khi làm nổi biên, hay
nó làm tăng độ tương phản giữa các vùng và nền cho đến khi biên đó có thể thấy được một cách dễ dàng Mặc dù có nhiều phưng pháp nhưng nói chung tất cả các phương pháp đều thiết lập giá trị của điểm ảnh vào một mức xám nhất định (cùng màu) để có thể nhận ra chúng dễ dàng Kết quả là từ các phương pháp này ta thu được tập hợp đại diện cho các đối tượng Dựa vào các tập hợp, các thao tác của xử lý ảnh như: tính kích thước của đối tượng, nhận
Trang 9dạng, phân lớp các đối tượng có thể được thực hiện Trước đây, các phương pháp tìm biên thường sử dụng những toán tử đơn giản để thực hiện việc phát hiện biên
Hiện nay, các phương pháp phát hiện biên hiện đại được xây dựng trên
cơ sở phân tích lý thuyết một cách chặt chẽ nhiễu được đưa vào trong mô hình của bài toán Cách phát hiện ra các điểm biên ảnh không còn đơn giản như trước nữa mà sử dụng một loạt phưng pháp phức tạp như loại trừ điểm không cực đại, phù hợp Gradient,
Luận văn được trình bày trong ba chương chính Chương 1 nêu tổng quan về biên và xử lý ảnh, chương 2 nêu một số phương pháp phát hiện biên
và chương 3 nêu ra việc áp dụng Wavelet cho việc phát hiện biên Nội dung chi tiết các chương được trình bày chi tiết ở những phần tiếp theo
Trang 10CHƯƠNG 1 - TỔNG QUAN VỀ XỬ LÝ ẢNH VÀ BIÊN
Trong chương này, chúng ta tìm hiểu những khái niệm, thuật ngữ cơ bản được sử dụng trong xử lý ảnh cũng như dùng trong luận văn này
1.1 TỔNG QUAN VỀ XỬ LÝ ẢNH
Xử lý ảnh (Image Processing) là đối tượng nghiên cứu của lĩnh vực thị giác máy, là quá trình biến đổi ảnh từ một ảnh ban đầu sang một ảnh mới với các đặc tính mà tuân theo ý muốn của việc xử lý Xử lý ảnh có thể là quá trình phân tích, phân lớp các đối tượng làm tăng chất lượng ảnh, phân đoạn và tìm cạnh, gán nhãn cho vùng hay quá trình biên dịch các thông tin hình ảnh của ảnh
Cũng như xử lý dữ liệu bằng đồ hoạ, xử lý ảnh số là một lĩnh vực của tin học ứng dụng Xử lý dữ liệu bằng đồ hoạ đề cập đến những ảnh nhân tạo, các ảnh này được xem xét như là một cấu trúc dữ liệu và được tạo bởi các chương trình Xử lý ảnh số bao gồm các phương pháp và kỹ thuật để biến đổi,
để truyền tải hoặc mã hoá các ảnh tự nhiên Như vậy mục đích của xử lý ảnh bao gồm:
Hình 1-1: Quá trình xử lý ảnh Ảnh trong xử lý có thể xem như ảnh n chiều Bởi vì, ảnh có thể xem là tập hợp các điểm ảnh Trong đó, mỗi điểm ảnh được xem như là đặc trưng
Trang 11cường độ sáng hay một dấu hiệu nào đó tại một vị trí nào đó của đối tượng trong không gian và do đó nó có thể xem như một hàm n biến P(c1, c2, , cn)
Sơ đồ tổng quát của một hệ thống xử lý ảnh:
Hình 1-2: Các bước cơ bản trong một hệ thống xử lý ảnh
1.1.1 Thu nhận ảnh: Ảnh có thể nhận được qua quá trình thu nhận, thường là
các thiết bị thu nhận tín hiệu tương tự (nhưng cũng có thể các thiết bị thu nhận số), sau đó tín hiệu này sẽ được số hóa trước khi chuyển sang giai đoạn xử lý hoặc lưu trữ lại
1.1.2 Tiền xử lý: Dùng những kỹ thuật xử lý ảnh làm cho ảnh tốt hơn theo
mục đích của người sử dụng trước khi đưa ra xử lý, tùy thuộc vào quá trình xử lý tiếp theo trong giai đoạn này sẽ thực hiện các công đoạn khác nhau như: Xóa nhiễu, nổi biên, nắn chỉnh hình học, vv
1.1.3 Trích lọc đặc điểm: Các đặc điểm của đối tượng được trích chọn tùy
theo mục đích nhận dạng các đối tượng ảnh chính xác, với tốc độ tính toán cao và dung lượng nhớ lưu trữ giảm
1.1.4 Đối sánh, nhận dạng: Nhận dạng tự động, mô tả đối tượng, phân loại
và phân nhóm các mẫu là những vấn đề quan trọng trong thị giác máy Khi biết một mẫu nào đó, để nhận dạng và phân loại mẫu đó
1.2 BIÊN VÀ ỨNG DỤNG
1.2.1 Biên và các phương pháp phát hiện biên cơ bản
Biên là vấn đề quan trọng trong xử lý ảnh, vì các đặc điểm được trích chọn trong quá trình phân tích ảnh chủ yếu dựa vào biên Muốn nhận dạng
Hậu
xử lý
Đối sánh rút
ra kết luận
Trang 12được các đối tượng trước hết phải tìm đường biên của các đối tượng, đa số các hệ nhận dạng đều dùng đến biên
Một điểm được gọi là điểm biên nếu ở đó có sự thay đổi đột ngột về mức xám Thông thường hay sử dụng hai phương pháp phát hiện cơ bản:
“Phương pháp trực tiếp” và “Phương pháp gián tiếp”
Phát hiện biên trực tiếp: Phương pháp này làm nổi biên dựa vào sự
biến thiên mức xám của ảnh Kỹ thuật chủ yếu dùng để phát hiện biên ở đây
là dựa vào sự biến đổi theo hướng Nếu lấy đạo hàm bậc nhất của ảnh ta có kỹ thuật Gradient, nếu lấy đạo hàm bậc hai của ảnh ta có kỹ thuật Laplace
Phát hiện biên gián tiếp: Nếu bằng cách nào đó ta phân được ảnh
thành các vùng thì ranh giới giữa các vùng đó gọi là biên Kỹ thuật dò biên và phân vùng ảnh là hai bài toán đối ngẫu nhau vì dò biên để thực hiện phân lớp đối tượng mà khi đã phân lớp xong nghĩa là đã phân vùng được ảnh và ngược lại, khi đã phân vùng ảnh đã được phân lớp thành các đối tượng, do đó có thể phát hiện được biên
1.2.1.1 Phương pháp phát hiện biên trực tiếp
a) Kỹ thuật phát hiện biên Gradient
Theo định nghĩa Gradient là một vectơ có các thành phần biểu thị tốc
độ thay đổi giá trị của điểm ảnh
b) Kỹ thuật phát hiện biên Laplace
Các phương pháp đánh giá Gradient ở trên làm việc khá tốt khi mà độ sáng thay đổi rõ nét Khi mức xám thay đổi chậm, miền chuyển tiếp trải rộng, phương pháp cho hiệu quả hơn đó là pương pháp sử dụng đạo hàm bậc hai Laplace
1.2.1.2 Phương pháp phát hiện biên gián tiếp
a) Một số khái niệm cơ bản
Trang 13* Ảnh và điểm ảnh: Ảnh là một mảng số thực 2 chiều (Iij) có kích thước (mxn), trong đó mỗi phần tử Iij(i=1, ,m, j=1, ,n) biểu thị mức xám của ảnh tại (i,j) tương ứng
* Các điểm 4 và 8 láng giềng
Giả sử (i,j) là một điểm ảnh, các điểm 4 và 8 láng giềng là:
N4={(i’,j’) : |i-i’|+|j-j’|=1}, N8={(i’,j’) : max|i-i’|,|j-j’|=1}
b) Chu tuyến của một đối tượng ảnh
Định nghĩa 1: [Chu tuyến]
Chu tuyến của một đối tượng ảnh là dãy các điểm của đối tượng ảnh
P1, , Pn sao cho Pi và Pi+1 là các 8 láng giềng của nhau (i=1, , n-1) và P1 là 8 láng giềng của Pn, ∀i ∃Q không thuộc đối tượng ảnh và Q là 4 láng giềng của
Pi (hay nói cách khác ∀i thì Pi là biên 4) Kí hiệu <P1P2 Pn> Hình vẽ dưới đây biểu diễn chu tuyến của ảnh, P là điểm khởi đầu chu tuyến
Định nghĩa 2: [Chu tuyến đối ngẫu]
Hai chu tuyến C=<P1P2 Pn> và C1= <Q1Q2 Qn> được gọi là đối ngẫu của nhau khi và chỉ khi ∀i ∃j sao cho:
1 – Pi và Qj là 4 láng giềng của nhau
2 – Các điểm Pi và vùng thì Qj là nền và ngược lại
Định nghĩa 3: [Chu tuyến ngoài]
Chu tuyến C được gọi là chu tuyến ngoài khi và chỉ khi:
1 – Chu tuyến đối ngẫu C1 là chu tuyến của các điểm nền
2 - Độ dài của C nhỏ hơn độ dài C1
Định nghĩa 4: [Chu tuyến trong]
Chu tuyến C được gọi là chu tuyến trong khi và chỉ khi:
1 – Chu tuyến đối ngẫu C1 là chu tuyến của các điểm nền
2 - Độ dài của C lớn hơn độ dài C1
Trang 14c) Thuật toán dò tìm biên tổng quát
Về cơ bản, các thuật toán dò tìm biên trên một vùng đều bao gồm các bước sau:
• Xác định điểm biên xuất phát
• Dự báo và xác định điểm biên tiếp theo
• Lặp bước 2 cho đến khi gặp điểm biên xuất phát
* Thuật toán dò tìm biên tổng quát
Bước 1: Xác định cặp nền – vùng xuất phát
Bước 2: Xác định cặp nền – vùng tiếp theo
Bước 3: Lựa chọn điểm biên
Bước 4: Nếu gặp lại cặp xuất phát thì dừng, nếu không quay lại bước 2
1.2.2 Một số khái niệm về biên
a) Biên lý tưởng: Biên lý tưởng được định nghĩa là sự thay đổi giá trị cấp xám
tại một vị trí xác định Nếu sự thay đổi cấp xám giữa các vùng trong ảnh càng lớn thì biên càng dễ dàng nhận ra Trong trường hợp này sự thay đổi từ cấp xám cho ta thấy một biên Sự thay đổi này lại diễn ra tại một điểm nên biên có
độ rộng là một điểm ảnh và vị trí của biên chính là vị trí thay đổi cấp xám đó b) Biên dốc: Biên dốc xuất hiện khi sự thay đổi cấp xám trải rộng qua nhiều
điểm ảnh Vị trí của biên được xem như vị trí chính giữa của đường dốc nối giữa cấp xám thấp và cấp xám cao Tuy nhiên đây chỉ là đường dốc trong toán học, từ khi ảnh được kỹ thuật số hoá thì đường dốc không còn là đường thẳng
mà thành những đường lởm chởm, không trơn
c) Biên không trơn: Trong trường hợp không nhiễu (lý tưởng), bất cứ một sự
thay đổi cấp xám nào cũng thông báo sự tồn tại của một biên Trên thực tế,
Trang 15những trường hợp như vậy hiếm khi xảy ra, thường là do các nguyên nhân sau:
+ Hình dạng của đối tượng không sắc nét
+ Nhiễu: do một loạt các yếu tố như: kiểu thiết bị nhập ảnh, cường độ sáng, nhiệt độ, hiệu ứng áp suất, chuyển động, bụi , chưa chắc rằng hai điểm ảnh có cùng giá trị cấp xám khi được nhập lại có cùng cấp xám đó trong ảnh Kết quả của nhiễu trên ảnh gây ra một sự biến thiên ngẫu nhiên giữa các điểm ảnh Sự biến thiên ngẫu nhiên làm đường dốc của sự thay đổi cấp xám không còn là đường thẳng mà sẽ là đường gồ ghề, cạnh không nhẵn xuất hiện
1.2.3 Ứng dụng của biên
Trong cuộc sống con người chủ yếu tiếp nhận thông tin qua hình ảnh và âm thanh Con người nhận dạng được đối tượng nhờ sự nhận thức trực quan đối với đường bao đối tượng Một người quan sát thông thường có thể nhận rõ ranh giới đối tượng trong một cảnh thực, tuy nhiên đa số những người quan sát lại khó khăn trong việc ghi lại sự quan sát của họ bằng việc đánh dấu đối tượng Việc nhận dạng cạnh đã mang lại kết quả hết sức hữu ích dưới dạng những bản vẽ phác thảo trong việc miêu tả cảnh thực
Phát hiện biên được sử dụng trong rất nhiều phần mền xử lý ảnh hiện nay, đây chính là một phần trong việc nhận dạng ảnh Biên rất quan trọng trong xử lý ảnh và hệ thống nhận dạng, quá trình nhận dạng có hai giai đoạn cần thực hiện:
+ Giai đoạn học: Các đặc điểm của đối tượng mẫu được lưu trữ (gọi là
học mẫu) và tập các phần tử mẫu được chia thành các lớp
+ Giai đoạn nhận dạng: Khi có đối tượng cần nhận dạng, các đặc điểm
của đối tượng sẽ được trích chọn và sử dụng hàm quyết định để xác định đối tượng cần nhận dạng thuộc lớp nào
Trang 17CHƯƠNG 2 - NHỮNG PHƯƠNG PHÁP PHÁT HIỆN BIÊN
2.1 PHƯƠNG PHÁP TUYẾN TÍNH
Phương pháp tuyến tính hay còn gọi là phương pháp phát hiện biên trực tiếp, phương pháp này nhằm phát hiện biên dựa vào sự biến thiên về cường độ sáng của điểm ảnh
Phương pháp dùng chủ yếu ở đây là phương pháp đạo hàm Nếu lấy đạo hàm bậc nhất của ảnh ta có phương pháp Gradient, nếu lấy đạo hàm bậc hai ta có phương pháp Laplace Các phương pháp này được mô tả chi tiết dưới đây:
2.1.1 Phương pháp đạo hàm bậc nhất Gradient
Phép toán Gradient là phép toán cơ bản dùng để phát hiện biên theo phương pháp tuyến tính, đây là phép toán lấy đạo hàm bậc nhất trong không gian hai chiều
Có hai phương pháp cơ bản để tạo ra đạo hàm bậc nhất Cách thứ nhất tạo ra các Gradien theo hai hướng trực giao trong một ảnh; cách thứ hai dùng một tập các đạo hàm theo hướng
2.1.1.1 Tạo các Gradient trực giao
Một biên trong một vùng biên liên tục F( x, y) có thể được tìm thấy bởi việc thiết lập Gradient một chiều liên tục dọc theo hướng trực giao với đường biên dốc, với một góc θ so với trục hoành Gradient một chiều liên tục dọc theo hướng trực giao với đường biên dốc có thể được tính dưới dạng các đạo hàm dọc theo các trục trực giao
θ
θ ( , ) sin cos
) , ( )
,
(
y
y x F x
y x F y
x
G
∂
∂ +
∂
∂
Trang 18Hình 2-1: Mô hình biên
Hình 2-1: Miêu tả việc tạo một Gradient biên G(x, y) trong miền rời rạc dưới dạng một Gradient dòng GR(j, k) và Gradient cột GC(j, k) Gradient không gian biên độ được tính bởi:
G(j, k)=[[GR(j, k)]2 + [GC(j, k)]2]1/2 (2.1.1.2)
Để tính toán hiệu quả, Gradient biên độ thỉnh thoảng được tính xấp xỉ bởi việc phối hợp độ lớn:
G(j, k)=|GR(j, k)| + |GC(j, k)| (2.1.1.3) Hướng của Gradient không gian đối với trục hoành là:
),(arctan)
,(
k j G
k j G k
GR(j, k) = F(j, k) – F(j, k - 1) (2.1.1.5a)
Và Gradient theo cột là:
GC(j, k) = F(j, k) – F(j + 1, k) (2.1.1.5b)
Trang 19Các định nghĩa Gradient theo dòng và cột, và các mở rộng tiếp theo được chọn mà GR và GC là dương với một biên mà biên độ tăng từ trái qua phải và từ dưới lên trên trong một ảnh
Với các biên dốc, tìm biên dựa theo sự sai khác không thể khoanh vùng biên thành một điểm ảnh đơn Hình 2-2 đưa ra các ví dụ phân biệt các Gradient theo chiều ngang và chiều dọc của ảnh đơn sắc các quả ớt Trong đó
và tiếp theo các bức ảnh Gradient hiển thị, phạm vi Gradient được vẽ theo tỷ
lệ trên toàn bộ phạm vi độ tương phản của bức ảnh Thể hiện bề ngoài từ bức ảnh mà sử dụng kỹ thuật sai khác là rất nhạy cảm với các sự dao động nhỏ trong độ chói của ảnh và các đường biên vật thể không được mô tả chính xác
Hình 2-2: Chênh lệch Gradient của ảnh quả ớt
Trang 20Các Gradient biên chéo có thể đạt được bằng việc thiết lập các sai khác liên tiếp của các bộ chéo của các điểm ảnh Đây là cơ sở của toán tử Roberts[4]mà được định nghĩa theo giá trị tuyệt đối như sau:
G(j, k) = |G1(j, k)| + |G2(j, k)| (2.1.1.6a)
Và dưới dạng căn bậc hai như sau:
G(j, k) = [[G1(j, k)]2 + [G2(j, k)]2]1/2 (2.1.1.6b) Với:
G1(j, k) = F(j, k) – F(j + 1, k + 1) (2.1.1.6c)
G2(j, k) = F(j, k + 1) – F(j + 1, k) (2.1.1.6d) Hướng biên đối với trục hoành là
=
) , (
) , ( arctan 4
) , (
1
2
k j G
k j G k
Hình 2-3 đưa ra các biên Gradient của ảnh các quả ớt với toán tử Roberts Nhìn bề ngoài các vật thể trong ảnh xuất hiện trở lên mảnh phân biệt
dễ hơn với căn bậc hai Roberts so với Gradient trị tuyệt đối
Hình 2-3: Gradient của ảnh quả ớt
Mặc dù góc biên được khoanh vùng phù hợp, nhưng phương pháp di truyền hướng sai khác điểm ảnh tách biệt vẫn rất nhạy cảm với sự dao động
Trang 21ánh sáng trong ảnh Vấn đề này có thể được hạn chế bằng cách sử dụng các toán tử hai chiều thực hiện đồng thời vi phân theo một hướng và lấy trung bình không gian theo hướng trực giao
A0 A1 A2
A7 F(j,k) A3
A6 A5 A4 Hình 2-4: Toán tử hướng phát hiện biên với quy ước 3x3
Prewitt[3] đã giới thiệu toán tử hướng biên 3x3 được mô tả bởi hình
2-4 Phương pháp tìm biên căn bình phương toán tử Prewitt được định nghĩa:
G(j,k) = ([Gr(j,k)]2 + [Gc(j,k)]2)1/2 (2.1.1.8a) Với :
Gr(j,k) =
2
1 +
k [(A2 + KA3 + A4) – (A0 + KA7 + A6)] (2.1.1.8b)
Gc(j,k) =
2
1 +
k [(A0 + KA1 + A2) – (A6 + KA5 + A4)] (2.1.1.8c) Trong đó: K=1 Trong công thức này, hướng theo hàng và cột được đơn giản hoá để đưa ra các đơn vị tăng trung bình trọng lượng âm và dương về một vị trí biên tách biệt Bộ phát hiện biên toán tử Sobelrất khác so với bộ dò biên Prewitt bởi vì các giá trị điểm hướng đông, tây, nam và bắc được gấp hai lần (ví dụ K=2) Mục đích việc gán hệ số trọng lượng này là để đưa ra tầm quan trọng tương xứng cho mỗi điểm ảnh trong cách thức nó đóng góp cho hướng không gian Frei và Chen[5] đã đề nghị đánh hệ trọng số đông, tây, nam và bắc bởi K = 2 vì thế hướng là tương tự nhau theo các biên dọc, ngang
và chéo Hướng biên G(j,k) cho các toán tử này cùng một hàng trong mô hình biên dọc biến đổi điểm ảnh đơn
Trong toán tử Frei-Chen với K = 2, Gradient biên là tương tự nhau tại trung tâm biên với biến đổi điểm ảnh đơn trong các mô hình biên chéo và biên dọc Gradient Prewitt cho biên chéo bằng 0,94 lần biên dọc Hệ số tương ứng
Trang 22cho bộ dò biên Sobel là 1,06 Kết quả là toán tử Prewitt nhạy cảm theo biên dọc và biên ngang hơn là biên chéo; ngược lại đối với toán tử Sobel Các Gradient cùng một hàng trong mô hình biên chéo biến đổi mềm khác so với biên chéo và dọc với tất cả ba bộ dò biên 3x3 Không cái nào trong số chúng
có thể khoanh vùng biên cho điểm ảnh đơn
Hình 2-5: Gradient Prewitt, Sobel và Frei Chen với ảnh quả ớt
Hình 2-5 đưa ra ví dụ các Gradient Prewitt, Sobel và Frei-Chen của mô hình ảnh quả ớt Lý do mà các toán tử này dường như là rõ ràng tốt hơn cho
Trang 23các biên của đối tượng phác hoạ so với toán tử Roberts là ở chỗ nó có kích thước lớn hơn, đưa ra trung bình của các dao động ánh sáng nhỏ
Gr(j,k) = F(j,k) 8 Hr(j,k) (2.1.1.9a)
Gc(j,k) = F(j,k) 8 Hc(j,k) (2.1.1.9b) Trong đó HR(j,k) và HC(j,k) là các mảng 3x3 tương ứng hàng và cột, như đã xác định ở hình 2-6
Toán tử Gradient hàng Gradient cột
1 1 0
0 0 0
0 1 0
0 1 0
0 1 0
1 0 0
0 1 0
0 0 1
1 0 1
1 0 1
0 0 0
1 1 1
2 0
2
1 0 1
0 0 0
1 2 1
101
20
2
10122
000
121
221
Hình 2-6: Mảng 3x3 thúc đẩy trả lại toán tử biên Gradient trực giao khác Một giới hạn bình thường cho toán tử di truyền Gradient biên được định nghĩa trước đây là không có khả năng để dò biên chính xác trong môi
Trang 24trường có độ nhiễu cao Vấn đề này có thể được hạn chế bởi việc mở rộng hợp lý kích thước các toán tử lân cận thông qua đó Gradient sai phân được tính toán Một ví dụ, toán tử Prewitt loại 7x7 có dạng tương ứng Gradient sau:
1110111
1110111
1110111
1110111
1110111
1110111
Một toán tử của loại này được gọi là toán tử boxcar Hình 2-7 biểu diễn
Gradient của một ma trận boxcar 7x7
Trang 25Hình 2-7: Boxcar, Kim tự tháp, Argyle, Macleod và FDOG với ảnh quả ớt Abdou[6] đưa ra toán tử kim tự tháp mà ở đó có trọng lượng giảm tuyến tính với các điểm ảnh từ trung tâm của biên Ma trận đáp ứng Gradient hàng cho toán tử kim tự tháp 7x7 được cho như sau:
Trang 261230321
1230321
1230321
1220221
1110111
chú ý đến hàm Gaussian vùng liên lục với độ lệch chuẩn s Sử dụng kí hiệu
này, toán tử ma trận Argyle đáp ứng phối hợp ngang có thể được biểu diễn như là kiểu được lấy mẫu của đáp ứng vùng liên tục:
⎩
⎨
⎧−
) , ( ) , ( 2
) , ( ) , ( 2 ) , (
t y g s x g
t y g s x g k
j
với x < 0 (2.1.1.13b) Trong đó s và t là các hệ số trải Hàm đáp ứng dọc có thể được biểu diễn một cách tương tự Hàm toán tử Macleod đáp ứng Gradient ngang được biểu diễn như sau :
HR(j,k) = [g(x + s,s) – g(x – s,s)] g(y,t) (2.1.1.14) Toán tử Argyle và Macleod, không giống toán tử Boxcar, đưa ra sự giảm thiểu quan trọng cho các điểm ảnh xa từ trung tâm của lân cận Hình 2-7 biểu diễn các ví dụ cho Gradient Argyle và Macleod
Toán tử Gradient sai phân kích thước mở có thể được xem xét như là các toán tử phức hợp trong đó hoạt động làm mềm được thực hiện trên một ảnh nhiễu được tiếp theo bởi hoạt động sai phân Đáp ứng Gradient phức có thể được viết như sau:
Trang 27H(j,k) = HG(j,k) 8 HS(j,k) (2.1.1.15)
Trong đó HG(j,k) là một trong các toán tử đáp ứng Gradient của hình
2-6 và HS(j,k) là một đáp ứng bộ lọc thấp Ví dụ, nếu HS(j,k) là toán tử Gradient hàng Prewitt 3x3 và HS(j,k) = 1/9, đối với mọi (j,k), là một toán tử làm mềm không đổi, toán tử kết quả Gradient hàng 5x5, sau việc đơn giản hoá thành các đơn vị âm dương trở thành:
∂
∂
− [ ( , ) ( , )]
(2.1.1.17a) dựa trên ưu điểm vi phân :
HR(j,k) = ( , 2) ( , )
s
t y g s x xg
−
(2.1.1.17b)
Tất cả các toán tử tăng cường biên vi phân được đưa ra trước đây đều ở dạng khám phá bước đầu Canny đã tiến gần đến việc phân tích để lựa chọn các toán tử này Phát triển của Canny dựa trên mô hình vùng liên tục một hướng bước nhảy biên của nhiễu trắng Gaussian cộng thêm vào biên độ hE cùng với khởi đầu tiêu chuẩn là σn Giả thiết rằng dò tìm biên được thực hiện
bằng kết hợp một tín hiệu biên nhiễu vùng liên tục một chiều f(x) với một hàm đáp ứng bất đối xứng h(x)nó có giá trị biên độ bằng không nếu nó ngoài vùng [-W,W] Vấn đề này sẽ nêu chi tiết hơn ở phần sau
Trang 282.1.1.2 Tạo các Gradient mẫu biên
Với công nghệ làm nổi biên vi phân trực giao đã được bàn luận trước đây, Gradient biên được tính toán theo hai hướng trực giao, thông thường theo hàng, cột sau đó hướng biên được can thiệp bởi việc tính toán vector tổng của Gradient Một điều khác nữa là tính toán Gradient trong số lượng lớn các hướng bằng cách kết hợp một ảnh với các ma trận đáp ứng Gradient mẫu Gradient mẫu biên được xác định bởi:
G(j,k) = MAX{|G1(j,k)|, , |Gm(j,k)|, , |GM(j,k)|} (2.1.1.21a) Trong đó:
Gm(j,k) = F(j,k) 8 Hm(j,k) (2.1.1.21b) Gradient trong hướng thứ m thu được bởi kết hợp một ảnh với một ma trạn đáp ứng Gradient Hm(j, k) Góc biên được xác định bởi hướng của Gradient lớn nhất
Hình 2-9 xác định 8 ma trận đáp ứng Gradient vòng đơn giản hoá tăng được đề xuất bởi Prewitt Tên của vòng chỉ ra hướng dốc của đáp ứng lớn nhất Kirsh đã đề nghị một Gradient hướng được định nghĩa bởi:
7 G(j,k) = MAX{|5Si – 3Ti|} (2.1.1.22a)
i=0 Trong đó:
Si = Ai + A1+1 + Ai+2 (2.1.1.22b)
Ti = Ai+3 + Ai+4 +Ai+5 + Ai+6 (2.1.1.22c)
Trang 29Hình 2-9: Ma trận đáp ứng mẫu Gradient 3x3
Các kí hiệu Ai được đánh giá modulo Nó có khả năng tính toán Gradient Kirsch bằng cách tổ hợp trong phương trình (2.1.1.21b) Hình 2-9 xác định ma trận đáp ứng toán tử Kirsch đơn giản hoá Cấu trúc này xác định cho hai bộ ma trận đáp ứng đơn giản tăng khác được đưa ra bởi Robinson[13], được gọi là toán tử ba mức Robinson và toán tử năm mức Robinson, được
Trang 30khởi đầu từ toán tử Prewitt và Sobel Hình 2-10 đưa ra sự so sánh Gradient biên của hình ảnh quả ớt cho bốn toán tử Gradient mẫu 3x3
Hình 2-10: Hình ảnh quả ớt cho bốn toán tử Gradient mẫu 3x3
2.1.1.3 Sự chọn lựa ngưỡng
Sau khi Gradient biên được tính toán theo các phương pháp phát hiện biên vi phân, Gradient này được so sánh với 1 ngưỡng để xác định xem liệu biên có tồn tại không Giá trị ngưỡng này xác định độ nhạy của bộ phát hiện biên Đối với các ảnh không có nhiễu, ngưỡng này có thể được chọn sao cho tất cả các sự không liên tục về biên độ của 1 mức tương phản nhỏ nhất sẽ được phát hiện là biên, và tất cả những phần khác được gọi là không biên Với các ảnh có nhiễu, việc lựa chọn ngưỡng này trở thành 1 thỏa hiệp giữa các biên hợp lệ bị bỏ qua và các biên sai do nhiễu được tạo thành
Trang 31Phát hiện biên có thể coi như một bài toán kiểm tra giả thiết để xác định liêu một vùng ảnh có bao gồm biên hay không, cho P(edge) và P(no-edge) kí hiệu xác suất cho trước của những sự kiện này Như thế quá trình xác định có thể được đặc tính hóa bởi xác suất khả năng phát hiện biên đúng
trong đó t là ngưỡng phát hiện biên, p(G|edge) và p(G|no-edge) là mật
độ xác suất điều kiện Gradinet biên G(j,k) Hình 2-11 là một phác họa của các mật độ điều kiện Gradient biên điển hình Xác suất của lỗi xác định nhầm cóc thể biểu diễn là: PE = (1 - PD) P(edge) + (PF) P(no-edge) (2.1.1.24)
Hình 2-11: Các mật độ xác suất điều kiện Gradient biên điển hình
lỗi này sẽ là cực tiểu nếu ngưỡng được chọn sao cho một biên được cho là tồn tại khi:
p(G|edge) P(no-edge) p(G|no-edge) ≥ P(edge) (2.1.1.25) ngược lại thì giả thiết không biên được chấp nhận Phương trình (2.1.1.25) định nghĩa việc kiểm thử tỷ số cực đại được kết hợp với luật quyết định lỗi cực tiểu Bayes của lý thuyết quyết định cổ điển Một phương pháp quyết định
Trang 32phổ biến khác được gọi là kiểm thử Neyman – Pearson, là chọn ngưỡng t để
PF đủ nhỏ với một PD khả quan cố định
Việc ứng dụng các luật ra quyết định để thống kê xác định giá trị ngưỡng yêu cầu thông tin về các xác suất biên ưu tiên và mật độ điều kiện của Gradient biên Các xác suất có thể được ước lượng từ các ảnh cùng loại qua phân tích Mặt khác, tỷ số xác suất có thể coi như một yếu tố điều khiển độ nhạy phát hiện biên Các mật độ điều kiện có thể được xác định, về mặt nguyên tác đối với mô hình thống kê của một biên lý tưởng cộng với nhiễu Abdou đã có kết quả các mật độ xác suất này với các toán tử phát hiện biên 2x2 và 3x3 cho trường hợp một biên dốc có đọ rộng w=1 và nhiễu cộng Gauss
Có hai khó khăn gặp phải khi sử dụng cách tiếp cận thống kê để xác định ngưỡng bộ phát hiện biên: độ tin cậy của các mô hình biên thống kê và các phân tích để nhận được các mật độ điều kiện Gradient Một cách tiếp cận khác được phát biểu bởi Abdou và Pratt là nó dựa trên kỹ thuật nhận dạng mẫu, tránh được các khó khăn của phương pháp thống kê trên Phương pháp nhận dạng mẫu này tạo ra một số lượng lớn các mẫu của vùng ảnh nhiễu, một
số chưa biên và một số khác thì không Những mẫu này sau đó được sử dụng như là một tập huấn luyện để tìm kiếm ngưỡng mà sai phân là nhỏ nhất
Trang 33Bảng 2-1: Cung cấp một bảng các ngưỡng tối ưu cho một vài bộ phát hiện biên 2x2 và 3x3, các thiết lập này được đánh giá bởi 250 tập không có trong tập huấn luyện Bảng này cũng liệt kê xác suất của phát hiện biên đúng và sai
Trang 34đã được định nghĩa trong công thức (2.1.1.23), chúng được tính toán theo lý thuyết từ các mật độ điều kiện Gradient Trong bảng này, ngưỡng được chuẩn hóa sao cho tN = t/GM, trong đó GM là biên độ lớn nhất của Gradient khi
không có nhiễu Tỷ số tín hiệu trên nhiễu được định nghĩa là: SNR = (h/σn)2,
trong đó h là độ cao biên và σn độ lệch chuẩn của nhiễu Trong hầu hết các trường hợp của bảng 2-1 ngưỡng tối ưu suy ra xấp xỉ khi PF = 1 – PD Kết quả này sẽ nhận được khi sử dụng thủ tục Bayes khi các biên và không biên có khả năng ngang nhau Các kiểm thử gắn liền với bảng 2-1 được suy ra với các ảnh có tỉ số tín hiệu trên nhiễu tương đối Phần sau cung cấp các ví dụ của các ảnh như thế Đối với các ảnh mà tín hiệu trên nhiễu cao, ngưỡng tối ưu sẽ
nhỏ hơn nhiều Kết quả là, với điều kiện PF = 1 – P D, ngưỡng phát hiện biên
có thể được lấy tí lệ tuyến tính với SNR Do đó, với một ảnh SNR = 100, ngưỡng này khoảng 10% của giá trị Gradient đỉnh
Trang 35Hình 2-12: Lấy ngưỡng trong phương pháp Sobel và khi lấy đạo hàm lần thứ nhất của phương pháp Gaussian khi dò tìm biên trong ảnh quả ớt ngọt Hình 2-12 thể hiện các hiệu ứng khi thay đổi ngưỡng bộ phát hiện biên đạo hàm bậc nhất đối với các bộ phát hiện Sobel FDOG 3x3 và 11x11 áp dụng cho ảnh Ớt ngọt, nó là một ảnh có SNR(tỷ số tín hiệu nhiễu) tương đối Đối với cả hai bộ phát hiện, biến thiên của ngưỡng này thể hiện một thỏa hiệp giữa việc phát hiện biên mạnh và bỏ qua biên yếu
2.1.2 Phương pháp đạo hàm bậc hai Laplace
Các phương pháp phát hiện biên dựa vào đạo hàm bậc hai sử dụng một
số dạng sai phân không gian bậc hai để tăng cường được nhận ra, đánh dấu nếu đạo hàm bậc hai không gian ảnh thay đổi Có hai phương pháp đạo hàm bậc hai được xét ở đây: Laplacian và đạo hàm bậc hai có hướng
Torre và Poggio đã nghiên cứu các tính chất toán học của Laplace
Trang 36của một hàm ảnh Họ đã tìm ra rằng: nếu F(x) thỏa mãn một số ràng buộc trơn nào đó, sự đổi dấu của G(x) là các đường cong sát nhau
Hình 2-13: Hình ảnh làm mảnh bản đồ biên của những quả ớt
Trong miền rời rạc, xấp xỉ đơn giản nhất của Laplace tương tự là tính sai phân của các sườn theo mỗi trục tọa độ:
G(j,k) = [F(j,k) – F(j,k-1)] - [F(j,k+1) – F(j,k)] +
[F(j,k) – F(j+1,k)] - [F(j-1,k) – F(j,k)] (2.1.2.2) Laplace lân cận 4 có thể được tạo ra bằng phép toán chập:
với:
Trang 370 2 0
0 1 0
0 0 0
1 2 1
0 0 0
1 4 1
0 1 0
Trong đó hai ma trận của phương trình (2.1.2.4a) lần lượt tương ứng với đạo hàm bậc hai theo các hàng và cột của ảnh như là trong Laplace liên tục của phương trình (2.1.2.1b) Laplace lân cận 4 thường được chuẩn hóa để các điểm ảnh được lấy trọng số âm và số dương có mức trung bình đơn vị trong một lân cận 3x3
141
0104
1
(2.1.2.5)
Đáp ứng xung lân cận 4 đã chuẩn hóa theo định nghĩa của Prewitt, trong đó Laplace lân cận 8 được định nghĩa bởi một mảng đáp ứng xung đã chuẩn hóa bởi:
181
1118
222
1111
21
121
121
Trang 38Trong đó, các sai khác của các sườn được lấy trung bình trong 3 hàng
và 3 cột Công thức được chuẩn hóa của Laplace lân cận 8 là:
141
2128
0
và biên này nằm tại điểm ảnh chuyển dấu tại trung tâm
Hình 2-14 thể hiện các đáp ứng Laplace của ảnh Ớt ngọt (peppers) đối với ba kiểu của Laplace 3x3 Trong những ảnh này, các giá trị âm xác định là tối hơn so với các giá trị độ xám giữa, và các giá trị đuơng lại sáng hơn các giá trị độ xám giữa
Trang 39Marr and Hildrith[14] đã đề xuất Toán tử phát hiện biện Laplace của Gaussian (LOG), trong đó việc làm trơn Gaussian được thực hiện trước khi áp dụng Laplace Gradien LOG miền liên tục là:
G(x,y) = -∇2 {F(x,y) 8 HS(x,y)} (2.1.2.9a) Trong đó, G(x,y) = g(x,s)g(y,s) (2.1.2.9b)
Hình 2-14: Các đáp ứng của ảnh quả ớt ngọt
là đáp ứng xung của hàm làm trơn Gaussian được định nghĩa bởi công thức (2.1.1.12) Do sự tuyến tính của phép toán đạo hàm bậc hai và sự tuyến tính của tích chập có thể biểu diễn đáp ứng LOG là:
Trong đó: H(x,y) = -∇2{g(x,s)g(y,s)} (2.1.2.10b)
Trang 40Tùy thuộc vào phép toán chúng ta nhận được:
(2.2.11)(2.1.2.11)
Hình 2-15 là một hình ảnh chéo qua các phần của đáp ứng xung miền liên tục LOG, nó thường được gọi là bộ lọc mũ Mêhicô Có thể thấy đáp ứng xung LoG có thể biểu diễn:
(2.1.2.12)
Do vậy, thao tác nếp cuộn quấn lại, xoắn lại có thể tính toán phân ra theo hàng và cột Nó có thể thực hiện gần như đáp ứng xung LOG đóng bởi toán tử Gaussian khác (DOG) Kết quả đáp ứng xung là:
H(x,y) = g(x,s1) g(y,s1) – g(x,s2) g(y,s2) (2.1.2.13)
Hình 2-15: Vùng Laplace theo phép lấy Gaussian Trong đó s1<s2 Marr và Hildrith đã tìm ra tỉ số s2/s1 = 1.6, cung cấp một xấp xỉ tốt cho LOG đó
Một bản sao miền rời rạc của toán tử LOG có thể nhận được bằng cách lấy mẫu hàm đáp ứng xung miền liên lục của phương trình (2.1.2.11) trong một cửa sổ WxW Để tránh các hiệu ứng cắt xóa, kích thước của mảng nên