Ví dụ đối với mặt nạ 3x3 ởhình 1.2, quá trình này bao gồm việc tính tổngcác tích của trọng số với mức xám trong vùngmặt nạ đi qua để thu được đáp ứng của mặt nạ: 1.3.1.1 Tách điểm ảnh Về
Trang 1MỞ ĐẦU
Xử lý ảnh là một trong những mảng quan trọng nhất trong kỹ thuật thị giácmáy tính, là tiền đề cho nhiều nghiên cứu thuộc lĩnh vực này Hai nhiệm vụ cơ bảncủa quá trình xử lý ảnh là nâng cao chất lượng thông tin hình ảnh và xử lý số liệucung cấp cho các quá trình khác trong đó có việc ứng dụng thị giác vào điều khiển
Một hệ thống xử lý và nhận dạng ảnh được chia ra làm các thao tác khácnhau Trong đó, thao tác phân đoạn ảnh được xem là thao tác khó, quan trọng vàcần thiết [4] Kết quả nhận dạng ảnh phụ thuộc rất nhiều vào công đoạn này Độchính xác của quá trình phân đoạn ảnh có ý nghĩa quyết định tới các xử lý tính toánsau đó Phân đoạn có thể đóng vai trò trung tâm trong một số xử lý kĩ thuật nhưphân tích chất lượng sản phẩm, kiểm tra quá trình lắp ráp các chi tiết điện, v.v hoặc
là một khâu trung gian cần thiết cho các quá trình xử lý tiếp theo như các xử lýtrong y học
Phân đoạn là các thao tác chia nhỏ bức ảnh đầu vào thành các miền hoặc cácvật thể con với mức độ tùy theo nhu cầu xử lý để biểu diễn, phân tích, nhận dạngảnh, v.v Chung lại mục tiêu của phân đoạn ảnh là làm nổi bật hoặc tách hẳn vật thểcần quan tâm ra từ ảnh ban đầu; làm đơn gián hóa và/ hoặc thay đổi cách biểu diễn
có ý nghĩa hơn và dễ dàng hơn để phân tích [1] Phân đoạn thường được sử dụng đểxác định vị trí đối tượng và ranh giới (đường dây, đường cong, v.v.) trong hình ảnh
Do đó đề tài có ý nghĩa và cần thiết thực hiện
Cấu trúc của luận văn được chia làm 4 chương:
Chương 1: Trình bày tổng quan về xử lý ảnh; phân đoạn và vai trò của phânđoạn ảnh; một số phương pháp cơ bản trong phân đoạn ảnh đa cấp xám
Chương 2: Trình bày về các mô hình (không gian màu) cùng một vài kỹthuật phân đoạn ảnh màu đại diện
Chương 3: Trên cơ sở lý thuyết và thuật toán về phân đoạn ảnh đa cấp xámđược trình bày ở chương I và phân đoạn ảnh màu ở chương II, chương này sẽ ứngdụng cơ sở lý thuyết cùng với thuật toán vào cài đặt chương trình Demo gồm cácthuật toán Kmean, lý thuyết đồ thị và không gian màu CIE
Chương 4: Phần kết luận nêu tóm tắt các kết quả đạt được và đưa ra hướnggiải quyết, nghiên cứu trong tương lai
Trang 2Hình 1.0 Quá trình xử lý ảnh
Ảnh trong xử lý ảnh có thể xem như ảnh n chiều Bởi vì, ảnh có thể xem là tậphợp các điểm ảnh Trong đó, mỗi điểm ảnh được xem như là đặc trưng cường độ sáng hay một dấu hiệu nào đó tại một vị trí nào đó của đối tượng trong không gian và do đó nó có thể xem như một hàm n biến P(c1, c2, , cn)
Sơ đồ tổng quát của một hệ thống xử lý ảnh:
Hình 1.1 Các bước cơ bản trong một hệ thống xử lý ảnh
1.1.1.Tiền xử lý
Sau bộ thu nhận, ảnh có thể nhiễu độ tương phản thấp nên cần đưa vào bộ tiền
xử lý để nâng cao chất lượng [1,2] Tiền xử lý là giai đoạn đầu tiên trong xử lý ảnh
số Tuỳ thuộc vào quá trình xử lý tiếp theo trong giai đoạn này sẽ thực hiện cáccông đoạn khác nhau như: nâng cấp, khôi phục ảnh, nắn chỉnh hình học, khử nhiễuv.v
Phân đoạnảnh
Biểu diễn
và mô tả ảnh
Nhận dạng
và nội suy
Trang 3Các đặc điểm của đối tượng được trích chọn tuỳ theo mục đích nhận dạngtrong quá trình xử lý ảnh [3] Trích chọn hiệu quả các đặc điểm giúp cho việc nhận dạng các đối tượng ảnh chính xác, với tốc độ tính toán cao và dung lượng nhớ lưu trữ giảm
b) Biểu diễn và mô tả ảnh
Đầu ra ảnh sau phân đoạn chứa các điểm ảnh của vùng ảnh (ảnh đã phân đoạn)cộng với mã liên kết với các vùng lận cận Việc biến đổi các số liệu này thành dạngthích hợp là cần thiết cho xử lý tiếp theo bằng máy tính Việc chọn các tính chất đểthể hiện ảnh gọi là trích chọn đặc trưng gắn với việc tách các đặc tính của ảnh dướidạng các thông tin định lượng hoặc làm cơ sở để phân biệt lớp đối tượng này vớiđối tượng khác trong phạm vi ảnh nhận được
1.1.3 Nhận dạng và nội suy ảnh
Nhận dạng ảnh là quá trình xác định ảnh Quá trình này thường thu được bằngcách so sánh với mẫu chuẩn đã được học (hoặc lưu) từ trước Nội suy là phán đoántheo ý nghĩa trên cơ sở nhận dạng Ví dụ: một loạt chữ số và nét gạch ngang trênphong bì thư có thể được nội suy thành mã điện thoại
Có nhiều cách phân loai ảnh khác nhau về ảnh Theo lý thuyết về nhận dạng,các mô hình toán học về ảnh được phân theo hai loại nhận dạng ảnh cơ bản: Nhậndạng theo tham số và nhận dạng theo cấu trúc
Một số đối tượng nhận dạng khá phổ biến hiện nay đang được áp dụng trongkhoa học và công nghệ là: nhận dạng ký tự (chữ in, chữ viết tay, chữ ký điện tử),nhận dạng văn bản (Text), nhận dạng vân tay, nhận dạng mã vạch, nhận dạng mặtngười.v.v
1.2 VAI TRÒ CỦA PHÂN ĐOẠN
Phân đoạn là các thao tác chia nhỏ bức ảnh đầu vào thành các miền hoặc cácvật thể con với mức độ tùy theo nhu cầu xử lý Mục tiêu của phân đoạn ảnh là làm
Trang 4có ý nghĩa quyết định tới các xử lý tính toán sau đó
1.3 PHÂN ĐOẠN ẢNH ĐA CẤP XÁM
Phân đoạn ảnh màu dựa trên cơ sở của phân đoạn ảnh đa cấp xám [4], vì vậy
mà trước khi đi tìm hiểu về phân đoạn ảnh màu, nội dung này sẽ đưa ra một vài kỹthuật phân đoạn ảnh đa cấp xám tiêu biểu Kỹ thuật phân đoạn ảnh màu sẽ đượctrình bày ở chương II
1.3.1 Tách không liên tục
Phần này sẽ nói về ba kỹ thuật cơ bản đểtách mức xám không liên tục trong một ảnh số:điểm, đường và biên Cách phổ biến nhất để tìm
ra sự không liên tục này là sử dụng mặt nạ quétqua hết bức ảnh Ví dụ đối với mặt nạ 3x3 ởhình 1.2, quá trình này bao gồm việc tính tổngcác tích của trọng số với mức xám trong vùngmặt nạ đi qua để thu được đáp ứng của mặt nạ:
1.3.1.1 Tách điểm ảnh
Về nguyên tắc, việc tách các điểm cô lập trong một bức ảnh khá đơn giản Ví
dụ khi sử dụng mặt nạ như hình 1.3a, ta tách điểm có vị trí mà mặt nạ tập trung nếu:
Trang 5Ở đây T là ngưỡng dương và R được xác định bởi (1.1) Về cơ bản, công thứcnày đo độ chênh lệch giữa điểm trung tâm và các lân cận của nó Ý tưởng chủ đạo ởđây là một điểm cô lập (điểm có mức xám khác với nền của nó, và được định vịtrong vùng đồng nhất hoặc có thể nhận thấy) thì hơi khác so với những điểm xungquanh, vì vậy nó dễ dàng bị tách bởi loại mặt nạ này Lưu ý là các điểm cô lập phải
đủ lớn (xác định bởi T) Tổng hệ số của mặt nạ bằng 0, điều đó chứng tỏ rằng đápứng của mặt nạ sẽ bằng 0 tại những vùng có mức xám không đổi
Hình 1.3b là một minh họa cho việc tách các điểm cô lập trong một ảnh Hình1.3b biểu diễn ảnh chụp bằng tia X của bề mặt tua bin của 1 động cơ phản lực ởtrạng thái bị rỗ Có 1 pixel màu đen đơn lẻ ở trong mỗi vùng bị rỗ Hình 1.3c là kếtquả sau khi áp dụng tách điểm bằng cách sử dụng mặt nạ 1.3a cho ảnh 1.3b Hình1.3d là kết quả áp dụng công thức 1.2 với ngưỡng T bằng 90% giá trị của các pixelcao nhất trong hình 1.3c (Việc chọn ngưỡng – threshold sẽ được nói chi tiết trongphần sau) Những pixel đơn hiện ra rõ ràng trong bức ảnh này
Hình 1.3 Minh họa cho việc tách điểm
Đây là một cách xử tách khá đặc biệt bởi vì nó dựa trên cơ sở là những pixelđơn không liên tục trên nền đồng nhất của mặt nạ tách Khi điều kiện này khôngthỏa mãn thì ta dùng phương pháp khác phù hợp hơn (sẽ được đề cập trong chươngnày) để tách mức xám không liên tục
1.3.1.2 Tách dòng
Phương pháp tiếp theo là tách dòng Cho những mặt nạ như trong hình 1.4 Nếu
ma trận đầu tiên di chuyển qua bức ảnh, nó sẽ đáp ứng mạnh tại những đường cóhướng nằm ngang (độ dày một pixel) Với nền không đổi, kết quả trả về lớn nhấtkhi đường đi qua hàng giữa của mặt nạ Thực nghiệm cho thấy mặt nạ thứ 2 tronghình 1.4 sẽ đáp ứng tốt nhất những đường có hướng là +45o, mặt nạ thứ 3 thì đáp
Trang 6ứng tốt với đường thẳng đứng, mặt nạ thứ tư thì đáp ứng tốt với những đường cóhướng là -45o Chú ý rằng các hệ số trong 1 mặt nạ có tổng bằng 0, hệ số đáp ứngcủa mặt nạ sẽ bằng 0 tại những vùng có mức xám không đổi
Ví dụ:
Giả sử rằng chúng ta quan tâm đến việc tìm tất cả các đường có độ dày 1 pixel
và có hướng -45o Với giả thuyết này, chúng ta sử dụng mặt nạ cuối cùng trong hình1.4 Kết quả được thể hiện trong hình 1.5b Chú ý rằng tất cả những phần ngang vàphần đứng trong bức ảnh thì bị loại bỏ và những phần của bức ảnh ban đầu mà cóhướng -45o thì được nổi rõ nhất trong hình 1.5b Để xác định những đường nào phùhợp nhất với mặt nạ chúng ta chọn ngưỡng cho hình này Kết quả của việc sử dụngngưỡng bằng với giá trị lớn nhất của bức ảnh thể hiện trong hình 1.5c Giá trị lớnnhất này là một lựa chọn tốt cho 1 ngưỡng trong trường hợp này, bởi vì ảnh đầu vào
Trang 7là ảnh nhị phân Thực hiện xong việc này, chúng ta tìm những đáp ứng mạnh nhất.Hình 1.5c biểu diễn tất cả những điểm vượt qua ngưỡng bằng màu trắng.
Hình 1.5 Ví dụ minh hoa về tách dòng
Trong trường hợp này, phương pháp trên chỉ tìm ra những đoạn có độ dày 1pixel và hướng -45o Những điểm cô lập nhìn thấy trong hình 1.5c là những điểmđáp ứng mạnh đối với mặt nạ Trong ảnh ban đầu, những điểm này và láng giềngcủa chúng được định hướng theo hướng mặt nạ đáp ứng mạnh nhất Những điểm côlập này có thể được tách bằng cách sử dụng mặt nạ trong hình 1.3a và sau đó đượcxóa đi
1.3.1.3 Tách biên ảnh
Phương pháp tách điểm và tách dòng là các kỹ thuật phân đoạn quan trọng,
nhưng việc tách biên lại hoàn toàn khác xa với các kỹ thuật trên, nó được sử dụngphổ biến nhất cho việc tách độ trung bình không liên tục của mức xám Trong phầnnày chúng sẽ nói về công cụ đạo hàm bậc 1 và bậc 2 và nhấn mạnh về các thuộctính của chúng để tách biên cho bức ảnh
“biên” đòi hỏi khả năng đo được sự chuyển tiếp mức xám
Chúng ta bắt đầu bằng việc làm mô hình cho biên và việc đo đạc sự chuyển tiếptrung bình của mức xám chỉ mang tính hình thức Một cách trực quan, một biên lýtưởng có các thuộc tính của mô hình ở hình 1.6a Theo mô hình này thì một biên lýtưởng là một tập hợp các pixel (ở đây là theo hướng thẳng đứng) liên kết với nhau,mỗi thành phần của biên có vị trí tại 1 bước chuyển tiếp trực giao mức xám
Trang 8Hình 1.6 Biên lý tưởng và không lý tưởng
Trong thực tế, quang học, lấy mẫu, và những cách thu nhận hình ảnh kháckhông hoàn hảo dẫn đến biên bị nhòe với độ nhòe được xác định bởi những nhân tốnhư là chất lượng của hệ thống thu nhận hình ảnh, tốc độ lấy mẫu và điều kiện chiếusáng của mỗi bức ảnh Vì vậy kết quả là biên được mô hình gần giống với một đoạndốc hơn đoạn thẳng đứng, được thể hiện trong hình 1.6b Độ nghiêng của dốc tỉ lệnghịch với độ nhòe của biên Trong mô hình này, chúng ta không bao giờ có mộtđường biên mảnh (có độ dày một pixel) Thay vào đó, một điểm biên bây giờ là mộtđiểm bất kì chứa trong đoạn dốc và biên là tập hợp những điểm liên thông Độ dàycủa đường biên được xác định bởi chiều dài của đoạn dốc, khi biên biến đổi từ đầuđến cuối mức xám Độ dài này được xác định bởi độ nhòe Dễ dàng nhận ra rằng:biên nhòe thì dày và biên sắc nét thì mảnh
Hình 1.7 Đạo hàm bậc 1 và 2 của mức xám
Trang 9Hình 1.7a hiển thị một phần trích ra từ hình 1.6b Ảnh 1.7b thể hiện mặtnghiêng của một mức xám theo hướng nằm ngang của biên nằm giữa hai vùng.Hình này cũng cho thấy đạo hàm bậc 1, bậc 2 của mức xám Đạo hàm bậc 1 dươngtại những điểm chuyển tiếp từ trong ra ngoài đoạn dốc theo hướng di chuyển từ tráisang phải, và không đổi đối với những điểm nằm trên dốc, bằng 0 tại những vùng
có mức xám không đổi Đạo hàm bậc hai dương tại những biến đổi tương ứng vớiphía tối của biên, âm tại những biến đổi tương ứng với phía sáng của biên, và bằng
0 dọc theo dốc hoặc trong những vùng mức xám không đổi Dấu của đạo hàm trong1.7b sẽ bị đảo ngược đối với những biên biến đổi từ sáng sang tối
Từ những quan sát trên ta kết luận rằng độ lớn của đạo hàm bậc 1 có thể được
sử dụng để phát hiện ra dấu hiệu của một biên tại một điểm trong hình (nghĩa là xácđịnh điểm đó có nằm trên dốc không) Tương tự như vậy dấu của đạo hàm bậc 2 cóthể được sử dụng để xác định một pixel cạnh nằm trên phía sáng hay phía tối củabiên Chúng ta chú ý thêm hai thuộc tính của đạo hàm bậc hai xung quanh một biên: (1) Nó tạo ra hai giá trị cho mỗi cạnh (điều không mong muốn)
(2) Một đường thẳng tưởng tượng nối từ điểm dương lớn nhất và điểm âm nhỏ
nhất của đạo hàm bậc hai sẽ đi qua 0 gần với điểm giữa của biên Thuộc tính crossing của đạo hàm bậc hai thì hữu dụng cho việc xác định trung tâm của biên
zero-dày
Trang 10Hình 1.8 Độ nhậy của đạo hàm đối với nhiễu
Ví dụ:
Biên thể hiện trong Hình 1.6 và 1.7 thì không có nhiễu Cột đầu tiên của Hình1.8 thể hiện 4 biên (đoạn dốc) phân ra thành một vùng đen ở bên trái và một vùngtrắng ở bên phải Lưu ý là toàn bộ biến đổi từ đen sang trắng này chỉ là biểu diễncủa một cạnh đơn Vùng ảnh ở trên cùng bên trái là ảnh không có nhiễu Ba ảnh cònlại trong cột đầu tiên của Hình 1.8 bị sai lệch bởi nhiễu Gauss với “zero mean” và
độ lệch chuẩn mức xám lần lượt là 0.1 và 1.0 và 10 Đồ thị biểu diễn bên dưới mỗiảnh này là hình chiếu mức xám của đường quét theo hàng ngang qua toàn bộ ảnh Các ảnh trong cột 2 của hình 1.8 là đạo hàm bậc 1 của những ảnh ở cột 1 Xétảnh ở giữa trên cùng, đạo hàm bằng 0 tại những vùng đen và trắng không đổi Đạohàm của một đoạn biên không đổi là hằng số biểu thị độ nghiêng của dốc Đạo hàmkhông đổi này được biểu diễn bằng màu xám Hình tiếp theo của cột 2 thì các đạohàm càng tăng so với trường hợp không có nhiễu Và trong hình cuối cùng của cột
2, rất khó để chỉ ra biên Yếu tố gây ra sự sai lệch này chính là nhiễu Ảnh cuốicùng có nhiều hạt nhỏ nhưng sự sai lệch này hầu như không thể nhận thấy
Ví dụ trên cho thấy độ nhạy của đạo hàm đối với nhiễu, đạo hàm bậc hai nhạyhơn đối với nhiễu Đạo hàm bậc hai của ảnh không nhiễu ở ảnh trên cùng bên phải
Trang 11của hình Đường mảnh màu trắng và đen là thành phần dương và âm được nhắc đếntrong hình 1.7 Màu xám trong những ảnh này biểu diễn cho số 0 tương ứng trongthang chia tỷ lệ Nhiễu đạo hàm bậc hai (tương tự với trường hợp không có nhiễu)tương ứng với nhiễu có độ lệch chuẩn ở mức xám 0.1 Hai ảnh đạo hàm bậc hai vàbiên cho thấy rất khó để các tách thành phần âm và dương
Thực tế, nhiễu khá nhỏ vẫn có thể có sự tác động đáng kể trên 2 đạo hàm thenchốt được dùng cho việc tách ảnh Vì vậy đối với những ứng dụng rất có khả năngxuất hiện nhiễu với các mức độ chúng ta vừa đề cập, ta nên làm trơn ảnh trước khi
xử lý
Dựa vào ví dụ này và nội dung đã trình bày, chúng ta đưa ra kết luận rằng tiêuchuẩn để phân loại 1 điểm biên là sự chuyển tiếp mức xám tương ứng với điểm đóphải mạnh hơn đáng kể so với nền của điểm đó Vì chúng ta đang đề cập đến tínhtoán cục bộ, do đó chúng ta kết luận 1 điểm trong ảnh là điểm biên nếu đạo hàm bậcnhất của nó lớn hơn một ngưỡng lý thuyết Biên là tập hợp những điểm thỏa điềukiện đó liên kết với nhau theo một tiêu chuẩn xác định cho trước Sự phân đoạn giớihạn biên được sử dụng nếu biên ngắn so với các kích cỡ của ảnh Vấn đề then chốttrong việc phân đoạn là lắp ráp các phần biên thành những biên dài hơn Nếu chúng
ta quyết định sử dụng đạo hàm bậc hai để dễ dàng xác định các điểm biên trong 1ảnh khi đạo hàm bậc hai của nó là 0 thì có 1 định nghĩa thay thế Trong trường hợpnày, định nghĩa của biên cũng giống như trên Điều quan trọng cần chú ý là nhữngđịnh nghĩa này không đảm bảo thành công trong việc tìm điểm biên của ảnh.Chúng chỉ đơn giản là cho chúng ta một hình thức tìm kiếm các điểm biên đó
1.3.2 Liên kết biên và tách đường giới hạn
Phương pháp mà ta đã thảo luận trước đây giúp định ra những pixel nằm trên
biên và sắp xếp các pixel đó vào các tập hợp riêng Tuy nhiên trong thực tế thì hiếmkhi tập hợp các pixel này xác định 1 cạnh hoàn chỉnh vì có sự xuất hiện của nhiễu,
sự vỡ cạnh do chiếu sáng không đồng đều và các tác động khác tạo ra mật độ giánđoạn sai lệch Chính vì vậy mà các giải thuật xác định biên luôn đi kèm với việcliên kết các thủ tục nhằm tập hợp các pixel thành các cạnh có ý nghĩa Sau đây làmột vài phương pháp cơ bản:
1.3.2.1 Xử lý cụ bộ
Trang 12Một trong số những phương pháp đơn giản nhất để liên kết cạnh là phân tíchtính chất của các pixel trong 1 láng giếng nhỏ (33 hay 55) của những pixel mà
đã được định là 1 điểm của 1 cạnh nào đó bằng 1 trong các phương pháp đã bàntrong phần trước Tất cả các điểm mà thỏa một số tính chất định trước nào đó thìđược liên kết lại Sau cùng ta sẽ có 1 cạnh thỏa các tính chất đã định trước
Hai tính chất chính được dùng trong phương pháp phân tích này là :(1) Độ dàicủa kết quả của toán tử gradient được sử dụng để tạo ra các pixel cạnh; và (2)
Hướng của véctơ gradient Tính chất đầu tiên sử dụng giá trị của f :
Là Gradient của 1 ảnh f(x,y) tại vị trí (x,y)
Vì vậy một pixel cạnh ( nghĩa là pixel đã được định là 1 điểm của 1 cạnh nàođó) có tọa độ( , ) x y0 0 trong một lân cận được xác định trước của (x,y) thì tươngđương với pixel (x,y) về độ lớn nếu:
| f x y ( , ) f x y ( , ) |0 0 E ,trong đó E là 1 ngưỡng không âm
Hướng (góc) của véctơ gradient được đưa ra trong phương trình sau :
Trong đó : α(x,y) biểu diễn hướng góc của vector ∆f
tại (x, y) và hướng của một biên tại (x,y) trực giao với hướng của vector Gradient tại điểm đó
Một pixel cạnh tại ( , ) x y0 0 trong một lân cận cho trước của (x,y) có góctương tự với pixel (x,y) nếu: | ( , ) x y ( , ) | x y0 0 A , với A là ngưỡng góckhông âm
Trang 13Hình 1.9 Minh họa phương pháp xử lý cục bộ
Một điểm trong lân cận cho trước của (x,y) được liên kết với pixel tại (x,y) nếu
cả tiêu chuẩn về độ lớn và hướng được đáp ứng Quá trình này được lặp lại tại mọi
vị trí trong bức ảnh Sẽ có một mẫu tin lưu lại những điểm liên kết với điểm trungtâm của vùng lân cận lần lượt di chuyển từ pixel này sang pixel khác Một thủ tụcđánh dấu đơn giản là đưa ra cho mỗi tập hợp các pixel biên liên kết một mức xámkhác nhau
Để minh họa cho nội dung này được thể hiện qua hình 1.9 Trong hình 1.9(a) ảnh chụp phía sau chiếc xe Mục đích là để tìm ra hình chữ nhật có kích thước phùhợp với kích thước của biển số xe Thông tin của những hình chữ nhật này có thểđược lấy được bằng cách xác định các cạnh dọc và ngang của chúng Hình 1.9(b) và(c) thể hiện những cạnh dọc và ngang nhận được bằng cách sử dụng toán tử Sobeldọc và ngang Hình 1.9(d) là kết quả nhận được sau khi liên kết tất cả những điểm
-có giá trị gradient lớn hơn 25 và hướng của véctơ gradient không khác biệt quá 150
Các đường ngang được tạo
ra bằng cách sử dụng liêntiếp các tiêu chuẩn trên chotừng dòng của hình 1.9(c).Lần lượt quét từng cột củahình 1.9(b) thì ta có các cạnhdọc Hơn nữa quá trình xử lýtrên còn bao hàm cả thao tácliên kết các đoạn cạnh nhỏ bịphân chia do các vết nứt nhỏ
và hủy bỏ các đoạn cạnhngắn cô lập
Cuối cùng, như ta thấy
ở hình 1.9(d), hình chữ nhật tương ứng với biển số xe là 1 trong số các hình chữnhật được xác định trong ảnh Và bây giờ thì thật dễ dàng để định vị biển số xe dựavào các hình chữ nhật này (phía dưới bên trái của hình 1.9d)
1.3.2.2 Liên kết cạnh và tách biên
Trong nội dung này, các điểm được liên kết với nhau đầu tiên nếu chúng nằm
Trang 14phân tích cục bộ đã được thảo luận trong phần trước, bây giờ chúng ta lại quan tâmtới mối quan hệ toàn cục giữa các pixel.
Cho n điểm trên 1 bức ảnh Giả sử rằng ta muốn tìm ra những tập con của cácđiểm thuộc cùng một đường thẳng Một lời giải khả dĩ là trước tiên tìm ra tất cả cácđường thẳng được xác định bởi mỗi cặp điểm, rồi sau đó tìm các tập con của nhữngđiểm gần với các đường đặc biệt Vấn đề nảy sinh trong cách làm này là nó bao
phép so sánh từng điểm có thuộc ngần ấy đường đó hay không.Cách tiếp cận này làm cho việc tính toán trở nên rất phức tạp ngay cả trong các ứngdụng bình thường nhất
Hough [1962] đã đề xuất 1 cách tiếp cận khác, đó là biến đổi Hough (Houghtransform) Xét điểm ( , ) x yi i và phương trình tổng quát của đường thẳng có dạng:
y ax b Có vô số đường thẳng cùng đi qua ( , ) x yi i , nhưng tất cả chúng đều
có dạng yi axi b với các giá trị khác nhau của a và b Tuy nhiên, khi viết lạiphương trình này dưới dạng b=-axi yi và xét mặt phẳng ab (còn gọi là khônggian tham số) ta đưa ra được phương trình của một đường đơn cho một cặp ( , ) x yi i
tương ứng Hơn nữa, một điểm thứ hai ( , ) x yj j cũng có một đường trong khônggian tham số tương ứng với nó, và đường này giao với đường thẳng ứng với
( , ) x yi i tại (a', b'), với (a',b') là giao điểm của đường thẳng chứa cả hai điểm
( , ) x yi i và ( , ) x yj j trong mặt phẳng xy Thực tế, tất cả mọi điểm trên đường này
đều có các đường trong không gian tham số giao nhau tại (a’,b’) Hình 1.10 minhhọa cho những khái niệm này
Trang 15Hình 1.10 Minh họa điểm trong mặt phẳng
Điểm đặc biệt trong tính toán của biến đổi Hough bắt nguồn từ việc chia nhỏkhông gian tham số thành những cái gọi là ô tích lũy (accumulator cells) như minhhọa trong hình 1.11, trong đó ( amax, amin)và ( bmax, bmin)là những khoảng mongđợi của các giá trị độ dốc (slope) và intercept Ô ở tọa độ (i,j) (có giá trị tích lũy
A(i,j)) tương ứng với hình vuông trong không gian tham số có tọa độ ( , ) a bi j
Quá trình xác định các giátrị tích lũy được làm như sau : B1: Cho mọi giá trị tích lũyA(i,j) = 0
B2: Với mỗi điểm ( , )x y k k
trong mặt phẳng ảnh.Ta đặttham số a = giá trị chia nhỏ trêntrục x Sau đó giải
tới giá trị gần nhất trên trục b.Nếu một lựa chọn của ap tìm được bq, chúng ta gán A(p,q) = A(p,q)+1
B3: Cuối cùng ta thay giá trị Q trong A(i,j) tương ứng với Q điểm trong mặt
phẳng xy nằm trên đường thẳng y a x b i j Số lượng các điểm chia trong mặtphẳng ab quyết định sự chính xác của sự cộng tuyến của các điểm này
Hình 1.11 Chia không gian tham số
Trang 16Cần chú ý rằng nếu số khoảng chia nhỏ của trục a là K thì ứng với mỗi điểm ảnh
( , ) x yk k , giá trị K của b tương ứng với các giá trị K có thể có của a Do đó với nđiểm ảnh thì ta chỉ tốn nK phép tính Vì vậy mà quá trình xử lý này là tuyến tínhtheo n, và tích nK không đạt đến số phép tính đã được thảo luận ở đầu phần này trừkhi K xấp xỉ hoặc lớn hơn n
Tuy nhiên có vấn đề nảy sinh khi sử dụng phương trình y = ax + b để biểu diễn
1 đường thẳng là hệ số góc sẽ tiến tới vô cùng khi đường thẳng “xấp xỉ” trục đứng.Một cách để khắc phục khó khăn này là sử dụng biểu diễn thông thường của đườngthẳng :
cos sin
Hình 1.12 Minh họa chia nhỏ không gian hình học và tham số
Hình 1.12a minh họa sự giải thích bằng hình học của những tham số được sửdụng trong phương trình (1.3) Việc sử dụng biểu diễn này trong việc xây dựng mộtbảng của những bộ đếm thì giống với phương pháp đã thảo luận cho cách biểu diễnSlope-intercept Tuy nhiên, thay vì là những đường thẳng, quỹ tích các điểm đó lại
là các đường hình sin trong mặt phẳng Như trên, Q điểm cùng nằm trên đường
thẳng x cos j y sin j tạo ra Q đường hình sin giao nhau tại ( , ) i j trongkhông gian tham số Hình 1.12b biểu diễn việc chia không gian tham số Tăng vàgiải tương ứng sẽ thu được Q dữ liệu trong giá trị tích lũy A(i,j) tương ứng với ô
Trang 17được xác định bởi ( , ) i j Hình 1.12b minh họa việc chia nhỏ cho không gian thamsố.
Khoảng giá trị của là 900, tương ứng với trục x Do đó với biểu diễn tronghình 19a, một đường thẳng nằm ngang sẽ có = 00và bằng x-intercept dương.Tương tự với trường hợp đường thẳng dọc ta có 900còn bằng y-interceptdương , hoặc 900, với bằng giá trị y-intercept âm.
Hình 1.13 minh họa biến đổi Hough dựa vào phương trình (1.3) Hình 1.13abiểu diễn ảnh với 5 điểm được đánh số Mỗi điểm được ánh xạ qua mặt phẳng như biểu diễn ở hình 1.13b Khoảng giá trị của giá trị là 900, và khoảng của
trục là 2D, với D là khoảng cách giữa hai góc trong ảnh Không giống nhưbiến đổi dựa trên việc sử dụng slope-intercept, mỗi đường cong có dạng hình sinkhác nhau Đường nằm ngang là kết quả của việc ánh xạ điểm 1, đó là trường hợpđặc biệt của một hàm sin với biên độ 0
Hình 1.13 Minh họa biến đổi Hough
Trang 18Thuộc tính nhận dạng sự cộng tuyến của biến đổi Hough được minh họa tronghình 1.13c Điểm A là giao điểm của những đường cong tương ứng với các điểm1,3 và 5 trong mặt phẳng ảnh xy Vị trí của điểm A cho thấy 3 điểm này nằm trênmột đường thẳng đi qua gốc tọa độ ( 0) và có hướng là 450 Tương tự, giaođiểm của những đường cong tại điểm B trong không gian tham số cho thấy cácđiểm 2, 3, 4 nằm trên một đường thẳng có hướng 450 và khoảng cách của các điểm
đó đến gốc tọa độ bằng nửa khoảng cách đường chéo từ gốc đến góc đối diện củaảnh
Cuối cùng, hình 1.13d cho thấy rằng biến đổi Hough biểu diễn mối quan hệ đốixứng tại những biên bên trái và bên phải của khoảng cách tham số Thuộc tính nàyđược biểu diễn bởi những điểm A, B, C trong hình 1.13d, là kết quả của phươngpháp với và thay đổi dấu tại các đường bao 900
Mặc dù biến đổi Hough chủ yếu dành cho đường thẳng nhưng ta vẫn có thể ápdụng nó cho bất cứ hàm nào có dạng g(v,c) = 0, trong đó v là vector tọa độ và c làvector hệ số Ví dụ các điểm nằm trên đường tròn
( x c ) ( y c ) c (1-4)
có thể được xác định bằng cách sử dụng phương pháp trên Sự khác nhau cơ bản là
sự hiện diện của 3 tham số (c1, c2 và c3), mà kết quả nằm trong không gian tham số3-D với những khối lập phương và tích lũy có dạng A(i, j, k) Thủ tục này là để tăngc1, c2, tìm c3 theo phương trình (1-4) và cập nhật giá trị tích lũy cho các ô tươngứng với bộ ba (c1, c2 và c3) Rõ ràng, độ phức tạp của biến đổi Hough tỉ lệ với sốlượng tọa độ và những hệ số được cho trong phương trình biểu diễn Hơn nữa, ta cóthể suy rộng biến đổi Hough nhằm nhận diện các đường cong có biểu diễn khôngđơn giản, như là ứng dụng của biến đổi ảnh xám
Tóm lại, một phương pháp dựa trên biến đổi Hough được trình bày như sau:+ Tính gradient của một ảnh và ngưỡng để thu được ảnh nhị phân
Trang 19Khái niệm liên tục trong trường hợp này dựa trên tính toán khoảng cách giữanhững pixel không liên kết được xác định trong suốt quá trình quét tập hợp nhữngpixel tương ứng với những ô tích lũy (accumulator cell) được đưa vào Độ lệch tạimột điểm bất kì là đáng kể nếu khoảng cách giữa điểm đó và lân cận gần nhất của
nó vượt quá một ngưỡng xác định
1.3.2.3 Xử lý toàn cục bằng phương pháp lý thuyết đồ thị
Trước hết ta cần quan tâm đến một số định nghĩa cơ bản: Một đồ thì G= (N, U)
là một tập hợp các nốt N khác rỗng hữu hạn, với một tập hợp U không có thứ tự cáccặp thành phần nhất định của tập N Mỗi cặp (ni, nj) của U được gọi là một cung
Một đồ thị mà các cạnh có hướng đượcgọi là đồ thị có hướng Nếu một cung cóhướng từ ni đến nj, thì nj là con của nốt ni.Quá trình nhận biết một successor của 1nốt được gọi là khai triển của một nốt.Trong mỗi đồ thị chúng ta xác định cácmức của nó, chẳng hạn mức 0 gồm một nốtđơn, gọi là nốt bắt đầu hay nốt gốc, và những nốt ở mức cuối cùng được gọi là nốt
lá c(ni, nj) có thể kết nối được với mọi cung (ni, nj) Một dãy các nốt n1, n2,…, nk( trong đó mỗi nốt ni là một nốt con của ni-1) được gọi là một đường đi từ n1 đến nk.Trọng số của toàn bộ đường đi là:
Chúng ta có thể minh họa cách áp dụng tư tưởng trên để tách biên sử dụng ảnh3x3 trong hình 1.15a Các số bên ngoài là các tọa độ pixel và số bên trong ngoặcvuông biểu diễn giá trị mức xám
q p
Hình 1.14 Minh họa láng
giềng-4
Trang 20Mỗi thành phần biên xác định bởi pixel p và q có trọng số tương ứng được địnhnghĩa bởi:
Hình 1.15 Minh họa tách biên trong phưong pháp lý thuyết đồ thị
Hình 1.16 Biểu diễn đồ thị trong phương pháp lỹ thuyết đồ thị
Trang 21Ví dụ: đoạn biên (1, 2) (2, 2) nằm giữa điểm (1, 2) và (2, 2) trong hình 1.15b Nếuhướng di chuyển sang bên phải thì p là điểm có tọa độ (2, 2) và q là điểm có tọa độ(1, 2); khi đó c(p, q) = 7 - [ 7 - 6] = 6 Trọng số này được biểu diễn trong hìnhvuông bên dưới thành phần biên Nếu chúng ta di chuyển sang trái giữa hai điểmnhư trên thì p là điểm (1, 2) và q là điểm (2, 2) Trong trường hợp này c(p, q) = 8,được thể hiện bên trên của thành phần biên trong hình 1.15b Để đơn giản chúng tagiả sử rằng các cạnh bắt đầu ở hàng trên cùng và kết thúc ở hàng cuối, vì vậy thànhphần đầu tiên của biên chỉ có thể nằm giữa những điểm (1, 1), (1, 2) hoặc (1, 2), (1,3) Tương tự thành phần biên cuối cùng chỉ nằm giữa những điểm (3, 1), (3, 2) hoặc(3, 2), (3, 3) Dựa theo ý tưởng này thì p và q là liên láng giềng 4 như chú ý trên Hình 1.16 biểu diễn đồ thị cho vấn đề này Mỗi nốt trong đồ thị tương ứng vớithành phần biên từ hình 1.15 Giữa 2 nốt có một cung nếu 2 thành phần biên tươngứng là một thành phần của một cạnh Như hình 1.15(b), trọng số của mỗi thànhphần biên được tính toán bằng công thức 1-6, được biểu diễn trong hình vuông nằmbên cạnh cung nối với nốt tương ứng Các nốt lá được tô đậm Đường đi có trọng sốnhỏ nhất được biểu diễn bằng đường đứt nét và cạnh tương ứng với đường đi nàyđược biểu diễn trong hình 1.15(c).
Thường thì vấn đề tìm đường đi có trọng số nhỏ nhất không đơn giản trong tínhtoán Phương pháp này sẽ làm mất đi sự tối ưu tốc độ Thuật toán sau đây biểu diễnlớp các thủ tục sử dụng heuristic để giảm đi việc tìm kiếm Đặt r(n) là ước lượngcủa trọng số của đường đi có trọng số nhỏ nhất từ điểm bắt đầu s cho đến nốt lá,trong đó đường đi phải đi qua n Trọng số này có thể biểu diễn như là một trọng sốước lượng của đường đi có trọng số nhỏ nhất từ s đến n cộng với trọng số củađường đi đó từ n đến nốt lá, tức là,
trong đó g(n) có thể chọn như là đường đi có trọng số nhỏ nhất từ s tới n đã đượctìm thấy, và h(n) có được bằng cách sử dụng bất kỳ thông tin heruristic nào có giátrị Một thuật toán sử dụng r(n) như là nền tảng cho biểu diễn tìm kiếm trong đồ thịgồm các bước sau:
Bước 1 : Đánh dấu nốt bắt đầu là OPEN và đặt g(s) =0
Trang 22Bước 4 : Nếu n là nốt lá thì kết thúc, ta nhận được đường đi kết quả bằng việc dò
ngược con trỏ Ngược lại, qua bước 5
Bước 5 : Mở rộng nốt n, khởi tạo tất cả các phần tử tiếp theo của nó (nếu không có
phần tử tiếp theo thì đến bước 2)
Bước 6 : Nếu một phần tử tiếp theo ni không được đánh dấu Đặt
r(ni)= g(n) + c(n, ni) ,
đánh dấu OPEN, và hướng con trỏ quay ngược lại n
Bước 7 : Nếu phần tử kế tiếp ni được đánh dấu CLOSED hoặc OPEN, cập nhật giátrị của nó bằng cách đặt
g’(ni) = min[ g(ni), g(n) + c(n,ni)]
Đánh dấu OPEN cho những nốt CLOSED kế tiếp có giá trị g’ nhỏ và địnhhướng lại các con trỏ đến n từ tất cả những nốt mà giá trị g’ nhỏ, trở về bước 2 Thuật toán này không chắc chắn đưa ra đường đi ngắn nhất, ưu điểm của nó là
tốc độ nhờ sử dụng heuristic Tuy nhiên, nếu h(n)
là giới hạn nhỏ hơn của trọng số của đường đingắn nhất từ n đến một nốt lá thì thuật toán này sẽtìm được một đường đi tối ưu Nếu không cóthông tin Heuristic nào có giá trị (nghĩa là h ≡ 0)thì phải dùng thuật toán Dijkstra [1959]
Ví dụ :
Hình 1.17 biểu diễn bức ảnh của một ảnh của bóng nhiễm sắc thể bị nhiễu và mộtbiên được tìm thấy bằng cách sử dụng tìm kiếm đồ thị heuristic dựa trên thuật toánđược phát triển trong mục này Biên biểu diễn bằng màu trắng chồng lên trên ảnhgốc Chú ý rằng, trong trường hợp này biên và giới hạn của đối tượng là xấp xỉ nhưnhau Trọng số tính theo phương trình 1-6 và heuristic sử dụng ở một điểm bất kỳtrên đồ thị là để xác định và sử dụng đường đi tối ưu cho 5 mức từ điểm đó Xemxét số lượng nhiễu biểu diễn trong hình này, ta thấy phương pháp tìm kiếm đồ thị đãđưa ra một kết quả chính xác hợp lý
1.3.3 Phân đoạn dựa vào ngưỡng biên độ
Trang 23Bởi vì những tính chất trực giác và sự thực hiện đơn giản nên phân ngưỡngđược sử dụng nhiều trong phân đoạn ảnh [4] Trong các các nội dung trước đó,chúng ta đã đề cập sơ về ngưỡng cùng một số ứng dụng đơn giản của nó, trong nộidung này sẽ trình bày về ngưỡng một cách chi tiết hơn.
1.3.3.1 Ngưỡng biên độ
Hình 1.18 Minh họa histogram của một ảnh
Ta giả sử rằng histogram mức xám trong hình 1.18a là histogram của 1 tấm ảnh(gọi là f(x,y)) gồm có các vật thể sáng trên 1 nền tối Các pixel của các vật thể lẫncái nền có mức xám được chia vào 2 dạng chính ( dominant modes) Một cách tựnhiên để trích các vật thể ra là chọn 1 ngưỡng T mà có thể phân chia các dạng này.Khi đó với điểm (x,y) thì (x,y) sẽ được gọi là điểm vật thể nếu f(x,y) > T, ngoài ragọi (x,y) là điểm nền
Hình 1.18b thể hiện 1 trường hợp tổng quát hơn 1 chút về cách tiếp cận này.Trong đó 3 dạng chính biểu thị tính chất của histogram ảnh ( trong ví dụ ta thấy có 2vật thể sáng trên 1 nền tối) Ở đây, ngưỡng nhiều mức (mutilevel thresholding) chia
1 điểm (x,y) hoặc thuộc về 1 lớp vật thể nếu T1 f x y ( , ) T2hoặc thuộc 1 lớpvật thể khác nếu f(x,y) > T2, và hoặc thuộc về nền nếu f x y ( , ) T1 Trong trườnghợp tổng quát, bài toán phân đoạn yêu cầu nhiều ngưỡng được giải quyết tốt nhấtbằng cách dùng phương pháp tăng vùng (sẽ giới thiệu trong phần 1.3.4.2)
Dựa trên những gì đã nói trên , việc chọn ngưỡng có thể xem như 1 thao táckiểm tra hàm T :
T = T[x, y, p(x,y), f(x,y)] (1-8)
Trang 24với f(x,y) là mức xám của điểm (x,y) còn p(x,y) là 1 số tính chất địa phương củađiểm này (ví dụ như mức xám trung bình của 1 láng giềng tâm (x,y)) Một bức ảnh
đã được phân ngưỡng g(x,y) được định nghĩa như sau:
Khi T chỉ phụ thuộc vào f(x,y) (tức là chỉ phụ thuộc vào giá trị mức xám) thìngưỡng được gọi là ngưỡng toàn cục Nếu T phụ thuộc vào f(x,y) và p(x,y) thìngưỡng được gọi là ngưỡng cục bộ Ngoài ra nếu T phụ thuộc vào các tọa đô khônggian x và y thì ngưỡng được gọi là động (adaptive)
1.3.3.2 Ảnh hưởng của sự chiếu sáng trong việc chọn ngưỡng.
Chúng ta đã biết f(x,y) có thể được định dạng như tích của thành phần năng suất
phản xạ (reflectance component) r(x,y) và thành phần chiếu sáng (illuminationcomponent) i(x,y) Do đó trong mục này sẽ sử dụng dạng này nhằm giới thiệu ngắngọn về ảnh hưởng của sự chiếu sáng lên trên việc chọn ngưỡng, đặc biệt với ngưỡngtoàn cục
Lưu ý tới hàm phản xạ được xác định bởi máy tính biểu diễn trong hình 1.19a.
Histogram của hàm này ( được thể hiện trong hình 1.19b) phân làm đôi một cách rõràng và có thể dễ dàng chia ra bằng cách dùng một ngưỡng toàn cục đơn (singleglobal threshold) T tại rãnh của histogram Nhân hàm phản xạ trong hình 1.19a vớihàm chiếu sáng (biểu diễn bằng hình 1.19c) thì tạo ra bức ảnh như trong hình 1.19d
Và hình 1.19e là histogram của bức ảnh này Chú ý là rãnh gốc ban đầu hầu như đã
bị loại bỏ, do đó việc phân đoạn ảnh bằng 1 ngưỡng đơn trở nên không thể Mặc dùchúng ta hiếm khi làm việc với hàm phản xạ nhưng minh họa này cho thấy chúng ta
có thể dễ dàng phân chia tính chất phản xạ tự nhiên của các vật thể và nền Ngượclại, bức ảnh kết quả trong ví dụ lại rất khó để phân đoạn
Vậy tại sao histogram trong hình 1.19e bị biến dạng rất nhiều so với histogram
của hàm phản xạ ? ta có thể được giải thích như sau:
Trang 25sẽ làm thay đổi nhiều hình dạng của histogram của r’(x,y) Do đó histogram củaz(x,y) có thể có hình dạng hoàn toàn khác histogram của r’(x,y) Độ sai lệch phụthuộc vào độ rộng của histogram của i’(x,y), mà độ rộng này thì lại phụ thuộc vàomức độ không đồng đều của sự chiếu sáng
Trang 26Hình 1.19 Histogram khi có ảnh hưởng của sự chiếu sáng
Chúng ta đã xử lý ln ( , ) f x y thay vì xử lý f x y ( , ), chính nhờ cách dùng ln
để phân tách thành phần chiếu sáng và thành phần phản xạ mà chúng ta đã giải thích
rõ ràng bản chất của vấn đề Phương pháp tiếp cận này cho phép chúng ta coihistogram của f x y ( , )như một tích chập, như thế giải thích tại sao một rãnh rõràng trong histogram của thành phần phản xạ lại bị mờ đi do sự chiếu sáng khôngphù hợp
Trong trường hợp chúng ta được phép xử lý nguồn sáng thì một giải phápthường được sử dụng đẻ bù đắp sự chiếu sáng không đồng đều là lấy mô hình chiếusáng chiếu lên một mặt phản xạ không đổi, trắng (tức là lúc này thành phần phản xạ
là 1 hằng số k phụ thuộc vào mặt phản xạ này) Khi đó sẽ nhận được bức ảnh g(x,y)
= ki(x,y) với i(x,y) là mô hình chiếu sáng Lúc này với bất kỳ ảnh f x y ( , ) =i(x,y)r(x,y) nào được chụp trong mô hình sáng trên thì chỉ cần chia f x y ( , )chog(x,y) ta sẽ được 1 hàm số đã tầm thường hóa : h(x,y) = f x y ( , )/g(x,y) = r(x,y) /
k Và nếu r(x,y) có thể được phân đoạn bằng 1 ngưỡng đơn T thì h(x,y) cũng có thễđược phân đoạn bằng ngưỡng đơn T/k
1.3.3.3 Ngưỡng toàn cục cơ bản
Với những nội dung được đề cập trong phần 1.3.3.1, chúng ta có thể thấy kĩthuật đơn giản nhất trong mọi kĩ thuật phân đoạn ngưỡng là phân chia histogramảnh bằng cách sử dụng một ngưỡng toàn cục đơn T như minh họa trong hình 1.18a
Sự phân đoạn ảnh được thực hiện bằng cách quét qua bức ảnh từng pixel một vàgán cho mỗi pixel hoặc là vật thể, hoặc là nền bằng cách xem xét mức xám củapixel đó lớn hơn hay nhỏ hơn ngưỡng T Và như đã trình bày, sự thành công củaphương pháp này phụ thuộc hoàn toàn vào việc histogram của bức ảnh có thể đượcphân tách tốt như thế nào
Hình 1.20b là histogram của 1.20a Hình 1.20c là kết quả phân đoạn hình 1.20abằng 1 ngưỡng T là trung bình của mức xám lớn nhất và mức xám nhỏ nhất.Ngưỡng này đã đạt đến 1 sự phân đoạn “sạch” vì đã loại hết bóng và để lộ rõ vậtthể Trong trường hợp này, vật thể tối hơn nền, và như thế chúng ta đã xử lý ảnhbằng cách : bất kỳ pixel nào có mức xám T được coi là pixel đen (0), còn pixel
Trang 27nào có mức xám > T coi được coi là pixel trắng (255) Điều quan trọng là tạo ra 1bức ảnh nhị phân, do đó có thể đảo ngược quan hệ trắng đen trên.
Loại ngưỡng toàn cục trên có thể xem như là 1 thành công trong các môitrường kiểm tra kĩ thuật cao như trong các ứng dụng về kiểm tra công nghiệp vìthường trong điều kiện này chúng ta có thể điều chỉnh sự chiếu sáng được
Ngưỡng trong ví dụ trên được xác định bằng một phương pháp mang tính kinhnghiệm dựa vào việc xem xét histogram của ảnh Vì vậy ta có thể dùng giải thuậtsau để có được ngưỡng T một cách tự động :
+ Chọn một giá trị xấp xỉ ban đầu cho T
+ Phân đoạn ảnh với ngưỡng T, ta nhận được 2 nhóm pixels: G1 bao gồm các pixelvới mức xám > T và G2bao gồm các pixel có mức xám T
+ Tính mức xám trung bình 1và 2của các pixels trong vùng G1 và G2
Trang 28Khi có thể chắc chắn rằng nền và vật thể có độ lớn tương đối giống nhau thì mộtngưỡng ban đầu thích hợp chính là mức xám trung bình của bức ảnh Còn khi vậtthể có kích thước nhỏ hơn nền (hoặc ngược lại) thì một nhóm pixel (biểu thị co nềnhoặc vật thể) sẽ chiếm giữ phần lớn histogram, do đó lúc này việc chọn mức xámtrung bình làm ngưỡng ban đầu là không thích hợp Lúc này một xấp xỉ tốt hơn chogiá trị ban đầu T là trung bình của mức xám cao nhất và mức xám thấp nhất Tham
số T0được dùng để dừng giải thuật lại : khi sự chêng lệch của 2 ngưỡng trong 2 lầnlặp liên tiếp bé hơn T0 thì dừng giải thuật Việc chọn tham số T0 đóng 1 vai tròquan trọng vì nó ảnh hưởng tới tốc độ của quá trình xử lý
Tuy nhiên chú ý là giải thuật trên mang tính trực giác và không chính xác vềmặt toán học Thật vậy, ta có thể dễ dàng xây dựng histogram làm phản ví dụ :
Xét histogram như hình trên Trong đó phần có mức xám bé hơn 50 là phầnhistogram của vật thể, còn phần có mức xám lớn hơn 99 là biểu thị cho nền (thực rahistogram phải được biểu thị dưới dạng các đoạn thẳng rời nhau – biểu đồ đường,nhưng ở đây ta xét trường hợp mọi số lượng pixel của mỗi mức xám hoặc là 0, hoặc
là 200, nên vẽ như trên cho đơn giản) Theo hình trên ta thấy ngay có rất nhiều giátrị có thể dùng làm ngưỡng toàn cục, cụ thể các giá trị từ 50 tới 99 đều thỏa Tuynhiên bây giờ ta sẽ dùng giải thuật trên để xây dựng ra 1 ngưỡng không thích hợpnhư sau : trước hết chọn 1 giá trị không thích hợp là 115 làm ngưỡng (T = 115) và
ta chọn mức xám lớn nhất a sao cho có phương trình :
0 49 100 150 200 a = 255
T = 115
200
Trang 29chọn ngưỡng ban đầu là 115 thì sau khi chay giải thuật ta sẽ được giá trị ngưỡngcần tìm là 115, không thích hợp!
Hình 1.21 Minh họa kết quả phân đoạn khi dùng ngưỡng động
Hình 1.21 là 1 ví dụ về việc phân đoạn bằng cách dùng ngưỡng mà được tínhtoán bằng giải thuật trên Hình 1.21a là ảnh gốc, hình 1.21b là histogram của ảnh.Chú ý tới cái rãnh được phân ly rõ ràng của histogram Nếu ta chọn giá trị ngưỡngban đầu là mức xám trung bình và T0= 0 thì sau 3 lần lặp sẽ thu được giá trị ngưỡng125.4 Và khi dùng T = 125 làm ngưỡng để phân đoạn ảnh gốc thì sẽ được hình1.21c Từ bức ảnh kết quả này ta thấy vật thể và nền đã được phân ly rất tốt, nhưnhững gì ta mong đợi qua sự phân ly rõ ràng của các vùng trong histogram
1.3.3.4 Ngưỡng động cơ sở
Trong ví dụ 1.19, nhiều nhân tố cấu thành ảnh như sự chiếu sáng không đều cóthể làm biến đổi từ 1 histogram có khả năng phân đoạn hiệu quả thành 1 histogramkhông thể phân đoạn tốt bằng 1 ngưỡng toàn cục đơn Một cách khắc phục nhữngtrường hợp này là chia bức ảnh gốc thành các bức ảnh con rồi dùng các ngưỡngkhác nhau cho từng ảnh con Trọng tâm của phương pháp này là làm sao chia nhỏbức ảnh ban đầu và làm sao tính toán được các ngưỡng cho từng ảnh con Bởi vì
Trang 30ngưỡng dùng cho mỗi pixel phụ thuộc vào việc pixel đó nằm ở trong bức ảnh connào nên ngưỡng mang tính động (adaptive) Sau đây chúng ta sẽ minh họa chongưỡng động bằng 1 ví dụ đơn giản Một ví dụ tổng quát hơn sẽ được cho trongphần tiếp theo
Hình 1.22a chính là bức ảnh 1.19d – cái mà chúng ta không thể phân đoạn 1cách hiểu quả bằng ngưỡng toàn cục đơn Hình 1.22b là kết quả của việc phân đoạnbức ảnh bằng 1 ngưỡng toàn cục là giá trị tại rãnh trong histogram của ảnh tronghình 1.19e (việc xác định ngưỡng này làm bằng tay) Một cách để giảm tác hại củaviệc chiếu sáng không đồng đều là chia bức ảnh thành nhiều bức ảnh con nhỏ hơn
mà trong mỗi bức ảnh con thì sự chiếu sáng có thể coi là “gần gần” đồng đều Hình1.19c là một cách phân chia : chia bức ảnh thành 4 phần bằng nhau, rồi lại chia mỗiphần nhỏ thành 4 phần bằng nhau nữa
Hình 1.22 Minh họa kết quả phân đoạn dựa theo ngưỡng động cơ sở
Những ảnh con nào không chứa biên giữa vật thể và nền thì có sự dao động mứcxám không quá 75 Còn bức ảnh con nào có chứa biên giữa vật thể và nền thì daođộng mức xám lớn hơn 100 Mỗi bức ảnh con có dao động mức xám lớn hơn 100được phân đoạn bằng 1 ngưỡng được xác định như giải thuật trong phần trước vàứng với ảnh con đó Giá trị ngưỡng đầu tiên được lấy là trung bình của mức xámlớn nhất và mức xám nhỏ nhất của ảnh con Tất cả các ảnh con có dao động mứcxám không quá 100 được hợp lại như 1 bức ảnh và được phân đoạn bằng 1 ngưỡngđơn với cùng giải thuật
Trang 31Kết quả của việc phân đoạn như trên thể hiện trong hình 1.22d Nếu bỏ qua 2ảnh con hỏng thì ta thấy sự cải tiến so với hình 1.19b là rất rõ ràng Đối với 2 bứcảnh con bị phân đoạn không hợp lý ta để ý thấy rằng đường biên giữa vật thể và nềncủa chúng nhỏ và tối, còn histogram của chúng thì hầu như chỉ có 1 dạng (chứkhông chia ra 2 dạng với 1 rãnh chính giữa như histogram của các ảnh khác)
Hình 1.23a là 2 bức ảnh con từ hình 1.22c : một cái là ảnh con bị phân đoạnkhông hợp lý ở trên, còn 1 cái là ảnh con ngay phía trên nó – cái mà được phânđoạn hợp lý Histogram của bức ảnh được phân đoạn hợp lý thì được chia làm đôi
rõ ràng đến nỗi chúng ta có thể định nghĩa đỉnh và rãnh cho nó Ngược lại,histogram kia thì hầu như chỉ có 1 dạng, không hề có sự phân chia cụ thể giữa vậtthể và nền
Hình 1.23 Chia nhỏ ảnh và áp dụng các ngưỡng khác nhau
Hình 1.23d thể hiện bức ảnh con thất bại đã được chia thành nhiều bức ảnh connhỏ hơn nữa, và hình 1.23e là histogram của bức ảnh con ở phía trên, bên trái – bứcảnh con chứa đường biên giữa vật thể và nền Bức ảnh con nhỏ hơn này có 1histogram được phân đôi rõ ràng và có thể dễ dàng để phân đoạn Sự phân đoạn nàythể hiện trong hình 1.23f Hình này cũng thể hiện sự phân đoạn cho tất cả các ảnhcon nhỏ hơn khác Những ảnh con nhỏ hơn còn lại này có 1 histogram hầu như chỉ
có 1 dạng và mức xám trung bình của chúng thì gần với vật thể hơn với nền, do đóchúng được gán nhãn là vật thể Điều này như 1 đề xuất rằng sự phân đoạn có thểđạt đến 1 độ chính xác đáng chú ý bằng cách chia bức ảnh tổng thể thành các bứcảnh con có kích thước như trong hình 1.23d
Trang 321.3.3.5 Ngưỡng động và ngưỡng toàn cục tối ưu
Trong phần này chúng ta sẽ trình bày phương pháp để tính được những ngưỡng
mà tạo ra lỗi phân đoạn trung bình (error segmentation average) nhỏ nhất Như vậy,phương pháp sẽ được áp dụng cho 1 vấn đề mà đòi hỏi lời giải của nhiều vấn đềquan trọng phát sinh trong các ứng dụng thực tế của tạo ngưỡng
Ta giả sử rằng 1 bức ảnh chỉ bao gồm 2 vùng mức xám chính Kí hiệu các giá trịmức xám là z Chúng ta có thể xem các giá trị này như các con số ngẫu nhiên, vàhistogram của chúng có thể coi như 1 xấp xỉ của hàm mật độ xác suất (probabilitydensity function – PDF) p(z) của chúng Hàm mật độ tổng thể này là tổng hoặc làhợp của 2 hàm mật độ khác: một cái của những vùng sáng và một cái của nhữngvùng tối trong bức ảnh Hơn nữa các hệ số hợp (mixture parameters) có sự tươngứng với các phần giao của các vùng sáng và tối Nếu hình dạng của hàm mật độđược biết hoặc được giả thuyết là có 1 hình dạng quen thuộc nào đó thì chúng ta cókhả năng xác định 1 ngưỡng tối ưu cho việc phân đoạn 1 bức ảnh thành 2 vùng rờinhau
Hình 1.24 biểu diễn 2 hàm mật độ xác suất Giả sử rằng PDF lớn hơn tương ứngvới mức xám của nền và PDF nhỏ hơn miêu tả cho mức xám của vật thể trong bứcảnh Hàm mật độ hỗn hợp miêu tả cho sự dao động của mức xám trên toàn bức ảnh
là : p(z)=P ( )1 1p z P p z2 2( ) (1-11)
Với P1 và P2 được xác định như sau : P1 là xác suất 1 pixel ngẫu nhiên là pixelcủa vật thể, còn P2 là xác suất mà 1 pixel ngẫu nhiên là pixel của nền Chúng tađang xét trường hợp ảnh chỉ có vật thể và nền nên 1 pixel bất kỳ thì hoặc thuộc nềnhoặc thuộc vật thể, do đó :
Trang 33Xác suất 1 biến ngẫu nhiên có giá trị nằm trong khoảng [a,b] là tích phân củahàm mật độ từ a tới biên, tức là diện tích của đường cong PDF giữa 2 đầu mút Vìvậy xác suất phân loại sai lầm 1 pixel nền thành 1 pixel vật thể là :
Đây là diện tích của vùng nằm dưới đường cong p2 và nằm bên trái ngưỡng T
Hình 1.24 Biểu diễn 2 hàm mật độ xác suất
Tương tự, ta cũng có xác suất phân loại sai lầm 1 pixel vật thể thành 1 pixel nền:
E1), tức là xác suất sai lầm loại 1 xảy ra với pixel bất kỳ A là P2E1 Tương tự, xácsuất sai lầm loại 2 xảy ra với pixel bất kỳ A là P1E2 Và ta có công thức 1-15
Nếu các pixel nền và vật thể có xác suất suất hiện giống nhau thì P1 = P2 = 0.5
Trang 34Để tìm ra 1 ngưỡng mà E nhỏ nhất cần đạo hàm E theo T và cho đạo hàm nàybằng 0 ( dùng phương pháp tìm cực trị) thì thu được:
độ có các hệ số dễ tính toán đã biết Một trong các hàm mật độ chính được sử dụngtrong phương pháp này là hàm mật độ Gauss, hàm mật độ mà được mô tả hoàn toànthông qua 2 hệ số: giá trị trung bình và phương sai Cụ thể là ta coi p1 và p2 đều là
hàm phân phối chuẩn Khi đó ta đặt 1và 2
1
là giá trị trung bình và phương sai củaphân phối Gauss của 1 lớp pixels (trong trường hợp này ta lấy là lớp các pixel vậtthể, tức là ứng với p1), còn 1 và 2
1
là giá trị trung bình và phương sai của phân
bố Gauss của 1 lớp pixels còn lại (ứng với p2) Khi đó công thức 1-11 viết lại là:
Bởi vì một phương trình bậc 2 có thể có 2 nghiệm nên 2 nghiệm này đều có thể
là ngưỡng tối ưu
Nếu 2 phương sai là bằng nhau: 2 2 2
Trang 35Nếu p1 p2hoặc 0 thì ngưỡng thích hợp là giá trị trung bình của 2 phươngsai Đối với các phân bố khác (như ta đã biết dạng của hàm mật độ, như phân bốRaleigh và log-normal), cũng có thể xác định ngưỡng tối ưu 1 cách tương tự.
Thay thế cho việc giả định dạng hàm số của p(z), chúng ta có thể dùng phươngpháp sai số bình phương trung bình nhỏ nhất (minimum mean-square-errorapproach) để ước lượng PDF mức xám hỗn hợp của 1 bức ảnh từ histogram của bứcảnh đó Ví dụ sai số trung bình bình phương giữa hàm mật độ hỗn hợp p(z) (có dạngliên tục) và histogram h(zi) (có dạng rời rạc) là:
n
2 ms
Nói chung việc xác định 1 cách giải tích những hệ số mà làm cho sai số trungbình bình phương này trở nên bé nhất không phải là 1 vần đề dễ Ngay cả đối vớiphân bố Gauss, thì các tính toán không quá phức tạp trong việc lập nên các phươngtrình đạo hàm riêng bằng 0 cũng dẫn tới việc giải 1 hệ các phương trình siêu việt;
mà việc giải các phương trình siêu việt này thường chỉ được thực hiện bằng các thủtục số như phương pháp gradient liên hợp hay phương pháp Newton cho hệ phươngtrình phi tuyến
1.3.3.6 Dùng đặc điểm biên để cải tiến histogram và phân ngưỡng địa phương
Trên cơ sở những nội dung đã đề cập trong các phần trước, ta có thể nhận thấykhá rõ ràng rằng khả năng chọn 1 ngưỡng tốt sẽ rất lớn nếu các đỉnh của histogramnhọn, cao đối xứng và được phân chia bởi những đường rãnh dài Một phương pháp
để cải thiện histogram là chỉ chú ý tới những pixel đặt trên hoặc gần những cạnhnằm giữa vật thể và nền Khi đó histogram sẽ ít phụ thuộc hơn vào kích thước củavật thể và nền, do đó các đỉnh của histogram sẽ dễ có dạng đối xứng hơn Bởi vì nếukhông cải tiến thì các bức ảnh của 1 vật thể nhỏ đặt trên 1 nền lớn (hoặc ngược lại)
Trang 36sẽ có histogram không đối xứng, cụ thể là hình dạng của lớp pixel nhiều hơn sẽ làhình dạng chủ đạo của histogram Hình 1.22, 1.23 là các ví dụ tốt cho chúng ta thấykết quả phân đoạn bị ảnh hưởng bởi hình dạng histogram như thế nào
Nếu chỉ các pixel ở gần biên của vật thể và nền được dùng thì histogram phải cócác đỉnh có chiều cao gần gần nhau Ngoài ra xác suất mà 1 pixel bất kỳ (trong cácpixel được quan tâm này) là pixel vật thể cũng phải xấp xỉ xác suất mà pixel này lànền, tức là các đỉnh histogram sẽ dễ có dạng đối xứng hơn Và cuối cùng, việc sửdụng các pixel thỏa mãn 1 số tiêu chuẩn về gradient và toán tử Laplacian đơn giảnthì có khả năng làm cho đường rãnh giữa các đỉnh histogram sâu thêm
Vấn đề chính trong phương pháp này là giả định rằng các cạnh giữa vật thể vànền được biết trước Việc biết trước này rõ ràng là không khả dĩ trong quá trìnhphân đoạn vì nhiệm vụ của phân đoạn là tìm ra sự phân chia giữa vật thể và nền.Tuy nhiên ta có 1 dấu hiệu nhận biết 1 pixel là cạnh bằng cách tính gradient của nó
Và ta có thể nhận biết 1 pixel được cho đặt bên tối hay bên sáng của 1 cạnh bằngcách sử dụng toán tử Laplacian Giá trị trung bình của toán tử Laplacian là 0 ở lúcchuyển tiếp của 1 cạnh, do đó trong thực tế các rãnh của histogram (mà được tạothành từ các pixel thỏa các tính chất về gradient và Laplacian) có thể được làm rộng
ra Tính chất này tạo ra các rãnh sâu rất đáng mong đợi
Gradient f của 1 điểm (x,y) trong bức ảnh được cho bằng phương trình 1.4hoặc phương trình 1.12 Tương tự, Laplacian 2 f được cho bởi phương trình 1.14hoặc 1.15 hai toán tử này có thể dùng để định dạng nên 1 bức ảnh 3 mức như sau:
2 2
0 khi f < T ( , ) + khi f > T, f 0
Trang 37(2) Tất cả các pixel nằm bên phần tối của cạnh được gán kí hiệu + (3) Tất cả các pixel nằm bên phần tối của cạnh được gán kí hiệu -.
Đối với trường hợp 1 vật thể sáng đặt trên nền tối thì các kí hiệu +, - ngược lại.Hình dưới đây là 1 bức ảnh các nét bút viết tay tối và được gạch dưới trên 1 nềnsáng, trong đó các kí hiệu có dạng tam giác là thay thế cho các kí hiệu +
Thông tin nhận được từ sự mãhoá bằng phương trình 1-21 trên cóthể được dùng trong phân đoạn Sựchuyển đổi (dọc theo 1 dòng quétdọc hoặc ngang) từ 1 nền sángsang 1 vật thể tối phải được mô tảbởi các dấu – theo sau bởi 1 +trong s(x,y) Phần trong vật thể baogầm các pixel được gán kí hiệu 0hoặc + Cuối cùng, sự chuyển đổi từ vật thể sang nền được mô tả bởi các dầu + theosau bởi 1 dấu - Vì vậy các dòng quét dọc hoặc ngang chứa 1 phần của vật thể cócấu trúc sau:(…)(-,+)(0 hoặc +)(+,-)( )
Với ( ) là cấu trúc gồm 0, + hay - Cặp ngoặc đơn ở giữa (cặp ngoặc thứ 3 từtrái qua) tương ứng với các pixel vật thể, do đó các pixel này được gán giá trị 1 Tất
cả cá pixel khác cùng dòng quét được gán giá trị 0, ngoại trừ trường hợp pixel nàynằm trong chuỗi (0 hoặc +) được bao bởi (-,+) và (+,-) (tức là các pixel nằn trên vàtrong 1 phần cạnh khác)
1.3.4 Phân đoạn dựa trên cơ sở vùng
Mục đích của phân đoạn là phân chia bức ảnh ra thành nhiều vùng Trong cácphần trên chúng ta đã tiếp cận bài toán này bằng phương pháp tìm đường biên giữacác vùng trên cơ sở sự không liên tục của độ xám; phân đoạn được thực hiện dựatrên ngưỡng các pixel có thuộc tính phân biệt, như giá trị của độ xám hoặc màu.Trong phần này chúng ta tìm hiểu về kỹ thuật phân đoạn dựa trên tìm kiếm cácvùng một cách trực tiếp
1.3.4.1 Công thức cơ bản
Cho R mô tả toàn bộ vùng ảnh Chúng ta xem phân đoạn ảnh là chia R thành n
Trang 38Điều kiện (a) chỉ ra sự phân đoạn đã kết thúc, điều này có nghĩa mỗi pixel đều
đã nằm trong một vùng Điều kiện b yêu cầu những điểm nằm trong một vùng phảiliên thông trong một điều kiện giới hạn trước Điều kiện c cho biết các vùng phải rờinhau Điều kiện (d) đòi hỏi những điểm đã được phân đoạn phải thỏa mãn một vàithuộc tính đã được xác định trước; ví dụ P R( )i =TRUE nếu tất cả pixel trong R i cómức xám giống nhau Cuối cùng điều kiện (e) nghĩa là chân trị của P theo các vùng
Việc chọn tiêu chuẩn phụ thuộc vào từng loại ảnh Ví dụ phân tích ảnh chụp vệtinh trái đất phụ thuộc vào màu sắc.Với ảnh trắng đen, phân tích vùng phải giảithích được một tập mô tả dựa trên giá trị mức xám và đặc trưng không gian Việc mô tả các thuộc tính một cách rời rạc có thể đưa ra những kết quả sai lạckhi thông tin liên thông hoặc lân cận không được dùng trong quá trình phát triển
Trang 39vùng Ví dụ, hiển thị một khoảng bất kỳ những pixel với ba giá trị mức xám táchbiệt Những pixel phát triển thì có giá trị mức xám giống nhau để có dạng một
“vùng” mà không chú ý đến vấn đề liên thông sẽ đưa ra một kết quả phân đoạn vônghĩa trong ngữ cảnh của thảo luận này
Một vấn đề khác trong phát triển vùng là dạng của điều kiện dừng Cơ bản pháttriển vùng sẽ dừng khi không có pixel nào thỏa mãn tiêu chuẩn để nằm trong vùng
đó Tiêu chuẩn chẳng hạn như mức xám, cấu trúc, màu là những bản chất cục bộ,không xét đến lịch sử của quá trình phát triển vùng Thêm tiêu chuẩn sẽ làm tăngthêm sức mạnh của định luật phát triển vùng dùng khái niệm của kích thước, sựgiống nhau của một pixel ứng cử và những pixel đã được phát triển , và hình củanhững vùng đã được phát triển Sử dụng những loại tiêu chuẩn đã được miêu tả, dựatrên giả thuyết kiểu của kết quả được mong đợi có giá trị từng phần bé nhất
Hình 1.25 Minh họa cho kỹ thuật tăng vùng a) hình 1 mối hàn có lỗi b)điểm hạt c) Hình sau khi mở rộng vùng d) các biên của mối hàn lỗi được phân đoạn.
Hình 1.25 thể hiện một ảnh X-quang của mối hàn chứa nhiều vết nức và độrỗng chúng ta sẽ sử dụng phát triển vùng để phân đoạn vùng của những mối hàn bịhỏng Đặc điểm của phân đoạn này có thể được dùng để kiểm tra, điều khiển một hệthống hàn tự động và cho nhiều ứng dụng khác
Vấn đề đầu tiên là cần xác định những điểm hạt Trong ứng dụng này nhữngpixel của mối hàn bị hỏng có xu hướng đạt đến giá trị mức xám lớn nhất (trongtrường hợp này là 255) Dựa trên thông tin này chúng ta chọn tập điểm bắt đầu là tất
cả những điểm có giá trị 255 Những điểm như vậy được trích ra từ ảnh gốc nhưtrong hình 1.25 b Chú ý rằng có nhiều điểm nằm trong những vùng hạt Bước tiếptheo là chọn tiêu chuẩn phát triển vùng Trong ví dụ này chúng ta chọn hai tiêuchuẩn để một pixel được thêm vào một vùng :
Trang 40- Trị tuyệt đối hiệu mức xám giữa một pixel bất kỳ và hạt phải nhỏ hơn 65.Con số này dựa trên histogram trong hình 1.26
- Để được nhóm vào một vùng, trong tám liên thông của một pixel phải có ítnhất một pixel nằm trong vùng đó
Trong hình 1.25 c biểu diễn kết quả của phát triển vùng dựa trên tập điểm bắtđầu trong hình 1.25 b và sử dụng hai tiêu chuẩn đã được định nghĩa ở trên Nhữngđường biên đè lên trên ảnh gốc trong hình 1.25 d đã thật sự bộc lộ những mối hànhỏng với một mức độ chấp nhận hợp lý
Hình 1.26 Histogram của 1.25
1.3.4.3 Chia và trộn vùng
Đặt R biểu diễn toàn bộ vùng ảnh và chọn tính chất P cho trước Một phươngpháp phân đoạn R là chia nó ra thành những vùng nhỏ hơn và những vùng tứ phânnhỏ hơn, đối với bất kì vùng Ri nào, P(Ri)=TRUE Chúng ta bắt đầu với toàn bộvùng Nếu P(R)=FALSE thì ta chia ảnh thành 4 phần Nếu P là FALSE cho bất kìvùng tứ phân nào, chúng ta chia vùng tứ phân đó thành 4 phần nhỏ hơn, và cứ tiếptục như thế Kỹ thuật phân chia đặc biệt này có sự thuận lợi trong biểu diễn đượcgọi là cây tứ phân (Quadtree), như hình 1.40 Chú ý rằng gốc của cây tứ phân tươngứng với toàn bộ ảnh và mỗi node tương ứng với phần chia nhỏ hơn Trong trườnghợp này, chỉ R4 được chia nhỏ hơn nữa
Nếu chỉ phân chia thì phần cuối cùng sẽ chứa những vùng gần nhau có cùngthuộc tính Trở ngại này có thể được khắc phục bằng cách hợp lại Để thỏa mãn