Ứng dụng xử lý ảnh vào nhận dạng ảnh và tìm kiếm ảnh

Ảnh có thể xem là tập hợp các điểm ảnh và mỗi điểm ảnh được xem như là đặc trưng cường độ sáng hay một dấu hiệu nào đó tại một vị trí nào đó của đối tượng trong không gian và nó có thể x

Trang 1

Chương 1:

TỔNG QUAN VỀ XỬ LÝ ẢNH

Trang 2

1.1 XỬ LÝ ẢNH, CÁC VẤN ĐỀ CƠ BẢN TRONG XỬ LÝ ẢNH

1.1.1 XỬ LÝ ẢNH LÀ GÌ?

Con người thu nhận thông tin qua các giác quan, trong đó thị giác đóng vai trò quan trọng nhất Những năm trở lại đây với sự phát triển của phần cứng máy tính, xử lý ảnh và đồ hoạ đó phát triển một cách mạnh mẽ và có nhiều ứng dụng trong cuộc sống Xử lý ảnh và đồ hoạ đóng một vai trò quan trọng trong tương tác người và máy

Quá trình xử lý ảnh được xem như là quá trình thao tác ảnh đầu vào nhằm cho ra kết quả mong muốn Kết quả đầu ra của một quá trình xử lý ảnh có thể là một ảnh “tốt hơn” hoặc một kết luận

Hình 1.1 Quá trình xử lý ảnh

Ảnh có thể xem là tập hợp các điểm ảnh và mỗi điểm ảnh được xem như là đặc trưng cường độ sáng hay một dấu hiệu nào đó tại một vị trí nào đó của đối tượng trong không gian và nó có thể xem như một hàm n biến P(c1, c2, , cn) Do đó, ảnh trong xử lý ảnh có thể xem như ảnh n chiều

Sơ đồ tổng quát của một hệ thống xử lý ảnh:

Hình 1.2 Các bước cơ bản trong một hệ thống xử lý ảnh

1.1.2 Các vấn đề cơ bản trong xử lý ảnh

a Một số khái niệm cơ bản

* Ảnh và điểm ảnh: Điểm ảnh được xem như là dấu hiệu hay cường độ sáng tại một toạ độ trong không gian của đối tượng và ảnh được xem như là một tập hợp các điểm ảnh

* Mức xám, màu : Là số các giá trị có thể có của các điểm ảnh của ảnh

b Nắn chỉnh biến dạng

Trang 3

Ảnh thu nhận thường bị biến dạng do các thiết bị quang học và điện

tử

Hình 1.3 Ảnh thu nhận và ảnh mong muốn

Để khắc phục người ta sử dụng các phép chiếu, các phép chiếu thường được xây dựng trên tập các điểm điều khiển

Giả sử (Pi, Pi’) i = 1 , n có n các tập điều khiển

Trang 4

Giải hệ phương trình tuyến tính tìm được a1, b1, c1

Tương tự tìm được a2, b2, c2

⇒Xác định được hàm f

c Khử nhiễu

Có 2 loại nhiễu cơ bản trong quá trình thu nhận ảnh

• Nhiều hệ thống: là nhiễu có quy luật có thể khử bằng các phép biến đổi

• Nhiễu ngẫu nhiên: vết bẩn không rõ nguyên nhân→ khắc phục bằng các phép lọc

• Tăng số mức xám: Thực hiện nội suy ra các mức xám trung gian bằng kỹ thuật nội suy Kỹ thuật này nhằm tăng cường độ mịn cho ảnh

Đặc điểm biên và đường biên: Đặc trưng cho đường biên của đối tượng và do vậy rất hữu ích trong việc trích trọn các thuộc tính bất biến được dùng khi nhận dạng đối tượng Các đặc điểm này có thể được trích chọn nhờ toán tử gradient, toán

tử la bàn, toán tử Laplace, toán tử “chéo không” (zero crossing) v.v

Việc trích chọn hiệu quả các đặc điểm giúp cho việc nhận dạng các đối tượng ảnh chính xác, với tốc độ tính toán cao và dung lượng nhớ lưu trữ giảm xuống

f Nhận dạng

Nhận dạng tự động (automatic recognition), mô tả đối tượng, phân loại và phân nhóm các mẫu là những vấn đề quan trọng trong thị giác máy,được ứng dụng trong nhiều ngành khoa học khác nhau Tuy nhiên, một câu hỏi đặt ra là: mẫu (pattern) là gì? Watanabe, một trong những người đi đầu trong lĩnh vực này đã định nghĩa: “Ngược lại với hỗn loạn (chaos), mẫu là một thực thể (entity), được xác định một cách ang áng (vaguely defined) và có thể gán cho nó một tên gọi nào đó” Ví dụ mẫu có thể là ảnh của vân tay, ảnh của một vật nào đó được chụp, một chữ viết,

Trang 5

khuôn mặt người hoặc một ký đồ tín hiệu tiếng nói Khi biết một mẫu nào đó, để nhận dạng hoặc phân loại mẫu đó có thể:

Hoặc phân loại có mẫu (supervised classification), chẳng hạn phân tích phân biệt (discriminant analyis), trong đó mẫu đầu vào được định danh như một thành phần của một lớp đã xác định

Hoặc phân loại không có mẫu (unsupervised classification hay clustering) trong đó các mẫu được gán vào các lớp khác nhau dựa trên một tiêu chuẩn đồng dạng nào đó Các lớp này cho đến thời điểm phân loại vẫn chưa biết hay chưa được định danh

Hệ thống nhận dạng tự động bao gồm ba khâu tương ứng với ba giai đoạn chủ yếu sau đây:

1 Thu nhận dữ liệu và tiền xử lý

2 Biểu diễn dữ liệu

3 Nhận dạng, ra quyết định

Bốn cách tiếp cận khác nhau trong lý thuyết nhận dạng là:

1 Đối sánh mẫu dựa trên các đặc trưng được trích chọn

2 Phân loại thống kê

3 Đối sánh cấu trúc

4 Phân loại dựa trên mạng nơ-ron nhân tạo

Trong các ứng dụng rõ ràng là không thể chỉ dùng có một cách tiếp cận đơn

lẻ để phân loại “tối ưu” do vậy cần sử dụng cùng một lúc nhiều phương pháp và cách tiếp cận khác nhau.Do vậy,các phương thức phân loại tổ hợp hay được sử dụng khi nhận dạng và nay đã có những kết quả có triển vọng dựa trên thiết kế các hệ thống lai (hybrid system) bao gồm nhiều mô hình kết hợp

Việc giải quyết bài toán nhận dạng trong những ứng dụng mới, nảy sinh trong cuộc sống không chỉ tạo ra những thách thức về thuật giải, mà còn đặt ra những yêu cầu về tốc độ tính toán Đặc điểm chung của tất cả những ứng dụng đó là những đặc điểm đặc trưng cần thiết thường là nhiều,không thể do chuyên gia đề xuất, mà phải được trích chọn dựa trên các thủ tục phân tích dữ liệu

g Nén ảnh

Nhằm giảm thiểu không gian lưu trữ Thường được tiến hành theo cả hai cách khuynh hướng là nén có bảo toàn và không bảo toàn thông tin.Nén không bảo toàn thì thường có khả năng nén cao hơn nhưng khả năng phục hồi thì kém hơn Trên cơ sở hai khuynh hướng, có 4 cách tiếp cận cơ bản trong nén ảnh:

• Nén ảnh thống kê: Kỹ thuật nén này dựa vào việc thống kê tần xuất xuất hiện của giá trị các điểm ảnh, trên cơ sở đó mà có chiến lược mã hóa thích hợp Một ví

dụ điển hình cho kỹ thuật mã hóa này là *.TIF

• Nén ảnh không gian: Kỹ thuật này dựa vào vị trí không gian của các điểm ảnh để tiến hành mã hóa Kỹ thuật lợi dụng sự giống nhau của các điểm ảnh trong các vùng gần nhau Ví dụ cho kỹ thuật này là mã nén *.PCX

Trang 6

• Nén ảnh sử dụng phép biến đổi: Đây là kỹ thuật tiếp cận theo hướng nén không bảo toàn và do vậy, kỹ thuật thướng đến hiệu quả hơn *.JPG chính là tiếp cận theo kỹ thuật nén này

• Nén ảnh Fractal: Sử dụng tính chất Fractal của các đối tượng ảnh, thể hiện sự lặp lại của các chi tiết Kỹ thuật nén sẽ tính toán để chỉ cần lưu trữ phần gốc ảnh và quy luật sinh ra ảnh theo nguyên lý Fractal

1.2 THU NHẬN VÀ BIỂU DIỄN ẢNH

1.2.1 Thu nhận, các thiết bị thu nhận ảnh

Các thiết bị thu nhận ảnh bao gồm camera, scanner các thiết bị thu nhận này

Nhìn chung các hệ thống thu nhận ảnh thực hiện 1 quá trình :

• Cảm biến: biến đổi năng lượng quang học thành năng lượng điện

• Tổng hợp năng lượng điện thành ảnh

1.2.2 Biểu diễn ảnh:

Ảnh trên máy tính là kết quả thu nhận theo các phương pháp số hoá được nhúng trong các thiết bị kỹ thuật khác nhau.Quá trình lưu trữ ảnh nhằm 2 mục đích:

• Tiết kiệm bộ nhớ

• Giảm thời gian xử lý

Việc lưu trữ thông tin trong bộ nhớ có ảnh hưởng rất lớn đến việc hiển thị, in

ấn và xử lý ảnh được xem như là 1 tập hợp các điểm với cùng kích thước nếu sử dụng càng nhiều điểm ảnh thì bức ảnh càng đẹp, càng mịn và càng thể hiện rõ hơn chi tiết của ảnh người ta gọi đặc điểm này là độ phân giải

Việc lựa chọn độ phân giải thích hợp tuỳ thuộc vào nhu cầu sử dụng và đặc trưng của mỗi ảnh cụ thể, trên cơ sở đó các ảnh thường được biểu diễn theo 2 mô hình cơ bản

a Mô hình Raster

Đây là cách biểu diễn ảnh thông dụng nhất hiện nay,ảnh được biểu diễn dưới dạng ma trận các điểm (điểm ảnh) Thường thu nhận qua các thiết bị như camera, scanner Tuỳ theo yêu cầu thực thế mà mỗi điểm ảnh được biểu diễn qua 1 hay nhiều bít

Mô hình Raster thuận lợi cho hiển thị và in ấn Ngày nay công nghệ phần cứng cung cấp những thiết bị thu nhận ảnh Raster phù hợp với tốc độ nhanh và chất lượng cao cho cả đầu vào và đầu ra Một thuận lợi cho việc hiển thị trong môi trường Windows là Microsoft đưa ra khuôn dạng ảnh DIB (Devic Independent

Trang 7

Bitmap) làm trung gian Hình 1.4 thể hình quy trình chung để hiển thị ảnh Raster thông qua DIB

Một trong những hướng nghiên cứu cơ bản trên mô hình biểu diễn này là kỹ thuật nén ảnh các kỹ thuật nén ảnh lại chia ra theo 2 khuynh hướng là nén bảo toàn

và không bảo toàn thông tin nén bảo toàn có khả năng phục hồi hoàn toàn dữ liệu ban đầu còn nếu không bảo toàn chỉ có khả năng phục hồi độ sai số cho phép nào

đó Theo cách tiếp cận này người ta đã đề ra nhiều quy cách khác nhau như BMP, TIF, GIF, PCX…

Hiện nay trên thế giới có trên 50 khuôn dạng ảnh thông dụng bao gồm cả trong đó các kỹ thuật nén có khả năng phục hồi dữ liệu 100% và nén có khả năng phục hồi với độ sai số nhận được

Trong mô hình vector người ta sử dụng hướng giữa các vector của điểm ảnh lân cận để mã hoá và tái tạo hình ảnh ban đầu ảnh vector được thu nhận trực tiếp từ các thiết bị số hoá như Digital hoặc được chuyển đổi từ ảnh Raster thông qua các chương trình số hoá

Công nghệ phần cứng cung cấp những thiết bị xử lý với tốc độ nhanh và chất lượng cho cả đầu vào và ra nhưng lại chỉ hỗ trợ cho ảnh Raster

Do vậy, những nghiên cứu về biểu diễn vectơ đều tập trung từ chuyển đổi từ ảnh Raster

Hình 1.5 Sự chuyển đổi giữa các mô hình biểu diễn ảnh

Trang 8

Chương 2:

BIÊN VÀ CÁC PHƯƠNG PHÁP

PHÁT HIỆN BIÊN.

Trang 9

sử dụng hai phươngnpháp phát hiện biên cơ bản:

Phát hiện biên trực tiếp: Phương pháp này làm nổi biên dựa vào sự biến thiên mức xám của ảnh Kỹ thuật chủ yếu dùng để phát hiện biên ở đây là dựa vào sự biến đổi cấp xám theo hướng Cách tiếp cận theo đạo hàm bậc nhất của ảnh dựa trên kỹ thuật Gradient, nếu lấy đạo hàm bậc hai của ảnh dựa trên biến đổi gia ta có kỹ thuật Laplace

Phát hiện biên gián tiếp: Nếu bằng cách nào đó ta phân được ảnh thành các vùng thì ranh giới giữa các vùng đó gọi là biên Kỹ thuật dò biên và phân vùng ảnh

là hai bài toán đối ngẫu nhau vì dò biên để thực hiện phân lớp đối tượng mà khi đã phân lớp xong nghĩa là đã phân vùng được ảnh và ngược lại, khi đã phân vùng ảnh

đã được phân lớp thành các đối tượng, do đó có thể phát hiện được biên

Phương pháp phát hiện biên trực tiếp tỏ ra khá hiệu quả và ít chịu ảnh hưởng của nhiễu, song nếu sự biến thiên độ sáng không đột ngột, phương pháp tỏ ra kém hiệu quả, phương pháp phát hiện biên gián tiếp tuy khó cài đặt, song lại áp dụng khá tốt trong trường hợp này

2.2 CÁC PHƯƠNG PHÁP PHÁT HIỆN BIÊN TRỰC TIẾP

2.2.1 Kỹ thuật phát hiện biên Gradient

Theo định nghĩa, gradient là một véctơ có các thành phần biểu thị tốc

độ thay đổi giá trị của điểm ảnh, ta có:

Trong đó, dx, dy là khoảng cách (tính bằng số điểm) theo hướng x và y Nhận xét:

Tuy ta nói là lấy đạo hàm nhưng thực chất chỉ là mô phỏng và xấp xỉ đạo hàm bằng các kỹ thuật nhân chập (cuộn theo mẫu) vì ảnh số là tín hiệu rời rạc nên đạo hàm không tồn tại

Ví dụ: Với dx = dy = 1, ta có:

Trang 10

Do đó, mặt nạ nhân chập theo hướng x là A= (− 1 1)

Trang 11

Bước 1: Tính I ⊗ Hx và I ⊗ Hy

Bước 2: Tính I ⊗ Hx + I ⊗ Hy

Ví dụ:

Trang 13

Các bước tính toán thuật toán La bàn

2.2.2 Kỹ thuật phát hiện biên Laplace

Các phương pháp đánh giá gradient ở trên làm việc khá tốt khi mà độ sáng thay đổi rõ nét.Khi mức xám thay đổi chậm, miền chuyển tiếp trải rộng, phương pháp cho hiệu quả hơn đó là phương pháp sử dụng đạo hàm bậc hai Laplace

Toán tử Laplace được định nghĩa như sau:

Ta có:

Tương tự,

Dẫn tới:

Trang 14

Trong thực tế, người ta thường dùng nhiều kiểu mặt nạ khác nhau để xấp xỉ rời rạc đạo hàm bậc hai Laplace.Dưới đây là ba kiểu mặt nạ thường dùng:

2.3 PHÁT HIỆN BIÊN GIÁN TIẾP

2.3.1 Một số khái niệm cơ bản

Ảnh và điểm ảnh

Ảnh số là một mảng số thực 2 chiều (Iij) có kích thước (M×N), trong đó mỗi phần tử Iij(i = 1, ,M; j = 1, ,N) biểu thị mức xám của ảnh tại (i,j) tương ứng

Ảnh được gọi là ảnh nhị phân nếu các giá trị Iij chỉ nhận giá trị 0 hoặc 1

Ở đây ta chỉ xét tới ảnh nhị phân vì ảnh bất kỳ có thể đưa về dạng nhị phân bằng kỹ thuật phân ngưỡng Ta ký hiệu ℑ là tập các điểm vùng (điểm đen) và ℑ là tập các điểm nền (điểm trắng)

N8(i,j) = {(i’,j’) : max(|i-i’|,|j-j’|) =1}

Trong Hình 2.1 biểu diễn ma trận 8 láng giềng kề nhau,các điểm P0,P2, P4, P6

là các 4-láng giềng của điểm P, còn các điểm P0, P1, P2, P3, P4, P5,P6, P7 là các láng giềng của P

Trang 15

8-Hình 2.1: Ma trận 8-láng giềng kề nhau

Đối tượng ảnh

Hai điểm Ps, Pe ∈ E, E ⊆ ℑ hoặc được gọi là 8-liên thông (hoặc liên thông) trong E nếu tồn tại tập các điểm được gọi là đường đi (io,jo) (in,jn) sao cho (io,jo)= Ps, (in,jn)= Pe, (ir,jr) ∈ E và (ir,jr) là 8-láng giềng (hoặc 4-láng giềng tương ứng) của (ir-1,jr-1) với r = 1,2, ,n

4-Nhận xét: Quan hệ k-liên thông trong E (k=4,8) là một quan hệ phản xạ, đối xứng và bắc cầu Bởi vậy đó là một quan hệ tương đương Mỗi lớp tương đương được gọi là một thành phần k-liên thông của ảnh Về sau ta sẽ gọi mỗi thành phần k-liên thông của ảnh là một đối tượng ảnh

2.3.2 Chu tuyến của một đối tượng ảnh

Định nghĩa 2.1: [Chu tuyến]

Chu tuyến của một đối tượng ảnh là dãy các điểm của đối tượng ảnh P1,…,Pnsao cho Pi và Pi+1 là các 8-láng giềng của nhau (i=1, ,n-1) và P1 là

8-láng giềng của Pn,∀i ∃Q không thuộc đối tượng ảnh và Q là 4-láng giềng của Pi(hay nói cách khác ∀i thì Pi là biên 4) Kí hiệu <P1P2 Pn>

Tổng các khoảng cách giữa hai điểm kế tiếp của chu tuyến là độ dài của chu tuyến và kí hiệu Len(C) và hướng PiPi+1 là hướng chẵn nếu Pi và Pi+1 là các 4 – láng giềng (trường hợp còn lại thì PiPi+1là hướng lẻ)

Hình 3.2 dưới đây biểu diễn chu tuyến của ảnh, trong đó, P là điểm khởi

Trang 16

đầu chu tuyến

Hình 2.2: Ví dụ về chu tuyến của đối tượng ảnh

2.3.3: Thuật toán dò biên tổng quát

Biểu diễn đối tượng ảnh theo chu tuyến thường dựa trên các kỹ thuật dò biên

Có hai kỹ thuật dò biên cơ bản.Kỹ thuật thứ nhất xét ảnh biên thu được từ ảnh vùng sau một lần duyệt như một đồ thị, sau đó áp dụng các thuật toán duyệt cạnh đồ thị.Kỹ thuật thứ hai dựa trên ảnh vùng, kết hợp đồng thời quá trình dò biên và tách biên Ở đây ta quan tâm cách tiếp cận thứ hai

Trước hết, giả sử ảnh được xét chỉ bao gồm một vùng ảnh 8-liên thông ℑ,được bao bọc bởi một vành đai các điểm nền Dễ thấy ℑ là một vùng 4-liên thông chỉ là một trường riêng của trường hợp trên

Về cơ bản,các thuật toán dò biên trên một vùng đều bao gồm các bước sau:

• Xác định điểm biên xuất phát

• Dự báo và xác định điểm biên tiếp theo

• Lặp bước 2 cho đến khi gặp điểm xuất phát

Do xuất phát từ những tiêu chuẩn và định nghĩa khác nhau về điểm biên, và quan hệ liên thông,các thuật toán dò biên cho ta các đường biên mang các sắc thái rất khác nhau

Kết quả tác động của toán tử dò biên lên một điểm biên ri là điểm biên ri+1 (8-láng giềng của ri).Thông thường các toán tử này được xây dựng như một hàm đại

số Boolean trên các 8-láng giềng của ri Mỗi cách xây dựng các toán tử đều phụ thuộc vào định nghĩa quan hệ liên thông và điểm biên.Do đó sẽ gây khó khăn cho

Trang 17

việc khảo sát các tính chất của đường biên.Ngoài ra, vì mỗi bước dò biên đều phải kiểm tra tất cả các 8-láng giềng của mỗi điểm nên thuật toán thường kém hiệu quả

Để khắc phục các hạn chế trên, thay vì sử dụng một điểm biên ta sử dụng cặp điểm biên (một thuộc ℑ,một thuộc ℑ), các cặp điểm này tạo nên tập nền vùng, kí hiệu là NV và phân tích toán tử dò biên thành 2 bước:

Xác định cặp điểm nền vùng tiếp theo

Lựa chọn điểm biên

Trong đó bước thứ nhất thực hiện chức năng của một ánh xạ trên tập NV lên

NV và bước thứ hai thực hiện chức năng chọn điểm biên

Thuật toán dò biên tổng quát:

Bước 1: Xác định cặp nền-vùng xuất phát

Bước 2: Xác định cặp nền-vùng tiếp theo

Bước 3: Lựa chọn điểm biên vùng

Bước 4: Nếu gặp lại cặp xuất phát thì dừng, nếu không quay lại bước 2 Việc xác định cặp nền-vùng xuất phát được thực hiện bằng cách duyệt ảnh lần lượt từ trên xuống dưới và từ trái qua phải rồi kiểm tra điều kiện lựa chọn cặp nền-vùng Do việc chọn điểm biên chỉ mang tính chất quy ước, nên ta gọi ánh xạ xác định cặp nền-vùng tiếp theo là toán tử dò biên

Định nghĩa 2.6 [Toán tử dò biên]

Giả sử T là một ánh xạ như sau:

Gọi T là một toán tử dò biên cơ sở nếu nó thoả mãn điều kiện: b’,r’ là các láng giềng của r

8-Giả sử (b,r) NV; gọi K(b,r) là hàm chọn điểm biên Biên của một dạng ℑ

có thể định nghĩa theo một trong ba cách:

• Tập những điểm thuộc ℑ có mặt trên NV, tức là K(b,r)= r

• Tập những điểm thuộc ℑ có trên NV, tức là K(b,r)= b

Trang 18

• Tập những điểm ảo nằm giữa cặp nền-vùng, tức là K(b,r) là những

điểm nằm giữa hai điểm b và r

Cách định nghĩa thứ ba tương ứng mỗi cặp nền-vùng với một điểm biên.Còn đối với cách định nghĩa thứ nhất và thứ hai một số cặp nền- vùng có thể có chung một điểm biên.Bởi vậy, quá trình chọn điểm biên được thực hiện như sau:

i:= 1; (bi,ri):= (bo,ro);

While K(bi,ri)<>K(bn,rn) and i≤8 do

Begin (bi+1,ri+1)= T(bi,ri); i:= i+1; End;

Xác định cặp nền vùng tiếp theo

Đầu vào: pt, dir

Ví dụ: (3, 2) 4

Point orient []= {(1,0);(1;-1);(0;-1);(-1;-1);(-1;0);(-1,1);(0,1);(1,1)};

//Hàm tìm hướng có điểm đen gần nhất

BYTE GextNextDir(POINT pt, BYTE dir)

//Gán giá trị cho bước tiếp theo

pdir = GetNextDir(pt, dir);

if(pdir==ERR) //Kiểm tra có là điểm cô lập không?

return ERR; //Điểm cô lập

Trang 19

pt x = pt x + orient [pdir] x;

pt y = pt y + orient [pdir] y ;

Để tính giá trị cho hướng tiếp theo ta lập bảng dựa trên giá trị pdir đã

tính được trước đó theo các khả năng có thể xảy ra:

⇒Do đó công thức để tính hướng tiếp theo sẽ là :

dir= ((pdir+3)/ 2 * 2)%8 ;

Trang 20

Chương 3:

NHIỄU VÀ LỌC NHIỄU

Trang 21

Cải thiện ảnh là làm cho ảnh có chất lượng tốt hơn theo ý đồ sử dụng Thường là ảnh thu nhận có nhiễu cần phải loại bỏ nhiễu hay ảnh không sắc nét bị

mờ hoặc cần làm tõ các chi tiết như đường biên ảnh Các toán tử không gian dùng trong kỹ thuật tăng cường ảnh được phân nhóm theo công dụng: làm trơn nhiễu, nổi biên Để làm trơn nhiễu hay tách nhiễu, người ta sử dụng các bộ lọc tuyến tính (lọc trung bình,thông thấp) hay lọc phi tuyến (trung vị,giả trung vị,lọc đồng hình) Từ bản chất của nhiễu (thường tương ứng với tần số cao) và từ cơ sở lý thuyết lọc là: bộ lọc chỉ cho tín hiệu có tần số nào đó thông qua do đó, để lọc nhiễu người ta thường dùng lọc thông thấp (theo quan điểm tần số không gian) hay lấy tổ hợp tuyến tính để san bằng (lọc trung bình).Để làm nổi cạnh (ứng với tần số cao), người ta dùng các

bộ lọc thông cao, lọc Laplace

Trước khi xem xét chi tiết các kỹ thuật áp dụng, cần phân biệt các loại nhiễu hay can thiệp trong quá trình xử lý ảnh Trên thực tế tồn tại nhiều loại nhiễu; tuy nhiên người ta thường xem xét 3 loại nhiễu chính: nhiễu cộng, nhiễu nhân và nhiễu xung:

•Nhiễu cộng:

Nhiễu cộng thường phân bố khắp ảnh Nếu gọi ảnh quan sát (ảnh thu được) là

Xqs, ảnh gốc là Xgốc, nhiễu là η, ảnh thu được có thể biểu diễn bởi:

Nhiễu xung thường gây đột biến tại một số điểm ảnh

3.1 LÀM TRƠN NHIỄU BẰNG LỌC TUYẾN: lọc trung bình và lọc dải thông thấp

Do có nhiều loại nhiễu can thiệp vào quá trình xử lý ảnh nên cần có nhiều bộ lọc thích hợp.Với nhiễu cộng và nhiễu nhân ta dùng các bộ lọc thông thấp, trung bình và lọc đồng hình (Homomorphie); với nhiễu xung ta dùng lọc trung bị, giả trung vị, lọc ngoài (Outlier)

3.1.1 Lọc trung bình không gian

Với lọc trung bình, mỗi điểm ảnh được thay thế bằng trung bình trọng số của các điểm lân cận và được định nghĩa như sau:

Nếu trong kỹ thuật lọc trên, ta dùng các trọng số như nhau, phương trình trên

sẽ trở thành:

Trang 22

với : y(m, n): ảnh đầu vào,

v(m, n): ảnh đầu ra, a(k, l) : là cửa sổ lọc

với ak,l=1/Nw và Nw là số điểm ảnh trong cửa sổ lọc W

Lọc trung bình có trọng số chính là thực hiện chập ảnh đầu vào với nhân chập H Nhân chập H trong trường hợp này có dạng:

Trong lọc trung bình, thường người ta ưu tiên cho các hướng để bảo vệ biên của ảnh khỏi bị mờ khi làm trơn ảnh Các kiểu mặt nạ được sử dụng tùy theo các trường hợp khác nhau Các bộ lọc trên là bộ lọc tuyến tính theo nghĩa là điểm ảnh ở tâm cửa số sẽ được thay bởi tổ hợp các điểm lân cận chập với mặt nạ

Giả sử đầu vào biểu diễn bởi ma trận I:

Ảnh số thu được bởi lọc trung bình Y=H ⊗ I có dạng:

Một bộ lọc trung bình không gian khác cũng hay được sử dụng Phương trình của bộ lọc đó có dạng:

Ở đây, nhân chập H có kích thuớc 2x2 và mỗi điểm ảnh kết quả có giá trị bằng trung bình cộng của nó với trung bình cộng của 4 lân cận gần nhất

Lọc trung bình trọng số là một trường hợp riêng của lọc thông thấp

Trang 23

3.1.2 Lọc thông thấp

Lọc thông thấp thường được sử dụng để làm trơn nhiễu.Về nguyên lý của bộ lọc thông thấp giống như đã trình bày trên Trong kỹ thuật này người ta hay dùng một số nhân chập có dạng sau:

Ta dễ dàng nhận thấy khi b =1, Hb chính là nhân chập Ht1 (lọc trung bình)

Để hiểu rõ hơn bản chát khử nhiễu cộng của các bộ lọc này, ta viết lại phương trình thu nhận ảnh dưới dạng:

Xqs[m,n] = Xgốc[m,n] + η[m,n] (3.5)

Trong đó η[m, n] là nhiễu cộng có phương sai σ2n Như vậy, theo cách tính của lọc trung bình ta có:

Như vậy, nhiễu cộng trong ảnh đã giảm đi Nw lần

3.2 LÀM TRƠN NHIỄU BẰNG LỌC PHI TUYẾN

Các bộ lọc phi tuyến cũng hay được dùng trong kỹ thuật tăng cường ảnh Trong kỹ thuật này, người ta dùng bộ lọc trung vị, giả trung vị, lọc ngoài Với lọc trung vị, điểm ảnh đầu vào sẽ được thay thế bởi trung vị các điểm ảnh còn lọc giả trung vị sẽ dùng trung bình cộng của 2 giá trị “trung vị” (trung bình cộng của max

Nếu y(m) = {2, 3, 8, 4, 2} và cửa sổ W=(-1, 0, 1), ảnh thu được sau lọc trung

vị sẽ là:

Trang 24

do đó:

v[0]= 2<giá trị biên>; v[1]=Trungvi(2,3,8)=3; v[2]=Trungvi(3,4,8)=4; v[3]= Trungvi(8,4,2)=4; v[4]= 2 <giá trị biên>

Tính chất của lọc trung vị:

• Lọc trung vị là loại lọc phi tuyến Điều này dẽ nhận thấy từ:

Trungvi(x(m)+y(m)) ≠ Trungvi(x(m)) + Trungvi(y(m))

• Có lợi cho việc loại bỏ các điểm ảnh hay các hàng mà vẫn bảo tòan độ phân giải

• Hiệu quả giảm khi số điểm trong cửa sổ lớn hay bằng một nửa số điểm trong cửa sổ

Điều này dễ giải thích vì trung vị là (Nw+1)/2 giá trị lớn nhất nếu Nw lẻ Lọc trung vị cho trường hợp 2 chiều coi như lọc trung vị tách được theo từng chiều

3.2.2 Lọc ngoài (Outlier Filter

Giả thiết có ngưỡng nào đó cho các mức nhiễu (có thể dựa vào lược đồ xám) Tiến hành so sánh giá trị độ xám của một điểm ảnh với trung bình số học 8 lân cận của nó Nếu sai lệch lớn hơn ngưỡng, điểm ảnh này được coi như nhiễu Trong trường hợp đó, thay thế giá trị của điểm ảnh bằng giá trị trung bình 8 lân cận vừa tính được Bộ lọc ngoài có thể diễn tả bằng công thức sau:

với α(w) là trung bình cộng các điểm trong lân cận w; δ là ngưỡng ngoài

Các cửa sổ tính toán thường chọn là 3x3 Tuy nhiên, cửa sổ có thể mở rộng đến 5x5 hay 7x7 để đảm bảo tính tương quan giữa các điểm ảnh.Vấn đề quan trọng

là xác định ngưỡng để loại nhiễu mà vẫn không làm mất thông tin của ảnh

3.3 LỌC THÔNG THẤP THÔNG CAO VÀ DẢI THÔNG

Toán tử trung bình không gian là lọc thông thấp Nếu hLP(m, n) biểu diễn bộ lọc thông thấp FIR (Finite Impulse Response) thì bộ lọc thông cao hHP(m, n) có thể được định nghĩa:

hHP(m, n) = δ(m, n) - hLP(m, n)

Như vậy,bộ lọc thông cao có thể cài đặt một cách đơn giản như trên hình 3.1

Bộ lọc dải thông có thể định nghĩa như sau:

HHP(m, n)= hL1(m, n) – hL2(m, n) với hL1 và hL2 là các bộ lọc thông thấp

Hình 3.1:Sơ đồ bộ lọc thông cao

Trang 25

Bộ lọc thông thấp thường dùng làm trơn nhiễu và nội suy ẩnh Bộ lọc thông cao dùng nhiều trong trích chọn biên và làm trơn ảnh, còn bộ lọc dải thông có hiệu quả làm nổi cạnh Về biên sẽ được trình bày kỹ trong các phần sau Tuy nhiên, dễ nhận thấy, biên là điểm có độ biến thiên nhanh về giá trị mức xám theo quan điểm

về tần số tín hiệu Như vậy, các điểm biên ứng với các thành phần tần số cao Từ đó,

có thể dùng bộ lọc thông cao để cải thiện nhiễu: nghĩa là có thể lọc các thành phần tần số thấp và giữ lại các thành phần tần số cao Vì thế, lọc thông cao thường được dùng làm trơn biên trước khi tiến thành các thao tác với biên ảnh Dưới đây là một

số mặt nạ dùng trong lọc thông cao:

Hình 3.2:Một số nhân chập trong lọc thông cao

Các nhân chập thông cao có đặc tính chung là tổng các hệ số của bộ lọc bằng

1 Nguyên nhân chính là ngăn cản sự tăng quá giới hạn của các giá trị mức xám (các giá trị điểm ảnh vẫn giữ được giá trị của nó một cách gần đúng không thay đổi quá nhiêu với giá trị thực)

Trang 26

Chương 4:

CÁC PHƯƠNG PHÁP TÌM KIẾM ẢNH DỰA VÀO NỘI DUNG

Trang 27

4.1 TÌM KIẾM DỰA VÀO MÀU SẮC

4.1.1 Màu sắc:

Sự nhận thức về màu sắc là quá trình quan trọng của con người Sự nhận thức

về màu sắc phụ thuộc vào cả tính chất vật lý của ánh sáng và quá trình xử lý của thị giác với sự góp phần rất quan trọng của kinh nghiệm Con người dùng thông tin màu sắc để phân biệt đối tượng, vật liệu, đồ ăn, vị trí và ngay cả thời gian của ngày

Với sự phát triển mạnh mẽ của các thiết bị kinh tế, máy móc xử lý màu sắc trở nên thông dụng: Chúng ta có các thiết bị như máy quay phim màu, thiết bị chiếu màu và những phần mềm xử lý ảnh màu Máy móc có thể dùng màu sắc cho những mục đích như là con người Đặc biệt, màu sắc thuận tiện bởi vì nó cung cấp phép đo lường đa dạng tại mỗi điểm ảnh đơn, có thể phân lớp,phân loại mà không cần đến những sự xử lý không gian phức tạp để đưa đến quyết định

a Một số đặc tính vật lý đặc biệt về màu sắc

Con người chỉ có khả năng nhận thức được ánh sáng có bức xạ điện từ với bước sóng trong khoảng 400 – 700 nanomet Cơ quan thị giác cảm nhận được ánh sáng là do bề mặt đối tượng phát ra ánh sáng, là kết quả của sự tương tác giữa năng lượng chiếu sáng và những phân tử của bề mặt đối tượng Một đối tượng màu xanh dương sẽ có bề mặt màu xanh dương khi chiếu ánh sáng trắng vào Nhưng đối tượng đó sẽ có màu tím khi chiếu ánh sáng đỏ vào

Việc mã hóa một màu tùy ý trong dãy hiển thị được làm bằng cách tổ hợp ba màu chính Ví dụ: Red(255,0,0), Green(0,255,0), Blue(0,0,255), Black(0,0,0) Hệ thống màu RGB là một hệ thống màu cộng vào bởi vì mỗi màu được tạo nên bằng cách cộng thêm các phần tử vào màu đen(0,0,0)

Khuôn dạng của không gian màu RGB là định dạng phổ biến nhất của ảnh

số, lý do chính là tính tương thích với màn hình hiển thị chính là màn hình vi tính Tuy nhiên không gian màu RGB có hạn chế lớn nhất là không phù hợp với cách con người cảm nhận về màu sắc Do đó không phù hợp cho việc ứng dụng vào tìm kiếm ảnh

Trang 28

Hình 4.1: Khối màu

c Hệ thống màu CMY

Hệ thống màu CMY theo mô hình in trên giấy trắng và theo khuôn mẫu trừ

từ màu trắng thay vì thêm vào từ màu đen như hệ thống màu RGB.CMY là viết tắt của Cyan-Magenta-Yellow (màu lục lam, màu đỏ tươi, màu vàng), đó là ba màu chính tương ứng với ba màu mực in Cyan hấp thu sự chiếu sáng của màu đỏ, Magenta hấp thu màu xanh lục, Yellow hấp thu màu xanh dương Do đó, tạo ra sự phản ánh tương ứng như khi in ảnh được chiếu sáng với ánh sáng trắng Hệ thống dưới dạng âm tính vì mã hóa theo dạng hấp thụ màu Có một số mã hóa như sau: trắng (0,0,0) vì không có ánh sáng trắng được hấp thụ, đen (255,255,255) vì tất cả các thành phần của màu trắng đều được hấp thụ

Hệ thống màu CMY dường như là một sự đảo ngược của hệ thống màu RGB Đặc tính của nó là sự đơn giản, ứng dụng nhiều trong thực tế Tuy nhiên khuyết điểm của nó cũng tương tự như không gian màu RGB, tức là cách mã hóa khác với cách mà con người cảm nhận về màu sắc Không thích hợp cho bài toán tìm kiếm ảnh dựa vào nội dung

d Hệ thống màu L*a*b

Mô hình L*a*b được đề cử bởi CIE cho việc lượng hóa sự khác biệt của màu sắc trong vật chiếu sáng của ánh sáng ban ngày Tuy nhiên nó có một sự chuyển đổi được ghi vào để mà tính toán cho việc thích nghi với những nguồn sáng

Đây là hệ thống màu có sự tách riêng ánh sáng và màu sắc ra riêng Do đó, cũng có khả năng lớn cho việc tìm kiếm dựa vào nội dung

e Hệ thống màu HSI: Hue-Saturation-Intensity

Trang 29

Hệ thống màu HSI mã hóa thông tin màu sắc bằng cách chia giá trị intensity I

từ hai giá trị được mã hóa thuộc về độ hội tụ của màu- hue H và saturation S

Thành phần không gian màu HSI gồm có ba phần: Hue được định nghĩa có giá trị 0-2Π , mang thông tin về màu sắc Saturation có giá trị 0-1, mang giá trị về

độ thuần khiết của thành phần Hue Intensity (Value) mang thông tin về độ sáng của điểm ảnh.Ta có thể hình dung không gian màu HSI như là vật hình nón.Với trục chính biểu thị cường độ sáng Intensity Khoảng cách đến trục biểu thị độ tập chung Saturation Góc xung quanh trục biểu thị cho sắc màu Hue

Đôi khi, hệ thống màu HSI được coi như là hệ thống màu HSV dùng Value thay vì Intensity

Hệ thống màu HSI thì thích hợp hơn với một số thiết kế đồ họa bởi vì nó cung cấp sự điều khiển trực tiếp đến ánh sáng và hue Hệ thống màu HIS cũng hỗ trợ tốt hơn cho những thuật toán xử lý ảnh vì sự tiêu chuẩn hóa về ánh sáng và tập chung vào hai tham số về độ hội tụ màu, và cường độ màu

Hình 4.2: Khối nón màu minh họa hệ thống màu HIS

Hệ thống màu HSI có sự phân chia rõ rệt giữa ánh sáng và màu sắc Do đó có khả năng rất lớn được áp dụng cho việc tính đặc trưng và so sánh sự giống nhau về màu sắc của hai ảnh Do đó nó rất thích hợp cho việc tìm kiếm ảnh dựa vào màu

Sự giống và khác nhau giữa hai ảnh về mặt màu sắc đối với mắt người chỉ mang ý nghĩa tương đối Do đó khi áp dụng vào bài toán này trên máy tính thì ta cũng giả lập sự tương đối này

Phương pháp chính của việc tìm kiếm theo màu sắc là dùng lượt đồ màu để làm đặc trưng cho từng ảnh Do những đặc điểm riêng của mô hình màu HIS và đặc trưng của việc tìm kiếm nên tính lượt đồ màu cũng được dùng một mô mình rất đặc biệt để phù hợp cho những đặc điểm riêng này

Trang 30

4.1.2 Tìm kiếm ảnh dựa vào màu sắc

Phương pháp phổ biến để tìm kiếm ảnh trong một tập những ảnh hỗn tạp cho trước là dựa vào lượt đồ màu của chúng Đây là cách làm khá đơn giản, tốc độ tìm kiếm tương đối nhanh nhưng khuyết điểm là kết quả tìm kiếm lại có độ chính xác không cao Nhưng đây có thể được xem như là bước lọc đầu tiên cho những tìm kiếm sau Muốn được kết quả chính xác cao đòi hỏi sự kết hợp đồng thời với vân (texture) và hình dáng (shape)

Cho đến nay, để giải quyết vấn đề về màu sắc, cách tiếp cận chính vẫn là dựa vào lượt đồ màu

Một số tính chất cần quan tâm của lượt đồ màu đối với vấn đề truy tìm ảnh:

- Việc tính lượt đồ màu của ảnh diễn ra rất nhanh chóng trong ảnh chỉ qua một lần duyệt qua toàn bộ ảnh

- Lượt đồ màu tương đối bất biến đối với phép tịnh tiến, xoay ảnh, và nhất là

sự kéo nhỏ, kéo giãn, thay đổi kích thước của ảnh

- Lượt đồ màu của một ảnh màu có thể là một cách miêu tả rất có ý nghĩa cho việc truy tìm ảnh hay nhận dạng đối tượng trong ảnh

-

Lượt đồ màu thông thường RGB:

Đối với ảnh 256 màu, lượt đồ màu của ảnh tương đương với lượt đồ màu của ảnh xám

Đối với ảnh 24 bit màu, lượt đồ màu miêu tả khả năng kết nối về cường độ của ba kênh màu R, G, B Lượt đồ màu này được định nghĩa như sau:

hR,G,B[r, g, b] = N*Prob{R=r, G=g, B=b}

trong đó N là số lượng điểm có trong ảnh

Lượt đồ màu ở dạng này được tính bằng cách rời rạc hoá từng màu trong ảnh, sau đó là đếm số điểm ảnh của mỗi màu

Khi mà số lượng màu là có hạn, để thuận tiện hơn, người ta thường chuyển đổi ba kênh màu thành một biến giá trị màu duy nhất Cho một ảnh RGB, một kiểu chuyển đổi thường được sử dụng là:

m= r+Nrg+NrNgb trong đó Nr,Ng là số lượng điển của màu đỏ và màu xanh lục

Điều này mang lại một lượt đồ đơn duy nhất như sau:

h[m] = N*Prob{M=m}

Trang 31

Một cách khác để tính lượt đồ màu của ảnh RGB là ta phân ra thành 3 lượt đồ riêng biệt hR[], hG[], hB[] Khi đó, mỗi lượt đồ được tính bằng cách đếm kênh màu tương ứng trong mỗi điểm ảnh

Lượt đồ màu HSI:

Mô hình màu HSI có những ưu điểm lớn cho việc tìm kiếm hình ảnh dựa vào nội dung và nhất là trong công việc tìm kiếm dựa vào màu sắc Nhưng những ảnh màu thông thường được lưu trữ ở dạng kỹ thuật số trong máy tính thường theo chuẩn RGB, do đó để có được ảnh màu HSI ta phải qua công đoạn chuyển đổi Chuyển từ hệ màu RGB sang hệ màu HSI là một thuật giải có rất nhiều trong hầu hết những sách về xử lý ảnh cổ điển

Gọi R,G,B là giá trị nhập của RGB với giá trị trong khoảng

[0,1] hay [0,255]

I : Giá trị xuất của cường độ intensity [0,1]

S : Giá trị xuất của độ bảo hòa saturation [0,1]

H : Giá trị xuất của màu sắc hue [0,2Π]

R,G,B,H,I,S: Tất cả đều là những giá trị số thực

Procedure RGB_to_HSI(in R,G,B; out H,S,I)

If (R=I) then H:=(Π/3)*(G-R) /Diff;

Else if (G=I) then H:=(2*Π/3)+Π/3*(B-R)/diff;