Phương pháp xử lý hình thái

Hai phương pháp PCA và LDA cho phép phân tích dựa trên các đặc điểm mang tính thống kê của ảnh. Tuy nhiên, các phương pháp này chưa xét đến những đặc điểm về hình thái của mặt người.

Xử lý ảnh về hình thái là một phép xử lý trong đó dạng không gian hoặc cấu trúc của các đối tượng trong ảnh được chỉnh sửa. Phép dãn ảnh và phép co ảnh là hai thao tác xử lý hình thái cơ bản. Với phép dãn ảnh, một đối tượng sẽ nổi đều lên trong không gian, còn với phép co ảnh đối tượng sẽ co đều xuống. Trong các phần sau, các kỹ thuật xử lý hình thái trước hết sẽ được trình bày cho các ảnh nhị phân. Sau đó chúng sẽđược mở rộng đối với ảnh đa

Các thao tác xử lý hình thái ảnh nhị phân dựa trên các quan hệ về mặt hình học hay là sự liên thông của các điểm ảnh được cho là thuộc cùng một lớp. Trong ảnh nhị phân ở hình 1.11(a), vòng gồm các điểm ảnh đen, hình thành bởi sự liên thông của các điểm ảnh, phân ảnh ra thành ba phân đoạn: các điểm ảnh trắng ở ngoài vòng, các điểm ảnh trắng ở trong vòng và các

điểm ảnh đen của bản thân vòng. Các điểm ảnh trong mỗi phân đoạn được gọi là liên thông với nhau. Khái niệm liên thông này rất dễ hiểu đối với hình

1.11(a), nhưng lại trở nên nhập nhằng khi xét đến hình 1.11(b). Liệu các điểm

ảnh đen có còn tạo nên một vòng kín, hay chúng tạo thành bốn đoạn thẳng rời nhau? Câu trả lời tùy thuộc vào cách định nghĩa sự liên thông.

Hình 1.11. Sự liên thông Xét mẫu điểm ảnh lân cận sau:

trong đó một điểm ảnh có giá trị nhị phân F(j,k) = X, với X = 0 (trắng) hoặc

X = 1 (đen) được bao quanh bởi tám điểm lân cận gần nhất X0, .., X7. Có một cách khác để gán nhãn cho các điểm lân cận này theo hướng la bàn: bắc (B), tây bắc (TB),…

Điểm ảnh X được gọi là bốn-liên thông nếu nó có giá trị 1 và nếu một trong các lân cận đông, tây, nam hay bắc có giá trị 1. Điểm ảnh Xđược gọi là tám-liên thông nếu nó có giá trị 1 và một trong tám lân cận đông, đông bắc, ... có giá trị 1.

- Biến đổi trúng-trượt (hit-or-miss)

Hai thao tác xử lý hình thái cơ bản, dãn ảnh và co ảnh, cùng với nhiều biến thể có thểđược định nghĩa và cài đặt bằng một biến đổi trúng-trượt. Một mặt nạ kích thước lẻ, thường là 33, được quét qua một ảnh nhị phân. Nếu các mẫu giá trị nhị phân của mặt nạ phù hợp với trạng thái của các điểm ảnh

dưới mặt nạ (trúng), điểm ảnh tương ứng với điểm ảnh trung tâm của mặt nạ

sẽ được đặt về một trạng thái nhị phân mong muốn nào đó. Với một mẫu không phù hợp (trượt), điểm ảnh đó sẽ được đặt về trạng thái nhị phân đối lập. Ví dụ, để thực hiện việc loại bỏ nhiễu nhị phân đơn giản, nếu mẫu 33

độc lập sau:

0 0 0

0 1 0

0 0 0

được tìm thấy, điểm ảnh trung tâm sẽ được đặt về 0; trái lại, điểm ảnh trung tâm sẽ được đặt theo trạng thái của điểm ảnh trung tâm của mặt nạ. Trong những thuật toán xử lý hình thái phức tạp hơn, một sốlượng lớn gồm 29 = 512 mẫu mặt nạ khả dĩ có thể gây ra trúng.

Thông thường có thể thiết lập các quan hệ logic lân cận đơn giản để định nghĩa các điều kiện của trúng. Trong ví dụ loại bỏ pixel độc lập, việc định nghĩa công thức cho điểm ảnh đầu ra G(j,k) trở thành:

( , ) = ∩( ∪ ∪. .∪ ) (1.13) trong đó  là toán tử giao (AND logic) và  là toán tử hợp (OR logic).

- Dãn ảnh tám-lân cận

Xác lập giá trị của một điểm ảnh là đen nếu ít nhất một điểm ảnh lân cận tám-liên thông là đen.

( , ) = ∪ ∪. .∪ (1.14) Định nghĩa trúng-trượt này của phép dãn ảnh là một trường hợp đặc biệt của phép dãn ảnh tổng quát sẽđược giới thiệu ở mục sau. Phép dãn ảnh có thể được áp dụng một cách đệ quy. Với mỗi lần lặp, các đối tượng sẽ nổi lên bằng một vòng có độ rộng đơn điểm ảnh của các điểm ảnh bên ngoài. Hình 1.12 minh họa phép dãn ảnh cho một và ba lần lặp của một ảnh nhị phân. Trong ví dụ này, các điểm ảnh gốc được ghi lại là đen, các điểm ảnh nền là trắng và các điểm ảnh bổ sung là xám.

- Phép co ảnh tám-lân cận

Loại bỏ một điểm ảnh đen nếu ít nhất một điểm ảnh lân cận tám-liên thông là trắng.

( , ) = ∩ ∩. .∩ (1.15)

Phép co ảnh tổng quát sẽ được trình bày ở mục sau. Ứng dụng đệ quy của phép co ảnh cuối cùng sẽ loại bỏ tất cảcác điểm ảnh đen. Hình 1.13 minh họa kết quả của một và ba lần lặp thực hiện phép co ảnh. Các điểm ảnh bị xóa

được biểu diễn là màu xám. Kết quả cho thấy sau ba lần lặp, vòng tròn đã bị

Hình 1.13. Phép co ảnh nhị phân

- Phép dãn ảnh và co ảnh tổng quát

Thao tác dãn ảnh và co ảnh, như định nghĩa ở trên theo các biến đổi trúng-trượt, còn hạn chếđối với việc chỉnh sửa đối tượng bằng một vòng tròn đơn các điểm ảnh trong mỗi lần lặp của quá trình xử lý. Các thao tác này có thểđược tổng quát hóa.

Trước khi đi sâu hơn, ta tìm hiểu một số khái niệm cơ bản của đại số ảnh nhị phân, là cơ sở cho việc định nghĩa các phép dãn ảnh và co ảnh tổng quát. Xét một hàm ảnh gốc giá trị nhị phân F(j,k). Một điểm ảnh tại tọa độ (j,k) là một thành phần của F(j,k), ký hiệu là , nếu và chỉ nếu nó có giá trị 1. Một ảnh nhị phân

B(j,k) là một tập con của một ảnh nhị phân A(j,k), ký hiệu là B(j,k)  A(j,k), nếu với mỗi giá trị 1 của A(j,k), B(j,k) cũng có giá trị 1. Phần bù ( , ) của

điểm ảnh tương ứng trong F(j,k). Một ảnh lật ( , ) là một ảnh đã được lật từ

trái sang phải và từ trên xuống dưới.

Việc dịch một ảnh, được xác định bằng hàm:

( , ) = , { ( , )} (1.16)

chính là việc dịch toàn bộ F(j,k) đi r hàng và c cột, trong đó –R rR và –C

cC.

+ Phép dãn ảnh tổng quát

Phép dãn ảnh tổng quát được biểu diễn theo ký hiệu như sau:

( , ) = ( , ) ( , ) (1.17)

trong đó F(j,k) với 1 j, k N là một ảnh nhị phân và H(j,k) với 1 j, k L,

L là một số nguyên lẻ, là một mảng nhị phân được gọi là phần tử cấu trúc. Để

dễ ký hiệu, F(j,k) và H(j,k) được giả sử là các mảng vuông. Phép dãn ảnh tổng quát (phép ) có thểđược định nghĩa một cách toán học và được cài đặt theo nhiều cách. Định nghĩa theo phép cộng Minkowski là:

( , ) =∪∪ , ( , )∈

{ ( , )} (1.18)

Có nghĩa là G(j,k) được hình thành bởi phép hợp tất cả các phép dịch của

F(j,k) với khoảng cách dịch là chỉ số hàng và cột của các điểm ảnh của H(j,k) có giá trị logic 1. Công thức (1.18) trả về kết quả là một mảng G(j,k) kích

thước MM được sắp trùng với góc trái trên của mảng đầu vào F(j,k). Mảng

đầu ra có kích thước M = N+L1, trong đó L là kích thước của phần tử cấu trúc. F(j,k) phải được dịch về bên phải theo đường chéo chính một khoảng Q

= (L1)/2. Thao tác này xác định những điểm ảnh nào đã được bổ sung do kết quả của phép dãn ảnh tổng quát.

Một định nghĩa khác của phép dãn ảnh tổng quát được dựa trên việc quét và xử lý F(j,k) bằng phần tử cấu trúc H(j,k). Với phương pháp này, phép dãn

ảnh tổng quát có công thức như sau:

( , ) = ∪∪ ( , )∩ ( − + 1, − + 1) (1.19)

Công thức (1.19) trả về một mảng ra được sắp trùng với góc trái trên của mảng vào. Trong các hệ thống xử lý ảnh, để thuận tiện hơn ta lấy điểm trung tâm của các ảnh vào và ra và hạn chếcho kích thước của chúng là giống nhau trên các chiều. Việc này có thể làm được bằng cách sửa lại công thức (1.19)

như sau:

( , ) = ∪∪ ( , )∩ ( − + , − + ) (1.20) trong đó S = (L+1)/2.

Định nghĩa theo phép cộng Minkowski của phép dãn ảnh tổng quát trong công thức (1.18) có thể được sửa lại bằng cách thực hiện phép dịch về phía tâm của phần tử cấu trúc. Trong trường hợp đặc biệt với L = 3, công thức (1.20) được biểu diễn một cách tường minh như sau:

( , ) = [ (3,3)∩ ( −1, −1)]∪[ (3,2)∩ ( −1, )]∪[ (3,1)∩ ( −1, + 1)]

∪[ (2,3)∩ ( , −1)]∪[ (2,2)∩ ( , )]∪[ (2,1)∩ ( , + 1)] (1.21)

∪[ (1,3)∩ ( + 1, −1)]∪[ (1,2)∩ ( + 1, )]∪[ (1,1)∩ ( + 1, + 1)]

Nếu H(j,k) = 1 với 1 j, k3, khi đó G(j,k) như được tính ở công thức (1.21), sẽ cho kết quả giống với phép dãn ảnh trúng-trượt, như đã định nghĩa ở công thức (1.14).

+ Phép co ảnh tổng quát

Phép co ảnh tổng quát được biểu diễn theo ký hiệu như sau:

( , ) = ( , ) ( , ) (1.22) ở đây H(j,k) cũng là phần tử cấu trúc kích thước lẻ LL. Bằng phép cộng Minkowski, phép co ảnh tổng quát (phép ) được định nghĩa là:

( , ) =∩∩ , ( , )∈

{ ( , )} (1.23)

Ý nghĩa của quan hệ này là phép co ảnh của F(j,k) dùng H(j,k) là phép giao của tất cả các phép dịch của F(j,k) trong đó khoảng cách dịch chuyển là chỉ số hàng và cột của các điểm ảnh của H(j,k) có giá trị 1.

Ngoài ra còn có thểđịnh nghĩa theo công thức khác:

( , ) = ∩∩ , ( , )∈

{ ( , )} (1.24)

trong đó các phép dịch của F(j,k) theo phép lật ( , ) của phần tử cấu trúc chứ không phải là H(j,k).

Sử dụng định nghĩa trên, G(j,k) có giá trị 1 khi và chỉ khi các giá trị 1 của

H(j,k) tạo nên một tập con của mẫu tương ứng với các giá trị 1 trong F(j,k) khi

H(j,k) quét qua F(j,k). Lưu ý rằng các giá trị 0 của H(j,k) không khớp với các giá trị 0 của F(j,k). Với định nghĩa ở công thức (1.23), các phát biểu trên vẫn còn đúng khi F(j,k) được quét và xử lý bằng phép lật của phần tử cấu trúc. Hình 1.15 biểu diễn việc so sánh kết quả của hai định nghĩa phép co ảnh. Rõ ràng, các kết quả là không giống nhau.

Phép co ảnh tổng quát theo công thức (1.23)

Phép co ảnh tổng quát theo công thức (1.24)

Hình 1.15. So sánh các kết quả của hai phép co ảnh

Phép co ảnh tổng quát đi cặp với phép dãn ảnh ở công thức (1.20) là:

( , ) =∩∩ ( , )∪ ( − + , − + ) (1.25)

trong đó S = (L+1)/2. Trong trường hợp đặc biệt với L = 3, công thức (1.25) trở thành:

( , ) = [ (3,3)∪ ( −1, −1)]∩[ (3,2)∪ ( −1, )]∩[ (3,1)∪ ( −1, + 1)]

∩[ (2,3)∪ ( , −1)]∩[ (2,2)∪ ( , )]∩[(2,1)∪ ( , + 1)] (1.26)

∩[ (1,3)∪ ( + 1, −1)]∩[ (1,2)∪ ( + 1, )]∩[ (1,1)∪ ( + 1, + 1)]

Nếu H(j,k) = 1 với 1  j, k 3, công thức (1.26) cho kết quả giống với phép co ảnh tám-lân cận trúng-trượt được định nghĩa bởi công thức (1.15).

- Dãn và co ảnh đa mức xám

Các toán tử xử lý ảnh nhị phân trên có thể mở rộng ra đối với ảnh đa mức xám. Xét một ảnh đa mức xám F(j,k) được lượng tử hóa với một thang mức

xám nào đó. Khi đó, phép dãn ảnh đối với ảnh đa mức xám được định nghĩa như sau:

( , ) = { ( , ), ( , + 1), ( −1, + 1), . . , ( + 1, + 1)} (1.27)

trong đó MAX{S1,..,S9} trả về điểm ảnh có giá trị lớn nhất trong chín điểm ảnh

của lân cận 3×3. Nếu F(j,k) là giá trị nhị phân, công thức (1.27) trả về giá trị đúng như phép dãn ảnh ảnh nhị phân ở công thức (1.14).

Tương tự, phép co ảnh đối với ảnh đa mức xám được định nghĩa như sau:

( , ) = { ( , ), ( , + 1), ( −1, + 1), . . , ( + 1, + 1)} (1.28)

với MIN{S1,..,S9} trả về điểm ảnh có giá trị nhỏ nhất trong chín điểm ảnh của

lân cận 3×3. Nếu F(j,k) là giá trị nhị phân, công thức (1.28) trả về giá trị đúng như phép co ảnh ảnh nhị phân ở công thức (1.15).

Hình 1.16 là một số ảnh mặt người đã được biến đổi qua phép xử lý hình thái.

Chương 2: Mạng nơron

Chương 1 đã giới thiệu khái quát về xử lý ảnh và ba phương pháp trích

chọn đặc trưng của ảnh. Nhiệm vụ tiếp theo của hệ thống nhận dạng là dựa trên những đặc trưng đã được trích chọn đó, học được cách phân loại ảnh

tương ứng với từng người. Trong các bộ phân loại hiện nay, nổi trội lên và

được quan tâm nhiều đó là mạng nơron nhân tạo. Các mạng nơron nhân tạo có thể được coi như những “mô hình tính toán” với những đặc tính như khả năng thích nghi hay khả năng học, tổng quát hóa, phân cụm hay tổ chức dữ

liệu. Thao tác đó có thể được xử lý song song. Trong luận văn này, mạng

nơron với thuật toán học lan truyền ngược được sử dụng vì mạng này đã tỏ ra khá hiệu quảđối với bài toán nhận dạng mặt người.

Phương pháp phân tách tuyến tính

Mô hình mạng nơ-ron nhân tạo