Trong đề tài này, với mục đích nghiên cứu xây dựng hệ thống điều khiển vào ra cho tòa nhà thông minh dựa trên việc nhận dạng khuôn mặt thì đòi hỏi ta phải có nắm vững lý thuyết về xử lý ảnh cũng như các thuật toán về nhận dạng khuôn mặt. Trong chương này, tôi sẽ giới thiệu cơ sở lý thuyết cần có để thực hiện đề tài này.
2.2.1 Ảnh số
Một ảnh có thể được định nghĩa là một hàm hai chiều f x y , trong đó x y, là tọa độ không gian (mặt phẳng). Giá trị của f tại điểm x y, được gọi là độ sáng của ảnh tại điểm đó. Với ảnh màu, thì f là vector mà mỗi thành phần của nó sẽ chỉ thị độ sáng của ảnh tại điểm đó tương ứng với dải màu [12].
Khi x y, và độ sáng của ảnh có giá trị hữu hạn và rời rạc thì ảnh đó được gọi là ảnh số và giá trị độ sáng lúc này được gọi là mức xám (grey level), còn phần tử tại tọa độ x y, được gọi là điểm ảnh (pixel). Như vậy, một ảnh số có thể được biểu diễn dưới dạng ma trận điểm ảnh như sau:
0,0 0,1 0, 1 1,0 1,1 0, 1 , 1,0 1,1 1, 1 f f f N f f f N f x y f N f N f N N (2.1)
Trang 18
2.2.2 Điểm ảnh
Hình 2.8. Ảnh xám với những ô vuông nhỏ đại diện cho một điểm ảnh
Điểm ảnh (pixel) là một phần tử của ảnh tại toạ độ (x, y) với mức xám hoặc màu nhất định. Kích thước và khoảng cách giữa các điểm ảnh đó được chọn thích hợp sao cho mắt người cảm nhận sự liên tục về không gian và mức xám (hoặc màu) của ảnh số gần với ảnh thật. Hình 2.8 mô tả một ảnh số (ảnh gray) có kích thước 48x48 điểm ảnh.
2.2.3 Mức xám của ảnh
Mức xám của điểm ảnh là cường độ sáng của nó được gán bằng giá trị số tại điểm đó. Với ảnh xám (gray image) thì giá trị mức xám thông thường: 16, 32, 64, 128, 256 (Mức 256 là mức thông dụng). Khi đó, mức xám tại điểm ảnh sẽ có giá trị từ 0 (màu đen) đến 255 (màu trắng).
Ảnh nhị phân: mức xám tại mỗi điểm ảnh của ảnh nhị phân chỉ có giá trị là 0 hoặc 1 (đen hoặc trắng).
Ảnh màu: mức xám tại mỗi điểm ảnh trong ảnh màu sẽ được biểu diễn bằng hàm của các màu (BGR đối với máy tính và BGRA đối với điện thoại). Trong khuôn khổ lý thuyết ba màu (Red, Blue, Green) để tạo nên thế giới màu, người ta thường dùng 3 byte để mô tả mức màu, khi đó các giá trị màu: 28*3 =224 ≈ 16,7 triệu màu.
Trang 19
Hình 2.9. Biểu diễn giá trị mức xám tại mỗi điểm ảnh từ 0-255 (ảnh gray)
2.2.4 Histogram
Histogram là một dạng biểu đồ biểu thị sự phân bố mức xám của ảnh, tức là biểu diễn mối quan hệ giữa số điểm ảnh với giá trị mức xám trong ảnh.
Hình 2.10. Biểu đồ histogram của ảnh xám
2.2.5 Cân bằng histogram
Cân bằng histogram là một phương pháp dùng để cải thiện độ tương phản của ảnh, làm cho ảnh trông được rõ ràng hơn. Với việc nhận dạng khuôn mặt, thì điều đáng quan tâm là khuôn mặt thu thập phải rõ ràng, khi đó việc nhận dạng sẽ được tốt nhất. Như Hình 2.10, ta có thể thấy số lượng các điểm ảnh dường như chỉ tập trung ở giữa trong dải mức xám. Điều này làm cho ảnh trở nên tối hơn, do sự sai lệch về mức xám trong các điểm ảnh
Trang 20
thấp, tức là làm cho mắt người không thấy rõ sự khác nhau về độ sáng giữa các điểm ảnh. Việc cân bằng histogram là việc dàn trải số lượng điểm ảnh đều hơn trong dải mức xám.
Hình 2.11. Sự khác biệt giữa trước và sau khi cân bằng histogram
Các vòng màu xanh lá ở Hình 2.11c cho thấy số lượng điểm ảnh ở vùng này ít hơn. Sau khi áp dụng cân bằng histogram, ta nhận được một biểu đồ như Hình 2.11d. Kết quả là khuôn mặt ở Hình 2.11b trông rõ hơn Hình 2.11a.
Cân bằng histogram là việc ánh xạ phân phối của biểu đồ histogram này sang một phân phối khác mà ở đó các giá trị về mức xám được phân phối đều và rộng hơn.
Để thực hiện cân bằng hiệu quả, hàm ánh xạ phải là hàm phân bố tích lũy (CDF). Với histogramH i thì hàm phân bố tích lũy của nó sẽ là:
0 j i
H i H j
Trang 21
Tuy nhiên, để sử dụng hàm này như hàm ánh xạ cho việc cân bằng, ta phải chuẩn hóa H i để giá trị lớn nhất của nó là 255 (hoặc tương ứng với giá trị mức xám tối đa của ảnh). Hàm ánh xạ CDF có thể được biểu diễn như Hình 2.12:
Hình 2.12. Biểu đồ hàm phân bố tích lũy CDF
Cuối cùng, để cân bằng histogram, ta thực hiện một thủ tục ánh xạ đơn giản như Hình 2.13 [13] để thu được các giá trị mức xám của ảnh đã được cân bằng.
Trang 22
2.3 Biến đổi hình học ảnh
Trong quá trình thu thập dữ liệu khuôn mặt, ta phải tiến hành xử lý sao cho khi huấn luyện các khuôn mặt phải có kích thước giống nhau, và các điểm trên khuôn mặt ở ảnh trước phải được cân chỉnh sao cho tương xứng với các điểm trên khuôn mặt ở ảnh tiếp theo, khi đó việc huấn luyện sẽ được tốt hơn. Để làm điều này, ta phải thực hiện các phép biến đổi hình học cho khuôn mặt. Các phép biến đổi đơn giản trong mặt phẳng 2D được minh họa như trong Hình 2.14.
2.3.1 Dịch chuyển ảnh (Translation)
Phép dịch chuyển trong mặt phẳng có thể được viết dưới dạng công thức
x x t hoặc:
x I t x (2.3)
Ilà ma trận đơn vị 2 2 hay biểu thức (2.3) còn được viết dưới dạng:
0 1T
I t x x
(2.4)
Trong đó 0 là vector không. Bằng việc sử dụng ma trận 2 3 ta sẽ có biểu thức ngắn gọn hơn. Nhưng khi sử dụng ma trận 3 3 (ma trận này có thể lấy từ ma trận 2 3 và thêm vào một hàng 0 1 T ) làm cho nó có thể chuyển đổi bằng cách sử dụng phép nhân ma trận. Chú ý là trong bất kỳ biểu thức nào mà ở đó vector đã được tăng cường như x xuất hiện ở cả 2 phía, thì nó luôn luôn có thể được thay thế bằng vector đồng nhất x [14].
Trang 23
Hình 2.14. Các phép biến đổi 2D cơ bản
2.3.2 Dịch chuyển và xoay ảnh
Phép biến đổi này còn được gọi là phép biến đổi Euclide 2D (do khoảng cách Euclide của ảnh được bảo tồn). Nó có thể được viết bằng công thức
x Rx t hay:
x R t x (2.5)
Trong đó cos sin
sin cos R
là một ma trận xoay trực giao với RRT Ivà 1
R
2.3.3 Xoay tỉ lệ
Còn được gọi là biến đổi tương tự, sự biến đổi này có thể được thể hiện bởi công thức x sRx t với s là hệ số tỷ lệ tùy ý. Nó cũng có thể được viết dưới dạng: x y a b t x sR t x b a t x (2.6)
Trong đó không nhất thiết a2b21. Sự biến đổi tương tự này giữ nguyên các góc giữa các đường thẳng.
Trang 24