MỤC LỤC
Theo Ming-Hsuan Yang [1], có thể phân loại thành bốn hướng tiếp cận chính: dựa trên tri thức (knowledge-based), đặc trưng bất biến (feature invariant), đối sánh mẫu (template matching), và dựa vào diện mạo (appearance-based) phương pháp này thường dùng một mô hình máy học nên còn được gọi là phương pháp dựa trên máy học (machine learning-based). Hướng tiếp cận dựa trên các đặc trưng bất biến: Hướng tiếp cận này cố gắng tìm kiếm những đặc trưng độc lập – những đặc trưng không phụ thuộc vào tư thế khuôn mặt, điều kiện chiếu sáng, và các khó khăn khác. Tuy nhiên, trong phần cuối, chúng tôi sẽ thảo luận chi tiết hơn khả năng sử dụng đặc trưng này để nhận dạng khuôn mặt cũng như việc mở rộng đặc trưng này cho bài toán rộng hơn: phân loại đối tượng dựa theo cấu trúc.
Do bộ lọc Laplacian-of-Gaussian chỉ có thể sử dụng để phát hiện thông tin cạnh qua các điểm biên (zero crossing), nên nó không thể dùng cho việc phát hiện cỏc vựng lồi và lừm khi cỏc thụng tin cạnh biờn bị đứt nột. Chúng ta để ý rằng, bằng cách thay kích thước S của vùng đang xét, hay nói cách khác là kích thước của lọc, chúng ta cú thể dũ tỡm cỏc vựng lồi và lừm ứng với nhiều kớch cở, mức độ khỏc nhau. Chúng ta dễ dàng nhận thấy rằng các công thức tính lọc đều tương tự với công thức của một Laplacian, nhưng có một chút khác biệt là sử dụng vùng thay vì từng điểm đơn.
Trong công thức 3.5 và 3.6, hệ số đứng trước hàm sum(R) có được là do tỷ lệ giữa diện tích vùng ở tâm (vùng đang xét) và tổng diện tích của vùng lân cận. Cỏc lọc được giới thiệu trong phần trước sẽ được sử dụng với nhiều kích thước khác nhau vì vậy chúng sẽ dò tìm được các vùng lồi lừm ở nhiều mức khỏc nhau. Tại mỗi mức, trước tiờn chỳng ta ỏp dụng một lọc Gaussian với kích thước σi 2, sau đó chúng ta sử dụng 3 bộ lọc hiệu như hình 3.4 với kích thước S = σi.
Trong thực tế, cú nhiều vựng lồi lừm khỏc cũng được dũ tỡm được, tuy nhiờn trong hỡnh 3.5, chỳng tụi chỉ tập trung vào cỏc vựng lồi lừm dũ tỡm được trong vựng ảnh quan tõm – vựng ảnh khuụn mặt. Trong phần tiếp theo, chúng tôi sẽ trình bày ngắn gọn thuật toán của chúng tôi nhằm tối ưu những hàm tính toán phức tạp sử dụng trong việc tính các giá trị lọc trong hình 3.4. Phương pháp này cải tiến đáng kể tốc độ tính toán bởi vì chúng ta chỉ cần tính một lần ảnh tích phân và sử dụng nó trong tất cả các cửa sổ hình chữ nhật con và đặc biệt độ phức tạp tính toán không phụ thuộc vào kích thước của vùng đang xét.
Nếu tâm của nút con (tâm của hình vuông hay hình chữ nhật) rơi vào vùng nào trong hình 3.10 thì chỉ số của vùng đó chính là giá trị vị trí tương đối của nút con trong nút cha. Để lưu trữ thông tin này trên cây chúng tôi sử dụng phương pháp phân tích thành phần chính (Principal Component Analysis – PCA) để giảm số chiều của ảnh mức xám trên vùng ảnh của nút đó. Các phần thảo luận về khả năng mở rộng của mô hình này cho bài toán nhận dạng khuôn mặt và phân loại đối tượng sẽ được trình bài trong chương kết luận và hướng phát triển.
(e) Ảnh chụp phức tạp do biểu cảm (f) Ảnh chụp từ tranh họa Hình 4.1 Một số ảnh trong tập ảnh Weber.
Trong mô hình này, trước tiên từ ảnh đầu vào ta dùng phương pháp rút trích lồi lừm ta sẽ nhận được một danh sỏch cỏc cõy lồi lừm. Ứng với mỗi cõy ta dựa vào tập cây chuẩn để kiểm tra xem liệu đây có phải là cây biểu diễn “khuôn mặt” hay không. Dựa trên tập cây chuẩn, một cây bất kỳ được đánh giá có khả năng là khuôn mặt hay không dựa trên trung bình khoảng cách của cây đang xét đến tất cả các cây trong tập cây chuẩn.
Ngoài cách tính trung bình khoảng cách, ta có thể đánh giá ứng viên thông qua việc tính trung bình độ tương đồng của cây ứng viên với tập cây chuẩn. Tương tự như trường hợp trên, giá trị S(t) sẽ được dùng để đánh xem cây t có khả năng là khuôn mặt hay không. Các kết quả thu được cho thấy rằng có một vùng khuôn mặt được phát hiện có một phần chồng lắp lên nhau.
Có thể phát hiện ra nhiều cây ứng viên được đánh giá là “khuôn mặt”, nhưng thật sự chúng là sự chồng lắp của nhiều cây lên một vị trí. Nếu hai ứng viên khuôn mặt có vùng diện tích bị chồng lắp lên nhau quá một phần ba diện tích của nó, chúng được xem là các mặt trùng và được liên kết lại thành một vùng lớn hơn. Tuy nhiên, do sai số của kích thước của cây và kích thước khuôn mặt, nên chúng tôi luôn có được vùng khuôn mặt phát hiện được lớn hơn khuôn mặt thực tế.
Chỳng tụi chỉ ỏp dụng thuật toỏn dũ tỡm đặc trưng lồi lừm trờn vựng bao khuụn mặt, sau đú liờn kết cỏc vựng lồi lừm cựng loại lại với nhau.
(a) các vùng khuôn mặt chồng lấp (b) sau khi gom vùng Hình 4.4 Một ví dụ về giảm trùng lắp. Chỳng tụi ỏp dụng tiếp kỹ thuật xỏc định vựng lồi lừm với mức nhỏ hơn nhằm để phỏt hiện chớnh xỏc vựng. Từ tập học, gồm các cây được đánh nhãn “khuôn mặt”, ta có thể biểu diễn nó trong một không gian hữu hạn chiều, là các điểm (xem hình 4.6).
Phương pháp gần giống với phương pháp k người láng giềng gần nhất nhưng có thay đổi cho phù hợp với bài toán phân lớp này nhằm tối ưu tốc độ. Vấn đề ở đây là xác định số k hợp lý để sao cho k cây trung tâm đó đủ tổng quát để đại diện cho cấu trúc khuôn mặt. Sau đó, trên cơ sở tập cây mẫu này, một cây mới được so sánh và tính trung bình khoảng cách đến tất cả các cây trong tập mẫu.
Như vậy, xét về mặt toán học đây việc tính khoảng cách trung bình từ điểm đang xét so với điểm chuẩn tương ứng với việc xét vị trí tương đối của nó so với cả nhóm điểm chuẩn. Nếu điểm nằm hoàn toàn bên trong cụm, chắc chắc khoảng cách trung bình sẽ rất nhỏ và sẽ được xếp vào lớp “khuôn mặt”. Ngược lại, nếu điểm đang xét nằm bên ngoài cụm, khoảng cách trung bình sẽ tăng lên và khả năng được xếp vào lớp “khuôn mặt” là rất thấp.
Phù hợp với cách học thích ứng, cho các đối tượng được học trước và cho cả đối tượng chưa biết được học tăng cường trong quá trình sống của robot.
Ngoài ra, chương trình còn được thử nghiệm trên tập dữ liệu không phải là khuôn mặt, tập dữ liệu loại đối tượng [35]. Tập dữ liệu này gồm các hình ảnh nhà, xe gắn máy, và máy bay. Các kết quả cho thấy việc sử dụng đặc trưng cùng với thông tin về độ sáng sẽ cho kết quả tốt hơn.
Và việc xây dựng các cây 3 lớp sẽ tăng độ chính xác đang kể so với việc chỉ rút trích đặc trưng cây 2 lớp. Tuy nhiên việc rút trích đặc trưng nhiều lớp làm cho quá trình xử lý tính toán chậm chạp hơn.
Tuy nhiên, do những mặt nạ này xấp xĩ một một đạo hàm cấp hai trên ảnh, chúng rất nhạy cảm với nhiễu. Để giải quyết điều này, ảnh thường được làm mịn bằng lọc Gaussian trước khi áp dụng lọc Laplacian. Bước tiền xử lý này giảm các thành phần nhiễu tần số cao trước khi thực hiện phép lấy vi phân.
Thật vậy, do phép tính cuộn có tính kết hợp, cúng ta có thể gộp lọc làm mịn Gaussian với lọc Laplacian trước, sau đó cuộn lọc lai này với ảnh để thu được kết quả mong muốn. • Bởi vì cả hai mặt nạ lọc Gaussian và Laplacian thường nhỏ hơn rất nhiều so với kích thước ảnh, nên phương pháp này thực hiện tiết kiệm được rất nhiều tính toán. • Mặt nạ LoG (Laplacian of Gaussian) có thể được tính toán trước nhờ đó những tính toán phức tạp có thể được thực thi nhanh hơn tại thời điểm run- time.
Lưu ý rằng nếu lọc Gaussian được áp dụng với σ hẹp dần, mặt nạ LoG sẽ trở thành mặt nạ Laplacian đơn như trong hình AP.1. Điều này là do việc làm mịn với một lọc Gaussian kích thước nhỏ (σ < 0.5 pixel) trên một lưới rời rạc là không ảnh.