Dữ liệu huấn luyện mạng neural

2. Chuẩn bị cơ sở dữ liệu

2.1 Dữ liệu huấn luyện mạng neural

2.1.1 Ảnh huấn luyện là khuôn mặt

Ảnh huấn luyện khuôn mặt được sử dụng trong đồ án này là tập ảnh chuẩn

được lấy từ website của Dr Libor Spacek:

http://cswww.essex.ac.uk/mv/allfaces/index.html. Đây là một nguồn ảnh mầu chuẩn phong phú với 750 ảnh màu 24bit kích thước 480 x 640 của 50 người, mỗi người là 15 kiểu ảnh theo tư thề nhìn thẳng hoặc xê dịch một lượng không đáng kể. Các khuôn mặt ở các trạng thái như bình thường, cười, nghiêm nghị, đeo kính và không đeo kính, nhắm mắt và mở mắt.

Toàn bộ 750 ảnh này được sử dụng để chuẩn hóa về kích thước cửa sổ 25x25, đây là kích thước cửa số chuẩn được chọn để sử dụng cho hệ thống phát hiện khuôn mặt. Điều này cũng có nghĩa là, kích thước tối thiểu của khuôn mặt có thể được phát hiện bởi hệ thống là 25 x 25.

Hình 8: Ví dụ về ảnh trong cơ sở dữ liệu của Libor Spacek

Để làm phong phú thêm cho nguồn ảnh khuôn mặt, sau khi ảnh được chuẩn hóa về kích thước 25 x 25, ảnh sẽ được cho qua phép đối xứng [8]. Như vậy, cuối cùng cơ sở dữ liệu ảnh khuôn mặt mà chúng ta có được là 1500 ảnh.

Hình 9: Ví dụ về ảnh được chuẩn hóa về kích thước cửa số 25 x 25 và sau khi lấy đối xứng

Sau khi chuẩn hóa và lấy đối xứng, các cửa sổ được tiến hành tiền xử lý. Thực ra, quá trình tiền xử lý được thực hiện khi ảnh được cho vào hệ thống huấn luyện mạng neural. Và trước khi thực hiện tiền xử lý, các cửa sổ ảnh được chuyển sang đa mức xám grayscale 24bit bằng cách sử dụng không gian màu YcrCb (giá trị của mỗi điêm ảnh đa mức xám là giá trị độ sáng Y của không gian màu YCrCb). Sau đó ảnh được tiến hành tiền xử lý, đầu tiên cửa sổ được lọc nhiễu bằng phép lọc thông thấp, sau đó tiến hành cân bằng lược đồ mức xám để làm tăng độ tương phản trong ảnh [8].

Để tiến hành cân bằng lược đồ mức xám, ở đây, sẽ sử dụng một chụp mặt nạ để loại bỏ ảnh hưởng của pixel nền kích thước 25 x 25

Hình 10: Mặt nạ loại bỏ kích ảnh hưởng của pixel nền

Như vậy quá trình cân bằng lược đồ chỉ được tiến hành cho những pixel nằm trong vòng tròn mặt nạ [8]

Hình 11: Ví dụ ảnh sau quá trình cân bằng lược đồ

2.1.2 Ảnh huấn luyện không khuôn mặt

Có thể nói việc huấn luyện ảnh phát hiện khuôn mặt gặp nhiều thách thức là do gặp khó khăn trong việc biểu thị ảnh “không khuôn mặt”. Không nhau việc nhận dạng khuôn mặt, trong đó các lớp phân biệt là các khuôn mặt khác nhau. Hai lớp gọi là phân biệt trong dò tìm khuôn mặt là “ảnh có chứa khuôn mặt” và “ảnh không chứa khuôn mặt” [6]. Dễ dàng lấy được mẫu ảnh chứa khuôn mặt điển hình, nhưng việc lấy mẫu ảnh không chứa khuôn mặt điển hình và có giá trị là khó hơn rất nhiều. Có thể thấy, đối với một hệ thống cụ thể, thì những ảnh không khuôn mặt được xem là có giá trị nhất khi nó bị phát hiện nhầm là ảnh khuôn mặt. Trong đồ án này, do đầu vào là các ảnh màu, và hơn nữa ảnh trước khi được phát hiện khuôn mặt được cho qua bộ phần vùng màu da, chính vì vậy, những ảnh không khuôn mặt có giá trị thông thường là ảnh có chứa vùng có màu tương tự màu da. Chính vì vậy, tập ảnh không khuôn mặt có màu tương tự màu da, đặc biệt là tập ảnh có chứa bộ phân cơ thể con người như tay, chân, cũng như các bộ phân trên khuôn mặt là đáng chú ý nhất.

Tuy nhiên để đảm bảo tính tổng quát của hệ thống, tập ảnh không khuôn mặt được chuẩn bị không chỉ có những ảnh có màu tương tự màu da mà là tập ảnh tự nhiên bất kì. Như ảnh hoa lá cây cỏ, nhà cửa.

Trong đồ án này, quá trình huấn luyện ảnh không khuôn mặt bao gồm huân luyện thụ động và huấn luyện chủ động có học. Huấn luyện thụ động có nghĩa là huấn luyện không khuôn mặt từ tập ảnh tạo sẵn. Còn huấn luyện chủ động có học là tiến hành cập nhật những cửa số bị phát hiện nhầm là khuôn mặt

vào cơ sở dữ liệu ảnh không khuôn mặt. Toàn bộ quá trình huấn luyện này sẽ được đề cập đến trong chương III của đồ án. Trong phần này, chỉ đề cập đến cơ sở dữ liệu tạo sẵn ban đầu, như là một bước chuẩn bị cho quá trình huấn luyện ảnh không khuôn mặt thụ động.

Tập ảnh ban đầu này bao gồm hai phần và chứa khoảng 200 cửa sổ. Trong đó, 100 cửa sổ được tạo ngẫu nhiên từ một số bức ảnh tự nhiên không chưa mặt người. 100 ảnh còn lại là tập các ảnh được trích chọn thủ công từ các tập ảnh có sẵn. Những cửa số này tập trung vào những vùng tưong tự màu da, các bộ phận cơ thể con người cũng như bộ phận của khuôn mặt. 200 ảnh này sau quá trình trích chọn cũng được tiến hành lọc nhiễu và cân bằng lược đồ xám.

Hình 12: Hình minh họa các cửa sổ được trích chọn ngẫu nhiên trong cơ sở dữ liệu ảnh huấn luyện không khuôn mặt.

Bên cạnh tập 200 ảnh tạo sẵn này, chúng ta cũng chuẩn bị sẵn khoảng 50 bức ảnh được sử dụng để tiến hành huấn luyện chủ động có học cho ảnh không khuôn mặt .Đây là nguồn ảnh được lấy bất kì trên mạng Internet. 50 ảnh này là

tập các ảnh màu kích thước 480 x 360, là các ảnh tập thể, gia đình, tự nhiên. Tập 50 ảnh này cũng được tiến hành lọc nhiễu và cân bằng lược đồ xám.

Hình 13: Ví dụ về ảnh dùng để huấn luyện chủ động ảnh không khuôn mặt 2.2 Ảnh huấn luyện để phân vùng màu da

Mô hình phần vùng màu da được sư dụng dưa trên mô hình có tham số dựa trên phân phối Gaussian, sử dụng trong không gian màu YCrCb.

Để có thể học tốt và tạo ra bộ tham số hiệu quả, các mẫu màu da được trích chọn phải là những mẫu điển hình, bao gồm tất cả các màu da của các châu lục, chủng tộc. Đồng thời đó phải là màu da thực, không phải màu da được trang điểm hay xử lý bằng kỹ thuật xử lý ảnh.

Toàn bộ một trăm mẫu màu da có trong cơ sở dữ liệu của đồ án đều được trích chọn thủ công từ nhiều bức ảnh tìm kiếm trên Internet. Các mẫu màu da này bao gồm khá đầy đủ cho các chủng tộc châu lục Âu, Á, Mỹ, Phi, Úc…Các

mẫu màu da trước khi tiến hành huấn luyện để tạo ra bộ tham số phân vùng ảnh đều được tiến hành lọc nhiễu bằng bộ lọc thông thấp

Hình 14: Ví dụ tập mẫu da được dùng để huấn luyện bộ phân vùng màu da 2.3 Cơ sở dữ liệu để đánh giá kết quả hệ thống.

Một hệ thống sau khi xây dựng luôn cần có những khảo sát để đánh giá kết quả. Muốn vậy, chúng ta cần có những bộ dữ liệu chuẩn để tiến hành đánh giá.

Đối với hệ thống trong đồ án, do tập ảnh huấn luyện khuôn mặt là nhìn thẳng với độ nghiêng và góc quay của khuôn mặt không đáng kể, vì vậy, để đánh giá được hiệu quả học của hệ thống, chúng ta cần có những bộ dữ liệu chuẩn tương tự. Ở đây, đồ án sẽ sử dụng bộ dữ liệu test chuẩn được lấy từ cơ sở dữ liệu của trường đại học University of Ljubljana, tại website: http://lrv.fri.uni- lj.si/facedb.html. Đây là bộ dữ liệu test ảnh màu bao gồm 320 ảnh màu của 141 người, chỉ có một khuôn mặt kích thước 640 x 480 được chụp trong điều kiện ánh sáng đồng nhất.

Hình 15: Ví dụ về bộ ảnh trong tập dữ liệu để kiểm tra hiệu năng hệ thống

Ngoài ra, do chưa có một bộ dữ liệu test ảnh màu nhiều khuôn mặt nào được phổ biến miễn phí trên mạng nên ở đây, chúng ta sẽ tự xây dựng cho mình một tập cảc ảnh nhiều khuôn mặt để có thể đánh giá một cách chính xác hơn hiệu năng hệ thống. Tập ảnh này được xây dựng dựa trên tiêu chí để kiểm tra hiệu quả của hệ thông trong các khía cạnh:

 Hệ thống phát hiện được nhiều khuôn mặt với các kích thước khác nhau như thế nào ?

 Hệ thống phát hiện được các khuôn mặt với nội dung khuôn mặt đầy đủ và không đầy đủ như thê nào ?

 Hệ thống phát hiện được các khuôn mặt ở các tư thế khác nhau, nhìn thẳng, nhìn nghiêng, góc quay, mắt nhắm hay không, đeo kính hay không, trạng thái khuôn mặt như thế nào ?

 Chất lượng phát hiện ra sao khi các bức ảnh bị làm nhiễu ?

Kích thước của các bức ảnh được xây dựng bao gồm các kích thước như: 480 x 360; 320 x 240.

Hình 16: Ví dụ về tập ảnh tự xây dựng để test chương trình, ảnh ban đầu và ảnh bị làm nhiễu

Mô hình hóa màu da

So sánh kết quả các mô hình