MỤC LỤC
Đồng thời, để nâng cao hiệu năng và giảm thời gian tính toán cho phương pháp chọn lựa này, chúng ta sẽ xem xét các quy tắc đựoc đề xuất trong nhóm phương pháp dùng nguỡng để lọc khởi tạo loại bỏ những điểm ảnh chắc chắn không phải màu da. Một số mạng neural là các mô hình mạng neural sinh học, một số thì không, nhưng từ trước tới nay, thì tất cả các lĩnh vực của mạng neural đều đựoc nghiên cứu xây dựng xuất phát từ các yêu cầu xây dựng các hệ thống nhận tạo rất phức tạp, hay các phép xử lý “thông minh”, và những gì tuơng tự như bộ não con người. Mạng neural có thể được áp dụng trong mọi trường hợp khi tồn tại một mối liên hệ giữa các biến độc lập (inputs) và các biến phụ thuộc (outputs), thậm chí là ngay cả khi mối quan hệ đó phứuc tạp.
Một số lĩnh vực mà mạng neural đã được áp dụng thành công như dự đoán triệu chứng y học, dự đoán thị trường chứng khoán, đánh giá độ tin cậy tài chính, điều chỉnh điều kiện của cơ cấu máy móc.
Hầu hết các mạng neural đều có một vài quy tắc học nào đó mà thông qua đó các trọng số của các liên két được điều chỉnh dựa trên dữ liệu. Nói cách khác, các mạng neural “học” và các ví dụ và dựa trên các dữ liệu đó thì nó có khả năng tổng quát tri thức và đưa ra “nhận thức của mình”. Tuy nhiên với những yêu cầu như thế thì lại không có những mô hình đơn giản, ví dụ như mô hình hồi quy tuyến tính đơn giản, một mô hình được ứng dụng rất rộng rãi của mạng neural.
Đây là loại mạng có thể áp dụng phương pháp tính toán khá hiệu quả và mạnh gọi là lan truyền ngược lỗi , để xác định đạo hàm hàm lỗi theo các trọng số và độ dốc trong mạng.
Khái niệm lan truyền ngược cũng thường được sử dụng để mô tả quá trình huấn luyện của mạng perceptron nhiều tầng sử dụng phương pháp gradient descent áp dụng trên hàm lỗi dạng sai số trung bình bình phương.
Sau khi tiền xử lý, ảnh sẽ được đưa đi theo hai con đường, con đường thứ nhất là đưa vào bộ phân vùng để tiến hành phân vùng màu da, và kết quả của quá trình phân vùng này sẽ cho ta ảnh nhị phân có các vùng màu da đã được phân biệt. Con đường thứ hai là ảnh sẽ được chuyển sang ảnh đa mức xám, sau đó kết hợp với ảnh đã được phân vùng màu da, sẽ trích xuất mọi cửa số có kích thước 25 x 25 pixel trên vùng màu da để đưa vào mạng neural tiến hành phân lớp xem cửa sổ này có phải là khuôn mặt hay không. Sở dĩ ở đây sử dụng đầu ra có hai nút thay vì một nút thông thương vì trong mô hình này, chúng ta sẽ sử dụng thêm một mô hình xác suất nhỏ để tiến hành phân xử kết quả ra.
Cuối cùng sau quá trình phân xử kết quả, đầu ra của hệ thống sẽ cho ta câu trả lời, ảnh đầu vào có khuôn mặt hay không, nếu có thì có bao nhiêu khuôn mặt và vị trí của từng khuôn mặt ở đâu trong ảnh.
Theo những nghiên cứu trước đây, màu da con người có những đặc trưng phân biệt đồng thời, chúng ta khác nhau về màu da chủ yếu là do khác nhau về độ sáng hơn là sự khác nhau về các thành phần màu. Với mỗi ảnh trong tập cơ sở huấn luyện, sau khi chuyển sang không gian màu YCrCb, chúng ta biểu diễn x = (CrCb)T là vector các giá rị CrCb trung bình của tất cả các giá trị CrCb tại tất cả các điểm ảnh của ảnh đó. Trong đồ án này, sau khi tham khảo một số các quy tắc được đề xuất, tiền hành chọn lọc và thử nghiệm trên nhiều ảnh màu khác nhau, đồ án đã đề xuất một tập các quy tắc sau nhằm giúp lọc ngay từ ban đầu các pixel không phải màu da.
Việc định nghĩa khái niệm vùng bao chữ nhật không những giúp chúng ta xỏc định rừ ràng vựng tỡm kiếm khuụn mặt cho một bức ảnh, nú giỳp cho việc trích chọn mọi cửa số được dễ dàng hơn mà nó còn giúp chúng ta lọc bớt những vùng màu da chắc chắn không phải khuôn mặt.
Tuy nhiên trong mô hình mạng trong đồ án, thay vì chỉ có một đầu ra tức là sẽ ra quyết định phân lớp cho cửa số là khuôn mặt hay không khuôn mặt ngay khi có được giá trị của f(x), chúng ta sẽ sử dụng hai đầu ra minh họa cho hai trường hợp kết quả mong muốn của f(x). Với kiến trúc là một mạng neural đơn lẻ, chúng ta không thể cùng một lúc phát hiện mặt ở mọi tư thế, nhìn thẳng và nghiêng, bởi vì nếu như thế trong tập ảnh huấn luyện khuôn mặt, chúng ta phải có đầy đủ các bộ dữ liệu miêu tả các tư thế khác nhau của khuôn mặt. Cũng chính vì điều này mà trong tập ảnh khuôn mặt để huấn luyện, sẽ chỉ có ảnh nhìn thẳng hoặc ảnh bị xê dịch như nghiêng, quay, dịch lên hay nhìn xuống với một góc không đáng kể (theo như tài liệu miêu tả trong tâp ảnh tải về, thì độ nghiêng không quá 200) và góc quay không quá 110).
Hai nhận xét trên không phải là đã làm mất hết giá trị của các cửa sổ không bị nhận nhầm là cửa sổ khuôn mặt, bởi đây chính là những cửa sổ có nhiệm vụ khởi tạo cho mạng học, những cửa sổ này sẽ giúp cho mạng phõn biệt ranh giới giữa ảnh khụng khuụn mặt và ảnh khuụn mặt được rừ ràng hơn.
Tuy nhiên qua khảo sát thực tế cho thấy, các cửa sổ phân lớp khuôn mặt có độ tin cậy cao nhất là nhứng của sổ phát hiện chính xác nhất, khuôn mặt được phát hiện, gần với tập mẫu huấn luyện nhất.Từ đó chúng ta nghĩ đến heuristic chỉ chọn cửa sổ có độ tin cậy cao nhất trong các cửa sổ trên cùng một khuôn mặt. Với heuristic này, chúng ta có thể nhận thấy một trường hợp không đúng có hai khuôn mặt, một khuôn mặt tuy vẫn đầy đủ nội dụng nhưng bị khuất sau khuôn mặt kia một phần nào đó. Việc phải quét tất cả mọi cửa sổ trong tất cả các vùng bao chữ nhật cũng như phải tiến hành xử lý đa phân giải làm cho công việc của chúng ta phải tính toán một khối lượng rất lớn.
Kết quả khảo sát thực nghiệm cho thấy, với heuristic này, thời gian tìm kiếm trung bình cho tập ảnh trên là từ 3 -> 8phút, giảm đáng kể so với thời gian tìm kiếm ban đầu.
Trong sơ đồ này, bên canh các chức năng, ta thấy xuất hiện các cơ sở dữ liệu phải dung, bao gồm cơ sở dũ liệu ảnh huấn luyện, là tổng hợp của cơ sở dữ liệu ảnh khuôn mặt và cơ sở dữ liệu ảnh không khuôn mặt. Đây là bộ ba tham số bao gồm ngưỡng xác suất trong phân phối gaussian mà bộ huấn luyện học được, vector trung bình của phân phối và ma trận hiệp phương sai của chương trình. - Cơ sở dữ liệu ảnh huấn luyện phân vùng màu da - Cơ sở dữ liệu kết quả huấn luyện mạng neural - Cơ sở dữ liệu kết quả huấn luyện phân vùng màu da - Cơ sở dữ liệu kết quả phát hiện khuôn mặt.
Cuối cùng sẽ là file faceresult.nn được dùng để lưu kết quả của các cửa sổ được phát hiện, việc lưu này với mục đích để dễ xử lý như cập nhật cửa sổ sai trong quá trình huấn luyện chủ động.
Kết quả của huấn luyện phân vùng màu da sẽ được lưu và file skin.nn.
Em xin được cảm ơn thầy cô, bộ môn Truyền thông và mạng máy tính, Khoa Công nghệ thông tin, Trường Đại Học Bách Khoa Hà Nội. Cảm ơn các thầy cô đã trang bị cho bọn em những kiến thức vững vàng, không chỉ là những môn học liên quan đến công nghệ thông tin mà. Xin cảm ơn tất cả các anh chị khóa trên cũng như tất cả các bạn bè đã nhiệt tình giúp đỡ em, cung cấp tài liệu, hỗ trợ kiến thức cũng như động viên em trong suốt quá trình làm luận văn.
Bởi những lời đánh giá và góp ý đó sẽ là rất quý báu giúp em có thể nâng cao chất lượng cho Đồ án tôt nghiệp của mình.