Ảnh khuôn mặt nói riêng và ảnh số nói chung được biểu diễn thông qua các giá trị của mỗi điểm ảnh. Với một ảnh khuôn mặt đa cấp xám I có kích thước r x c, chúng ta có thể nói rằng mỗi ảnh khuôn mặt đó là một lưới các điểm ảnh với r hàng và c cột. Tổng số điểm ảnh của mỗi bức ảnh sẽ là N = rc. Ảnh I đơn giản là một ma trận với mỗi thành phần là một giá trị 8 bit được biểu diễn thông qua từng điểm ảnh riêng biệt.
Bây giờ bức ảnh đang xét được coi như một vector với độ dài N hay nói cách khác là một điểm trong không gian N chiều. Xét một ví dụ với một ảnh đa cấp xám có kích thước 128 x 128, ảnh này sẽ là một điểm trong không gian 16384 chiều. Một cách trực quan ta thấy rằng, khi kích thước của ảnh tăng lên, thì giá trị N, số chiều của không gian ảnh cũng tăng theo. Vì những ảnh khuôn mặt là tương tự nhau nên những điểm biểu diễn ảnh khuôn mặt trong không gian ảnh sẽ không bị phân tán ngẫu nhiên trong không gian rộng mà sẽ hội tụ trong một vùng nhỏ của không gian ảnh. Có thể hiểu một cách hình thức như sau:
Từ tập dữ liệu là một tập ảnh của một vài người, ta biểu diễn là một vector N chiều với M là tổng số vector.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 39
Hình 2.3 Mô tả hình thức không gian ảnh khuôn mặt trong không gian ảnh
Tiếp theo ta trừ mỗi ảnh khuôn mặt trong tập dữ liệu cho ảnh trung bình :
Tiếp theo ta tính ma trận hiệp phương sai :
Tiếp theo, ta tính các vector riêng và giá trị riêng của ma trận hiệp phương sai. Vì mỗi bức ảnh được coi như một vector N chiều, và như vậy ma trận hiệp phương sai C sẽ có kích thước là N2. Đây là một ma trận khổng lồ và việc tính toán hết các vector riêng là coi như không thể. Một ví dụ đơn giản: nếu ảnh khuôn mặt huấn luyện có kích thước 128 x 128 vector ảnh sẽ có chiều dài là 16384, và đương nhiên nó sẽ cho ta ma trận hiệp phương sai 16384 x 16384 và thật sự ta sẽ phải trả giá đắt cho việc tính toán trên ma trận hiệp phương sai như vậy.
Tại đây có thể tận dụng một kết quả của đại số để giảm nhẹ chi phí tính toán. Đầu tiên ta xét ma trận A như sau :
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 40 Coi vi là vector riêng ứng với giá trị riêng i của ma trận ATA. Ta có :
Thực hiện biến đổi nhân cả hai vế với A, ta có :
Từ đây ta nhận thấy Avi là vector riêng của ma trận hiệp phương sai C với i
là giá trị riêng tương ứng. Tức là ta có thể giải quyết bài toán trên ma trận M x M thay vì ma trận N x N như cũ. Tức là nếu với 100 ảnh huấn luyện có kích thước 128 x 128, ta có thể giải quyết ma trận 100 x 100 thay cho 16384 x 16384 như cũ.
Các vector riêng (eigenface) tính được :
Có một vấn đề là khi tính toán ta nên lấy bao nhiêu eigenface thì đủ. Theo Sirovich và Kirby thì với tập dữ liệu 115 bức ảnh mà họ đã sử dụng, 40 eigenface là một lựa rất tốt.
Bây giờ ta cần thực hiện việc phát hiện khuôn mặt với ảnh đầu vào. Nhiệm vụ cụ thể là với một ảnh đầu vào ta trả lời câu hỏi “ảnh đó có phải ảnh khuôn mặt không ?”
Đầu tiên ta chiếuảnh đó vào không gian mặt, tính vector trọng số :
Trong đó M' là số vector riêng tốt nhất được chọn.
Để phân lớp ta tính khoảng cách đến không gian mặt, khoảng cách đó được tính như sau :
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 41 Trong đó:
2.2.2 Phƣơng pháp sử dụng đặc trƣng Haar kết hợp Adaboost
2.2.2.1 Adaboost
Boosting là kỹ thuật dùng để tăng độ chính xác cho các thuật toán học (Learning algorithm). Nguyên lý cơ bản của nó là kết hợp các weak classifiers thành một strong classifier. Trong đó, weak classifier là các bộ phân loại đơn giản chỉ cần có độ chính xác trên 50%. Bằng cách này, chúng ta nói bộ phân loại đã được “boost”.
Adaboost là một tiếp cận boosting được Freund và Schapire đưa ra vào năm 1995. Adaboost cũng hoạt động trên nguyên tắc kết hợp tuyến tính các weak classifiers để có một strong classifier.
Là một cải tiến của tiếp cận boosting, Adaboost sử dụng thêm khái niệm trọng số (weight) để đánh dấu các mẫu khó nhận dạng. Trong quá trình huấn luyện, cứ mỗi weak classifier được xây dựng, thuật toán sẽ tiến hành câp nhật lại trọng số để chuẩn bị cho việc xây dựng weak classifier kế tiếp: tăng trọng số của các mẫu bị nhận dạng sai và giảm trọng số của các mẫu được nhận dạng đúng bởi weak classifier vừa xây dựng. Bằng cách này, các weak classifier sau có thể tập trung vào các mẫu mà các weak classifiers trước nó chưa làm tốt. Sau cùng, các weak classifiers sẽ được kết hợp tùy theo mức độ “tốt” của chúng để tạo dựng nên strong classifier.
Có thể hình dung một cách trực quan như sau: để biết một ảnh có phải là bàn tay hay không, ta hỏi T người (tương đương với T weak classifiers xây dựng từ T
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 42 vòng lặp của boosting), đánh giá của mỗi người (tương đương với một weak classifier) chỉ cần tốt hơn ngẫu nhiên một chút (tỉ lệ sai dưới 50%). Sau đó, ta sẽ đánh trọng số cho đánh giá của từng người (thể hiện qua hệ số α), người nào có khả năng đánh giá tốt các mẫu khó thì mức độ quan trọng của người đó trong kết luận cuối cùng sẽ cao hơn những người chỉ đánh giá tốt được các mẫu dễ. Việc cập nhật lại trọng số của các mẫu sau mỗi vòng boosting chính là để đánh giá độ khó của các mẫu (mẫu càng có nhiều người đánh giá sai là mẫu càng khó).
Các weak classifiers hk(x) được biểu diễn như sau:
Trong đó:
- x = (x1, x2,..., xn): vector đặc trưng của mẫu. - θ: ngưỡng.
- fk: hàm lượng giá vector đặc trưng của mẫu - pk : hệ số quyết định chiều của bất phương trình
Sơ đồ thuật toán Adaboost:
1. Cho một tập huấn luyện gồm n mẫu có đánh dấu (x1, y1), (x2, y2),...., (xn, yn) với xk Є X = (xk1, xk2, ..., xkm) là vector đặc trưng và yk Є {-1, 1} là nhãn của mẫu (1 ứng với object, -1 ứng với background).
2. Khởi tạo trọng số ban đầu cho tất cả các mẫu: w1,k =
n
1
3. Xây dựng T weak classifiers Lặp t = 1, .., T
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 43 Với mỗi đặc trưng trong vector đặc trưng, xây dựng một weak
classifier hjvới ngưỡng θj và lỗi εj
εj = | ( ) | 1 , j k k n k k t h x y w Chọn ra hj với εj nhỏ nhất ta được ht : ht : X →{1, -1} Cập nhật lại trọng số Trong đó:
ei = 0 nếu xi được phân lớp chính xác
ei = 1 nếu ngược lại.
4. Strong classifier xây dựng được :
2.2.2.2 Đặc trưng Haar
Đặc trưng Haar là một loại đặc trưng thường được dùng cho bài toán nhận dạng trên ảnh. Đặc trưng Haar được xây dựng từ các hình chữ nhật nhằm mục đích tính độ chêch lệch giữa giá trị các điểm ảnh trong các vùng kề nhau.
Giá trị của đặc trưng được tinh bằng tổng giá trị các điểm ảnh trong vùng màu trắng trừ đi tổng các điểm ảnh trong các vùng màu đen.
Một điểm mạnh của đặc trưng Haar là có thể biểu diễn được các thông tin về mối liên hệ giữa các vùng trong một bức ảnh.
Viola và Jones đã đưa ra khái niệm ảnh tích phân ( Integral Image ) để tính nhanh các đặc trưng Haar.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 44
Hình 2.4 Vài đặc trưng Haar cơ bản
Lienhart kế thừa (gọi Integral Image là SAT Summed Area Table) và đưa ra thêm khái niệm RSAT – Rotated Summed Area Table để tính toán nhanh cho các đặc trưng xoay 1 góc 45º.
Hình 2.5 Áp dụng đặc trưng Haar vào ảnh
Một vài đặc trưng :
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 45 Với SAT :
Hình 2.7 Mô tả về SAT
Ảnh tích phân tại các điểm (x, y) :
Cách tính nhanh các phần tử của bảng SAT :
Với SAT(-1, y) = SAT(x, -1) = SAT(-1, -1) = 0; Cách tính nhanh các đặc trưng hình chữ nhật : SUM( D ) = 4 + 1 – 2 – 3 ;
- Với RSAT :
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 46
Hình 2.9 Mô tả về RSAT
Ảnh tích phân tại các điểm (x, y) :
Cách tính nhanh các phần tử của bảng RSAT :
2.3 Phát hiện ngủ gật
2.3.1 Mắt thời gian thực, Gaze và tƣ thế khuôn mặt Theo dõi, giám sát sự cảnh giác của lái xe
Trong phần này, mô tả một hệ thống tầm nhìn mẫu thời gian thực máy tính cho giám sát sự cảnh giác của người lái. Các thành phần chính của hệ thống bao gồm một điều khiển từ xa theo dõi hình ảnh CCD, một hệ thống phần cứng được thiết kế đặc biệt để thu lại hình ảnh thời gian thực và kiểm soát đèn chiếu sáng cùng với hệ thống báo động, các thuật toán tầm nhìn máy tính khác nhau cho cùng thời điểm. Thời gian thực và sự không xâm nhập bên trong để giám sát nhiều hình ảnh hành vi sinh học thường đặc trưng cho mức độ cảnh giác của người lái. Các hành vi thị giác bao gồm chuyển động mí mắt, hướng trước mặt, và chuyển động trước mắt (đồng tử di chuyển).
Hệ thống này đã được kiểm nghiệm trong một môi trường mô phỏng với các đối tượng thuộc các dân tộc, giới tính, lứa tuổi khác nhau, đeo kính hoặc không kính và trong điều kiện ánh sáng khác nhau. Qua đó nó đã được khẳng định rất mạnh mẽ, đáng tin cậy và chính xác.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 47
Những thống kê tai nạn giao thông do nguyên nhân người lái xe giảm mức độ
cảnh giác: Số lượng tai nạn giao thông ở Mỹ ngày càng tăng do sự giảm sút mức
độ cảnh giác của người lái đã trở thành một vấn đề nghiêm trọng đối với xã hội. Các tài xế có mức độ cảnh giác bị giảm sút được đánh giá là giảm khả năng nhận thức, sự thừa nhận, kiểm soát phương tiện. Chính vì vậy nó làm ảnh hưởng nghiêm trọng tới cuộc sống của bản thân và của những người khác. Các thống kê chỉ ra rằng nguyên nhân hàng đầu gây ra tử vong hoặc thương tích gây ra bởi tai nạn giao thông là do các tài xế bị giảm mức độ cảnh giác. Trong ngành công nghiệp vận tải đường bộ, 57% các tai nạn gây tử vong của xe tải là do tài xế mệt mỏi. Đây là nguyên nhân hàng đầu trong các vụ tai nạn do xe tải hạng nặng gây ra. 70% các tài xế ở Mỹ báo cáo lái xe trong tình trạng mệt mỏi. Với sự tăng lên không ngừng về các điều kiện giao thông, vấn đề này sẽ càng trở nên xấu đi. Vì lý do này, phát triển các hệ thống giám sát chủ động để theo dõi mức độ cảnh giác của người lái và cảnh báo cho tài xế trong bất kỳ điều kiện lái xe không an toàn là điều kiện thực sự cần thiết đề ngăn chặn các vụ tai nạn giao thông.
Rất nhiều các nỗ lực đã được báo cáo bằng văn bản để phát triển hệ thống an toàn chủ động nhằm giảm số lượng các vụ tai nạn giao thông do giảm sự cảnh giác. Trong các kỹ thuật khác nhau, sự phát hiện chính xác nhất được thực hiện với các kỹ thuật đo lường các điều kiện sinh lý như sóng não, nhịp tim và nhịp cảm xúc. Yêu cầu vật lý gắn với tài xế (ví dụ: gắn điện cực) để giám sát tuy nhiện những kỹ thuật này đòi hỏi sự xâm nhập vào bên trong và gây phiền hà cho người lái xe. Các kết quả khả quan đã được báo cáo với kỹ thuật giám sát sự chuyển động của mí mắt và tầm nhìn của lái xe. Kỹ thuật này được thực hiện với một thiết bị gọi là Thiết bị theo dõi (tracker) được gắn ở phía trước mắt hoặc sự dụng một khung kính áp tròng đặc biệt. Các kết quả từ việc giám sát sự chuyển động phía trước với thiết bị đeo phía trước cũng rất đáng khích lệ. Các công nghệ này mặc dù đã giảm sự xâm nhập song vẫn chưa thể được chấp nhận môt các hoàn toàn. Trạng thái cảnh giác của người lái xe còn có thể được đặc trưng bởi tính chất của phương tiện mà
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 48 người đó điều khiển. Tính chất của phương tiện bao gồm tốc độ, vị trí, góc quay và sự di chuyển chính là các chỉ số để đo lường mức độ tỉnh táo của người lái. Trong khi các kỹ thuật này được thực hiện mà không cần xâm nhập chúng vẫn còn tồn tại một vài hạn chế như loại phương tiện, kinh nghiệm của lái xe và điều kiện lái xe [3].
Những người trong trạng thái mệt mỏi có thể dễ dàng quan sát qua sự thay đổi trên khuôn mặt như mắt, đầu và mặt. Các tính cách đặc trưng có thể quan sát được thông qua hình ảnh của một người với sự giảm sút mức độ tỉnh táo như sự chuyển động chậm của mí mắt, mức độ mở của mắt nhỏ hơn (thậm chí còn nhắm lại), thường xuyên gật đầu, ngáp, nhìn chằm chằm (tập trung nhìn thẳng theo 1 đường), sự uể oải biểu hiện trên khuôn mặt và tư thế. Để sử dụng các tín hiệu thị giác, một cách tiếp cận ngày càng phổ biến nhưng không xâm nhập để giám sát trạng thái mệt mỏi nhằm đánh giá mức độ cảnh giác của lái xe là thông qua hình ảnh đối tượng quan sát được bằng máy ảnh và công nghệ tầm nhìn máy tính. Kỹ thuật sử dụng tầm nhìn máy tính nhằm mục tiêu xuất ra các hình ảnh điển hình đặc trưng cho mức độ cảnh giác của lái xe từ chính video của họ. Trong một hội thảo gần đây được tài trợ bởi Sở Giao thông vận tải (DOT) về sự cảnh giác của lái xe đã kết luận rằng tầm nhìn máy tính đại diện cho công nghệ không xâm nhập vào bên trong hứa hẹn sẽ trở thành công nghệ tốt nhất để giám sát sự cảnh giác của lái xe.
Rất nhiều các nỗ lực đã được báo cáo bằng văn bản về sự phát triển thời gian thực hoạt động dựa trên hình ảnh mệt mỏi của người lái qua hệ thống giám sát [3- 7]. Những nỗ lực này tập trung chủ yếu vào việc phát hiện trạng thái mệt mỏi của lái xe. Ví dụ, theo tác giả Ishii đã giới thiệu một hệ thống mô tả trạng thái tinh thần của lái xe thông qua biểu hiện trên khuôn mặt. Saito [4] đã đề xuất một hệ thống tầm nhìn nhằm phát hiện trạng thái thể chất cũng như điều kiện tinh thần của lái xe từ một đường ngắm. Boverie mô tả một hệ thống giám sát sự cảnh giác của lái xe qua nghiên cứu về sự chuyển động của mí mắt. Đánh giá sơ bộ của họ đưa ra kết quả hứa hẹn khả quan cho việc giám sát sự cảnh giác của lái xe thông qua sự
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 49 chuyển động của mí mắt. Ueno đã mô tả một hệ thống phát hiện sự buồn ngủ bằng cách nhận dạng mắt của tài xế khi nhắm và mở và nếu khi mở sẽ tính toán mức độ mở như thế nào. Nghiên cứu chỉ ra kết quả hệ thống của họ có thể so sánh được với kỹ thuật sử dụng các tín hiệu sinh lý.
Mặc dù sự thành công về các phương pháp tiếp cận hay hệ thống trích xuất các đặc tính của tài xế sử dụng công nghệ tầm nhìn máy tính, những cố gắng trong