Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 13 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
13
Dung lượng
2,75 MB
Nội dung
Tạp chí Tin học Điều khiển học, T.29, S.2 (2013), 173–185 XÁCĐỊNHVỊTRÍMẮTNGƯỜITRONGVIDEOBẰNGCÁCHKẾTHỢPDÒTÌMVÀTHEOVẾT CÁP PHẠM ĐÌNH THĂNG1 , DƯƠNG CHÍ NHÂN2 , NGÔ ĐỨC THÀNH3 , LÊ ĐÌNH DUY1 , DƯƠNG ANH ĐỨC1 Trường Trường The Đại học Công nghệ Thông tin, ĐHQG TP HCM Đại Học Khoa Học Tự Nhiên, ĐHQG TPHCM Graduate University for Advanced Studies (Sokendai), Japan Tóm tắt Bài báo trình bày phương pháp xácđịnhvịtrímắtngười dựa việc kếthợpdòtìmmắtngười (eye detector) theovếtmắtngười (eye tracker) Phương pháp giúp cải tiến kếtxácđịnhvịtrímắtngười nhờ dòtìm cung cấp ước lượng tốt cho vịtrí ứng viên mắt người, theovếttìmvịtrí tốt vịtrí ứng viên việc sử dụng thêm thông tin thời gian Thực nghiệm tiến hành video từ sở liệu TRECVID 2009, sở liệu “Tư Thế Đầu Người” (HEAD POSE DATASET) trường đại học Boston video từ Đài truyền hình Việt Nam cho thấy kết phương pháp kếthợp đem lại hiệu cao so với việc sử dụng dòtìmtheovết đơn lẻ Từ khóa Xácđịnhvịtrímắt người, dòtìmmắt người, theovếtmắtngười Abstract In this paper, we propose a method to combine an eye tracker and an eye detector for robust eye localization in video Instead of sequential intergration of the two systems, we use eye locations suggested by an eye detector for initialization and measurement of updating steps of particlesused inan eye tracker This combination helps to improve the localization performance since the detector provides good estimation of eye location candidates, meanwhile the tracker helps to find the best eye location by using temporal information Experiments were conducted on two benchmark video databases (TRECVID and Boston University Headpose datasets) and videos from Vietnamese Television The results show that our method achieves a remarkable improvement compared to the state-of-the-art eye detector and eye tracker Key words Eye localization, human eye detection, human eye tracking GIỚI THIỆU Dòtìm đặc trưng mặtngười nhiệm vụ yếu nhiều ứng dụng liên quan đến ảnh mặtngười như: nhận dạng mặt người, xácđịnh biểu cảm xúc mặt người, điều khiển tương tác người máy Những đặc trưng khuôn mặtngười bật mắt, lông mày, mũi, miệng, cằm Giữa đặc trưng này, mắtngười có vai trò quan trọng việc chuyển giao tín hiệu tương tác, ý định dẫn người dùng cho máy tính Thông tin vịtrímắtngườimặtngười ổn định nên việc xácđịnhvị 174 CÁP PHẠM ĐÌNH THĂNG ccs trímắtngười bước cần thiết nhiều phương pháp phân loại ảnh mặt người, chỉnh chuẩn hoá ảnh mặtngười Chính có nhiều nghiên cứu chuyên sâu nhận dạng mắtngười ảnh mặtngườivideo [1, 3, 4, 5] Tuy nhiên việc dòtìmvịtrímắtngười gặp phải nhiều khó khăn thay đổi tư đầu người, mắt nhắm mở, điều kiện ánh sáng thay đổi, bị che khuất phần tóc, đeo kính nên việc xácđịnhvịtrímắtngườicáchxác thách thức Hình 1cho thấy số ví dụ trường hợp khó khăn gặp phải, liệu lấy từ sở liệu TRECVID 2009 Hình Ví dụ trường hợp khó khăn gặp phải a) Biểu mặtngười thay đổi, b) tư đầu người thay đổi, c) nhắm mắt che khuất, d) Người có đeo kính Hiện nay, việc xácđịnhvịtrímắtngườivideocách áp dụng kỹ thuật xử lý ảnh thông thường tiến hành qua bước chính: (1) xácđịnhvịtrímặt người; (2) xácđịnhvịtrímắtngười ảnh mặtngười Tiến trình sau: dòtìmmặtngười sử dụng để xácđịnhvịtrímặtngười khung hình đầu tiên, sau việc xácđịnhvịtrímắtngười dựa vào dòtìmtheovếtmắtngười Đối với phương pháp dựa dò tìm, ý tưởng sử dụng dòtìm khung hình video Bộ dòtìmmắtngười mạnh ảnh mặtngười nhìn thẳng mắtngười mở Tuy vậy, phương pháp bị hạn chế biểu cảm xúc mặtngười thay đổi nhiều (tư đầu người, nhắm mắt, cười làm vùng mắt bị nhỏ lại) Mặt khác, phương pháp sử dụng theovếtmắtngười [12, 13] số trường hợp đáp ứng hạn chế dòtìmmắt người, ước lượng vịtrímắtngười mà nhắm mắt bị ảnh hưởng tư đầu người thay đổi Tuy nhiên, độxáctheovết phụ thuộc nhiều vào bước khởi tạo ban đầu Hơn nữa, theovết thường không ổn định dễ bị sai chuyển động nhanh thời điểm dẫn đến ước lượng khung ảnh không xácTrong viết này, phát triển phương pháp kếthợp kỹ thuật tiên tiến trước để xácđịnhvịtrímắtngườivideo Phương pháp kếthợpkếtdòtìmmắtngườitheovếtmắt người, theovếtmắtngười sử dụng mô hình “particle filter” Cụ thể thông tin có từ theovết giúp xácđịnhvịtrímắtngười khung ảnh mà dòtìm bị lỗi Mặt khác thông tin dòtìm tích hợp vào theovết thời điểm nên việc tích luỹ lỗi theovết giảm xuống theo thời gian Đối với việc theovết đối tượng video chuỗi ảnh, “particle filter” chứng tỏ lợi ước lượng không tuyến tính phân bố Gauss Trong particle filter, thông tin quan trọng particle trọng số nó, trọng số ước lượng xácđộxáctheovết lại cải thiện Chính vậy, phương pháp tập trung vào việc tính toán cập nhật lại trọng số cáchkếthợp thông tin cung cấp dòtìmtheovếtmắtngười Thực nghiệm tiến hành video từ sở XÁCĐỊNHVỊTRÍMẮTNGƯỜITRONGVIDEO 175 liệu video TRECVID 2009, “Tư Thế Đầu Người” đại học Boston Hoa Kỳ video từ đài truyền hình Việt Nam Kết thực nghiệm cho thấy độxác phương pháp kếthợp cao phương pháp sử dụng dòtìmtheovết riêng lẻ CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN Trong năm gần đây, có số lượng lớn phương pháp xácđịnhvịtrímắtngười ảnh video công bố, phương pháp chia làm hướng riêng biệt sau [3, 16]: (1) sử dụng thiết bị đo xung điện để ghi lại thông tin xung điện vùng da xung quanh hốc mắt sử dụng thiết bị đặc biệt gắn trước ống kính máy quay phim[17, 18], (2) sử dụng kỹ thuật xử lý ảnh để xácđịnhvịtrímắtngười [1, 3, 4, 5] 2.1 Các phương pháp sử dụng thiết bị phụ trợ Đối với hướng (1), phương pháp dòtìm phải tốn chi phí cao cho thiết bị đo xung điện Các phương pháp [17, 18] xácđịnhvịtrímắtngười mạnh nhanh cách dùng số thiết bị phần cứng đeo trực tiếp vào mắt người, thiết bị chiếu đèn hồng ngoại vào mắtngười làm cho đồng tử sáng phân biệt với vùng khác, từ xácđịnhvịtrímắtngười Tuy nhiên phương pháp gặp phải hạn chế sau: video phải quay khoảng cách gần với mắt người, độxác phụ thuộc nhiều vào mắt nhắm, kích thước mắt, video thu phòng thí nghiệm 2.2 Các phương pháp sử dụng kỹ thuật xử lý ảnh xácđịnhvịtrímắtngười 2.2.1 Dòtìmmắtngười Như trình bày phần giới thiệu, ý tưởng phương pháp sử dụng dòtìm khung hình video Các kỹ thuật dòtìm khung hình dựa thông tin hình học dựa đặc trưng Dựa thông tin hình học, phương pháp xây dựng mẫu hình học mắtngườixácđịnhvịtrímắtngười khung hình dựa việc so khớp mẫu thông qua độđo tương đồng Yuille cộng [5] phân vùng khuôn mặttìm vùng giống mắtngười ước lượng vịtrímắt Một mở rộng phương pháp Yuille, K Lam cộng [19] ước lượng vịtrí gần mắtngười việc tính trung bình sử dụng góc mắtxácđịnh để giảm số lần lặp việc tối ưu hoá mẫu Cũng nằm hướng tiếp cận này, vào năm 2008, Valenti cộng [3] công bố phương pháp xácđịnhvịvímắtngườicáchkếthợpdòtìmmắtngười kỹ thuật “isophote voting” để xácđịnh mẫu vòng tròn mắtngười Thực nghiệm cho thấy phương pháp có kết tốt trường hợp ánh sáng môi trường bị thay đổi hay tư đầu người thay đổi Các phương pháp dựa thông tin hình học đạt độxác cao với ảnh mặtngười nhìn thẳng, nhiên ảnh đầu vào lại đòi hỏi phải có độ tương phản cao, mô hình hình học bước khởi tạo phải xác, chưa đáp ứng với trường hợp chuyển động đầu người thay đổi lớn Mặt khác, số hướng tiếp cận dựa vào rút trích đặc trưng liên quan đến mắtngười thường trải qua giai đoạn chính: (1) rút trích đặc trưng, (2) dùng kỹ thuật phân lớp 176 CÁP PHẠM ĐÌNH THĂNG ccs xác suất để xácđịnhvịtrímắtngười Ở giai đoạn (1), số phương pháp công bố dựa thông tin đặc trưng cạnh [6], đặc trưng dạng sóng [10] Và giai đoạn (2), kỹ thuật SVM [7, 9], Adaboost mạng nơ ron [2, 8, 9] sử dụng Dựa mô vậy, [2, 9] trình bày phương pháp sử dụng mạng nơ ron đa lớp: dòtìmvịtrímắtngười huấn luyện thông qua mạng nơ ron xácđịnhvịtrímắtngười trường hợpmắt xoay, co dãn hoạt động tốt với điều kiện ánh sáng môi trường thay đổi Tuy nhiên, phương pháp huấn luyện với ảnh mặtngười nhìn thẳng 2.2.2 Theovếtmắtngười Với phương pháp sử dụng theovếtmắt người, sử dụng theovết để xácđịnhvịtrímắtngười qua chuỗi ảnh mặtngườivideo Phương pháp thông thường tiến hành thông qua bước: (1) bước khởi tạo xácđịnhvịtrímắtngười khung hình đầu tiên, (2) bước dùng theovết để xácđịnhvịtrímắtngười khung hình Wu Junwe cộng [13] xácđịnhvịtrímắtngười khung hình tự động cách dựa nhị phân xác suất, sau thông tin ban đầu cung cấp cho theovết để xácđịnhvịtrímắtngười khung hình Phương pháp cho thấy việc xácđịnhvịtrímắtngườidòtìm nháy mắtvideo Các phương pháp hướng cho thấy đáp ứng trường hợp tỉ lệ hay kích thước mắtngười bị thay đổi video với mặtngười nhìn thẳng PHƯƠNG PHÁP TIẾP CẬN ĐỀ XUẤT Như đề cập phần trước, ý tưởng quan trọng mô hình đề xuất nhằm khai thác thông tin video thông tin thời gian, thông tin chuyển động để nâng cao hiệu cho toàn hệ thống xácđịnhvịtrímắtngười Khác với cách tiếp cận trước đây, không đơn sử dụng dòtìmtheovếtmắtngườicách riêng lẻ mà tích hợp thành hệ thống Nhờ vậy, hệ thống đề xuất có ưu điểm sau: (1) nhờ vào kết từ dò tìm, theovếtmắtngười khởi tạo cách tự động; (2) nhờ vào vịtrímắtngười khung hình trước, theovếtxácđịnhvịtrímắtngười khung hình cách liên tục trường hợpdòtìmxácđịnhvịtrí mắt; (3) ứng với thời điểm định, kếtdòtìm sử dụng để hiệu chỉnh kếtdòtìmtheovết nhờ vậy, đảm bảo kếtdòtìmxác Chính nhờ cải tiến trên, kếtdòtìm toàn hệ thống nâng cao đáng kể Hình mô tả mô hình hệ thống kếthợpdòtìmmắtngườitheovếtmắtngười 3.1 Dòtìmmắtngười sử dụng kỹ thuật isophote Một phương pháp dòtìmvịtrímắtngười đạt hiệu cao kể đến phương pháp sử dụng “isophote voting” [3] Dựa đặc điểm dạng hình học mắt đường cong đối xứng, phương pháp tìmcáchxácđịnhXÁCĐỊNHVỊTRÍMẮTNGƯỜITRONGVIDEO 177 Hình Mô hình hệ thống kếthợpdòtìmtheovết vùng có nhiều dạng đường cong đối xứng ảnh nhằm tìm vùng biên mắt Sau đó, kĩ thuật bầu chọn (voting) có trọng số áp dụng để tìmvịtrí tâm mắt cho xácTrong phương pháp này, tác giả sử dụng khái niệm “isophote” Đây đường cong kết nối điểm ảnh có độ sáng Hình minh họa cho isophote ảnh Hình Minh hoạ Isophote ảnh mắtngười a) Ảnh nguyên bản; b) Các đường cong isophote tương ứng Nhờ isophote độc lập với phép xoay thay đổi tuyến tính ánh sáng, phương pháp Valenti thể nhiều ưu điểm trình xácđịnhvịtrímắt Các thực nghiệm cho thấy phương pháp đạt hiệu cao với điều kiện ánh sáng khác hay tư đầu người thay đổi Với ưu điểm trên, dòtìm tích hợp vào hệ thống xácđịnhvịtrímắtngườiVàkết thực nghiệm chứng minh việc kếthợp với theo vết, độxác nâng cao xácđịnh tốt điều kiện ngoại cảnh thay đổi (hướng khuôn mặt thay đổi nhiều, mắt nhắm, ) 3.2 Theovếtmắtngười sử dụng particle filter framework Bộ theovếtmắtngười sử dụng mô hình theovết sử dụng particle filter kếthợp với biểu đồ đặc trưng màu Perez cộng [14] đề xuất Mỗi đối tượng theovết (mắt người) biểu diễn N particle, particle thời điểm t mô tả vector St = (xt , yt , st ) với (xt , yt ) vịtrí particle (vị trí mắt) st tỉ lệ (kích thước mắt) particle Như vậy, trạng thái mắtngườixácđịnh dãy 178 CÁP PHẠM ĐÌNH THĂNG ccs trạng thái particle sau: Xt = {(Sti , πti )|i = N } π trọng số particle, Σ( i = 1)N πti = Ý tưởng mô hình particle filter xấp xỉ xác xuất hậu nghiệm p(Xt , Zt ) tập mẫu gán trọng số Trong Zt trạng thái mắtngười quan sát thời điểm t Vàtrọng số particle tính dựa khoảng cách Bhattacharyya biểu đồ đặc trưng màu particle tương ứng với biểu đồ đặc trưng màu mẫu tính thời điểm khởi tạo 3.3 Xácđịnhvịtrímắtngườicáchkếthợpdòtìmtheovếtmắtngười Để trì trình theovết với độxác cao, theovếtmắtngười cần phải đảm bảo trọng số particle tính toán hợp lý Nếu trọng số particle không tính toán hợp lý làm cho hệ thống dễ dàng dấu đối tượng khó phục hồi khung hình Do đó, trọng số particle yếu tố quan trọngđịnh hiệu theovếtTrong mô hình đề xuất, việc sử dụng dòtìm để khởi tạo tự động cho theovếtmắt người, kếtdòtìm tích hợp vào bước tính toán cập nhật trọng số cho particle giai đoạn theovết nhằm đảm bảo bước hệ thống tính toán cáchhợp lý nhờ nâng cao đáng kể độxác toàn hệ thống.Mô hình đề xuất gồm có bước xử lý sau: (a) Khởi tạo Nhằm tránh việc khởi tạo thủ công cho theo vết, thời điểm dòtìmxácđịnhvịtrímắt người, tham số cho theovết khởi tạo Các tham số gồm có: - Biểu đồ đặc trưng màu tọa độmắt trái mắt phải (x1 , y1 ), (x2 , y2 ) có từ dòtìm Biểu đồ màu dùng làm biểu đồ tham chiếu cho vùng mắtngười khung hình - N : số lượng particles xung quanh điểm (x1 , y1 ), (x2 , y2 ) Trong thực nghiệm, tạo 300 particles ngẫu nhiên xung quanh vịtrímắtngười để dự đoán vịtrí điểm Do vùng mắtngười ảnh nhỏ, nên số lượng particles lớn dẫn đến nhiều particles sinh cách xa vịtrí thực mắt Ngược lại số lượng particles nhỏ không phủ hết vịtrí cần thiết dùng cho dự đoán (b) Dự đoán Một mô hình chuyển động áp dụng để ước lượng vịtrí n particle khung hình Ta định nghĩa vector trạng thái sau: St = (xt , yt , st ) (xt , yt ) toạ độvịtrímắtngười st kích thước mắtngười thời điểm t Cho lan truyền tập mẫu ước lượng chuyển động mắtngười thông qua mô hình hồi qui động cấp (a second order autoregressive dynamic model) Công thức chuyển động cụ thể sau xt+1 = Axt + Bxt−1 + Cvt , vt ∼ N (0, σt ) yt+1 = Ayt + Byt−1 + Cvt , vt ∼ N (0, σt ) XÁCĐỊNHVỊTRÍMẮTNGƯỜITRONGVIDEO 179 st+1 = Ast + Bst−1 + Cvt , vt ∼ N (0, σt ) ma trận A, B đại diện cho thành phần bất biến ma trận C đại diện cho thành phần ngẫu nhiên σt phương sai phân phối chuẩn Gauss Như vt tỉ lệ với phân phối Gaussian sau vt = 2πσt2 e−zt /2σt (4) zt giá trị phát sinh ngẫu nhiên [−1, 1] Trong thực nghiệm giá trị a[i, j], b[i, j], c[i, j] 2, -1, để mô phương trình chuyển động không (c) Cập nhật trọng số Để tính toán trọng số wti cho particle theo vết, ước lượng xác suất điều kiện mô tả sau wti ∝ p(yt |xit ) (5) chuẩn hoá vào đoạn [0, 1] wti = wti i ΣN i=1 wt (6) Đây bước quan trọng việc cải tiến mô hình kếthợp đề ra, Mục 3.4 trình bày chi tiết cách tính trọng số cáchkếthợptrọng số dòtìmtheovết (d) Chọn lọc mẫu Những particle có trọng số thấp bị loại bỏ particle có trọng số cao giữ lại, tạo mẫu tốt cho xácđịnhvịtrímắt Các bước 2, 3, tiếp tục lặp lại khung hình cuối video 3.4 Cập nhật trọng số tích hợp với thông tin từ dòtìmmắtngười Để gán trọng số cho tập mẫu tính hệ số Bhattacharyya biểu đồ tham chiếu (reference histogram) biểu đồ mục tiêu (target histogram) Sau sử dụng phân phối xác suất Gauss cho hệ số Bhattacharyya Khoảng cách Bhattacharyya ngắn thể trọng số cao Cụ thể sau πiB = 2 e−(dB )/(2σB ) (7) 2πσB dB khoảng cách Bhattacharyya biểu đồ tham chiếu biểu đồ particle phương sai phân phối chuẩn Gauss, thứ i, πiB trọng số chưa chuẩn hoá σB thực nghiệm chọn 10 kết tối ưu Tiếp theo, thông tin dòtìmmắtngười sử dụng thời điểm để kếthợp với thành phần Gauss Bhattacharyya Trong trường hợp ta tính phân phối chuẩn Gauss cho khoảng cách Euclidean vịtrí particle với vịtrí cung cấp dòtìmmắt người, cụ thể sau 180 CÁP PHẠM ĐÌNH THĂNG ccs πiE = 2 e−(dE )/(2σE ) (8) 2πσE dE khoảng cách Euclidean vịtrí particle vịtrí cung cấp phương dòtìmmắt người, πiE trọng số thu từ tính toán dòtìm σE = sai phân phối chuẩn Gauss, thực nghiệm ta sử dụng phân phối chuẩn hoá σE Sau đó, trọng số chuẩn hoá vào đoạn [0,1] wi = πi N Σi=1 πi (9) πi trọng số thu từ dòtìmtheovếtVà cuối thông tin dòtìmtheovếtkếthợp sau wi =∝ ∗wiB + (1− ∝) ∗ wiE ∝ trọng số kếthợptheovếtdòtìm ∝ gán gần cho video có nhiều chuyển động khuôn mặt, ngược lại ∝ gán gần cho trường hợp sử dụng độxácdòtìm chuyển động mặtngườiTrong báo này, việc sử dụng kếthợp trực tiếp hai trọng số mang tính tổng quát đảm bảo cho chi phí tính toán thấp đáp ứng cho hệ thống thực thi thời gian thực Hơn nữa, kết thực nghiệm Mục 4.2 chứng minh hiệu mô hình đề xuất so với phương pháp nhận dạng theovết riêng lẻ 4.1 THỰC NGHIỆM Cơ sở liệu đánh giá Tiến hành thực nghiệm video chọn ngẫu nhiên từ sở liệu TRECVID 2009 Các khuôn mặtngườivideo xuất với hướng nhìn khác nhau, kích cỡ khác nhau, nhiều thay đổi biểu khuôn mặt khác với môi trường hậu cảnh khác Cơ sở liệu đại học Boston bao gồm 45 videongười thực động tác thay đổi tư đầu người điều kiện ánh sáng phòng thí nghiệm Cơ sở liệu có mặtngười đầu người xuất trừ trường hợp đặc biệt cá nhân đối tượng tự làm che khuất phần Ngoài ra, thực nghiệm video thu từ đài truyền hình Việt Nam Mỗi video gồm khoảng 1000 khung hình chứa ảnh mặtngười với động tác tư đầu người khác Để đánh giá độxác sử dụng độđo cho vịtrímắtngười công bố Jesorsky cộng [15], độđo sử dụng nhiều công trình công bố [3, 11] Công thức đo lường tỉ lệ lỗi chuẩn hoá (normalize error) sau e= max(dlef t , dright ) d (11) XÁCĐỊNHVỊTRÍMẮTNGƯỜITRONGVIDEO 181 dlef t dright khoảng cách Euclidean vịtrímắtngườixácđịnh mô hình vịtrímắtngườibảngxác thực liệu (ground truth), d khoảng cáchmắt trái mắt phải xác thực sở liệu Trong phần kếthợpdòtìmtheo vết, tham số ∝ trọng số kếthợpDo trước đánh giá kết toàn hệ thống ta thực nghiệm đánh giá độ ảnh hưởng trọng số kếthợp thay đổi giá trị Hình 4c cho thấy kết hệ thống trọng số ∝ thay đổi với sở liệu đại học Boston Kết cho thấy tất trường hợpđộxác hệ thống gần tương đương Do thực nghiệm, chọn ∝=0.5 cho cân dòtìmtheovếtBảng thể kết hệ thống sở liệu TRECVID 2009, Boston VTV Thông số kích thước vùng mắt tính dựa vào nhân trắc học độxác đánh giá với tỉ lệ lỗi chuẩn hoá khoảng từ [0, 0.5] Bảng Thực nghiệm sở liệu TRECVID2009 BOSTON Hình 4a thể biểu đồđộxác hệ thống kếthợp đề xuất độxácdòtìmtheovết sử dụng riêng lẻ với sở liệu TRECVID Từ kết cho thấy rằng, theovết (tracker) bị lỗi hay hội tụ cục trọng số particle gần vịtrí mà dòtìm (detector) trả lớn particle xa, giảm thiểu lỗi theovết tăng độxáctheovết Chính so sánh hệ thống kếthợp đề xuất (detector + tracker) theovết (tracker) sử dụng riêng lẻ, độxác e < 0.1 tăng 17% e < 0.5 tăng 12% Ngược lại, dòtìm (detector) bị lỗi theovết ước lượng vịtrímắtngười khung hình Kết so sánh độxác hệ thống đề xuất dòtìm riêng lẻ (detector) e < 0.25 tăng 2% e < 0.5 tăng 3% Đối với sở liệu đại học Boston, thông số thử nghiệm đánh giá giống với thông số sử dụng đánh giá sở liệu Trecvid Kết thử nghiệm đánh giá trình bày Bảng biểu đồ 4b, kết cho thấy sử dụng kếthợpdòtìmtheovếtđộxác hệ thống tăng lên đáng kể so với việc sử dụng riêng lẻ Ngoài ra, với kết thực nghiệm video thu từ VTV đài truyền hình Việt Nam cho thấy kết ổn định hệ thống kếthợp đề xuất Hình thể kết hệ thống kếthợp sở liệu đại học Boston với trường hợp khác mặtngười có đeo kính, ánh sáng môi trường thay đổi tư đầu người thay đổi (ngước lên, ngước xuống, quay trái, phải) 182 CÁP PHẠM ĐÌNH THĂNG ccs (a) (b) (c) Hình (a) Kết thực nghiệm sở liệu TRECVID 2009; (b) Kết thực nghiệm sở liệu Đại Học Boston; (c) Kết ảnh hưởng trọng số kếthợp thay đổi giá trị Hình Kết thực nghiệm sở liệu đại học Boston với trường hợp khác (a) (b) (c) Hình Kết so sánh: a) Hệ thống kết hợp, b) dò tìm, c) theovết Thực nghiệm Hình so sánh kết hệ thống kếthợptheovếtdòtìm so với kếtdòtìmtheovết riêng lẻ Khung hình thứ 155 trích từ video sở liệu Boston Trong trường hợp này, đầu người tư nghiêng sang phải dòtìm bị lỗi không dòtìmmặtngười khung hình (Hình 6b), theovết hệ thống kếthợpxácđịnhvịtrímắtngườiMặt khác so sánh theovết hệ thống kếthợpkết thu từ hệ thống kếthợpxác hệ thống kếthợp giảm tỉ lệ lỗi từ bước trước nhờ kếtdòtìm Một trường hợp khác, thí nghiệm Hình 7: khung hình 31 hệ thống bị lỗi nhờ dòtìm (khung hình 53) giúp cho theovết giảm lỗi tích luỹ cho kếtxác (khung hình 54, 55) Thực nghiệm tích hợpvịtrímắtngười vào hệ thống chuẩn hoá nhận dạng ảnh mặtngười Chuẩn hoá ảnh mặtngười giai đoạn quan trọng hệ thống nhận dạng mặtngười Việc xácđịnh tự động vịtrímắt giúp cho hệ thống nhận dạng mặtngười không giảm thiểu chi phí thời gian mà nâng cao độxác cho hệ thống Bước XÁCĐỊNHVỊTRÍMẮTNGƯỜITRONGVIDEO 183 Hình Bộ dòtìm giúp cho theovết giảm thiểu lỗi tích luỹ đầu tiên, dòtìmmặtngườixácđịnh vùng chứa mặtngười Sau khoản cách hai vịtrí trung tâm mắt trái phải đầu vào quan trọng cho công đoạn chuẩn hoá ảnh mặtngườiTrong phần thực nghiệm tích hợpkếtxácđịnhvịtrímắtngười vào hệ thống chuẩn hoá nhận dạng mặtngười trường đại học Colorado State Hoa Kỳ Trong đó, trường hợp ảnh mặtngười với tư đầu nhìn nghiêng xoay chuẩn hoá lại Hình ví dụ trường hợp sử dụng vịtrímắtngười để chuẩn hoá ảnh mặtngười dạng nhìn nghiêng tư xoay Vàkết ảnh mặtngười chuẩn hoá thành dạng nhìn thẳng dựa vào khoảng cách hai mắt Hình Kết sử dụng vịtrímắtngười chuẩn hoá ảnh mặtngười Đối với việc nhận dạng mặt người, tiến hành thực nghiệm sở liệu Boston Số ảnh mặtngười sở liệu Boston 8955 ảnh người khác Thực nghiệm trường hợp: có sử dụng vịtrímắtngười không sử dụng Khi không sử dụng vịtrímắtngười thu 8158 ảnh mặtngười cho kếtVà sử dụng vịtrímắtkết 8591 ảnh Đối với sở liệu Boston nhờ kếtvịtrímắt tích hợp nên giúp cho hệ thống nhận dạng khuôn mặt tư nhìn nghiêng xoay (những trường hợpdòtìmmặtngười bị lỗi) nhờ nâng cao độxác toàn hệ thống Hơn nữa, việc xácđịnhvịtrímắt tự động giúp cho giảm thiểu nhiều thời gian chi phí cho việc gán nhãn mắt cho công đoạn chuẩn hoá ảnh mặtngười 184 CÁP PHẠM ĐÌNH THĂNG ccs KẾT LUẬN Bài báo đề xuất phương pháp xácđịnhvịtrímắtngười dựa việc kếthợptheovếtmắtngười sử dụng particle filter với dòtìmmắtngười Qua cho thấy lợi việc sử dụng thông tin thời gian chuyển động video Cả dòtìmtheovết sử dụng particle filter cho thấy hiệu việc kếthợp để tăng độxác hệ thống Thực nghiệm cho thấy ưu việc kếthợp trường hợp tư đầu người thay đổi, mắt nhắm mắtngười bị che khuất phần Kết thực nghiệm cho thấy độxác hệ thống kếthợp tăng từ 3% ± 5% so với dòtìm riêng lẻ tăng từ 12% ± 17% so với theovết riêng lẻ sở liệu TRECVID 2009 đại học Boston Ngoài thực nghiệm cho thấy kếtvịtrímắt đạt nhiều lợi tích hợp vào hệ thống chuẩn hoá nhận dạng ảnh mặtngười TÀI LIỆU THAM KHẢO [1] P Campadelli, R Lanzarotti, and G Lipori, Eye localization: a survey, The Fundamentals of Verbal and Non-verbal Communication and the Biometrical Issue, NATO Science Series, 2007 [2] W Peng, MB Green, J Qiang, J Wayman, Automatic eye detection and its validation, Proc 2005 IEEE CS Conf Computer Vision and Pattern Recognition (2005) 164–164 [3] R Valenti and T Gevers, Accurate eye center location and tracking using isophote curvature, Proc 2008 IEEE CS Conf Computer Vision and Pattern Recognition (2008) 1–8 [4] L Bai, L Shen, and Y Wang, A novel eye location algorithm based on radial symmetry transform, International Conf on Pattern Recognition (2006) 511—514 [5] A L Yuille, P W Hallinan, and D S Cohen, Feature extraction from faces using deformable templates, International Journal of Computer Vision (2) (1992) 99–111 [6] S Asteriadis, N Nikolaidis, A Hajdu, and I Pitas, An eye detec-tion algorithm using pixel to edge information, IEEE CS Conf on Control, Communications, and Signal Processing (2006) 1–4 [7] P Campadelli, R Lanzarotti, and G Lipori, Precise eye and mouth lo-calization, International Journal of Pattern Recognition and Artificial Intelligencece 23 (3) (2009) 359–379 [8] C Garcia and M Delakis, Convolutional face finder: A neural architecture for fast and robust face detection, IEEE Transactions on Pattern Analysis and Machine Intelligence 26 (11) (2004) 1408–1423 [9] X Tang, Z Ou, T Su, H Sun, and P Zhao, Robust precise eye location by adaBoost and SVM techniques, Advances in Neural Networks 3497 (2) (2005) 93—98 [10] J Huang and H Wechsler, Eye detection using optimal wavelet packets and radial basis functions, Journal of Pattern Recognition and Artificial Intelligence 13 (7) (1999) 1009–1026 [11] F Yang, J Huang, P Yang, D Metaxas, Eye localization through multiscale sparse dictionaries, IEEE Conf on Automatic Face and Gesture Recognition (0) (2011) 514–518 [12] K Grauman, M Betke, J Gips and G R Bradski, Communication via eye blinks detection and duration analysis in real time, Proc 2008 IEEE CS Conf.Computer Vision and Pattern Recognition (0) (2001) 1010–1017 XÁC ĐỊNHVỊTRÍMẮTNGƯỜITRONGVIDEO 185 [13] Wu Junwen and Trivedi Mohan M., An eye localization, tracking and blink pattern recognition system: Algorithm and evaluation, ACM Transactions on Multimedia Computing, Communications, and Applications (2) (2010) [14] Prez Patrick, Hue Carine, Vermaak Jaco, and Gangnet Michel, Color-based probabilistic tracking, European Conference on Computer Vision (3) (2002) 661–675 [15] J Oliver, K J Kirchberg, and F Robert, Robust face detection using the hausdorff distance, International Conf on Audio- and Video-Based Biometric Person Authentication 2091 (2) (2001) 90–95 [16] A T Duchowski, Eye Tracking Methodology: Theory and Practice, Springer, 2007 [17] Z Zhu and Q Ji, Robust real-time eye detection and tracking under variable lighting conditions and various face orientations, Journal of Computer Vision and Image Understanding 98 (1) (2005) 124–154 [18] c Morimoto, D Koons, A Amir, and Flickner, Pupil detection and tracking using multiple light sources, Journal of Image and Vision Computing 18 (4) (2000) 331–335 [19] K Lam and H Yan, Locating and extracting the eye in human face images, Journal of Pattern Recognition 29 (5) (1996) 771—779 Ngày nhận 10 - - 2013 Nhận lại sau sửa ngày 04 - - 2013 ... vào kết từ dò tìm, theo vết mắt người khởi tạo cách tự động; (2) nhờ vào vị trí mắt người khung hình trước, theo vết xác định vị trí mắt người khung hình cách liên tục trường hợp dò tìm xác định. .. này, phát triển phương pháp kết hợp kỹ thuật tiên tiến trước để xác định vị trí mắt người video Phương pháp kết hợp kết dò tìm mắt người theo vết mắt người, theo vết mắt người sử dụng mô hình “particle... trình sau: dò tìm mặt người sử dụng để xác định vị trí mặt người khung hình đầu tiên, sau việc xác định vị trí mắt người dựa vào dò tìm theo vết mắt người Đối với phương pháp dựa dò tìm, ý tưởng