1. Trang chủ
  2. » Luận Văn - Báo Cáo

TÍCH hợp THÔNG TIN HƯỚNG NHÌN vào SO KHỚP CHUỖI ẢNH mặt NGƯỜI TRONG VIDEO

61 77 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 61
Dung lượng 7,54 MB

Nội dung

ĐẠI HỌC QUỐC GIA TPHCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THƠNG TIN VÕ NHỰT THANH TÍCH HỢP THƠNG TIN HƯỚNG NHÌN VÀO SO KHỚP CHUỖI ẢNH MẶT NGƯỜI TRONG VIDEO LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH Mã số: 60.48.01.01 NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS LÊ ĐÌNH DUY TP HỒ CHÍ MINH - NĂM 2015 LỜI CẢM ƠN Tôi xin gửi lời cám ơn sâu sắc đến PGS TS Lê Đình Duy với ThS Phạm Cáp Đình Thăng TS Ngơ Đức Thành - người tin tưởng, tận tình hướng dẫn giúp tơi hồn thành luận văn với thầy cô trường đại học Công Nghệ Thông Tin - người tận tình giảng dạy cung cấp cho kiến thức tảng việc nghiên cứu Tôi xin cám ơn thành viên làm việc MMLAB trường đại học Công Nghệ Thông Tin đóng góp nhiều ý kiến q báu tơi thực luận văn Ngồi tơi xin cám ơn tác giả cung cấp liệu cho tơi để thực thực nghiệm Cuối lời cảm ơn cao dành cho cha mẹ, người hết lòng ni dưỡng ln động viên tơi q trình nghiên cứu LỜI CAM ĐOAN Tôi xin cam đoan luận văn thực đam mê công sức tơi đạo PGS TS Lê Đình Duy với hướng dẫn tận tình ThS Phạm Cáp Đình Thăng TS.Ngơ Đức Thành Luận văn thực trường Đại học Công Nghệ Thông Tin, TP.Hồ Chí Minh Những kết thống kê luận văn trình thực từ hệ thống liệu liệt kê Những nội dung sở kế thừa q trình viết luận văn tơi liệt kê mục tài liệu tham khảo cách trân trọng MỤC LỤC LỜI CẢM ƠN .1 LỜI CAM ĐOAN .2 MỤC LỤC DANH MỤC THUẬT NGỮ VÀ TỪ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ .7 MỞ ĐẦU .8 Chương TỔNG QUAN 10 Giới thiệu chung 11 1.1.1 Bài tốn tìm kiếm nhân vật video dựa face-track 12 1.1.2 So khớp face-track 14 1.1.3 So khớp face-track có tích hợp thơng tin hướng nhìn 15 Mục tiêu luận văn 16 Đóng góp luận văn 16 Bố cục luận văn 17 Chương CÁC CƠNG TRÌNH NGHIÊN CỨU LIÊN QUAN 18 Các đặc trưng biểu diễn ảnh mặt người .19 2.1.1 Local Binary Pattern (LBP) 20 2.1.2 Scale Invariant Feature Transform (SIFT) 21 2.1.3 Bộ lọc Gabor 23 2.1.4 Eigenfaces .24 2.1.5 Linear Discriminant Analysis .25 Các phương pháp biểu diễn face-track 27 2.2.1 Phương pháp dựa tập điểm 27 2.2.2 Phương pháp dựa phân bố xác suất .29 2.2.3 Biểu diễn face-track Video Fisher Vector Faces (VF2) .30 Chương PHƯƠNG PHÁP ĐỀ XUẤT 34 Biểu diễn ảnh mặt người 35 Biểu diễn face-track tích hợp thơng tin hướng nhìn .35 So khớp face-track .39 Chương THỰC NGHIỆM VÀ ĐÁNH GIÁ 42 Tiêu chuẩn đánh giá .43 4.1.1 Độ xác 43 4.1.2 Tốc độ thực thi 47 Thực nghiệm 47 4.2.1 Các liệu thực nghiệm 47 4.2.2 Xây dựng tập sở liệu face-track 48 4.2.3 So khớp face-track (áp dụng cho trường hợp có tích hợp hướng nhìn khơng có): 49 4.2.4 Chương Kết thực nghiêm .49 KẾT LUẬN .55 TÀI LIỆU THAM KHẢO 56 DANH MỤC THUẬT NGỮ VÀ TỪ VIẾT TẮT Thuật ngữ Diễn giải Face-track Chuỗi ảnh mặt người Pose Hướng nhìn mặt người Dataset Tập liệu chứa ảnh mặt người MSM Mutual Subspace Method CMSM Constrained Mutual Subspace Method LBP Local Binary Pattern AP Average Precision MAP Mean Average Precision FV Fisher Vector FVF Fisher Vector Face IFV Improved Fisher Vector SIFT Scale-Invariant Feature Transform PCA Principal Components Analysis SVM Support Vector Machines DANH MỤC CÁC BẢNG Số hiệu: Tiêu đề Trang Bảng 4-1: Tính tốn giá trị Precision(r) × rel(r) ví dụ Hình 4.1 45 Bảng 4-2: Bảng hướng nhìn mặt người tập ảnh “Head Pose” 47 Bảng 4-3: Bảng hướng nhìn (pose) tập ảnh “Color Feret” 48 Bảng 4-4: Kết thực nghiệm data set “Head Pose” 49 Bảng 4-5: Kết thực nghiệm data set “Color Feret” 51 DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Số hiệu: Tiêu đề Trang Hình 1-1: Thơng tin hướng nhìn Hình 1-2: Ví dụ face-track - face-track ứng với người Hình 1-3 Bài tốn so khớp face-track Hình 1-4 Mơ hình tìm kiếm nhân vật video dựa face-track Hình 1-5 So khớp face-track Hình 1-6: So khớp face-track có tích hợp thơng tin hướng nhìn Hình 2-1: Rút trích đặc trưng cho ảnh face-track Hình 2-2: Tốn tử LBP áp điểm ảnh (Nguồn [20]) Hình 2-3: Rút trích LBP cho ảnh mặt người (Nguồn [20]) Hình 2-4: Tính tốn mơ tả (descriptor) cho SIFT với lưới 2×2 (Nguồn [22]) Hình 2-5: Bộ lọc Gabor có tính chất lọc cạnh: ảnh gốc (hình trái) ảnh sau qua lọc Gabor (hình phải) (Nguồn matlabserver) Hình 2-6: Tập 40 lọc Gabor ứng với scale hướng (Nguồn [17]) 12 13 13 14 15 16 19 20 21 22 23 24 Hình 2-7: Mặt riêng (Nguồn[11]) Hình 2-8: Ví dụ chọn mặt phẳng chiếu LDA (Nguồn [11]) Hình 2-9: Khoảng cách hai face-track thuật tốn min-min (Nguồn [11]) 25 26 Hình 2-10: Phương pháp k-Faces với k = (Nguồn [15]) Hình 2-11: Mơ hình face-track GMM (Nguồn [21]) Hình 2-12 Theo dõi phận khn mặt GMM Hình 3-1: Vector trung bình xấp xỉ cho vector riêng thứ 29 29 31 (Nguồn [11]) Hình 3-2: Hàm biến đổi tuyến tính Hình 3-3: Hàm biến đổi Gaussian Hình 3-4: Hàm biến đổi Threshold Hình 3-5: Tính tốn khoảng cách cosin trước (a) sau (b) chuẩn hóa trung bình (Nguồn Hìnhkhơng 4-1: Tính AP [11]) cho face-track truy vấn Hình 4-2: Kết thực nghiệm tập liệu “Head Pose” Hình 4-3: Face-track truy vấn dataset Head Pose Hình 4-4: Kết danh sách xếp hạng dataset Head Pose Hình 4-5: Kết thực nghiệm tập liệu “Color Feret” Hình 4-6: Face-track truy vấn dataset Color Feret Hình 4-7: Kết danh sách xếp hạng dataset Color Feret 28 37 38 39 39 41 46 49 50 51 52 52 53 MỞ ĐẦU Với những nghiên cứu liên quan đế n sự tương tác giữa khuôn mă ̣t và máy tin ́ h sẽ giúp ích rấ t nhiề u cho những người khuyế t tâ ̣t, những ứng du ̣ng an ninh, truy tìm tô ̣i pha ̣m, cũng ngày càng nhiề u hin ̀ h ảnh, đoa ̣n phim dài đươ ̣c chia sẽ và có nhu cầ u truy tìm thông tin trở nên cầ n thiế t, mô ̣t những hướng có thể tiế p câ ̣n là so khớp face-track, và bài toán so khớp face-track có tích hợp thơng tin hướng nhìn Cũng từ những bước bản này, chúng ta phát triể n những nghiên cứu về nhâ ̣n da ̣ng biể u cảm, nén ảnh, hiể u cách hiê ̣u của mơi (lip-reading) Ngày nay, có khối lượng hình ảnh khổng lồ lưu trữ hệ thống máy chủ, việc đánh mục hình ảnh bước quan trọng giúp cho quản lý, tìm kiếm, thống kê liệu video kho ảnh lớn cách hiệu quả, nhanh chóng dễ dàng Một đối tượng xuất thường xuyên kho hình ảnh mặt người nên việc đánh mục cho mặt người nhiều người quan tâm nghiên cứu đặc biệt có xem xét thêm thơng tin hướng nhìn mặt người để đem đến độ xác cao Một việc đánh mục hình ảnh cho đối tượng mặt người giải dẫn tới hàng loạt ứng dụng lớn thực tế như: tìm kiếm nhân vật trong video kho ảnh lớn, thống kê kiện nhân vật có ảnh hưởng giai đoạn định, v.v…Luận văn tập trung vào việc so khớp face-track có tích hợp thơng tin hướng nhìn kho ảnh khổng lồ Có hai hướng tiếp cận hướng tiếp cận sử dụng ảnh khuôn mặt (single face) để đại diện cho nhân vật hướng tiếp cận sử dụng face-track Cả hai hướng tiếp cận phải đương đầu với thách thức chung tốn tìm kiếm nhân vật video kho ảnh lớn như: thay đổi liên tục tư đầu, biến đổi nét mặt, ảnh hưởng điều kiện chiếu sáng, che khuất đối tượng khác nhiễu từ môi trường Tuy nhiên, hướng tiếp cận sử dụng face-track có lợi hướng tiếp cận dùng ảnh đơn dùng nhiều ảnh để biểu diễn nên có khả bao phủ vùng rộng biến đổi mặt người đặc biệt có thêm thơng tin hướng nhìn Chính lợi mà luận văn chọn hướng tiếp cận dùng face-track cho toán so khớp face-track video kho ảnh lớn Một vấn đề hướng tiếp cận dùng nhiều ảnh để biểu diễn, khiến cho thuật toán so khớp dùng face-track phải xử lý với khối lượng liệu lớn Trong đó, thuật tốn chưa có khả cân độ xác tốc độ: số thuật tốn có khả cho kết tốt cần nhiều thao tác tính tốn phức tạp dẫn tới tốc độ xử lý chậm, khơng thích hợp xử lý với khối lượng liệu lớn; số thuật tốn khác đạt tốc độ nhanh nhờ tính tốn đơn giản lại phải đánh đổi độ xác Chính thiếu thuật tốn có khả đảm bảo độ xác tốc độ xứ lý nên luận văn tiến hành đánh giá số thuật toán tiên tiến (k-Faces[15], minmin[12], MSM[14], CMSM[13], mean-cos[11] v.v…), với kết thu khả quan với thuật tốn mean-cos đạt độ xác tương đương với thuật tốn đảm bảo tốc độ tính tốn Thuật tốn sử dụng vector trung bình để biểu diễn cho face-track sử dụng khoảng cách cosine để tính tốn độ khác biệt face-track Luận văn vector trung bình xấp xỉ thành phần thứ liệu, cần sử dụng vector biểu diễn có đạt kết tương đương với thuật tốn khác, sử dụng khoảng cách cosine – sử dụng thành công phương pháp không gian MSM (Mu, CMSM – giúp cho đạt kết tốt giai đoạn so khớp Việc cần sử dụng vector để biểu diễn face-track giúp thuật tốn đề xuất có lợi lớn tốc độ tính tốn so với hướng tiếp cận khác Độ xác thuật tốn so sánh dựa độ đo MAP (Mean Average Precision Kết cho thấy thuật tốn mean-cos có độ xác vượt qua k-Faces, min-min, MSM so sánh với CMSM tốc độ mean-cos thua k-Faces Kết chứng tỏ thuật tốn mà luận văn đề xuất có khả đạt tốc độ truy vấn nhanh sở liệu lớn đảm bảo độ xác, điều mà thuật tốn đảm bảo hai yếu tố Chương THỰC NGHIỆM VÀ ĐÁNH GIÁ Hình 4-1: Tính AP cho face-track truy vấn 46 Chương THỰC NGHIỆM VÀ ĐÁNH GIÁ 4.1.2 Tốc độ thực thi Tốc độ thuật toán đo độ phức tạp thuật toán đồng thời đo kết thực thi thuật toán dựa thời gian thực Tốc độ thuật toán đo hai giai đoạn biểu diễn face-track so khớp face-track, thuật tốn có thời gian chạy nhỏ có tốc độ nhanh Thực nghiệm 4.2.1 Các liệu thực nghiệm Đối với toán so khớp face-track có tích hợp thơng tin hướng nhìn dạng tốn nên cần tìm liệu (tập ảnh) thật chuẩn để dễ dàng đánh giá Do đó, thực nghiệm thực hai liệu chuẩn có số lượng ảnh phù hợp Bộ liệu Head Pose có khoảng 2.000 ảnh mặt người liệu Color Feret có khoảng 10.000 ảnh mặt người Cụ thể thông tin hai liệu mô tả bên 4.2.1.1 Head Pose Tập ảnh “Head Pose” có 15 người với 2.790 ảnh Mỗi người bao gồm nhiều ảnh mặt người có hướng nhìn khác đơi Mỗi người điều có ảnh khác Các ảnh có kích thước 384 x 288 - Tập ảnh: Head Pose - Số người: 15 - Số face-track: 30 - Số ảnh: 2.790 - Kích thước ảnh: 384 x 288 - Bảng hướng nhìn bên Bảng 4-2: Bảng hướng nhìn mặt người tập ảnh “Head Pose” Hướng nhìn theo chiều dọc Hướng nhìn theo chiều ngang -90, -60, -30, -15, 0, +15, +30, +60, +90 -90, -75, -60, -45, -30, -15, 0, +15, +30, +45, +60, +75, +90 4.2.1.2 Color Feret Tập ảnh “Color Feret” có 992 người với 10.830 ảnh Mỗi người bao gồm nhiều ảnh mặt người có hướng nhìn khác đơi Mỗi người có số lượng 47 Chương THỰC NGHIỆM VÀ ĐÁNH GIÁ ảnh khác lưu thư mục Các ảnh có kích thước 512 x 768 - Tập ảnh: Color Feret - Số người: 992 - Số face-track: 1984 - Số ảnh: 10.830 - Kích thước ảnh: 512 x 768 - Bảng hướng nhìn bên Bảng 4-3: Bảng hướng nhìn (pose) tập ảnh “Color Feret” Mã Hướng nhìn Mã Hướng nhìn Mã Hướng nhìn fa be 15 hr 67.5 fb bf -15 pl -90 ba bg -25 pr 90 bj bh -40 45 bk bi -60 rb 10 bb 60 ql -22.5 rc -10 bc 40 qr 22.5 rd -45 bd 25 hl -67.5 re -80 4.2.2 Xây dựng tập sở liệu face-track Tính vector đặc trưng LBP cho tất ảnh mặt người Như người có tập vector đặc trưng LBP xem face-track Tính vector đặc trưng LBP trung bình face-track có tích hợp thơng tin hướng nhìn mặt người theo trường hợp sau:  Not: Tính trung bình tất ảnh Khơng có tích hợp Pose  Linear: Tính trung bình tất ảnh Có tích hợp Pose theo dạng tuyến tính  Gaussian: Tính trung bình tất ảnh Có tích hợp Pose theo dạng gaussian  Threshold: Tính trung bình tất ảnh Có tích hợp Pose

Ngày đăng: 23/12/2018, 06:15

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w