+ Tìm hiểu và áp dụng các phương pháp chia một bộ phim thành các shot.+ Tìm hiểu và áp dụng các phương pháp dò tìm khuôn mặt face detection, mô tả đặc trưng của khuôn mặt feature.. + Tìm
Trang 1ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA KHOA HỌC MÁY TÍNH
PHẠM NGUYỄN THANH HÀ
KHÓA LUẬN TỐT NGHIỆP
TRUY XUẤT NHÂN VẬT TRONG PHIM DỰA TRÊN ẢNH MẪU
CỬ NHÂN NGÀNH KHOA HỌC MÁY TÍNH
TP HỒ CHÍ MINH, 2022
Trang 2ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRƯỜNG DAI HOC CÔNG NGHỆ THONG TIN
KHOA KHOA HỌC MAY TÍNH
PHAM NGUYEN THANH HA - 19521458
KHOA LUAN TOT NGHIEP
TRUY XUẤT NHÂN VAT TRONG PHIM DỰA TREN ANH MẪU
CỬ NHÂN NGANH KHOA HOC MAY TÍNH
GIANG VIÊN HƯỚNG DAN
TS MAI TIEN DUNG
TP HỒ CHÍ MINH, 2022
Trang 3[MẪU ĐỀ CƯƠNG CHI TIẾT]
ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh PhúcCÔNG NGHỆ THÔNG TIN
ĐỀ CƯƠNG CHI TIẾT
TÊN ĐỀ TÀI: TRUY XUẤT NHÂN VẬT TRONG PHIM DỰA TRÊN ẢNH MẪU
Cán bộ hướng dẫn: TS Mai Tiến Dũng
Thời gian thực hiện: Từ ngày /09/2022 đến ngày /1/2023
Sinh viên thực hiện:
Phạm Nguyễn Thanh Hà - 19521458
Nội dung đề tài:
- Giới thiệu về đề tài:
Truy xuất video của một người cụ thể với hình ảnh khuôn mặt của họ khi truy vấn
ngày càng trở nên hấp dẫn hơn đối với các ứng dụng như tua nhanh phim thông minh và
tìm kiếm đáng ngờ Nó cũng tạo thành một nhiệm vụ thị giác máy tính thú vị nhưng đầy thử thách, vì dữ liệu hình ảnh để khớp, tức là hình ảnh tĩnh và video clip thường được thể hiện khá khác nhau.
Mục tiêu của bài toán này là truy xuất nhân vật trong phim dựa trên ảnh mẫu của
nhân vật, tức là truy xuất những cảnh quay trong phim có sự xuất hiện của nhân vật này.
Điều này là một thách thức bởi vì các khuôn mặt trong một bộ phim dài tập tương đối không được kiểm soát với sự thay đổi rộng rãi về tỷ lệ, tư thế, ánh sáng và biểu cảm, và
cũng có thể bị che khuất một phần.
Trong phạm vi đề tài này, em xin phép được tìm hiểu các phương pháp được áp dung
để giải quyết bài toán này.
- Mục tiêu của đề tài:
Trang 4+ Tìm hiểu và áp dụng các phương pháp chia một bộ phim thành các shot.
+ Tìm hiểu và áp dụng các phương pháp dò tìm khuôn mặt (face detection), mô tả đặc trưng của khuôn mặt (feature).
+ Tìm hiểu và áp dụng các phương pháp truy vấn các nhân vật dựa trên các đặc trưng của
khuôn mặt.
+ Nghiên cứu cải tiến hiệu quả truy xuất dựa trên các đặc điểm của các ảnh mẫu.
+ Thực nghiệm các phương pháp chính được áp dụng trong khóa luận (trên tập dữ liệu
TRECVID-MSUM-2022).
Nội dung nghiên cứu của đề tài:
- Mô tả bài toán:
+ Đầu vào: Một danh sách các ảnh mẫu nhân vat Kiya trong bộ phim “Like me” và bộ phim
“Like me”.
(8) Kiya2.pnrr
{b) Kiyadpng, (E} Kiya5.pngr (F} Kiya6.png,
Hine 11: Các ảnh mẫu của nhân vật Kiya + Đầu ra: Một danh sách các cảnh quay trong bộ phim “Like me” có sự xuất hiện của nhân
vật này
- Nội dung 1: Tìm hiểu về quy trình của phương pháp
++ Tìm kiếm, khảo sát và tổng hợp tài liệu liên quan đến các công nghệ, kỹ thuật sử dụng
trong các bài báo liên quan Qua đó tổng quát hóa quy trình của phương pháp.
++ Chạy thử các model, dataset cung cấp sẵn vá đánh giá.
- Nội dung 2: Thực nghiệm trên tập dữ liệu TRECVID-MSUM-2022
+ Xử lí dữ liệu video: Chia video thành các shots (cảnh quay).
+ Dò tìm khuôn mặt và mô tả đặc trưng khuôn mặt.
+ Truy vấn nhân vật dựa trên ảnh mẫu.
Trang 5+ Đề xuất cải tiến.
Tài liệu tham khảo:
O Arandjelovic and A Zisserman, "Automatic face recognition for film character retrieval
in feature-length films," 2005 IEEE Computer Society Conference on Computer Vision
and Pattern Recognition (CVPR'05), 2005, pp 860-867 vol 1, doi:
10.1109/CVPR.2005.81.
https: //www.robots.ox.ac.uk/~vgg/publications/2005/Arandjelovic05a/arandjelovic 05a.pdf
Trang 6DANH SACH HOI DONG BAO
VE KHOA LUAN
Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số
154/QD-DHCNTITT ngày 01/03/2023 của Hiệu trưởng Trường Dai học Công nghệ
Thông tin.
1 TS Lê Minh Hưng - Chủ tịch.
2 ThS Nguyễn Thị Ngọc Diễm - Thu ký.
3 ThS Đỗ Văn Tiền - Ủy viên.
Trang 7Trước hết, em xin chân thành cảm ơn Trường Đại học Công nghệ thông tin
- Đại học Quốc gia TP.HCM va Khoa Khoa học máy tinh đã tạo điều kiệncho phép em thực hiện đề tài nghiên cứu này
Em xin chân thành cảm ơn thầy Mai Tiến Dũng đã nhận làm giáo viênhướng dẫn đề tài của em Cảm ơn thầy đã luôn hỗ trợ, định hướng cách tư
duy và cách làm việc khoa học cho em trong quá trình làm khoá luận Cảm
ơn những nhận xét, lời khuyên và kiến thức hữu ích của thầy Đó là nhữnggóp ý hết sức quý báu không chỉ trong quá trình thực hiện luận văn này màcòn là hành trang tiếp bước cho em trong quá trình học tập và lập nghiệp
Sau này.
Trang 8Muc luc
1 TONG QUAN
11 Giới thiệu tổng quan) 2 ee ee
1.2 Mô tả bài toán|
21 Truy xuấtvideo khuôn mặt - 7
| phim co thời lượng dài [l|| - 7
Trang 93.4.2 ArcFace- Additive Angular Margin Loss} 17
Phương hướng tiếp cận 17
Đối với một face query| - 25
Đối với nhiều face query| - 27
4_ THỰC NGHIỆM VÀ DANH GIÁ 31
4.1 Môi trường và ngôn ngữ cài đặt| 31 4.2 Phương pháp đánh giái - 31
4.2.1 PrecisionvàlRecall 32
Trang 104.3 Tập dư liệu thực nghiệm| 34
Trang 114.6.5 Movie: Memphi|l
Nhân vật Willisl
5 KÊT LUẬN
51 Kếtluận
5.2_ Hướng phat triển
TÀI LIỆU THAM KHẢO
XI
51
51
53 53
55
Trang 12Danh sach hinh ve
1.1 Minh họa các ảnh mẫu của nhân vat "Kiya" trong bộ phim
"Like me" trong tập du liệu TRECVID-MSUM-2022[7]| 2
1.2_ Minh họa các ảnh mẫu của nhân vật "Byrd" trong bộ phim
Trang 13Minh hoa kết quả trả về của nhân vat Burt phim Like Me} 49Minh họa kết quả trả về của nhân vat Kiya phim Like Me] 50
Minh họa kết quả trả về của nhân vật Sara phim Losing Ground] 51
Minh họa kết quả trả về của nhân vật Willis phim Memphisl 52
Trang 14Danh sách bảng
dung cosine distance va squared euclidean distance] 38
4.6 Kết qua AP của nhân vat Burt phim Like Me khi sử dung
cosine distance va squared euclidean distance] 39
4.7 Kết qua AP của nhân vat Kiya phim Like Me khi sử dung
cosine distance va squared euclidean distance} 40
4.8 Kết qua AP của nhân vat Sara phim Losing Ground khi sử
dung cosine distance va squared euclidean distance] 41
Trang 15Danh mục từ viết tat
CNN Convolutional Neural Network
UCSD University of Califonia San Diego
FAIR Facebook AI Research
CVPR (IEEE) Conference on Computer Vision and Pattern Recognition fps Frames per second
Trang 16TÓM TẮT KHOÁ LUẬN
Trong khoá luận tốt nghiệp này, em tập trung nghiên cứu về bài toán truy
xuất nhân vật trong phim dựa trên ảnh mẫu Bài toán truy xuất nhân vậttrong phim dựa trên ảnh mẫu được mô tả như sau: Đầu vào là một bộ
phim và một danh sách các ảnh mẫu của nhân vật cụ thể (các ảnh này chủ
yêu là các ảnh chứa khuôn mặt) được trích xuất từ bộ phim Đầu ra là một
danh sách các cảnh quay (shot) trong bộ phim có sự xuất hiện của nhân
vật Bài toán này nhằm mục đích giúp người dùng truy xuất tất cả những
cảnh quay của nhân vật mà mình yêu thích trong một bộ phim Đây cũng
là một bài toán có nhiều ứng dụng quan trọng trong bối cảnh sự phát triểnbùng nổ của dữ liệu đa phương tiện trong các thiết bị kỹ thuật số cá nhân
và công cộng.
Vì cách tiếp cận của bài toán này dựa trên việc nhận dạng khuôn mặt để
xác định nhân vật trong bộ phim nên sẽ chịu ảnh hưởng từ nhiều yếu tố
khác nhau Ví dụ như các biểu hiện trên khuôn mặt, bao gồm cả nhắm hai mắt hoặc một mắt hay tư thế đầu khi cúi xuống và ngẩng cao Các phần
của khuôn mặt bị che do thay đổi kiểu tóc, mọc râu hay ria mép cũng là
một vấn dé Đặc biệt điều kiện ánh sáng cũng có thể gây ra khó khăn trong
việc nhận dạng khuôn mặt,
Trong phạm vi khoá luận, em tập trung tìm hiểu các phương pháp được áp
dụng để giải quyết bài toán này, sau đó sẽ tiến hành thực nghiệm trên tập
dữ liệu TRECVID-MSUM-2022.
Trang 17các thách thức mà bài toán đang gặp phải Em trình bày các phương pháp
đã có để giải quyết bài toán đồng thời giới thiệu phương pháp mà em sẽ
tập trung tìm hiểu Em đưa ra mục tiêu, nội dung cụ thể và phương pháp
thực hiện Cấu trúc của Khóa luận tốt nghiệp cũng sẽ được đề cập trong
chương này.
11 Giới thiệu tổng quan
Bài toán truy xuất các nhân vật trong phim dựa trên các hình ảnh mẫu củanhân vật là một trong những bài toán có tính ứng dụng cao trong thực tế
Chẳng hạn như truy xuất những cảnh quay (shot) có sự xuất hiện của một
nhân vật mà người dùng quan tâm hoặc yêu thích trong một bộ phim
9| ; hoặc thực hiện tóm tắt những cảnh phim quan trọng hay có sự kiện
Trang 18Chương 1 TONG QUAN 2
chính (keyfact events) của một nhân vật trong một bộ phim [7]; chúng ta có
thể xác định và theo đõi một nghỉ phạm tội phạm dựa vào hình anh từ hệ
thông camera giám sát.
1.2 Mô tả bài toán
Bài toán chính của khóa luận có thể được mô tả như sau:
(A) Kiya1.png
(D) Kiya4.png (E) Kiya5.png (F) Kiya6.png
HINH 1.1: Minh họa các ảnh mẫu của nhân vat "Kiya" trong bộ
phim "Like me" trong tap dtr liệu TRECVID-MSUM-2022 (71.
- Một bộ phim M.
Trang 19Chương 1 TONG QUAN 3
— Một danh sách các ảnh mẫu (còn được gọi là anh face query) E°
của nhân vật c trong phim M Các ảnh mẫu này được trích xuất
từ M, phổ biến là các ảnh chứa khuôn mặt của nhân vật c.
e Dau ra:
- Một danh sách S‘, gồm các cảnh quay (shot) thuộc tập phim M,
trong những cảnh quay này có chứa nhân vật c.
1.3 Những thách thức
1.3.1 Thời lượng phim dai
Mỗi tập phim không chỉ có dung lượng lưu trữ lớn mà còn có thời lượng
đài (trung bình khoảng 86 phút), số khung hình rất lớn (trung bình 30 fps).Điều này đòi hỏi phải có giải pháp xử lý hiệu quả trên đữ liệu này
1.3.2 Cac yếu tô ảnh hưởng đến sự xuất hiện của nhân vật
trong phim
Do mỗi bộ phim là một câu chuyện diễn ra trong một cuộc đời hay một
quãng thời gian dài diễn ra trong đời sống của nhân vật, vì thế chúng ta
dé dàng gặp phải những van dé đặc biệt thách thức khi thực hiện bài toán
này Chẳng hạn:
® Điều kiện ánh sáng của mỗi cảnh phim khác nhau.
* Góc quay của nhân vật thay đổi
s® Nhân vật có nhiều biểu cảm khác nhau
Trang 20Chương 1 TONG QUAN 4
se Gương mặt của nhân vật bị che khuất (do thay đổi kiểu tóc, moc râu
hoặc có thêm phụ kiện, ).
Hình [I.2|bên dưới là một minh họa cho những thách thức mà em đã nêu ở
trên Nhìn ảnh (A), ảnh (C), ảnh (D) có thể thấy, góc quay của nhân vật thay
đổi cũng là một vấn dé Nhân vat “Byrd” trong những bức hình này khuôn
mặt không cố định một hướng chính diện mà lúc lúc thì quay trái, lúc lại
quay phải Biểu cảm phong phú của nhân vật như ảnh (E) và ảnh (F) cũng
gây ra khó khăn trong việc nhận dạng Hoặc như hình[1.1| vì điều kiện ánh
sáng không đủ làm cho khuôn mặt của nhân vật “Kia” trong ảnh bị tối đi(ảnh (F)) Nhân vật này còn đeo cả mặt na (anh (A), ảnh (E)) khiến cho mộtphần khuôn mặt bị che khuất Tat cả những van dé này đều là những tháchthức cần giải quyết khi thực hiện đề tài này
1.4 Mục tiêu khóa luận
Bài toán truy vấn nhân vật trong các tập phim là một bài toán khó và cónhiều thách thức Vì thế nội dung khóa luận được giới hạn vào các mục
tiêu sau:
¢ Tìm hiểu va áp dụng phương pháp chia một bộ phim thành các shot
® Tìm hiểu và áp dung các phương pháp do tìm khuôn mặt (face
detec-tion), mô tả đặc trưng của khuôn mặt (feature extraction).
se Tìm hiểu và áp dụng các phương pháp truy vân các nhân vật dựa trên
các đặc trưng của khuôn mặt.
Trang 21Chương 1 TONG QUAN 5
(C) Byrd_3.png
(D) Byrd_4.png (E) Byrd_5.png (F) Byrd_6.png
HÌNH 1.2: Minh họa các ảnh mẫu của nhân vat "Byrd" trong bộ
phim "Calloused Hands" trong tập dữ liệu
TRECVID-MSUM-2022
se Thực nghiệm các phương pháp chính được áp dụng trong khóa luận
(trên tập dữ liệu TRECVID-MSUM-2022 [7]]) và chương trình minhhọa chức năng truy vấn nhân vật trong phim dựa trên các ảnh mẫu
của nhân vật.
Trang 22Chương 1 TONG QUAN 6
1.5 Dong gop chinh
Với sự hướng dẫn của giảng viên hướng dẫn, em đã vận dụng những kiến
thức và kỹ năng để hoàn thành khoá luận này Những đóng góp của em
trong khoá luận gồm:
© Tìm hiểu, nghiên cứu các phương pháp để giải quyết bài toán Cu thé
là: phương pháp chia bộ phim thành các shot, phương pháp dò tìm và
mô tả đặc trưng khuôn mặt và phương pháp truy vấn nhân vật rong
phim dựa trên ảnh mẫu.
¢ Áp dụng các phương pháp đã tìm hiểu để thực nghiệm trên tập dữ
liệu TRECVID-MSUM-2022.
e Xây dựng một chương trình ứng dụng với chức năng truy xuất nhân
vật trong phim dựa trên ảnh mẫu.
1.6 Cau trúc Khóa luận tốt nghiệp
Nội dung Khóa luận tốt nghiệp được tổ chức như sau:
° Chương[1 Giới thiệu tổng quan về khóa luận.
° Chương} Trình bày các nghiên cứu liên quan đến bài toán này.
° Chương} Trình bày chỉ tiết các hướng tiếp cận của khóa luận.
se Chương H Trình bày môi trường thực nghiệm, tập dữ liệu, phương
pháp đánh giá và kết quả thực nghiệm
¢ Chương |5} Kết luận và hướng phát triển của khóa luận
Trang 23Chương 2
NGHIÊN CỨU LIÊN QUAN
2.1 Truy xuất video khuôn mặt
Truy xuất video khuôn mặt - Face video retrieval là tìm các video chứa
khuôn mặt của một người cụ thể từ cơ sở dữ liệu (database) có hình ảnh
khuôn mặt hoặc video khuôn mặt của cùng một người làm truy vẫn (query)
2.2 Nhận dạng khuôn mặt tự động để truy xuất
1
Nghiên cứu nay được thực hiện bởi Ognjen Arandjelovíc va Andrew
Zis-nhân vật trong phim có thời lượng đài
serman vào năm 2005 Mục tiêu của nghiên cứu này là nhận dạng tất cả các
khuôn mặt chính diện của một nhân vật trong một bộ phim hoặc hài kịch
tình huống, với một số lượng nhỏ các khuôn mặt truy van
Trang 24Chương 2 NGHIÊN CUU LIEN QUAN 8
2.2.1 Tổng quan
Cach tiép can bao gom tính toán một giá tri số, một khoảng cách, thể hiệnmức độ tin cậy rằng hai hình ảnh khuôn mặt thuộc về cùng một người.Khoảng cách thấp, lý tưởng là 0, có nghĩa là hình ảnh là của cùng một
người, trong khi khoảng cách lớn biểu thị rằng chúng là của những người
khác nhau.
Phương pháp này liên quan đến việc tính toán một loạt các phép biến đổi
của ảnh gốc, mỗi phép biến đổi nhằm mục đích loại bỏ các tác động của
một yếu tố hình ảnh bên ngoài cu thể Kết quả cuối cùng 1a signature image(đặc trưng hình ảnh) của một người, phụ thuộc chủ yếu vào danh tính (vàbiểu hiện) của người đó và có thể dễ dàng phân loại
2.2.2 Các mô hình sử dụng
SVM
Support Vector Machine - SVM là một mô hình máy học có giám sát được
sử dụng cho các van dé phân loại hai nhóm Sau khi đưa ra một tap hop
mô hình SVM gồm đữ liệu đào tạo được gắn nhãn cho từng danh mục, họ
có thể phân loại dữ liệu thử nghiệm mới
SVM phân loại dữ liệu dựa trên mặt phẳng margin tối đa Ranh giới quyết
định SVM là thẳng SVM là một thuật toán thực sự tốt để phân loại hình
ảnh Kết quả thử nghiệm cho thay các SVM đạt được độ chính xác tìm kiếm
cao hơn đáng kể so với các lược đồ sàng lọc truy van truyền thống chỉ sau
ba đến bốn vòng phản hồi mức độ liên quan
Trang 25Chương 2 NGHIÊN CUU LIEN QUAN 9
Kernel PCA
Phân tích thành phan chính (PCA) là một công cụ phổ biến để giảm kích
thước tuyến tính và trích xuất tính năng.
Kernel PCA là dạng PCA phi tuyến tính, khai thác tốt hơn cấu trúc không
gian phức tạp của các tính năng high-dimensional; cho phép phân tách dữ
lẢnh lấy từ:
https://towardsdatascience.com/building-a-facial-recognition-model-using-pca-svm-algorithms-c81d870add16
Trang 26Chương 2 NGHIÊN CUU LIEN QUAN 10
liệu phi tuyến tính bang cách sử dung các hạt nhân Y tưởng cơ bản dang
sau nó là chiếu dữ liệu không thể tách rời tuyến tính lên một không giannhiều chiều hơn, nơi dir liệu có thể tách rời tuyến tính
Kernel PCA có thể được tóm tắt thành một quy trình gồm 4 bước [13]:
e Xây dựng ma trận kernel từ tập dữ liệu huấn luyện
Ki; = K(%¡, x;) (2.1)
e Nếu tập dữ liệu du kiến j(x;) không có giá trị trung bình bằng 0, hãy
sử dung ma tran Gram K, để thay thé ma trận kernel K
2.3 Tóm tat phim - Movie Summarization
Mục tiêu nắm bat các sự kiện quan trong về những nhân vật nhất định
trong cốt truyện phim
Trang 27Chương 2 NGHIÊN CUU LIEN QUAN 11
Tổng quan
Với mô tả đầu vào là một bộ phim full-length, một nhân vật trong phim cùng với danh sách các ảnh mẫu hoặc các video mẫu về nhân vật đó Nhiệm
vụ xuyên suốt nghiên cứu là thu thập các sự kiện quan trọng (key facts) về
câu chuyện của nhân vật đó Những sự kiện quan trọng đó được thể hiện
thông qua bản tóm tắt video với độ dài tối đa hạn chế hoặc bản tóm tắt văn bản với số lượng từ và câu hạn chế.
— =
detection XS Similarity / ` score ranking — „`,
í Shot \_ ®wdoettÐ Text ` Fusi *
\\ splitting ,X text a similarity _/ `, be ae —sẽ _ =< ~ wif Nl #“———
Trang 28Chương 3
HƯỚNG TIẾP CAN
TRONG KHÓA LUẬN
® Mô tả đặc trưng khuôn mặt
¢ Truy van nhân vật dựa trên ảnh mẫu
Các bước để giải quyết bài toán được thể hiện ở sơ dé hình |3.1|
Cu thé, từ bộ phim (movie) em tiến hành chia thành các shot (shot
bound-ary detection) Các shot sẽ được tách thành các frames, sau đó em thực hiện
đò tìm khuôn mặt (face detection) để phát hiện những khuôn mặt có trong
Trang 29Chương 3 HƯỚNG TIẾP CẬN TRONG KHÓA LUẬN 13
8 =|
@®œ.=e==.1ố
HINH 3.1: Sơ đồ quy trình các bước giải quyết bài toán trong
khóa luận
các frames đó và rút trích đặc trưng khuôn mặt (feature extraction) Đồng
thời, em cũng sẽ thực hiện đò tìm và rút trích đặc trưng khuôn mặt cho các
ảnh face query Kết quả sau khi đã rút trích đặc trựng khuôn mặt cho các
face query và các face trong shot sẽ được lưu trong cơ sở dt liệu (database).
Tiếp đến là bước tìm kiếm những ảnh tương đồng trong database Kết quả
nhận được sẽ là danh sách các shot cần tìm sau khi đã được xếp hạng dựa
trên độ tương đồng khuôn mặt giữa các face trong shot và face query
3.1 Phương pháp baseline
Với phương pháp baseline, cosine distance được sử dụng để so khớp độ
tương đồng giữa các khuôn mặt trong shots và anh face query đầu vào Kếtquả xếp hạng theo mức độ tương đồng, khoảng cách càng nhỏ thì khuôn
mặt càng giống nhau.
dist(query, shot;) = W Lope (maxj—12, ,m(cos(desc,1"°"Y, dese")
1Công thức lay từ
Trang 30Chương 3 HƯỚNG TIẾP CẬN TRONG KHÓA LUẬN 14
trong đó, N là số khuôn mặt của nhân vật trong input và M là số khuônmặt trong shot hiện tại Khái niệm đesc¿?“”” có nghĩa là véc tơ đặc trưng
shot
của khuôn mặt thứ k trong query và khái niệm đesc,Ÿ"”? nghĩa là véc tơ đặc
trưng của khuôn mặt thú j trong shot thứ ¡.
3.2 Xử lý dw liệu video
Quy trình xử lí dữ liệu video như hình|3.2|bên dưới.
-6) — le — E— ©
HINH 3.2: Quy trình xử lí dữ liệu video
Chia nhỏ bộ phim thành các cảnh quay (shot) là bước đầu tiên hướng tớiviệc hoàn thành đề tài này Một shot được định nghĩa là một một loạt cáckhung hình (frames) liên tiếp có liên quan với nhau được chụp liền kể bởimột máy ảnh duy nhất (single camera) và thể hiện một hành động liên tục
trong thời gian và không gian Như vậy, ranh giới cảnh quay (shot
bound-ary) là phần chuyển tiếp giữa hai cảnh quay
© Định nghĩa video: Video là tập hợp các frames được sắp xếp theo
trình tự thời gian Vì video bao gồm sỐ lượng khung hình phụ thuộc
vào kích thước của video, những khung này chiếm không gian lớn
trong bộ nhớ Tốc độ khung hình khoảng 20 fps đến 30 fps
* Cấu trúc video: Một video có thể được chia nhỏ trong cảnh (scene),
cảnh quay (shot) và khung hình (frame) Một scene là một nhóm nhiều
Trang 31Chương 3 HƯỚNG TIẾP CẬN TRONG KHÓA LUẬN 15
shot tạo thành một đơn vị ngữ nghĩa Shot là một chuỗi các frames
được chụp bởi một máy ảnh duy nhất trong một hành động liên tục
duy nhất Các khung hình trong một lần chụp (intra-shot frames) chứa thông tin tương tự và các tính năng hình ảnh với các biến thể thời gian.
Frame là đơn vị nhỏ nhất cấu thành một shot (xem hình |.3
Video
[snot ry ns
HÌNH 3.3: Cấu trúc videoP|
Với tất cả các scene trong bộ phim, em tiến hành chia thành các shots, sau
đó sé tach shot thành các frames, lay tỉ lệ 5fps O phan này, Transnet V2
- một kiến trúc mạng sâu hiệu quả cho phát hiện ranh giới cảnh quay (shotboundary detection) được giới thiệu để giải quyết vấn đề
TransNet V2 là phiên bản mới, cải tiến của TransNet và được đề xuất xâydựng dựa trên các khái niệm TransNet ban đầu cơ bản Phiên bản này cũng
cho phép xử lí hiệu quả các bộ dữ liệu lớn hơn.
Vì cách tiếp cận của dé tài nay dựa trên khuôn mặt của nhân vật để truy
xuất, nên chỉ khi nhận dạng được khuôn mặt của nhân vật trong bộ phimthì mới có thể truy xuất được những cảnh quay có sự xuất hiện của nhân
2 Ảnh lấy từ
Trang 32Chương 3 HƯỚNG TIẾP CẬN TRONG KHÓA LUẬN 16
vật đó Do đó nhận dạng khuôn mặt (face recognition) là một trong những
việc quan trọng hàng đầu phải làm
3.3 Dò tìm khuôn mặt
Dò tìm khuôn mặt - Face detection là một giai đoạn bắt buộc trong quy
trình nhận dạng khuôn mặt InsightFace được sử dụng trong phần này để
đò tìm các khuôn mặt có trong shots.
InsightFace [4| là một thư viện Python tích hợp để phân tích khuôn mặt 2D
và 3D, chủ yếu dựa trên PyTorch và MXNet
InsightFace triển khai hiệu quả nhiều thuật toán hiện đại phong phú về
nhận dạng khuôn mặt (face recognition), dò tìm khuôn mặt và căn chỉnh
khuôn mặt (face alignment), được tối ưu hóa cho cả huấn luyện (training)
và triển khai (deployment)
3.4 Mô tả đặc trưng khuôn mat
Sau khi đã thực hiện xong bước dò tìm khuôn mặt, tiếp theo sẽ đến bước
feature extraction - mô tả (hay còn gọi là rút trích) đặc trưng khuôn mặt.
Đây là quá trình trích xuất những đặc trưng quan trọng nhất của khuôn
mặt như mắt, mũi, miệng, từ hình ảnh khuôn mặt người Việc trích xuất
các đặc trưng trên khuôn mặt rất quan trọng trong kỹ thuật nhận dạng
khuôn mặt.
Trang 33Chương 3 HƯỚNG TIẾP CẬN TRONG KHÓA LUẬN 17
3.4.1 DeepFace
DeepFace là thu viện phân tích thuộc tính khuôn mặt và nhận dang
khuôn mặt dành cho Python Thư viện mã nguồn mở của DeepFace baogồm tất cả các mô hình AI hàng đầu để nhận dạng khuôn mặt và tự động
xử lý tat cả các quy trình nhận dạng khuôn mặt trong nen (background)
DeepFace là một dự án mã nguồn mở được viết hoàn toàn bang Python và
được dé xuất bởi các nhà nghiên cứu của FAIR tại CVPR năm 2014
Để rút trích đặc trưng của khuôn mặt, em sẽ sử dụng hai mô hình củaDeepFace là ArcFace [3] và FaceNet512 [10]
3.4.2 ArcFace - Additive Angular Margin Loss
ArcFace được phat triển bởi các nhà nghiên cứu của Imperial College
Lon-don Nó là một mô-đun của thư viện InsightFace.
Phương pháp này đạt được hiệu suất tối tân trên mười tiêu chuẩn nhận
dạng khuôn mặt trên bộ dữ liệu hình ảnh và video quy mô lớn.
Phương hướng tiếp cận
Ham mat mát dùng để phân loại được sử dụng rộng rãi nhất, softmax loss,
được trình bày bằng công thức:
1 N cWj,xrtbi
j=l
Trang 34Chương 3 HƯỚNG TIẾP CẬN TRONG KHÓA LUẬN 18
Có thể hiểu đơn giản hàm mat mát softmax là sự kết hợp giữa ham mat
mát entropy chéo và sự kích hoạt softmax (softmax activation) Hàm này
trong quá khứ thường được sử dụng cho các bài toán nhận diện khuôn
mặt Tuy nhiên, điểm yếu của hàm này đó là không có khả năng tối ưu hóa
rõ ràng các véc tơ embedding chứa các đặc điểm của khuôn mặt để tăng
thêm sự tương đồng giữa những khuôn mặt trong một lớp và tăng thêm sự
đa dạng giữa các khuôn mặt giữa các lớp, dẫn đến tạo ra một khoảng cách
cho những khuôn mặt với nhiều biến thể (do khác biệt tuổi tác hay do khácbiệt về dáng khuôn mặt)
Để đơn giản hóa, chúng ta có định bias bj = 0, sau đó chung ta biến đổi
Wi xi =|| W; || || x || cos6; trong do 6; là góc giữa weight W; và đặc điểm x; Theo sau đó, chúng ta cô định weight || W +7 || = 1 bởi sự huẩn hóa
L2 Đồng thời, chúng ta cũng chuẩn hóa luôn véc tơ đặc điểm || x; || theo
sự chuẩn hóa L2 và chỉnh lại (rescale) thành s Bước chuẩn hóa weights và
véc tơ đặc điểm này tạo nên sự dự đoán thuần túy dựa trên góc giữa véc
tơ đặc điểm va weight Véc tơ đặc điểm đã được học sau đó được phân bổtrên một hypersphere (siêu cầu) với bán kính là s
1 N cŠ cos Đụ,
i=l j=LjZMi
Vì các véc tơ đặc điểm được phân bổ xung quanh mỗi đặc điểm trung
tâm theo một hypersphere, chúng ta sẽ thêm vào đó một hình phạt biên
góc cộng (additive angular margin penalty) giữa x; va Wy, để đồng thời
tăng cường tính nhỏ gọn trong nội bộ lớp và sự khác biệt giữa các lớp Và
Trang 35Chương 3 HƯỚNG TIẾP CẬN TRONG KHÓA LUẬN 19
phương pháp này được đặt tên là ArcFace.
cS(cos(8y, +m) )
s(cos(8„,-+z) ) +z
1 N
L3 = N » log (3.3)
i=1 e j= Liz’n S COS 0;
Trong khóa luận này, ArcFace được triển khai lại dựa vào Keras, sử dụng
TensorFlow làm backend và pre-trained model ResNet 34 làm backbone.
Đầu ra biểu diễn đặc trưng khuôn mặt dưới dạng các véc tơ embedding
512-D.
3.4.3 FaceNet
Mô hình này được phát triển bởi các nha nghiên cứu của Google Nó được
xây dựng trên mô hình Inception.
FaceNet được coi là một mô hình tiên tiền nhất để phát hiện và nhận dạng
khuôn mặt với deep learning FaceNet có thể được sử dụng để nhận dang
khuôn mặt, xác minh khuôn mặt (face verification) và phân cụm khuôn mặt (face clustering).
Lợi ích chính của FaceNet là hiệu quả và hiệu suất cao, nó được báo cáo là
đạt độ chính xác 99,63% trên tập dtr liệu LFW và 95,12% trên tập dữ liệu
Youtube Faces DB, trong khi chỉ sử dụng 128 byte cho mỗi khuôn mặt
Các khái niệm cơ bản
© Véc to embedding: Là một vector với chiều cô định (thường có chiều
nhỏ hơn các véc tơ đặc trưng bình thường), đã được học trong quá
Trang 36Chương 3 HƯỚNG TIẾP CẬN TRONG KHÓA LUẬN 20
trình train và đại diện cho một tập các dac trưng có trách nhiệm trong
việc phân loại các đối tượng trong chiều không gian đã được biến đổi.
® Inception V1: Một cau trúc mang CNN được giới thiệu vào năm 2014
của Google, với đặc trưng là các khối Inception Khổi này cho phép
mạng được học theo cầu trúc song song, nghĩa là với 1 đầu vào có thể
được đưa vào nhiều các lớp Convolution khác nhau để đưa ra các kếtquả khác nhau, sau đó sẽ được nối liền vào thành 1 đầu ra Việc họcsong song này giúp mạng có thé học được nhiều chỉ tiết hơn, lay đượcnhiều đặc trưng hơn so với mạng CNN truyền thống Ngoài ra, mạng
cũng áp dụng các khối Convolution 1x1 nhằm giảm kích thước của
mạng, khiến việc train trở nên nhanh hơn
© Triplet loss: Thay vì sử dụng các hàm mất mát truyền thống, khi mà
ta chỉ so sánh giá trị đầu ra của mạng với ground truth thực tế của
dữ liệu, Triplet Loss đưa ra một công thức mới bao gồm 3 giá trị đầu
P.
vào gom anchor x7:ảnh dau ra của mang, positive x; : ảnh cùng là một
người với anchor va negative x": ảnh không cùng là một người với
anchor.
| Flat) — fa?) [B+ <I) Flot) — Flat) l8, (F08), FP) FG) €
(3.4)
œ la margin (lề thêm) giữa cap positive với negative, độ sai lệch cần
thiết tối thiểu giữa hai miễn giá trị, f(x?) chính là embedding của
xƒ Công thức trên cho ta thấy mong muốn về khoảng cách giữa hai
embeddings là f(x? và ƒ (x, sẽ phải nhỏ hơn ít nhất a giá trị so với cặp
f (x?) và ƒ(x?') Việc của ta là làm cho sự chênh lệch giữa hai phía của