Khóa luận tốt nghiệp Khoa học máy tính: Truy xuất nhân vật trong phim dựa trên ảnh mẫu

+ Tìm hiểu và áp dụng các phương pháp chia một bộ phim thành các shot.+ Tìm hiểu và áp dụng các phương pháp dò tìm khuôn mặt face detection, mô tả đặc trưng của khuôn mặt feature.. + Tìm

Trang 1

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

KHOA KHOA HỌC MÁY TÍNH

PHẠM NGUYỄN THANH HÀ

KHÓA LUẬN TỐT NGHIỆP

TRUY XUẤT NHÂN VẬT TRONG PHIM DỰA TRÊN ẢNH MẪU

CỬ NHÂN NGÀNH KHOA HỌC MÁY TÍNH

TP HỒ CHÍ MINH, 2022

Trang 2

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRƯỜNG DAI HOC CÔNG NGHỆ THONG TIN

KHOA KHOA HỌC MAY TÍNH

PHAM NGUYEN THANH HA - 19521458

KHOA LUAN TOT NGHIEP

TRUY XUẤT NHÂN VAT TRONG PHIM DỰA TREN ANH MẪU

CỬ NHÂN NGANH KHOA HOC MAY TÍNH

GIANG VIÊN HƯỚNG DAN

TS MAI TIEN DUNG

TP HỒ CHÍ MINH, 2022

Trang 3

[MẪU ĐỀ CƯƠNG CHI TIẾT]

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh PhúcCÔNG NGHỆ THÔNG TIN

ĐỀ CƯƠNG CHI TIẾT

TÊN ĐỀ TÀI: TRUY XUẤT NHÂN VẬT TRONG PHIM DỰA TRÊN ẢNH MẪU

Cán bộ hướng dẫn: TS Mai Tiến Dũng

Thời gian thực hiện: Từ ngày /09/2022 đến ngày /1/2023

Sinh viên thực hiện:

Phạm Nguyễn Thanh Hà - 19521458

Nội dung đề tài:

- Giới thiệu về đề tài:

Truy xuất video của một người cụ thể với hình ảnh khuôn mặt của họ khi truy vấn

ngày càng trở nên hấp dẫn hơn đối với các ứng dụng như tua nhanh phim thông minh và

tìm kiếm đáng ngờ Nó cũng tạo thành một nhiệm vụ thị giác máy tính thú vị nhưng đầy thử thách, vì dữ liệu hình ảnh để khớp, tức là hình ảnh tĩnh và video clip thường được thể hiện khá khác nhau.

Mục tiêu của bài toán này là truy xuất nhân vật trong phim dựa trên ảnh mẫu của

nhân vật, tức là truy xuất những cảnh quay trong phim có sự xuất hiện của nhân vật này.

Điều này là một thách thức bởi vì các khuôn mặt trong một bộ phim dài tập tương đối không được kiểm soát với sự thay đổi rộng rãi về tỷ lệ, tư thế, ánh sáng và biểu cảm, và

cũng có thể bị che khuất một phần.

Trong phạm vi đề tài này, em xin phép được tìm hiểu các phương pháp được áp dung

để giải quyết bài toán này.

- Mục tiêu của đề tài:

Trang 4

+ Tìm hiểu và áp dụng các phương pháp chia một bộ phim thành các shot.

+ Tìm hiểu và áp dụng các phương pháp dò tìm khuôn mặt (face detection), mô tả đặc trưng của khuôn mặt (feature).

+ Tìm hiểu và áp dụng các phương pháp truy vấn các nhân vật dựa trên các đặc trưng của

khuôn mặt.

+ Nghiên cứu cải tiến hiệu quả truy xuất dựa trên các đặc điểm của các ảnh mẫu.

+ Thực nghiệm các phương pháp chính được áp dụng trong khóa luận (trên tập dữ liệu

TRECVID-MSUM-2022).

Nội dung nghiên cứu của đề tài:

- Mô tả bài toán:

+ Đầu vào: Một danh sách các ảnh mẫu nhân vat Kiya trong bộ phim “Like me” và bộ phim

“Like me”.

(8) Kiya2.pnrr

{b) Kiyadpng, (E} Kiya5.pngr (F} Kiya6.png,

Hine 11: Các ảnh mẫu của nhân vật Kiya + Đầu ra: Một danh sách các cảnh quay trong bộ phim “Like me” có sự xuất hiện của nhân

vật này

- Nội dung 1: Tìm hiểu về quy trình của phương pháp

++ Tìm kiếm, khảo sát và tổng hợp tài liệu liên quan đến các công nghệ, kỹ thuật sử dụng

trong các bài báo liên quan Qua đó tổng quát hóa quy trình của phương pháp.

++ Chạy thử các model, dataset cung cấp sẵn vá đánh giá.

- Nội dung 2: Thực nghiệm trên tập dữ liệu TRECVID-MSUM-2022

+ Xử lí dữ liệu video: Chia video thành các shots (cảnh quay).

+ Dò tìm khuôn mặt và mô tả đặc trưng khuôn mặt.

+ Truy vấn nhân vật dựa trên ảnh mẫu.

Trang 5

+ Đề xuất cải tiến.

Tài liệu tham khảo:

O Arandjelovic and A Zisserman, "Automatic face recognition for film character retrieval

in feature-length films," 2005 IEEE Computer Society Conference on Computer Vision

and Pattern Recognition (CVPR'05), 2005, pp 860-867 vol 1, doi:

10.1109/CVPR.2005.81.

https: //www.robots.ox.ac.uk/~vgg/publications/2005/Arandjelovic05a/arandjelovic 05a.pdf

Trang 6

DANH SACH HOI DONG BAO

VE KHOA LUAN

Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số

154/QD-DHCNTITT ngày 01/03/2023 của Hiệu trưởng Trường Dai học Công nghệ

Thông tin.

1 TS Lê Minh Hưng - Chủ tịch.

2 ThS Nguyễn Thị Ngọc Diễm - Thu ký.

3 ThS Đỗ Văn Tiền - Ủy viên.

Trang 7

Trước hết, em xin chân thành cảm ơn Trường Đại học Công nghệ thông tin

- Đại học Quốc gia TP.HCM va Khoa Khoa học máy tinh đã tạo điều kiệncho phép em thực hiện đề tài nghiên cứu này

Em xin chân thành cảm ơn thầy Mai Tiến Dũng đã nhận làm giáo viênhướng dẫn đề tài của em Cảm ơn thầy đã luôn hỗ trợ, định hướng cách tư

duy và cách làm việc khoa học cho em trong quá trình làm khoá luận Cảm

ơn những nhận xét, lời khuyên và kiến thức hữu ích của thầy Đó là nhữnggóp ý hết sức quý báu không chỉ trong quá trình thực hiện luận văn này màcòn là hành trang tiếp bước cho em trong quá trình học tập và lập nghiệp

Sau này.

Trang 8

Muc luc

1 TONG QUAN

11 Giới thiệu tổng quan) 2 ee ee

1.2 Mô tả bài toán|

21 Truy xuấtvideo khuôn mặt - 7

| phim co thời lượng dài [l|| - 7

Trang 9

3.4.2 ArcFace- Additive Angular Margin Loss} 17

Phương hướng tiếp cận 17

Đối với một face query| - 25

Đối với nhiều face query| - 27

4_ THỰC NGHIỆM VÀ DANH GIÁ 31

4.1 Môi trường và ngôn ngữ cài đặt| 31 4.2 Phương pháp đánh giái - 31

4.2.1 PrecisionvàlRecall 32

Trang 10

4.3 Tập dư liệu thực nghiệm| 34

Trang 11

4.6.5 Movie: Memphi|l

Nhân vật Willisl

5 KÊT LUẬN

51 Kếtluận

5.2_ Hướng phat triển

TÀI LIỆU THAM KHẢO

XI

51

53 53

55

Trang 12

Danh sach hinh ve

1.1 Minh họa các ảnh mẫu của nhân vat "Kiya" trong bộ phim

"Like me" trong tập du liệu TRECVID-MSUM-2022[7]| 2

1.2_ Minh họa các ảnh mẫu của nhân vật "Byrd" trong bộ phim

Trang 13

Minh hoa kết quả trả về của nhân vat Burt phim Like Me} 49Minh họa kết quả trả về của nhân vat Kiya phim Like Me] 50

Minh họa kết quả trả về của nhân vật Sara phim Losing Ground] 51

Minh họa kết quả trả về của nhân vật Willis phim Memphisl 52

Trang 14

Danh sách bảng

dung cosine distance va squared euclidean distance] 38

4.6 Kết qua AP của nhân vat Burt phim Like Me khi sử dung

cosine distance va squared euclidean distance] 39

4.7 Kết qua AP của nhân vat Kiya phim Like Me khi sử dung

cosine distance va squared euclidean distance} 40

4.8 Kết qua AP của nhân vat Sara phim Losing Ground khi sử

dung cosine distance va squared euclidean distance] 41

Trang 15

Danh mục từ viết tat

CNN Convolutional Neural Network

UCSD University of Califonia San Diego

FAIR Facebook AI Research

CVPR (IEEE) Conference on Computer Vision and Pattern Recognition fps Frames per second

Trang 16

TÓM TẮT KHOÁ LUẬN

Trong khoá luận tốt nghiệp này, em tập trung nghiên cứu về bài toán truy

xuất nhân vật trong phim dựa trên ảnh mẫu Bài toán truy xuất nhân vậttrong phim dựa trên ảnh mẫu được mô tả như sau: Đầu vào là một bộ

phim và một danh sách các ảnh mẫu của nhân vật cụ thể (các ảnh này chủ

yêu là các ảnh chứa khuôn mặt) được trích xuất từ bộ phim Đầu ra là một

danh sách các cảnh quay (shot) trong bộ phim có sự xuất hiện của nhân

vật Bài toán này nhằm mục đích giúp người dùng truy xuất tất cả những

cảnh quay của nhân vật mà mình yêu thích trong một bộ phim Đây cũng

là một bài toán có nhiều ứng dụng quan trọng trong bối cảnh sự phát triểnbùng nổ của dữ liệu đa phương tiện trong các thiết bị kỹ thuật số cá nhân

và công cộng.

Vì cách tiếp cận của bài toán này dựa trên việc nhận dạng khuôn mặt để

xác định nhân vật trong bộ phim nên sẽ chịu ảnh hưởng từ nhiều yếu tố

khác nhau Ví dụ như các biểu hiện trên khuôn mặt, bao gồm cả nhắm hai mắt hoặc một mắt hay tư thế đầu khi cúi xuống và ngẩng cao Các phần

của khuôn mặt bị che do thay đổi kiểu tóc, mọc râu hay ria mép cũng là

một vấn dé Đặc biệt điều kiện ánh sáng cũng có thể gây ra khó khăn trong

việc nhận dạng khuôn mặt,

Trong phạm vi khoá luận, em tập trung tìm hiểu các phương pháp được áp

dụng để giải quyết bài toán này, sau đó sẽ tiến hành thực nghiệm trên tập

dữ liệu TRECVID-MSUM-2022.

Trang 17

các thách thức mà bài toán đang gặp phải Em trình bày các phương pháp

đã có để giải quyết bài toán đồng thời giới thiệu phương pháp mà em sẽ

tập trung tìm hiểu Em đưa ra mục tiêu, nội dung cụ thể và phương pháp

thực hiện Cấu trúc của Khóa luận tốt nghiệp cũng sẽ được đề cập trong

chương này.

11 Giới thiệu tổng quan

Bài toán truy xuất các nhân vật trong phim dựa trên các hình ảnh mẫu củanhân vật là một trong những bài toán có tính ứng dụng cao trong thực tế

Chẳng hạn như truy xuất những cảnh quay (shot) có sự xuất hiện của một

nhân vật mà người dùng quan tâm hoặc yêu thích trong một bộ phim

9| ; hoặc thực hiện tóm tắt những cảnh phim quan trọng hay có sự kiện

Trang 18

Chương 1 TONG QUAN 2

chính (keyfact events) của một nhân vật trong một bộ phim [7]; chúng ta có

thể xác định và theo đõi một nghỉ phạm tội phạm dựa vào hình anh từ hệ

thông camera giám sát.

1.2 Mô tả bài toán

Bài toán chính của khóa luận có thể được mô tả như sau:

(A) Kiya1.png

(D) Kiya4.png (E) Kiya5.png (F) Kiya6.png

HINH 1.1: Minh họa các ảnh mẫu của nhân vat "Kiya" trong bộ

phim "Like me" trong tap dtr liệu TRECVID-MSUM-2022 (71.

- Một bộ phim M.

Trang 19

— Một danh sách các ảnh mẫu (còn được gọi là anh face query) E°

của nhân vật c trong phim M Các ảnh mẫu này được trích xuất

từ M, phổ biến là các ảnh chứa khuôn mặt của nhân vật c.

e Dau ra:

- Một danh sách S‘, gồm các cảnh quay (shot) thuộc tập phim M,

trong những cảnh quay này có chứa nhân vật c.

1.3 Những thách thức

1.3.1 Thời lượng phim dai

Mỗi tập phim không chỉ có dung lượng lưu trữ lớn mà còn có thời lượng

đài (trung bình khoảng 86 phút), số khung hình rất lớn (trung bình 30 fps).Điều này đòi hỏi phải có giải pháp xử lý hiệu quả trên đữ liệu này

1.3.2 Cac yếu tô ảnh hưởng đến sự xuất hiện của nhân vật

trong phim

Do mỗi bộ phim là một câu chuyện diễn ra trong một cuộc đời hay một

quãng thời gian dài diễn ra trong đời sống của nhân vật, vì thế chúng ta

dé dàng gặp phải những van dé đặc biệt thách thức khi thực hiện bài toán

này Chẳng hạn:

® Điều kiện ánh sáng của mỗi cảnh phim khác nhau.

* Góc quay của nhân vật thay đổi

s® Nhân vật có nhiều biểu cảm khác nhau

Trang 20

se Gương mặt của nhân vật bị che khuất (do thay đổi kiểu tóc, moc râu

hoặc có thêm phụ kiện, ).

Hình [I.2|bên dưới là một minh họa cho những thách thức mà em đã nêu ở

trên Nhìn ảnh (A), ảnh (C), ảnh (D) có thể thấy, góc quay của nhân vật thay

đổi cũng là một vấn dé Nhân vat “Byrd” trong những bức hình này khuôn

mặt không cố định một hướng chính diện mà lúc lúc thì quay trái, lúc lại

quay phải Biểu cảm phong phú của nhân vật như ảnh (E) và ảnh (F) cũng

gây ra khó khăn trong việc nhận dạng Hoặc như hình[1.1| vì điều kiện ánh

sáng không đủ làm cho khuôn mặt của nhân vật “Kia” trong ảnh bị tối đi(ảnh (F)) Nhân vật này còn đeo cả mặt na (anh (A), ảnh (E)) khiến cho mộtphần khuôn mặt bị che khuất Tat cả những van dé này đều là những tháchthức cần giải quyết khi thực hiện đề tài này

1.4 Mục tiêu khóa luận

Bài toán truy vấn nhân vật trong các tập phim là một bài toán khó và cónhiều thách thức Vì thế nội dung khóa luận được giới hạn vào các mục

tiêu sau:

¢ Tìm hiểu va áp dụng phương pháp chia một bộ phim thành các shot

® Tìm hiểu và áp dung các phương pháp do tìm khuôn mặt (face

detec-tion), mô tả đặc trưng của khuôn mặt (feature extraction).

se Tìm hiểu và áp dụng các phương pháp truy vân các nhân vật dựa trên

các đặc trưng của khuôn mặt.

Trang 21

(C) Byrd_3.png

(D) Byrd_4.png (E) Byrd_5.png (F) Byrd_6.png

HÌNH 1.2: Minh họa các ảnh mẫu của nhân vat "Byrd" trong bộ

phim "Calloused Hands" trong tập dữ liệu

TRECVID-MSUM-2022

se Thực nghiệm các phương pháp chính được áp dụng trong khóa luận

(trên tập dữ liệu TRECVID-MSUM-2022 [7]]) và chương trình minhhọa chức năng truy vấn nhân vật trong phim dựa trên các ảnh mẫu

của nhân vật.

Trang 22

1.5 Dong gop chinh

Với sự hướng dẫn của giảng viên hướng dẫn, em đã vận dụng những kiến

thức và kỹ năng để hoàn thành khoá luận này Những đóng góp của em

trong khoá luận gồm:

là: phương pháp chia bộ phim thành các shot, phương pháp dò tìm và

mô tả đặc trưng khuôn mặt và phương pháp truy vấn nhân vật rong

phim dựa trên ảnh mẫu.

¢ Áp dụng các phương pháp đã tìm hiểu để thực nghiệm trên tập dữ

liệu TRECVID-MSUM-2022.

e Xây dựng một chương trình ứng dụng với chức năng truy xuất nhân

vật trong phim dựa trên ảnh mẫu.

1.6 Cau trúc Khóa luận tốt nghiệp

Nội dung Khóa luận tốt nghiệp được tổ chức như sau:

° Chương[1 Giới thiệu tổng quan về khóa luận.

° Chương} Trình bày các nghiên cứu liên quan đến bài toán này.

° Chương} Trình bày chỉ tiết các hướng tiếp cận của khóa luận.

se Chương H Trình bày môi trường thực nghiệm, tập dữ liệu, phương

pháp đánh giá và kết quả thực nghiệm

¢ Chương |5} Kết luận và hướng phát triển của khóa luận

Trang 23

Chương 2

NGHIÊN CỨU LIÊN QUAN

2.1 Truy xuất video khuôn mặt

Truy xuất video khuôn mặt - Face video retrieval là tìm các video chứa

khuôn mặt của một người cụ thể từ cơ sở dữ liệu (database) có hình ảnh

khuôn mặt hoặc video khuôn mặt của cùng một người làm truy vẫn (query)

2.2 Nhận dạng khuôn mặt tự động để truy xuất

1

Nghiên cứu nay được thực hiện bởi Ognjen Arandjelovíc va Andrew

Zis-nhân vật trong phim có thời lượng đài

serman vào năm 2005 Mục tiêu của nghiên cứu này là nhận dạng tất cả các

khuôn mặt chính diện của một nhân vật trong một bộ phim hoặc hài kịch

tình huống, với một số lượng nhỏ các khuôn mặt truy van

Trang 24

Chương 2 NGHIÊN CUU LIEN QUAN 8

2.2.1 Tổng quan

Cach tiép can bao gom tính toán một giá tri số, một khoảng cách, thể hiệnmức độ tin cậy rằng hai hình ảnh khuôn mặt thuộc về cùng một người.Khoảng cách thấp, lý tưởng là 0, có nghĩa là hình ảnh là của cùng một

người, trong khi khoảng cách lớn biểu thị rằng chúng là của những người

khác nhau.

Phương pháp này liên quan đến việc tính toán một loạt các phép biến đổi

của ảnh gốc, mỗi phép biến đổi nhằm mục đích loại bỏ các tác động của

một yếu tố hình ảnh bên ngoài cu thể Kết quả cuối cùng 1a signature image(đặc trưng hình ảnh) của một người, phụ thuộc chủ yếu vào danh tính (vàbiểu hiện) của người đó và có thể dễ dàng phân loại

2.2.2 Các mô hình sử dụng

SVM

Support Vector Machine - SVM là một mô hình máy học có giám sát được

sử dụng cho các van dé phân loại hai nhóm Sau khi đưa ra một tap hop

mô hình SVM gồm đữ liệu đào tạo được gắn nhãn cho từng danh mục, họ

có thể phân loại dữ liệu thử nghiệm mới

SVM phân loại dữ liệu dựa trên mặt phẳng margin tối đa Ranh giới quyết

định SVM là thẳng SVM là một thuật toán thực sự tốt để phân loại hình

ảnh Kết quả thử nghiệm cho thay các SVM đạt được độ chính xác tìm kiếm

cao hơn đáng kể so với các lược đồ sàng lọc truy van truyền thống chỉ sau

ba đến bốn vòng phản hồi mức độ liên quan

Trang 25

Kernel PCA

Phân tích thành phan chính (PCA) là một công cụ phổ biến để giảm kích

thước tuyến tính và trích xuất tính năng.

Kernel PCA là dạng PCA phi tuyến tính, khai thác tốt hơn cấu trúc không

gian phức tạp của các tính năng high-dimensional; cho phép phân tách dữ

lẢnh lấy từ:

https://towardsdatascience.com/building-a-facial-recognition-model-using-pca-svm-algorithms-c81d870add16

Trang 26

liệu phi tuyến tính bang cách sử dung các hạt nhân Y tưởng cơ bản dang

sau nó là chiếu dữ liệu không thể tách rời tuyến tính lên một không giannhiều chiều hơn, nơi dir liệu có thể tách rời tuyến tính

Kernel PCA có thể được tóm tắt thành một quy trình gồm 4 bước [13]:

e Xây dựng ma trận kernel từ tập dữ liệu huấn luyện

Ki; = K(%¡, x;) (2.1)

e Nếu tập dữ liệu du kiến j(x;) không có giá trị trung bình bằng 0, hãy

sử dung ma tran Gram K, để thay thé ma trận kernel K

2.3 Tóm tat phim - Movie Summarization

Mục tiêu nắm bat các sự kiện quan trong về những nhân vật nhất định

trong cốt truyện phim

Trang 27

Tổng quan

Với mô tả đầu vào là một bộ phim full-length, một nhân vật trong phim cùng với danh sách các ảnh mẫu hoặc các video mẫu về nhân vật đó Nhiệm

vụ xuyên suốt nghiên cứu là thu thập các sự kiện quan trọng (key facts) về

câu chuyện của nhân vật đó Những sự kiện quan trọng đó được thể hiện

thông qua bản tóm tắt video với độ dài tối đa hạn chế hoặc bản tóm tắt văn bản với số lượng từ và câu hạn chế.

— =

detection XS Similarity / ` score ranking — „`,

í Shot \_ ®wdoettÐ Text ` Fusi *

\\ splitting ,X text a similarity _/ `, be ae —sẽ _ =< ~ wif Nl #“———

Trang 28

Chương 3

HƯỚNG TIẾP CAN

TRONG KHÓA LUẬN

® Mô tả đặc trưng khuôn mặt

¢ Truy van nhân vật dựa trên ảnh mẫu

Các bước để giải quyết bài toán được thể hiện ở sơ dé hình |3.1|

Cu thé, từ bộ phim (movie) em tiến hành chia thành các shot (shot

bound-ary detection) Các shot sẽ được tách thành các frames, sau đó em thực hiện

đò tìm khuôn mặt (face detection) để phát hiện những khuôn mặt có trong

Trang 29

Chương 3 HƯỚNG TIẾP CẬN TRONG KHÓA LUẬN 13

8 =|

@®œ.=e==.1ố

HINH 3.1: Sơ đồ quy trình các bước giải quyết bài toán trong

khóa luận

các frames đó và rút trích đặc trưng khuôn mặt (feature extraction) Đồng

thời, em cũng sẽ thực hiện đò tìm và rút trích đặc trưng khuôn mặt cho các

ảnh face query Kết quả sau khi đã rút trích đặc trựng khuôn mặt cho các

face query và các face trong shot sẽ được lưu trong cơ sở dt liệu (database).

Tiếp đến là bước tìm kiếm những ảnh tương đồng trong database Kết quả

nhận được sẽ là danh sách các shot cần tìm sau khi đã được xếp hạng dựa

trên độ tương đồng khuôn mặt giữa các face trong shot và face query

3.1 Phương pháp baseline

Với phương pháp baseline, cosine distance được sử dụng để so khớp độ

tương đồng giữa các khuôn mặt trong shots và anh face query đầu vào Kếtquả xếp hạng theo mức độ tương đồng, khoảng cách càng nhỏ thì khuôn

mặt càng giống nhau.

dist(query, shot;) = W Lope (maxj—12, ,m(cos(desc,1"°"Y, dese")

1Công thức lay từ

Trang 30

trong đó, N là số khuôn mặt của nhân vật trong input và M là số khuônmặt trong shot hiện tại Khái niệm đesc¿?“”” có nghĩa là véc tơ đặc trưng

shot

của khuôn mặt thứ k trong query và khái niệm đesc,Ÿ"”? nghĩa là véc tơ đặc

trưng của khuôn mặt thú j trong shot thứ ¡.

3.2 Xử lý dw liệu video

Quy trình xử lí dữ liệu video như hình|3.2|bên dưới.

HINH 3.2: Quy trình xử lí dữ liệu video

Chia nhỏ bộ phim thành các cảnh quay (shot) là bước đầu tiên hướng tớiviệc hoàn thành đề tài này Một shot được định nghĩa là một một loạt cáckhung hình (frames) liên tiếp có liên quan với nhau được chụp liền kể bởimột máy ảnh duy nhất (single camera) và thể hiện một hành động liên tục

trong thời gian và không gian Như vậy, ranh giới cảnh quay (shot

bound-ary) là phần chuyển tiếp giữa hai cảnh quay

trình tự thời gian Vì video bao gồm sỐ lượng khung hình phụ thuộc

vào kích thước của video, những khung này chiếm không gian lớn

trong bộ nhớ Tốc độ khung hình khoảng 20 fps đến 30 fps

* Cấu trúc video: Một video có thể được chia nhỏ trong cảnh (scene),

cảnh quay (shot) và khung hình (frame) Một scene là một nhóm nhiều

Trang 31

shot tạo thành một đơn vị ngữ nghĩa Shot là một chuỗi các frames

được chụp bởi một máy ảnh duy nhất trong một hành động liên tục

duy nhất Các khung hình trong một lần chụp (intra-shot frames) chứa thông tin tương tự và các tính năng hình ảnh với các biến thể thời gian.

Frame là đơn vị nhỏ nhất cấu thành một shot (xem hình |.3

Video

[snot ry ns

HÌNH 3.3: Cấu trúc videoP|

Với tất cả các scene trong bộ phim, em tiến hành chia thành các shots, sau

đó sé tach shot thành các frames, lay tỉ lệ 5fps O phan này, Transnet V2

- một kiến trúc mạng sâu hiệu quả cho phát hiện ranh giới cảnh quay (shotboundary detection) được giới thiệu để giải quyết vấn đề

TransNet V2 là phiên bản mới, cải tiến của TransNet và được đề xuất xâydựng dựa trên các khái niệm TransNet ban đầu cơ bản Phiên bản này cũng

cho phép xử lí hiệu quả các bộ dữ liệu lớn hơn.

Vì cách tiếp cận của dé tài nay dựa trên khuôn mặt của nhân vật để truy

xuất, nên chỉ khi nhận dạng được khuôn mặt của nhân vật trong bộ phimthì mới có thể truy xuất được những cảnh quay có sự xuất hiện của nhân

2 Ảnh lấy từ

Trang 32

vật đó Do đó nhận dạng khuôn mặt (face recognition) là một trong những

việc quan trọng hàng đầu phải làm

3.3 Dò tìm khuôn mặt

Dò tìm khuôn mặt - Face detection là một giai đoạn bắt buộc trong quy

trình nhận dạng khuôn mặt InsightFace được sử dụng trong phần này để

đò tìm các khuôn mặt có trong shots.

InsightFace [4| là một thư viện Python tích hợp để phân tích khuôn mặt 2D

và 3D, chủ yếu dựa trên PyTorch và MXNet

InsightFace triển khai hiệu quả nhiều thuật toán hiện đại phong phú về

nhận dạng khuôn mặt (face recognition), dò tìm khuôn mặt và căn chỉnh

khuôn mặt (face alignment), được tối ưu hóa cho cả huấn luyện (training)

và triển khai (deployment)

3.4 Mô tả đặc trưng khuôn mat

Sau khi đã thực hiện xong bước dò tìm khuôn mặt, tiếp theo sẽ đến bước

feature extraction - mô tả (hay còn gọi là rút trích) đặc trưng khuôn mặt.

Đây là quá trình trích xuất những đặc trưng quan trọng nhất của khuôn

mặt như mắt, mũi, miệng, từ hình ảnh khuôn mặt người Việc trích xuất

các đặc trưng trên khuôn mặt rất quan trọng trong kỹ thuật nhận dạng

khuôn mặt.

Trang 33

3.4.1 DeepFace

DeepFace là thu viện phân tích thuộc tính khuôn mặt và nhận dang

khuôn mặt dành cho Python Thư viện mã nguồn mở của DeepFace baogồm tất cả các mô hình AI hàng đầu để nhận dạng khuôn mặt và tự động

xử lý tat cả các quy trình nhận dạng khuôn mặt trong nen (background)

DeepFace là một dự án mã nguồn mở được viết hoàn toàn bang Python và

được dé xuất bởi các nhà nghiên cứu của FAIR tại CVPR năm 2014

Để rút trích đặc trưng của khuôn mặt, em sẽ sử dụng hai mô hình củaDeepFace là ArcFace [3] và FaceNet512 [10]

3.4.2 ArcFace - Additive Angular Margin Loss

ArcFace được phat triển bởi các nhà nghiên cứu của Imperial College

Lon-don Nó là một mô-đun của thư viện InsightFace.

Phương pháp này đạt được hiệu suất tối tân trên mười tiêu chuẩn nhận

dạng khuôn mặt trên bộ dữ liệu hình ảnh và video quy mô lớn.

Phương hướng tiếp cận

Ham mat mát dùng để phân loại được sử dụng rộng rãi nhất, softmax loss,

được trình bày bằng công thức:

1 N cWj,xrtbi

j=l

Trang 34

Có thể hiểu đơn giản hàm mat mát softmax là sự kết hợp giữa ham mat

mát entropy chéo và sự kích hoạt softmax (softmax activation) Hàm này

trong quá khứ thường được sử dụng cho các bài toán nhận diện khuôn

mặt Tuy nhiên, điểm yếu của hàm này đó là không có khả năng tối ưu hóa

rõ ràng các véc tơ embedding chứa các đặc điểm của khuôn mặt để tăng

thêm sự tương đồng giữa những khuôn mặt trong một lớp và tăng thêm sự

đa dạng giữa các khuôn mặt giữa các lớp, dẫn đến tạo ra một khoảng cách

cho những khuôn mặt với nhiều biến thể (do khác biệt tuổi tác hay do khácbiệt về dáng khuôn mặt)

Để đơn giản hóa, chúng ta có định bias bj = 0, sau đó chung ta biến đổi

Wi xi =|| W; || || x || cos6; trong do 6; là góc giữa weight W; và đặc điểm x; Theo sau đó, chúng ta cô định weight || W +7 || = 1 bởi sự huẩn hóa

L2 Đồng thời, chúng ta cũng chuẩn hóa luôn véc tơ đặc điểm || x; || theo

sự chuẩn hóa L2 và chỉnh lại (rescale) thành s Bước chuẩn hóa weights và

véc tơ đặc điểm này tạo nên sự dự đoán thuần túy dựa trên góc giữa véc

tơ đặc điểm va weight Véc tơ đặc điểm đã được học sau đó được phân bổtrên một hypersphere (siêu cầu) với bán kính là s

1 N cŠ cos Đụ,

i=l j=LjZMi

Vì các véc tơ đặc điểm được phân bổ xung quanh mỗi đặc điểm trung

tâm theo một hypersphere, chúng ta sẽ thêm vào đó một hình phạt biên

góc cộng (additive angular margin penalty) giữa x; va Wy, để đồng thời

tăng cường tính nhỏ gọn trong nội bộ lớp và sự khác biệt giữa các lớp Và

Trang 35

phương pháp này được đặt tên là ArcFace.

cS(cos(8y, +m) )

s(cos(8„,-+z) ) +z

1 N

L3 = N » log (3.3)

i=1 e j= Liz’n S COS 0;

Trong khóa luận này, ArcFace được triển khai lại dựa vào Keras, sử dụng

TensorFlow làm backend và pre-trained model ResNet 34 làm backbone.

Đầu ra biểu diễn đặc trưng khuôn mặt dưới dạng các véc tơ embedding

512-D.

3.4.3 FaceNet

Mô hình này được phát triển bởi các nha nghiên cứu của Google Nó được

xây dựng trên mô hình Inception.

FaceNet được coi là một mô hình tiên tiền nhất để phát hiện và nhận dạng

khuôn mặt với deep learning FaceNet có thể được sử dụng để nhận dang

khuôn mặt, xác minh khuôn mặt (face verification) và phân cụm khuôn mặt (face clustering).

Lợi ích chính của FaceNet là hiệu quả và hiệu suất cao, nó được báo cáo là

đạt độ chính xác 99,63% trên tập dtr liệu LFW và 95,12% trên tập dữ liệu

Youtube Faces DB, trong khi chỉ sử dụng 128 byte cho mỗi khuôn mặt

Các khái niệm cơ bản

nhỏ hơn các véc tơ đặc trưng bình thường), đã được học trong quá

Trang 36

trình train và đại diện cho một tập các dac trưng có trách nhiệm trong

việc phân loại các đối tượng trong chiều không gian đã được biến đổi.

® Inception V1: Một cau trúc mang CNN được giới thiệu vào năm 2014

của Google, với đặc trưng là các khối Inception Khổi này cho phép

mạng được học theo cầu trúc song song, nghĩa là với 1 đầu vào có thể

được đưa vào nhiều các lớp Convolution khác nhau để đưa ra các kếtquả khác nhau, sau đó sẽ được nối liền vào thành 1 đầu ra Việc họcsong song này giúp mạng có thé học được nhiều chỉ tiết hơn, lay đượcnhiều đặc trưng hơn so với mạng CNN truyền thống Ngoài ra, mạng

cũng áp dụng các khối Convolution 1x1 nhằm giảm kích thước của

mạng, khiến việc train trở nên nhanh hơn

ta chỉ so sánh giá trị đầu ra của mạng với ground truth thực tế của

dữ liệu, Triplet Loss đưa ra một công thức mới bao gồm 3 giá trị đầu

P.

vào gom anchor x7:ảnh dau ra của mang, positive x; : ảnh cùng là một

người với anchor va negative x": ảnh không cùng là một người với

anchor.

| Flat) — fa?) [B+ <I) Flot) — Flat) l8, (F08), FP) FG) €

(3.4)

œ la margin (lề thêm) giữa cap positive với negative, độ sai lệch cần

thiết tối thiểu giữa hai miễn giá trị, f(x?) chính là embedding của

xƒ Công thức trên cho ta thấy mong muốn về khoảng cách giữa hai

embeddings là f(x? và ƒ (x, sẽ phải nhỏ hơn ít nhất a giá trị so với cặp

f (x?) và ƒ(x?') Việc của ta là làm cho sự chênh lệch giữa hai phía của

Tiêu đề	Truy xuất nhân vật trong phim dựa trên ảnh mẫu
Tác giả	Phạm Nguyễn Thanh Hà
Người hướng dẫn	TS. Mai Tiến Dũng
Trường học	Đại học Quốc gia TP. Hồ Chí Minh
Chuyên ngành	Khoa học Máy tính
Thể loại	Khóa luận tốt nghiệp
Năm xuất bản	2022
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	73
Dung lượng	35,88 MB