Khóa luận tốt nghiệp Khoa học máy tính: Tóm tắt sự kiện quan trọng của nhân vật trong chuỗi video bbc eastenders TV

Nhằm thúc đẩy nghiên cứu trong lĩnh vực tóm tắt video, cuộc thiTRECVID VSUM 2021 yêu cầu những người tham gia tóm tắt các sự kiện chính trong cuộc đời của các nhân vật cụ thể trong một s

Trang 1

ĐẠI HỌC QUỐC GIA THÀNH PHÔ HỒ CHÍ MINH

ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

KHOA KHOA HỌC MÁY TÍNH

TRẦN ĐÌNH KHANG - 18520896 PHAM LE QUANG NHẬT - 18520120

KHOÁ LUẬN TỐT NGHIỆP

TÓM TẮT NHỮNG SỰ KIỆN QUAN TRỌNG CỦA

CÁC NHÂN VAT TRONG CHUOI VIDEO BBC

EASTENDERS TV

Summarizing the major life events of characters in the BBC

EastEnders TV video series

CU NHÂN TAI NANG NGANH KHOA HOC MAY TÍNH

GIANG VIEN HUGNG DAN

TS MALTIEN DUNG ThS DO VAN TIEN

TP HO CHÍ MINH, 2021

Trang 2

DANH SÁCH HỘI ĐỒNG BẢO VỆ KHÓA LUẬN

Hội đồng chấm khóa luận tốt nghiệp, thành lập theo quyết định số

¬ ngày của Hiệu trưởng Trường Dai học

Công nghệ Thông tin.

ne - Chi tich.

Qe cessscseessessee PME - Thu ky.

Ae eee ae GA a8 - Uy vién.

Trang 3

LỜI CẢM ƠN

Đầu tiên, xin gửi lời cảm ơn sâu sắc đến các giảng viên hướng dẫn:PGS.TS Lê Đình Duy, TS Mai Tiến Dũng và ThS Đỗ Văn Tiến đã

tận tình hướng dẫn giúp đỡ chúng em vượt qua những khó khăn của

khóa luận, đưa ra những lời khuyên bổ ích không chỉ áp dụng cho

khóa luận mà còn là kim chỉ nam cho chúng em sau này.

Đồng thời, chúng em cũng muốn gửi lời cảm ơn tới toàn thể thầy

cô của trường Đại học Công nghệ Thông tin, đặc biệt là các thầy/cô

trong khoa Khoa học máy tính đã tận tình giảng dạy em trong thời

gian học tập và rèn luyện tại trường Thêm vào đó, nhóm chúng em

cũng chân thành biết ơn những sự hỗ trợ và đồng hành đến từ các

thành viên của câu lạc bộ AI khoa Khoa học máy tính.

Cuối cùng, em xin cảm ơn bố mẹ, các anh chị, bạn bè lớp KHTN2018

đã luôn bên cạnh động viên, ủng hộ và là chỗ dựa tinh thần vững chãi

trong suốt thời gian học tập ở trường Đại học Công nghệ Thông tin.

Chúng em xin chân thành cảm ơn!

TP Hồ Chí Minh, tháng 1 năm 2022

Nhóm sinh viên thực hiện.

Trang 4

TÓM TẮT KHÓA LUẬN

Trong thời đại ngày nay, với sự phát triển mạnh mẽ của công nghệ nói chung và các nền tảng mạng xã hội nói riêng, dẫn tới số lượng dữ

liệu tăng lên rất nhanh, đặc biệt là dit liệu dang video Điều này đặt

ra nhiều thách thức về việc tổ chức lưu trữ dif liệu video trong lĩnh

vực camera giám sát, quản lý nội dung đăng tải và xây dựng công cụ

tìm kiếm hiệu quả trên các nền tảng mạng xã hội Do đó, bài toán

tóm tắt video đã được ra giải quyết các nhu cầu trên

Tóm tắt video là một phương pháp tạo ra một video từ video gốcnhưng với độ dài ngắn hơn video gốc nhưng vẫn giữ được các nội

dung, thông tin có giá trị cao trong video, giúp người xem không cần

xem toàn bộ video gốc nhưng vẫn có thể nắm được các nội dung, câu

chuyện chính.

Nhằm thúc đẩy nghiên cứu trong lĩnh vực tóm tắt video, cuộc thiTRECVID VSUM 2021 yêu cầu những người tham gia tóm tắt các

sự kiện chính trong cuộc đời của các nhân vật cụ thể trong một số

tuần của series phim BBC EastEnders TV Cụ thể bài toán tóm tắt

những sự kiện quan trọng của các nhân vật trong chuỗi video BBC

Eastenders được mô tả như sau: Bài toán nhận đầu vào là thông tincủa nhân vật quan tâm (bao gồm tên và ảnh khuôn mặt), một tập hợp

các phân đoạn video, số phân đoạn và thời gian tối đa mà bản video

tóm tắt yêu cầu Đầu ra của bài toán là một bản tóm tắt video củanhân vật Một bản video tóm tắt được xem là hiệu quả khi nội dung

Trang 5

của nó có thể trả lời cho 5 câu hỏi liên quan đến các sự kiện quantrọng nhất trong cuộc đời của nhân vật đó Các câu hỏi này do hệthống chuyên gia đề xuất.

Tom lai trong khóa luận này, nhóm sinh viên đã thực hiện được những

nội dung sau:

* Tìm hiểu tổng quan bài toán tóm tắt những sự kiện quan trọng

của các nhân vật trong chuỗi video BBC và một số phương pháp

hiện nay.

« Trình bày những kiến thức nền tảng về Deep Learning và áp

dụng nó vào bài toán tóm tắt những sự kiện quan trọng của các

nhân vật trong chuỗi video BBC.

s Xây dựng bộ nhãn dữ liệu cho tập dữ liệu BBC EastEnders TV.

* Cài đặt, thử nghiệm đánh giá kết hợp một số phương pháp tiên

tiến, phổ biến như [1], [2] và so khớp van bản trên bộ dữ liệu BBC EastEnders TV.

« Xây dung ứng dung web minh hoa cho bài toán để người xem

thấy được các kết quả một cách trực quan nhất sau khi đã hiện

thực lại bài toán trên bộ dữ liệu BBC EastEnders TV.

Từ khóa: Tóm tắt video, so khớp văn bản, so khớp hình ảnh, sự kiệncuộc đời quan trọng, tóm tắt những sự kiện quan trọng của nhân vật

Trang 6

Mục lục

Danh sách hình vẽ

Danh sách bang

Danh mục từ viết tắt

1 TONG QUAN

1.1

1.2

1.3

1.4

Đặt vẫnđề : ‹

Thách thức, phạm vi và mục tiêu

1.2.1 Tháchthức

122 Muctiéu

123 Phạmv!l

Đóng góp của khóaluận

Câu trúc khóa luận

2 CƠ SỞ LÝ THUYET VÀ MỘT SỐ NGHIÊN CỨU LIÊN QUAN 2.1 Tổng quan bàitoán

2.1.1 Bài toán tóm tat videocơsở

2.1.2 Bài toán tóm tắt những sự kiện quan trọng của các nhân

vật trong chuỗi video BBC Eastenders TV

Vili

xi

xii

Trang 7

MỤC LỤC

2.2 Kháinệmcơbản 10

22.1 Xác xuấtxảyrađồngthời 10

2.2.2 Mạng Nơ-ron nhântạo 10

2.2.3 Mạng Nơ-ron tích chập trong xửlýảnh 20

2.2.4 Một số phương pháp trong xử lý ngôn ngữ tự nhiên 24

2.3 Một số phương pháp tiếp cận phổbiến 29

2.3.1 Phương pháp tiếp cận của độ MEMAD [2] 29

2.3.2 Phương pháp tiếp cận của nhóm nghiên cứu NH_UIT[I] 32 24 Kétchuong 0.0.00 000 ce sỦ 35 3 XÂY DUNG HỆ THONG CHO BAI TOÁN TOM TAT CÁC SU KIEN LON TRONG CUOC DOI TREN TAP DU LIEU VIDEO BBC EASTENDERS 37 3.1 Tổng quan T7 SMe tf, 37 3.2 Chitiếtcáe phươngpháp - 38

321 Phânđoạnvideo 38

3.2.2 Tính đoán độ quan trọng của các phân doan 39

3.2.2.1 Nhận diện khuônmặt 39

3.2.2.2 Khuôn mặt xuất hiện đồng thời 46

3.223 Sokhópvănbản 48

3.2.2.4 Phân loạ sựkiện 53

3.2.2.5 Tong hợp độ quan trọng của phân đoạn 55

3.2.3 Tạo videotÓmtẮt Ặ co 56 4_ THỰC NGHIỆM VÀ ĐÁNH GIÁ 58 41 Mổđầu Q QQ Qua 58 42 Xây dựng tập dữ liệu 58

4.2.1 Tổng quan tập dữ liệu BBC EastenderTV 58

VI

Trang 8

5 XÂY DUNG UNG DUNG MINH HOA DE TÀI 75

5.1 Web trực quan hoá bộ dữ liệu gan nhãn 75

5.2 Web trực quan hoá kết quả thực nghệm 77

Trang 9

Danh sách hình ve

1.1

1.2

2.1

2.2

2.3

2.4

2.5

2.6

2.7

2.8

2.9

2.10

2.11

2.12

2.13

2.14

2.15

2.16

Vi dụ đầu vào và đầu ra cho bài toán tóm tat video 2

Minh họa bài toán Tóm tắt những sự kiện quan trọng trong cuộc đời TRECVID QC 3 Mô tả các phần chính của phương pháp 8

Cấu tạo của tế bào noron nhântạo - 11

Đồ thị của hàm bước nhị phân 12

Đồ thị củahàm Sigmoid 13

Đồ thị của hàm Tanh 14

Đồ thị của hàm ReLu 15

Đồ thị của hàm Leaky ReLUs 16

Đồ thị củahàmELU - 16

Ảnh minh hoa ví dụ về Anchor, positive va negative 18

Ảnh minh họa về TripletLos 19

Minh họa cho ki thuật learning rate decay 21

Early Stopping 2 2 ee ee ee 22 Ảnh minh họa mô-đun residual - 23

Ảnh minh họa mô-đun inception - 24

Ảnh minh hoạ việc so sánh độ chính xác khi thực hiện trên bộ dữ liệu ImageNet và số lượng tham số của các mô hình 25

Ảnh minh họa mô hình Word2Vec 26

Viil

Trang 10

DANH SÁCH HÌNH VẼ

2.17

2.18

2.19

2.20

2.21

2.22

2.23

3.1

3.2

3.3

3.4

3.5

3.6

3.7

3.8

3.9

3.10

3.11

3.12

3.13

3.14

4.1

4.2

Ảnh minh hoa mô hình Doc2Vec - 27

Ảnh minh họa kiến trúc Transformer - 28

Ảnh minh họa kiến trúc mạng DAN 29

Ảnh minh hoạ phương pháp tiếp cận của nhóm MEMAD cho TRECVID VSUM 2020 30

Các giai đoạn trong hệ thống tóm tắt của đội NIILUIT 32

Ảnh minh hoạ hệ thống của đội NII_UIT cho TRECVID VSUM 2020 Qua 33 Ảnh minh hoạ nhiệm vụ của cuộc thi TRECVID VSUM 2020 35 Ảnh mô tả phương pháp tiếpcận - 38

Ảnh mô tả hệ thống nhận diện khuôn mặt 39

Ảnh mô tả 3 thành phần trong mtenn 40

Chi tiết kiến trúc P-Net 41

Chi tiết kiến trúc R-Net 42

Chỉ tiết kiến trúc O-Net 43

Lược đồ của mô-đun Residual gốc và mô-đun SE-ResNet 45

Ảnh mô tả kiến trúc của ResNet-50, SE-ResNet-50 và SE-ResNeXt-¬ 46 Ảnh mô tả phương pháp So khớp văn bản 49

Mô tả các trường hợp một câu thoại thuộc một phân đoạn 49

Mô tả lời thoại của các phân đoạn 50

Bản tóm tắt về cuộc đời nhân vat Tanya trên Wiki 51

Ảnh mô tả hệ thống gan nhãn sự kiện mỗi phân đoạn 54

Mô tả bài toán cái túi đa mục tiêu 57

Quá trình gan nhãn dữ liệu 60

Ảnh minh hoa web chứ 11 video cho 3 nhân vật Max, Tanya và Jack trong TRECVID VSUM2021 61

1X

Trang 11

DANH SÁCH HÌNH VẼ

4.3

4.4

4.5

4.6

4.7

4.8

4.9

4.10

5.1

5.2

5.3

5.4

6.1

6.2

Ảnh minh hoa web chứ 11 video cho 2 nhân vat Peggy va Archie

trong TRECVID VSDM2021 61

Ảnh minh họa một video trong web cho 3 nhân vật Max, Tanya và Jack trong TRECVID VSUM 2021 62

Anh minh họa trang tìm kiếm tên phân đoạn 63

Ảnh minh họa trang giúp tải phân đoạn dựa trên tên tìm km 64

Ảnh minh họa thống kê số lượng phân đoạn dựa trên độ dài 65

Ảnh minh họa ví dụ về danh sách phân đoạn trong mỗi câu hỏi của nhân vật Max của TRECVID VSUM 2021 66

Ảnh minh hoa số lượng dạng câu hỏi TRECVID VSUM 2021 67

Ảnh minh họa số lượng phân đoạn dán nhẫn trung bình của mỗi dang câu hỏi TRECVID VSUM2021 68

Trực quan hoá bộ dữ liệu gán nhãn 76

Truc quan hoá bộ dữ liệu gan nhãn cho nhân vật Jack 76

Trực quan hoá kết quả thực nghiệm 77

Truc quan hoa video tom tắt các sự kiện chính trong cuộc đời của nhân vật Jack với ràng buộc Run 4 (số lượng phân đoạn tối da 20 va tổng thời gian tối đa là 200 giây) 78

Kết quả của khoá luận được công bồ tại hội nghị TRECVID 2021 81 Bai báo được gởi tới hội nghị ACIIDS 2022_ 82

Trang 12

Bang câu hỏi cho các nhân vật của TRECVID VSUM 2021 59

Rang buộc về khoảng thời gian các tập phim được sử dung để

tóm tắt cho mỗi nhân vật 69

Rang buộc của 4 lần chạy - 69

Thông tin về độ dài và số lượng phân đoạn tạo thành video tóm

tắt ở các lần chạy của các nhân vật trên Maintask và Subtask 70

Kết quả trung bình của các nhân vật trên mỗi lần chay 71Kết quả trung bình của các lần chạy trên mỗi nhân vat 71Kết qua trung bình của các nhân vật (2020) trên mỗi lần chạy

được đánh giá trên bộ gán nhãn của nhóm sinh viên theo số

lượng câu hỏi trả lời đúng 72

Kết quả phản ánh sự tác động của các loại đặc trưng được sử

dụng trong TRECVID VSUM 2021 73

4.10 Các câu hỏi 3 đội thi đều có thể trả lời được 74

XI

Trang 13

Danh mục từ viết tắt

Từ viết tắt Nội dung

DL Deep Learning CNN(s) Convolutional Neural Networks RNN Recurrent Neural Network

LSTM Long Short Term Memory Conv Convolution

ANN(s) Artificial Neural Networks

ResNet Residual Neural Network

GD Gradient descent

SGD Stochastic Gradient descent

DAN Deep Averaging Network

MTCNN Multi-task cascaded convolutional neural networks

P-Net Proposal network P-Net Proposal network

R-Net Refine network

O-Net Output network SE-ResNet-50 | SqueezeNet-ResNet-50 SORT Simple Online and Realtime Tracking

xI

Trang 14

Chương 1

TỔNG QUAN

1.1 Đặt van đề

Trong thời đại ngày nay, với sự phát triển mạnh mẽ của công nghệ nói chung

và các nền tang mang xã hội nói riêng, dẫn tới số lượng dif liệu tăng lên rấtnhanh, đặc biệt là dữ liệu dạng video Điều này đặt ra nhiều thách thức về việc

tổ chức lưu trữ dữ liệu video trong lĩnh vực camera giám sát, quản lý nội dung

đăng tải và xây dựng công cụ tìm kiếm hiệu quả trên các nền tảng mạng xã hội

Do đó, bài toán tóm tắt video đã được ra giải quyết các nhu cầu trên

Tóm tắt video là một phương pháp rút gọn video thành một video có độ dàingắn hơn và chỉ tập trung giữ lại các thông tin có giá trị cao trong video, giúp

người xem không cần xem toàn bộ video gốc nhưng vẫn có thể nắm được các

nội dung, câu chuyện chính.

Cụ thể (Hình 3.14):

» Đầu vào: Một video.

* Đầu ra: Video ngắn hơn video gốc (thường bằng 15% so với video gốc)

nhưng vẫn chứa đầy đủ nội dung chính

Trang 15

1 TONG QUAN

Original video (uniform SEISUIHD)

Cuộc thi TRECVID Video Summarization (VSUM) task 2021 ! nhằm thúc

đẩy nghiên cứu trong lĩnh vực tóm tắt video bằng cách yêu cầu những người

tham gia tóm tắt các sự kiện chính trong cuộc đời của các nhân vật cụ thể trong

một số tuần của series phim BBC EastEnders TV Một số ví dụ về các sự kiệnchính trong cuộc đời có nhiều khả năng như: Sự ra đời của một đứa trẻ chứkhông phải là một trận ốm ngắn, một cuộc ly hôn chứ không phải là một cuộc

tranh cãi với người thân, sự ra đi của một người thân yêu hơn là sự ra đi của

người mà bạn không quen biết Cụ thể hơn, đối với 5 nhân vật khác nhau củaseries phim, những người tham gia phải gửi 4 bản tóm tắt tương ứng với 5, 10,

15 và 20 phân đoạn được chọn với độ dài tối đa của mỗi bản tóm tắt tương ứng

50s, 100s, 150s và 200s Ở đây, phân đoạn là những đoạn video nhỏ được chia

sẵn có thời gian không giao nhau Vì vậy đầu vào và đầu ra của cuộc thi có một

chút khác biệt so với nhiệm vụ tóm tắt video thông thường:

'https://www-nlpir.nist.gov/projects/tv2021/vsum.html

Trang 16

¢ Dau ra: Ban video tóm tat các sự kiện quan trong của nhân vật đó.

What happens when Janine attempts

to play recording of Stacey?

What is causing Ryan to be

sick in bed?

Who gives Janine the

recording of Stacey?

; 2 How does Janine attempt to kill Ryan

: while in the hospital?

Hình 1.2: Minh hoa bài toán Tom tắt những sự kiện quan trọng trong cuộc đời

TRECVID

1.2 Thách thức, phạm vi va mục tiêu

1.2.1 Thách thức

¢ Về mặt dữ liệu: Dữ liệu bài toán là một chuỗi video, tổng thời gian khoảng

20 giờ và nội dung của chuỗi video rất phong phú và đa dạng Tùy theotừng trường hợp tìm kiếm đối tượng cụ thể mà nội dung chính của bản

tóm tắt video cũng sẽ khác nhau Ngoài ra, tập phim được xuất bản từ năm

Trang 17

1 TONG QUAN

1985 nên các hình ảnh trong video bị mờ, làm ảnh hưởng đến hiệu suất

của các phương pháp thị giác máy tính.

* Về mặt công nghệ: Khi xây dựng một hệ thống thực tế, việc lựa công nghệ

và kiến trúc hệ thống để đảm bảo hệ thống hoạt động một cách hiệu quả là

van dé đáng được cân nhắc và xem xét thận trọng

« Về yêu cầu bài toán, bản video tóm tắt phải bao gồm các sự kiện quan

trọng trong cuộc đời, tuy nhiên các sự kiện này rất đa dạng và rất khó đểxác định trong việc chọn được sự kiện quan trọng nào là quan trọng nhất

* Về phương pháp giải quyết bài toán, các phương pháp tóm tắt video hiện

đại được đánh giá trên 2 tập TVSum và SumMe không thể giải quyết bài

toán này vì chúng không tập trung khai thác sự kiện quan trọng trong cuộc

đời của một nhân vật cụ thể.

1.22 Mục tiêu

Nhóm tập trung giải quyết bài toán tóm tắt những sự kiện quan trọng của các

nhân vật trong chuỗi video BBC Để hoàn thành công việc, nhóm đã đề ra các

mục tiêu sau:

s Tìm hiểu tổng quan về các cách tiếp cận cho bài toán Tóm Tắt Video

» Thực hiện gan nhãn, hoàn thiện bộ dữ liệu BBC EastEnders TV.

« Cài đặt, thử nghiệm đánh giá kết hợp một số phương pháp tiên tiến, phổ

biến như [1], [2], Image Matching và Text Matching trên bộ dữ liệu BBC

EastEnders TV.

» Xây dựng hệ thống minh hoa cho dé tài

Trang 18

1 TONG QUAN

1.2.3 Phạm vi

Trong khuôn khổ giới hạn của khóa luận, nhóm thực hiện tập trung hoàn

thành các công việc sau:

« Tìm hiểu tổng quan về bài toán, các thách thức và cơ sở lý thuyết của một

số phương pháp phổ biến

* Cài đặt, thử nghiệm đánh giá kết hợp một số phương pháp tiên tiến, phổ

biến như [1], [2] và Text Matching trên bộ dữ liệu BBC EastEnders TV.

¢ Đánh giá trên bộ dữ liệu BBC EastEnders TV.

« Xây dựng hệ thống minh hoa cho dé tài trên nền tang Web

1.3 Dong góp của khóa luận

Sau đây là một số đóng góp mà nhóm thực hiện có được sau quá trình thực

hiện khóa luận:

« Tìm hiểu tổng quan bài toán tóm tắt những sự kiện quan trọng của các

nhân vật trong chuỗi video BBC và một số phương pháp hiện nay

s Trinh bày những kiến thức nền tảng về Deep Learning và áp dụng nó vào

bài toán tóm tắt những sự kiện quan trọng của các nhân vật trong chuỗi

video BBC.

s Xây dựng bộ ground-truth cho tap dữ liệu BBC EastEnders TV.

« Cài đặt, thử nghiệm đánh giá kết hợp một số phương pháp tiên tiến, phổ

biến như [1], [2], so khớp văn bản trên bộ dữ liệu BBC EastEnders TV.

Trang 19

1 TONG QUAN

« Xây dựng ứng dung web minh họa cho bài toán để người xem thay được

các kết quả một cách trực quan nhất sau khi đã hiện thực bài toán trên bộ

dữ liệu BBC EastEnders TV.

1.4 Cấu trúc khóa luận

Chương 1: Tổng quan - Giới thiệu về lý do chọn để tài đặt ra những mục

tiêu, thách thức, phạm vi liên quan trong khi làm khóa luận.

Chương 2: Trình bày cơ sở lý thuyết và một số nghiên cứu liên quan

Chương 3: Trình bày xây dựng hệ thống cho bài toán tóm tắt các sự kiện

lớn trong cuộc đời trên tập dữ liệu video BBC Eastenders.

Chương 4: Trình bày thực nghiệm và đánh giá.

Chương 5: Trình bày xây dựng ứng dụng minh họa đề tài

Chương 6: Trình bày kết luận và hướng phát triển của đề tài

Trang 20

Chương 2

CƠ SỞ LÝ THUYET VÀ MỘT SO

NGHIÊN CỨU LIÊN QUAN

Để hiểu rõ bài toán tóm tắt những sự kiện quan trọng của các nhân vật trongchuỗi video BBC Eastenders TV, ta cần làm rõ các khái niệm liên quan, đồngthời tìm hiểu một số phương pháp tiếp cận hiện nay Vì vậy, trong chương này,

nhóm sinh viên giới thiệu một số khái niệm cơ bản về bài toán nền tảng tóm

tắt video, đồng thời trình bày một số phương pháp nghiên cứu đã từng được áp

dụng từ trước đến nay

2.1 Tổng quan bài toán

2.1.1 Bài toán tóm tắt video cơ sở

Sự phát triển bùng nổ của dữ liệu video đã mang lại sự cấp thiết để phát

triển các kỹ thuật thị giác máy tính có thể duyệt và xem video một cách hiệu

quả [3, 4] Để giải quyết vấn đề này, bài toán tóm tắt video trên 2 bộ dữ liệu

chuẩn là TVSUM và SumMe đã thu hút sự chú ý ngày càng tăng trong vài năm

qua [5, 6, 7] và nhiều phương pháp tóm tắt video đã được đề xuất [8, 7, 9] Nóichung, mục tiêu của việc tóm tắt video là tạo ra một phiên bản nhỏ gọn hơn

Trang 21

2 Cơ sở lý thuyết và một số nghiên cứu liên quan

của video gốc trong khi vẫn giữ được nội dung quan trọng và phù hợp của nó

[10, 11].

Cụ thể (Hình 3.14):

¢ Đầu vào: Một video.

* Đầu ra: Video ngắn hơn video gốc (thường bằng 15% so với video gốc)

nhưng vẫn chứa đầy đủ nội dung chính

Theo các bài khảo sát [8, 12, 4] đã chỉ ra rằng một hệ thống tóm tắt video

được chia làm ba bước:

* Shot boundary detection: Bước này đảm nhận vào trò cắt video đầu vào

thành những phân đoạn nhỏ, riêng biệt, không trùng nhau.

¢ Frame-level importance score prediction: Tính toán độ quan trọng của mỗi

khung hình.

Trang 22

¢ Key shot selection: Từ thông tin đã có ở bước 1 và bước 2, bước nay sẽ tính

toán điểm quan trọng của mỗi phân đoạn và sẽ tổng hợp video đầu ra có

độ dài nhỏ hơn hoặc báng độ dài mong muôn ở đầu vào.

2.1.2 Bài toán tóm tắt những sự kiện quan trọng của các nhân vật

trong chuỗi video BBC Eastenders TV

Lấy cảm hứng từ bài toán tóm tắt video trên 2 bộ dữ liệu chuẩn TvSum,SumMe và nhằm thúc đẩy việc nghiên cứu tóm tắt video, bắt đầu từ năm 2020,

nhiệm vụ tóm tắt video được bổ sung trong TRECVID, nơi mỗi đội tham gia cónhiệm cụ tóm tắt các sự kiện chính trong cuộc đời của các nhân vật cụ thể trong

một số tuần của loạt phim BBC EastEnders TV Cụ thể hơn, đối với 5 nhân vật

khác nhau của loạt phim, những người tham gia phải gửi 4 bản tóm tắt tương

ứng với 5, 10, 15 và 20 phân đoạn được chọn với tổng độ dài tối đa của mỗibản tóm tắt tương ứng 50s, 100s, 150s và 200s Nhằm đánh giá một cách kháchquan, cuộc thi cung cấp một bộ 5 câu hỏi cho mỗi nhân vật để đánh giá mỗi bảntóm tắt trả lời bao nhiêu câu hỏi trong số đó Vì vậy đầu vào và đầu ra của cuộcthi có một chút khác biệt so với nhiệm vụ tóm tắt video thông thường:

« Dau ra: Bản video tóm tat các sự kiện quan trong của nhân vật đó với số

lượng phân đoạn và tổng thời gian theo yêu cầu.

Có thể nói nhiệm vụ này khó hơn rất nhiều so với bài toán tóm tắt video

thông thường Khi mà sự kiện chính trong cuộc đời của nhân vật như : Sự ra đời

Trang 23

của một đứa trẻ chứ không phải là một trận ốm ngắn, một cuộc ly hôn chứ không

phải là một cuộc tranh cãi với người thân, sự ra đi của một người thân yêu hơn

là sự ra đi của người mà bạn không quen biết, Ngoài ra độ dài của mỗi videorất dài, trung bình mỗi video lên đến 2 tiếng

2.2 Khái niệm co bản

2.2.1 Xác xuất xảy ra đồng thời

Định lý nhân xác suất: là một định lí đùng để xác định xác suất để cả 2 sự

kiện A và B xảy ra.Trong bài toán giản lược video, định lý nhân xác suất được

áp dụng trong phương pháp tính độ quan trọng của các nhân vật xuất hiện đồng

C: là biên cô xảy ra cả A và B.

2.2.2 Mang Nơ-ron nhân tạo

2.2.2.1 Giới thiệu mạng Nơ-ron

Năm 1943, Warren McCulloch và Walter Pitts đưa ra một mô hình đơn giản

các nơ-ron nhân tạo Đây cũng chính là bước khởi đầu lịch sử của ANN Cho tớitận ngày nay, mô hình này vẫn được xem như là nền tảng cho hầu hết các ANN

Ở đây, các nơ-ron được gọi là các Perceptron [13]

Nơ-ron nhân tạo cơ bản (hình 2.2):

10

Trang 24

Step Function: hàm chuyển (hàm kích hoạt).

Trong một mạng nơron có ba kiểu đơn vị:

* Các đơn vị đầu vào (Input units): nhận tín hiệu từ bên ngoài;

* Các đơn vị đầu ra (Output units): gửi dữ liệu ra bên ngoài;

* Các đơn vị ẩn (Hidden units): Đầu ra của một lớp ẩn này sẽ là đầu vào của

lớp ẩn kia Mỗi lớp ẩn được cấu thành bởi một loạt các đơn vị ẩn (hidden

unit) Mục tiêu của lớp ẩn là xây dựng các phép biểu diễn, các đặc trưng

bằng cách kết hợp các đặc trưng của lớp trước đó

11

Trang 25

Mộ mạng nơ-ron có thể có một hoặc nhiều đầu vào: xọ, xị, x2, , Xn nhưngchỉ có một đầu ra Một đầu vào tới một đơn vị có thể là dữ liệu từ bên ngoài

mạng, hoặc đầu ra của một đơn vị khác, hoặc là đầu ra của chính nó.

2.2.2.2 Một số hàm xử lý

¢ Hàm bước nhị phân (Binary step function, Hard limitfunction) (Hình

2.4)

Ham này cũng được biết đến với tên "Hàm ngưỡng" Dau ra của ham nay

được giới hạn vào một trong hai giá trị:

Trang 26

¢ Ham sigmoid (Sigmoid function (logsig)) (Hình 2.3)

Công thức:

1 l+e

3 Tiệm cận ké các giá trị bão hòa của nó

Ưu điểm chính ở đây là sự mượt mà của hàm sigmoid giúp việc tạo ra các

thuật toán học tập dễ dàng hơn Tuy nhiên, có hai vẫn đề lớn với hàm sigmoid:

1 Các đầu ra của sigmoid không được căn giữa

2 Các tế bào thần kinh bão hòa về cơ bản tiêu diệt gradient, vì delta của

gradient sẽ cực kỳ nhỏ (Gradient Vanishing).

Trang 27

¢ Ham sigmoid lưỡng cực (Bipolar sigmoid function (tanh)) (Hình 2.5)

giữa, nhưng các gradient vẫn bị triệt tiêu khi các tế bào thần kinh trở nên bão

hòa (Gradient Vanishing).

tanh

f(x)

Hình 2.5: Đồ thị của hàm Tanh

¢ Hàm ReLU (Rectified Linear Unit) (Hình 2.6)

Công trình nghiên cứu của Hahnloser và các cộng sự năm 2000 giới thiệu

hàm kích hoạt Rectified Linear Unit (ReLU) [14] được định nghĩa như sau:

Công thức:

f(x) = max(0,x) (2.4)

Ham ReLU là một hàm kích hoạt được sử dung rất phổ biến khi xây dung

mạng nơ-ron Khắc phục nhược điểm tiêu biến gradient (Gradient Vanishing)

của hàm sigmoid và hàm tanh.

14

Trang 28

Hình 2.6: Đồ thi của hàm ReLU

¢ Ham Leaky ReLUs (Hình 2.7)

Một biến thể của ReLU, được gọi là Leaky ReLUs [15] cho phép một

gradi-ent nhỏ, khác 0 khi đơn vi (unit) không hoạt động:

Công thức:

x nếu x >0 (2.5a)œx*x nếux<0 (2.5b)

Khác với hàm ReLU, hàm Leaky ReLUs thực sự được phép nhận một giá tri

^

âm.

¢ Hàm ELU (Exponential Linear Units) (Hình 2.8)

Ham Exponential Linear Units (ELU) được giới thiệu bởi Clevert và các cộng

sự trong một bai báo 2015 [16]

Trang 29

Leaky ReLU (alpha=0.3)

f(x)

Hình 2.7: Đồ thị của hàm Leaky ReLUs

Giá trị của œ là không đổi và được đặt khi kiến trúc mạng được khởi tạo - điều

này không giống như PReLUs nơi học œ Giá trị điển hình của œ là œ = 1.0.

Thông qua các nghiên cứu của Clevert và các cộng sự [16], ELU thường thu được độ chính xác phân loại cao hơn ReLUs.

ELU (alpha=1.0)

f(x)

Hình 2.8: Đồ thị của hàm ELU

2.2.2.3 Hàm mắt mát

Khi huấn luyện mạng nơ-ron nhân tạo, hàm mat mát đóng vai trò cực kì quan

trọng Nó là thước đo cho biết độ lỗi của mô hình với so với kết quả thật sự Độ

16

Trang 30

lỗi càng nhỏ, mô hình càng hoạt có hiệu quả Sau đây nhóm sinh viên sẽ giới

thiệu một số hàm mất mát cơ bản cho bài toán

¢ Mean Square Error

Mean Square Error (MSE) hay còn được gọi là L2 Loss là một hàm mất mát

cũng được sử dụng cho các mô hình hồi quy, đặc biệt là các mô hình hồi quy

tuyến tính MSE được tính bằng tổng các bình phương của hiệu giữa giá trị thực

(y : target) và giá tri mà mô hình của chúng ra dự đoán (§: predicted).

Công thức:

n

(2.7)

¢ Cross-Entropy

Trong các bài toán phân loại đa lớp, Cross-Entropy là một hàm mat mát cực

kì hữu ích Với hai phân bố xác suất rời rạc P và Q và vector xác suất tương ứng

của phân bồ p = (pj, , Pn) và q = (G1, , đ„), độ do Cross Entropy được định

nghĩa như sau:

H(p,4) = —Ề_ pilosbdi (2.8)

i=1

Một số tinh chất của độ do Cross Entropy:

* Cross Entropy dùng q để mã hóa p luôn luôn lớn hơn hoặc bằng Entropy

của p hay nói cách khác H(p,q) > H(p).

* Cross Entropy không có tính đối xứng H(p,q) # H(q,p) nên nó không

phải là một khoảng cách mêtric.

* Cross Entropy khi dùng như hàm mất mát, hàm này phat rất nặng khi xác

suất p; lớn nhưng q; lại nhỏ, lý do là do hàm /og,(x) tăng rất nhanh khi x

càng nhỏ và tiên về 0.

17

Trang 31

¢ Triplet Loss

Thay vi sử dung các ham loss truyền thống, khi mà ta chỉ so sánh giá trịđầu ra của mạng với ground truth thực tế của dif liệu, Triplet Loss làn đầu đượcHoffer và các cộng sự giới thiệu trong một bài báo [17] Đây là một hàm mấtmát được đề xuất để phục vụ cho bài toán học biểu diễn (representation learning)

một cách hiệu quả.

Hàm triplet loss đưa ra một công thức mới bao gồm 3 giá trị đầu vào gồmảnh gốc (anchor), một ảnh là negative ( khác với anchor) và một ảnh là positive

(cùng nội dung với anchor).

Anchor Positive Anchor Negative

Hinh 2.9: Anh minh hoa vi du vé Anchor, positive va negative

Ki hiéu anh Anchor, Positive, Negative lần lượt là A,P.N

Mục tiêu của ham Triplet loss là tối đa hóa khoảng cách giữa 2 ảnh khi chúng

có nội dung không liên quan hoặc tương phản nhau và tối thiểu hóa khoảng cách

khi chúng có nội tương đồng nhau Như vậy chúng ta cần lựa chọn các bộ 3 ảnh

Trang 32

Ham Triplet loss luôn lấy 3 bức ảnh làm input và trong mọi trường hợp ta ki

Hinh 2.10: Anh minh hoa vé Triplet Loss

2.2.2.4 Quá trình huấn luyện mang nơron

¢ Gradient descent (GD)

Trong các bai toán hoc máy, việc tìm điểm cực tiểu toàn cục của các ham

mat mát là rất phức tạp, thậm chí là bat khả thi Thay vào đó, người ta thường

cố gắng tìm các điểm cực tiểu địa phương, và ở một mức độ nào đó, coi đó là

nghiệm cần tìm của bài toán Gradient Descent là hướng tiếp cận phổ biến nhất

Nó xuất phát từ một điểm mà chúng ta coi là gần với nghiệm của bài toán, sau

đó dùng một phép toán lặp để tiến dần đến điểm cần tìm, tức đến khi đạo hàmgần với 0

¢ Stochastic Gradient descent (SGD)

19

Trang 33

Stochastic Gradient descent (SGD) lần đầu được giới thiệu năm 1960 [18].Thuật toán là một sự cải tiễn từ thuật toán gradient descent Thay vì tính toánđạo hàm và cập nhật trọng số W trên toàn bộ tập huấn luyện, nó cho phép cậpnhật trên các lô dữ liệu nhỏ của bộ dif liệu huấn luyện Mặc dù thực hiện nhiều

phép đạo hàm, SGD hội tụ nhanh hơn và không ảnh hưởng tiêu cực đến độ chính

xác của hàm mất mát SGD được cho là thuật toán quan trọng nhất khi nói đến

đào tạo mạng nơ-ron sâu.

» Learning rate decay

Để giúp giảm bớt ảnh hưởng của việc overfitting, nhóm sinh viên giới thiệu khái niệm Learning rate decay khi áp dung SGD để đào tạo mạng.

Bằng cách điều chỉnh tỷ lệ học tập trên mỗi epoch, nhóm sinh viên có thểgiảm tổn thất, tăng độ chính xác và thậm chí trong một số tình huống nhất định

giảm tổng thời gian cần thiết để đào tạo một mạng.

¢ Stop early

Trong nhiều bài toán máy hoc, chúng ta cần sử dụng các thuật toán lặp dé

tìm ra nghiệm, ví dụ như Gradient Descent Nhìn chung, hàm mất mát giảm dần khi số vòng lặp tăng lên Early stopping là một kĩ thuật dừng thuật toán trước

khi hàm mat mát dat giá tri quá nhỏ, giúp tránh overfitting

Một kỹ thuật thường được sử dụng là tách từ training set ra một tập validation

set Sau một (hoặc một số, ví dụ 50) vòng lặp, ta tính cả train error và validation

error, đến khi validation error có chiều hướng tăng lên thì dừng lại, và quay lại

sử dụng mô hình tương ứng với điểm va validation error dat giá tri nhỏ.

2.2.3 Mang Nơ-ron tích chập trong xử lý ảnh

2.2.3.1 Giới thiệu

Mạng neural tích chập (Convolutional neural networks), còn được biết đến với

20

Trang 34

wi

Thời gian

LR: laaming rate

Thời gian

Hinh 2.11: Minh hoa cho ki thuat learning rate decay.

tên CNNs, là một dang mang neural được cấu thành bởi các tang sau:

° Tầng tích chập (CONV) sử dung các bộ lọc để thực hiện phép tích chập

khi đưa chúng đi qua đầu vào II theo các chiều của nó Các siêu tham sốcủa các bộ lọc này bao gồm kích thước bộ lọc FF va độ trượt (stride) SS.Kết quả đầu ra OO được gọi là feature map hay activation map

° Tầng pooling (POOL) là một phép downsampling, thường được sử dụng

sau tầng tích chập, giúp tăng tính bất biến không gian Cụ thể, max pooling

va average pooling là những dang pooling đặc biệt, mà tương ứng là trong

đó giá trị lớn nhất và giá trị trung bình được lấy ra

- Tang kết noi day đủ (FC) nhận đầu vào là các dữ liệu đã được làm phẳng,

mà mỗi đầu vào đó được kết nối đến tất cả neuron Trong mô hình mạngCNNs, các tầng kết nối day đủ thường được tìm thấy ở cuối mang va được

21

Trang 35

Hình 2.12: Early Stopping Đường màu xanh là train error, đường màu đỏ là validation

error Trục x là số lượng vòng lặp, trục y là error Mô hình được xác định tại vòng lặp

mà validation error đạt giá trị nhỏ nhất.

dùng để tối ưu hóa mục tiêu của mạng ví dụ như độ chính xác của lớp

2.2.3.2 Một số mạng no-ron phổ biến

Phân này nhóm sinh viên sẽ giới thiệu một sô kiên trúc mạng nơ-ron tích

chập được sử dụng trong bài toán này.

một chức năng khởi tạo hợp lý) thông qua việc sử dụng của các mô-đun residual.

Nó có thể đạt được độ chính xác cao hơn bằng cách cập nhật mô-đun residual để

sử dụng ánh xạ nhận dạng (hình 2.13) Mặc dù ResNet sâu hơn nhiều so với cả

22

Trang 36

VGG16 và VGG19, nhưng kích thước mô hình thực sự nhỏ hơn đáng kể do sử

dụng global average pooling thay vì các lớp fully-connected, điều này làm giảmkích thước mô hình xuống 102MB cho ResNet50

Xi

XHI

(a) original (b) proposed

Hình 2.13: Trái: Mô-đun residual ban đầu Đúng: Mô-đun residual được cập nhật bằng

cách sử dụng các lớp kích hoạt trước Số liệu của He và các cộng sự, 2016 [20].

* Inception V3

Mô-đun Inception được giới thiệu bởi Szegedy và các cộng su trong bai báo năm 2014 của họ, Going Deeper with Convolutions [21] Mục tiêu của mô-đun

inception (Hình 2.14) là hoạt động như “trình trích xuất tính năng đa cấp” bằng

cách tính toán các lớp tích chập có kích thước 1 x 1, 3 x 3 và 5 x 5 trong cùng

một mô-đun của mạng - đầu ra của các bộ lọc này là sau đó được xếp chồng lênnhau dọc theo cùng kích thước trước khi được đưa vào lớp tiếp theo trong mạng.Tên gọi ban đầu của kiến trúc này được gọi là GoogLeNet, nhưng các liên hoan

23

Trang 37

điên cuồng sau đó chỉ đơn giản được đặt tên là Inception vN trong đó N dé cậpđến số phiên bản do Google đưa ra trọng lượng cho Inception V3 nhỏ hơn cả

VGG và ResNet, có dung lượng 96MB.

Hình 2.14: Ảnh minh họa mô-đun inception gốc được sử dụng trong GoogLeNet Ảnh

từ Szegedy và các cộng sự, 2014 [21].

¢ EfficientNet

EfficientNet được giới thiệu bởi Google AI trong bai báo năm 2020 của

ho, EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks

[22] Nhằm khắc phục nhược điểm tăng các đặc tính quá rộng, quá sâu hoặc có

độ phân giải rất cao giúp ích cho mô hình ban đầu cao hiệu suất trong việc đào

tạo mô hình nhưng nó nhanh chóng bão hòa và mô hình được tạo ra chỉ có nhiều

tham số hơn Do đó họ đề xuất ra mô hình EfficientNet Trong EfficientNet,

chúng được mở rộng theo cách có nguyên tắc hơn, tức là mọi thứ dần dần được

tăng lên Với số lượng tham số ít hơn đáng kể, mô hình EfficientNet hoạt độnghiệu quả và cũng mang lại kết quả tốt hơn

2.2.4 Một số phương pháp trong xử lý ngôn ngữ tự nhiên

Trước khi xây dựng bất kỳ mô hình Học sâu nào trong Xử lý ngôn ngữ tự nhiên, text embedding đóng một vai trò quan trọng Text embedding giúp chuyển đỏi văn bản (từ hoặc câu) thành một vector trong đó mỗi phẩn tử trong vector

24

Trang 38

ñ ResNet-50 SENet (Hu et al., 2018) @.7% 146M

lẻ NASNet-A (Zoph et al., 2018) | 827% 89M

Number of Parameters (Millions)

Hình 2.15: Anh minh hoa việc so sánh độ chính xác khi thực hiện trên bộ dữ liệu

ImageNet và số lượng tham số của các mô hình

biểu diễn bằng một con số Phần này nhóm sinh viên sẽ giới thiệu một số phương

pháp nhằm chuyển đổi văn bản (từ hoặc câu) thành một vector

2.2.4.1 Word2vec [23]

Word2vec là một kỹ thuật xử lý ngôn ngữ tự nhiên Thuật toán Word2vec sử

dụng một mô hình mạng thần kinh để học các liên kết từ (sự liên quan của từ) từ

một kho ngữ liệu văn bản có dung lượng lớn Sau khi được huấn luyện, mô hình

có thể phát hiện các từ đồng nghĩa hoặc gợi ý các từ bổ sung cho một phần của

cau.

Cu thể gọi V là tập các tất cả các từ hay bộ từ điển với n từ khác nhau Layer

input biểu diễn dưới dạng one-hot encoding với n node đại diện cho n từ trong

bộ từ điển Hàm kích hoạt chỉ có tại layer cuối là hàm softmax, hàm mat mát là

cross entropy loss, tương tự như cách biểu diễn mô hình của các bài toán phân

25

Trang 39

loại thông thường vậy Ở giữa 2 layer đầu vào và đầu ra là 1 layer trung gian với

kích thước = k, chính là vector sẽ được sử dụng để biểu diễn các từ sau khi huấn

Hình 2.16: Anh minh họa mô hình Word2Vec

2.2.4.2 Paragraph Vectors: Doc2vec

Trong bài báo Distributed Representations of Sentences and Documents của

Quốc Lê và Tomas Mikolov năm 2015 [24], các tác giả đã giới thiệu một phương

pháp mới có khả năng tìm vector biểu diễn tốt hơn cho các câu văn/đoạn văn

thông qua một mô hình tương tự như mô hình word2vec được giới thiệu trước

đó cũng bởi Mikolov Phương pháp được mô tả đơn giản như hình dưới đây.

Ngoài đầu vào là các từ ngữ cảnh, mô hình Doc2vec còn có thêm 1 giá trịmới là ID của các câu văn Về cơ bản, mỗi câu văn được ánh xạ tới một vectorduy nhất và mô hình sử dụng các vector của câu văn này kết hợp với các vector từcâu thành lên câu đó để dự đoán từ tiếp theo cho ngữ cảnh Thông qua quá trìnhđào tạo như vậy, các vector của câu sẽ có thể lưu trữ thông tin về ngữ cảnh, ý

nghĩa của câu, những thông tin mà bản thân ý nghĩa của từng từ trong câu không

thể thể hiện được Nó hoạt động như một bộ nhớ lưu trữ của câu Cũng chính vì

vậy, phương pháp này được gọi là Distributed Memory model (PV-DM).

26

Trang 40

Hình 2.17: Ảnh minh họa mô hình Doc2Vec

2.2.4.3 Universal sentence encoder MODEL [25]

Universal sentence encoder có hai biến thể với sự khác biệt chính nằm ở phần

embdding Một cái có bộ mã hóa từ kiến trúc Transformer, cái còn lại sử dụng

mạng Deep Averaging (DAN) Cả hai có sự đánh đổi về độ chính xác và yêu cầu

tài nguyên tính toán Trong khi biến thể sử dụng có bộ mã hóa Transformer có

độ chính xác cao hơn, tuy nhiên nó phức tạp hơn về mặt tính toán Còn phươngpháp mã hóa DNA ít tốn kém về mặt tính toán hơn nhưng về độ chính xác thấp

hơn một chút.

¢ Transformer encoder

Mô hình mã hóa câu dựa trên transformer xây dựng nhúng câu bằng cách sử

dụng đồ thị con mã hóa của kiến trúc transformer [26] Đồ thị con này sử dụng

cơ chế attention tính toán các từ đại diện trong một câu mà có sự ràng buộc vềtrật tự các từ và danh tính của tất cả các từ khác Nội dung của các từ đại diện

được chuyển đổi thành vector mã hóa câu có độ dài cố định bằng cách tính toán

tổng từng phần tử của các điểm biểu diễn tại mỗi vị trí từ Bộ mã hóa nhận đầuvào là một chuỗi mã hóa PTB chữ thường và đầu ra là một vectơ có 512 chiều

khi nhúng câu.

Mô hình mã hóa được thiết kế cho mục đích chung nhất có thể Điều này có

thể thực hiện được bằng cách sử dụng tính năng học đa tác vụ, theo đó một mô

27

Tiêu đề	Tóm tắt những sự kiện quan trọng của các nhân vật trong chuỗi video BBC Eastenders TV
Tác giả	Trần Đình Khang, Pham Le Quang Nhat
Người hướng dẫn	TS. Mai Tien Dung, ThS. Do Van Tien
Trường học	Đại học Quốc gia Thành phố Hồ Chí Minh
Chuyên ngành	Khoa học Máy tính
Thể loại	Khóa luận tốt nghiệp
Năm xuất bản	2021
Thành phố	Thành phố Hồ Chí Minh

Định dạng
Số trang	101
Dung lượng	53,64 MB