Nhằm thúc đẩy nghiên cứu trong lĩnh vực tóm tắt video, cuộc thiTRECVID VSUM 2021 yêu cầu những người tham gia tóm tắt các sự kiện chính trong cuộc đời của các nhân vật cụ thể trong một s
Trang 1ĐẠI HỌC QUỐC GIA THÀNH PHÔ HỒ CHÍ MINH
ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA KHOA HỌC MÁY TÍNH
TRẦN ĐÌNH KHANG - 18520896 PHAM LE QUANG NHẬT - 18520120
KHOÁ LUẬN TỐT NGHIỆP
TÓM TẮT NHỮNG SỰ KIỆN QUAN TRỌNG CỦA
CÁC NHÂN VAT TRONG CHUOI VIDEO BBC
EASTENDERS TV
Summarizing the major life events of characters in the BBC
EastEnders TV video series
CU NHÂN TAI NANG NGANH KHOA HOC MAY TÍNH
GIANG VIEN HUGNG DAN
TS MALTIEN DUNG ThS DO VAN TIEN
TP HO CHÍ MINH, 2021
Trang 2DANH SÁCH HỘI ĐỒNG BẢO VỆ KHÓA LUẬN
Hội đồng chấm khóa luận tốt nghiệp, thành lập theo quyết định số
¬ ngày của Hiệu trưởng Trường Dai học
Công nghệ Thông tin.
ne - Chi tich.
Qe cessscseessessee PME - Thu ky.
Ae eee ae GA a8 - Uy vién.
Trang 3LỜI CẢM ƠN
Đầu tiên, xin gửi lời cảm ơn sâu sắc đến các giảng viên hướng dẫn:PGS.TS Lê Đình Duy, TS Mai Tiến Dũng và ThS Đỗ Văn Tiến đã
tận tình hướng dẫn giúp đỡ chúng em vượt qua những khó khăn của
khóa luận, đưa ra những lời khuyên bổ ích không chỉ áp dụng cho
khóa luận mà còn là kim chỉ nam cho chúng em sau này.
Đồng thời, chúng em cũng muốn gửi lời cảm ơn tới toàn thể thầy
cô của trường Đại học Công nghệ Thông tin, đặc biệt là các thầy/cô
trong khoa Khoa học máy tính đã tận tình giảng dạy em trong thời
gian học tập và rèn luyện tại trường Thêm vào đó, nhóm chúng em
cũng chân thành biết ơn những sự hỗ trợ và đồng hành đến từ các
thành viên của câu lạc bộ AI khoa Khoa học máy tính.
Cuối cùng, em xin cảm ơn bố mẹ, các anh chị, bạn bè lớp KHTN2018
đã luôn bên cạnh động viên, ủng hộ và là chỗ dựa tinh thần vững chãi
trong suốt thời gian học tập ở trường Đại học Công nghệ Thông tin.
Chúng em xin chân thành cảm ơn!
TP Hồ Chí Minh, tháng 1 năm 2022
Nhóm sinh viên thực hiện.
Trang 4TÓM TẮT KHÓA LUẬN
Trong thời đại ngày nay, với sự phát triển mạnh mẽ của công nghệ nói chung và các nền tảng mạng xã hội nói riêng, dẫn tới số lượng dữ
liệu tăng lên rất nhanh, đặc biệt là dit liệu dang video Điều này đặt
ra nhiều thách thức về việc tổ chức lưu trữ dif liệu video trong lĩnh
vực camera giám sát, quản lý nội dung đăng tải và xây dựng công cụ
tìm kiếm hiệu quả trên các nền tảng mạng xã hội Do đó, bài toán
tóm tắt video đã được ra giải quyết các nhu cầu trên
Tóm tắt video là một phương pháp tạo ra một video từ video gốcnhưng với độ dài ngắn hơn video gốc nhưng vẫn giữ được các nội
dung, thông tin có giá trị cao trong video, giúp người xem không cần
xem toàn bộ video gốc nhưng vẫn có thể nắm được các nội dung, câu
chuyện chính.
Nhằm thúc đẩy nghiên cứu trong lĩnh vực tóm tắt video, cuộc thiTRECVID VSUM 2021 yêu cầu những người tham gia tóm tắt các
sự kiện chính trong cuộc đời của các nhân vật cụ thể trong một số
tuần của series phim BBC EastEnders TV Cụ thể bài toán tóm tắt
những sự kiện quan trọng của các nhân vật trong chuỗi video BBC
Eastenders được mô tả như sau: Bài toán nhận đầu vào là thông tincủa nhân vật quan tâm (bao gồm tên và ảnh khuôn mặt), một tập hợp
các phân đoạn video, số phân đoạn và thời gian tối đa mà bản video
tóm tắt yêu cầu Đầu ra của bài toán là một bản tóm tắt video củanhân vật Một bản video tóm tắt được xem là hiệu quả khi nội dung
Trang 5của nó có thể trả lời cho 5 câu hỏi liên quan đến các sự kiện quantrọng nhất trong cuộc đời của nhân vật đó Các câu hỏi này do hệthống chuyên gia đề xuất.
Tom lai trong khóa luận này, nhóm sinh viên đã thực hiện được những
nội dung sau:
* Tìm hiểu tổng quan bài toán tóm tắt những sự kiện quan trọng
của các nhân vật trong chuỗi video BBC và một số phương pháp
hiện nay.
« Trình bày những kiến thức nền tảng về Deep Learning và áp
dụng nó vào bài toán tóm tắt những sự kiện quan trọng của các
nhân vật trong chuỗi video BBC.
s Xây dựng bộ nhãn dữ liệu cho tập dữ liệu BBC EastEnders TV.
* Cài đặt, thử nghiệm đánh giá kết hợp một số phương pháp tiên
tiến, phổ biến như [1], [2] và so khớp van bản trên bộ dữ liệu BBC EastEnders TV.
« Xây dung ứng dung web minh hoa cho bài toán để người xem
thấy được các kết quả một cách trực quan nhất sau khi đã hiện
thực lại bài toán trên bộ dữ liệu BBC EastEnders TV.
Từ khóa: Tóm tắt video, so khớp văn bản, so khớp hình ảnh, sự kiệncuộc đời quan trọng, tóm tắt những sự kiện quan trọng của nhân vật
Trang 6Mục lục
Mục lục
Danh sách hình vẽ
Danh sách bang
Danh mục từ viết tắt
1 TONG QUAN
1.1
1.2
1.3
1.4
Đặt vẫnđề : ‹
Thách thức, phạm vi và mục tiêu
1.2.1 Tháchthức
122 Muctiéu
123 Phạmv!l
Đóng góp của khóaluận
Câu trúc khóa luận
2 CƠ SỞ LÝ THUYET VÀ MỘT SỐ NGHIÊN CỨU LIÊN QUAN 2.1 Tổng quan bàitoán
2.1.1 Bài toán tóm tat videocơsở
2.1.2 Bài toán tóm tắt những sự kiện quan trọng của các nhân
vật trong chuỗi video BBC Eastenders TV
Vili
xi
xii
Trang 7MỤC LỤC
2.2 Kháinệmcơbản 10
22.1 Xác xuấtxảyrađồngthời 10
2.2.2 Mạng Nơ-ron nhântạo 10
2.2.3 Mạng Nơ-ron tích chập trong xửlýảnh 20
2.2.4 Một số phương pháp trong xử lý ngôn ngữ tự nhiên 24
2.3 Một số phương pháp tiếp cận phổbiến 29
2.3.1 Phương pháp tiếp cận của độ MEMAD [2] 29
2.3.2 Phương pháp tiếp cận của nhóm nghiên cứu NH_UIT[I] 32 24 Kétchuong 0.0.00 000 ce sỦ 35 3 XÂY DUNG HỆ THONG CHO BAI TOÁN TOM TAT CÁC SU KIEN LON TRONG CUOC DOI TREN TAP DU LIEU VIDEO BBC EASTENDERS 37 3.1 Tổng quan T7 SMe tf, 37 3.2 Chitiếtcáe phươngpháp - 38
321 Phânđoạnvideo 38
3.2.2 Tính đoán độ quan trọng của các phân doan 39
3.2.2.1 Nhận diện khuônmặt 39
3.2.2.2 Khuôn mặt xuất hiện đồng thời 46
3.223 Sokhópvănbản 48
3.2.2.4 Phân loạ sựkiện 53
3.2.2.5 Tong hợp độ quan trọng của phân đoạn 55
3.2.3 Tạo videotÓmtẮt Ặ co 56 4_ THỰC NGHIỆM VÀ ĐÁNH GIÁ 58 41 Mổđầu Q QQ Qua 58 42 Xây dựng tập dữ liệu 58
4.2.1 Tổng quan tập dữ liệu BBC EastenderTV 58
VI
Trang 85 XÂY DUNG UNG DUNG MINH HOA DE TÀI 75
5.1 Web trực quan hoá bộ dữ liệu gan nhãn 75
5.2 Web trực quan hoá kết quả thực nghệm 77
Trang 9Danh sách hình ve
1.1
1.2
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
2.10
2.11
2.12
2.13
2.14
2.15
2.16
Vi dụ đầu vào và đầu ra cho bài toán tóm tat video 2
Minh họa bài toán Tóm tắt những sự kiện quan trọng trong cuộc đời TRECVID QC 3 Mô tả các phần chính của phương pháp 8
Cấu tạo của tế bào noron nhântạo - 11
Đồ thị của hàm bước nhị phân 12
Đồ thị củahàm Sigmoid 13
Đồ thị của hàm Tanh 14
Đồ thị của hàm ReLu 15
Đồ thị của hàm Leaky ReLUs 16
Đồ thị củahàmELU - 16
Ảnh minh hoa ví dụ về Anchor, positive va negative 18
Ảnh minh họa về TripletLos 19
Minh họa cho ki thuật learning rate decay 21
Early Stopping 2 2 ee ee ee 22 Ảnh minh họa mô-đun residual - 23
Ảnh minh họa mô-đun inception - 24
Ảnh minh hoạ việc so sánh độ chính xác khi thực hiện trên bộ dữ liệu ImageNet và số lượng tham số của các mô hình 25
Ảnh minh họa mô hình Word2Vec 26
Viil
Trang 10DANH SÁCH HÌNH VẼ
2.17
2.18
2.19
2.20
2.21
2.22
2.23
3.1
3.2
3.3
3.4
3.5
3.6
3.7
3.8
3.9
3.10
3.11
3.12
3.13
3.14
4.1
4.2
Ảnh minh hoa mô hình Doc2Vec - 27
Ảnh minh họa kiến trúc Transformer - 28
Ảnh minh họa kiến trúc mạng DAN 29
Ảnh minh hoạ phương pháp tiếp cận của nhóm MEMAD cho TRECVID VSUM 2020 30
Các giai đoạn trong hệ thống tóm tắt của đội NIILUIT 32
Ảnh minh hoạ hệ thống của đội NII_UIT cho TRECVID VSUM 2020 Qua 33 Ảnh minh hoạ nhiệm vụ của cuộc thi TRECVID VSUM 2020 35 Ảnh mô tả phương pháp tiếpcận - 38
Ảnh mô tả hệ thống nhận diện khuôn mặt 39
Ảnh mô tả 3 thành phần trong mtenn 40
Chi tiết kiến trúc P-Net 41
Chi tiết kiến trúc R-Net 42
Chỉ tiết kiến trúc O-Net 43
Lược đồ của mô-đun Residual gốc và mô-đun SE-ResNet 45
Ảnh mô tả kiến trúc của ResNet-50, SE-ResNet-50 và SE-ResNeXt-¬ 46 Ảnh mô tả phương pháp So khớp văn bản 49
Mô tả các trường hợp một câu thoại thuộc một phân đoạn 49
Mô tả lời thoại của các phân đoạn 50
Bản tóm tắt về cuộc đời nhân vat Tanya trên Wiki 51
Ảnh mô tả hệ thống gan nhãn sự kiện mỗi phân đoạn 54
Mô tả bài toán cái túi đa mục tiêu 57
Quá trình gan nhãn dữ liệu 60
Ảnh minh hoa web chứ 11 video cho 3 nhân vật Max, Tanya và Jack trong TRECVID VSUM2021 61
1X
Trang 11DANH SÁCH HÌNH VẼ
4.3
4.4
4.5
4.6
4.7
4.8
4.9
4.10
5.1
5.2
5.3
5.4
6.1
6.2
Ảnh minh hoa web chứ 11 video cho 2 nhân vat Peggy va Archie
trong TRECVID VSDM2021 61
Ảnh minh họa một video trong web cho 3 nhân vật Max, Tanya và Jack trong TRECVID VSUM 2021 62
Anh minh họa trang tìm kiếm tên phân đoạn 63
Ảnh minh họa trang giúp tải phân đoạn dựa trên tên tìm km 64
Ảnh minh họa thống kê số lượng phân đoạn dựa trên độ dài 65
Ảnh minh họa ví dụ về danh sách phân đoạn trong mỗi câu hỏi của nhân vật Max của TRECVID VSUM 2021 66
Ảnh minh hoa số lượng dạng câu hỏi TRECVID VSUM 2021 67
Ảnh minh họa số lượng phân đoạn dán nhẫn trung bình của mỗi dang câu hỏi TRECVID VSUM2021 68
Trực quan hoá bộ dữ liệu gán nhãn 76
Truc quan hoá bộ dữ liệu gan nhãn cho nhân vật Jack 76
Trực quan hoá kết quả thực nghiệm 77
Truc quan hoa video tom tắt các sự kiện chính trong cuộc đời của nhân vật Jack với ràng buộc Run 4 (số lượng phân đoạn tối da 20 va tổng thời gian tối đa là 200 giây) 78
Kết quả của khoá luận được công bồ tại hội nghị TRECVID 2021 81 Bai báo được gởi tới hội nghị ACIIDS 2022_ 82
Trang 12Bang câu hỏi cho các nhân vật của TRECVID VSUM 2021 59
Rang buộc về khoảng thời gian các tập phim được sử dung để
tóm tắt cho mỗi nhân vật 69
Rang buộc của 4 lần chạy - 69
Thông tin về độ dài và số lượng phân đoạn tạo thành video tóm
tắt ở các lần chạy của các nhân vật trên Maintask và Subtask 70
Kết quả trung bình của các nhân vật trên mỗi lần chay 71Kết quả trung bình của các lần chạy trên mỗi nhân vat 71Kết qua trung bình của các nhân vật (2020) trên mỗi lần chạy
được đánh giá trên bộ gán nhãn của nhóm sinh viên theo số
lượng câu hỏi trả lời đúng 72
Kết quả phản ánh sự tác động của các loại đặc trưng được sử
dụng trong TRECVID VSUM 2021 73
4.10 Các câu hỏi 3 đội thi đều có thể trả lời được 74
XI
Trang 13Danh mục từ viết tắt
Từ viết tắt Nội dung
DL Deep Learning CNN(s) Convolutional Neural Networks RNN Recurrent Neural Network
LSTM Long Short Term Memory Conv Convolution
ANN(s) Artificial Neural Networks
ResNet Residual Neural Network
GD Gradient descent
SGD Stochastic Gradient descent
DAN Deep Averaging Network
MTCNN Multi-task cascaded convolutional neural networks
P-Net Proposal network P-Net Proposal network
R-Net Refine network
O-Net Output network SE-ResNet-50 | SqueezeNet-ResNet-50 SORT Simple Online and Realtime Tracking
xI
Trang 14Chương 1
TỔNG QUAN
1.1 Đặt van đề
Trong thời đại ngày nay, với sự phát triển mạnh mẽ của công nghệ nói chung
và các nền tang mang xã hội nói riêng, dẫn tới số lượng dif liệu tăng lên rấtnhanh, đặc biệt là dữ liệu dạng video Điều này đặt ra nhiều thách thức về việc
tổ chức lưu trữ dữ liệu video trong lĩnh vực camera giám sát, quản lý nội dung
đăng tải và xây dựng công cụ tìm kiếm hiệu quả trên các nền tảng mạng xã hội
Do đó, bài toán tóm tắt video đã được ra giải quyết các nhu cầu trên
Tóm tắt video là một phương pháp rút gọn video thành một video có độ dàingắn hơn và chỉ tập trung giữ lại các thông tin có giá trị cao trong video, giúp
người xem không cần xem toàn bộ video gốc nhưng vẫn có thể nắm được các
nội dung, câu chuyện chính.
Cụ thể (Hình 3.14):
» Đầu vào: Một video.
* Đầu ra: Video ngắn hơn video gốc (thường bằng 15% so với video gốc)
nhưng vẫn chứa đầy đủ nội dung chính
Trang 151 TONG QUAN
Original video (uniform SEISUIHD)
Cuộc thi TRECVID Video Summarization (VSUM) task 2021 ! nhằm thúc
đẩy nghiên cứu trong lĩnh vực tóm tắt video bằng cách yêu cầu những người
tham gia tóm tắt các sự kiện chính trong cuộc đời của các nhân vật cụ thể trong
một số tuần của series phim BBC EastEnders TV Một số ví dụ về các sự kiệnchính trong cuộc đời có nhiều khả năng như: Sự ra đời của một đứa trẻ chứkhông phải là một trận ốm ngắn, một cuộc ly hôn chứ không phải là một cuộc
tranh cãi với người thân, sự ra đi của một người thân yêu hơn là sự ra đi của
người mà bạn không quen biết Cụ thể hơn, đối với 5 nhân vật khác nhau củaseries phim, những người tham gia phải gửi 4 bản tóm tắt tương ứng với 5, 10,
15 và 20 phân đoạn được chọn với độ dài tối đa của mỗi bản tóm tắt tương ứng
50s, 100s, 150s và 200s Ở đây, phân đoạn là những đoạn video nhỏ được chia
sẵn có thời gian không giao nhau Vì vậy đầu vào và đầu ra của cuộc thi có một
chút khác biệt so với nhiệm vụ tóm tắt video thông thường:
'https://www-nlpir.nist.gov/projects/tv2021/vsum.html
Trang 16¢ Dau ra: Ban video tóm tat các sự kiện quan trong của nhân vật đó.
What happens when Janine attempts
to play recording of Stacey?
What is causing Ryan to be
sick in bed?
Who gives Janine the
recording of Stacey?
; 2 How does Janine attempt to kill Ryan
: while in the hospital?
Hình 1.2: Minh hoa bài toán Tom tắt những sự kiện quan trọng trong cuộc đời
TRECVID
1.2 Thách thức, phạm vi va mục tiêu
1.2.1 Thách thức
¢ Về mặt dữ liệu: Dữ liệu bài toán là một chuỗi video, tổng thời gian khoảng
20 giờ và nội dung của chuỗi video rất phong phú và đa dạng Tùy theotừng trường hợp tìm kiếm đối tượng cụ thể mà nội dung chính của bản
tóm tắt video cũng sẽ khác nhau Ngoài ra, tập phim được xuất bản từ năm
Trang 171 TONG QUAN
1985 nên các hình ảnh trong video bị mờ, làm ảnh hưởng đến hiệu suất
của các phương pháp thị giác máy tính.
* Về mặt công nghệ: Khi xây dựng một hệ thống thực tế, việc lựa công nghệ
và kiến trúc hệ thống để đảm bảo hệ thống hoạt động một cách hiệu quả là
van dé đáng được cân nhắc và xem xét thận trọng
« Về yêu cầu bài toán, bản video tóm tắt phải bao gồm các sự kiện quan
trọng trong cuộc đời, tuy nhiên các sự kiện này rất đa dạng và rất khó đểxác định trong việc chọn được sự kiện quan trọng nào là quan trọng nhất
* Về phương pháp giải quyết bài toán, các phương pháp tóm tắt video hiện
đại được đánh giá trên 2 tập TVSum và SumMe không thể giải quyết bài
toán này vì chúng không tập trung khai thác sự kiện quan trọng trong cuộc
đời của một nhân vật cụ thể.
1.22 Mục tiêu
Nhóm tập trung giải quyết bài toán tóm tắt những sự kiện quan trọng của các
nhân vật trong chuỗi video BBC Để hoàn thành công việc, nhóm đã đề ra các
mục tiêu sau:
s Tìm hiểu tổng quan về các cách tiếp cận cho bài toán Tóm Tắt Video
» Thực hiện gan nhãn, hoàn thiện bộ dữ liệu BBC EastEnders TV.
« Cài đặt, thử nghiệm đánh giá kết hợp một số phương pháp tiên tiến, phổ
biến như [1], [2], Image Matching và Text Matching trên bộ dữ liệu BBC
EastEnders TV.
» Xây dựng hệ thống minh hoa cho dé tài
Trang 181 TONG QUAN
1.2.3 Phạm vi
Trong khuôn khổ giới hạn của khóa luận, nhóm thực hiện tập trung hoàn
thành các công việc sau:
« Tìm hiểu tổng quan về bài toán, các thách thức và cơ sở lý thuyết của một
số phương pháp phổ biến
* Cài đặt, thử nghiệm đánh giá kết hợp một số phương pháp tiên tiến, phổ
biến như [1], [2] và Text Matching trên bộ dữ liệu BBC EastEnders TV.
¢ Đánh giá trên bộ dữ liệu BBC EastEnders TV.
« Xây dựng hệ thống minh hoa cho dé tài trên nền tang Web
1.3 Dong góp của khóa luận
Sau đây là một số đóng góp mà nhóm thực hiện có được sau quá trình thực
hiện khóa luận:
« Tìm hiểu tổng quan bài toán tóm tắt những sự kiện quan trọng của các
nhân vật trong chuỗi video BBC và một số phương pháp hiện nay
s Trinh bày những kiến thức nền tảng về Deep Learning và áp dụng nó vào
bài toán tóm tắt những sự kiện quan trọng của các nhân vật trong chuỗi
video BBC.
s Xây dựng bộ ground-truth cho tap dữ liệu BBC EastEnders TV.
« Cài đặt, thử nghiệm đánh giá kết hợp một số phương pháp tiên tiến, phổ
biến như [1], [2], so khớp văn bản trên bộ dữ liệu BBC EastEnders TV.
Trang 191 TONG QUAN
« Xây dựng ứng dung web minh họa cho bài toán để người xem thay được
các kết quả một cách trực quan nhất sau khi đã hiện thực bài toán trên bộ
dữ liệu BBC EastEnders TV.
1.4 Cấu trúc khóa luận
Chương 1: Tổng quan - Giới thiệu về lý do chọn để tài đặt ra những mục
tiêu, thách thức, phạm vi liên quan trong khi làm khóa luận.
Chương 2: Trình bày cơ sở lý thuyết và một số nghiên cứu liên quan
Chương 3: Trình bày xây dựng hệ thống cho bài toán tóm tắt các sự kiện
lớn trong cuộc đời trên tập dữ liệu video BBC Eastenders.
Chương 4: Trình bày thực nghiệm và đánh giá.
Chương 5: Trình bày xây dựng ứng dụng minh họa đề tài
Chương 6: Trình bày kết luận và hướng phát triển của đề tài
Trang 20Chương 2
CƠ SỞ LÝ THUYET VÀ MỘT SO
NGHIÊN CỨU LIÊN QUAN
Để hiểu rõ bài toán tóm tắt những sự kiện quan trọng của các nhân vật trongchuỗi video BBC Eastenders TV, ta cần làm rõ các khái niệm liên quan, đồngthời tìm hiểu một số phương pháp tiếp cận hiện nay Vì vậy, trong chương này,
nhóm sinh viên giới thiệu một số khái niệm cơ bản về bài toán nền tảng tóm
tắt video, đồng thời trình bày một số phương pháp nghiên cứu đã từng được áp
dụng từ trước đến nay
2.1 Tổng quan bài toán
2.1.1 Bài toán tóm tắt video cơ sở
Sự phát triển bùng nổ của dữ liệu video đã mang lại sự cấp thiết để phát
triển các kỹ thuật thị giác máy tính có thể duyệt và xem video một cách hiệu
quả [3, 4] Để giải quyết vấn đề này, bài toán tóm tắt video trên 2 bộ dữ liệu
chuẩn là TVSUM và SumMe đã thu hút sự chú ý ngày càng tăng trong vài năm
qua [5, 6, 7] và nhiều phương pháp tóm tắt video đã được đề xuất [8, 7, 9] Nóichung, mục tiêu của việc tóm tắt video là tạo ra một phiên bản nhỏ gọn hơn
Trang 212 Cơ sở lý thuyết và một số nghiên cứu liên quan
của video gốc trong khi vẫn giữ được nội dung quan trọng và phù hợp của nó
[10, 11].
Cụ thể (Hình 3.14):
¢ Đầu vào: Một video.
* Đầu ra: Video ngắn hơn video gốc (thường bằng 15% so với video gốc)
nhưng vẫn chứa đầy đủ nội dung chính
Theo các bài khảo sát [8, 12, 4] đã chỉ ra rằng một hệ thống tóm tắt video
được chia làm ba bước:
* Shot boundary detection: Bước này đảm nhận vào trò cắt video đầu vào
thành những phân đoạn nhỏ, riêng biệt, không trùng nhau.
¢ Frame-level importance score prediction: Tính toán độ quan trọng của mỗi
khung hình.
Trang 222 Cơ sở lý thuyết và một số nghiên cứu liên quan
¢ Key shot selection: Từ thông tin đã có ở bước 1 và bước 2, bước nay sẽ tính
toán điểm quan trọng của mỗi phân đoạn và sẽ tổng hợp video đầu ra có
độ dài nhỏ hơn hoặc báng độ dài mong muôn ở đầu vào.
2.1.2 Bài toán tóm tắt những sự kiện quan trọng của các nhân vật
trong chuỗi video BBC Eastenders TV
Lấy cảm hứng từ bài toán tóm tắt video trên 2 bộ dữ liệu chuẩn TvSum,SumMe và nhằm thúc đẩy việc nghiên cứu tóm tắt video, bắt đầu từ năm 2020,
nhiệm vụ tóm tắt video được bổ sung trong TRECVID, nơi mỗi đội tham gia cónhiệm cụ tóm tắt các sự kiện chính trong cuộc đời của các nhân vật cụ thể trong
một số tuần của loạt phim BBC EastEnders TV Cụ thể hơn, đối với 5 nhân vật
khác nhau của loạt phim, những người tham gia phải gửi 4 bản tóm tắt tương
ứng với 5, 10, 15 và 20 phân đoạn được chọn với tổng độ dài tối đa của mỗibản tóm tắt tương ứng 50s, 100s, 150s và 200s Nhằm đánh giá một cách kháchquan, cuộc thi cung cấp một bộ 5 câu hỏi cho mỗi nhân vật để đánh giá mỗi bảntóm tắt trả lời bao nhiêu câu hỏi trong số đó Vì vậy đầu vào và đầu ra của cuộcthi có một chút khác biệt so với nhiệm vụ tóm tắt video thông thường:
« Dau ra: Bản video tóm tat các sự kiện quan trong của nhân vật đó với số
lượng phân đoạn và tổng thời gian theo yêu cầu.
Có thể nói nhiệm vụ này khó hơn rất nhiều so với bài toán tóm tắt video
thông thường Khi mà sự kiện chính trong cuộc đời của nhân vật như : Sự ra đời
Trang 232 Cơ sở lý thuyết và một số nghiên cứu liên quan
của một đứa trẻ chứ không phải là một trận ốm ngắn, một cuộc ly hôn chứ không
phải là một cuộc tranh cãi với người thân, sự ra đi của một người thân yêu hơn
là sự ra đi của người mà bạn không quen biết, Ngoài ra độ dài của mỗi videorất dài, trung bình mỗi video lên đến 2 tiếng
2.2 Khái niệm co bản
2.2.1 Xác xuất xảy ra đồng thời
Định lý nhân xác suất: là một định lí đùng để xác định xác suất để cả 2 sự
kiện A và B xảy ra.Trong bài toán giản lược video, định lý nhân xác suất được
áp dụng trong phương pháp tính độ quan trọng của các nhân vật xuất hiện đồng
C: là biên cô xảy ra cả A và B.
2.2.2 Mang Nơ-ron nhân tạo
2.2.2.1 Giới thiệu mạng Nơ-ron
Năm 1943, Warren McCulloch và Walter Pitts đưa ra một mô hình đơn giản
các nơ-ron nhân tạo Đây cũng chính là bước khởi đầu lịch sử của ANN Cho tớitận ngày nay, mô hình này vẫn được xem như là nền tảng cho hầu hết các ANN
Ở đây, các nơ-ron được gọi là các Perceptron [13]
Nơ-ron nhân tạo cơ bản (hình 2.2):
10
Trang 242 Cơ sở lý thuyết và một số nghiên cứu liên quan
Step Function: hàm chuyển (hàm kích hoạt).
Trong một mạng nơron có ba kiểu đơn vị:
* Các đơn vị đầu vào (Input units): nhận tín hiệu từ bên ngoài;
* Các đơn vị đầu ra (Output units): gửi dữ liệu ra bên ngoài;
* Các đơn vị ẩn (Hidden units): Đầu ra của một lớp ẩn này sẽ là đầu vào của
lớp ẩn kia Mỗi lớp ẩn được cấu thành bởi một loạt các đơn vị ẩn (hidden
unit) Mục tiêu của lớp ẩn là xây dựng các phép biểu diễn, các đặc trưng
bằng cách kết hợp các đặc trưng của lớp trước đó
11
Trang 252 Cơ sở lý thuyết và một số nghiên cứu liên quan
Mộ mạng nơ-ron có thể có một hoặc nhiều đầu vào: xọ, xị, x2, , Xn nhưngchỉ có một đầu ra Một đầu vào tới một đơn vị có thể là dữ liệu từ bên ngoài
mạng, hoặc đầu ra của một đơn vị khác, hoặc là đầu ra của chính nó.
2.2.2.2 Một số hàm xử lý
¢ Hàm bước nhị phân (Binary step function, Hard limitfunction) (Hình
2.4)
Ham này cũng được biết đến với tên "Hàm ngưỡng" Dau ra của ham nay
được giới hạn vào một trong hai giá trị:
Trang 262 Cơ sở lý thuyết và một số nghiên cứu liên quan
¢ Ham sigmoid (Sigmoid function (logsig)) (Hình 2.3)
Công thức:
1 l+e
3 Tiệm cận ké các giá trị bão hòa của nó
Ưu điểm chính ở đây là sự mượt mà của hàm sigmoid giúp việc tạo ra các
thuật toán học tập dễ dàng hơn Tuy nhiên, có hai vẫn đề lớn với hàm sigmoid:
1 Các đầu ra của sigmoid không được căn giữa
2 Các tế bào thần kinh bão hòa về cơ bản tiêu diệt gradient, vì delta của
gradient sẽ cực kỳ nhỏ (Gradient Vanishing).
Trang 272 Cơ sở lý thuyết và một số nghiên cứu liên quan
¢ Ham sigmoid lưỡng cực (Bipolar sigmoid function (tanh)) (Hình 2.5)
giữa, nhưng các gradient vẫn bị triệt tiêu khi các tế bào thần kinh trở nên bão
hòa (Gradient Vanishing).
tanh
f(x)
Hình 2.5: Đồ thị của hàm Tanh
¢ Hàm ReLU (Rectified Linear Unit) (Hình 2.6)
Công trình nghiên cứu của Hahnloser và các cộng sự năm 2000 giới thiệu
hàm kích hoạt Rectified Linear Unit (ReLU) [14] được định nghĩa như sau:
Công thức:
f(x) = max(0,x) (2.4)
Ham ReLU là một hàm kích hoạt được sử dung rất phổ biến khi xây dung
mạng nơ-ron Khắc phục nhược điểm tiêu biến gradient (Gradient Vanishing)
của hàm sigmoid và hàm tanh.
14
Trang 282 Cơ sở lý thuyết và một số nghiên cứu liên quan
Hình 2.6: Đồ thi của hàm ReLU
¢ Ham Leaky ReLUs (Hình 2.7)
Một biến thể của ReLU, được gọi là Leaky ReLUs [15] cho phép một
gradi-ent nhỏ, khác 0 khi đơn vi (unit) không hoạt động:
Công thức:
x nếu x >0 (2.5a)œx*x nếux<0 (2.5b)
Khác với hàm ReLU, hàm Leaky ReLUs thực sự được phép nhận một giá tri
^
âm.
¢ Hàm ELU (Exponential Linear Units) (Hình 2.8)
Ham Exponential Linear Units (ELU) được giới thiệu bởi Clevert và các cộng
sự trong một bai báo 2015 [16]
Trang 292 Cơ sở lý thuyết và một số nghiên cứu liên quan
Leaky ReLU (alpha=0.3)
f(x)
Hình 2.7: Đồ thị của hàm Leaky ReLUs
Giá trị của œ là không đổi và được đặt khi kiến trúc mạng được khởi tạo - điều
này không giống như PReLUs nơi học œ Giá trị điển hình của œ là œ = 1.0.
Thông qua các nghiên cứu của Clevert và các cộng sự [16], ELU thường thu được độ chính xác phân loại cao hơn ReLUs.
ELU (alpha=1.0)
f(x)
Hình 2.8: Đồ thị của hàm ELU
2.2.2.3 Hàm mắt mát
Khi huấn luyện mạng nơ-ron nhân tạo, hàm mat mát đóng vai trò cực kì quan
trọng Nó là thước đo cho biết độ lỗi của mô hình với so với kết quả thật sự Độ
16
Trang 302 Cơ sở lý thuyết và một số nghiên cứu liên quan
lỗi càng nhỏ, mô hình càng hoạt có hiệu quả Sau đây nhóm sinh viên sẽ giới
thiệu một số hàm mất mát cơ bản cho bài toán
¢ Mean Square Error
Mean Square Error (MSE) hay còn được gọi là L2 Loss là một hàm mất mát
cũng được sử dụng cho các mô hình hồi quy, đặc biệt là các mô hình hồi quy
tuyến tính MSE được tính bằng tổng các bình phương của hiệu giữa giá trị thực
(y : target) và giá tri mà mô hình của chúng ra dự đoán (§: predicted).
Công thức:
n
(2.7)
¢ Cross-Entropy
Trong các bài toán phân loại đa lớp, Cross-Entropy là một hàm mat mát cực
kì hữu ích Với hai phân bố xác suất rời rạc P và Q và vector xác suất tương ứng
của phân bồ p = (pj, , Pn) và q = (G1, , đ„), độ do Cross Entropy được định
nghĩa như sau:
H(p,4) = —Ề_ pilosbdi (2.8)
i=1
Một số tinh chất của độ do Cross Entropy:
* Cross Entropy dùng q để mã hóa p luôn luôn lớn hơn hoặc bằng Entropy
của p hay nói cách khác H(p,q) > H(p).
* Cross Entropy không có tính đối xứng H(p,q) # H(q,p) nên nó không
phải là một khoảng cách mêtric.
* Cross Entropy khi dùng như hàm mất mát, hàm này phat rất nặng khi xác
suất p; lớn nhưng q; lại nhỏ, lý do là do hàm /og,(x) tăng rất nhanh khi x
càng nhỏ và tiên về 0.
17
Trang 312 Cơ sở lý thuyết và một số nghiên cứu liên quan
¢ Triplet Loss
Thay vi sử dung các ham loss truyền thống, khi mà ta chỉ so sánh giá trịđầu ra của mạng với ground truth thực tế của dif liệu, Triplet Loss làn đầu đượcHoffer và các cộng sự giới thiệu trong một bài báo [17] Đây là một hàm mấtmát được đề xuất để phục vụ cho bài toán học biểu diễn (representation learning)
một cách hiệu quả.
Hàm triplet loss đưa ra một công thức mới bao gồm 3 giá trị đầu vào gồmảnh gốc (anchor), một ảnh là negative ( khác với anchor) và một ảnh là positive
(cùng nội dung với anchor).
Anchor Positive Anchor Negative
Hinh 2.9: Anh minh hoa vi du vé Anchor, positive va negative
Ki hiéu anh Anchor, Positive, Negative lần lượt là A,P.N
Mục tiêu của ham Triplet loss là tối đa hóa khoảng cách giữa 2 ảnh khi chúng
có nội dung không liên quan hoặc tương phản nhau và tối thiểu hóa khoảng cách
khi chúng có nội tương đồng nhau Như vậy chúng ta cần lựa chọn các bộ 3 ảnh
Trang 322 Cơ sở lý thuyết và một số nghiên cứu liên quan
Ham Triplet loss luôn lấy 3 bức ảnh làm input và trong mọi trường hợp ta ki
Hinh 2.10: Anh minh hoa vé Triplet Loss
2.2.2.4 Quá trình huấn luyện mang nơron
¢ Gradient descent (GD)
Trong các bai toán hoc máy, việc tìm điểm cực tiểu toàn cục của các ham
mat mát là rất phức tạp, thậm chí là bat khả thi Thay vào đó, người ta thường
cố gắng tìm các điểm cực tiểu địa phương, và ở một mức độ nào đó, coi đó là
nghiệm cần tìm của bài toán Gradient Descent là hướng tiếp cận phổ biến nhất
Nó xuất phát từ một điểm mà chúng ta coi là gần với nghiệm của bài toán, sau
đó dùng một phép toán lặp để tiến dần đến điểm cần tìm, tức đến khi đạo hàmgần với 0
¢ Stochastic Gradient descent (SGD)
19
Trang 332 Cơ sở lý thuyết và một số nghiên cứu liên quan
Stochastic Gradient descent (SGD) lần đầu được giới thiệu năm 1960 [18].Thuật toán là một sự cải tiễn từ thuật toán gradient descent Thay vì tính toánđạo hàm và cập nhật trọng số W trên toàn bộ tập huấn luyện, nó cho phép cậpnhật trên các lô dữ liệu nhỏ của bộ dif liệu huấn luyện Mặc dù thực hiện nhiều
phép đạo hàm, SGD hội tụ nhanh hơn và không ảnh hưởng tiêu cực đến độ chính
xác của hàm mất mát SGD được cho là thuật toán quan trọng nhất khi nói đến
đào tạo mạng nơ-ron sâu.
» Learning rate decay
Để giúp giảm bớt ảnh hưởng của việc overfitting, nhóm sinh viên giới thiệu khái niệm Learning rate decay khi áp dung SGD để đào tạo mạng.
Bằng cách điều chỉnh tỷ lệ học tập trên mỗi epoch, nhóm sinh viên có thểgiảm tổn thất, tăng độ chính xác và thậm chí trong một số tình huống nhất định
giảm tổng thời gian cần thiết để đào tạo một mạng.
¢ Stop early
Trong nhiều bài toán máy hoc, chúng ta cần sử dụng các thuật toán lặp dé
tìm ra nghiệm, ví dụ như Gradient Descent Nhìn chung, hàm mất mát giảm dần khi số vòng lặp tăng lên Early stopping là một kĩ thuật dừng thuật toán trước
khi hàm mat mát dat giá tri quá nhỏ, giúp tránh overfitting
Một kỹ thuật thường được sử dụng là tách từ training set ra một tập validation
set Sau một (hoặc một số, ví dụ 50) vòng lặp, ta tính cả train error và validation
error, đến khi validation error có chiều hướng tăng lên thì dừng lại, và quay lại
sử dụng mô hình tương ứng với điểm va validation error dat giá tri nhỏ.
2.2.3 Mang Nơ-ron tích chập trong xử lý ảnh
2.2.3.1 Giới thiệu
Mạng neural tích chập (Convolutional neural networks), còn được biết đến với
20
Trang 342 Cơ sở lý thuyết và một số nghiên cứu liên quan
wi
Thời gian
LR: laaming rate
Thời gian
Hinh 2.11: Minh hoa cho ki thuat learning rate decay.
tên CNNs, là một dang mang neural được cấu thành bởi các tang sau:
° Tầng tích chập (CONV) sử dung các bộ lọc để thực hiện phép tích chập
khi đưa chúng đi qua đầu vào II theo các chiều của nó Các siêu tham sốcủa các bộ lọc này bao gồm kích thước bộ lọc FF va độ trượt (stride) SS.Kết quả đầu ra OO được gọi là feature map hay activation map
° Tầng pooling (POOL) là một phép downsampling, thường được sử dụng
sau tầng tích chập, giúp tăng tính bất biến không gian Cụ thể, max pooling
va average pooling là những dang pooling đặc biệt, mà tương ứng là trong
đó giá trị lớn nhất và giá trị trung bình được lấy ra
- Tang kết noi day đủ (FC) nhận đầu vào là các dữ liệu đã được làm phẳng,
mà mỗi đầu vào đó được kết nối đến tất cả neuron Trong mô hình mạngCNNs, các tầng kết nối day đủ thường được tìm thấy ở cuối mang va được
21
Trang 352 Cơ sở lý thuyết và một số nghiên cứu liên quan
Hình 2.12: Early Stopping Đường màu xanh là train error, đường màu đỏ là validation
error Trục x là số lượng vòng lặp, trục y là error Mô hình được xác định tại vòng lặp
mà validation error đạt giá trị nhỏ nhất.
dùng để tối ưu hóa mục tiêu của mạng ví dụ như độ chính xác của lớp
2.2.3.2 Một số mạng no-ron phổ biến
Phân này nhóm sinh viên sẽ giới thiệu một sô kiên trúc mạng nơ-ron tích
chập được sử dụng trong bài toán này.
một chức năng khởi tạo hợp lý) thông qua việc sử dụng của các mô-đun residual.
Nó có thể đạt được độ chính xác cao hơn bằng cách cập nhật mô-đun residual để
sử dụng ánh xạ nhận dạng (hình 2.13) Mặc dù ResNet sâu hơn nhiều so với cả
22
Trang 362 Cơ sở lý thuyết và một số nghiên cứu liên quan
VGG16 và VGG19, nhưng kích thước mô hình thực sự nhỏ hơn đáng kể do sử
dụng global average pooling thay vì các lớp fully-connected, điều này làm giảmkích thước mô hình xuống 102MB cho ResNet50
Xi
XHI
(a) original (b) proposed
Hình 2.13: Trái: Mô-đun residual ban đầu Đúng: Mô-đun residual được cập nhật bằng
cách sử dụng các lớp kích hoạt trước Số liệu của He và các cộng sự, 2016 [20].
* Inception V3
Mô-đun Inception được giới thiệu bởi Szegedy và các cộng su trong bai báo năm 2014 của họ, Going Deeper with Convolutions [21] Mục tiêu của mô-đun
inception (Hình 2.14) là hoạt động như “trình trích xuất tính năng đa cấp” bằng
cách tính toán các lớp tích chập có kích thước 1 x 1, 3 x 3 và 5 x 5 trong cùng
một mô-đun của mạng - đầu ra của các bộ lọc này là sau đó được xếp chồng lênnhau dọc theo cùng kích thước trước khi được đưa vào lớp tiếp theo trong mạng.Tên gọi ban đầu của kiến trúc này được gọi là GoogLeNet, nhưng các liên hoan
23
Trang 372 Cơ sở lý thuyết và một số nghiên cứu liên quan
điên cuồng sau đó chỉ đơn giản được đặt tên là Inception vN trong đó N dé cậpđến số phiên bản do Google đưa ra trọng lượng cho Inception V3 nhỏ hơn cả
VGG và ResNet, có dung lượng 96MB.
Hình 2.14: Ảnh minh họa mô-đun inception gốc được sử dụng trong GoogLeNet Ảnh
từ Szegedy và các cộng sự, 2014 [21].
¢ EfficientNet
EfficientNet được giới thiệu bởi Google AI trong bai báo năm 2020 của
ho, EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
[22] Nhằm khắc phục nhược điểm tăng các đặc tính quá rộng, quá sâu hoặc có
độ phân giải rất cao giúp ích cho mô hình ban đầu cao hiệu suất trong việc đào
tạo mô hình nhưng nó nhanh chóng bão hòa và mô hình được tạo ra chỉ có nhiều
tham số hơn Do đó họ đề xuất ra mô hình EfficientNet Trong EfficientNet,
chúng được mở rộng theo cách có nguyên tắc hơn, tức là mọi thứ dần dần được
tăng lên Với số lượng tham số ít hơn đáng kể, mô hình EfficientNet hoạt độnghiệu quả và cũng mang lại kết quả tốt hơn
2.2.4 Một số phương pháp trong xử lý ngôn ngữ tự nhiên
Trước khi xây dựng bất kỳ mô hình Học sâu nào trong Xử lý ngôn ngữ tự nhiên, text embedding đóng một vai trò quan trọng Text embedding giúp chuyển đỏi văn bản (từ hoặc câu) thành một vector trong đó mỗi phẩn tử trong vector
24
Trang 382 Cơ sở lý thuyết và một số nghiên cứu liên quan
ñ ResNet-50 SENet (Hu et al., 2018) @.7% 146M
lẻ NASNet-A (Zoph et al., 2018) | 827% 89M
Number of Parameters (Millions)
Hình 2.15: Anh minh hoa việc so sánh độ chính xác khi thực hiện trên bộ dữ liệu
ImageNet và số lượng tham số của các mô hình
biểu diễn bằng một con số Phần này nhóm sinh viên sẽ giới thiệu một số phương
pháp nhằm chuyển đổi văn bản (từ hoặc câu) thành một vector
2.2.4.1 Word2vec [23]
Word2vec là một kỹ thuật xử lý ngôn ngữ tự nhiên Thuật toán Word2vec sử
dụng một mô hình mạng thần kinh để học các liên kết từ (sự liên quan của từ) từ
một kho ngữ liệu văn bản có dung lượng lớn Sau khi được huấn luyện, mô hình
có thể phát hiện các từ đồng nghĩa hoặc gợi ý các từ bổ sung cho một phần của
cau.
Cu thể gọi V là tập các tất cả các từ hay bộ từ điển với n từ khác nhau Layer
input biểu diễn dưới dạng one-hot encoding với n node đại diện cho n từ trong
bộ từ điển Hàm kích hoạt chỉ có tại layer cuối là hàm softmax, hàm mat mát là
cross entropy loss, tương tự như cách biểu diễn mô hình của các bài toán phân
25
Trang 392 Cơ sở lý thuyết và một số nghiên cứu liên quan
loại thông thường vậy Ở giữa 2 layer đầu vào và đầu ra là 1 layer trung gian với
kích thước = k, chính là vector sẽ được sử dụng để biểu diễn các từ sau khi huấn
Hình 2.16: Anh minh họa mô hình Word2Vec
2.2.4.2 Paragraph Vectors: Doc2vec
Trong bài báo Distributed Representations of Sentences and Documents của
Quốc Lê và Tomas Mikolov năm 2015 [24], các tác giả đã giới thiệu một phương
pháp mới có khả năng tìm vector biểu diễn tốt hơn cho các câu văn/đoạn văn
thông qua một mô hình tương tự như mô hình word2vec được giới thiệu trước
đó cũng bởi Mikolov Phương pháp được mô tả đơn giản như hình dưới đây.
Ngoài đầu vào là các từ ngữ cảnh, mô hình Doc2vec còn có thêm 1 giá trịmới là ID của các câu văn Về cơ bản, mỗi câu văn được ánh xạ tới một vectorduy nhất và mô hình sử dụng các vector của câu văn này kết hợp với các vector từcâu thành lên câu đó để dự đoán từ tiếp theo cho ngữ cảnh Thông qua quá trìnhđào tạo như vậy, các vector của câu sẽ có thể lưu trữ thông tin về ngữ cảnh, ý
nghĩa của câu, những thông tin mà bản thân ý nghĩa của từng từ trong câu không
thể thể hiện được Nó hoạt động như một bộ nhớ lưu trữ của câu Cũng chính vì
vậy, phương pháp này được gọi là Distributed Memory model (PV-DM).
26
Trang 402 Cơ sở lý thuyết và một số nghiên cứu liên quan
Hình 2.17: Ảnh minh họa mô hình Doc2Vec
2.2.4.3 Universal sentence encoder MODEL [25]
Universal sentence encoder có hai biến thể với sự khác biệt chính nằm ở phần
embdding Một cái có bộ mã hóa từ kiến trúc Transformer, cái còn lại sử dụng
mạng Deep Averaging (DAN) Cả hai có sự đánh đổi về độ chính xác và yêu cầu
tài nguyên tính toán Trong khi biến thể sử dụng có bộ mã hóa Transformer có
độ chính xác cao hơn, tuy nhiên nó phức tạp hơn về mặt tính toán Còn phươngpháp mã hóa DNA ít tốn kém về mặt tính toán hơn nhưng về độ chính xác thấp
hơn một chút.
¢ Transformer encoder
Mô hình mã hóa câu dựa trên transformer xây dựng nhúng câu bằng cách sử
dụng đồ thị con mã hóa của kiến trúc transformer [26] Đồ thị con này sử dụng
cơ chế attention tính toán các từ đại diện trong một câu mà có sự ràng buộc vềtrật tự các từ và danh tính của tất cả các từ khác Nội dung của các từ đại diện
được chuyển đổi thành vector mã hóa câu có độ dài cố định bằng cách tính toán
tổng từng phần tử của các điểm biểu diễn tại mỗi vị trí từ Bộ mã hóa nhận đầuvào là một chuỗi mã hóa PTB chữ thường và đầu ra là một vectơ có 512 chiều
khi nhúng câu.
Mô hình mã hóa được thiết kế cho mục đích chung nhất có thể Điều này có
thể thực hiện được bằng cách sử dụng tính năng học đa tác vụ, theo đó một mô
27