Hinh 1.3 Movie trailer Trong lĩnh vực phim anh, việc tạo ra các bản tóm tắt video trailer dựa trên một sô tiêu chí lựa chọn chính nhăm đảm bảo hiệu quả và sức hâp dân như: * Tom lược đượ
Trang 1ĐẠI HỌC QUOC GIA THÀNH PHO HO CHÍ MINH
TRƯỜNG DAI HỌC CÔNG NGHỆ THONG TIN
NGUYEN HỮU THÁI
HỆ THONG TỰ ĐỘNG TẠO BẢN TÓM TAT VIDEO
DỰA TREN PHAN TÍCH SỰ KIỆN QUAN TRONG
LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH
Mã ngành: 8.48.01.01
THÀNH PHÓ HÒ CHÍ MINH - 2024
Trang 2ĐẠI HỌC QUỐC GIA THÀNH PHÓ HÒ CHÍ MINH
TRUONG ĐẠI HỌC CÔNG NGHỆ THONG TIN
NGUYÊN HỮU THÁI
LUẬN VAN THAC SĨ
NGANH KHOA HOC MAY TÍNH
Mã ngành: 8.48.01.01
GIẢNG VIÊN HƯỚNG DẪN
PGS.TS LÊ ĐÌNH DUY
THÀNH PHÓ HÒ CHÍ MINH - 2024
Trang 3LỜI CÁM ƠN
Sau thời gian học tập và thực hiện Luận văn tại Trường Đại học Công nghệ
Thông tin, tôi xin gửi lời tri ân đến những cá nhân và tập thể đã hỗ trợ tôi trong
suôt quá trình này.
Trước tiên, tôi xin gửi lời cảm ơn chân thành và sâu sắc đến PGS.TS Lê
Đình Duy, người trực tiếp hướng dẫn luận văn cho tôi Thầy đã dành cho tôi nhiều thời gian quý báu, không chỉ truyền đạt kiến thức chuyên môn mà còn chia sẻ kinh
nghiệm và định hướng nghiên cứu phù hợp Nhờ sự động viên, dìu dắt tận tình
của Thay, tôi đã hoàn thiện Luận văn đúng han với chất lượng tốt nhất.
Bên cạnh đó, tôi cũng xin gửi lời cảm ơn chân thành đến:
Ban Giám hiệu, các phòng ban, khoa thuộc Trường và các thầy cô đã nhiệttình hướng dẫn, giảng dạy và tạo mọi điều kiện thuận lợi giúp đỡ tôi trong quá
trình học tập tại trường.
Gia đình, lãnh đạo đơn vị, đồng nghiệp, các bạn cùng lớp đã luôn động
viên, giúp đỡ và tạo mọi điều kiện tốt nhất cho tôi trong quá trình học tập và thực
hiện luận văn.
Do tính phức tạp của đề tài nghiên cứu, cũng như khả năng và kiến thứccủa tôi còn nhiều hạn chế nên Luận văn không tránh khỏi những sai sót nhất định.Tôi rất mong nhận được những đóng góp ý kiến của các thầy cô và những nhànghiên cứu khác dé nội dung nghiên cứu được hoàn thiện hơn
Tôi xin chân thành cảm ơn!
Thành phố Hồ Chí Minh, ngày 20 tháng 6 năm 2024
Học viên thực hiện
Nguyễn Hữu Thái
Trang 4LỜI CAM ĐOAN
Tôi xin cam đoan luận văn thạc sĩ về đề tài: “Hệ thống tự động tạo bản tóm
tắt video dựa trên phân tích sự kiện quan trọng” là công trình nghiên cứu của ban thân Các số liệu, kết quả trình bày trong luận văn này là trung thực Mọi tài liệu
tham khảo trong luận văn đêu có nguôn gôc và trích dan rõ ràng, đây đủ.
Tôi xin chịu hoàn toàn trách nhiệm nếu có sự không trung thực trong luận
Thành phố Hồ Chí Minh, ngày 20 tháng 6 năm 2024
Học viên thực hiện
Nguyễn Hữu Thái
Trang 5MỤC LỤC
DANH MỤC CAC KÝ HIỆU VÀ CHỮ VIET TẮTT -2-s-sss< s2 4 DANH MỤC CAC BẢNG s- 5< se se EssESsEEsEEseEseEssErserserssrssesserseree 5 DANH MỤC CÁC HÌNH VẾ - 2 2s se ssssESseEseEssEsserserserssrssersrrssrse 6
CHƯƠNG 1: GIỚI THIỆU — PHÁT BIEU BÀI TOÁN . «-< 9
1.1 Đặt vấn đềỀ s- 2s 2c 2t 2 122112711211 21112111211 2110112112111 ererreg 9
1.2 Các thách thức đối với bài toán tom tắt video -sccs++c+csccxcrsee 14 1.3 Framework chung cho bài toán tóm tắt video -: -¿ s++cx++ss+¿ 15 1.4 Hướng tiếp cận cho bài toán tóm tắt video dựa trên học sâu 16 1.5 Phát biểu bài toán -¿2¿- 22x 2x2ESEEEEEEEE21122171211211221 2121 1.crrrrei 23
1.7 Mục tiêu của đề tài c.-ss c1 1 11121 12111111011 1121111111 grưec 24 1.8 Phạm vi của dé tải - ¿52-5222 2EE x21 2112112217121121111 111.1 25
1.9 Đóng góp của luận vặm - - c2 E13 v9 ng nh nh ngư 25
1.10 Cấu trúc của luận văn 2- ¿5£ SEE+2E+2EE22EE2EEE2EEEEESEEEEEkerkrrrkrrrkee 25 CHUONG 2: CƠ SỞ LÝ THUYẾT - 5< 5° ss£ss£ss£sseEssevseesserssesse 26
2.1 Mô tả bài toán tóm tắt VideO 2-52-5222 E1E212211211221121 212112111 26
3.1 Tóm tắt video với cơ chế chú Y -¿- + c5 keSE+EE+EE2EE2EEEEEEEEEeEkerkrrkrree 34
3.1.1 Giới thiỆU ¿-5 522 kEESEE 2 122112711271211211271211111111 21.111 Erre 34
3.1.2 Mô tả phương phápp c3 9H HH HH ng 35
3.2 Phát hiện bất thường :- 2 2+S2+EE+EEEE2EE2E1E7171121121121171 21111 38
3.2.1 Giới thiỆu 2 622k E221 2212211271127121121171 21121111121 11 1x ke 38
Trang 63.2.2 Mô tả phương phap - - «HH HH TH HH nghệ 39
3.3 Phát hiện độ nổi bật -.-:-:5c+2vvttt tre 42
2.3.1 Go 42
2.3.2 Mô tả phương pháp - - c1 11131 1 1 111 1 11 11 1n ng ng ngư 43
3.4 Phat hiện dam đông - - 6 2+ +21 E+1 191919 vn TH HH nh ng ngàn 45
KG ANCG.u0i.tiiỖŨỖŨũủỤ 45
3.4.2 ` pár§ï 10) 0 4đ 47
3.5 Tóm tắt video người đùng -2¿- ¿22+ x+2Ex22E2EEEEESEEEEerkrerkrrrree 49
3.5.1 GiGi thiGue cece -+£5 49 3.5.2 MG ta 80( i10) 51
CHƯƠNG 4: XÂY DỰNG BỘ DU LIBU 2-s<s<ssecsssevssevssee 56
4.1 Các bước xây dựng bộ dữ liệu 5 2c 235113 EESEESeeersesrerereeee 56
CHƯƠNG 6: TONG KET VA HƯỚNG PHÁT TRIEN - 68
6.1 TỐng Ket eeccecccsecsessesssessessessecssessessecsecsucssessessessecsuessessecsussscssessessecsucaseeseeses 68
6.2 Hướng phat trim ee.ceccececceccccccscsscssecsessessessesscsscsessessessessessesesseesssessessessesscseeaee 68
TÀI LIEU THAM KHAO\ ccscesssssssssessesssssssssesssssssssssesssssssssssssssssssssssscsssssssssseees 69
PHU LỤC <5 << < 5< << HH HH 0 000400000040 8900 74
Trang 7DANH MỤC CÁC KÝ HIỆU VA CHỮ VIET TAT
VSUM Video Summarization
RNN Recurrent Neural Network
CNN Convolutional Neural Network
DCNN Deep Convolutional Neural Network
CV Computer Vision
NLP Natural Language Processing
LSTM Long Short-Term Memory
FEN Feed-Forward Network
GAN Generative Adversarial Network
VTN Vision Transformer Network
CAS Crowd, Anomaly, Saliency features
MIL Multiple Instance Learning
Trang 8DANH MỤC CAC BANG
Bang 2.1 Đặc điểm các bộ dữ liệu phổ biến trong lĩnh vực VSUM 30
Bang 3.1 Các video trong bộ dữ liệu SumMe - sc- scsxcsecseeseesree 55
Bang 4.1 Bảng thống kê độ dài các video clip được thu thập - 56 Bang 4.2 Bảng thống kê số lượng frames và sự kiện trên từng video clip 57 Bang 5.1 Kết quả thực nghiệm trên bộ dữ liệu video giám sát - 66 Bang 5.2 Bảng so sánh giữa video tóm tắt và video gốc -cs-c 67
Trang 9DANH MỤC CÁC HÌNH VỀ
Hình 1.1 Dự báo tăng trưởng lưu lượng internet toàn cầu . : 9
Hình 1.2 Video Summar1ZAfIOTI - s G5 1121115119111 119 1191 1v ng ng 11
Hinh 1.3 Movie trailers n8 e.- 12
Hình 1.4 Game’s highlights - - - 5 c5 222 132111391113 111911 8111111 11p rey 13
Hình 1.5 Tóm tắt video giám sátt -¿- 2 St SE 1211211212171 1121 14 Hình 1.6 Framewok chung cho bài toán tóm tắt video 5c 5 s+cs+s+ 16
Hình 1.7 Pipeline chung cho bai toán VSUM dựa trên deep learning 17
Hình 1.8 Mô hình hóa sự phụ thuộc thời gian giữa các khung hình 19
Hình 1.9 Mô hình hóa sự phụ thuộc không gian - thời gian của video 21
Hình 1.10 Tóm tắt video sử dung mang GAN c.ceccscessssesesessesesstssteseeseesessens 22
Hình 1.11 Cảnh bạo lực trong video giám sát 5 555525 *S++seerseeerss 23
Hình 1.12 Mô hình tổng quan bài toán tóm tắt video giám sát - 24 Hình 1.13 Mô hình chi tiết bài toán tóm tắt video giám sát - -: 24
Hình 3.1 Mô hình VA SÌNet - - S Sàn HH HH tưệt 34
Hình 3.2 Mô hình VASNet chỉ tiẾt - ¿ 5cccc2xtttctktrrrrrtrrrrrirrrrrirrrriei 36 Hình 3.3 Mô hình phát hiện bat thường 2- 2-52 2 2 E£+Ee£EeEEeExerxrrxzes 38 Hình 3.4 Ví dụ về cách sự chú ý của con người thay đổi theo thời gian 43 Hình 3.5 Tổng quan về kiến trúc TempSAL được dé xuất - 5 44 Hình 3.6 TempSAL: Mô hình kết hợp không gian — thời gian 45
Hình 3.7 Mô hình CLIP-E.BCC - - 6 5 +13 2311919 9 1 ng ng nh g ưệp 46
Hình 3.8 Phân loại theo khối tăng cường — EBC - 2 5¿+c2+cs+cx+rxczes 41 Hình 3.9 CLIP-EBC: Dự đoán theo khối -:¿-cccccc+vcsccxvrrrrrrerrrrree 48
Hình 3.10 CLIP-EBC: Hình ảnh chứa các khu vực cực kỳ đông đúc 49
Trang 10Hình 3.11 Tông quan phương pháp tóm tắt video từ video người dùng 50
Hình 3.12 Minh hoa phân đoạn superfrarme - - 5+ + + *+++seseereerseerrss 52 Hình 4.1 Các bước xây dựng bộ đữ liệu 5 S25 + 3 x+rssireerreerrsrrrree 56
Hình 4.2 Gan nhãn cho các đoạn video << 5552 +22 cssssseeeeeree 58
Hình 4.3 Lưu trữ đặc trưng được trích XUẤT, Q01 T111 11 111111111111 ckrri 59
Hình 5.1 VASNet với các phương pháp SO TA .- 2Ă SSScsssserseeeres 62
Hình 5.2 Minh họa chia bộ dữ liệu theo K-fold Cross-Validation 65
Trang 11GIỚI THIỆU — PHÁT BIEU BÀI TOÁN
CHUONG 1: GIỚI THIỆU - PHAT BIEU BÀI TOÁN
1.1 Đặt vấn đề
Theo dự báo của Cisco Visual Networking Index (Cisco VNI)SH, lưu lượng
dữ liệu Internet toàn cầu dự kiến sẽ dat 4,8 Zettabytes (ZB) vào năm 2022, trong
đó đữ liệu video được dự đoán chiếm 82% tổng lượng đữ liệu này.
Global Internet Growth and Trends
More More
Bi xe Faster Broadband More
kg Eas Speeds Video Viewing
Users Connections
Key Digital Transformers
By 2022
2017 i
Billion Billion Mbps
Source: Cisco VNI Global IP Traffic Forecast, 2017-2022
Hình 1.1 Dự báo tăng trưởng lưu lượng internet toàn cầu
Lượng video chiếm số lượng lớn như vậy là kết quả của nhiều yếu tố, bao
gôm:
* Su phát triển bùng né của thiết bị di động, mang xã hội và các nền tang chia
sẻ video như TIkTok, Instagram, YouTube, đã tạo nên một cuộc cách mạng
trong cách thức con người tạo ra và chia sẻ video Theo thống kê, mỗi ngày có
hon 500 giờ video được tải lên YouTube, hon | tỷ video được xem trên TikTok
và hơn 95 triệu bài đăng được chia sẻ trên Instagram.
* Sự phát triển của hệ thống camera giám sát thông minh: Các hệ thống camera giám sát có độ phân giải cao, sử dung trí tuệ nhân tao dé nhận diện khuôn
mặt, biên sô xe đang ngày càng được sử dụng rộng rãi Camera giám sát thường
Trang 12GIỚI THIEU — PHÁT BIEU BÀI TOÁN
dùng dé ghi hình liên tục trong khoảng thời gian dài nên thường có dung lượng
lớn, dẫn đến lượng dữ liệu lưu trữ và truyền tải tăng cao.
* Ngoài ra, còn có một số yếu tố khác thúc đây sự tăng trưởng của lượng
video khổng lồ này, như: Dịch vụ streaming video và âm nhạc; Trò chơi trực tuyến
và đám mây gaming; Dịch vụ truyền hình qua Internet (IPTV).
Sự bùng nỗ lượng video nói trên dẫn đến một số khó khăn trong việc quan
lý, lưu trữ, tìm kiếm video như:
* Dung lượng lưu trữ tăng: Lượng video không 16 cần một lượng lớn dung
lượng lưu trữ, việc xây dựng và vận hành hệ thống lưu trữ video lớn đòi hỏi chi phí đầu tư và vận hành không lồ Việc quản lý và bảo trì hệ thống lưu trữ lớn cũng
trở nên phức tạp hơn.
+ _ Thời gian truy van tăng: Khi kho video ngày càng lớn, việc tìm kiếm mộtvideo cụ thé trở nên khó khăn và tốn thời gian hơn Người dùng có thé phải matnhiều phút hoặc thậm chí nhiều giờ để tìm kiếm video mong muốn, dẫn đến sựthất vọng và nản lòng Việc chờ đợi quá lâu đề truy cập video có thể ảnh hưởngtiêu cực đến trải nghiệm người dùng
» Kho khăn trong việc quản lý va phân loại dữ liệu: Việc xử lý thủ công hang
terabyte hoặc petabyte dữ liệu video là vô cùng tốn kém về thời gian và nguồn lực Dữ liệu video có thê ở nhiều định dạng, độ phân giải và nội dung khác nhau, khiến việc quản lý và phân loại trở nên phức tạp hơn.
Dé giải quyết các khó khăn trên, đòi hỏi phải có các công cụ và giải phápmới phù hợp Video Summarization (VSUM) được xem là giải pháp tiềm năng
cho vân đê này.
10
Trang 13GIỚI THIỆU — PHÁT BIEU BÀI TOÁN
video gốc video tóm tắt
Hình 1.2 Video Summarization
Tóm tắt video (Video Summarization) nhằm tự động tạo ra một phiên
bản ngắn gọn hơn mà vẫn giữ được những thông tin quan trọng hoặc những
khoảnh khắc thú vi của video gôc.
Video Summarization giúp giải quyêt một sô van dé như:
* Video Summarization giúp việc lập chỉ mục và truy xuất video hiệu quả hơn băng cách tạo ra các đoạn tóm tắt ngắn gọn, thay vì phải xử lý toàn bộ nội dung đài Điều này giúp tiết kiệm thời gian và tài nguyên, nâng cao hiệu suất trong
việc tìm kiếm và truy cập video
» Cai thiện trải nghiệm người dung là một lợi ích quan trọng khác của Video
Summarization Người xem có thé nhanh chóng nam bắt nội dung chính ma khôngcần xem toàn bộ video, giúp tiết kiệm thời gian và giữ được sự hứng thú Điều
này làm giảm tỷ lệ bỏ dở và nâng cao sự hài lòng của người xem.
* Video Summarization cũng tăng cường việc tiếp cận nội dung bằng cách cung cấp các đoạn tóm tắt ngăn gọn, giúp người xem dễ dàng xem nhiều video hơn trong thời gian ngắn Điều này đặc biệt hữu ích trong các nên tảng nội dung
trực tuyến (như TikTok, Facebook, Instagram ), nơi người dùng có thể duyệt
qua nhiêu video một cách nhanh chóng và hiệu quả
Với mỗi lĩnh vực khác nhau (domain-specific applications) sẽ có các tiêu
chí khác nhau trong việc lựa chọn các khung hình quan trọng đê đưa vào bản tóm tat video Vi dụ đôi với thê thao, người xem muôn xem những khoảnh khắc quan
11
Trang 14GIỚI THIỆU — PHÁT BIEU BÀI TOÁN
trọng ảnh hưởng đến kết quả của trận đấu Trong khi đó, tóm tắt video giám sátcần chứa các cảnh bất thường và đáng chú ý Cụ thể:
Full movie (e.g 1h 30’-2h) Movie trailer (2'30")
Source: https://www.youtube.com/watch?v=wb49-0VoF78
J R Smith, D Joshi, B Huet, W Hsu, and J Cota, “Harnessing A.l for Augmenting Creativity: Application to Movie Trailer Creation.” in Proc of the 25th ACM Int Conf on Multimedia, ser MM ‘17 New York, NY, USA: ACM, 2017 pp 1799-1808.
Hinh 1.3 Movie trailer
Trong lĩnh vực phim anh, việc tạo ra các bản tóm tắt video (trailer) dựa trên
một sô tiêu chí lựa chọn chính nhăm đảm bảo hiệu quả và sức hâp dân như:
* Tom lược được cốt truyện chính: Chọn các cảnh quay giới thiệu tổng quan
về cốt truyện chính của phim mà không tiết lộ quá nhiều chỉ tiết hoặc kết thúc.
- _ Nhân vật quan trọng: Bao gồm các đoạn phim giới thiệu những nhân vậtchính và mối quan hệ quan trọng giữa họ
* Cảnh hành động hoặc đỉnh điểm: Chọn những cảnh hành động gây cấn,đỉnh điểm hoặc những khoảnh khắc đặc sắc của phim
* Doan hội thoại hoặc câu thoại đáng nhớ: Chon lọc những câu thoại hay
hoặc mang tính chất gây ấn tượng
Với loại dữ liệu là video thể thao:
Trong lĩnh vực thé thao, việc tạo ra các bản tóm tắt video về các dién biễn
chính của trận đấu là một phần quan trọng dé giới thiệu và thu hút sự chú ý của
người xem, dựa trên các tiêu chí như:
» _ Tập trung vào những tình huống quyết định: Nhắn mạnh vào những khoảnh
khắc quan trọng và quyết định trong trận đấu, chăng hạn như bàn thắng, cứu thua,
12
Trang 15GIỚI THIỆU — PHÁT BIEU BÀI TOÁN
hoặc các pha phòng ngự xuất sắc Điều này giúp tạo ra một đoạn tóm tắt súc tích
va hap dan, tập trung vào những điểm cốt lõi của trận dau.
Full game (e.g 1h 30’)
Source: https://www.youtube.com/watch?v=oo-2lFTiƒUU
Hinh 1.4 Game’s highlights
* Chia sẻ thông tin chi tiết về trận đấu: Ngoài việc chi tập trung vào các highlights, cần cung cấp một số thông tin chỉ tiết về trận đấu, như điểm số cuối
cùng, thống kê về các pha tan công và phòng ngự, hoặc những thông tin về các
cầu thủ nổi bật Điều này giúp người xem hiéu rõ hơn về diễn biến của trận đấu
và cảm thấy hài lòng với đoạn tóm tắt.
Các tiêu chí nay không chi làm nôi bật những khoảnh khac đáng nhớ mà con cung cap một cái nhìn toàn diện về trận đâu, giúp người xem dé dàng năm bat
được những điểm chính và tận hưởng trải nghiệm xem thể thao một cách trọn vẹn
Với loại dữ liệu là video giám sát:
Với video giám sát, các sự kiện quan trọng được xác định dựa trên một tập
hợp các tiêu chí, chăng hạn như:
* Su di chuyên của người: Đây là một tiêu chí quan trọng dé phát hiện các sự kiện bất thường, chăng hạn như trộm cắp, xâm nhập, hoặc tai nạn.
¢ Su tương tác giữa các đối tượng: Ví dụ, một hệ thống có thê phát hiện một
đám đông đông người hoặc một vụ va chạm giữa hai xe.
* Cac thay đổi bất thường: Ví dụ, một hệ thống có thé phát hiện một vật thé
lạ xuất hiện trong khung hình hoặc sự thay đôi đột ngột về ánh sảng
13
Trang 16GIỚI THIỆU — PHÁT BIEU BÀI TOÁN
Raw CCTV material (e.g 24h) Summary of important actions/events (with timestamps)
Video samples extracted from: https:JIwww.youtube.com/watch?v=gk3qTMIcadk 23
Hinh 1.5 Tom tat video giam sat
1.2 Cac thách thức đôi với bài toán tóm tắt video
Tóm tắt video là một bài toán khó trong lĩnh vực thị giác máy tính Đề đạt hiệu quả tối đa, hệ thống cần phải hiểu được nội dung của video, bao gồm cả hình ảnh và âm thanh, từ đó tạo ra một bản tóm tắt ngắn gọn nhưng vẫn truyền tải được
thông tin chính của video Tuy nhiên, dé đạt được hiệu quả tóm tắt cao, can phaigiải quyết một số thách thức sau:
» Su đa dạng của các loại video: Có vô số loại video khác nhau, từ phim ảnh, chương trình truyền hình, video thé thao đến video hướng dẫn, video ghi lại sự kiện, v.v Mỗi loại video sở hữu đặc điểm và nội dung riêng biệt, đòi hỏi các
phương pháp tóm tắt phù hợp Ví dụ, tóm tắt phim điện ảnh khác với tóm tắt video
hướng dẫn
* - Kích thước và độ phức tạp: Video thường có dung lượng lớn và chứa đựng
nhiều thông tin đa dạng, bao gồm hình ảnh, âm thanh, chuyên động và văn bản
Việc xử lý và phân tích tat cả các yếu tổ này một cách hiệu quả là một thách thức
lớn đối với các mô hình tóm tắt
* Su mất mát thông tin: Quá trình tóm tắt video buộc phải lược bỏ một phần thông tin ban đầu để tạo ra bản tóm tắt ngắn gọn Việc lựa chọn thông tin nào được giữ lại và thông tin nào bị loại bỏ là một vấn đề quan trọng, ảnh hưởng đến
độ chính xác và hiệu quả của bản tóm tắt.
14
Trang 17GIỚI THIEU — PHÁT BIEU BÀI TOÁN
» - Xác định nội dung quan trọng: Xác định đâu là nội dung quan trọng trong
video là một yêu tố then chốt ảnh hưởng đến chất lượng bản tóm tắt Điều này
phụ thuộc vào nhiều yếu tố như mục đích tóm tắt, đối tượng người xem va độ daimong muốn của bản tóm tắt
Ngoài ra, tóm tắt video còn gặp phải một số thách thức khác như:
» _ Thiếu hụt dữ liệu huấn luyện: Việc thu thập và chú thích dữ liệu video chotóm tắt là một quá trình tốn kém và tốn thời gian, dẫn đến thiếu hụt dir liệu huấnluyện cho các mô hình Các bộ dữ liệu video chuẩn cho máy học đáng tin cậy hiện
nay như TVSum!"! hay SumMeP! đều là những bộ dit liệu có kích thước nhỏ và nội dung video mang tính tông quát (tập trung vào các chủ đề phô biến, ít đề cập đến các lĩnh vực chuyên môn hoặc các trường hợp cụ thé) Điều này dẫn đến các
mô hình được huấn luyện trên các tập đữ liệu này có tính khái quát thấp và khóứng dựng trong trường hợp thực tế
- Su mơ hé của ngôn ngữ tự nhiên: Việc tóm tắt nội dung video bằng ngônngữ tự nhiên đòi hỏi mô hình cần có khả năng hiéu và sử dụng ngôn ngữ một cách
chính xác và trôi chảy.
* Yéu cầu về thời gian thực: Trong một SỐ ứng dụng, việc tóm tắt video cần
được thực hiện nhanh chóng, đòi hỏi mô hình có khả năng xử lý và tóm tắt video
trong thời gian ngắn.
1.3 Framework chung cho bài toán tóm tắt video
Có nhiều phương pháp tóm tắt tự động đã được đề xuất, các phương phápgan đây tuân theo một mô hình bao gồm: dự đoán điểm quan trong (importance
score), phân đoạn video và lựa chọn đoạn video dé đưa vào bản tóm tat.
Đầu tiên, dự đoán điểm quan trọng cho mỗi khung hình trong video gốc.Thứ hai, video được chia thành các đoạn ngắn, điểm quan trọng của các đoạn
video này được tính bằng trung bình điểm quan trọng của các khung hình trong
đoạn video Cuôi cùng, tạo ra bản tóm tắt video băng cách chọn một tập con của
15
Trang 18GIỚI THIỆU — PHÁT BIEU BÀI TOÁN
các đoạn video băng cách tối đa hóa các điểm quan trọng của các đoạn trong một ngưỡng ràng buộc (thường bằng 15% độ dài của video gốc — theo SumMeP)),
« Inferesfingness
«Representativeness eetc.
Hinh 1.6 Framewok chung cho bai toan tom tat video
Trong bai toán VSUM, bước dự đoán importance score cho các khung hình
trong video là bước quan trọng nhất Các bước sau dựa trên importance score đểtính toán, lựa chọn các đoạn video đưa vào bản tóm tắt
1.4 Hướng tiếp cận cho bài toán tóm tắt video dựa trên học sâu
Hướng tiếp cận chung cho bài toán tóm tắt video là sử dụng deep learning
dé dự đoán điểm quan trọng cho từng khung hình trong video Điểm quan trọng
nay giúp xác định những khung hình nào mang tính đại diện và chứa nhiều thôngtin, từ đó ưu tiên chúng cho việc tạo bản tóm tắt Các hướng tiếp cận nay sử dụng
chung một pipeline (Hình 1.7).
O bước đâu tiên, nội dung hình ảnh của video được biêu diễn băng các
vector đặc trưng Thông thường, các vector này được trích xuất ở cấp độ khung
16
Trang 19GIỚI THIỆU — PHÁT BIEU BÀI TOÁN
hình, bao gồm tất cả các khung hình hoặc một tập con được chọn thông qua mộtchiến lược lay mẫu khung hình (vi dụ 2 khung hình mỗi giây) Các mạng nơ-ronđược dao tạo trước, bao gồm nhiều kiến trúc như GoogleNet (Inception VI)PÌ,
InceptionNet-V3"!, AlexNetf5!, ResNet'!, VGGnet!7! được sử dụng dé trích xuất
các vector đặc trưng từ nội dung hình ảnh của video.
Sau đó các vector đặc trưng được sử dụng bởi một mạng tóm tắt sâu (deep summarizer network), được huấn luyện thông qua việc cố găng giảm thiêu hàm mat mát (loss function) dé tạo ra chuỗi importance socre cho mỗi khung hình.
Sampled Feature Vectors Selected Frames bial karate
Hình 1.7 Pipeline chung cho bài toán VSUM dựa trên deep learning
Kết quả của mạng tóm tat sâu (deep summarizer network) đã được huấnluyện có thê là một tập hợp các khung hình được chọn (key-frames) tạo thành một
17
Trang 20GIỚI THIEU — PHÁT BIEU BÀI TOÁN
storyboard video tĩnh, hoặc là một tập hợp các đoạn video được chọn
(key-fragments) được nối với nhau theo thứ tự thời gian và tạo thành một video skimngắn Đối với storyboard video được tạo ra, nó nên tương tự với các tập hợp của
các key-frames mà con người sẽ chọn và phải thé hiện sự trùng lặp hình ảnh tối thiêu Đối với video skim được tạo ra, thi thường nên có độ dài bằng hoặc ít hơn một độ dài được xác định trước L Với mục đích thử nghiệm và so sánh, điều này
thường được đặt là L = p - T, trong đó T là thời lượng video và p là tỷ lệ của tóm
tắt đến thời lượng video; p = 0.15 là một giá trị điển hình, trong trường hợp này
tóm tắt không nên vượt quá 15% thời lượng ban đầu của video
Dựa trên việc phân đoạn video (segmentation) và các điểm quan trọng của
các khung hình (frames’ importance scores) được ước tính bởi deep summarizer
network đã được huấn luyện, các điểm quan trọng ở mức độ đoạn video
(video-segment-level importance scores) được tinh bằng cách lay trung bình của các điểm
quan trọng của các khung hình trong mỗi đoạn video Những điểm số ở mức độ
đoạn (segment-level scores) này sau đó được sử dụng dé chọn ra các đoạn video quan trọng phù hợp với độ dài tóm tắt L.
Đôi với các nghiên cứu về bai toán tóm tat video dựa trên học sâu, có thê
phân chia chúng thành các hướng chính như sau:
(1) Học tầm quan trọng của khung hình bằng cách mô hình hóa sự phụ thuộc
thời gian giữa các khung hình (temporal dependency)
Có thê chia cách tiếp cận này thành hai nhóm Nhóm các phương pháp dựatrên mạng LSTM và nhóm các phương pháp dựa trên cơ chế chú ý (attention
mechanism)
Nhóm các phương pháp dựa trên mạng LSTM và RNN: Dé mô hình
hóa sự phụ thuộc theo thời gian giữa các khung hình, sau đó sử dụng một mô hình
khác để dự đoán điểm quan trọng cho từng khung hình Một số phương pháp có thê kế đến như:
18
Trang 21GIỚI THIỆU — PHÁT BIEU BÀI TOÁN
Zhang et al (2016)"!: Sử dụng mạng LSTM dé mô hình hóa sự phụ thuộcthời gian giữa các khung hình video Sử dụng mạng perceptron đa tầng (MLP) dé
ước tính độ quan trọng của các khung hình.
Zhao et al (2017): Mô tả một kiến trúc LSTM hai lớp Lớp đầu tiên trích
xuất và mã hóa đữ liệu về cấu trúc video Lớp thứ hai sử dụng thông tin này để
ước lượng mức quan trọng ở mức đoạn và chọn ra các đoạn quan trọng của video.
Frame importance scores according to users
Hình 1.8 Mô hình hóa sự phụ thuộc thời gian giữa các khung hình
Nhóm các phương pháp dựa trên cơ chế chú ý (attention mechanism): Các phương pháp này sử dụng cơ chế chú ý từ thuật toán Transformer để mô
phỏng sự thay đổi quan tâm của người dùng theo thời gian, sau đó sử dụng một
mô hình khác để ước tính độ quan trọng của từng khung hình Một số phương
pháp đại diện nồi bật:
19
Trang 22GIỚI THIEU — PHÁT BIEU BÀI TOÁN
Fajtl et al (2019): Sử dụng cơ chế tự chú ý mềm (soft, self-attention) vàmột mạng fully connected hai lớp để dự đoán điểm quan trọng của các khung
hình.
Liu et al (2019)!"7!: Mô tả một phương pháp phân cấp kết hợp một kiến trúc
generator-discriminator dé ước lượng tinh dai diện của mỗi shot va xác định một
tập hợp các khung hình ứng cử viên Sau đó, sử dụng một mô hình chú ý đa đầu(multi-head attention) để đánh giá sự quan trọng của ứng cử viên và chọn ra cáckhung hình quan trọng đề tạo thành bản tóm tắt
Wang et al (2019)1°!: Xếp chồng nhiều lớp LSTM va lớp bộ nhớ theo cấp bậc dé rút trích bối cảnh thời gian dài hạn, và sử dụng thông tin này dé ước lượng
mức quan trọng của các khung hình.
(2) Học tầm quan trọng của khung hình bằng cách lập mô hình hóa cấu trúc
không gian - thời gian của video (spatialtemporal structure)
Nhóm phương pháp này chú ý đến cả mối quan hệ không gian và thời gian
giữa các khung hình để đánh giá tầm quan trọng của chúng Bên cạnh trình tự
khung hình và dữ liệu đánh giá mức độ quan trọng từ người dùng, hệ thống tómtắt cũng phân tích các tương quan không gian-thời gian giữa các khung hình Cácđiểm quan trong (important score) dự đoán sau đó được so sánh với dir liệu thực
tế dé điều chỉnh quá trình huấn luyện Ưu điểm là tận dụng thông tin phong phú
hơn về video, giúp đưa ra dự đoán tầm quan trọng của khung hình chính xác hơn,
có thê xử ly video dai tốt hơn nhưng tính toán phức tạp hơn
Tiêu biểu là MerryGoRoundNet''4! sử dụng kiến trúc mã hóa-giải mã với
LSTM convolution, hay Video Summarization With Spatiotemporal Vision
Transformer (STVT)"'5! kết hợp mang CNN và co chế chú ý của thuận toánTransformer dé mô hình mối quan hệ không gian-thời gian giữa các phan của
video.
20
Trang 23GIỚI THIỆU — PHÁT BIEU BÀI TOÁN
Summarizer
(Estimates frames’
importance by modeling the
temporal or spatiotemporal dependency among frames)
Predicted
importance scores.
Video frames
Frame importance scores according to users
Hình 1.9 Mô hình hóa su phụ thuộc không gian - thời gian cua video
(3) Học cách tóm tắt bang cách đánh lừa bộ phân biệt đối xử (discriminator)
Hướng nghiên cứu này sử dụng mạng đối nghịch tạo sinh (GenerativeAdversarial Network - GAN)''*! đề thu hẹp khoảng cách giữa bản tóm tắt đượctạo bởi máy và bản tóm tắt của người dùng Trong phương pháp nay, hệ thốngtóm tắt (Generator) lay chuỗi khung hình video làm đầu vào và dự đoán độ quantrong của từng khung hình, có gắng đánh lừa bộ phân biệt, khiến nó không thé
phân biệt giữa tóm tắt của máy và của người dùng Cùng với tóm tắt tối ưu được
người dùng đánh gia (user summaries), những dự đoán này được đưa vào bộ phân
biệt (discriminator) dé đánh giá mức độ giống nhau giữa chúng.
21
Trang 24GIỚI THIỆU — PHÁT BIEU BÀI TOÁN
Khi bộ phân biệt không còn phân biệt chính xác được hai loại tóm tắt, nghĩa
là hệ thống tóm tắt đã tạo ra được tóm tắt video gần gũi với mong muốn của ngườidùng Tuy nhiên, sức mạnh của GAN hạn chế trong lĩnh vực tóm tắt video có
giám sát (supervised video Summarization), trong khi được thể hiện hiếu suất cao
và sử dụng rộng rãi trong tóm tắt video không có giám sát (unsupervised video
summarization).
Một số nghiên cứu nôi bật trong hướng nghiên cứu nay là Fu et al (2019)171
và Zhang et al (2019)3l,
Nhan xét:
Nhu đã trình bày trong phan /.3 Framework chung cho bài toán Video
Summarizion, phần quan trọng nhất trong bai toán VSUM là việc dự đoán
importance score cho từng khung hình Các phương pháp trước đây thường sử dụng mạng nơ-ron tích chập (như CNNs, DCNNs) và các mô hình deep learning
phức tạp dé trích xuất đặc trưng và dự đoán importance score, các đặc trưng này
thường rất chung và tổng quát (generic) Các mô hình deep learning thường yêucầu một lượng dit liệu lớn dé có thé hoc được các đặc trưng phức tạp và tránh hiệntượng quá khớp (overfitting) Mặc dù các phương pháp này đạt hiệu suất cao trên
22
Trang 25GIỚI THIỆU — PHÁT BIEU BÀI TOÁN
các bộ dữ liệu lớn, nhưng lại gặp khó khăn khi áp dụng cho các bộ dữ liệu nhỏ và đặc thù.
Câu hỏi nghiên cứu được đặt ra ở đây là: /iệu việc trích xuất các đặc trưng cụ thể (specific) (như phát hiện đám đông, phát hiện bắt thường ) trên một
bộ dữ liệu nhỏ, thay vì sử dụng các mô hình deep learning phúc tạp, sẽ mang lại
hiệu quả như thế nào trong bài toán tóm tắt video?
1.5 Phát biểu bài toán
Dựa trên các tiêu chí khi lựa chọn khung hình dé đưa vào bản tóm tắt đượctrình bày ở trên cũng như câu hỏi nghiên cứu được đặt ra, luận văn đề xuất một
phương pháp tóm tắt video dựa trên phân tích sự kiện quan trọng nhằm khai thác tối đa các đặc trưng của video giám sát.
Hệ thống tạo bản tóm tắt video sẽ phân tích video đầu vào và tạo ra các
đoạn video ngắn, mỗi đoạn chứa các sự kiện quan trọng Các sự kiện quan trọng
được xác định dựa trên một tập hợp các tiêu chí, chăng hạn như:
e Sự di chuyên của người: Đây là một tiêu chí quan trọng dé phát hiện các sự kiện bắt thường, chăng hạn như trộm cắp, xâm nhập, hoặc tai nạn.
e Sự tương tác giữa các đối tượng: Ví dụ, một hệ thống có thé phát hiện một
đám đông đông người hoặc một vụ va chạm giữa hai xe.
e_ Các thay đổi bất thường: Vi dụ, một hệ thống có thé phát hiện một vật thé
lạ xuất hiện trong khung hình hoặc sự thay đôi đột ngột về ánh sang
23
Trang 26GIỚI THIỆU — PHÁT BIEU BÀI TOÁN
1.6 Mô hình đề xuất
Mô hình tổng quan:
extract linear enevate
> segments / > classifier > regression >| be >|
extract extract v saliency „| » Heny — Ñ importance generate
* segments > frames *) detector score be score "summary ”
m anomalyái scodetector anomaly
ground |
>) annotation ~ “truth |
Hình 1.13 Mô hình chi tiết bai toán tóm tắt video giám sát
1.7 Mục tiêu của đề tài
Mục tiêu tổng quát:
Xây dựng hệ thống tự động tạo bản tóm tắt video dựa trên phân tích và nhận diện các sự kiện quan trọng trong video, tập trung vảo sự di chuyển của người, sự tương tác giữa các đối tượng, và các thay đổi bat thường.
Mục tiêu cụ thể:
» - Xây dựng bộ dữ liệu từ video giám sat (surveillance dataset)
* Trich xuất các đặc trưng phát hiện đám đông (đếm đám đông): crowd
feature, phát hiện bất thường: anomaly feature, phát hiện độ nổi bật: saliency feature băng các pre-trained model.
* Huan luyện mô hình Linear Regression với 6 tham số trên cơ sở kết hợp 3đặc trưng đã được trích xuất ở trên — gọi chung là CAS feature
24
Trang 27GIỚI THIEU — PHÁT BIEU BÀI TOÁN
° Tiến hành các thực nghiệm sử dụng InceptionNet-V3 feature và CASfeature trên các model như VASNet, Linear Regression dé đánh giá mức độ hiệuquả của đặc trưng CAS trong tóm tắt video giám sát
1.8 Phạm vi của đề tài
Dé giảm bớt độ phức tạp cho bài toán, học viên giới hạn phạm vi của đề tài
ở một sô điêm cụ thê như sau:
* _ Xây dựng bản tóm tắt video trên dữ liệu video giám sát
» - Xây dựng một bộ dữ liệu trên tập các video clip trích xuất từ các hệ thống
camera giám sat, camera hành trình giao thông.
* Cac video clip này được thu thập từ YouTube, có độ dai từ 1 phút đến 5
phút.
* Cac video clip này có một trong các sự kiện như: bao lực, trộm cắp, đông
người, tai nan giao thông
1.9 Đóng góp của luận van
Qua quá trình nghiên cứu và thực nghiệm, học viên đã thực hiện các nội
dung sau:
* - Xây dựng được bộ dé liệu huấn luyện cho bai toán
* - Đánh giá mức độ hiệu quả của đặc trưng CAS trong tóm tắt video giám sat
1.10 Cấu trúc của luận văn
Với các mục tiêu trên, luận văn sẽ tổ chức với 06 chương với các nội dung:
e Chương 1: Giới thiệu và phát biểu bài toán
e Chương 2: Cơ sở lý thuyết
e Chương 3: Các nghiên cứu liên quan
e Chương 4: Xây dựng bộ dữ liệu
e Chương 5: Thực nghiệm
e Chương 6: Tổng kết và hướng phát triển
25
Trang 28CƠ SỞ LÝ THUYET
CHƯƠNG2: CƠ SỞ LÝ THUYET
2.1 Mô tả bài toán tóm tắt video
Tóm tắt video (video summarization): Là kỹ thuật tổng hợp một video thành
một phiên bản ngắn gọn hơn mà vẫn giữ được những thông tin quan trọng hoặcnhững khoảnh khắc thú vị của video gốc
Đâu vào của bài toán là một đoạn video (một chuôi các khung hình liên tiêp
nhau).
Đầu ra là một phiên bản tóm tắt của video gốc, bản tóm tắt này có thể ở
dang tinh (static summary) hoặc dang động (dynamic summary).
2.2 Tóm tat dạng tĩnh
Là bản tóm tắt được tạo ra bằng cách sử dụng các yếu tố không thay đổitheo thời gian như hình ảnh đứng yên và văn ban Một dang pho biến của static
summarization là storyboard, trong đó các keyframes (khung hình chính) được
chọn đê đại diện cho các phân quan trọng của video gôc.
Ưu điểm của static summarization là khả năng linh hoạt, cho phép sắp xếpcác thành phần tĩnh dé làm nồi bật cấu trúc của nội dung video và tạo ra một tóm
tắt có thể xem nhanh Tuy nhiên, đối với các video có chuyên động phức tạp, phương pháp tóm tắt tĩnh có thé bỏ lỡ các chỉ tiết quan trọng và không thé hiện được đầy đủ tính động của video.
Uu điêm của dynamic summarization là khả năng bao quát các chi tiết động
trong video gốc, tạo ra một tóm tắt sôi động và thú vị hơn Tuy nhiên, việc xử lý
26
Trang 29CƠ SỞ LÝ THUYET
video động có thé đòi hỏi nhiều tài nguyên tính toán hơn và có thé gặp phải thách
thức trong việc duy trì tính nhất quán của tóm tắt
2.4 Mô hình trích xuất đặc trưng
Trích xuất đặc trưng là một bước quan trọng trong xử lý ảnh và thị giác
máy tính Nó giúp chuyên đổi hình ảnh từ dạng thô sang dạng biểu diễn có thé sử
dụng cho các nhiệm vụ như phân loại ảnh, phát hiện đối tượng và nhận dạng khuôn
mặt Trong những năm gần đây, các mạng nơ-ron tích chập (CNN) đã nổi lên nhưmột phương pháp trích xuất đặc trưng hiệu quả và mạnh mẽ
InceptionNet-v3"“! là ví dụ nổi bật về kiến trúc CNN được sử dụng cho việctrích xuất đặc trưng, là phiên bản cải tiến của InceptionNet được Google phát triển
và giới thiệu năm 2015 Kiến trúc này tiếp tục sử dụng mô-đun Inception nhưng
có một số thay đôi đề cải thiện hiệu suất và hiệu quả.
Cấu trúc của InceptionNet-v3
Mô-đun Inception v3:
Giảm số lượng tham số so với Inception v2 bằng cách sử dụng bộ loc 1x1
để giảm kích thước đữ liệu trước khi xử lý bởi các nhánh khác
Sử dụng bộ lọc 3x3 có kích thước đầu ra được giảm bớt.
Trang 30CƠ SỞ LÝ THUYET
* Sử dụng các lớp pooling tối đa dé giảm kích thước dit liệu đầu vào trướckhi đưa vào lớp fully connected cuối cùng
* Lớp fully connected: Sử dụng một lớp fully connected với 1505 đầu ra
dé phân loại 1000 lớp trong ImageNet
Ưu điểm của InceptionNet-v3
Hiệu suất cao: InceptionNet-v3 đạt được độ chính xác cao hơn GoogLeNettrong ImageNet với cùng số lượng tham số
Hiệu qua tính toán: InceptionNet-v3 có hiệu quả tính toán cao hơn
GoogLeNet.
Kha năng khái quát hóa tốt: InceptionNet-v3 có khả năng khái quát hóa tốt,
nghĩa là có thé hoạt động tốt trên các tập dữ liệu mới mà không cần dao tạo lại.
Ứng dụng của InceptionNet-v3
InceptionNet-v3 được sử dụng rộng rãi trong các ứng dụng xử lý ảnh va thi
giác máy tinh, bao gồm:
¢ Phân loại anh: InceptionNet-v3 có thể được sử dụng dé phan loai anh
thành các lớp khác nhau, chăng hạn như động vật, phương tiện giao thông, đồ nộithất, v.v
* Phat hiện đối tượng: InceptionNet-v3 có thé được sử dụng dé phat hién
các đối tượng trong anh, chăng han như người, 6 tô, xe máy, v.v
¢ Nhận dạng khuôn mặt: InceptionNet-v3 có thé được sử dụng để nhận
dạng khuôn mặt trong ảnh.
2.5 Bộ dữ liệu
Bộ đữ liệu (dataset) là một thành phần quan trọng trong việc phát triển và
đánh giá các phương pháp tóm tắt video Xây dựng một bộ dữ liệu cho tóm tắt
video không phải là một công việc đơn giản.
Dé xây dựng một bộ dữ liệu cho tóm tắt video, các yếu tố sau đây thường
được xem xét:
28
Trang 31CƠ SỞ LÝ THUYET
(1) Loại hình dữ liệu: Quyết định về loại hình đữ liệu cần được gán nhãn,
có thể là video day đủ, video phân đoạn, keyframes (khung hình quan trọng), hoặc
các đặc điểm khác của video như sự kiện quan trọng, đối tượng xuất hiện, hoặc
ngữ cảnh.
(2) Phạm vi của dữ liệu: Xác định phạm vi của dữ liệu, bao gồm số lượng
video, thời lượng của mỗi video, độ phức tạp của nội dung, và độ đa dạng
(3) Phương pháp thu thập dữ liệu: Quyết định cách thu thập dữ liệu, baogom việc tìm kiếm va tải xuống từ nguồn công khai, sử dụng dich vụ trực tuyến,
hoặc thu thập từ các nguôn cụ thê hoặc điêu kiện kiêm soát.
(4) Quy trình gán nhãn: Xác định quy trình dé gan nhãn dit liệu, bao gomviệc xác định các yếu tô quan trong cần ghi chú và các phương pháp gan nhãn thủ
công hoặc tự động.
(5) Đánh giá và chuẩn đoán: Phát trién các tiêu chí đánh giá và phương
pháp dé đo lường hiệu suất của các phương pháp tóm tắt video dựa trên dit liệu
được thu thập.
(6) Phân phối và sử dụng: Xác định cách phân phối và sử dụng bộ dữ liệu,
bao gồm việc cung cấp cho cộng đồng nghiên cứu thông qua các nền tảng mở và
sử dụng trong các cuộc thi hoặc dự án nghiên cứu.
Quá trình xây dựng một bộ dữ liệu cho tóm tắt video đòi hỏi sự cân nhắc
kỹ lưỡng và quản lý chặt chẽ từ việc lựa chọn dữ liệu đến việc thu thập, gán nhãn
và đánh giá.
Bốn bộ dữ liệu pho biến được sử dụng hiện nay cho bài toán tóm tắt video
là SumMe?!, TVSuml!l OVPI”! và Youtubel”?!,
Bộ dữ | Số | Thời Nội dung video Loại chú thích | Số lượng
liệu lượng | lượng chú thích
video
29
Trang 32TVSum | 50 |2-10|Timn tức, phim tài | multiple 20
liệu,Tin tức, phim tải
fragment-liệu, hướng dẫn, video level
do người dùng tạo
scores
OVP 50 1-4 | Phim tài liệu, lịch sử, | multiple sets 5
giao duc, bai giang of
Bảng 2.1 Đặc điểm các bộ dữ liệu phổ biến trong lĩnh vực VSUM
SumMe bao gồm 25 video có độ dài từ 1 đến 6 phút, với nội dung video đa dạng, được ghi lại từ cả quan điểm người thứ nhất và thứ ba Mỗi video đã được
15 đến 18 người dùng chú thích dưới dạng các đoạn chính (key-fragments), và do
đó liên kết với nhiều tóm tắt người dùng ở mức đoạn (fragment-level) với độ dai
từ 5% đến 15% so với thời lượng video ban đầu.
30
Trang 33CƠ SỞ LÝ THUYET
TVSum gồm 50 video có độ dài từ 1 đến 11 phút, chứa nội dung video từ
10 danh mục của bộ dir liệu TRECVid MED Các video TVSum đã được 20 người
dùng chú thích đưới dạng điểm quan trọng ở mức cảnh và mức khung hình
(shot-and frame-level importance scores) (từ 1 đến 5) Trong TVSum điểm quan trong
(importance score) được gán cho mỗi segment 2 giây
OVP và Youtube đều chứa 50 video, các chú thích của chúng là tập hợp
các khung hình chính (key-frames), được tạo ra bởi 5 người dùng Thời lượng
video dao động từ 1 đến 4 phút cho OVP và từ 1 đến 10 phút cho Youtube Cả hai
bộ dữ liệu đều bao gồm các video với nội dung đa dạng như tải liệu, giáo dục,
ngắn hạn, lịch sử và video bài giảng (bộ dữ liệu OVP), cũng như phim hoạt hình,tin tức, thể thao, quảng cáo, chương trình truyền hình và video gia đình (bộ dữ
liệu Youtube).
2.6 Đánh giá
Phương pháp đánh giá (evaluation)!?°! là yêu tố quan trọng dé hiéu về hiệu suất của các hệ thống tóm tat video và dé đo lường sự tiến bộ của các phương pháp mới so với các phương pháp hiện có Tuy nhiên, việc đánh giá tóm tắt video không phải là điều đơn giản Khác biệt so với các nhiệm vụ thị giác khác như phân
loại hình ảnh hoặc phát hiện đối tượng, sự ton tại của các tóm tắt tham chiếu không
rõ ràng Một video có thê dẫn đến các tóm tắt video khác nhau mà tất cả đều đượcchấp nhận, và việc liệt kê tat cả các tóm tắt có thé không kha thi
(1) Danh giá thủ công
Phương pháp đánh giá thủ công (manual evaluation) được sử dụng rộng rãi
đặc biệt là trong các công việc đầu tiên trong lĩnh vực này Nghiên cứu ngườidùng là một lựa chọn đơn giản nhưng hữu ích dé đánh giá các tóm tắt video đượctạo ra Trong một nghiên cứu người dùng tiêu chuẩn, người dùng được hiển thị
với các tóm tắt video và được yêu cầu đánh giá chất lượng của tóm tắt Nghiên cứu người dùng cho phép điều tra các thuộc tính phức tạp của các tóm tắt mà khó
có thé đo lường bằng các phương pháp khách quan, ví dụ như tính thẩm my và
31
Trang 34CƠ SỞ LÝ THUYET
tính hiểu biết về câu chuyện Nhiệm vụ tóm tắt video của TRECVid đánh giá chất
lượng của các tóm tắt video một cách thủ công Các annotators xem các tom tắt video đã gửi va mức độ hiểu biết của họ được kiểm tra bằng cách đặt câu hỏi về nội dung Giao thức đánh giá này dựa trên giả định rằng một tóm tắt tốt nên truyền đạt câu chuyện của video gốc trong khi loại bỏ các cảnh ít quan trọng hơn Mặc
dù một nghiên cứu người dùng có thể điều tra các thuộc tính quan trọng của các tóm tắt video, thiết lập một nghiên cứu người dùng là tốn kém và khó khăn Ngoài
ra, việc đánh giá khó tái tạo và gặp vấn đề đặc biệt trong việc so sánh các hệ thong
khac nhau.
(2) Danh gia định lượng
Đánh giá định lượng (quantitative evaluation) đã trở nên phổ biến trong
những năm gần đây do tính thuận tiện của việc không cần thiết lập các nghiên cứungười dùng công phu Điều này cũng là do cộng đồng nghiên cứu ngày càng tậptrung nhiều hơn vào việc so sánh số liệu với các phương pháp hiện có Một chiếnlược pho biến cho đánh giá định lượng là so sánh các tóm tắt được tạo ra với cáctóm tắt tham chiếu VSUMM (Avila et al., 201 1)!”7! thu thập các keyframe tham
chiếu bằng cách sử dụng nhiều người chú giải cho mỗi video và đề xuất đánh giá việc trích xuất keyframe bằng cách so sánh các keyframe được tạo ra bởi hệ thống với các keyframe tham chiếu Chất lượng của việc trích xuất tự động được đánh giá bằng cách tính độ tương đồng hình ảnh với các keyframe được chọn thủ công 2.7 Chỉ số đánh giá tong hợp
Chi số đánh giá tổng hợp (F1-Score) thường được sử dụng trong tóm tat
video để đo lường sự tương đồng giữa các tóm tắt được tạo ra và các tóm tắt tham chiếu F1-score là một chỉ số dựa trên độ chính xác (precision) và độ phủ (recall) Precision đo lường độ chính xác của bản tóm tắt, trong khi recall đo lường độ đầy
đủ của bản tóm tắt.
Công thức tính F1-Score
32
Trang 35CƠ SỞ LÝ THUYET
precision x recall F-score = 2 x —
precision + recall
true positive retrieved and relevant frames
+ false positive _ all retrieved frames
tme positive retneved and relevant frames
true positive + false negative — all relevant frames
Ground-truth
mmướh TT Me =-¬
BH nan mm mmmmanmam|
Summary | False | True | | False | | False |
| positive | positive | ! positive | | negative |
recall =
True Positives là số lượng trường hop mà cả hai hệ thống (tóm tat tự động
và tóm tắt do người tạo) đều xác định là quan trọng False Positives là số lượng trường hợp mà tóm tắt tự động xác định là quan trọng nhưng tóm tắt do người tạo
không xác định là quan trọng False Negatives là số lượng trường hợp mà tóm tắt
tự động không xác định là quan trọng nhưng tóm tắt do người tạo xác định là quan
trọng.
F1-score kết hợp cả độ chính xác và độ phủ dé cung cấp một đánh giá cân băng về hiệu suất của hệ thống tóm tắt video Chỉ số này rất hữu ích khi cần đánh giá sự cân đối giữa việc chọn đúng các khung hình quan trọng (precision) và việc bao phủ đầy đủ các khung hình quan trọng thực tế (recall).
33
Trang 36CÁC NGHIÊN CỨU LIÊN QUAN
CHƯƠNG3: CÁC NGHIÊN CỨU LIÊN QUAN
3.1 Tóm tắt video với cơ chế chú ý
3.1.1 Giới thiệu
Tóm tắt video dựa trên cơ chế chú ý - VASNet được giới thiệu vào năm
2018 của nhóm tac gia Jiri Fajtl, Hajar Sadeghi Sokeh, Vasileios Argyriou, Dorothy Monekosso va Paolo Remagnino, trong bai bao “Summarizing Videos
with Attention”''!, VASNet được dé xuất cho việc tom tắt video dựa trên keyshot được giám sát, sử dụng cơ chế soft self-attention.
Thay vì sử dụng mạng nơ-ron hai chiều BiLSTM kết hợp với cơ chế chú ý
như các phương pháp tiên tiến khác, VASNet sử dụng cơ chế tự chú ý attention) để xác định tầm quan trọng của từng khung hình trong video.
(self-[ set ah Network i
Regressor Network :
Frame Score
VASNet cho hiệu qua tính toán cao va dạt được kết quả vượt trội so với các
phương pháp trước đây trên các bộ dữ liệu đánh giá phổ biến như TVSum!" và
SumMe!! do toàn bộ quá trình chuyên đổi chuỗi sang chuỗi (sequence to sequencetransformation) chỉ trong một lần truyền trực tiếp (feed forward) và một lần truyền
ngược (backward) trong quá trình huấn luyện.
34
Trang 37CÁC NGHIÊN CỨU LIÊN QUAN
3.1.2 Mô tả phương pháp
Cách tiếp cận phổ biến cho việc tóm tắt video được giám sát và các biến
đổi từ chuỗi sang chuỗi khác là áp dụng một mạng mã hóa-giải mã LSTM hoặcGRU với chú ý LSTM chuyền tiếp thường được thay thé bằng BiLSTM hai chiều
vì các keyshots trong tóm tắt có liên quan đến các khung hình video trong tươnglai Khác với các mạng dựa trên RNN, VASNet không cần phải sử dụng các kỹ
thuật đặc biệt, như BiLSTM, dé đạt được hành vi không gian thời không gian
(non-causal).
Trạng thái ân được truyền từ bộ mã hóa đến bộ giải mã luôn có độ dài cốđịnh, tuy nhiên, nó cần mã hóa thông tin đại diện cho các chuỗi có độ dài biến
thiên Điều này có nghĩa là có mat mát thông tin cao hơn đối với các chuỗi dai
hơn Cơ chế chú ý được đề xuất không gặp phải mất mát như vậy vì nó truy cập
trực tiếp vào chuỗi đầu vào mà không cần một lớp nhúng trung gian.
Kiến trúc được dé xuất trong VASNet hoàn toàn thay thé mang mã hóa-giải
mã LSTM (LSTM encoder-decoder) bằng cơ chế tự chú ý mềm (soft,
self-attention) và một mạng kết nối đầy đủ hai lớp (two layer, fully connected network)cho việc hồi quy điểm quan trọng của khung hình (frame importance score)
VASNet nhận vào một chuỗi đầu vào X = (Xo, Xn); X € RP và tạo ra một chuỗi đầu ra Y = (yo, y); y €[0; 1), cả hai đều có độ dài N Đầu vao là một chuỗi các vector đặc trưng CNN với kích thước D, được trích xuất cho mỗi khung hình.
Hình 5 hién thị toàn bộ mang chi tiết
Trọng số chú ý
Trọng số tự chú ý (self-attention weight) chưa chuẩn hóa e,¡ được tính nhưmột sự liên kết giữa đặc trưng đầu vào x; và toàn bộ chuỗi đầu vào theo phươngpháp được đề xuất bởi Luong và cộng sự !?!!, Công thức được biêu diễn như sau:
e,; = 8 |(Uz;)'(Vz,)| t=[0,N), i=([0,N)
35
Trang 38CÁC NGHIÊN CỨU LIÊN QUAN
Ễ t f x f
Hình 3.2 Mô hình VASNet chỉ tiết
Trong đó, N là số lượng khung hình video, U và V là các ma trận trọng số
của mạng được tối ưu hóa trong quá trình huấn luyện và s là tham số tỉ lệ (được thiết lập băng 0.06) dé giảm giá trị của tích vô hướng giữa Ux; và Vx; Ảnh hưởng của tham số tỉ lệ lên hiệu suất mô hình là không đáng kê Ngoài ra, vector chú ý
cũng có thể được thực hiện bằng một hàm cộng như đã chỉ ra bởi Bahdanou và
cộng su",
€.; = M tanh(Uz; + Vz;)
Với M là các trọng số mang bồ sung được học trong quá trình huấn luyện.
Cả hai công thức đều cho hiệu suất tương tự, tuy nhiên, công thức nhân dé dàng
song song hóa hơn vì nó có thê được triển khai hoàn toàn đưới dạng nhân ma trận,
điều này có thê được tối ưu hóa cao Vector chú ý e, sau đó được chuyên đôi thành
trọng sô chú ý ơ; với hàm softmax.
36