Luận văn thạc sĩ Khoa học máy tính: Hệ thống tự động tạo bản tóm tắt video dựa trên phân tích sự kiện quan trọng

Hinh 1.3 Movie trailer Trong lĩnh vực phim anh, việc tạo ra các bản tóm tắt video trailer dựa trên một sô tiêu chí lựa chọn chính nhăm đảm bảo hiệu quả và sức hâp dân như: * Tom lược đượ

Trang 1

ĐẠI HỌC QUOC GIA THÀNH PHO HO CHÍ MINH

TRƯỜNG DAI HỌC CÔNG NGHỆ THONG TIN

NGUYEN HỮU THÁI

HỆ THONG TỰ ĐỘNG TẠO BẢN TÓM TAT VIDEO

DỰA TREN PHAN TÍCH SỰ KIỆN QUAN TRONG

LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH

Mã ngành: 8.48.01.01

THÀNH PHÓ HÒ CHÍ MINH - 2024

Trang 2

ĐẠI HỌC QUỐC GIA THÀNH PHÓ HÒ CHÍ MINH

TRUONG ĐẠI HỌC CÔNG NGHỆ THONG TIN

NGUYÊN HỮU THÁI

LUẬN VAN THAC SĨ

NGANH KHOA HOC MAY TÍNH

Mã ngành: 8.48.01.01

GIẢNG VIÊN HƯỚNG DẪN

PGS.TS LÊ ĐÌNH DUY

THÀNH PHÓ HÒ CHÍ MINH - 2024

Trang 3

LỜI CÁM ƠN

Sau thời gian học tập và thực hiện Luận văn tại Trường Đại học Công nghệ

Thông tin, tôi xin gửi lời tri ân đến những cá nhân và tập thể đã hỗ trợ tôi trong

suôt quá trình này.

Trước tiên, tôi xin gửi lời cảm ơn chân thành và sâu sắc đến PGS.TS Lê

Đình Duy, người trực tiếp hướng dẫn luận văn cho tôi Thầy đã dành cho tôi nhiều thời gian quý báu, không chỉ truyền đạt kiến thức chuyên môn mà còn chia sẻ kinh

nghiệm và định hướng nghiên cứu phù hợp Nhờ sự động viên, dìu dắt tận tình

của Thay, tôi đã hoàn thiện Luận văn đúng han với chất lượng tốt nhất.

Bên cạnh đó, tôi cũng xin gửi lời cảm ơn chân thành đến:

Ban Giám hiệu, các phòng ban, khoa thuộc Trường và các thầy cô đã nhiệttình hướng dẫn, giảng dạy và tạo mọi điều kiện thuận lợi giúp đỡ tôi trong quá

trình học tập tại trường.

Gia đình, lãnh đạo đơn vị, đồng nghiệp, các bạn cùng lớp đã luôn động

viên, giúp đỡ và tạo mọi điều kiện tốt nhất cho tôi trong quá trình học tập và thực

hiện luận văn.

Do tính phức tạp của đề tài nghiên cứu, cũng như khả năng và kiến thứccủa tôi còn nhiều hạn chế nên Luận văn không tránh khỏi những sai sót nhất định.Tôi rất mong nhận được những đóng góp ý kiến của các thầy cô và những nhànghiên cứu khác dé nội dung nghiên cứu được hoàn thiện hơn

Tôi xin chân thành cảm ơn!

Thành phố Hồ Chí Minh, ngày 20 tháng 6 năm 2024

Học viên thực hiện

Nguyễn Hữu Thái

Trang 4

LỜI CAM ĐOAN

Tôi xin cam đoan luận văn thạc sĩ về đề tài: “Hệ thống tự động tạo bản tóm

tắt video dựa trên phân tích sự kiện quan trọng” là công trình nghiên cứu của ban thân Các số liệu, kết quả trình bày trong luận văn này là trung thực Mọi tài liệu

tham khảo trong luận văn đêu có nguôn gôc và trích dan rõ ràng, đây đủ.

Tôi xin chịu hoàn toàn trách nhiệm nếu có sự không trung thực trong luận

Thành phố Hồ Chí Minh, ngày 20 tháng 6 năm 2024

Học viên thực hiện

Nguyễn Hữu Thái

Trang 5

MỤC LỤC

DANH MỤC CAC KÝ HIỆU VÀ CHỮ VIET TẮTT -2-s-sss< s2 4 DANH MỤC CAC BẢNG s- 5< se se EssESsEEsEEseEseEssErserserssrssesserseree 5 DANH MỤC CÁC HÌNH VẾ - 2 2s se ssssESseEseEssEsserserserssrssersrrssrse 6

CHƯƠNG 1: GIỚI THIỆU — PHÁT BIEU BÀI TOÁN . «-< 9

1.1 Đặt vấn đềỀ s- 2s 2c 2t 2 122112711211 21112111211 2110112112111 ererreg 9

1.2 Các thách thức đối với bài toán tom tắt video -sccs++c+csccxcrsee 14 1.3 Framework chung cho bài toán tóm tắt video -: -¿ s++cx++ss+¿ 15 1.4 Hướng tiếp cận cho bài toán tóm tắt video dựa trên học sâu 16 1.5 Phát biểu bài toán -¿2¿- 22x 2x2ESEEEEEEEE21122171211211221 2121 1.crrrrei 23

1.7 Mục tiêu của đề tài c.-ss c1 1 11121 12111111011 1121111111 grưec 24 1.8 Phạm vi của dé tải - ¿52-5222 2EE x21 2112112217121121111 111.1 25

1.9 Đóng góp của luận vặm - - c2 E13 v9 ng nh nh ngư 25

1.10 Cấu trúc của luận văn 2- ¿5£ SEE+2E+2EE22EE2EEE2EEEEESEEEEEkerkrrrkrrrkee 25 CHUONG 2: CƠ SỞ LÝ THUYẾT - 5< 5° ss£ss£ss£sseEssevseesserssesse 26

2.1 Mô tả bài toán tóm tắt VideO 2-52-5222 E1E212211211221121 212112111 26

3.1 Tóm tắt video với cơ chế chú Y -¿- + c5 keSE+EE+EE2EE2EEEEEEEEEeEkerkrrkrree 34

3.1.1 Giới thiỆU ¿-5 522 kEESEE 2 122112711271211211271211111111 21.111 Erre 34

3.1.2 Mô tả phương phápp c3 9H HH HH ng 35

3.2 Phát hiện bất thường :- 2 2+S2+EE+EEEE2EE2E1E7171121121121171 21111 38

3.2.1 Giới thiỆu 2 622k E221 2212211271127121121171 21121111121 11 1x ke 38

Trang 6

3.2.2 Mô tả phương phap - - «HH HH TH HH nghệ 39

3.3 Phát hiện độ nổi bật -.-:-:5c+2vvttt tre 42

2.3.1 Go 42

2.3.2 Mô tả phương pháp - - c1 11131 1 1 111 1 11 11 1n ng ng ngư 43

3.4 Phat hiện dam đông - - 6 2+ +21 E+1 191919 vn TH HH nh ng ngàn 45

KG ANCG.u0i.tiiỖŨỖŨũủỤ 45

3.4.2 ` pár§ï 10) 0 4đ 47

3.5 Tóm tắt video người đùng -2¿- ¿22+ x+2Ex22E2EEEEESEEEEerkrerkrrrree 49

3.5.1 GiGi thiGue cece -+£5 49 3.5.2 MG ta 80( i10) 51

CHƯƠNG 4: XÂY DỰNG BỘ DU LIBU 2-s<s<ssecsssevssevssee 56

4.1 Các bước xây dựng bộ dữ liệu 5 2c 235113 EESEESeeersesrerereeee 56

CHƯƠNG 6: TONG KET VA HƯỚNG PHÁT TRIEN - 68

6.1 TỐng Ket eeccecccsecsessesssessessessecssessessecsecsucssessessessecsuessessecsussscssessessecsucaseeseeses 68

6.2 Hướng phat trim ee.ceccececceccccccscsscssecsessessessesscsscsessessessessessesesseesssessessessesscseeaee 68

TÀI LIEU THAM KHAO\ ccscesssssssssessesssssssssesssssssssssesssssssssssssssssssssssscsssssssssseees 69

PHU LỤC <5 << < 5< << HH HH 0 000400000040 8900 74

Trang 7

DANH MỤC CÁC KÝ HIỆU VA CHỮ VIET TAT

VSUM Video Summarization

RNN Recurrent Neural Network

CNN Convolutional Neural Network

DCNN Deep Convolutional Neural Network

CV Computer Vision

NLP Natural Language Processing

LSTM Long Short-Term Memory

FEN Feed-Forward Network

GAN Generative Adversarial Network

VTN Vision Transformer Network

CAS Crowd, Anomaly, Saliency features

MIL Multiple Instance Learning

Trang 8

DANH MỤC CAC BANG

Bang 2.1 Đặc điểm các bộ dữ liệu phổ biến trong lĩnh vực VSUM 30

Bang 3.1 Các video trong bộ dữ liệu SumMe - sc- scsxcsecseeseesree 55

Bang 4.1 Bảng thống kê độ dài các video clip được thu thập - 56 Bang 4.2 Bảng thống kê số lượng frames và sự kiện trên từng video clip 57 Bang 5.1 Kết quả thực nghiệm trên bộ dữ liệu video giám sát - 66 Bang 5.2 Bảng so sánh giữa video tóm tắt và video gốc -cs-c 67

Trang 9

DANH MỤC CÁC HÌNH VỀ

Hình 1.1 Dự báo tăng trưởng lưu lượng internet toàn cầu . : 9

Hình 1.2 Video Summar1ZAfIOTI - s G5 1121115119111 119 1191 1v ng ng 11

Hinh 1.3 Movie trailers n8 e.- 12

Hình 1.4 Game’s highlights - - - 5 c5 222 132111391113 111911 8111111 11p rey 13

Hình 1.5 Tóm tắt video giám sátt -¿- 2 St SE 1211211212171 1121 14 Hình 1.6 Framewok chung cho bài toán tóm tắt video 5c 5 s+cs+s+ 16

Hình 1.7 Pipeline chung cho bai toán VSUM dựa trên deep learning 17

Hình 1.8 Mô hình hóa sự phụ thuộc thời gian giữa các khung hình 19

Hình 1.9 Mô hình hóa sự phụ thuộc không gian - thời gian của video 21

Hình 1.10 Tóm tắt video sử dung mang GAN c.ceccscessssesesessesesstssteseeseesessens 22

Hình 1.11 Cảnh bạo lực trong video giám sát 5 555525 *S++seerseeerss 23

Hình 1.12 Mô hình tổng quan bài toán tóm tắt video giám sát - 24 Hình 1.13 Mô hình chi tiết bài toán tóm tắt video giám sát - -: 24

Hình 3.1 Mô hình VA SÌNet - - S Sàn HH HH tưệt 34

Hình 3.2 Mô hình VASNet chỉ tiẾt - ¿ 5cccc2xtttctktrrrrrtrrrrrirrrrrirrrriei 36 Hình 3.3 Mô hình phát hiện bat thường 2- 2-52 2 2 E£+Ee£EeEEeExerxrrxzes 38 Hình 3.4 Ví dụ về cách sự chú ý của con người thay đổi theo thời gian 43 Hình 3.5 Tổng quan về kiến trúc TempSAL được dé xuất - 5 44 Hình 3.6 TempSAL: Mô hình kết hợp không gian — thời gian 45

Hình 3.7 Mô hình CLIP-E.BCC - - 6 5 +13 2311919 9 1 ng ng nh g ưệp 46

Hình 3.8 Phân loại theo khối tăng cường — EBC - 2 5¿+c2+cs+cx+rxczes 41 Hình 3.9 CLIP-EBC: Dự đoán theo khối -:¿-cccccc+vcsccxvrrrrrrerrrrree 48

Hình 3.10 CLIP-EBC: Hình ảnh chứa các khu vực cực kỳ đông đúc 49

Trang 10

Hình 3.11 Tông quan phương pháp tóm tắt video từ video người dùng 50

Hình 3.12 Minh hoa phân đoạn superfrarme - - 5+ + + *+++seseereerseerrss 52 Hình 4.1 Các bước xây dựng bộ đữ liệu 5 S25 + 3 x+rssireerreerrsrrrree 56

Hình 4.2 Gan nhãn cho các đoạn video << 5552 +22 cssssseeeeeree 58

Hình 4.3 Lưu trữ đặc trưng được trích XUẤT, Q01 T111 11 111111111111 ckrri 59

Hình 5.1 VASNet với các phương pháp SO TA .- 2Ă SSScsssserseeeres 62

Hình 5.2 Minh họa chia bộ dữ liệu theo K-fold Cross-Validation 65

Trang 11

GIỚI THIỆU — PHÁT BIEU BÀI TOÁN

CHUONG 1: GIỚI THIỆU - PHAT BIEU BÀI TOÁN

1.1 Đặt vấn đề

Theo dự báo của Cisco Visual Networking Index (Cisco VNI)SH, lưu lượng

dữ liệu Internet toàn cầu dự kiến sẽ dat 4,8 Zettabytes (ZB) vào năm 2022, trong

đó đữ liệu video được dự đoán chiếm 82% tổng lượng đữ liệu này.

Global Internet Growth and Trends

More More

Bi xe Faster Broadband More

kg Eas Speeds Video Viewing

Users Connections

Key Digital Transformers

By 2022

2017 i

Billion Billion Mbps

Source: Cisco VNI Global IP Traffic Forecast, 2017-2022

Hình 1.1 Dự báo tăng trưởng lưu lượng internet toàn cầu

Lượng video chiếm số lượng lớn như vậy là kết quả của nhiều yếu tố, bao

gôm:

* Su phát triển bùng né của thiết bị di động, mang xã hội và các nền tang chia

sẻ video như TIkTok, Instagram, YouTube, đã tạo nên một cuộc cách mạng

trong cách thức con người tạo ra và chia sẻ video Theo thống kê, mỗi ngày có

hon 500 giờ video được tải lên YouTube, hon | tỷ video được xem trên TikTok

và hơn 95 triệu bài đăng được chia sẻ trên Instagram.

* Sự phát triển của hệ thống camera giám sát thông minh: Các hệ thống camera giám sát có độ phân giải cao, sử dung trí tuệ nhân tao dé nhận diện khuôn

mặt, biên sô xe đang ngày càng được sử dụng rộng rãi Camera giám sát thường

Trang 12

GIỚI THIEU — PHÁT BIEU BÀI TOÁN

dùng dé ghi hình liên tục trong khoảng thời gian dài nên thường có dung lượng

lớn, dẫn đến lượng dữ liệu lưu trữ và truyền tải tăng cao.

* Ngoài ra, còn có một số yếu tố khác thúc đây sự tăng trưởng của lượng

video khổng lồ này, như: Dịch vụ streaming video và âm nhạc; Trò chơi trực tuyến

và đám mây gaming; Dịch vụ truyền hình qua Internet (IPTV).

Sự bùng nỗ lượng video nói trên dẫn đến một số khó khăn trong việc quan

lý, lưu trữ, tìm kiếm video như:

* Dung lượng lưu trữ tăng: Lượng video không 16 cần một lượng lớn dung

lượng lưu trữ, việc xây dựng và vận hành hệ thống lưu trữ video lớn đòi hỏi chi phí đầu tư và vận hành không lồ Việc quản lý và bảo trì hệ thống lưu trữ lớn cũng

trở nên phức tạp hơn.

+ _ Thời gian truy van tăng: Khi kho video ngày càng lớn, việc tìm kiếm mộtvideo cụ thé trở nên khó khăn và tốn thời gian hơn Người dùng có thé phải matnhiều phút hoặc thậm chí nhiều giờ để tìm kiếm video mong muốn, dẫn đến sựthất vọng và nản lòng Việc chờ đợi quá lâu đề truy cập video có thể ảnh hưởngtiêu cực đến trải nghiệm người dùng

» Kho khăn trong việc quản lý va phân loại dữ liệu: Việc xử lý thủ công hang

terabyte hoặc petabyte dữ liệu video là vô cùng tốn kém về thời gian và nguồn lực Dữ liệu video có thê ở nhiều định dạng, độ phân giải và nội dung khác nhau, khiến việc quản lý và phân loại trở nên phức tạp hơn.

Dé giải quyết các khó khăn trên, đòi hỏi phải có các công cụ và giải phápmới phù hợp Video Summarization (VSUM) được xem là giải pháp tiềm năng

cho vân đê này.

10

Trang 13

video gốc video tóm tắt

Hình 1.2 Video Summarization

Tóm tắt video (Video Summarization) nhằm tự động tạo ra một phiên

bản ngắn gọn hơn mà vẫn giữ được những thông tin quan trọng hoặc những

khoảnh khắc thú vi của video gôc.

Video Summarization giúp giải quyêt một sô van dé như:

* Video Summarization giúp việc lập chỉ mục và truy xuất video hiệu quả hơn băng cách tạo ra các đoạn tóm tắt ngắn gọn, thay vì phải xử lý toàn bộ nội dung đài Điều này giúp tiết kiệm thời gian và tài nguyên, nâng cao hiệu suất trong

việc tìm kiếm và truy cập video

» Cai thiện trải nghiệm người dung là một lợi ích quan trọng khác của Video

Summarization Người xem có thé nhanh chóng nam bắt nội dung chính ma khôngcần xem toàn bộ video, giúp tiết kiệm thời gian và giữ được sự hứng thú Điều

này làm giảm tỷ lệ bỏ dở và nâng cao sự hài lòng của người xem.

* Video Summarization cũng tăng cường việc tiếp cận nội dung bằng cách cung cấp các đoạn tóm tắt ngăn gọn, giúp người xem dễ dàng xem nhiều video hơn trong thời gian ngắn Điều này đặc biệt hữu ích trong các nên tảng nội dung

trực tuyến (như TikTok, Facebook, Instagram ), nơi người dùng có thể duyệt

qua nhiêu video một cách nhanh chóng và hiệu quả

Với mỗi lĩnh vực khác nhau (domain-specific applications) sẽ có các tiêu

chí khác nhau trong việc lựa chọn các khung hình quan trọng đê đưa vào bản tóm tat video Vi dụ đôi với thê thao, người xem muôn xem những khoảnh khắc quan

11

Trang 14

trọng ảnh hưởng đến kết quả của trận đấu Trong khi đó, tóm tắt video giám sátcần chứa các cảnh bất thường và đáng chú ý Cụ thể:

Full movie (e.g 1h 30’-2h) Movie trailer (2'30")

Source: https://www.youtube.com/watch?v=wb49-0VoF78

J R Smith, D Joshi, B Huet, W Hsu, and J Cota, “Harnessing A.l for Augmenting Creativity: Application to Movie Trailer Creation.” in Proc of the 25th ACM Int Conf on Multimedia, ser MM ‘17 New York, NY, USA: ACM, 2017 pp 1799-1808.

Hinh 1.3 Movie trailer

Trong lĩnh vực phim anh, việc tạo ra các bản tóm tắt video (trailer) dựa trên

một sô tiêu chí lựa chọn chính nhăm đảm bảo hiệu quả và sức hâp dân như:

* Tom lược được cốt truyện chính: Chọn các cảnh quay giới thiệu tổng quan

về cốt truyện chính của phim mà không tiết lộ quá nhiều chỉ tiết hoặc kết thúc.

- _ Nhân vật quan trọng: Bao gồm các đoạn phim giới thiệu những nhân vậtchính và mối quan hệ quan trọng giữa họ

* Cảnh hành động hoặc đỉnh điểm: Chọn những cảnh hành động gây cấn,đỉnh điểm hoặc những khoảnh khắc đặc sắc của phim

* Doan hội thoại hoặc câu thoại đáng nhớ: Chon lọc những câu thoại hay

hoặc mang tính chất gây ấn tượng

Với loại dữ liệu là video thể thao:

Trong lĩnh vực thé thao, việc tạo ra các bản tóm tắt video về các dién biễn

chính của trận đấu là một phần quan trọng dé giới thiệu và thu hút sự chú ý của

người xem, dựa trên các tiêu chí như:

» _ Tập trung vào những tình huống quyết định: Nhắn mạnh vào những khoảnh

khắc quan trọng và quyết định trong trận đấu, chăng hạn như bàn thắng, cứu thua,

12

Trang 15

hoặc các pha phòng ngự xuất sắc Điều này giúp tạo ra một đoạn tóm tắt súc tích

va hap dan, tập trung vào những điểm cốt lõi của trận dau.

Full game (e.g 1h 30’)

Source: https://www.youtube.com/watch?v=oo-2lFTiƒUU

Hinh 1.4 Game’s highlights

* Chia sẻ thông tin chi tiết về trận đấu: Ngoài việc chi tập trung vào các highlights, cần cung cấp một số thông tin chỉ tiết về trận đấu, như điểm số cuối

cùng, thống kê về các pha tan công và phòng ngự, hoặc những thông tin về các

cầu thủ nổi bật Điều này giúp người xem hiéu rõ hơn về diễn biến của trận đấu

và cảm thấy hài lòng với đoạn tóm tắt.

Các tiêu chí nay không chi làm nôi bật những khoảnh khac đáng nhớ mà con cung cap một cái nhìn toàn diện về trận đâu, giúp người xem dé dàng năm bat

được những điểm chính và tận hưởng trải nghiệm xem thể thao một cách trọn vẹn

Với loại dữ liệu là video giám sát:

Với video giám sát, các sự kiện quan trọng được xác định dựa trên một tập

hợp các tiêu chí, chăng hạn như:

* Su di chuyên của người: Đây là một tiêu chí quan trọng dé phát hiện các sự kiện bất thường, chăng hạn như trộm cắp, xâm nhập, hoặc tai nạn.

¢ Su tương tác giữa các đối tượng: Ví dụ, một hệ thống có thê phát hiện một

đám đông đông người hoặc một vụ va chạm giữa hai xe.

* Cac thay đổi bất thường: Ví dụ, một hệ thống có thé phát hiện một vật thé

lạ xuất hiện trong khung hình hoặc sự thay đôi đột ngột về ánh sảng

13

Trang 16

Raw CCTV material (e.g 24h) Summary of important actions/events (with timestamps)

Video samples extracted from: https:JIwww.youtube.com/watch?v=gk3qTMIcadk 23

Hinh 1.5 Tom tat video giam sat

1.2 Cac thách thức đôi với bài toán tóm tắt video

Tóm tắt video là một bài toán khó trong lĩnh vực thị giác máy tính Đề đạt hiệu quả tối đa, hệ thống cần phải hiểu được nội dung của video, bao gồm cả hình ảnh và âm thanh, từ đó tạo ra một bản tóm tắt ngắn gọn nhưng vẫn truyền tải được

thông tin chính của video Tuy nhiên, dé đạt được hiệu quả tóm tắt cao, can phaigiải quyết một số thách thức sau:

» Su đa dạng của các loại video: Có vô số loại video khác nhau, từ phim ảnh, chương trình truyền hình, video thé thao đến video hướng dẫn, video ghi lại sự kiện, v.v Mỗi loại video sở hữu đặc điểm và nội dung riêng biệt, đòi hỏi các

phương pháp tóm tắt phù hợp Ví dụ, tóm tắt phim điện ảnh khác với tóm tắt video

hướng dẫn

* - Kích thước và độ phức tạp: Video thường có dung lượng lớn và chứa đựng

nhiều thông tin đa dạng, bao gồm hình ảnh, âm thanh, chuyên động và văn bản

Việc xử lý và phân tích tat cả các yếu tổ này một cách hiệu quả là một thách thức

lớn đối với các mô hình tóm tắt

* Su mất mát thông tin: Quá trình tóm tắt video buộc phải lược bỏ một phần thông tin ban đầu để tạo ra bản tóm tắt ngắn gọn Việc lựa chọn thông tin nào được giữ lại và thông tin nào bị loại bỏ là một vấn đề quan trọng, ảnh hưởng đến

độ chính xác và hiệu quả của bản tóm tắt.

14

Trang 17

» - Xác định nội dung quan trọng: Xác định đâu là nội dung quan trọng trong

video là một yêu tố then chốt ảnh hưởng đến chất lượng bản tóm tắt Điều này

phụ thuộc vào nhiều yếu tố như mục đích tóm tắt, đối tượng người xem va độ daimong muốn của bản tóm tắt

Ngoài ra, tóm tắt video còn gặp phải một số thách thức khác như:

» _ Thiếu hụt dữ liệu huấn luyện: Việc thu thập và chú thích dữ liệu video chotóm tắt là một quá trình tốn kém và tốn thời gian, dẫn đến thiếu hụt dir liệu huấnluyện cho các mô hình Các bộ dữ liệu video chuẩn cho máy học đáng tin cậy hiện

nay như TVSum!"! hay SumMeP! đều là những bộ dit liệu có kích thước nhỏ và nội dung video mang tính tông quát (tập trung vào các chủ đề phô biến, ít đề cập đến các lĩnh vực chuyên môn hoặc các trường hợp cụ thé) Điều này dẫn đến các

mô hình được huấn luyện trên các tập đữ liệu này có tính khái quát thấp và khóứng dựng trong trường hợp thực tế

- Su mơ hé của ngôn ngữ tự nhiên: Việc tóm tắt nội dung video bằng ngônngữ tự nhiên đòi hỏi mô hình cần có khả năng hiéu và sử dụng ngôn ngữ một cách

chính xác và trôi chảy.

* Yéu cầu về thời gian thực: Trong một SỐ ứng dụng, việc tóm tắt video cần

được thực hiện nhanh chóng, đòi hỏi mô hình có khả năng xử lý và tóm tắt video

trong thời gian ngắn.

1.3 Framework chung cho bài toán tóm tắt video

Có nhiều phương pháp tóm tắt tự động đã được đề xuất, các phương phápgan đây tuân theo một mô hình bao gồm: dự đoán điểm quan trong (importance

score), phân đoạn video và lựa chọn đoạn video dé đưa vào bản tóm tat.

Đầu tiên, dự đoán điểm quan trọng cho mỗi khung hình trong video gốc.Thứ hai, video được chia thành các đoạn ngắn, điểm quan trọng của các đoạn

video này được tính bằng trung bình điểm quan trọng của các khung hình trong

đoạn video Cuôi cùng, tạo ra bản tóm tắt video băng cách chọn một tập con của

15

Trang 18

các đoạn video băng cách tối đa hóa các điểm quan trọng của các đoạn trong một ngưỡng ràng buộc (thường bằng 15% độ dài của video gốc — theo SumMeP)),

« Inferesfingness

«Representativeness eetc.

Hinh 1.6 Framewok chung cho bai toan tom tat video

Trong bai toán VSUM, bước dự đoán importance score cho các khung hình

trong video là bước quan trọng nhất Các bước sau dựa trên importance score đểtính toán, lựa chọn các đoạn video đưa vào bản tóm tắt

1.4 Hướng tiếp cận cho bài toán tóm tắt video dựa trên học sâu

Hướng tiếp cận chung cho bài toán tóm tắt video là sử dụng deep learning

dé dự đoán điểm quan trọng cho từng khung hình trong video Điểm quan trọng

nay giúp xác định những khung hình nào mang tính đại diện và chứa nhiều thôngtin, từ đó ưu tiên chúng cho việc tạo bản tóm tắt Các hướng tiếp cận nay sử dụng

chung một pipeline (Hình 1.7).

O bước đâu tiên, nội dung hình ảnh của video được biêu diễn băng các

vector đặc trưng Thông thường, các vector này được trích xuất ở cấp độ khung

16

Trang 19

hình, bao gồm tất cả các khung hình hoặc một tập con được chọn thông qua mộtchiến lược lay mẫu khung hình (vi dụ 2 khung hình mỗi giây) Các mạng nơ-ronđược dao tạo trước, bao gồm nhiều kiến trúc như GoogleNet (Inception VI)PÌ,

InceptionNet-V3"!, AlexNetf5!, ResNet'!, VGGnet!7! được sử dụng dé trích xuất

các vector đặc trưng từ nội dung hình ảnh của video.

Sau đó các vector đặc trưng được sử dụng bởi một mạng tóm tắt sâu (deep summarizer network), được huấn luyện thông qua việc cố găng giảm thiêu hàm mat mát (loss function) dé tạo ra chuỗi importance socre cho mỗi khung hình.

Sampled Feature Vectors Selected Frames bial karate

Hình 1.7 Pipeline chung cho bài toán VSUM dựa trên deep learning

Kết quả của mạng tóm tat sâu (deep summarizer network) đã được huấnluyện có thê là một tập hợp các khung hình được chọn (key-frames) tạo thành một

17

Trang 20

storyboard video tĩnh, hoặc là một tập hợp các đoạn video được chọn

(key-fragments) được nối với nhau theo thứ tự thời gian và tạo thành một video skimngắn Đối với storyboard video được tạo ra, nó nên tương tự với các tập hợp của

các key-frames mà con người sẽ chọn và phải thé hiện sự trùng lặp hình ảnh tối thiêu Đối với video skim được tạo ra, thi thường nên có độ dài bằng hoặc ít hơn một độ dài được xác định trước L Với mục đích thử nghiệm và so sánh, điều này

thường được đặt là L = p - T, trong đó T là thời lượng video và p là tỷ lệ của tóm

tắt đến thời lượng video; p = 0.15 là một giá trị điển hình, trong trường hợp này

tóm tắt không nên vượt quá 15% thời lượng ban đầu của video

Dựa trên việc phân đoạn video (segmentation) và các điểm quan trọng của

các khung hình (frames’ importance scores) được ước tính bởi deep summarizer

network đã được huấn luyện, các điểm quan trọng ở mức độ đoạn video

(video-segment-level importance scores) được tinh bằng cách lay trung bình của các điểm

quan trọng của các khung hình trong mỗi đoạn video Những điểm số ở mức độ

đoạn (segment-level scores) này sau đó được sử dụng dé chọn ra các đoạn video quan trọng phù hợp với độ dài tóm tắt L.

Đôi với các nghiên cứu về bai toán tóm tat video dựa trên học sâu, có thê

phân chia chúng thành các hướng chính như sau:

(1) Học tầm quan trọng của khung hình bằng cách mô hình hóa sự phụ thuộc

thời gian giữa các khung hình (temporal dependency)

Có thê chia cách tiếp cận này thành hai nhóm Nhóm các phương pháp dựatrên mạng LSTM và nhóm các phương pháp dựa trên cơ chế chú ý (attention

mechanism)

Nhóm các phương pháp dựa trên mạng LSTM và RNN: Dé mô hình

hóa sự phụ thuộc theo thời gian giữa các khung hình, sau đó sử dụng một mô hình

khác để dự đoán điểm quan trọng cho từng khung hình Một số phương pháp có thê kế đến như:

18

Trang 21

Zhang et al (2016)"!: Sử dụng mạng LSTM dé mô hình hóa sự phụ thuộcthời gian giữa các khung hình video Sử dụng mạng perceptron đa tầng (MLP) dé

ước tính độ quan trọng của các khung hình.

Zhao et al (2017): Mô tả một kiến trúc LSTM hai lớp Lớp đầu tiên trích

xuất và mã hóa đữ liệu về cấu trúc video Lớp thứ hai sử dụng thông tin này để

ước lượng mức quan trọng ở mức đoạn và chọn ra các đoạn quan trọng của video.

Frame importance scores according to users

Hình 1.8 Mô hình hóa sự phụ thuộc thời gian giữa các khung hình

Nhóm các phương pháp dựa trên cơ chế chú ý (attention mechanism): Các phương pháp này sử dụng cơ chế chú ý từ thuật toán Transformer để mô

phỏng sự thay đổi quan tâm của người dùng theo thời gian, sau đó sử dụng một

mô hình khác để ước tính độ quan trọng của từng khung hình Một số phương

pháp đại diện nồi bật:

19

Trang 22

Fajtl et al (2019): Sử dụng cơ chế tự chú ý mềm (soft, self-attention) vàmột mạng fully connected hai lớp để dự đoán điểm quan trọng của các khung

hình.

Liu et al (2019)!"7!: Mô tả một phương pháp phân cấp kết hợp một kiến trúc

generator-discriminator dé ước lượng tinh dai diện của mỗi shot va xác định một

tập hợp các khung hình ứng cử viên Sau đó, sử dụng một mô hình chú ý đa đầu(multi-head attention) để đánh giá sự quan trọng của ứng cử viên và chọn ra cáckhung hình quan trọng đề tạo thành bản tóm tắt

Wang et al (2019)1°!: Xếp chồng nhiều lớp LSTM va lớp bộ nhớ theo cấp bậc dé rút trích bối cảnh thời gian dài hạn, và sử dụng thông tin này dé ước lượng

mức quan trọng của các khung hình.

(2) Học tầm quan trọng của khung hình bằng cách lập mô hình hóa cấu trúc

không gian - thời gian của video (spatialtemporal structure)

Nhóm phương pháp này chú ý đến cả mối quan hệ không gian và thời gian

giữa các khung hình để đánh giá tầm quan trọng của chúng Bên cạnh trình tự

khung hình và dữ liệu đánh giá mức độ quan trọng từ người dùng, hệ thống tómtắt cũng phân tích các tương quan không gian-thời gian giữa các khung hình Cácđiểm quan trong (important score) dự đoán sau đó được so sánh với dir liệu thực

tế dé điều chỉnh quá trình huấn luyện Ưu điểm là tận dụng thông tin phong phú

hơn về video, giúp đưa ra dự đoán tầm quan trọng của khung hình chính xác hơn,

có thê xử ly video dai tốt hơn nhưng tính toán phức tạp hơn

Tiêu biểu là MerryGoRoundNet''4! sử dụng kiến trúc mã hóa-giải mã với

LSTM convolution, hay Video Summarization With Spatiotemporal Vision

Transformer (STVT)"'5! kết hợp mang CNN và co chế chú ý của thuận toánTransformer dé mô hình mối quan hệ không gian-thời gian giữa các phan của

video.

20

Trang 23

Summarizer

(Estimates frames’

importance by modeling the

temporal or spatiotemporal dependency among frames)

Predicted

importance scores.

Video frames

Frame importance scores according to users

Hình 1.9 Mô hình hóa su phụ thuộc không gian - thời gian cua video

(3) Học cách tóm tắt bang cách đánh lừa bộ phân biệt đối xử (discriminator)

Hướng nghiên cứu này sử dụng mạng đối nghịch tạo sinh (GenerativeAdversarial Network - GAN)''*! đề thu hẹp khoảng cách giữa bản tóm tắt đượctạo bởi máy và bản tóm tắt của người dùng Trong phương pháp nay, hệ thốngtóm tắt (Generator) lay chuỗi khung hình video làm đầu vào và dự đoán độ quantrong của từng khung hình, có gắng đánh lừa bộ phân biệt, khiến nó không thé

phân biệt giữa tóm tắt của máy và của người dùng Cùng với tóm tắt tối ưu được

người dùng đánh gia (user summaries), những dự đoán này được đưa vào bộ phân

biệt (discriminator) dé đánh giá mức độ giống nhau giữa chúng.

21

Trang 24

Khi bộ phân biệt không còn phân biệt chính xác được hai loại tóm tắt, nghĩa

là hệ thống tóm tắt đã tạo ra được tóm tắt video gần gũi với mong muốn của ngườidùng Tuy nhiên, sức mạnh của GAN hạn chế trong lĩnh vực tóm tắt video có

giám sát (supervised video Summarization), trong khi được thể hiện hiếu suất cao

và sử dụng rộng rãi trong tóm tắt video không có giám sát (unsupervised video

summarization).

Một số nghiên cứu nôi bật trong hướng nghiên cứu nay là Fu et al (2019)171

và Zhang et al (2019)3l,

Nhan xét:

Nhu đã trình bày trong phan /.3 Framework chung cho bài toán Video

Summarizion, phần quan trọng nhất trong bai toán VSUM là việc dự đoán

importance score cho từng khung hình Các phương pháp trước đây thường sử dụng mạng nơ-ron tích chập (như CNNs, DCNNs) và các mô hình deep learning

phức tạp dé trích xuất đặc trưng và dự đoán importance score, các đặc trưng này

thường rất chung và tổng quát (generic) Các mô hình deep learning thường yêucầu một lượng dit liệu lớn dé có thé hoc được các đặc trưng phức tạp và tránh hiệntượng quá khớp (overfitting) Mặc dù các phương pháp này đạt hiệu suất cao trên

22

Trang 25

các bộ dữ liệu lớn, nhưng lại gặp khó khăn khi áp dụng cho các bộ dữ liệu nhỏ và đặc thù.

Câu hỏi nghiên cứu được đặt ra ở đây là: /iệu việc trích xuất các đặc trưng cụ thể (specific) (như phát hiện đám đông, phát hiện bắt thường ) trên một

bộ dữ liệu nhỏ, thay vì sử dụng các mô hình deep learning phúc tạp, sẽ mang lại

hiệu quả như thế nào trong bài toán tóm tắt video?

1.5 Phát biểu bài toán

Dựa trên các tiêu chí khi lựa chọn khung hình dé đưa vào bản tóm tắt đượctrình bày ở trên cũng như câu hỏi nghiên cứu được đặt ra, luận văn đề xuất một

phương pháp tóm tắt video dựa trên phân tích sự kiện quan trọng nhằm khai thác tối đa các đặc trưng của video giám sát.

Hệ thống tạo bản tóm tắt video sẽ phân tích video đầu vào và tạo ra các

đoạn video ngắn, mỗi đoạn chứa các sự kiện quan trọng Các sự kiện quan trọng

được xác định dựa trên một tập hợp các tiêu chí, chăng hạn như:

e Sự di chuyên của người: Đây là một tiêu chí quan trọng dé phát hiện các sự kiện bắt thường, chăng hạn như trộm cắp, xâm nhập, hoặc tai nạn.

e Sự tương tác giữa các đối tượng: Ví dụ, một hệ thống có thé phát hiện một

đám đông đông người hoặc một vụ va chạm giữa hai xe.

e_ Các thay đổi bất thường: Vi dụ, một hệ thống có thé phát hiện một vật thé

lạ xuất hiện trong khung hình hoặc sự thay đôi đột ngột về ánh sang

23

Trang 26

1.6 Mô hình đề xuất

Mô hình tổng quan:

extract linear enevate

> segments / > classifier > regression >| be >|

extract extract v saliency „| » Heny — Ñ importance generate

* segments > frames *) detector score be score "summary ”

m anomalyái scodetector anomaly

ground |

>) annotation ~ “truth |

Hình 1.13 Mô hình chi tiết bai toán tóm tắt video giám sát

1.7 Mục tiêu của đề tài

Mục tiêu tổng quát:

Xây dựng hệ thống tự động tạo bản tóm tắt video dựa trên phân tích và nhận diện các sự kiện quan trọng trong video, tập trung vảo sự di chuyển của người, sự tương tác giữa các đối tượng, và các thay đổi bat thường.

Mục tiêu cụ thể:

» - Xây dựng bộ dữ liệu từ video giám sat (surveillance dataset)

* Trich xuất các đặc trưng phát hiện đám đông (đếm đám đông): crowd

feature, phát hiện bất thường: anomaly feature, phát hiện độ nổi bật: saliency feature băng các pre-trained model.

* Huan luyện mô hình Linear Regression với 6 tham số trên cơ sở kết hợp 3đặc trưng đã được trích xuất ở trên — gọi chung là CAS feature

24

Trang 27

° Tiến hành các thực nghiệm sử dụng InceptionNet-V3 feature và CASfeature trên các model như VASNet, Linear Regression dé đánh giá mức độ hiệuquả của đặc trưng CAS trong tóm tắt video giám sát

1.8 Phạm vi của đề tài

Dé giảm bớt độ phức tạp cho bài toán, học viên giới hạn phạm vi của đề tài

ở một sô điêm cụ thê như sau:

* _ Xây dựng bản tóm tắt video trên dữ liệu video giám sát

» - Xây dựng một bộ dữ liệu trên tập các video clip trích xuất từ các hệ thống

camera giám sat, camera hành trình giao thông.

* Cac video clip này được thu thập từ YouTube, có độ dai từ 1 phút đến 5

phút.

* Cac video clip này có một trong các sự kiện như: bao lực, trộm cắp, đông

người, tai nan giao thông

1.9 Đóng góp của luận van

Qua quá trình nghiên cứu và thực nghiệm, học viên đã thực hiện các nội

dung sau:

* - Xây dựng được bộ dé liệu huấn luyện cho bai toán

* - Đánh giá mức độ hiệu quả của đặc trưng CAS trong tóm tắt video giám sat

1.10 Cấu trúc của luận văn

Với các mục tiêu trên, luận văn sẽ tổ chức với 06 chương với các nội dung:

e Chương 1: Giới thiệu và phát biểu bài toán

e Chương 2: Cơ sở lý thuyết

e Chương 3: Các nghiên cứu liên quan

e Chương 4: Xây dựng bộ dữ liệu

e Chương 5: Thực nghiệm

e Chương 6: Tổng kết và hướng phát triển

25

Trang 28

CƠ SỞ LÝ THUYET

CHƯƠNG2: CƠ SỞ LÝ THUYET

2.1 Mô tả bài toán tóm tắt video

Tóm tắt video (video summarization): Là kỹ thuật tổng hợp một video thành

một phiên bản ngắn gọn hơn mà vẫn giữ được những thông tin quan trọng hoặcnhững khoảnh khắc thú vị của video gốc

Đâu vào của bài toán là một đoạn video (một chuôi các khung hình liên tiêp

nhau).

Đầu ra là một phiên bản tóm tắt của video gốc, bản tóm tắt này có thể ở

dang tinh (static summary) hoặc dang động (dynamic summary).

2.2 Tóm tat dạng tĩnh

Là bản tóm tắt được tạo ra bằng cách sử dụng các yếu tố không thay đổitheo thời gian như hình ảnh đứng yên và văn ban Một dang pho biến của static

summarization là storyboard, trong đó các keyframes (khung hình chính) được

chọn đê đại diện cho các phân quan trọng của video gôc.

Ưu điểm của static summarization là khả năng linh hoạt, cho phép sắp xếpcác thành phần tĩnh dé làm nồi bật cấu trúc của nội dung video và tạo ra một tóm

tắt có thể xem nhanh Tuy nhiên, đối với các video có chuyên động phức tạp, phương pháp tóm tắt tĩnh có thé bỏ lỡ các chỉ tiết quan trọng và không thé hiện được đầy đủ tính động của video.

Uu điêm của dynamic summarization là khả năng bao quát các chi tiết động

trong video gốc, tạo ra một tóm tắt sôi động và thú vị hơn Tuy nhiên, việc xử lý

26

Trang 29

CƠ SỞ LÝ THUYET

video động có thé đòi hỏi nhiều tài nguyên tính toán hơn và có thé gặp phải thách

thức trong việc duy trì tính nhất quán của tóm tắt

2.4 Mô hình trích xuất đặc trưng

Trích xuất đặc trưng là một bước quan trọng trong xử lý ảnh và thị giác

máy tính Nó giúp chuyên đổi hình ảnh từ dạng thô sang dạng biểu diễn có thé sử

dụng cho các nhiệm vụ như phân loại ảnh, phát hiện đối tượng và nhận dạng khuôn

mặt Trong những năm gần đây, các mạng nơ-ron tích chập (CNN) đã nổi lên nhưmột phương pháp trích xuất đặc trưng hiệu quả và mạnh mẽ

InceptionNet-v3"“! là ví dụ nổi bật về kiến trúc CNN được sử dụng cho việctrích xuất đặc trưng, là phiên bản cải tiến của InceptionNet được Google phát triển

và giới thiệu năm 2015 Kiến trúc này tiếp tục sử dụng mô-đun Inception nhưng

có một số thay đôi đề cải thiện hiệu suất và hiệu quả.

Cấu trúc của InceptionNet-v3

Mô-đun Inception v3:

Giảm số lượng tham số so với Inception v2 bằng cách sử dụng bộ loc 1x1

để giảm kích thước đữ liệu trước khi xử lý bởi các nhánh khác

Sử dụng bộ lọc 3x3 có kích thước đầu ra được giảm bớt.

Trang 30

CƠ SỞ LÝ THUYET

* Sử dụng các lớp pooling tối đa dé giảm kích thước dit liệu đầu vào trướckhi đưa vào lớp fully connected cuối cùng

* Lớp fully connected: Sử dụng một lớp fully connected với 1505 đầu ra

dé phân loại 1000 lớp trong ImageNet

Ưu điểm của InceptionNet-v3

Hiệu suất cao: InceptionNet-v3 đạt được độ chính xác cao hơn GoogLeNettrong ImageNet với cùng số lượng tham số

Hiệu qua tính toán: InceptionNet-v3 có hiệu quả tính toán cao hơn

GoogLeNet.

Kha năng khái quát hóa tốt: InceptionNet-v3 có khả năng khái quát hóa tốt,

nghĩa là có thé hoạt động tốt trên các tập dữ liệu mới mà không cần dao tạo lại.

Ứng dụng của InceptionNet-v3

InceptionNet-v3 được sử dụng rộng rãi trong các ứng dụng xử lý ảnh va thi

giác máy tinh, bao gồm:

¢ Phân loại anh: InceptionNet-v3 có thể được sử dụng dé phan loai anh

thành các lớp khác nhau, chăng hạn như động vật, phương tiện giao thông, đồ nộithất, v.v

* Phat hiện đối tượng: InceptionNet-v3 có thé được sử dụng dé phat hién

các đối tượng trong anh, chăng han như người, 6 tô, xe máy, v.v

¢ Nhận dạng khuôn mặt: InceptionNet-v3 có thé được sử dụng để nhận

dạng khuôn mặt trong ảnh.

2.5 Bộ dữ liệu

Bộ đữ liệu (dataset) là một thành phần quan trọng trong việc phát triển và

đánh giá các phương pháp tóm tắt video Xây dựng một bộ dữ liệu cho tóm tắt

video không phải là một công việc đơn giản.

Dé xây dựng một bộ dữ liệu cho tóm tắt video, các yếu tố sau đây thường

được xem xét:

28

Trang 31

CƠ SỞ LÝ THUYET

(1) Loại hình dữ liệu: Quyết định về loại hình đữ liệu cần được gán nhãn,

có thể là video day đủ, video phân đoạn, keyframes (khung hình quan trọng), hoặc

các đặc điểm khác của video như sự kiện quan trọng, đối tượng xuất hiện, hoặc

ngữ cảnh.

(2) Phạm vi của dữ liệu: Xác định phạm vi của dữ liệu, bao gồm số lượng

video, thời lượng của mỗi video, độ phức tạp của nội dung, và độ đa dạng

(3) Phương pháp thu thập dữ liệu: Quyết định cách thu thập dữ liệu, baogom việc tìm kiếm va tải xuống từ nguồn công khai, sử dụng dich vụ trực tuyến,

hoặc thu thập từ các nguôn cụ thê hoặc điêu kiện kiêm soát.

(4) Quy trình gán nhãn: Xác định quy trình dé gan nhãn dit liệu, bao gomviệc xác định các yếu tô quan trong cần ghi chú và các phương pháp gan nhãn thủ

công hoặc tự động.

(5) Đánh giá và chuẩn đoán: Phát trién các tiêu chí đánh giá và phương

pháp dé đo lường hiệu suất của các phương pháp tóm tắt video dựa trên dit liệu

được thu thập.

(6) Phân phối và sử dụng: Xác định cách phân phối và sử dụng bộ dữ liệu,

bao gồm việc cung cấp cho cộng đồng nghiên cứu thông qua các nền tảng mở và

sử dụng trong các cuộc thi hoặc dự án nghiên cứu.

Quá trình xây dựng một bộ dữ liệu cho tóm tắt video đòi hỏi sự cân nhắc

kỹ lưỡng và quản lý chặt chẽ từ việc lựa chọn dữ liệu đến việc thu thập, gán nhãn

và đánh giá.

Bốn bộ dữ liệu pho biến được sử dụng hiện nay cho bài toán tóm tắt video

là SumMe?!, TVSuml!l OVPI”! và Youtubel”?!,

Bộ dữ | Số | Thời Nội dung video Loại chú thích | Số lượng

liệu lượng | lượng chú thích

video

29

Trang 32

TVSum | 50 |2-10|Timn tức, phim tài | multiple 20

liệu,Tin tức, phim tải

fragment-liệu, hướng dẫn, video level

do người dùng tạo

scores

OVP 50 1-4 | Phim tài liệu, lịch sử, | multiple sets 5

giao duc, bai giang of

Bảng 2.1 Đặc điểm các bộ dữ liệu phổ biến trong lĩnh vực VSUM

SumMe bao gồm 25 video có độ dài từ 1 đến 6 phút, với nội dung video đa dạng, được ghi lại từ cả quan điểm người thứ nhất và thứ ba Mỗi video đã được

15 đến 18 người dùng chú thích dưới dạng các đoạn chính (key-fragments), và do

đó liên kết với nhiều tóm tắt người dùng ở mức đoạn (fragment-level) với độ dai

từ 5% đến 15% so với thời lượng video ban đầu.

30

Trang 33

CƠ SỞ LÝ THUYET

TVSum gồm 50 video có độ dài từ 1 đến 11 phút, chứa nội dung video từ

10 danh mục của bộ dir liệu TRECVid MED Các video TVSum đã được 20 người

dùng chú thích đưới dạng điểm quan trọng ở mức cảnh và mức khung hình

(shot-and frame-level importance scores) (từ 1 đến 5) Trong TVSum điểm quan trong

(importance score) được gán cho mỗi segment 2 giây

OVP và Youtube đều chứa 50 video, các chú thích của chúng là tập hợp

các khung hình chính (key-frames), được tạo ra bởi 5 người dùng Thời lượng

video dao động từ 1 đến 4 phút cho OVP và từ 1 đến 10 phút cho Youtube Cả hai

bộ dữ liệu đều bao gồm các video với nội dung đa dạng như tải liệu, giáo dục,

ngắn hạn, lịch sử và video bài giảng (bộ dữ liệu OVP), cũng như phim hoạt hình,tin tức, thể thao, quảng cáo, chương trình truyền hình và video gia đình (bộ dữ

liệu Youtube).

2.6 Đánh giá

Phương pháp đánh giá (evaluation)!?°! là yêu tố quan trọng dé hiéu về hiệu suất của các hệ thống tóm tat video và dé đo lường sự tiến bộ của các phương pháp mới so với các phương pháp hiện có Tuy nhiên, việc đánh giá tóm tắt video không phải là điều đơn giản Khác biệt so với các nhiệm vụ thị giác khác như phân

loại hình ảnh hoặc phát hiện đối tượng, sự ton tại của các tóm tắt tham chiếu không

rõ ràng Một video có thê dẫn đến các tóm tắt video khác nhau mà tất cả đều đượcchấp nhận, và việc liệt kê tat cả các tóm tắt có thé không kha thi

(1) Danh giá thủ công

Phương pháp đánh giá thủ công (manual evaluation) được sử dụng rộng rãi

đặc biệt là trong các công việc đầu tiên trong lĩnh vực này Nghiên cứu ngườidùng là một lựa chọn đơn giản nhưng hữu ích dé đánh giá các tóm tắt video đượctạo ra Trong một nghiên cứu người dùng tiêu chuẩn, người dùng được hiển thị

với các tóm tắt video và được yêu cầu đánh giá chất lượng của tóm tắt Nghiên cứu người dùng cho phép điều tra các thuộc tính phức tạp của các tóm tắt mà khó

có thé đo lường bằng các phương pháp khách quan, ví dụ như tính thẩm my và

31

Trang 34

CƠ SỞ LÝ THUYET

tính hiểu biết về câu chuyện Nhiệm vụ tóm tắt video của TRECVid đánh giá chất

lượng của các tóm tắt video một cách thủ công Các annotators xem các tom tắt video đã gửi va mức độ hiểu biết của họ được kiểm tra bằng cách đặt câu hỏi về nội dung Giao thức đánh giá này dựa trên giả định rằng một tóm tắt tốt nên truyền đạt câu chuyện của video gốc trong khi loại bỏ các cảnh ít quan trọng hơn Mặc

dù một nghiên cứu người dùng có thể điều tra các thuộc tính quan trọng của các tóm tắt video, thiết lập một nghiên cứu người dùng là tốn kém và khó khăn Ngoài

ra, việc đánh giá khó tái tạo và gặp vấn đề đặc biệt trong việc so sánh các hệ thong

khac nhau.

(2) Danh gia định lượng

Đánh giá định lượng (quantitative evaluation) đã trở nên phổ biến trong

những năm gần đây do tính thuận tiện của việc không cần thiết lập các nghiên cứungười dùng công phu Điều này cũng là do cộng đồng nghiên cứu ngày càng tậptrung nhiều hơn vào việc so sánh số liệu với các phương pháp hiện có Một chiếnlược pho biến cho đánh giá định lượng là so sánh các tóm tắt được tạo ra với cáctóm tắt tham chiếu VSUMM (Avila et al., 201 1)!”7! thu thập các keyframe tham

chiếu bằng cách sử dụng nhiều người chú giải cho mỗi video và đề xuất đánh giá việc trích xuất keyframe bằng cách so sánh các keyframe được tạo ra bởi hệ thống với các keyframe tham chiếu Chất lượng của việc trích xuất tự động được đánh giá bằng cách tính độ tương đồng hình ảnh với các keyframe được chọn thủ công 2.7 Chỉ số đánh giá tong hợp

Chi số đánh giá tổng hợp (F1-Score) thường được sử dụng trong tóm tat

video để đo lường sự tương đồng giữa các tóm tắt được tạo ra và các tóm tắt tham chiếu F1-score là một chỉ số dựa trên độ chính xác (precision) và độ phủ (recall) Precision đo lường độ chính xác của bản tóm tắt, trong khi recall đo lường độ đầy

đủ của bản tóm tắt.

Công thức tính F1-Score

32

Trang 35

CƠ SỞ LÝ THUYET

precision x recall F-score = 2 x —

precision + recall

true positive retrieved and relevant frames

+ false positive _ all retrieved frames

tme positive retneved and relevant frames

true positive + false negative — all relevant frames

Ground-truth

mmướh TT Me =-¬

BH nan mm mmmmanmam|

recall =

True Positives là số lượng trường hop mà cả hai hệ thống (tóm tat tự động

và tóm tắt do người tạo) đều xác định là quan trọng False Positives là số lượng trường hợp mà tóm tắt tự động xác định là quan trọng nhưng tóm tắt do người tạo

không xác định là quan trọng False Negatives là số lượng trường hợp mà tóm tắt

tự động không xác định là quan trọng nhưng tóm tắt do người tạo xác định là quan

trọng.

F1-score kết hợp cả độ chính xác và độ phủ dé cung cấp một đánh giá cân băng về hiệu suất của hệ thống tóm tắt video Chỉ số này rất hữu ích khi cần đánh giá sự cân đối giữa việc chọn đúng các khung hình quan trọng (precision) và việc bao phủ đầy đủ các khung hình quan trọng thực tế (recall).

33

Trang 36

CÁC NGHIÊN CỨU LIÊN QUAN

CHƯƠNG3: CÁC NGHIÊN CỨU LIÊN QUAN

3.1 Tóm tắt video với cơ chế chú ý

3.1.1 Giới thiệu

Tóm tắt video dựa trên cơ chế chú ý - VASNet được giới thiệu vào năm

2018 của nhóm tac gia Jiri Fajtl, Hajar Sadeghi Sokeh, Vasileios Argyriou, Dorothy Monekosso va Paolo Remagnino, trong bai bao “Summarizing Videos

with Attention”''!, VASNet được dé xuất cho việc tom tắt video dựa trên keyshot được giám sát, sử dụng cơ chế soft self-attention.

Thay vì sử dụng mạng nơ-ron hai chiều BiLSTM kết hợp với cơ chế chú ý

như các phương pháp tiên tiến khác, VASNet sử dụng cơ chế tự chú ý attention) để xác định tầm quan trọng của từng khung hình trong video.

(self-[ set ah Network i

Regressor Network :

Frame Score

VASNet cho hiệu qua tính toán cao va dạt được kết quả vượt trội so với các

phương pháp trước đây trên các bộ dữ liệu đánh giá phổ biến như TVSum!" và

SumMe!! do toàn bộ quá trình chuyên đổi chuỗi sang chuỗi (sequence to sequencetransformation) chỉ trong một lần truyền trực tiếp (feed forward) và một lần truyền

ngược (backward) trong quá trình huấn luyện.

34

Trang 37

3.1.2 Mô tả phương pháp

Cách tiếp cận phổ biến cho việc tóm tắt video được giám sát và các biến

đổi từ chuỗi sang chuỗi khác là áp dụng một mạng mã hóa-giải mã LSTM hoặcGRU với chú ý LSTM chuyền tiếp thường được thay thé bằng BiLSTM hai chiều

vì các keyshots trong tóm tắt có liên quan đến các khung hình video trong tươnglai Khác với các mạng dựa trên RNN, VASNet không cần phải sử dụng các kỹ

thuật đặc biệt, như BiLSTM, dé đạt được hành vi không gian thời không gian

(non-causal).

Trạng thái ân được truyền từ bộ mã hóa đến bộ giải mã luôn có độ dài cốđịnh, tuy nhiên, nó cần mã hóa thông tin đại diện cho các chuỗi có độ dài biến

thiên Điều này có nghĩa là có mat mát thông tin cao hơn đối với các chuỗi dai

hơn Cơ chế chú ý được đề xuất không gặp phải mất mát như vậy vì nó truy cập

trực tiếp vào chuỗi đầu vào mà không cần một lớp nhúng trung gian.

Kiến trúc được dé xuất trong VASNet hoàn toàn thay thé mang mã hóa-giải

mã LSTM (LSTM encoder-decoder) bằng cơ chế tự chú ý mềm (soft,

self-attention) và một mạng kết nối đầy đủ hai lớp (two layer, fully connected network)cho việc hồi quy điểm quan trọng của khung hình (frame importance score)

VASNet nhận vào một chuỗi đầu vào X = (Xo, Xn); X € RP và tạo ra một chuỗi đầu ra Y = (yo, y); y €[0; 1), cả hai đều có độ dài N Đầu vao là một chuỗi các vector đặc trưng CNN với kích thước D, được trích xuất cho mỗi khung hình.

Hình 5 hién thị toàn bộ mang chi tiết

Trọng số chú ý

Trọng số tự chú ý (self-attention weight) chưa chuẩn hóa e,¡ được tính nhưmột sự liên kết giữa đặc trưng đầu vào x; và toàn bộ chuỗi đầu vào theo phươngpháp được đề xuất bởi Luong và cộng sự !?!!, Công thức được biêu diễn như sau:

e,; = 8 |(Uz;)'(Vz,)| t=[0,N), i=([0,N)

35

Trang 38

Ễ t f x f

Hình 3.2 Mô hình VASNet chỉ tiết

Trong đó, N là số lượng khung hình video, U và V là các ma trận trọng số

của mạng được tối ưu hóa trong quá trình huấn luyện và s là tham số tỉ lệ (được thiết lập băng 0.06) dé giảm giá trị của tích vô hướng giữa Ux; và Vx; Ảnh hưởng của tham số tỉ lệ lên hiệu suất mô hình là không đáng kê Ngoài ra, vector chú ý

cũng có thể được thực hiện bằng một hàm cộng như đã chỉ ra bởi Bahdanou và

cộng su",

€.; = M tanh(Uz; + Vz;)

Với M là các trọng số mang bồ sung được học trong quá trình huấn luyện.

Cả hai công thức đều cho hiệu suất tương tự, tuy nhiên, công thức nhân dé dàng

song song hóa hơn vì nó có thê được triển khai hoàn toàn đưới dạng nhân ma trận,

điều này có thê được tối ưu hóa cao Vector chú ý e, sau đó được chuyên đôi thành

trọng sô chú ý ơ; với hàm softmax.

36

Tiêu đề	Hệ thống tự động tạo bản tóm tắt video dựa trên phân tích sự kiện quan trọng
Tác giả	Nguyễn Hữu Thái
Người hướng dẫn	PGS.TS. Lê Đình Duy
Trường học	Đại học Quốc gia Thành phố Hồ Chí Minh
Chuyên ngành	Khoa học máy tính
Thể loại	Luận văn thạc sĩ
Năm xuất bản	2024
Thành phố	Thành phố Hồ Chí Minh

Định dạng
Số trang	76
Dung lượng	49,45 MB