Muốn dat được hiéu quả tối da, bài toán này yêu cầu hệ thống phải hiểu nội dung của video, bao gồm cả nội dung của hình ảnh và âm thanh, sau đó tạo ra một bản tóm tắt văn bản ngắn gọn, s
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRUONG DAI HOC CONG NGHE THONG TIN
KHOA KHOA HOC MAY TÍNH
LE NHAT HUY
KHOA LUAN TOT NGHIEP
SURVEILLANCE VIDEO SUMMARIZATION USING THE
TRANSFORMER APPROACH
CU NHAN NGANH KHOA HOC TAI NANG
TP HO CHi MINH, 2024
Trang 2ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRUONG DAI HOC CONG NGHE THONG TIN
KHOA KHOA HỌC MAY TÍNH
LE NHẬT HUY - 20520056
KHOA LUAN TOT NGHIEP
TOM TAT VIDEO GIAM SAT SU DUNG CACH TIEP
CAN TRANSFORMER
SURVEILLANCE VIDEO SUMMARIZATION USING THE
TRANSFORMER APPROACH
CU NHÂN NGANH KHOA HỌC MAY TÍNH
GIANG VIEN HUONG DAN
PGS TS LE DINH DUY
TP HO CHi MINH, 2024
Trang 3DANH SÁCH HỘI ĐÒNG BẢO VỆ KHÓA LUẬN
Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số NĐẦY của Hiệu trưởng Trường Dai học Công nghệ Thông tin.
1 TS Ngô Đức Thành — Chủ tịch.
2 ThS Nguyễn Thanh Sơn — Thư ký.
3 TS Mai Tiến Dũng — Ủy viên.
Trang 4ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc CÔNG NGHỆ THÔNG TIN
TP HCM, ngày tháng năm
NHẬN XÉT KHÓA LUẬN TỐT NGHIỆP
(CUA CÁN BỘ HƯỚNG DAN)
Tên khóa luận:
TÓM TẮT VIDEO GIÁM SÁT SỬ DỤNG CÁCH TIẾP CẬN TRANSFORMER
Nhóm SV thực hiện: Cán bộ hướng dẫn/phản biện:
Lê Nhật Huy - 20520056 PGS TS Lê Đình Duy
Đánh giá Khóa luận
1 Về cuốn báo cáo:
Số trang _ Số chương
Số bảng số liệu Số hình vẽ
Số tài liệu tham khảo Sản phẩm
Một số nhận xét về hình thức cuốn báo cáo:
3 Về chương trình ứng dung:
Trang 5Đánh giá chung: Khóa luận đạt/không đạt yêu cầu của một khóa luận tốt nghiệp kỹ sư/ cử
nhân, xếp loại Giỏi/ Khá/ Trung bình
Điểm từng sinh viên:
Lê Nhật Huy /10
Người nhận xét
(Ký tên và ghi rõ họ tên)
Trang 6ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc CÔNG NGHỆ THÔNG TIN
TP HCM, ngày tháng năm
NHẬN XÉT KHÓA LUẬN TỐT NGHIỆP
(CUA CAN BO PHAN BIEN)
Tên khóa luận:
TÓM TẮT VIDEO GIÁM SÁT SỬ DỤNG CÁCH TIẾP CẬN TRANSFORMER
Nhóm SV thực hiện: Cán bộ hướng dẫn/phản biện:
Lê Nhật Huy - 20520056 PGS TS Lê Đình Duy
Đánh giá Khóa luận
1 Về cuốn báo cáo:
Số trang _ Số chương
Số bảng số liệu Số hình vẽ
Số tài liệu tham khảo Sản phẩm
Một số nhận xét về hình thức cuốn báo cáo:
3 Về chương trình ứng dung:
Trang 7Đánh giá chung: Khóa luận đạt/không đạt yêu cầu của một khóa luận tốt nghiệp kỹ sư/ cử
nhân, xếp loại Giỏi/ Khá/ Trung bình
Điểm từng sinh viên:
Lê Nhật Huy /10
Người nhận xét
(Ký tên và ghi rõ họ tên)
Trang 8Lời cảm ơn
Tôi xin gửi lời cảm ơn chân thành nhất đến PGS TS Lê Đình Duy, người
đã tận tình hướng dẫn, chỉ bảo và giúp đỡ tôi trong suốt quá trình thực hiện
khóa luận tốt nghiệp này Sự hướng dẫn của thầy đã giúp tôi vượt qua nhữngkhó khăn và hoàn thành khóa luận một cách tốt đẹp
Tôi cũng xin gửi lời cảm ơn sâu sắc đến tất cả quý thay, cô trong KhoaKhoa học Máy tính, trường Dai học Công nghệ Thông tin - Dai học Quốc giaThành phố Hồ Chí Minh Sự giảng day tận tâm và truyền đạt kiến thức quý
báu của quý thay, cô đã giúp tôi có được nền tảng vững chắc về lĩnh vực khoa
học máy tính.
Bên cạnh đó, tôi cũng xin gửi lời cảm ơn đến gia đình, bạn bè đã luôn ủng
hộ và động viên tôi trong suốt quá trình học tập và nghiên cứu
Khóa luận tốt nghiệp này là kết quả của sự nỗ lực của bản thân tôi, cũngnhư sự giúp đỡ của quý thay, cô và gia đình Tôi xin chân thành cảm ơn tat cảnhững người đã góp phần vào thành công của khóa luận này
Trang 9ĐẠI HỌC QUOC GIA TP HO CHÍMINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIET NAM
TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc
CÔNG NGHỆ THÔNG TIN ——————
DE CUONG CHI TIẾT
Tén dé tai: TOM TAT VIDEO GIAM SAT SU DUNG CACH TIEP CAN
TRANSFORMER
Tên đề tài tiếng Anh: SURVEILLANCE VIDEO SUMMARIZATION USING THE
TRANSFORMER APPROACH
Ngôn ngữ thực hiện: Tiếng Việt
Cán bộ hướng dẫn: PGS.TS Lê Đình Duy
Thời gian thực hiện: Từ ngày 11/09/2023 đến ngày 10/01/2024.
Sinh viên thực hiện:
Lê Nhật Huy - 20520056 Lớp: KHTN2020
Email: 20520056 @ gm.uit.edu.vn Dién thoai: 0837003268
Nội dung dé tai:(M6 tá chỉ tiết mục tiêu, phạm vi, đối tượng, phương pháp thực hiện, kết
quả mong đợi của dé tài)
Tom tat video (video summarization) là bài toán thu gọn một video dai thành một video
ngăn hơn, vẫn giữ lại các thông tin quan trọng nhất của video gốc Bài toán này có nhiều
ứng dụng trong các lĩnh vực như giám sát, an ninh, giáo dục, giải trí.
Trong khóa luận này, dữ liệu video được sử dụng là video giám sat, cụ thể là video camera
an ninh được lắp đặt tại các khu vực công cộng Video sẽ được giản lược sao cho vẫn giữ
được những nội dung quan trọng trong video và tạo ra bản tóm tắt.
e Input: Một đoạn video giám sát.
¢ Output: Một video ngắn hơn, giữ lại được những nội dung quan trọng.
Trong lĩnh vực giám sát, video summarization có thê được sử dụng đề:
e Giảm bớt dung lượng lưu trữ video: Các hệ thống giám sát thường sử dụng camera
dé ghi lại hình anh từ nhiều vị trí khác nhau Điều này dẫn đến việc tạo ra một lượng
lớn dữ liệu video, gây ra áp lực lớn cho hệ thống lưu trữ Video summarization có
Trang 10thé giúp giảm bớt dung lượng lưu trữ video băng cách trích xuât các đoạn video ngắn đại diện cho toàn bộ video dai.
e Tang cường hiệu qua phân tích video: Việc phân tích video dài có thé tốn nhiều
thời gian và công sức Video summarization có thê giúp tăng cường hiệu quả phân
tích video bằng cách cung cấp cho người dùng một cái nhìn tổng quan về toàn bộ video Điều này giúp người dùng dé dàng xác định các sự kiện quan trọng trong
video và tiết kiệm thời gian trong việc phân tích video.
e Tăng cường an ninh: Video summarization có thé được sử dụng dé phat hién cac
sự kiện bat thường trong video, chăng hạn như trộm cắp, ấu đả Điều này có thể
giúp tăng cường an ninh và bảo vệ tài sản.
Tom tắt video là một bài toán khó trong thị giác máy tính Muốn dat được hiéu quả tối da,
bài toán này yêu cầu hệ thống phải hiểu nội dung của video, bao gồm cả nội dung của hình ảnh và âm thanh, sau đó tạo ra một bản tóm tắt văn bản ngắn gọn, súc tích nhưng vẫn truyền tải được thông tin chính của video.
Thách thức với bài toán video summaization và với dữ liệu camera giám sát:
Thách thức lớn nhất là làm thế nào để định rõ đâu mới là "nội dung quan trọng" Khái
niệm về "nội dung quan trọng", không chỉ là mơ hồ mà còn phụ thuộc rất nhiều vào cá
nhân và sở thích của họ Điều này dẫn đến khó khăn trong việc xây dựng một bộ dữ liệu
đáng tin cậy dé hỗ trợ các nghiên cứu, yêu cầu nhiều công sức và sự tập trung cao Sự quan trọng có thé biến đồi tùy thuộc vào người xem và nhu cầu cá nhân của họ đối với nội dung video Xác định điều này đòi hỏi sự hiểu biết sâu rộng về ngữ cảnh và đối tượng của
video, điều mà không phải lúc nào cũng dé dang thu thập được từ các nguồn đữ liệu Điều này dẫn đến các nhà nghiên cứu phải đối mặt với thách thức lớn trong việc tạo ra các bộ
dữ liệu đủ chính xác và tin cậy dé phục vụ cho quá trình nghiên cứu Việc này đôi khi đòi
hỏi sự hợp tác với cộng đồng người dùng để đảm bảo rằng dữ liệu được thu thập là đại
diện và phản ánh đúng mong muốn của người sử dụng cuối cùng, đây là công việc tốn rất
nhiều công sức và tải nguyên.
Mặc dù có rất nhiều thuật toán video summarization được đề xuất [4], tuy nhiên, việc đánh
giá các thuật toán video summarization trên dữ liệu camera giám sát chưa được quan tâm
nhiều Lý do chính là thiếu đữ liệu camera giám sát được gán nhãn cho các cảnh quan
trọng trong video Tuy nhiên, việc thu thập và tạo ra các tập dữ liệu này là một công việc
tốn thời gian và công sức Đề tạo ra một tập dữ liệu camera giám sát có nhãn, cần phải thu thập một lượng lớn video từ các hệ thống giám sát an ninh Sau đó, cần phải xem xét từng
Trang 11video va gan nhãn cho các cảnh quan trong Day là một công việc tôn thời gian va công
sức, đặc biệt là đôi với các video có độ dài lớn hoặc phức tạp.
Hướng tiếp cận:
Cách tiếp cận dùng transformer [1, 2, 3, 4] cho bài toán video summarization dang là cach
tiếp cận tiên tiến hiện nay Y tưởng chính là sử dung transformer để học được các mối quan hệ giữa các khung hình trong video Transformer có thê học được các mối quan hệ này bằng cách sử dụng một mạng attention đề tính trọng số cho các khung hình khác nhau Các khung hình có mối quan hệ chặt chẽ với nhau sẽ có trọng số cao hơn, và các khung hình có mối quan hệ lỏng lẻo hơn sẽ có trọng số thấp hơn Cách tiếp cận này có một số ưu điểm so với các cách tiếp cận trước đây Thứ nhất, transformer có thé học được các mối quan hệ phức tạp giữa các khung hình, điều này có thé giúp tạo ra các video tóm tắt chính xác hơn Thứ hai, transformer có thé được dao tạo trên các tập dữ liệu lớn, điều nảy có thé giúp cải thiện hiệu suất của các video tóm tắt.
Mục tiêu của khoá luận là:
e Tim hiêu về cách tiêp cận dùng transformer cho bai toán video summarization.
e Phân tích các ưu điêm và hạn chê của cách tiép cận này.
e Xây dung tập dir liệu và công cụ đê trực quan hóa, thông kê dữ liệu.
Dé đạt được các mục tiêu nay, khoá luận sẽ thực hiện các nghiên cứu sau:
e Nội dung 1: Tìm hiểu về cách tiếp cận dùng transformer cho bài toán video
Summarization.:
- Khai niệm, cấu trúc, nguyên lý hoạt động cua transformer [1].
- _ Các phương pháp chuyền giao sử dung Transformer từ lĩnh vực Xử lý ngôn
ngữ tự nghiên sang thị giác máy tính.
- Ap dụng mô hình Transformer đơn giản (Simple Transformer) cho bài toán
Video Summerization và so sánh với phương pháp Summarizing Videos
with Attention [3] (VASNet), Tìm hiểu về nguyên lý hoạt động và ưu/nhược điểm hiện tại của từng phương pháp.
e Nội dung 2: Xây dựng tập dữ liệu surveillance camera phục vụ cho việc đánh giá:
- Thu thập dữ liệu camera giám sát (camera an ninh công cộng) từ trên
Youtube, dữ liệu phải đảm bảo về số lượng video, độ sắc nét, nội dung là camera giám sat vả có 1 đến 2 sự kiện trong video
Trang 12- _ Xử lý đữ liệu: Dữ liệu can được xử lý dé loại bỏ các khung hình bị nhiễu
hoặc không liên quan.
- Gan nhãn đữ liệu: Dữ liệu cần được gán nhãn dé xác định các khung hình
quan trọng trong video.
- Luu trữ dé liệu: Dữ liệu cần được lưu trữ có cấu trúc dé thuận lợi cho các
cộng việc tiếp theo.
- _ Xây dựng công cụ dé trực quan hóa và thống kê dit liệu: Công cụ trực quan
hóa và thống kê dữ liệu cần được xây dựng đề giúp người dùng dễ dàng hiểu
và phân tích dữ liệu Công cụ này có thể bao gồm các tính năng sau: trực
quan hóa đữ liệu dưới dạng biểu đồ, đồ thị; thống kê các đặc điểm của dit liệu, chăng hạn như độ dài video, số lượng khung hình, v.v.
e Nội dung 3: Đánh giá các thuật toán video summarization dùng transformer trên
tập dữ liệu TVSum và trên tập dữ liệu surveillance camera được xây dựng:
- _ Triển khai và huấn luyện các mô hình của từng thuật toán đã tìm hiểu trên
các tập dữ liệu.
- Đánh giá mô hình đã được huấn luyện dựa trên các chỉ số: F1-Score,
Kendall’s Tau, Spearman (Rethinking the Evaluation of Video Summaries
[5]).
- Phan tích các ưu điểm và hạn chế của các thuật toán dựa trên kết quả đánh
giá thực nghiệm.
Nghiên cứu mong đợi sẽ đạt được những kết quả sau:
e Tổng quan về cách tiếp cận dùng transformer cho bai toán video summarization:
Bao cáo sẽ trình bày tong quan về cách tiếp cận dùng transformer cho bài toán video summar1zation, bao gồm các khái niệm cơ bản, cấu trúc, nguyên lý hoạt động, các
ưu điểm và hạn chế.
e Đánh giá các thuật toán sử dung: Báo cáo sẽ đánh giá các thuật toán sử dung
transformer cho bai toán video summarization trên tập dữ liệu surveillance camera.
Đánh giá sẽ được thực hiện dựa trên các chỉ số: Fl-Score, Kendall’s Tau, Spearman.
e Ung dung công cu trực quan hóa và thong kê đữ liệu: Báo cáo sẽ trình bày ứng
dụng công cụ trực quan hóa và thông kê dit liệu dé phân tích tập dữ liệu surveillance camera và kết quả đánh giá các thuật toán.
TÀI LIỆU THAM KHẢO:
[1] Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A.N., & Polosukhin, I (2017) Attention is all you need Advances in neural information processing systems, 30.
Trang 13[2] Hsu, T C., Liao, Y S., & Huang, C R (2023) Video Summarization With Spatiotemporal Vision Transformer IEEE Transactions on Image Processing.
[3| FaJtl, J., Sokeh, H S., Argyriou, V., Monekosso, D., & Remagnino, P (2019) Summarizing videos with attention In Computer Vision—ACCV 2018 Workshops: 14th Asian Conference on Computer Vision, Perth, Australia, December 2—6, 2018, Revised Selected Papers 14 (pp 39-54) Springer International Publishing.
[4] Neimark, D., Bar, O., Zohar, M., & Asselmann, D (2021) Video transformer network.
In Proceedings of the IEEE/CVF international conference on computer vision (pp 3172).
3163-[5] Otani, M., Nakashima, Y., Rahtu, E., & Heikkila, J (2019) Rethinking the evaluation
of video summaries In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp 7596-7604).
[6] Apostolidis, E., Adamantidou, E., Metsai, A I., Mezaris, V., & Patras, I (2021) Video summarization using deep neural networks: A survey Proceedings of the IEEE, 109(11), 1838-1863.
Kế hoạch thực hién:(M6 ta tom tắt kế hoạch làm việc và phân công công việc cho từng
sinh viên tham gia)
Thời gian Nội dung công việc
Tháng 9 Thu thập dữ liệu surveillance camera.
Khảo sát va tìm hiêu các thuật toán trong lĩnh vực video
Tháng 11 Huan luyện các mô hình bang dataset tự xây dựng.
Đánh giá và so sánh kêt quả thực nghiệm của các mô hình.
Trang 14Tháng 12
dựng.
Từ kết quả thực nghiệm, phân tích ưu/nhược điểm của các thuật toán
đối với tập dữ liệu TVSum và trên dữ liệu camera giám sát tự xây
Việt báo cáo và hoàn thiện đê tài.
Trang 15Mục lục
1 Giới thiệu 2
12_ Mô tả bài toán tóm tắtvideol - 3
1.3 Thách thức với dư liệu video giám sát| 5
1.3.1 Thách thức chung đối với bài toán tóm tat video}
1.3.2 Thách thức đôi với dữ liệu video camera giám sát
(surveil-¬ ry Arr 7
1.4 Mục tiêu, nội dung, kế hoạch nghiên cứu 8
1.5 Nội dung và phương pháp nghiên cứu| 8
1.5.1 Nội dung 1: Tìm hiểu về cách tiếp cận dùng transformer
cho bài toán video summarization.} 8 1.5.2 Nội dung 2: Xây dung tập dư liệu surveillance camera
phục vụ cho việc đánh gia} 8
2 Tong quan 12
2.1 Các nghiên cứu gần đây Ặ co 12
Trang 16hình sự phụ thuộc thời gian giữa các khung hình
(tem-poral dependency) 12
2.1.2 Học tam quan trọng của khung hình bang cách lập mô
hình cấu trúc không - thời gian của video
(spatialtem-ne 14
2.1.3 Học cách tóm tắt bằng cách đánh lừa bộ phân biệt đối
2.3.1 Các phương pháp chuyển giao Transformer trong
Trang 175_ Xây dựng bộ dư liệu video camera giám sát 56
51 Thuthậpdữliệu 56
52 Chuẩnhóa dữ liệu 58
5.3 Gán nhãn dữ liệu| 60
54 Lưutrữdữ liệu 00.0 ee ee es 62 5.5 Tao file splits} 2 0.2.0.0 000000 eee ee 63
Trang 18Danh sách hình ve
1.1 Video summarization pipeline sử dụng deep learning model [4]] 4
đối xử (discriminator) khi cô gang phân biệt bản tóm tat do
máy tao ra với bản tóm tắt do con người tạo ra [4]
2.4_ Tỉ lệ xuất bản bài báo của Transformer trên các lĩnh vực [7||
2.5 Mô hình Vision Transformer (Vil) - Sử dụng phương pháp
patch embedding chuyển đổi hình ảnh thành thành chuỗi để
2.6 Mô hình CNN-Swin - Kiến trúc kết hợp CNN và Swin
3.1 Mô hình Transformer [28|[ - 27
3.2_ Minh họa cơ chế Attention [l|| - 29
3.3 Scale Dot-Product Attention (trai) và Multi-Head Attention (phải)
8| rr So 30
3.4 Minh họa cách tính ham Attention [1|| 31 3.5 Minh họa cách tính Multi-Head Attention [1]| 32 3.6 Vị trí cua mạng Position-wise Feed-Forward [28|| 34 3.7 Minh họa sử dung positional encoding vector [1J| 35
38 Mo hinh GoogLeNet |27]Ï 38
Trang 201| -Danh sách bang
Trang 21Danh sách từ viết tắt
VSUM Video Summarization
RNN Recurrent Neural Network
CNN Convolutional Neural Network
CV Computer Vision
NLP Natural Language Processing
LSTM Long Short-Term Memory
FFN Feed-Forward Network
GAN Generative Adversarial Network
VIN Vision Transformer Network
Trang 22Tóm tắt khóa luận
Khóa luận này nghiên cứu về việc tạo video tóm tắt từ video camera giám sát sử dụng cách tiếp cận transformer Các mô hình tạo video tóm tắt có thể giúp người dùng xem lại các video giám sát một cách ngắn gọn và hiệu quả
hơn.
Khóa luận xây dung một bộ dt liệu camera giám sát được gan nhãn gồm
12 video, mỗi video dài từ 1-5 phút; xây dựng các công cụ thống kê và trực
quan hóa dữ liệu để phục vụ cho quá trình thực nghiệm Các công việc này
có thể được sử dụng lại để tiếp tục các nghiên cứu sau này.
Khóa luận tìm hiểu về kiến trúc transformer, phương pháp chuyển giao
sử dụng Transformer trong lĩnh vực Thị giác máy tính, tìm hiểu các mô hình
tóm tắt video sử dụng transformer, ưu điểm và nhược điểm so sánh với các
phương pháp trước đây.
Khóa luận cũng thực hiện các đánh giá thực nghiệm để đánh giá hiệu suất
của mô hình VASNet và mô hình dé xuất Simple Transformer network trong việc tóm tắt video Các đánh giá được thực hiện trên bộ dữ liệu TVSum và bộ
dữ liệu video giám sát tự xây dựng với ba chỉ số đánh giá: F1-Score, Kendall’s
Tau và Spearman’s Rho.
Tôi hy vọng rằng, những nghiên cứu của tôi sẽ góp phan thúc đẩy su phát triển của lĩnh vực tạo video tóm tắt từ video camera giám sát, giúp người
dùng dé dàng xem lại video giám sát, giúp phát hiện các sự kiện quan trong
và dễ dàng hơn trong việc phân tích dữ liệu video giám sát.
Trang 23Chương 1
Giới thiệu
1.1 Đặt vẫn de
Hiện nay, lượng video trên internet đang ngày càng tăng lên với tốc độ chóng
mặt Theo thống kê của Cisco, lượng video chiếm tới 82% tổng lượng đữ liệu
trên internet trong năm 2023 [26] Điều này dẫn đến một số van dé như:
© Tăng dung lượng lưu trữ: Các hệ thống lưu trữ video phải đáp ứng nhu
cầu lưu trữ ngày càng tăng của người dùng Điều này có thể gây ra áplực lớn cho các hệ thống lưu trữ, đặc biệt là trong các lĩnh vực như giámsát, an ninh, giáo dục, giải trí Ví dụ, một hệ thống giám sát an ninh cóthể ghi lai video từ hàng trăm hoặc thậm chi hàng nghìn camera Nếumỗi video có độ dài 1 giờ, thì hệ thống này sẽ cần lưu trữ hàng terabyte
dữ liệu video Điều này có thể gây ra áp lực lớn cho hệ thống lưu trữ và
có thể làm tăng chỉ phí lưu trữ
se Tăng thời gian truy vấn: Việc truy vấn video cũng trở nên chậm chap
hơn do dung lượng video ngày càng lớn Điều này có thể gây khó khăncho người dùng trong việc tìm kiếm và xem video Ví dụ, để tìm mộtvideo cụ thể trong một hệ thống lưu trữ có hàng terabyte dữ liệu video,cần phải mất nhiều thời gian để quét toàn bộ dữ liệu Điều này có thểkhiến người dùng mat kiên nhẫn và có thé dẫn đến việc người dùng bỏ
qua các video quan trọng.
Trang 24Chương 1 Giới thiệu 3
Vì vậy, nhu cầu tối ưu dung lượng lưu trữ và thời gian truy vấn video,nhất là với các video dài mà chỉ chứa một phần nhỏ thông tin quan trọng nhưvideo giám sát Điều này là tiền dé cho sự phát triển của các nghiên cứu liên
quan đến bài toán tóm tắt video.
1.2 Mô tả bài toán tóm tắt video
Tóm tắt video (video summarization) là bài toán thu gọn một video dài thành
một video ngắn hơn, vẫn giữ lại các thông tin quan trọng nhất của video gốc.Bài toán này có nhiều ứng dụng trong các lĩnh vực như giám sát, an ninh,
giáo dục, giải trí.
Trong khóa luận nay, dữ liệu video được sử dụng là video giám sát, cụ
thể là video camera an ninh được lắp đặt tại các khu vực công cộng Video sẽ
được giản lược sao cho vẫn giữ được những nội dung quan trọng trong video
và tạo ra bản tóm tắt.
® Input: Một đoạn video giám sát.
* Output: Một video ngắn hơn, giữ lại được những nội dung quan trọng.
Trong lĩnh vực giám sát, video summarization có thể được sử dụng để:
e Giảm bớt dung lượng lưu trữ video: Các hệ thống giám sát thường sử
dụng camera để ghi lại hình ảnh từ nhiều vị trí khác nhau Điều này dẫnđến việc tạo ra một lượng lớn dữ liệu video, gây ra áp lực lớn cho hệthống lưu trữ Video summarization có thể giúp giảm bớt dung lượnglưu trữ video bằng cách trích xuất các đoạn video ngắn đại điện cho toàn
bộ video đài.
e Tăng cường hiệu quả phân tích video: Việc phân tích video dài có thé
tốn nhiều thời gian và công sức Video summarization có thể giúp tăng cường hiệu quả phân tích video bang cách cung cấp cho người dùng một
cái nhìn tổng quan về toàn bộ video Điều này giúp người dùng dé dàng
Trang 25Chương 1 Giới thiệu 4
xac dinh cac su kién quan trong trong video va tiết kiệm thời gian trong
việc phân tích video.
© Tăng cường an ninh: Video summarization có thể được sử dụng để phát
hiện các sự kiện bất thường trong video, chẳng hạn như trộm cắp, au đả.
Điều này có thể giúp tăng cường an ninh và bảo vệ tài sản.
Trang 26Chương 1 Giới thiệu 5
1.3 Thách thức với dư liệu video giám sát
1.3.1 Thách thức chung đối với bài toán tóm tat video
Tóm tat video là một bài toán khó trong thị giác máy tính Muốn đạt được hiểu quả tối đa, bài toán này yêu cầu hệ thống phải hiểu nội dung của video,
bao gồm cả nội dung của hình ảnh và âm thanh, sau đó tạo ra một bản tómtắt văn bản ngắn gọn, súc tích nhưng vẫn truyền tải được thông tin chính của
video Có một số thách thức chung đối với bài toán tóm tắt video, bao gồm:
° Độ phức tạp của nội dung video: Video có thể chứa nhiều thông tin, bao
gồm cả nội dung văn bản, hình ảnh, âm thanh Hệ thống tóm tắt video
cần phải có khả năng xử lý và hiểu tất cả các loại thông tin này
¢ Sự đa dạng của các loại video: Có nhiều loại video khác nhau, mỗi loại
có những đặc điểm riêng Ví dụ, video tin tức thường có nội dung ngắn
gọn, súc tích, trong khi video giải trí có thể dài hơn và có nhiều nội dungchỉ tiết hơn Hệ thống tóm tắt video cần phải có khả năng thích ứng với
các loại video khác nhau.
¢ Sự chủ quan của nội dung video: Nội dung của video có thể bị ảnh
hưởng bởi quan điểm của người tạo video Hệ thống tóm tắt video cần
phải có khả năng loại bỏ những thông tin chủ quan, chỉ giữ lại những
thông tin khách quan.
Trong đó, thách thức lớn nhất là làm thế nào để định rõ đâu mới là "nộidung quan trọng" Khái niệm về "nội dung quan trọng", không chỉ là mơ hồ
mà còn phụ thuộc rất nhiều vào cá nhân và sở thích của họ Điều này dẫnđến khó khăn trong việc xây dựng một bộ dữ liệu đáng tin cậy để hỗ trợ các
nghiên cứu, yêu cầu nhiều công sức và sự tập trung cao Sự quan trọng có
thể biến đổi tùy thuộc vào người xem và nhu cầu cá nhân của họ đối với nộidung video Xác định điều này đòi hỏi sự hiểu biết sâu rộng về ngữ cảnh vàđối tượng của video, điều mà không phải lúc nào cũng dé dàng thu thập được
Trang 27Chương 1 Giới thiệu 6
từ các nguồn dữ liệu Điều này dẫn đến các nhà nghiên cứu phải đối mặt vớithách thức lớn trong việc tạo ra các bộ dữ liệu đủ chính xác và tin cậy để phục
vụ cho quá trình nghiên cứu Việc này đôi khi đòi hỏi sự hợp tác với cộng
đồng người dùng để đảm bảo rằng đữ liệu được thu thập là đại điện và phan ánh đúng mong muốn của người sử dụng cuối cùng, đây là công việc tốn rất
nhiều công sức và tài nguyên
Để giải quyết vấn dé này, các nhà nghiên cứu phải tìm đến các phươngpháp nhắm giảm thiểu tính chủ quan của người dùng khi xác định đâu là nộidung quan trọng ở trong một video Một số phương pháp được đề xuất là:
Sử dụng các thuật toán học máy
Các thuật toán học máy có thể được sử dụng để phân tích các đặc trưng của
video như sau:
e Âm thanh: cường độ âm thanh, tần số, độ cao,
e Hình ảnh: màu sắc, độ tương phản, độ nét,
® Ngôn ngữ: từ ngữ, ngữ pháp, ngữ nghĩa,
Sử dụng các tiêu chí xác định nội dung quan trọng
Các tiêu chí sau có thể được sử dụng để đánh giá mức độ quan trọng của nội
dung trong video:
© Mức độ liên quan đến chủ dé của video
¢ Mức độ mới mẻ của nội dung
© Mức độ thuyết phục của nội dung
Trang 28Chương 1 Giới thiệu 7
Su dung sự tham gia của người dung
Người dùng có thé tham gia vào quá trình xác định nội dung quan trọng
thông qua các phương tiện như cuộc khảo sát, đánh giá,
Các phương pháp trên đều có ưu điểm và nhược điểm riêng:
s Thuật toán học máy: Độ chính xác cao, nhưng đòi hỏi lượng dữ liệu lớn
1.3.2 Thách thức đối với dữ liệu video camera giám sát
(surveil-lance camera video)
Bên cạnh những thách thức chung trong bài toán video summaization, bai
toán tóm tắt dữ liệu video giám sát cũng gặp phải nhiều thách thức khác.
Mặc dù có rất nhiều thuật toán video summarization được đề xuất [4], tuy
nhiên, việc đánh giá các thuật toán video summarization trên dữ liệu camera
giám sát chưa được quan tâm nhiều Lý do chính là thiếu dữ liệu camera giám
sát được gán nhãn cho các cảnh quan trọng trong video Tuy nhiên, việc thu
thập và tạo ra các tập dữ liệu này là một công việc tốn thời gian và công sức
Để tạo ra một tập dữ liệu camera giám sát có nhãn, cần phải thu thập một
lượng lớn video từ các hệ thống giám sát an ninh Sau đó, cần phải xem xét
từng video và gán nhãn cho các cảnh quan trọng Đây là một công việc tốn
thời gian và công sức, đặc biệt là đối với các video có độ dài lớn hoặc phức
tạp.
Trang 29Chương 1 Giới thiệu 8
1.4 Mục tiêu, nội dung, kế hoạch nghiên cứu
1.4.1 Mục tiêu
Mục tiêu của khoá luận là:
© Tìm hiểu về cách tiếp cận dùng transformer cho bài toán video
summa-rization.
© Phân tích các ưu điểm và hạn chế của cách tiếp cận này
° Xây dựng tập dữ liệu và công cụ để trực quan hóa, thông kê dữ liệu
1.5 Nội dung và phương pháp nghiên cứu
1.5.1 Nội dung 1: Tìm hiểu về cách tiếp cận dùng transformer
cho bài toán video summarization.
Tìm hiểu kiến thức về:
e Khái niệm, cấu trúc, nguyên lý hoạt động của transformer [28]
* Các phương pháp chuyển giao sử dung Transformer từ lĩnh vực Xử ly
ngôn ngữ tự nghiên sang thị giác máy tính
¢ Áp dụng mô hình Transformer đơn giản (Simple Transformer) cho bài
toán Video Summerization và so sánh với phương pháp Summarizing
Videos with Attention [9 (VASNet) Tìm hiểu về nguyên lý hoạt động va
ưu/nhược điểm hiện tại của từng phương pháp
1.5.2 Noi dung 2: Xây dựng tập du liệu surveillance camera
phục vụ cho việc đánh giá.
Thu thập, xử lý, gan nhãn và lưu trữ dw liệu:
Trang 30Chương 1 Giới thiệu 9
se Thu thập dữ liệu camera giám sát (camera an ninh công cộng) từ trên
Youtube, dữ liệu phải đảm bảo về số lượng video, độ sắc nét, nội dung
là camera giám sát và có 1 đến 2 sự kiện trong video
° Xử lý dữ liệu: Dữ liệu cần được xử lý để loại bỏ các khung hình bị nhiễu
hoặc không liên quan.
se Gan nhãn dữ liệu: Dữ liệu cần được gán nhãn để xác định các khung
hình quan trọng trong video.
se Lưu trữ dữ liệu: Dữ liệu cần được lưu trữ có cau trúc để thuận lợi cho
các cộng việc tiếp theo
Xây dựng công cu để trực quan hóa và thống kê dix liệu: Công cụ trực
quan hóa và thống kê dữ liệu cần được xây dựng để giúp người dùng dễdàng hiểu và phân tích dữ liệu Công cụ này có thể bao gồm các tính năng
sau:
e Trực quan hóa dữ liệu dưới dạng biểu dé, dé thị, v.v
e Thống kê các đặc điểm của dữ liệu, chẳng hạn như độ dài video, số
lượng khung hình, v.v.
1.5.3 Nội dung 3: Đánh giá các thuật toán video
summariza-tion dùng transformer trên tập dư liệu TVSum và trên tap du liệu surveillance camera được xây dựng.
Triển khai và huấn luyện các mô hình: Các mô hình của từng thuật toán đã
tìm hiểu cần được triển khai và huấn luyện trên các tập dữ liệu
Đánh giá các mô hình đã được huan luyện dựa trên các chỉ số:
© F1-Score: F1-Score là một chỉ số đánh giá độ chính xác và độ day đủ của
mô hình.
Trang 31Chương 1 Giới thiệu 10
® Kendall’s Tau: Kendall’s Tau là một chỉ số đánh giá độ tương quan giữa
các khung hình được chọn bởi mô hình và các khung hình được đánh
dau bởi người dùng
® Spearman: Spearman là một chỉ số đánh giá độ tương quan giữa các
khung hình được chọn bởi mô hình và các khung hình được đánh dấu
bởi người dùng.
Phân tích các ưu điểm và hạn chế của các thuật toán dựa theo kết quả
đánh giá.
1.6 Cấu trúc khóa luận
Trong giai đoạn luận văn đề tài nhóm đã thực hiện được một số công việc liên
quan sẽ trình bày trong báo cáo như sau:
e Chương 1: Giới thiệu: giới thiệu tổng quan về nhận diện hướng nhìn,
cũng là chương hiện hành Trong chương này sẽ đưa đến cái nhìn tổngquát về dé tài, tiềm năng và ứng dụng thực tế trong tương lai
e Chương 2: Tổng quan: tổng quan một số công trình nghiên cứu liên quan
tới dé tài mà nhóm tìm hiểu, các hướng tiếp cận cho bài toán hiện nay,đặc điểm và ứng dụng của các phương pháp
e Chương 3: Cơ sở lí thuyết: giải thích các kiến thức nên tảng
e Chương 4: Hướng tiếp cận: trình bày các hướng tiếp cận nhóm nghiên
cứu để giải quyết bài toán tóm tắt video giam sát và phương pháp xây
dựng bộ dữ liệu camera giám sát.
se Chương 5: Xây dựng bộ du liệu camera giám sát: trình bày các bước thực
hiện việc thu thập, chuẩn hóa và gán nhán bộ dữ liệu camera giám sát
e Chương 6: Thực nghiệm: trình bay các kết quả thực nghiệm
Trang 32Chương 1 Giới thiệu 11
e Chương 7: Tổng kết: tổng kết những công việc nhóm đã làm được, đánh
giá và định hướng kế hoạch mà nhóm tiếp tục phát triển trong khóa
luận.
Trang 33Chương 2
lông quan
2.1 Các nghiên cứu gan đây
Gần đây, có sự gia tăng đáng kể trong các nghiên cứu về việc tóm tắt video,
đặc biệt là trong lĩnh vực tóm tắt video sử dụng các ki thuật deep learning.Đối với các nghiên cứu này, có thể phân chia chúng thành ba hướng chính
như sau [4]:
2.1.1 Học tầm quan trọng của khung hình bang cách lập mô
hình sự phụ thuộc thời gian giữa các khung hình
(tem-poral dependency)
Các phương pháp trong hướng tiếp cận này có thể chia thành hai nhóm: nhóm
phương pháp dựa trên mạng LSTM, RNN và nhóm phương pháp dựa trên
có chế chú ý (attention mechanism) Với nhóm phương pháp dựa trên mang
LSTM và RNN, các phương pháp này sử dụng mạng LSTM hoặc RNN để mô
hình mối quan hệ phụ thuộc thời gian giữa các khung hình, sau đó sử dụngmột mô hình khác để ước tính độ quan trọng của từng khung hình Ưu điểmcủa nhóm phương pháp này là linh hoạt, xử lý phụ thuộc biến đổi tốt, nhưngnhược điểm là tính toán phức tạp Có thể kể đến một số đại điện như:
Trang 34Chương 2 Tổng quan 13
® LSTM [13]: Sử dụng mang LSTM dé mô hình mối quan hệ phụ thuộc
thời gian giữa các khung hình, ước tính độ quan trọng bằng multi-layer
perceptron (MLP).
¢ Two-layer LSTM [32]: Lop 1 trích xuất thông tin cấu trúc video, lớp 2 ước
tính độ quan trọng từng đoạn, chọn đoạn video quan trọng.
® Hierarchical RNN (HRNN) [33]: Két hop 2 tang RNN dé nam bat phu
thuộc thời gian trong các phan cảnh nhỏ và toàn bộ video.
| LSTM | STM đồ STM
HÌNH 2.1: Mô hình tom tắt video sử dụng LSTM
Với nhóm phương pháp dựa trên có chế chú ý, các phương pháp này sửdụng cơ chế chú ý từ thuật toán Transformer để mô hình sự thay đổi quantâm của người dùng theo thời gian, sau đó sử dụng một mô hình khác để ước
Trang 35Chương 2 Tổng quan 14
tính độ quan trọng của từng khung hình Ưu điểm của nhóm phương phápnày là lĩnh hoạt, thích ứng với người dùng, nhưng nhược điểm là tính toán
phức tạp Một số đại diện là:
e Attentive encoder-decoder networks for Video Summarization (AVS) [16]:
Xử ly tóm tắt video như bài toán học seq2seq, dùng LSTM kết hợp với
attention.
¢ Summarizing Videos with Attention (VASNet) [9]: Két hop mang
self-attention va mang fully connected dé ước tinh độ quan trọng khung
hinh.
2.1.2 Học tam quan trong của khung hình bằng cach lập mô
hình cấu trúc không - thời gian của video
(spatialtem-poral structure)
Nhóm phương pháp này chú ý đến cả mối quan hệ không gian và thời giangiữa các khung hình để đánh giá tầm quan trọng của chúng Bên cạnh trình tựkhung hình và đữ liệu đánh giá mức độ quan trọng từ người dùng, hệ thống
tóm tắt cũng phân tích các tương quan không gian-thời gian giữa các khung
hình (được thể hiện bằng các hình chữ nhật chấm cham và đường nét đứt
trong Hình 2.2) Các điểm quan trong (important score) dự đoán sau đó được
so sánh với dữ liệu thực tế để điều chỉnh quá trình huấn luyện Ưu điểm làtận dụng thông tin phong phú hơn về video, giúp đưa ra dự đoán tầm quantrọng của khung hình chính xác hơn, có thể xử lý video dài tốt hơn nhưngtính toán phức tap hơn Tiêu biểu là MerryGoRoundNet sử dụng kiến
trúc mã hóa-giải mã với LSTM convolution, hay Video Summarization With
Spatiotemporal Vision Transformer (STVT) [14] kết hop mang CNN và cơ chếchú ý của thuận toán Transformer để mô hình mối quan hệ không gian-thời
gian giữa các phần của video
Trang 36Video frames
Frame importance scores according to users
HÌNH 2.2: Pipeline - Hoc tầm quan trọng của khung hình bằng
cách lập mô hình cau trúc không - thời gian của video
2.1.3 Học cách tóm tat bang cách đánh lừa bộ phân biệt đối
xử (discriminator) khi cô gang phân biệt ban tóm tat do
máy tạo ra với bản tóm tắt do con người tạo ra
Hướng nghiên cứu này chủ yếu sử dụng mạng đối nghịch tạo sinh
(Genera-tive Adversarial Network - GAN) để học cách thu hẹp khoảng cách giữa
Trang 37Chương 2 Tổng quan 16
bản tóm tắt của máy và bản tóm tắt của người dùng Với GAN, hệ thống tóm tắt (Generator) lây chuỗi khung hình video làm đầu vào và dự đoán độ quan trọng của từng khung hình, cố gắng đánh lừa bộ phân biệt, khiến nó không thể phân biệt giữa tóm tắt của máy và của người dùng Cùng với tóm tắt tối
ưu được người dùng đánh giá (user summaries), những dự đoán này được
đưa vào bộ phân biệt (Discriminator) để đánh giá mức độ giống nhau giữa
chúng Khi bộ phân biệt không còn phân biệt chính xác được hai loại tóm tắt,
nghĩa là hệ thống tóm tắt đã tạo ra được tóm tắt video gần gũi với mong muốn
của người dùng Tuy nhiên, sức mạnh của GAN hạn chế trong lĩnh vực tóm
tắt video có giám sát (supervised video summarization), trong khi được thể hiện hiếu suất cao và sử dụng rộng rãi trong tóm tat video không có giám sát
(unsupervised video summarization) Một số nghiên cứu nổi bật trong hướng
nghiên cứu này là Fu et al (2019) và Zhang et al (2019) [31].
HÌNH 2.3: Pipeline - Học cách tóm tat bằng cách đánh lừa bộ phân
biệt đôi xử (discriminator) khi cô gắng phân biệt bản tóm tắt do
máy tạo ra với bản tóm tắt do con người tạo ra
Trang 38Chương 2 Tổng quan 17
Cách tiếp cận dùng Transformer (28) [14] 922] cho bai toán video
summa-rization đang là một trong những cách tiếp cận tiên tiến hiện nay Ý tưởng
chính là sử dụng transformer để học được các mối quan hệ giữa các khung
hình trong video Transformer có thể học được các mối quan hệ này bằng cách
sử dụng một mạng attention để tính trọng số cho các khung hình khác nhau.
Các khung hình có mối quan hệ chặt chẽ với nhau sẽ có trọng số cao hơn, vacác khung hình có mối quan hệ lỏng lẻo hơn sẽ có trọng số thấp hơn Cáchtiếp cận này có một số ưu điểm so với các cách tiếp cận trước đây Thứ nhất,transformer có thể học được các mối quan hệ phức tạp giữa các khung hình,điều này có thể giúp tạo ra các video tóm tắt chính xác hơn Thứ hai, trans-former có thể được đào tạo trên các tập dữ liệu lớn, điều này có thể giúp cảithiện hiệu suất của các video tóm tắt
2.2 Giới thiệu về Transformer
Transformer là một mô hình kiến trúc trong lĩnh vực học máy, giới thiệubởi Ashish Vaswani và đồng nghiệp tại Google Research vào năm 2017 quabài báo "Attention is All You Need" Transformer đại diện cho một bước tiềnquan trọng về kiến trúc mô hình Transformer là một công cụ hữu ích trong
xử lý ngôn ngữ tự nhiên và sau này mở rộng sự ứng dụng của mình vào nhiều
lĩnh vực nghiên cứu khác, như computer vision.
Mô hình Transformer thể hiện mối quan hệ trong dir liệu thông qua cơchế self-attention, một đặc điểm quan trọng đưa ra nhờ đó mà mô hình có
khả năng nắm bắt thông tin phức tạp trong chuỗi dữ liệu Trong quá trình self-attention, mỗi từ được gán một vector trọng số attention, biểu thị mức độ
quan trọng của từng từ đối với từ đang được xem xét Việc này được thực hiện
đồng thời cho tất cả các từ trong chuỗi, không phụ thuộc vào thứ tự tuần tự.
Điều này giúp mô hình tự nhiên tập trung vào mối quan hệ xa và phi tuyến
tính trong dữ liệu Kết quả là, thông qua ma trận attention, mô hình tạo ra
biểu diễn nâng cao cho từng từ, kết hợp thông tin quan trọng từ tất cả các
Trang 40Chương 2 Tổng quan 19
phần khác nhau của chuỗi Cơ chế self-attention này đóng vai trò quan trọngtrong việc xử lý ngôn ngữ tự nhiên và ứng dụng hiệu quả trong nhiều lĩnh
vực khác.
Một trong những đặc điểm quan trọng nhất của Transformer là khả năng
tính toán đồng thời (parallel computation), đặc biệt là trong quá trình xử lý
đữ liệu đầu vào Điều này đại điện cho một bước tiến lớn so với các mô hìnhtruyền thống như Recurrent Neural Network (RNN) hay Long Short-TermMemory (LSTM) phải xử lý dữ liệu theo thứ tự tuần tự Khả năng tính toánđồng thời giúp Transformer tận dụng tốt các tài nguyên tính toán và phầncứng song song hiện đại Điều này mang lại hiệu suất tính toán cao và tăngtốc quá trình huấn luyện, đặc biệt khi xử lý dt liệu lớn Mô hình có thể xử lýnhiều vùng dữ liệu cùng một lúc, giảm đáng kể thời gian đào tạo so với các
mô hình tuần tự
Thành tựu trong Machine Translation:
¢ Google’s Neural Machine Translation GNMT) [29]: Sử dụng kiến trúc
Transformer, GNMT đã đạt được kết qua dich máy tốt, với khả năng xử
lý cú pháp ngôn ngữ phức tạp và cải thiện đáng kể so với các mô hình
trước đó.
¢ OpenAl’s GPT-3 (Generative Pre-trained Transformer 3) [6]: Mặc dù
GPT-3 được thiết kế chủ yếu cho các nhiệm vụ xử lý ngôn ngữ tu nhiên,nhưng mô hình này cũng có thể được sử dụng cho dịch máy Với kíchthước lớn và khả năng học đa nhiệm, GPT-3 có thể tạo ra các dịch máychất lượng cao cho nhiều ngôn ngữ
® Transformer-based Models for Specific Languages [21}: Nhiều mô hình
Transformer đã được phát triển cho các ngôn ngữ cụ thể, như BERT(Bidirectional Encoder Representations from Transformers) cho tiếng Anh
và các ngôn ngữ khác, đem lại kết quả dịch tốt và đa dạng