1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp: Tóm tắt video giám sát sử dụng cách tiếp cận transformer

96 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Tóm tắt video giám sát sử dụng cách tiếp cận transformer
Tác giả Lê Nhật Huy
Người hướng dẫn PGS. TS. Lê Đình Duy
Trường học Trường Đại học Công nghệ Thông tin
Chuyên ngành Khoa học máy tính
Thể loại Khóa luận tốt nghiệp
Năm xuất bản 2024
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 96
Dung lượng 50,82 MB

Nội dung

Muốn dat được hiéu quả tối da, bài toán này yêu cầu hệ thống phải hiểu nội dung của video, bao gồm cả nội dung của hình ảnh và âm thanh, sau đó tạo ra một bản tóm tắt văn bản ngắn gọn, s

Trang 1

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRUONG DAI HOC CONG NGHE THONG TIN

KHOA KHOA HOC MAY TÍNH

LE NHAT HUY

KHOA LUAN TOT NGHIEP

SURVEILLANCE VIDEO SUMMARIZATION USING THE

TRANSFORMER APPROACH

CU NHAN NGANH KHOA HOC TAI NANG

TP HO CHi MINH, 2024

Trang 2

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRUONG DAI HOC CONG NGHE THONG TIN

KHOA KHOA HỌC MAY TÍNH

LE NHẬT HUY - 20520056

KHOA LUAN TOT NGHIEP

TOM TAT VIDEO GIAM SAT SU DUNG CACH TIEP

CAN TRANSFORMER

SURVEILLANCE VIDEO SUMMARIZATION USING THE

TRANSFORMER APPROACH

CU NHÂN NGANH KHOA HỌC MAY TÍNH

GIANG VIEN HUONG DAN

PGS TS LE DINH DUY

TP HO CHi MINH, 2024

Trang 3

DANH SÁCH HỘI ĐÒNG BẢO VỆ KHÓA LUẬN

Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số NĐẦY của Hiệu trưởng Trường Dai học Công nghệ Thông tin.

1 TS Ngô Đức Thành — Chủ tịch.

2 ThS Nguyễn Thanh Sơn — Thư ký.

3 TS Mai Tiến Dũng — Ủy viên.

Trang 4

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc CÔNG NGHỆ THÔNG TIN

TP HCM, ngày tháng năm

NHẬN XÉT KHÓA LUẬN TỐT NGHIỆP

(CUA CÁN BỘ HƯỚNG DAN)

Tên khóa luận:

TÓM TẮT VIDEO GIÁM SÁT SỬ DỤNG CÁCH TIẾP CẬN TRANSFORMER

Nhóm SV thực hiện: Cán bộ hướng dẫn/phản biện:

Lê Nhật Huy - 20520056 PGS TS Lê Đình Duy

Đánh giá Khóa luận

1 Về cuốn báo cáo:

Số trang _ Số chương

Số bảng số liệu Số hình vẽ

Số tài liệu tham khảo Sản phẩm

Một số nhận xét về hình thức cuốn báo cáo:

3 Về chương trình ứng dung:

Trang 5

Đánh giá chung: Khóa luận đạt/không đạt yêu cầu của một khóa luận tốt nghiệp kỹ sư/ cử

nhân, xếp loại Giỏi/ Khá/ Trung bình

Điểm từng sinh viên:

Lê Nhật Huy /10

Người nhận xét

(Ký tên và ghi rõ họ tên)

Trang 6

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc CÔNG NGHỆ THÔNG TIN

TP HCM, ngày tháng năm

NHẬN XÉT KHÓA LUẬN TỐT NGHIỆP

(CUA CAN BO PHAN BIEN)

Tên khóa luận:

TÓM TẮT VIDEO GIÁM SÁT SỬ DỤNG CÁCH TIẾP CẬN TRANSFORMER

Nhóm SV thực hiện: Cán bộ hướng dẫn/phản biện:

Lê Nhật Huy - 20520056 PGS TS Lê Đình Duy

Đánh giá Khóa luận

1 Về cuốn báo cáo:

Số trang _ Số chương

Số bảng số liệu Số hình vẽ

Số tài liệu tham khảo Sản phẩm

Một số nhận xét về hình thức cuốn báo cáo:

3 Về chương trình ứng dung:

Trang 7

Đánh giá chung: Khóa luận đạt/không đạt yêu cầu của một khóa luận tốt nghiệp kỹ sư/ cử

nhân, xếp loại Giỏi/ Khá/ Trung bình

Điểm từng sinh viên:

Lê Nhật Huy /10

Người nhận xét

(Ký tên và ghi rõ họ tên)

Trang 8

Lời cảm ơn

Tôi xin gửi lời cảm ơn chân thành nhất đến PGS TS Lê Đình Duy, người

đã tận tình hướng dẫn, chỉ bảo và giúp đỡ tôi trong suốt quá trình thực hiện

khóa luận tốt nghiệp này Sự hướng dẫn của thầy đã giúp tôi vượt qua nhữngkhó khăn và hoàn thành khóa luận một cách tốt đẹp

Tôi cũng xin gửi lời cảm ơn sâu sắc đến tất cả quý thay, cô trong KhoaKhoa học Máy tính, trường Dai học Công nghệ Thông tin - Dai học Quốc giaThành phố Hồ Chí Minh Sự giảng day tận tâm và truyền đạt kiến thức quý

báu của quý thay, cô đã giúp tôi có được nền tảng vững chắc về lĩnh vực khoa

học máy tính.

Bên cạnh đó, tôi cũng xin gửi lời cảm ơn đến gia đình, bạn bè đã luôn ủng

hộ và động viên tôi trong suốt quá trình học tập và nghiên cứu

Khóa luận tốt nghiệp này là kết quả của sự nỗ lực của bản thân tôi, cũngnhư sự giúp đỡ của quý thay, cô và gia đình Tôi xin chân thành cảm ơn tat cảnhững người đã góp phần vào thành công của khóa luận này

Trang 9

ĐẠI HỌC QUOC GIA TP HO CHÍMINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIET NAM

TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc

CÔNG NGHỆ THÔNG TIN ——————

DE CUONG CHI TIẾT

Tén dé tai: TOM TAT VIDEO GIAM SAT SU DUNG CACH TIEP CAN

TRANSFORMER

Tên đề tài tiếng Anh: SURVEILLANCE VIDEO SUMMARIZATION USING THE

TRANSFORMER APPROACH

Ngôn ngữ thực hiện: Tiếng Việt

Cán bộ hướng dẫn: PGS.TS Lê Đình Duy

Thời gian thực hiện: Từ ngày 11/09/2023 đến ngày 10/01/2024.

Sinh viên thực hiện:

Lê Nhật Huy - 20520056 Lớp: KHTN2020

Email: 20520056 @ gm.uit.edu.vn Dién thoai: 0837003268

Nội dung dé tai:(M6 tá chỉ tiết mục tiêu, phạm vi, đối tượng, phương pháp thực hiện, kết

quả mong đợi của dé tài)

Tom tat video (video summarization) là bài toán thu gọn một video dai thành một video

ngăn hơn, vẫn giữ lại các thông tin quan trọng nhất của video gốc Bài toán này có nhiều

ứng dụng trong các lĩnh vực như giám sát, an ninh, giáo dục, giải trí.

Trong khóa luận này, dữ liệu video được sử dụng là video giám sat, cụ thể là video camera

an ninh được lắp đặt tại các khu vực công cộng Video sẽ được giản lược sao cho vẫn giữ

được những nội dung quan trọng trong video và tạo ra bản tóm tắt.

e Input: Một đoạn video giám sát.

¢ Output: Một video ngắn hơn, giữ lại được những nội dung quan trọng.

Trong lĩnh vực giám sát, video summarization có thê được sử dụng đề:

e Giảm bớt dung lượng lưu trữ video: Các hệ thống giám sát thường sử dụng camera

dé ghi lại hình anh từ nhiều vị trí khác nhau Điều này dẫn đến việc tạo ra một lượng

lớn dữ liệu video, gây ra áp lực lớn cho hệ thống lưu trữ Video summarization có

Trang 10

thé giúp giảm bớt dung lượng lưu trữ video băng cách trích xuât các đoạn video ngắn đại diện cho toàn bộ video dai.

e Tang cường hiệu qua phân tích video: Việc phân tích video dài có thé tốn nhiều

thời gian và công sức Video summarization có thê giúp tăng cường hiệu quả phân

tích video bằng cách cung cấp cho người dùng một cái nhìn tổng quan về toàn bộ video Điều này giúp người dùng dé dàng xác định các sự kiện quan trọng trong

video và tiết kiệm thời gian trong việc phân tích video.

e Tăng cường an ninh: Video summarization có thé được sử dụng dé phat hién cac

sự kiện bat thường trong video, chăng hạn như trộm cắp, ấu đả Điều này có thể

giúp tăng cường an ninh và bảo vệ tài sản.

Tom tắt video là một bài toán khó trong thị giác máy tính Muốn dat được hiéu quả tối da,

bài toán này yêu cầu hệ thống phải hiểu nội dung của video, bao gồm cả nội dung của hình ảnh và âm thanh, sau đó tạo ra một bản tóm tắt văn bản ngắn gọn, súc tích nhưng vẫn truyền tải được thông tin chính của video.

Thách thức với bài toán video summaization và với dữ liệu camera giám sát:

Thách thức lớn nhất là làm thế nào để định rõ đâu mới là "nội dung quan trọng" Khái

niệm về "nội dung quan trọng", không chỉ là mơ hồ mà còn phụ thuộc rất nhiều vào cá

nhân và sở thích của họ Điều này dẫn đến khó khăn trong việc xây dựng một bộ dữ liệu

đáng tin cậy dé hỗ trợ các nghiên cứu, yêu cầu nhiều công sức và sự tập trung cao Sự quan trọng có thé biến đồi tùy thuộc vào người xem và nhu cầu cá nhân của họ đối với nội dung video Xác định điều này đòi hỏi sự hiểu biết sâu rộng về ngữ cảnh và đối tượng của

video, điều mà không phải lúc nào cũng dé dang thu thập được từ các nguồn đữ liệu Điều này dẫn đến các nhà nghiên cứu phải đối mặt với thách thức lớn trong việc tạo ra các bộ

dữ liệu đủ chính xác và tin cậy dé phục vụ cho quá trình nghiên cứu Việc này đôi khi đòi

hỏi sự hợp tác với cộng đồng người dùng để đảm bảo rằng dữ liệu được thu thập là đại

diện và phản ánh đúng mong muốn của người sử dụng cuối cùng, đây là công việc tốn rất

nhiều công sức và tải nguyên.

Mặc dù có rất nhiều thuật toán video summarization được đề xuất [4], tuy nhiên, việc đánh

giá các thuật toán video summarization trên dữ liệu camera giám sát chưa được quan tâm

nhiều Lý do chính là thiếu đữ liệu camera giám sát được gán nhãn cho các cảnh quan

trọng trong video Tuy nhiên, việc thu thập và tạo ra các tập dữ liệu này là một công việc

tốn thời gian và công sức Đề tạo ra một tập dữ liệu camera giám sát có nhãn, cần phải thu thập một lượng lớn video từ các hệ thống giám sát an ninh Sau đó, cần phải xem xét từng

Trang 11

video va gan nhãn cho các cảnh quan trong Day là một công việc tôn thời gian va công

sức, đặc biệt là đôi với các video có độ dài lớn hoặc phức tạp.

Hướng tiếp cận:

Cách tiếp cận dùng transformer [1, 2, 3, 4] cho bài toán video summarization dang là cach

tiếp cận tiên tiến hiện nay Y tưởng chính là sử dung transformer để học được các mối quan hệ giữa các khung hình trong video Transformer có thê học được các mối quan hệ này bằng cách sử dụng một mạng attention đề tính trọng số cho các khung hình khác nhau Các khung hình có mối quan hệ chặt chẽ với nhau sẽ có trọng số cao hơn, và các khung hình có mối quan hệ lỏng lẻo hơn sẽ có trọng số thấp hơn Cách tiếp cận này có một số ưu điểm so với các cách tiếp cận trước đây Thứ nhất, transformer có thé học được các mối quan hệ phức tạp giữa các khung hình, điều này có thé giúp tạo ra các video tóm tắt chính xác hơn Thứ hai, transformer có thé được dao tạo trên các tập dữ liệu lớn, điều nảy có thé giúp cải thiện hiệu suất của các video tóm tắt.

Mục tiêu của khoá luận là:

e Tim hiêu về cách tiêp cận dùng transformer cho bai toán video summarization.

e Phân tích các ưu điêm và hạn chê của cách tiép cận này.

e Xây dung tập dir liệu và công cụ đê trực quan hóa, thông kê dữ liệu.

Dé đạt được các mục tiêu nay, khoá luận sẽ thực hiện các nghiên cứu sau:

e Nội dung 1: Tìm hiểu về cách tiếp cận dùng transformer cho bài toán video

Summarization.:

- Khai niệm, cấu trúc, nguyên lý hoạt động cua transformer [1].

- _ Các phương pháp chuyền giao sử dung Transformer từ lĩnh vực Xử lý ngôn

ngữ tự nghiên sang thị giác máy tính.

- Ap dụng mô hình Transformer đơn giản (Simple Transformer) cho bài toán

Video Summerization và so sánh với phương pháp Summarizing Videos

with Attention [3] (VASNet), Tìm hiểu về nguyên lý hoạt động và ưu/nhược điểm hiện tại của từng phương pháp.

e Nội dung 2: Xây dựng tập dữ liệu surveillance camera phục vụ cho việc đánh giá:

- Thu thập dữ liệu camera giám sát (camera an ninh công cộng) từ trên

Youtube, dữ liệu phải đảm bảo về số lượng video, độ sắc nét, nội dung là camera giám sat vả có 1 đến 2 sự kiện trong video

Trang 12

- _ Xử lý đữ liệu: Dữ liệu can được xử lý dé loại bỏ các khung hình bị nhiễu

hoặc không liên quan.

- Gan nhãn đữ liệu: Dữ liệu cần được gán nhãn dé xác định các khung hình

quan trọng trong video.

- Luu trữ dé liệu: Dữ liệu cần được lưu trữ có cấu trúc dé thuận lợi cho các

cộng việc tiếp theo.

- _ Xây dựng công cụ dé trực quan hóa và thống kê dit liệu: Công cụ trực quan

hóa và thống kê dữ liệu cần được xây dựng đề giúp người dùng dễ dàng hiểu

và phân tích dữ liệu Công cụ này có thể bao gồm các tính năng sau: trực

quan hóa đữ liệu dưới dạng biểu đồ, đồ thị; thống kê các đặc điểm của dit liệu, chăng hạn như độ dài video, số lượng khung hình, v.v.

e Nội dung 3: Đánh giá các thuật toán video summarization dùng transformer trên

tập dữ liệu TVSum và trên tập dữ liệu surveillance camera được xây dựng:

- _ Triển khai và huấn luyện các mô hình của từng thuật toán đã tìm hiểu trên

các tập dữ liệu.

- Đánh giá mô hình đã được huấn luyện dựa trên các chỉ số: F1-Score,

Kendall’s Tau, Spearman (Rethinking the Evaluation of Video Summaries

[5]).

- Phan tích các ưu điểm và hạn chế của các thuật toán dựa trên kết quả đánh

giá thực nghiệm.

Nghiên cứu mong đợi sẽ đạt được những kết quả sau:

e Tổng quan về cách tiếp cận dùng transformer cho bai toán video summarization:

Bao cáo sẽ trình bày tong quan về cách tiếp cận dùng transformer cho bài toán video summar1zation, bao gồm các khái niệm cơ bản, cấu trúc, nguyên lý hoạt động, các

ưu điểm và hạn chế.

e Đánh giá các thuật toán sử dung: Báo cáo sẽ đánh giá các thuật toán sử dung

transformer cho bai toán video summarization trên tập dữ liệu surveillance camera.

Đánh giá sẽ được thực hiện dựa trên các chỉ số: Fl-Score, Kendall’s Tau, Spearman.

e Ung dung công cu trực quan hóa và thong kê đữ liệu: Báo cáo sẽ trình bày ứng

dụng công cụ trực quan hóa và thông kê dit liệu dé phân tích tập dữ liệu surveillance camera và kết quả đánh giá các thuật toán.

TÀI LIỆU THAM KHẢO:

[1] Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A.N., & Polosukhin, I (2017) Attention is all you need Advances in neural information processing systems, 30.

Trang 13

[2] Hsu, T C., Liao, Y S., & Huang, C R (2023) Video Summarization With Spatiotemporal Vision Transformer IEEE Transactions on Image Processing.

[3| FaJtl, J., Sokeh, H S., Argyriou, V., Monekosso, D., & Remagnino, P (2019) Summarizing videos with attention In Computer Vision—ACCV 2018 Workshops: 14th Asian Conference on Computer Vision, Perth, Australia, December 2—6, 2018, Revised Selected Papers 14 (pp 39-54) Springer International Publishing.

[4] Neimark, D., Bar, O., Zohar, M., & Asselmann, D (2021) Video transformer network.

In Proceedings of the IEEE/CVF international conference on computer vision (pp 3172).

3163-[5] Otani, M., Nakashima, Y., Rahtu, E., & Heikkila, J (2019) Rethinking the evaluation

of video summaries In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp 7596-7604).

[6] Apostolidis, E., Adamantidou, E., Metsai, A I., Mezaris, V., & Patras, I (2021) Video summarization using deep neural networks: A survey Proceedings of the IEEE, 109(11), 1838-1863.

Kế hoạch thực hién:(M6 ta tom tắt kế hoạch làm việc và phân công công việc cho từng

sinh viên tham gia)

Thời gian Nội dung công việc

Tháng 9 Thu thập dữ liệu surveillance camera.

Khảo sát va tìm hiêu các thuật toán trong lĩnh vực video

Tháng 11 Huan luyện các mô hình bang dataset tự xây dựng.

Đánh giá và so sánh kêt quả thực nghiệm của các mô hình.

Trang 14

Tháng 12

dựng.

Từ kết quả thực nghiệm, phân tích ưu/nhược điểm của các thuật toán

đối với tập dữ liệu TVSum và trên dữ liệu camera giám sát tự xây

Việt báo cáo và hoàn thiện đê tài.

Trang 15

Mục lục

1 Giới thiệu 2

12_ Mô tả bài toán tóm tắtvideol - 3

1.3 Thách thức với dư liệu video giám sát| 5

1.3.1 Thách thức chung đối với bài toán tóm tat video}

1.3.2 Thách thức đôi với dữ liệu video camera giám sát

(surveil-¬ ry Arr 7

1.4 Mục tiêu, nội dung, kế hoạch nghiên cứu 8

1.5 Nội dung và phương pháp nghiên cứu| 8

1.5.1 Nội dung 1: Tìm hiểu về cách tiếp cận dùng transformer

cho bài toán video summarization.} 8 1.5.2 Nội dung 2: Xây dung tập dư liệu surveillance camera

phục vụ cho việc đánh gia} 8

2 Tong quan 12

2.1 Các nghiên cứu gần đây Ặ co 12

Trang 16

hình sự phụ thuộc thời gian giữa các khung hình

(tem-poral dependency) 12

2.1.2 Học tam quan trọng của khung hình bang cách lập mô

hình cấu trúc không - thời gian của video

(spatialtem-ne 14

2.1.3 Học cách tóm tắt bằng cách đánh lừa bộ phân biệt đối

2.3.1 Các phương pháp chuyển giao Transformer trong

Trang 17

5_ Xây dựng bộ dư liệu video camera giám sát 56

51 Thuthậpdữliệu 56

52 Chuẩnhóa dữ liệu 58

5.3 Gán nhãn dữ liệu| 60

54 Lưutrữdữ liệu 00.0 ee ee es 62 5.5 Tao file splits} 2 0.2.0.0 000000 eee ee 63

Trang 18

Danh sách hình ve

1.1 Video summarization pipeline sử dụng deep learning model [4]] 4

đối xử (discriminator) khi cô gang phân biệt bản tóm tat do

máy tao ra với bản tóm tắt do con người tạo ra [4]

2.4_ Tỉ lệ xuất bản bài báo của Transformer trên các lĩnh vực [7||

2.5 Mô hình Vision Transformer (Vil) - Sử dụng phương pháp

patch embedding chuyển đổi hình ảnh thành thành chuỗi để

2.6 Mô hình CNN-Swin - Kiến trúc kết hợp CNN và Swin

3.1 Mô hình Transformer [28|[ - 27

3.2_ Minh họa cơ chế Attention [l|| - 29

3.3 Scale Dot-Product Attention (trai) và Multi-Head Attention (phải)

8| rr So 30

3.4 Minh họa cách tính ham Attention [1|| 31 3.5 Minh họa cách tính Multi-Head Attention [1]| 32 3.6 Vị trí cua mạng Position-wise Feed-Forward [28|| 34 3.7 Minh họa sử dung positional encoding vector [1J| 35

38 Mo hinh GoogLeNet |27]Ï 38

Trang 20

1| -Danh sách bang

Trang 21

Danh sách từ viết tắt

VSUM Video Summarization

RNN Recurrent Neural Network

CNN Convolutional Neural Network

CV Computer Vision

NLP Natural Language Processing

LSTM Long Short-Term Memory

FFN Feed-Forward Network

GAN Generative Adversarial Network

VIN Vision Transformer Network

Trang 22

Tóm tắt khóa luận

Khóa luận này nghiên cứu về việc tạo video tóm tắt từ video camera giám sát sử dụng cách tiếp cận transformer Các mô hình tạo video tóm tắt có thể giúp người dùng xem lại các video giám sát một cách ngắn gọn và hiệu quả

hơn.

Khóa luận xây dung một bộ dt liệu camera giám sát được gan nhãn gồm

12 video, mỗi video dài từ 1-5 phút; xây dựng các công cụ thống kê và trực

quan hóa dữ liệu để phục vụ cho quá trình thực nghiệm Các công việc này

có thể được sử dụng lại để tiếp tục các nghiên cứu sau này.

Khóa luận tìm hiểu về kiến trúc transformer, phương pháp chuyển giao

sử dụng Transformer trong lĩnh vực Thị giác máy tính, tìm hiểu các mô hình

tóm tắt video sử dụng transformer, ưu điểm và nhược điểm so sánh với các

phương pháp trước đây.

Khóa luận cũng thực hiện các đánh giá thực nghiệm để đánh giá hiệu suất

của mô hình VASNet và mô hình dé xuất Simple Transformer network trong việc tóm tắt video Các đánh giá được thực hiện trên bộ dữ liệu TVSum và bộ

dữ liệu video giám sát tự xây dựng với ba chỉ số đánh giá: F1-Score, Kendall’s

Tau và Spearman’s Rho.

Tôi hy vọng rằng, những nghiên cứu của tôi sẽ góp phan thúc đẩy su phát triển của lĩnh vực tạo video tóm tắt từ video camera giám sát, giúp người

dùng dé dàng xem lại video giám sát, giúp phát hiện các sự kiện quan trong

và dễ dàng hơn trong việc phân tích dữ liệu video giám sát.

Trang 23

Chương 1

Giới thiệu

1.1 Đặt vẫn de

Hiện nay, lượng video trên internet đang ngày càng tăng lên với tốc độ chóng

mặt Theo thống kê của Cisco, lượng video chiếm tới 82% tổng lượng đữ liệu

trên internet trong năm 2023 [26] Điều này dẫn đến một số van dé như:

© Tăng dung lượng lưu trữ: Các hệ thống lưu trữ video phải đáp ứng nhu

cầu lưu trữ ngày càng tăng của người dùng Điều này có thể gây ra áplực lớn cho các hệ thống lưu trữ, đặc biệt là trong các lĩnh vực như giámsát, an ninh, giáo dục, giải trí Ví dụ, một hệ thống giám sát an ninh cóthể ghi lai video từ hàng trăm hoặc thậm chi hàng nghìn camera Nếumỗi video có độ dài 1 giờ, thì hệ thống này sẽ cần lưu trữ hàng terabyte

dữ liệu video Điều này có thể gây ra áp lực lớn cho hệ thống lưu trữ và

có thể làm tăng chỉ phí lưu trữ

se Tăng thời gian truy vấn: Việc truy vấn video cũng trở nên chậm chap

hơn do dung lượng video ngày càng lớn Điều này có thể gây khó khăncho người dùng trong việc tìm kiếm và xem video Ví dụ, để tìm mộtvideo cụ thể trong một hệ thống lưu trữ có hàng terabyte dữ liệu video,cần phải mất nhiều thời gian để quét toàn bộ dữ liệu Điều này có thểkhiến người dùng mat kiên nhẫn và có thé dẫn đến việc người dùng bỏ

qua các video quan trọng.

Trang 24

Chương 1 Giới thiệu 3

Vì vậy, nhu cầu tối ưu dung lượng lưu trữ và thời gian truy vấn video,nhất là với các video dài mà chỉ chứa một phần nhỏ thông tin quan trọng nhưvideo giám sát Điều này là tiền dé cho sự phát triển của các nghiên cứu liên

quan đến bài toán tóm tắt video.

1.2 Mô tả bài toán tóm tắt video

Tóm tắt video (video summarization) là bài toán thu gọn một video dài thành

một video ngắn hơn, vẫn giữ lại các thông tin quan trọng nhất của video gốc.Bài toán này có nhiều ứng dụng trong các lĩnh vực như giám sát, an ninh,

giáo dục, giải trí.

Trong khóa luận nay, dữ liệu video được sử dụng là video giám sát, cụ

thể là video camera an ninh được lắp đặt tại các khu vực công cộng Video sẽ

được giản lược sao cho vẫn giữ được những nội dung quan trọng trong video

và tạo ra bản tóm tắt.

® Input: Một đoạn video giám sát.

* Output: Một video ngắn hơn, giữ lại được những nội dung quan trọng.

Trong lĩnh vực giám sát, video summarization có thể được sử dụng để:

e Giảm bớt dung lượng lưu trữ video: Các hệ thống giám sát thường sử

dụng camera để ghi lại hình ảnh từ nhiều vị trí khác nhau Điều này dẫnđến việc tạo ra một lượng lớn dữ liệu video, gây ra áp lực lớn cho hệthống lưu trữ Video summarization có thể giúp giảm bớt dung lượnglưu trữ video bằng cách trích xuất các đoạn video ngắn đại điện cho toàn

bộ video đài.

e Tăng cường hiệu quả phân tích video: Việc phân tích video dài có thé

tốn nhiều thời gian và công sức Video summarization có thể giúp tăng cường hiệu quả phân tích video bang cách cung cấp cho người dùng một

cái nhìn tổng quan về toàn bộ video Điều này giúp người dùng dé dàng

Trang 25

Chương 1 Giới thiệu 4

xac dinh cac su kién quan trong trong video va tiết kiệm thời gian trong

việc phân tích video.

© Tăng cường an ninh: Video summarization có thể được sử dụng để phát

hiện các sự kiện bất thường trong video, chẳng hạn như trộm cắp, au đả.

Điều này có thể giúp tăng cường an ninh và bảo vệ tài sản.

Trang 26

Chương 1 Giới thiệu 5

1.3 Thách thức với dư liệu video giám sát

1.3.1 Thách thức chung đối với bài toán tóm tat video

Tóm tat video là một bài toán khó trong thị giác máy tính Muốn đạt được hiểu quả tối đa, bài toán này yêu cầu hệ thống phải hiểu nội dung của video,

bao gồm cả nội dung của hình ảnh và âm thanh, sau đó tạo ra một bản tómtắt văn bản ngắn gọn, súc tích nhưng vẫn truyền tải được thông tin chính của

video Có một số thách thức chung đối với bài toán tóm tắt video, bao gồm:

° Độ phức tạp của nội dung video: Video có thể chứa nhiều thông tin, bao

gồm cả nội dung văn bản, hình ảnh, âm thanh Hệ thống tóm tắt video

cần phải có khả năng xử lý và hiểu tất cả các loại thông tin này

¢ Sự đa dạng của các loại video: Có nhiều loại video khác nhau, mỗi loại

có những đặc điểm riêng Ví dụ, video tin tức thường có nội dung ngắn

gọn, súc tích, trong khi video giải trí có thể dài hơn và có nhiều nội dungchỉ tiết hơn Hệ thống tóm tắt video cần phải có khả năng thích ứng với

các loại video khác nhau.

¢ Sự chủ quan của nội dung video: Nội dung của video có thể bị ảnh

hưởng bởi quan điểm của người tạo video Hệ thống tóm tắt video cần

phải có khả năng loại bỏ những thông tin chủ quan, chỉ giữ lại những

thông tin khách quan.

Trong đó, thách thức lớn nhất là làm thế nào để định rõ đâu mới là "nộidung quan trọng" Khái niệm về "nội dung quan trọng", không chỉ là mơ hồ

mà còn phụ thuộc rất nhiều vào cá nhân và sở thích của họ Điều này dẫnđến khó khăn trong việc xây dựng một bộ dữ liệu đáng tin cậy để hỗ trợ các

nghiên cứu, yêu cầu nhiều công sức và sự tập trung cao Sự quan trọng có

thể biến đổi tùy thuộc vào người xem và nhu cầu cá nhân của họ đối với nộidung video Xác định điều này đòi hỏi sự hiểu biết sâu rộng về ngữ cảnh vàđối tượng của video, điều mà không phải lúc nào cũng dé dàng thu thập được

Trang 27

Chương 1 Giới thiệu 6

từ các nguồn dữ liệu Điều này dẫn đến các nhà nghiên cứu phải đối mặt vớithách thức lớn trong việc tạo ra các bộ dữ liệu đủ chính xác và tin cậy để phục

vụ cho quá trình nghiên cứu Việc này đôi khi đòi hỏi sự hợp tác với cộng

đồng người dùng để đảm bảo rằng đữ liệu được thu thập là đại điện và phan ánh đúng mong muốn của người sử dụng cuối cùng, đây là công việc tốn rất

nhiều công sức và tài nguyên

Để giải quyết vấn dé này, các nhà nghiên cứu phải tìm đến các phươngpháp nhắm giảm thiểu tính chủ quan của người dùng khi xác định đâu là nộidung quan trọng ở trong một video Một số phương pháp được đề xuất là:

Sử dụng các thuật toán học máy

Các thuật toán học máy có thể được sử dụng để phân tích các đặc trưng của

video như sau:

e Âm thanh: cường độ âm thanh, tần số, độ cao,

e Hình ảnh: màu sắc, độ tương phản, độ nét,

® Ngôn ngữ: từ ngữ, ngữ pháp, ngữ nghĩa,

Sử dụng các tiêu chí xác định nội dung quan trọng

Các tiêu chí sau có thể được sử dụng để đánh giá mức độ quan trọng của nội

dung trong video:

© Mức độ liên quan đến chủ dé của video

¢ Mức độ mới mẻ của nội dung

© Mức độ thuyết phục của nội dung

Trang 28

Chương 1 Giới thiệu 7

Su dung sự tham gia của người dung

Người dùng có thé tham gia vào quá trình xác định nội dung quan trọng

thông qua các phương tiện như cuộc khảo sát, đánh giá,

Các phương pháp trên đều có ưu điểm và nhược điểm riêng:

s Thuật toán học máy: Độ chính xác cao, nhưng đòi hỏi lượng dữ liệu lớn

1.3.2 Thách thức đối với dữ liệu video camera giám sát

(surveil-lance camera video)

Bên cạnh những thách thức chung trong bài toán video summaization, bai

toán tóm tắt dữ liệu video giám sát cũng gặp phải nhiều thách thức khác.

Mặc dù có rất nhiều thuật toán video summarization được đề xuất [4], tuy

nhiên, việc đánh giá các thuật toán video summarization trên dữ liệu camera

giám sát chưa được quan tâm nhiều Lý do chính là thiếu dữ liệu camera giám

sát được gán nhãn cho các cảnh quan trọng trong video Tuy nhiên, việc thu

thập và tạo ra các tập dữ liệu này là một công việc tốn thời gian và công sức

Để tạo ra một tập dữ liệu camera giám sát có nhãn, cần phải thu thập một

lượng lớn video từ các hệ thống giám sát an ninh Sau đó, cần phải xem xét

từng video và gán nhãn cho các cảnh quan trọng Đây là một công việc tốn

thời gian và công sức, đặc biệt là đối với các video có độ dài lớn hoặc phức

tạp.

Trang 29

Chương 1 Giới thiệu 8

1.4 Mục tiêu, nội dung, kế hoạch nghiên cứu

1.4.1 Mục tiêu

Mục tiêu của khoá luận là:

© Tìm hiểu về cách tiếp cận dùng transformer cho bài toán video

summa-rization.

© Phân tích các ưu điểm và hạn chế của cách tiếp cận này

° Xây dựng tập dữ liệu và công cụ để trực quan hóa, thông kê dữ liệu

1.5 Nội dung và phương pháp nghiên cứu

1.5.1 Nội dung 1: Tìm hiểu về cách tiếp cận dùng transformer

cho bài toán video summarization.

Tìm hiểu kiến thức về:

e Khái niệm, cấu trúc, nguyên lý hoạt động của transformer [28]

* Các phương pháp chuyển giao sử dung Transformer từ lĩnh vực Xử ly

ngôn ngữ tự nghiên sang thị giác máy tính

¢ Áp dụng mô hình Transformer đơn giản (Simple Transformer) cho bài

toán Video Summerization và so sánh với phương pháp Summarizing

Videos with Attention [9 (VASNet) Tìm hiểu về nguyên lý hoạt động va

ưu/nhược điểm hiện tại của từng phương pháp

1.5.2 Noi dung 2: Xây dựng tập du liệu surveillance camera

phục vụ cho việc đánh giá.

Thu thập, xử lý, gan nhãn và lưu trữ dw liệu:

Trang 30

Chương 1 Giới thiệu 9

se Thu thập dữ liệu camera giám sát (camera an ninh công cộng) từ trên

Youtube, dữ liệu phải đảm bảo về số lượng video, độ sắc nét, nội dung

là camera giám sát và có 1 đến 2 sự kiện trong video

° Xử lý dữ liệu: Dữ liệu cần được xử lý để loại bỏ các khung hình bị nhiễu

hoặc không liên quan.

se Gan nhãn dữ liệu: Dữ liệu cần được gán nhãn để xác định các khung

hình quan trọng trong video.

se Lưu trữ dữ liệu: Dữ liệu cần được lưu trữ có cau trúc để thuận lợi cho

các cộng việc tiếp theo

Xây dựng công cu để trực quan hóa và thống kê dix liệu: Công cụ trực

quan hóa và thống kê dữ liệu cần được xây dựng để giúp người dùng dễdàng hiểu và phân tích dữ liệu Công cụ này có thể bao gồm các tính năng

sau:

e Trực quan hóa dữ liệu dưới dạng biểu dé, dé thị, v.v

e Thống kê các đặc điểm của dữ liệu, chẳng hạn như độ dài video, số

lượng khung hình, v.v.

1.5.3 Nội dung 3: Đánh giá các thuật toán video

summariza-tion dùng transformer trên tập dư liệu TVSum và trên tap du liệu surveillance camera được xây dựng.

Triển khai và huấn luyện các mô hình: Các mô hình của từng thuật toán đã

tìm hiểu cần được triển khai và huấn luyện trên các tập dữ liệu

Đánh giá các mô hình đã được huan luyện dựa trên các chỉ số:

© F1-Score: F1-Score là một chỉ số đánh giá độ chính xác và độ day đủ của

mô hình.

Trang 31

Chương 1 Giới thiệu 10

® Kendall’s Tau: Kendall’s Tau là một chỉ số đánh giá độ tương quan giữa

các khung hình được chọn bởi mô hình và các khung hình được đánh

dau bởi người dùng

® Spearman: Spearman là một chỉ số đánh giá độ tương quan giữa các

khung hình được chọn bởi mô hình và các khung hình được đánh dấu

bởi người dùng.

Phân tích các ưu điểm và hạn chế của các thuật toán dựa theo kết quả

đánh giá.

1.6 Cấu trúc khóa luận

Trong giai đoạn luận văn đề tài nhóm đã thực hiện được một số công việc liên

quan sẽ trình bày trong báo cáo như sau:

e Chương 1: Giới thiệu: giới thiệu tổng quan về nhận diện hướng nhìn,

cũng là chương hiện hành Trong chương này sẽ đưa đến cái nhìn tổngquát về dé tài, tiềm năng và ứng dụng thực tế trong tương lai

e Chương 2: Tổng quan: tổng quan một số công trình nghiên cứu liên quan

tới dé tài mà nhóm tìm hiểu, các hướng tiếp cận cho bài toán hiện nay,đặc điểm và ứng dụng của các phương pháp

e Chương 3: Cơ sở lí thuyết: giải thích các kiến thức nên tảng

e Chương 4: Hướng tiếp cận: trình bày các hướng tiếp cận nhóm nghiên

cứu để giải quyết bài toán tóm tắt video giam sát và phương pháp xây

dựng bộ dữ liệu camera giám sát.

se Chương 5: Xây dựng bộ du liệu camera giám sát: trình bày các bước thực

hiện việc thu thập, chuẩn hóa và gán nhán bộ dữ liệu camera giám sát

e Chương 6: Thực nghiệm: trình bay các kết quả thực nghiệm

Trang 32

Chương 1 Giới thiệu 11

e Chương 7: Tổng kết: tổng kết những công việc nhóm đã làm được, đánh

giá và định hướng kế hoạch mà nhóm tiếp tục phát triển trong khóa

luận.

Trang 33

Chương 2

lông quan

2.1 Các nghiên cứu gan đây

Gần đây, có sự gia tăng đáng kể trong các nghiên cứu về việc tóm tắt video,

đặc biệt là trong lĩnh vực tóm tắt video sử dụng các ki thuật deep learning.Đối với các nghiên cứu này, có thể phân chia chúng thành ba hướng chính

như sau [4]:

2.1.1 Học tầm quan trọng của khung hình bang cách lập mô

hình sự phụ thuộc thời gian giữa các khung hình

(tem-poral dependency)

Các phương pháp trong hướng tiếp cận này có thể chia thành hai nhóm: nhóm

phương pháp dựa trên mạng LSTM, RNN và nhóm phương pháp dựa trên

có chế chú ý (attention mechanism) Với nhóm phương pháp dựa trên mang

LSTM và RNN, các phương pháp này sử dụng mạng LSTM hoặc RNN để mô

hình mối quan hệ phụ thuộc thời gian giữa các khung hình, sau đó sử dụngmột mô hình khác để ước tính độ quan trọng của từng khung hình Ưu điểmcủa nhóm phương pháp này là linh hoạt, xử lý phụ thuộc biến đổi tốt, nhưngnhược điểm là tính toán phức tạp Có thể kể đến một số đại điện như:

Trang 34

Chương 2 Tổng quan 13

® LSTM [13]: Sử dụng mang LSTM dé mô hình mối quan hệ phụ thuộc

thời gian giữa các khung hình, ước tính độ quan trọng bằng multi-layer

perceptron (MLP).

¢ Two-layer LSTM [32]: Lop 1 trích xuất thông tin cấu trúc video, lớp 2 ước

tính độ quan trọng từng đoạn, chọn đoạn video quan trọng.

® Hierarchical RNN (HRNN) [33]: Két hop 2 tang RNN dé nam bat phu

thuộc thời gian trong các phan cảnh nhỏ và toàn bộ video.

| LSTM | STM đồ STM

HÌNH 2.1: Mô hình tom tắt video sử dụng LSTM

Với nhóm phương pháp dựa trên có chế chú ý, các phương pháp này sửdụng cơ chế chú ý từ thuật toán Transformer để mô hình sự thay đổi quantâm của người dùng theo thời gian, sau đó sử dụng một mô hình khác để ước

Trang 35

Chương 2 Tổng quan 14

tính độ quan trọng của từng khung hình Ưu điểm của nhóm phương phápnày là lĩnh hoạt, thích ứng với người dùng, nhưng nhược điểm là tính toán

phức tạp Một số đại diện là:

e Attentive encoder-decoder networks for Video Summarization (AVS) [16]:

Xử ly tóm tắt video như bài toán học seq2seq, dùng LSTM kết hợp với

attention.

¢ Summarizing Videos with Attention (VASNet) [9]: Két hop mang

self-attention va mang fully connected dé ước tinh độ quan trọng khung

hinh.

2.1.2 Học tam quan trong của khung hình bằng cach lập mô

hình cấu trúc không - thời gian của video

(spatialtem-poral structure)

Nhóm phương pháp này chú ý đến cả mối quan hệ không gian và thời giangiữa các khung hình để đánh giá tầm quan trọng của chúng Bên cạnh trình tựkhung hình và đữ liệu đánh giá mức độ quan trọng từ người dùng, hệ thống

tóm tắt cũng phân tích các tương quan không gian-thời gian giữa các khung

hình (được thể hiện bằng các hình chữ nhật chấm cham và đường nét đứt

trong Hình 2.2) Các điểm quan trong (important score) dự đoán sau đó được

so sánh với dữ liệu thực tế để điều chỉnh quá trình huấn luyện Ưu điểm làtận dụng thông tin phong phú hơn về video, giúp đưa ra dự đoán tầm quantrọng của khung hình chính xác hơn, có thể xử lý video dài tốt hơn nhưngtính toán phức tap hơn Tiêu biểu là MerryGoRoundNet sử dụng kiến

trúc mã hóa-giải mã với LSTM convolution, hay Video Summarization With

Spatiotemporal Vision Transformer (STVT) [14] kết hop mang CNN và cơ chếchú ý của thuận toán Transformer để mô hình mối quan hệ không gian-thời

gian giữa các phần của video

Trang 36

Video frames

Frame importance scores according to users

HÌNH 2.2: Pipeline - Hoc tầm quan trọng của khung hình bằng

cách lập mô hình cau trúc không - thời gian của video

2.1.3 Học cách tóm tat bang cách đánh lừa bộ phân biệt đối

xử (discriminator) khi cô gang phân biệt ban tóm tat do

máy tạo ra với bản tóm tắt do con người tạo ra

Hướng nghiên cứu này chủ yếu sử dụng mạng đối nghịch tạo sinh

(Genera-tive Adversarial Network - GAN) để học cách thu hẹp khoảng cách giữa

Trang 37

Chương 2 Tổng quan 16

bản tóm tắt của máy và bản tóm tắt của người dùng Với GAN, hệ thống tóm tắt (Generator) lây chuỗi khung hình video làm đầu vào và dự đoán độ quan trọng của từng khung hình, cố gắng đánh lừa bộ phân biệt, khiến nó không thể phân biệt giữa tóm tắt của máy và của người dùng Cùng với tóm tắt tối

ưu được người dùng đánh giá (user summaries), những dự đoán này được

đưa vào bộ phân biệt (Discriminator) để đánh giá mức độ giống nhau giữa

chúng Khi bộ phân biệt không còn phân biệt chính xác được hai loại tóm tắt,

nghĩa là hệ thống tóm tắt đã tạo ra được tóm tắt video gần gũi với mong muốn

của người dùng Tuy nhiên, sức mạnh của GAN hạn chế trong lĩnh vực tóm

tắt video có giám sát (supervised video summarization), trong khi được thể hiện hiếu suất cao và sử dụng rộng rãi trong tóm tat video không có giám sát

(unsupervised video summarization) Một số nghiên cứu nổi bật trong hướng

nghiên cứu này là Fu et al (2019) và Zhang et al (2019) [31].

HÌNH 2.3: Pipeline - Học cách tóm tat bằng cách đánh lừa bộ phân

biệt đôi xử (discriminator) khi cô gắng phân biệt bản tóm tắt do

máy tạo ra với bản tóm tắt do con người tạo ra

Trang 38

Chương 2 Tổng quan 17

Cách tiếp cận dùng Transformer (28) [14] 922] cho bai toán video

summa-rization đang là một trong những cách tiếp cận tiên tiến hiện nay Ý tưởng

chính là sử dụng transformer để học được các mối quan hệ giữa các khung

hình trong video Transformer có thể học được các mối quan hệ này bằng cách

sử dụng một mạng attention để tính trọng số cho các khung hình khác nhau.

Các khung hình có mối quan hệ chặt chẽ với nhau sẽ có trọng số cao hơn, vacác khung hình có mối quan hệ lỏng lẻo hơn sẽ có trọng số thấp hơn Cáchtiếp cận này có một số ưu điểm so với các cách tiếp cận trước đây Thứ nhất,transformer có thể học được các mối quan hệ phức tạp giữa các khung hình,điều này có thể giúp tạo ra các video tóm tắt chính xác hơn Thứ hai, trans-former có thể được đào tạo trên các tập dữ liệu lớn, điều này có thể giúp cảithiện hiệu suất của các video tóm tắt

2.2 Giới thiệu về Transformer

Transformer là một mô hình kiến trúc trong lĩnh vực học máy, giới thiệubởi Ashish Vaswani và đồng nghiệp tại Google Research vào năm 2017 quabài báo "Attention is All You Need" Transformer đại diện cho một bước tiềnquan trọng về kiến trúc mô hình Transformer là một công cụ hữu ích trong

xử lý ngôn ngữ tự nhiên và sau này mở rộng sự ứng dụng của mình vào nhiều

lĩnh vực nghiên cứu khác, như computer vision.

Mô hình Transformer thể hiện mối quan hệ trong dir liệu thông qua cơchế self-attention, một đặc điểm quan trọng đưa ra nhờ đó mà mô hình có

khả năng nắm bắt thông tin phức tạp trong chuỗi dữ liệu Trong quá trình self-attention, mỗi từ được gán một vector trọng số attention, biểu thị mức độ

quan trọng của từng từ đối với từ đang được xem xét Việc này được thực hiện

đồng thời cho tất cả các từ trong chuỗi, không phụ thuộc vào thứ tự tuần tự.

Điều này giúp mô hình tự nhiên tập trung vào mối quan hệ xa và phi tuyến

tính trong dữ liệu Kết quả là, thông qua ma trận attention, mô hình tạo ra

biểu diễn nâng cao cho từng từ, kết hợp thông tin quan trọng từ tất cả các

Trang 40

Chương 2 Tổng quan 19

phần khác nhau của chuỗi Cơ chế self-attention này đóng vai trò quan trọngtrong việc xử lý ngôn ngữ tự nhiên và ứng dụng hiệu quả trong nhiều lĩnh

vực khác.

Một trong những đặc điểm quan trọng nhất của Transformer là khả năng

tính toán đồng thời (parallel computation), đặc biệt là trong quá trình xử lý

đữ liệu đầu vào Điều này đại điện cho một bước tiến lớn so với các mô hìnhtruyền thống như Recurrent Neural Network (RNN) hay Long Short-TermMemory (LSTM) phải xử lý dữ liệu theo thứ tự tuần tự Khả năng tính toánđồng thời giúp Transformer tận dụng tốt các tài nguyên tính toán và phầncứng song song hiện đại Điều này mang lại hiệu suất tính toán cao và tăngtốc quá trình huấn luyện, đặc biệt khi xử lý dt liệu lớn Mô hình có thể xử lýnhiều vùng dữ liệu cùng một lúc, giảm đáng kể thời gian đào tạo so với các

mô hình tuần tự

Thành tựu trong Machine Translation:

¢ Google’s Neural Machine Translation GNMT) [29]: Sử dụng kiến trúc

Transformer, GNMT đã đạt được kết qua dich máy tốt, với khả năng xử

lý cú pháp ngôn ngữ phức tạp và cải thiện đáng kể so với các mô hình

trước đó.

¢ OpenAl’s GPT-3 (Generative Pre-trained Transformer 3) [6]: Mặc dù

GPT-3 được thiết kế chủ yếu cho các nhiệm vụ xử lý ngôn ngữ tu nhiên,nhưng mô hình này cũng có thể được sử dụng cho dịch máy Với kíchthước lớn và khả năng học đa nhiệm, GPT-3 có thể tạo ra các dịch máychất lượng cao cho nhiều ngôn ngữ

® Transformer-based Models for Specific Languages [21}: Nhiều mô hình

Transformer đã được phát triển cho các ngôn ngữ cụ thể, như BERT(Bidirectional Encoder Representations from Transformers) cho tiếng Anh

và các ngôn ngữ khác, đem lại kết quả dịch tốt và đa dạng

Ngày đăng: 02/10/2024, 02:29