¢ Tham gia xây dựng phương pháp có thể giải quyết bài toán tóm các sự kiện quan trọng của nhân vật trong phim dựa trên nhận diện gương mặt, audio to text và video captioning.. « Về yêu c
Video Captioning
Video captioning có nhiệm vu mô ta nội dung hình anh từ video đầu vào. Như vậy nó yêu cầu một thuật toán và mô hình "the spatial-temporal dynamics
" trong video, cũng như mối quan hệ giữa hình ảnh và văn bản đẻ tạo một chuỗi các từ đầu ra Dựa vào video đầu vào, chúng tôi sử dụng nhóm sử dụng hệ thống
SWINBERT: End-to-End Transformers with Sparse Attention [19] để tạo cap- tion cho video.
3 Xây dựng hệ thông tóm tắt sự kiện của nhân vật trong phim.
| Caption Generation Module — t Ì Stop Gradient
U U U U U U L U U U over Long Video Sequence Inputs
Hình 3.7: So sánh giữa các phương pháp trước va SWINBERT.
Khác biệt với các nghiên cứu trước sử sụng trích xuất đặc trưng 2D/3D, SWINBERT sử dung “Video transformer” làm bộ encoder cho video đầu vào va dùng nó cho mô hình “end-to-end Transformer-based” để làm video captioning. Bên cạnh đó, SWINBERT đề xuất cách học “Sparse attention mask” để cải thiện mô hình “Long-range video sequence”.
Method MSVD | YouCook2 | MSRVTT | TVC | VATEX
Bảng 3.2: So sánh với các phương pháp hiện đại trên tat cả các bộ dữ liệu video cap- tioning trên chỉ số CIDERr
3 Xây dựng hệ thông tóm tắt sự kiện của nhân vật trong phim.
Masked Language Modeling : Sparse Attention Mask œứa1s> [| [] O00000000000008
Hình 3.8: Tổng quan framework ¢ Kiên trúc mô hình:
Hình 3.8 cho thấy tổng quan của mô hình đề xuất SWINBERT lấy một chuỗi các khung hình video thô như khi đặt, sau đó xuất ra một mô tả bằng ngôn ngữ tự nhiên mô tả video đầu vào SWINBERT bao gồm hai mô- đun: Video Swin Transformer (VidSwin), and Multimodal Transformer
Encoder Đầu tiên, nhóm tác giả tận dung VidSwin để giải nén biểu diễn video không gian-thời gian từ video đầu vào Sau đó, Multimodal Trans- former Encoder sẽ làm đầu vào cho các biểu diễn video và xuất ra một câu ngôn ngữ tự nhiên thông qua quá trình tạo trình tự theo trình tự (seq2seq).
Từng module sẽ được mô tả chi tiết như dưới:
Với video đầu vào với kích thước T x H x W x 3, bao gồm T frames va H x W x 3 pixels Cung cấp cho VidSwin và trích xuất các grid features từ khối mã hoá cuối cùng của VidSwin Các grid feature của
VidSwin có kích thước 4 x 4 x 3; x 8C, trong đó C là kích thước kênh Tiếp theo mã hoá các grid features theo kích thước kênh, kết quả cho ra tổng 4 x 4 X 3; 55 X 35 Video tokens Với mỗi token là một 8C-
3 Xây dựng hệ thông tóm tắt sự kiện của nhân vật trong phim. dim feature vector Sau đó, đưa các video tokens làm input cho Mul- timodal Transformer Encoder để khởi tao câu mô tả.
+ Tổng quan kiến trúc Video Swin Transformer:
Hình 3.9: Kiến trúc tổng thể của Video Swin Transformer
Kiến trúc tổng thể của Video Swin Transformer ở hình 3.9
Hình 3.10: Minh hoa 2 block Video Swin Transformer
3 Xây dựng hệ thông tóm tắt sự kiện của nhân vật trong phim.
Trong module này, sử dụng Transformer Encoder để tạo câu mô tả ngôn ngữ tự nhiên Cụ thể, nó có văn bản và hình ảnh đầu vào, bao gồm mô tả phụ đề được mã hoá và video tokens được tính toán từ VidSwin Tiếp theo, thực hiện seq2seq để tạo thành câu ngôn ngữ tự nhiên Với tinh thần như image captioning, sử dụng self-attention mask trong đó một caption token chỉ có thể attend cho các output tokens có sẵn.
Sparse Attention Mask Nhìn chung, video đầu vào dài hơn sẽ chứa nhiều thông tin hơn Tuy nhiên thì nhu cầu tính toán xử lý attention cũng sẽ tỉ lệ thuận với độ dài video đầu vào, vì thế nhu cầu tính toán sẽ bị giới hạn bởi video đầu vào. Mặt khác, khi xem xét bản chất của các thuộc tính video, khi lấy mẫu dày với các khung hình liên tiếp của video sẽ chứa những thông tin dư thừa và không liên quan Vì thế nhóm nghiên cứu SWINBERT giải quyết van dé này với Sparse Attention Mask có thể học được như một bộ điều chỉnh cho Multimodal Trans- former Encoder.
Như giới thiệu ở hình 3.8 đầu vào của Transformer được chia làm 2 phan: N word tokens and M video tokens Toàn bộ mặt nạ attention có thể được xác định kích thước : (W + M) x (N+M), với N là 50 và M = 5 x $Š X 33. Để có phụ đề video chính xác hơn, chúng tôi cấp phát mã thông báo văn bản với sự chú ý không hạn chế để họ có thể tận dụng các chỉ tiết trực quan Để giải quyết sự dư thừa trong số các mã thông báo video, chúng tôi áp đặt ràng buộc về độ thưa thớt lớp phủ trên đỉnh V bằng cách:
Trong đó A là siêu tham số chính quy hóa và Vị, ¡ là các giá trị kích hoạt của mặt nạ chú ý có thể học được V.
Trong quá trình học, ràng buộc thưa thớt sẽ chính quy hóa đào tạo mô hình để khám phá cấu trúc cơ bản của trình tự video Thông qua sự chú ý thưa thớt, mô
3 Xây dựng hệ thông tóm tắt sự kiện của nhân vật trong phim. hình học cách tăng cường các mối quan hệ quan trọng nhất giữa các mã thông báo khác nhau bằng cách giảm khả năng vô nghĩa kết nối, đồng thời tập trung nhiều hơn vào mã thông báo video đang hoạt động chứa thông tin không gian- thời gian phong phú Bằng cách này, mô hình có thể tạo ra các câu ngôn ngữ tự nhiên mang tính biểu cảm và mô tả hơn.
Nhận thấy nếu chỉ sử dụng các thuật toán thị giác máy tính để xử lí thông tin dữ liệu hình ảnh và video thì không đủ để giải quyết bài toán, do đó nhóm sử dụng thông tin văn bản của dữ liệu Cụ thể, lời thoại trong video và nội dung thông qua hình ảnh của video là nguồn dữ liệu rất quan trọng để xác định các sự kiện quan trọng trong cuộc đời của nhân vật Nhóm tiến hành xây dựng hệ thống so khớp văn bản giữa lời thoại và nội dung của từng phân đoạn để so khớp với tập train-set keyfact do TRECVID cung cấp Sau đây là trình bày chỉ tiết về từng bước thực hiện phương pháp: ằ Lời thoại
Lời thoại là dữ liệu văn bản ghi lại các câu nói của các nhân vật trong các tập phim Ở phần này nhóm có điều chỉnh so với đội NII UIT 2021, nhóm lấy tất cả lời thoại ở tất cả phân đoạn chứ không ánh xạ so với phân đoạn do có những phân đoạn chứa lời thoại ít nhưng lại là phân đoạn cần tim.
3 Xây dựng hệ thông tóm tắt sự kiện của nhân vật trong phim. name, sub
Calloused_Hands-48.shot_9,murmured the do richie wit a wetter to lar
Calloused_Hands-3.shot_19,saba teen groan a
Calloused_Hands-1l.shot_20,let's go get it i
Calloused_Hands-53.shot_14,and this damned greasy a
Điểmthờigian
Theo Bảng 4.3, thời gian tóm tắt nhân vật yêu cầu khá ngắn (thấp nhất 110 giây và cao nhất 190 giây) Nên nhóm quyết định thêm trọng số thời gian nhằm ưu tiên các phân đoạn chứa nội dung nhưng ngắn hơn Điểm thời gian = 1 - (Độ dài phân đoạn/ Độ dài tối đa video)
Tổng hợp độ quan trọng của phân đoạn
Để đơn giản hóa mô-đun tạo video tóm tắt, nhóm sinh viên đã kết hợp các loại điểm trên thành một điểm quan trọng bằng cách sử dụng một hàm tuyến tính như sau: score important = ml * x] + m2 * x2 + m3 * x3 + m4 * x4
Với ràng buộc: ml + m2 + m3 + m4 = l x1 : Điểm khuôn mặt
3 Xây dựng hệ thông tóm tắt sự kiện của nhân vật trong phim. x2 : Điểm nội dung phân đoạn x3 : Điểm lời thoại x4 : Điểm thời gian
Vì không thể biết loại điểm nào hiệu quả hơn, nhóm sinh viên đã chọn các bộ thông số (m1,m2,m3,m4) khác nhau cho bốn lượt submisson của mỗi nhân vật Theo đó, bộ trọng số của các loại điểm được sử dụng được mô tả trong bảng:
Bảng 3.3: Bộ trọng số của mỗi loại đặc trưng được sử dụng
Tạo video tóm tẮtC
Để tạo bản video tóm tắt, nhóm sinh viên tiến hành sắp xếp các phân đoạn theo điểm số độ quan trọng, sau đó chọn ra N phân đoạn có điểm số cao nhất sao cho tổng thời lượng của N phân đoạn nhỏ hơn thời gian tối đa cho phép của bản tóm tắt Sau đó tổng hợp các phân đoạn này thành video tóm tắt theo trình tự thời gian của video gốc.
3 Xây dựng hệ thông tóm tắt sự kiện của nhân vật trong phim.
Thời gian tóm tắt Video tóm tắt với thời gian tương ứng
Hình 3.15: Tạo video tóm tắt
THỰC NGHIỆM VÀ ĐÁNH GIÁ
4.1 Mở đầu Để hiểu rõ hơn về tập dữ liệu, cách đánh giá và độ chính xác của các phương pháp đã trình bày bên trên, trong chương này nhóm trình bày quá trình xây dựng tập dữ liệu, kết quả thực nghiệm và đánh giá so sánh các phương pháp Từ đó tìm ra những ưu nhược điểm của từng phương pháp.
4 THỰC NGHIỆM VÀ ĐÁNH GIÁ
time_of_scene (s) type video_name time_of_movie(hh:mmi:ss) | # scene - min | max | avg
Liberty_Kid 1:31:42 56 12 | 299 94 train | Llike_me 1:23:56 28 47 300 167 losing_ground 1:25:38 40 29 246 120 Memphis 1:18:39 47 17 | 294 97 Archipelago 1:50:04 57 21 389 113 Bonneville 1:32:39 41 19 269 124 test | ChainedforLife 1:29:28 38 15 370 136 heart_machine 1:23:37 28 22 | 451 158 Little_Rock 1:22:48 39 24 | 289 121
Bang 4.1: Bang tổng quát dữ liệu
time_of_scene (s) " „ video_name.character time_of_movie(hh:mm:ss) | # scene - # su kién chinh min | max | avg
1:23:56 28 47 | 300 167 Like_me.Kiya 12 losing_ground.Sarah_Rogers 1:25:38 40 29 246 120 15
Bảng 4.2: Tổng quan query tập train
4 THỰC NGHIỆM VÀ ĐÁNH GIÁ time_of_movie time_of_scene (s) video_name # scene - Duration (s)
(hh:mm:ss) min | max avg
ChainedforLife.Mabel 1:29:28 38 15 370 136 130 heart_machine.Cody 160
Tổng quan tập dữ liệu TRECVID MSUM2022
Trước khi đi vào cụ thể tập dữ liệu, chúng tôi làm rõ các sự kiện chính trong
TRECVID MSUM2022: ¢ Sự kiện chính là gì?
— Bat kỳ sự kiện quan trọng trong cốt truyện nhân vật.
— Bao quát vai diễn của nhân vật từ đầu đến cuối phim.
— Vi du: Từ nhân vật Jeremy trong phim “Super Hero” một sự kiện chính : + Charlie bullies Jeremy + Charlie and Jeremy fight at the playground + Jeremy’s mother reveals to the principle that Jeremy has a terminal illness
+ Jeremy gets admitted to the hospital
4 THỰC NGHIỆM VÀ ĐÁNH GIÁ
* Thống kê bộ sự kiện chính Dé có thể đưa ra các phương pháp tiếp cận với bài toán, nhóm tiến hành thống kê bộ sự kiện chính từ tập train cho sẵn 4.4 bao gồm các:
— Các sự kiện chính có sự xuât hiện của nhân vật ( Hau hét các sự kiện chính đều có sự xuât hiện của nhân vật)
— Các sự kiện chính là các câu mô tả hành động (Ví dụ Debbie is able to walk away from Byrd, Byrd attacks Debbie and Josh defends her)
— Các sự kiện chính liên quan đến lời thoại (Vi du Byrd lies to Debbie about prostitute)
Nhân vật Số sự kiện chính | Liên quan hành động | Liên quan lời thoại | Cả 2 | Không liên quan
Bang 4.4: Thống kê bộ sự kiện chính
Tập dữ liệu TRECVID MSUM 2022 gồm tập các phim được cấp phép từ Kinolorberedu Tập dữ liệu bao gồm 10 phim Cu thể mỗi phim sẽ bao gồm
1 hoặc 2 nhân vật chính cần tóm tắt với thời gian nhất định, cụ thể trong bang 4.1
4 THỰC NGHIỆM VÀ ĐÁNH GIÁ
Độ đo và tiêu chíđánhgiá
Độđochủquan
Dùng để uớc tinh nhịp độ và nhịp điệu của bản tóm tắt, được đánh giá trên thang đo 1-7 (càng cao càng tốt) Chỉ số này tốt khi các phân đoạn trong video liên tiếp, trôi chảy, cung cấp nội dung rõ ràng, không bị cắt giữa câu.
Contextuality
Dùng để uóc lượng ngữ cảnh của bản tóm tắt, được đánh giá trên thang đo1-7 (càng cao càng tốt) Chỉ số này tốt khi nội dung có cung cấp các trường hợp tạo thành một sự kiện, một sự bày tỏ hoặc ý tưởng, và nó có thể được hiểu và đánh giá đầy đủ.
Redundancy
Độ đokháchquan
Objecive-Al
Giá trị trung bình của ba độ đo chủ quan.
Precision thé hiện độ chính xác: phan trăm số sự kiện quan trong có trong bản tóm tắt là đúng so với số sự kiện được đưa vào ban tóm tắt.
Số sự kiện dự đoán đúng
Precision = ~ Se S kiện dự đoán
Objective-All thể hiện độ chính xác: phan trăm số sự kiện trong bản tóm tắt là đúng so với số lượng sự kiện quan trọng của nhân vật. ơ _ Số sự kiện dự đoỏn đỳng
Ob jective — All = Số sự kiện grouth truth
Đánh giá và kếtquả ee 49
Kết quả thực nghiệm trên một nhân vật
Để xem xét kết quả trong quá trình thực nghiệm, nhóm tiến hành tạo video tóm tắt của một nhân vật trong tập train với thời gian 120 giây tương ứng với 12 sự kiện chính (10 giây một sự kiện chính) mà TRECVID cung cấp. Kết quả được thể hiện như biểu đồ dưới đây:
4 THỰC NGHIỆM VÀ ĐÁNH GIÁ
Kết quả trên các trường hợp t = 120s
Trường hợp 1 Trường hợp 2 Trường hợp 3 Trường hợp 4 mObjective-All m= Presicion
Hình 4.1: Kết quả nhân vật trên các trường hợp với thời gian = 120s
Nhóm cũng thử nghiệm thêm ở thời gian 240 giây và 360 giây tương ứng
20 giây và 30 giây cho một sự kiên để xem xét kết quả khi thời gian tóm tắt thay đổi Kết qua thể hiện như biểu đồ dưới đây:
4 THỰC NGHIỆM VÀ ĐÁNH GIÁ
Kết quả trên các trường hợp t = 240s
Trường hợp 1 Trường hop 2 Trường hợp 3 Trường hợp 4
Hình 4.2: Kết quả nhân vật trên các trường hợp với thời gian = 240s
Kết quả trên các trường hợp t = 360s
Trường hop 1 Trường hợp2 Trường hợp3 Trường hợp 4 mObjective-All #Presicion
Hình 4.3: Kết quả nhân vật trên các trường hợp với thời gian = 360s
4 THỰC NGHIỆM VÀ ĐÁNH GIÁ
Từ kết quả ở 3 lần chạy thời gian tăng dan, cho thấy kết quả Objective-All đều tăng lần lượt từ 0,833 -> 0,166 -> 0,333 (Kết quả cao nhất trên từng lần chạy) Tuy nhiên, kết quả Precison có sự giảm ở trường hợp | trên 3 lần chạy (0,125 -> 0,0909 -> 0,075) là do khi tăng thời gian tóm tắt nhưng tỉ lệ số sự kiện dự đoán đúng lại tăng không cao.
Kết quả cuộc thi TRECVID trên tập test
Số sự kiện dự đoán | Số sự kiện dự đoán đúng | S6 sự kiện ground truth | Objective-All | Precision
HeartMachine-virginia | 25 2 11 0.182 0.080 bonneville-Arvilla 44 3 19 0.158 0.068 littlerock-Atsuko 56 9 19 0.474 0.161 littlerock-cory 49 4 16 0.25 0.082
Bang 4.5: Kết quả trường hợp 1
Số sự kiện dự đoán | S6 sự kiện dự đoán đúng | S6 sự kiện ground truth | Objective-All | Precision
HeartMachine-virginia | 25 1 11 0.091 0.04 bonneville-Arvilla Al 2 19 0.105 0.049 littlerock-Atsuko 45 10 19 0.526 0.222 litlerock-cory 44 7 16 0.438 0.159
Bang 4.6: Kêt quả trường hợp 2
Số sự kiện dự đoán | Sô sự kiện dự đoán đúng | S6 sự kiện ground truth | Objective-All | Precision
HeartMachine-virginia | 25 1 11 0.091 0.04 bonneville-Arvilla 41 2 19 0.105 0.049 littlerock-Atsuko 45 10 19 0.526 0.222 littlerock-cory 44 7 16 0.438 0.159
Bang 4.7: Kết quả trường hợp 3
4 THỰC NGHIỆM VÀ ĐÁNH GIÁ
Số sự kiện dự đoán | Số sự kiện dự đoán đúng | Sô sự kiện ground truth | Objective-All | Precision
HeartMachine-virginia | 24 2 11 0.182 0.083 bonneville-Arvilla 42 1 19 0.053 0.024 littlerock-Atsuko 49 10 19 0.526 0.204 littlerock-cory 44 5 16 0.312 0.114
Bảng 4.8: Kết quả trường hợp 4
Kết quả trung bình nhân vật trên các trường hợp
Hình 4.4: Kết quả trung bình trên các lần chạy
— Kết quả chênh lệch giữa các lần chạy là không cao, kết quả cao nhất là 0.2475 ở trường hợp 2 và 3 Hình 4.2
— Các trường hợp 2,3,4 đúng ở các phân đoạn được mô tả như hình dưới đây Bên trái là mô tả sự kiện TRECVID trả về và bên phải là mô tả video caption, lời thoại cũng như điểm so khớp của hệ thống :
4 THỰC NGHIỆM VÀ ĐÁNH GIÁ
: i h 'VideoCaption:a group of people are standing on a 0.414
: fl Atsuko rides bikes with Jordan and wall and one of them is throwing something at
VideoCaption:a man is holding a woman's hand 0.32 and he is talking to the camera í ¢ [2] Cory says he loves Atsuko 3
Subtitle:of kor agenda a i know i like you you're 0.25 special see see i like you x =e VideoCaption:a man is sitting in front of a
- [3] Cory confesses that Brody gave him a> ° Val window and leads into a woman speaking to 0.024, drugs to sell and Cory smoked them, —— N the camera and cannot pay Brody back —— Subtitlei mean you know he gave me some pay y aR stuff to sell of and i wound up smoking i 0.353
Mô tả sự kiện TRECVID trả về ‘Phan đoạn tương ứng
Hình 4.5: Minh hoạ các sự kiện đúng
+ Có thể thấy ở được sự tương đồng về mặt ngữ nghĩa giữa mô tả
TRECVID trả về và mô tả lời thoại của hệ thống ở phân đoạn [2] và [3] Phân đoạn [2] nói về "Cory nói yêu Atsuko" và lời thoại cũng có liên quan đến việc "thích" Tương tự phân đoạn [3] đề cập "bán", "hút thuốc" và lời thoại cũng có "bán", "hút thuốc"
— Tuy nhiên, ở các phân đoạn có ngữ nghĩa cao(giéng như người xem mô tả lại), các phân đoạn không có lời thoại cũng như mô tả video caption thì hệ thống phụ thuộc vào điểm khuôn mặt.
Giới thiệu tập dữliệu
Để xem tính khả thi của hệ thống đối với dữ liệu thực tế, nhóm tự thu thập thêm 5 bộ phim cùng 5 video tóm tắt có sẵn trên mạng xã hội.
4 THỰC NGHIỆM VÀ ĐÁNH GIÁ
Tên phim Độ dài | Nhân vật Số phân đoạn | Độ dài video tóm tắt | Chất lượng video
Bảng 4.9: Tổng quan bộ dữ liệu tự thu thập
Trường hợp | Precision | Objective-All
Bảng 4.10: Kết qua trung bình của các nhân vật trên mỗi lần chạy
Nhân vật Precision | Objective-All
Chef 0.06402 0.05949 Lucy 0.24099 0.25360 KarateKid 0.12610 0.15260 HomeAlone2 | 0.05555 0.06760 JohnnyEnglish | 0.12692 0.12486
Bang 4.11: Kết qua trung bình của các lần chạy trên mỗi nhân vật
* Sau khi xem các video tóm tắt kết quả, nhóm nhận thấy các phân đoạn hệ thống tóm tắt được tuy không giống với video tóm tắt grouth truth nhưng nó vẫn thể hiện được nội dung của video tóm tắt grouth truth Ví dụ như
4 THỰC NGHIỆM VÀ ĐÁNH GIÁ cùng một sự kiện grouth truth (gồm nhiều phân đoạn hợp lại) nhưng người tóm tắt video lấy một phân đoạn ngẫu nhiên trong đó Vì thế, nhóm tiến hành gán nhãn thêm và đánh giá lại kết quả trên tập grouth truth mới cụ thể như bảng 4.12 bên dưới Kết quả đều tăng lên mỗi phim. Ở phim Lucy và JohhnyEnglish, cho kết tốt hơn nhiều so với các phim khác là do phim được thu thập với chất lượng 1080p tốt hơn so với các phim còn lại chỉ ở mức 480p Và các diễn biến trong phim luôn xoay quanh nhân vật cần tóm tắt (tên nhân vật cũng là tên phim).
Nhân vật Precison | Objective-All | Trường hợp Objective-All,Precison cao nhất
Chef 0.1737 0.1614 0.1704,0.1829,(Lần 2) Lucy 0.3873 0.4075 0.4326,0.4054 (Lần 4) KarateKid 0.1836 0.2226 0.2035,0.2346(Lần 4)
Bảng 4.12: Kết quả trung bình của các trường hợp trên mỗi nhân vật
* Ở bước phân đoạn video đầu vào, dù đã được chia nhỏ nhưng vẫn còn các phân đoạn khá dài (gây dư thừa thông tin và không được ưu tiên do trọng số thời gian) Song song đó, tồn tại những phân đoạn rất ngắn trung bình khoảng 1s (gây thiếu thông tin để rút trích và so sánh) Bảng dưới đây cho thấy thời gian trung bình của phân đoạn trên 3 tập dữ liệu đều lớn hơn thời gian tóm tắt cho một sự kiện 4.13:
4 THỰC NGHIỆM VÀ ĐÁNH GIÁ
Tập dữ liệu | Thời gian trung bình | Thời gian dài nhất | Thời gian tóm tat cho một sự kiện | Kết quả Objective-All(**)
Bảng 4.13: Bảng thời gian trung bình cho bộ nhãn dữ liệu
(*): Ở tập test là thời gian trên toàn bộ phân đoạn do không biết keyfact cụ thể của từng nhân vật
(#*): Kết quả trung bình trên các lần chạy của mỗi nhân vật ¢ Kết quả trên các lần chạy đều phụ thuộc vào kết quả điểm khuôn mặt ( do hầu hết các phân đoạn cần tóm tắt đều có nhân vật xuất hiện) Tuy nhiên khi kết hợp thêm các phương pháp khác sẽ cho kết quả tốt hơn ở một số phim. ¢ Ở phương pháp so khớp van ban, các thông tin dé so sánh ảnh hưởng rất lớn đến kết quả điểm video caption và điểm lời thoại Bên cạnh đó, đối với các sự kiện chính trong cuộc đời nhân vật có những sự kiện có thông tin ngữ nghĩa cao nên tạo ra độ nhiễu khá lớn.
XÂY DỰNG ỨNG DỤNG MINH HOA
Phần giao diện của web được xây dựng chủ yếu bằng 3 thành phan cơ bản là:
1 HTML: xây dựng khung sườn cơ bản cho trang web
2 CSS: dùng để trang trí màu sắc, hình ảnh và sắp xếp lại bố cục cho trang web
3 Javascript: dùng để lập trình các tương tác giữa người dùng với trang web.
Ung dụng xây dựng trên framework Flask — một micro-framework được xây dựng bằng ngôn ngữ lập trình Python Các đặc điểm nổi bật của Flask: ô Nhanh: Cú kiến trỳc nhỏ, tốc độ hoạt động nhanh. ¢ Phát triển nhanh: Dễ cài đặt và triển khai.
* Dễ dàng: được thiết kế để dé dàng học và sử dung.
* Quy chuẩn: Xây dựng web application rất giống với việc viết các module
Python chuẩn, cau trúc gọn gàng và rõ ràng.
5 UNG DỤNG THỰC NGHIEM ¢ Ngắn gọn: tối giản hoá sự trùng lặp code. ô Tài liệu: đầy đủ và vớ dụ rừ ràng, dễ hiểu từ cài đặt đến thực hiện và triển khai
Hình 5.1: Giao diện ứng dụng
Giao diện ban đầu sẽ gồm 3 nút bam ở trên cùng góc phải:
1 Nút [MOVIES] : Xem dữ liệu được cung cấp và dữ liệu thu thập được, cũng như thông tin về các đặc trưng được trích xuất.
2 Nút [SCENES]: Xem video các phân cảnh của các bộ phim từ cuộc thi
3 Nút [RESULTS]: Xem kết quả của từng lần chạy trên các tập dữ liệu
5.2.0.1 Giao diện trực quan hoá dữ liệu
Công cụ trực quan hoá dữ liệu từ cuộc thi MSUM TRECVID cũng như dữ liệu thu thập được Công cụ có thể phát video về bộ phim, cho biết thông tin được cung cấp cũng như các thông tin về các đặc trưng được trích xuất Cụ thể ở hình 5.2 :
Hình 5.2: Giao diện trực quan hoa dữ liệu một phim ¢ Thanh "Subtitle": hiển thi subtitle cho phân đoạn đang được chiếu Di chuột vào các cham xanh để thấy subtile.
5 UNG DỤNG THỰC NGHIEM ¢ Thanh "Face reg": hiển thị nhân vật được nhận dạng và điểm số nhận dạng.
Di chuột vào các chấm vàng để thấy thông tin. ô Thanh "GT Scene": hiển thị cỏc phõn cảnh đỳng.
5.2.0.2 Giao diện trực quan kết quả thực nghiệm
Công cụ trực quan hoá kết quả thực nghiệm trên các tập dữ liệu thực hiện trên 4 bộ trọng số khác nhau đã trình bày ở chương 3. ô Truy cập vào lần chạy muốn xem kết quả. ằ Truy cập vào nhõn vật quan tõm.
* Giao diện video kết quả thực nghiệm có thể phat video tóm tắt và các thông tin như hình 5.3:
— Thanh “Correct keyfact”: Thể hiện các phân đoạn dự đoán đúng là sự kiện quan trọng.
- Thanh "Detail Shot": Thể hiện chi tiết các phân đoạn dự đoán, bao gồm khuôn mặt nhận diện, subitle, caption và điểm tương ứng.
Hình 5.3: Giao diện trực quan hoa dữ liệu một phim
KÊT LUẬN VÀ HƯỚNG PHÁT
Thông qua quá trình nghiên cứu, nhóm sinh viên đã rút ra một số kết luận:
1 Về kết quả đạt được: ¢ Nhóm hoàn thiện được bộ dữ liệu TRECVID MSUM và bộ dữ liệu tự thu thập ằ Xõy dựng được một hệ thống túm tắt cỏc sự kiện quan trọng nhõn vật trong phim dựa trên phương pháp nhận diện khuôn mặt, video captioning và lời thoại. s Tham gia đóng góp vào cuộc thi và có bai báo khoa hoc tại hội nghị
2 Vê mặt phương pháp: ằ Kết quả của hệ thống khụng cao, đạt cao nhất là 0.2475 (Kết quả tử
* Do phân đoạn chưa được chia sẵn, nên hệ thống phụ thuộc vào thời gian phân đoạn của phương pháp TransNetV2.
* Diém nhận diện khuôn mặt đóng vai trò quan trọng, tuy nhiên khi kết hợp thêm video captioning và lời thoại sẽ cho kết quả cao hơn ở một số phim. ¢ Phương pháp so khớp van bản gặp khó khăn do các sự kiện quan trọng có thông tin ngữ nghĩa cao.
Về tương lai, chúng tôi mong muốn hoàn thiện hơn dé tài này với các van dé sau: ằ Cải thiện cỏc phương phỏp nhận diện khuụn mặt, so khớp van bản. ô Đỏnh giỏ thờm nhiều phương phỏp ở cỏc hướng tiếp cận khỏc nhau.
S S Duy-Dinh Le, Hung-Quoc Vo, “Nii uit at trecvid 2020,” TRECVID,
[2ID.M.N.T.V.D.T.LG.PT.LM.V.TEN.N.VTN.TD.N.Z.W.
D.D Le, H Q Vo and S Satoh, “Nii-uit at trecvid 2020,” TRECVID 2020,
[3] A S Y Song, J Vallmitjana and A Jaimes, “Tvsum: Summarizing web videos using titles,’ Proceedings of the IEEE conference on computer vi- sion and pattern recognition, no 7, 2015 7
[4] E.R M Otani, Y Nakashima and J Heikkila, “Rethinking the evaluation of video summaries,” Proceedings of the IEEE/CVF Conference on Com- puter Vision and Pattern Recognition, 2019 7
[5] H R M Gygli, H Grabner and L V Gool, “Creating summaries from user videos,” European conference on computer vision, 2014 7
D.-D Le, “Nii hitachi uit at trecvid 2019,” TRECVID, 2019 13
Z L K Zhang, Z Zhang and Y Qiao, “Joint face detection and alignment using multitask cascaded convolutional networks,” [EEE Signal Process- ing Letters, 2016 13, 27
V A.D M J Fajtl, H S Sokeh and P Remagnino, “Vggface2: A dataset for recognising faces across pose and age,” 2018 13th IEEE international conference on automatic face gesture recognition (FG 2018), 2018 13
F S K Zhang, W.-L Chao and K Grauman, “Video summarization with long short-term memory,” 2016 14
F S K Zhang, W.-L Chao and K Grauman, “Video summarization with long short-term memory,” European conference on computer vision, 2016. 14
C.G D B F B H S K Cho, B Van Merrienboer and Y Bengio, “Learn- ing phrase representations using rnn encoder-decoder for statistical ma- chine translation,” 2014 14
V A D.M J Fajtl, H S Sokeh and P Remagnino, “Neural machine trans- lation by jointly learning to align and translate,” 2014 14
A S Y Song, J Vallmitjana and A Jaimes, “Tvsum: Summarizing web videos using titles,’ Proceedings of the IEEE conference on computer vi- sion and pattern recognition, 2015 14, 16, 69
H R M Gygli, H Grabner and L V Gool, “Creating summaries from user videos,” European conference on computer vision, 2014 14
V A D M J Fajtl, H S Sokeh and P Remagnino, “Summarizing videos with attention,” Asian Conference on Computer Vision, 2018 14
“Going deeper with convolutions,” Proceedings of the IEEE conference on computer vision and pattern recognition, 2014 14
“Imagenet large scale visual recognition challenge,” International journal of computer vision, 2014 14
[18] PL L Z L Yuan, E E Tay and J Feng, “Cycle-sum: cycleconsistent ad- versarial lstm networks for unsupervised video summarization,” Proceed- ings of the AAAI Conference on Artificial Intelligence, 2019 15
[19] C.-C.L F A Z G Z.L Y L L W Kevin Lin, Linjie Li, “End-to-end transformers with sparse attention for video captioning,” Computer Vision and Pattern Recognition, 2022 33
[20] Y.C Y W Z Z S L H H Ze Liu, Jia Ning, “Video swin transformer,”
Computer Vision and Pattern Recognition, 2021 35
Cách thức xây dựng bộ nhãn du liệu
Với mong muốn đánh giá các phương pháp hiện tại cho bài toán tóm tắt những sự kiện quan trọng của nhân vật trong phim, nhóm đã tiến hành gán nhãn dữ liệu dựa trên các sự kiện quan trọng trong cuộc đời nhân vật Trong phần nay trình bày các bước trong quy trình gán nhãn dữ liệu, các thông tin thống kê trong tập dữ liệu do nhóm qui định Chi tiết các bước như hình sau:
1 Xây dựng bộ nhãn tập dữ liệu từ TRECVID
1.1 Xem toàn bộ video Đối với mỗi nhân vật cần tóm tắt, nhóm liệt kê văn bản mô tả các sự kiện quan trọng của nhân vật Các mô tả bằng văn bản này có được từ các trang phim và wikipedia (Đối với tập test) và các mô tả sự kiện quan trọng của nhân vật được cung cấp sẵn (Đối với tập train) Sau đó nhóm tiến hành xem các shot đã được cắt ra sau bước phân đoạn video Tiwf đó đánh giá xem một phân đoạn có phải là sự kiện quan trọng với nhân vật hay không Quá trình xem và gán nhãn là thủ công, bộ dữ liệu gán nhãn được tổ chức như sau:
68 kiện quan trọng trong. cuộc đời nhân vật
Danh sách các sự kiện chính và phân đoạn
Danh sách các sự kiện chính cuối cùng
Tên sự kiện quan trọng Tén phân đoạn (Phân đoạn IIPhân đoạn 21 )
Byrd is verbally abusive after spilling his beer on another parent | Calloused_Hands-2.shot_13.webmlCalloused_ Hands-2.shot_ 15.webmlCalloused_Hands-2.shot_ 12.webm
Bang 1: Vi dụ một file gan nhãn dữ liệu cho nhân vat Byrd trong phim Cal- loused_Hands