1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp Khoa học máy tính: Tóm tắt sự kiện quan trọng của nhân vật trong phim

86 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Tóm tắt sự kiện quan trọng của nhân vật trong phim
Tác giả Nguyen Thanh Cong, Tran Huynh Ky Anh
Người hướng dẫn ThS. Do Van Tien
Trường học Đại học Quốc gia Thành phố Hồ Chí Minh
Chuyên ngành Khoa học máy tính
Thể loại Khóa luận tốt nghiệp
Năm xuất bản 2022
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 86
Dung lượng 43,03 MB

Cấu trúc

  • 3.2.2.2 Video Captioning (48)
  • 3.2.2.3 So khớp vắnbản (0)
  • 3.2.24 Điểmthờigian (56)
  • 3.2.3 Tổng hợp độ quan trọng của phân đoạn (56)
  • 3.2.4 Tạo video tóm tẮtC (57)
  • 4.2 Tổng quan tập dữ liệu TRECVID MSUM2022 (61)
  • 4.3 Độ đo và tiêu chíđánhgiá (63)
    • 4.3.1 Độđochủquan (63)
      • 4.3.1.1 Tempo................Ặ 48 (63)
  • 43.12 Contextuality (63)
  • 43.13. Redundancy (63)
    • 4.3.1.4 SubJecuive-All (0)
  • 43.2 Độ đokháchquan (64)
    • 4.3.2.1 Preclsion (0)
    • 4.3.2.2 Objecive-Al (0)
  • 4.4 Đánh giá và kếtquả................ ee 49 (64)
    • 4.4.1 Kết quả thực nghiệm trên một nhân vật (64)
    • 4.4.2 Kết quả cuộc thi TRECVID trên tập test (67)
      • 4.4.2.1 Kếtquả4trưữờnghợp (0)
      • 4.4.2.2 Phântíchkếtquả (68)
    • 4.4.3 Kết quả tập dữ liệu tự thuthập (69)
    • 44.3.1 Giới thiệu tập dữliệu (69)
      • 4.4.3.2 Phântíchkếtquả (70)

Nội dung

¢ Tham gia xây dựng phương pháp có thể giải quyết bài toán tóm các sự kiện quan trọng của nhân vật trong phim dựa trên nhận diện gương mặt, audio to text và video captioning.. « Về yêu c

Video Captioning

Video captioning có nhiệm vu mô ta nội dung hình anh từ video đầu vào. Như vậy nó yêu cầu một thuật toán và mô hình "the spatial-temporal dynamics

" trong video, cũng như mối quan hệ giữa hình ảnh và văn bản đẻ tạo một chuỗi các từ đầu ra Dựa vào video đầu vào, chúng tôi sử dụng nhóm sử dụng hệ thống

SWINBERT: End-to-End Transformers with Sparse Attention [19] để tạo cap- tion cho video.

3 Xây dựng hệ thông tóm tắt sự kiện của nhân vật trong phim.

| Caption Generation Module — t Ì Stop Gradient

U U U U U U L U U U over Long Video Sequence Inputs

Hình 3.7: So sánh giữa các phương pháp trước va SWINBERT.

Khác biệt với các nghiên cứu trước sử sụng trích xuất đặc trưng 2D/3D, SWINBERT sử dung “Video transformer” làm bộ encoder cho video đầu vào va dùng nó cho mô hình “end-to-end Transformer-based” để làm video captioning. Bên cạnh đó, SWINBERT đề xuất cách học “Sparse attention mask” để cải thiện mô hình “Long-range video sequence”.

Method MSVD | YouCook2 | MSRVTT | TVC | VATEX

Bảng 3.2: So sánh với các phương pháp hiện đại trên tat cả các bộ dữ liệu video cap- tioning trên chỉ số CIDERr

3 Xây dựng hệ thông tóm tắt sự kiện của nhân vật trong phim.

Masked Language Modeling : Sparse Attention Mask œứa1s> [| [] O00000000000008

Hình 3.8: Tổng quan framework ¢ Kiên trúc mô hình:

Hình 3.8 cho thấy tổng quan của mô hình đề xuất SWINBERT lấy một chuỗi các khung hình video thô như khi đặt, sau đó xuất ra một mô tả bằng ngôn ngữ tự nhiên mô tả video đầu vào SWINBERT bao gồm hai mô- đun: Video Swin Transformer (VidSwin), and Multimodal Transformer

Encoder Đầu tiên, nhóm tác giả tận dung VidSwin để giải nén biểu diễn video không gian-thời gian từ video đầu vào Sau đó, Multimodal Trans- former Encoder sẽ làm đầu vào cho các biểu diễn video và xuất ra một câu ngôn ngữ tự nhiên thông qua quá trình tạo trình tự theo trình tự (seq2seq).

Từng module sẽ được mô tả chi tiết như dưới:

Với video đầu vào với kích thước T x H x W x 3, bao gồm T frames va H x W x 3 pixels Cung cấp cho VidSwin và trích xuất các grid features từ khối mã hoá cuối cùng của VidSwin Các grid feature của

VidSwin có kích thước 4 x 4 x 3; x 8C, trong đó C là kích thước kênh Tiếp theo mã hoá các grid features theo kích thước kênh, kết quả cho ra tổng 4 x 4 X 3; 55 X 35 Video tokens Với mỗi token là một 8C-

3 Xây dựng hệ thông tóm tắt sự kiện của nhân vật trong phim. dim feature vector Sau đó, đưa các video tokens làm input cho Mul- timodal Transformer Encoder để khởi tao câu mô tả.

+ Tổng quan kiến trúc Video Swin Transformer:

Hình 3.9: Kiến trúc tổng thể của Video Swin Transformer

Kiến trúc tổng thể của Video Swin Transformer ở hình 3.9

Hình 3.10: Minh hoa 2 block Video Swin Transformer

3 Xây dựng hệ thông tóm tắt sự kiện của nhân vật trong phim.

Trong module này, sử dụng Transformer Encoder để tạo câu mô tả ngôn ngữ tự nhiên Cụ thể, nó có văn bản và hình ảnh đầu vào, bao gồm mô tả phụ đề được mã hoá và video tokens được tính toán từ VidSwin Tiếp theo, thực hiện seq2seq để tạo thành câu ngôn ngữ tự nhiên Với tinh thần như image captioning, sử dụng self-attention mask trong đó một caption token chỉ có thể attend cho các output tokens có sẵn.

Sparse Attention Mask Nhìn chung, video đầu vào dài hơn sẽ chứa nhiều thông tin hơn Tuy nhiên thì nhu cầu tính toán xử lý attention cũng sẽ tỉ lệ thuận với độ dài video đầu vào, vì thế nhu cầu tính toán sẽ bị giới hạn bởi video đầu vào. Mặt khác, khi xem xét bản chất của các thuộc tính video, khi lấy mẫu dày với các khung hình liên tiếp của video sẽ chứa những thông tin dư thừa và không liên quan Vì thế nhóm nghiên cứu SWINBERT giải quyết van dé này với Sparse Attention Mask có thể học được như một bộ điều chỉnh cho Multimodal Trans- former Encoder.

Như giới thiệu ở hình 3.8 đầu vào của Transformer được chia làm 2 phan: N word tokens and M video tokens Toàn bộ mặt nạ attention có thể được xác định kích thước : (W + M) x (N+M), với N là 50 và M = 5 x $Š X 33. Để có phụ đề video chính xác hơn, chúng tôi cấp phát mã thông báo văn bản với sự chú ý không hạn chế để họ có thể tận dụng các chỉ tiết trực quan Để giải quyết sự dư thừa trong số các mã thông báo video, chúng tôi áp đặt ràng buộc về độ thưa thớt lớp phủ trên đỉnh V bằng cách:

Trong đó A là siêu tham số chính quy hóa và Vị, ¡ là các giá trị kích hoạt của mặt nạ chú ý có thể học được V.

Trong quá trình học, ràng buộc thưa thớt sẽ chính quy hóa đào tạo mô hình để khám phá cấu trúc cơ bản của trình tự video Thông qua sự chú ý thưa thớt, mô

3 Xây dựng hệ thông tóm tắt sự kiện của nhân vật trong phim. hình học cách tăng cường các mối quan hệ quan trọng nhất giữa các mã thông báo khác nhau bằng cách giảm khả năng vô nghĩa kết nối, đồng thời tập trung nhiều hơn vào mã thông báo video đang hoạt động chứa thông tin không gian- thời gian phong phú Bằng cách này, mô hình có thể tạo ra các câu ngôn ngữ tự nhiên mang tính biểu cảm và mô tả hơn.

Nhận thấy nếu chỉ sử dụng các thuật toán thị giác máy tính để xử lí thông tin dữ liệu hình ảnh và video thì không đủ để giải quyết bài toán, do đó nhóm sử dụng thông tin văn bản của dữ liệu Cụ thể, lời thoại trong video và nội dung thông qua hình ảnh của video là nguồn dữ liệu rất quan trọng để xác định các sự kiện quan trọng trong cuộc đời của nhân vật Nhóm tiến hành xây dựng hệ thống so khớp văn bản giữa lời thoại và nội dung của từng phân đoạn để so khớp với tập train-set keyfact do TRECVID cung cấp Sau đây là trình bày chỉ tiết về từng bước thực hiện phương pháp: ằ Lời thoại

Lời thoại là dữ liệu văn bản ghi lại các câu nói của các nhân vật trong các tập phim Ở phần này nhóm có điều chỉnh so với đội NII UIT 2021, nhóm lấy tất cả lời thoại ở tất cả phân đoạn chứ không ánh xạ so với phân đoạn do có những phân đoạn chứa lời thoại ít nhưng lại là phân đoạn cần tim.

3 Xây dựng hệ thông tóm tắt sự kiện của nhân vật trong phim. name, sub

Calloused_Hands-48.shot_9,murmured the do richie wit a wetter to lar

Calloused_Hands-3.shot_19,saba teen groan a

Calloused_Hands-1l.shot_20,let's go get it i

Calloused_Hands-53.shot_14,and this damned greasy a

Điểmthờigian

Theo Bảng 4.3, thời gian tóm tắt nhân vật yêu cầu khá ngắn (thấp nhất 110 giây và cao nhất 190 giây) Nên nhóm quyết định thêm trọng số thời gian nhằm ưu tiên các phân đoạn chứa nội dung nhưng ngắn hơn Điểm thời gian = 1 - (Độ dài phân đoạn/ Độ dài tối đa video)

Tổng hợp độ quan trọng của phân đoạn

Để đơn giản hóa mô-đun tạo video tóm tắt, nhóm sinh viên đã kết hợp các loại điểm trên thành một điểm quan trọng bằng cách sử dụng một hàm tuyến tính như sau: score important = ml * x] + m2 * x2 + m3 * x3 + m4 * x4

Với ràng buộc: ml + m2 + m3 + m4 = l x1 : Điểm khuôn mặt

3 Xây dựng hệ thông tóm tắt sự kiện của nhân vật trong phim. x2 : Điểm nội dung phân đoạn x3 : Điểm lời thoại x4 : Điểm thời gian

Vì không thể biết loại điểm nào hiệu quả hơn, nhóm sinh viên đã chọn các bộ thông số (m1,m2,m3,m4) khác nhau cho bốn lượt submisson của mỗi nhân vật Theo đó, bộ trọng số của các loại điểm được sử dụng được mô tả trong bảng:

Bảng 3.3: Bộ trọng số của mỗi loại đặc trưng được sử dụng

Tạo video tóm tẮtC

Để tạo bản video tóm tắt, nhóm sinh viên tiến hành sắp xếp các phân đoạn theo điểm số độ quan trọng, sau đó chọn ra N phân đoạn có điểm số cao nhất sao cho tổng thời lượng của N phân đoạn nhỏ hơn thời gian tối đa cho phép của bản tóm tắt Sau đó tổng hợp các phân đoạn này thành video tóm tắt theo trình tự thời gian của video gốc.

3 Xây dựng hệ thông tóm tắt sự kiện của nhân vật trong phim.

Thời gian tóm tắt Video tóm tắt với thời gian tương ứng

Hình 3.15: Tạo video tóm tắt

THỰC NGHIỆM VÀ ĐÁNH GIÁ

4.1 Mở đầu Để hiểu rõ hơn về tập dữ liệu, cách đánh giá và độ chính xác của các phương pháp đã trình bày bên trên, trong chương này nhóm trình bày quá trình xây dựng tập dữ liệu, kết quả thực nghiệm và đánh giá so sánh các phương pháp Từ đó tìm ra những ưu nhược điểm của từng phương pháp.

4 THỰC NGHIỆM VÀ ĐÁNH GIÁ

time_of_scene (s) type video_name time_of_movie(hh:mmi:ss) | # scene - min | max | avg

Liberty_Kid 1:31:42 56 12 | 299 94 train | Llike_me 1:23:56 28 47 300 167 losing_ground 1:25:38 40 29 246 120 Memphis 1:18:39 47 17 | 294 97 Archipelago 1:50:04 57 21 389 113 Bonneville 1:32:39 41 19 269 124 test | ChainedforLife 1:29:28 38 15 370 136 heart_machine 1:23:37 28 22 | 451 158 Little_Rock 1:22:48 39 24 | 289 121

Bang 4.1: Bang tổng quát dữ liệu

time_of_scene (s) " „ video_name.character time_of_movie(hh:mm:ss) | # scene - # su kién chinh min | max | avg

1:23:56 28 47 | 300 167 Like_me.Kiya 12 losing_ground.Sarah_Rogers 1:25:38 40 29 246 120 15

Bảng 4.2: Tổng quan query tập train

4 THỰC NGHIỆM VÀ ĐÁNH GIÁ time_of_movie time_of_scene (s) video_name # scene - Duration (s)

(hh:mm:ss) min | max avg

ChainedforLife.Mabel 1:29:28 38 15 370 136 130 heart_machine.Cody 160

Tổng quan tập dữ liệu TRECVID MSUM2022

Trước khi đi vào cụ thể tập dữ liệu, chúng tôi làm rõ các sự kiện chính trong

TRECVID MSUM2022: ¢ Sự kiện chính là gì?

— Bat kỳ sự kiện quan trọng trong cốt truyện nhân vật.

— Bao quát vai diễn của nhân vật từ đầu đến cuối phim.

— Vi du: Từ nhân vật Jeremy trong phim “Super Hero” một sự kiện chính : + Charlie bullies Jeremy + Charlie and Jeremy fight at the playground + Jeremy’s mother reveals to the principle that Jeremy has a terminal illness

+ Jeremy gets admitted to the hospital

4 THỰC NGHIỆM VÀ ĐÁNH GIÁ

* Thống kê bộ sự kiện chính Dé có thể đưa ra các phương pháp tiếp cận với bài toán, nhóm tiến hành thống kê bộ sự kiện chính từ tập train cho sẵn 4.4 bao gồm các:

— Các sự kiện chính có sự xuât hiện của nhân vật ( Hau hét các sự kiện chính đều có sự xuât hiện của nhân vật)

— Các sự kiện chính là các câu mô tả hành động (Ví dụ Debbie is able to walk away from Byrd, Byrd attacks Debbie and Josh defends her)

— Các sự kiện chính liên quan đến lời thoại (Vi du Byrd lies to Debbie about prostitute)

Nhân vật Số sự kiện chính | Liên quan hành động | Liên quan lời thoại | Cả 2 | Không liên quan

Bang 4.4: Thống kê bộ sự kiện chính

Tập dữ liệu TRECVID MSUM 2022 gồm tập các phim được cấp phép từ Kinolorberedu Tập dữ liệu bao gồm 10 phim Cu thể mỗi phim sẽ bao gồm

1 hoặc 2 nhân vật chính cần tóm tắt với thời gian nhất định, cụ thể trong bang 4.1

4 THỰC NGHIỆM VÀ ĐÁNH GIÁ

Độ đo và tiêu chíđánhgiá

Độđochủquan

Dùng để uớc tinh nhịp độ và nhịp điệu của bản tóm tắt, được đánh giá trên thang đo 1-7 (càng cao càng tốt) Chỉ số này tốt khi các phân đoạn trong video liên tiếp, trôi chảy, cung cấp nội dung rõ ràng, không bị cắt giữa câu.

Contextuality

Dùng để uóc lượng ngữ cảnh của bản tóm tắt, được đánh giá trên thang đo1-7 (càng cao càng tốt) Chỉ số này tốt khi nội dung có cung cấp các trường hợp tạo thành một sự kiện, một sự bày tỏ hoặc ý tưởng, và nó có thể được hiểu và đánh giá đầy đủ.

Redundancy

Độ đokháchquan

Objecive-Al

Giá trị trung bình của ba độ đo chủ quan.

Precision thé hiện độ chính xác: phan trăm số sự kiện quan trong có trong bản tóm tắt là đúng so với số sự kiện được đưa vào ban tóm tắt.

Số sự kiện dự đoán đúng

Precision = ~ Se S kiện dự đoán

Objective-All thể hiện độ chính xác: phan trăm số sự kiện trong bản tóm tắt là đúng so với số lượng sự kiện quan trọng của nhân vật. ơ _ Số sự kiện dự đoỏn đỳng

Ob jective — All = Số sự kiện grouth truth

Đánh giá và kếtquả ee 49

Kết quả thực nghiệm trên một nhân vật

Để xem xét kết quả trong quá trình thực nghiệm, nhóm tiến hành tạo video tóm tắt của một nhân vật trong tập train với thời gian 120 giây tương ứng với 12 sự kiện chính (10 giây một sự kiện chính) mà TRECVID cung cấp. Kết quả được thể hiện như biểu đồ dưới đây:

4 THỰC NGHIỆM VÀ ĐÁNH GIÁ

Kết quả trên các trường hợp t = 120s

Trường hợp 1 Trường hợp 2 Trường hợp 3 Trường hợp 4 mObjective-All m= Presicion

Hình 4.1: Kết quả nhân vật trên các trường hợp với thời gian = 120s

Nhóm cũng thử nghiệm thêm ở thời gian 240 giây và 360 giây tương ứng

20 giây và 30 giây cho một sự kiên để xem xét kết quả khi thời gian tóm tắt thay đổi Kết qua thể hiện như biểu đồ dưới đây:

4 THỰC NGHIỆM VÀ ĐÁNH GIÁ

Kết quả trên các trường hợp t = 240s

Trường hợp 1 Trường hop 2 Trường hợp 3 Trường hợp 4

Hình 4.2: Kết quả nhân vật trên các trường hợp với thời gian = 240s

Kết quả trên các trường hợp t = 360s

Trường hop 1 Trường hợp2 Trường hợp3 Trường hợp 4 mObjective-All #Presicion

Hình 4.3: Kết quả nhân vật trên các trường hợp với thời gian = 360s

4 THỰC NGHIỆM VÀ ĐÁNH GIÁ

Từ kết quả ở 3 lần chạy thời gian tăng dan, cho thấy kết quả Objective-All đều tăng lần lượt từ 0,833 -> 0,166 -> 0,333 (Kết quả cao nhất trên từng lần chạy) Tuy nhiên, kết quả Precison có sự giảm ở trường hợp | trên 3 lần chạy (0,125 -> 0,0909 -> 0,075) là do khi tăng thời gian tóm tắt nhưng tỉ lệ số sự kiện dự đoán đúng lại tăng không cao.

Kết quả cuộc thi TRECVID trên tập test

Số sự kiện dự đoán | Số sự kiện dự đoán đúng | S6 sự kiện ground truth | Objective-All | Precision

HeartMachine-virginia | 25 2 11 0.182 0.080 bonneville-Arvilla 44 3 19 0.158 0.068 littlerock-Atsuko 56 9 19 0.474 0.161 littlerock-cory 49 4 16 0.25 0.082

Bang 4.5: Kết quả trường hợp 1

Số sự kiện dự đoán | S6 sự kiện dự đoán đúng | S6 sự kiện ground truth | Objective-All | Precision

HeartMachine-virginia | 25 1 11 0.091 0.04 bonneville-Arvilla Al 2 19 0.105 0.049 littlerock-Atsuko 45 10 19 0.526 0.222 litlerock-cory 44 7 16 0.438 0.159

Bang 4.6: Kêt quả trường hợp 2

Số sự kiện dự đoán | Sô sự kiện dự đoán đúng | S6 sự kiện ground truth | Objective-All | Precision

HeartMachine-virginia | 25 1 11 0.091 0.04 bonneville-Arvilla 41 2 19 0.105 0.049 littlerock-Atsuko 45 10 19 0.526 0.222 littlerock-cory 44 7 16 0.438 0.159

Bang 4.7: Kết quả trường hợp 3

4 THỰC NGHIỆM VÀ ĐÁNH GIÁ

Số sự kiện dự đoán | Số sự kiện dự đoán đúng | Sô sự kiện ground truth | Objective-All | Precision

HeartMachine-virginia | 24 2 11 0.182 0.083 bonneville-Arvilla 42 1 19 0.053 0.024 littlerock-Atsuko 49 10 19 0.526 0.204 littlerock-cory 44 5 16 0.312 0.114

Bảng 4.8: Kết quả trường hợp 4

Kết quả trung bình nhân vật trên các trường hợp

Hình 4.4: Kết quả trung bình trên các lần chạy

— Kết quả chênh lệch giữa các lần chạy là không cao, kết quả cao nhất là 0.2475 ở trường hợp 2 và 3 Hình 4.2

— Các trường hợp 2,3,4 đúng ở các phân đoạn được mô tả như hình dưới đây Bên trái là mô tả sự kiện TRECVID trả về và bên phải là mô tả video caption, lời thoại cũng như điểm so khớp của hệ thống :

4 THỰC NGHIỆM VÀ ĐÁNH GIÁ

: i h 'VideoCaption:a group of people are standing on a 0.414

: fl Atsuko rides bikes with Jordan and wall and one of them is throwing something at

VideoCaption:a man is holding a woman's hand 0.32 and he is talking to the camera í ¢ [2] Cory says he loves Atsuko 3

Subtitle:of kor agenda a i know i like you you're 0.25 special see see i like you x =e VideoCaption:a man is sitting in front of a

- [3] Cory confesses that Brody gave him a> ° Val window and leads into a woman speaking to 0.024, drugs to sell and Cory smoked them, —— N the camera and cannot pay Brody back —— Subtitlei mean you know he gave me some pay y aR stuff to sell of and i wound up smoking i 0.353

Mô tả sự kiện TRECVID trả về ‘Phan đoạn tương ứng

Hình 4.5: Minh hoạ các sự kiện đúng

+ Có thể thấy ở được sự tương đồng về mặt ngữ nghĩa giữa mô tả

TRECVID trả về và mô tả lời thoại của hệ thống ở phân đoạn [2] và [3] Phân đoạn [2] nói về "Cory nói yêu Atsuko" và lời thoại cũng có liên quan đến việc "thích" Tương tự phân đoạn [3] đề cập "bán", "hút thuốc" và lời thoại cũng có "bán", "hút thuốc"

— Tuy nhiên, ở các phân đoạn có ngữ nghĩa cao(giéng như người xem mô tả lại), các phân đoạn không có lời thoại cũng như mô tả video caption thì hệ thống phụ thuộc vào điểm khuôn mặt.

Giới thiệu tập dữliệu

Để xem tính khả thi của hệ thống đối với dữ liệu thực tế, nhóm tự thu thập thêm 5 bộ phim cùng 5 video tóm tắt có sẵn trên mạng xã hội.

4 THỰC NGHIỆM VÀ ĐÁNH GIÁ

Tên phim Độ dài | Nhân vật Số phân đoạn | Độ dài video tóm tắt | Chất lượng video

Bảng 4.9: Tổng quan bộ dữ liệu tự thu thập

Trường hợp | Precision | Objective-All

Bảng 4.10: Kết qua trung bình của các nhân vật trên mỗi lần chạy

Nhân vật Precision | Objective-All

Chef 0.06402 0.05949 Lucy 0.24099 0.25360 KarateKid 0.12610 0.15260 HomeAlone2 | 0.05555 0.06760 JohnnyEnglish | 0.12692 0.12486

Bang 4.11: Kết qua trung bình của các lần chạy trên mỗi nhân vật

* Sau khi xem các video tóm tắt kết quả, nhóm nhận thấy các phân đoạn hệ thống tóm tắt được tuy không giống với video tóm tắt grouth truth nhưng nó vẫn thể hiện được nội dung của video tóm tắt grouth truth Ví dụ như

4 THỰC NGHIỆM VÀ ĐÁNH GIÁ cùng một sự kiện grouth truth (gồm nhiều phân đoạn hợp lại) nhưng người tóm tắt video lấy một phân đoạn ngẫu nhiên trong đó Vì thế, nhóm tiến hành gán nhãn thêm và đánh giá lại kết quả trên tập grouth truth mới cụ thể như bảng 4.12 bên dưới Kết quả đều tăng lên mỗi phim. Ở phim Lucy và JohhnyEnglish, cho kết tốt hơn nhiều so với các phim khác là do phim được thu thập với chất lượng 1080p tốt hơn so với các phim còn lại chỉ ở mức 480p Và các diễn biến trong phim luôn xoay quanh nhân vật cần tóm tắt (tên nhân vật cũng là tên phim).

Nhân vật Precison | Objective-All | Trường hợp Objective-All,Precison cao nhất

Chef 0.1737 0.1614 0.1704,0.1829,(Lần 2) Lucy 0.3873 0.4075 0.4326,0.4054 (Lần 4) KarateKid 0.1836 0.2226 0.2035,0.2346(Lần 4)

Bảng 4.12: Kết quả trung bình của các trường hợp trên mỗi nhân vật

* Ở bước phân đoạn video đầu vào, dù đã được chia nhỏ nhưng vẫn còn các phân đoạn khá dài (gây dư thừa thông tin và không được ưu tiên do trọng số thời gian) Song song đó, tồn tại những phân đoạn rất ngắn trung bình khoảng 1s (gây thiếu thông tin để rút trích và so sánh) Bảng dưới đây cho thấy thời gian trung bình của phân đoạn trên 3 tập dữ liệu đều lớn hơn thời gian tóm tắt cho một sự kiện 4.13:

4 THỰC NGHIỆM VÀ ĐÁNH GIÁ

Tập dữ liệu | Thời gian trung bình | Thời gian dài nhất | Thời gian tóm tat cho một sự kiện | Kết quả Objective-All(**)

Bảng 4.13: Bảng thời gian trung bình cho bộ nhãn dữ liệu

(*): Ở tập test là thời gian trên toàn bộ phân đoạn do không biết keyfact cụ thể của từng nhân vật

(#*): Kết quả trung bình trên các lần chạy của mỗi nhân vật ¢ Kết quả trên các lần chạy đều phụ thuộc vào kết quả điểm khuôn mặt ( do hầu hết các phân đoạn cần tóm tắt đều có nhân vật xuất hiện) Tuy nhiên khi kết hợp thêm các phương pháp khác sẽ cho kết quả tốt hơn ở một số phim. ¢ Ở phương pháp so khớp van ban, các thông tin dé so sánh ảnh hưởng rất lớn đến kết quả điểm video caption và điểm lời thoại Bên cạnh đó, đối với các sự kiện chính trong cuộc đời nhân vật có những sự kiện có thông tin ngữ nghĩa cao nên tạo ra độ nhiễu khá lớn.

XÂY DỰNG ỨNG DỤNG MINH HOA

Phần giao diện của web được xây dựng chủ yếu bằng 3 thành phan cơ bản là:

1 HTML: xây dựng khung sườn cơ bản cho trang web

2 CSS: dùng để trang trí màu sắc, hình ảnh và sắp xếp lại bố cục cho trang web

3 Javascript: dùng để lập trình các tương tác giữa người dùng với trang web.

Ung dụng xây dựng trên framework Flask — một micro-framework được xây dựng bằng ngôn ngữ lập trình Python Các đặc điểm nổi bật của Flask: ô Nhanh: Cú kiến trỳc nhỏ, tốc độ hoạt động nhanh. ¢ Phát triển nhanh: Dễ cài đặt và triển khai.

* Dễ dàng: được thiết kế để dé dàng học và sử dung.

* Quy chuẩn: Xây dựng web application rất giống với việc viết các module

Python chuẩn, cau trúc gọn gàng và rõ ràng.

5 UNG DỤNG THỰC NGHIEM ¢ Ngắn gọn: tối giản hoá sự trùng lặp code. ô Tài liệu: đầy đủ và vớ dụ rừ ràng, dễ hiểu từ cài đặt đến thực hiện và triển khai

Hình 5.1: Giao diện ứng dụng

Giao diện ban đầu sẽ gồm 3 nút bam ở trên cùng góc phải:

1 Nút [MOVIES] : Xem dữ liệu được cung cấp và dữ liệu thu thập được, cũng như thông tin về các đặc trưng được trích xuất.

2 Nút [SCENES]: Xem video các phân cảnh của các bộ phim từ cuộc thi

3 Nút [RESULTS]: Xem kết quả của từng lần chạy trên các tập dữ liệu

5.2.0.1 Giao diện trực quan hoá dữ liệu

Công cụ trực quan hoá dữ liệu từ cuộc thi MSUM TRECVID cũng như dữ liệu thu thập được Công cụ có thể phát video về bộ phim, cho biết thông tin được cung cấp cũng như các thông tin về các đặc trưng được trích xuất Cụ thể ở hình 5.2 :

Hình 5.2: Giao diện trực quan hoa dữ liệu một phim ¢ Thanh "Subtitle": hiển thi subtitle cho phân đoạn đang được chiếu Di chuột vào các cham xanh để thấy subtile.

5 UNG DỤNG THỰC NGHIEM ¢ Thanh "Face reg": hiển thị nhân vật được nhận dạng và điểm số nhận dạng.

Di chuột vào các chấm vàng để thấy thông tin. ô Thanh "GT Scene": hiển thị cỏc phõn cảnh đỳng.

5.2.0.2 Giao diện trực quan kết quả thực nghiệm

Công cụ trực quan hoá kết quả thực nghiệm trên các tập dữ liệu thực hiện trên 4 bộ trọng số khác nhau đã trình bày ở chương 3. ô Truy cập vào lần chạy muốn xem kết quả. ằ Truy cập vào nhõn vật quan tõm.

* Giao diện video kết quả thực nghiệm có thể phat video tóm tắt và các thông tin như hình 5.3:

— Thanh “Correct keyfact”: Thể hiện các phân đoạn dự đoán đúng là sự kiện quan trọng.

- Thanh "Detail Shot": Thể hiện chi tiết các phân đoạn dự đoán, bao gồm khuôn mặt nhận diện, subitle, caption và điểm tương ứng.

Hình 5.3: Giao diện trực quan hoa dữ liệu một phim

KÊT LUẬN VÀ HƯỚNG PHÁT

Thông qua quá trình nghiên cứu, nhóm sinh viên đã rút ra một số kết luận:

1 Về kết quả đạt được: ¢ Nhóm hoàn thiện được bộ dữ liệu TRECVID MSUM và bộ dữ liệu tự thu thập ằ Xõy dựng được một hệ thống túm tắt cỏc sự kiện quan trọng nhõn vật trong phim dựa trên phương pháp nhận diện khuôn mặt, video captioning và lời thoại. s Tham gia đóng góp vào cuộc thi và có bai báo khoa hoc tại hội nghị

2 Vê mặt phương pháp: ằ Kết quả của hệ thống khụng cao, đạt cao nhất là 0.2475 (Kết quả tử

* Do phân đoạn chưa được chia sẵn, nên hệ thống phụ thuộc vào thời gian phân đoạn của phương pháp TransNetV2.

* Diém nhận diện khuôn mặt đóng vai trò quan trọng, tuy nhiên khi kết hợp thêm video captioning và lời thoại sẽ cho kết quả cao hơn ở một số phim. ¢ Phương pháp so khớp van bản gặp khó khăn do các sự kiện quan trọng có thông tin ngữ nghĩa cao.

Về tương lai, chúng tôi mong muốn hoàn thiện hơn dé tài này với các van dé sau: ằ Cải thiện cỏc phương phỏp nhận diện khuụn mặt, so khớp van bản. ô Đỏnh giỏ thờm nhiều phương phỏp ở cỏc hướng tiếp cận khỏc nhau.

S S Duy-Dinh Le, Hung-Quoc Vo, “Nii uit at trecvid 2020,” TRECVID,

[2ID.M.N.T.V.D.T.LG.PT.LM.V.TEN.N.VTN.TD.N.Z.W.

D.D Le, H Q Vo and S Satoh, “Nii-uit at trecvid 2020,” TRECVID 2020,

[3] A S Y Song, J Vallmitjana and A Jaimes, “Tvsum: Summarizing web videos using titles,’ Proceedings of the IEEE conference on computer vi- sion and pattern recognition, no 7, 2015 7

[4] E.R M Otani, Y Nakashima and J Heikkila, “Rethinking the evaluation of video summaries,” Proceedings of the IEEE/CVF Conference on Com- puter Vision and Pattern Recognition, 2019 7

[5] H R M Gygli, H Grabner and L V Gool, “Creating summaries from user videos,” European conference on computer vision, 2014 7

D.-D Le, “Nii hitachi uit at trecvid 2019,” TRECVID, 2019 13

Z L K Zhang, Z Zhang and Y Qiao, “Joint face detection and alignment using multitask cascaded convolutional networks,” [EEE Signal Process- ing Letters, 2016 13, 27

V A.D M J Fajtl, H S Sokeh and P Remagnino, “Vggface2: A dataset for recognising faces across pose and age,” 2018 13th IEEE international conference on automatic face gesture recognition (FG 2018), 2018 13

F S K Zhang, W.-L Chao and K Grauman, “Video summarization with long short-term memory,” 2016 14

F S K Zhang, W.-L Chao and K Grauman, “Video summarization with long short-term memory,” European conference on computer vision, 2016. 14

C.G D B F B H S K Cho, B Van Merrienboer and Y Bengio, “Learn- ing phrase representations using rnn encoder-decoder for statistical ma- chine translation,” 2014 14

V A D.M J Fajtl, H S Sokeh and P Remagnino, “Neural machine trans- lation by jointly learning to align and translate,” 2014 14

A S Y Song, J Vallmitjana and A Jaimes, “Tvsum: Summarizing web videos using titles,’ Proceedings of the IEEE conference on computer vi- sion and pattern recognition, 2015 14, 16, 69

H R M Gygli, H Grabner and L V Gool, “Creating summaries from user videos,” European conference on computer vision, 2014 14

V A D M J Fajtl, H S Sokeh and P Remagnino, “Summarizing videos with attention,” Asian Conference on Computer Vision, 2018 14

“Going deeper with convolutions,” Proceedings of the IEEE conference on computer vision and pattern recognition, 2014 14

“Imagenet large scale visual recognition challenge,” International journal of computer vision, 2014 14

[18] PL L Z L Yuan, E E Tay and J Feng, “Cycle-sum: cycleconsistent ad- versarial lstm networks for unsupervised video summarization,” Proceed- ings of the AAAI Conference on Artificial Intelligence, 2019 15

[19] C.-C.L F A Z G Z.L Y L L W Kevin Lin, Linjie Li, “End-to-end transformers with sparse attention for video captioning,” Computer Vision and Pattern Recognition, 2022 33

[20] Y.C Y W Z Z S L H H Ze Liu, Jia Ning, “Video swin transformer,”

Computer Vision and Pattern Recognition, 2021 35

Cách thức xây dựng bộ nhãn du liệu

Với mong muốn đánh giá các phương pháp hiện tại cho bài toán tóm tắt những sự kiện quan trọng của nhân vật trong phim, nhóm đã tiến hành gán nhãn dữ liệu dựa trên các sự kiện quan trọng trong cuộc đời nhân vật Trong phần nay trình bày các bước trong quy trình gán nhãn dữ liệu, các thông tin thống kê trong tập dữ liệu do nhóm qui định Chi tiết các bước như hình sau:

1 Xây dựng bộ nhãn tập dữ liệu từ TRECVID

1.1 Xem toàn bộ video Đối với mỗi nhân vật cần tóm tắt, nhóm liệt kê văn bản mô tả các sự kiện quan trọng của nhân vật Các mô tả bằng văn bản này có được từ các trang phim và wikipedia (Đối với tập test) và các mô tả sự kiện quan trọng của nhân vật được cung cấp sẵn (Đối với tập train) Sau đó nhóm tiến hành xem các shot đã được cắt ra sau bước phân đoạn video Tiwf đó đánh giá xem một phân đoạn có phải là sự kiện quan trọng với nhân vật hay không Quá trình xem và gán nhãn là thủ công, bộ dữ liệu gán nhãn được tổ chức như sau:

68 kiện quan trọng trong. cuộc đời nhân vật

Danh sách các sự kiện chính và phân đoạn

Danh sách các sự kiện chính cuối cùng

Tên sự kiện quan trọng Tén phân đoạn (Phân đoạn IIPhân đoạn 21 )

Byrd is verbally abusive after spilling his beer on another parent | Calloused_Hands-2.shot_13.webmlCalloused_ Hands-2.shot_ 15.webmlCalloused_Hands-2.shot_ 12.webm

Bang 1: Vi dụ một file gan nhãn dữ liệu cho nhân vat Byrd trong phim Cal- loused_Hands

Ngày đăng: 23/10/2024, 00:29

HÌNH ẢNH LIÊN QUAN

Hình ảnh về nhân vật Video tóm tắt - Khóa luận tốt nghiệp Khoa học máy tính: Tóm tắt sự kiện quan trọng của nhân vật trong phim
nh ảnh về nhân vật Video tóm tắt (Trang 17)
Hình 2.1: Minh hoa cho bài toán tóm tat video - Khóa luận tốt nghiệp Khoa học máy tính: Tóm tắt sự kiện quan trọng của nhân vật trong phim
Hình 2.1 Minh hoa cho bài toán tóm tat video (Trang 22)
Hình 2.3: Anh minh hoa phương pháp tiếp cận của nhóm MEMAD cho TRECVID - Khóa luận tốt nghiệp Khoa học máy tính: Tóm tắt sự kiện quan trọng của nhân vật trong phim
Hình 2.3 Anh minh hoa phương pháp tiếp cận của nhóm MEMAD cho TRECVID (Trang 25)
Hình 2.4: Ảnh minh hoa hệ thống của đội NII_UIT cho TRECVID VSUM 2020 - Khóa luận tốt nghiệp Khoa học máy tính: Tóm tắt sự kiện quan trọng của nhân vật trong phim
Hình 2.4 Ảnh minh hoa hệ thống của đội NII_UIT cho TRECVID VSUM 2020 (Trang 28)
Hình 2.5: Anh minh hoa cuộc thi TRECVID MSUM 2020. - Khóa luận tốt nghiệp Khoa học máy tính: Tóm tắt sự kiện quan trọng của nhân vật trong phim
Hình 2.5 Anh minh hoa cuộc thi TRECVID MSUM 2020 (Trang 30)
Bảng 3.1: Bảng tổng quát dữ liệu - Khóa luận tốt nghiệp Khoa học máy tính: Tóm tắt sự kiện quan trọng của nhân vật trong phim
Bảng 3.1 Bảng tổng quát dữ liệu (Trang 39)
Hình 3.1: Kiến trúc TransnetV2 - Khóa luận tốt nghiệp Khoa học máy tính: Tóm tắt sự kiện quan trọng của nhân vật trong phim
Hình 3.1 Kiến trúc TransnetV2 (Trang 40)
Hình 3.3: Anh mô tả kiến trúc 3 mang P-Net, R-Net và O-Net, nơi MP là max pooling - Khóa luận tốt nghiệp Khoa học máy tính: Tóm tắt sự kiện quan trọng của nhân vật trong phim
Hình 3.3 Anh mô tả kiến trúc 3 mang P-Net, R-Net và O-Net, nơi MP là max pooling (Trang 43)
Hình 3.4: Chi tiết kiến trúc P-Net - Khóa luận tốt nghiệp Khoa học máy tính: Tóm tắt sự kiện quan trọng của nhân vật trong phim
Hình 3.4 Chi tiết kiến trúc P-Net (Trang 44)
Hình 3.5: Chi tiết kiến trúc R-Net - Khóa luận tốt nghiệp Khoa học máy tính: Tóm tắt sự kiện quan trọng của nhân vật trong phim
Hình 3.5 Chi tiết kiến trúc R-Net (Trang 45)
Hình 3.6: Chi tiết kiến trúc O-Net - Khóa luận tốt nghiệp Khoa học máy tính: Tóm tắt sự kiện quan trọng của nhân vật trong phim
Hình 3.6 Chi tiết kiến trúc O-Net (Trang 46)
Hình 3.7: So sánh giữa các phương pháp trước va SWINBERT. - Khóa luận tốt nghiệp Khoa học máy tính: Tóm tắt sự kiện quan trọng của nhân vật trong phim
Hình 3.7 So sánh giữa các phương pháp trước va SWINBERT (Trang 49)
Hình 3.8: Tổng quan framework - Khóa luận tốt nghiệp Khoa học máy tính: Tóm tắt sự kiện quan trọng của nhân vật trong phim
Hình 3.8 Tổng quan framework (Trang 50)
Hình 3.9: Kiến trúc tổng thể của Video Swin Transformer - Khóa luận tốt nghiệp Khoa học máy tính: Tóm tắt sự kiện quan trọng của nhân vật trong phim
Hình 3.9 Kiến trúc tổng thể của Video Swin Transformer (Trang 51)
Hình 3.11: Mô tả lời thoại cho phân đoạn - Khóa luận tốt nghiệp Khoa học máy tính: Tóm tắt sự kiện quan trọng của nhân vật trong phim
Hình 3.11 Mô tả lời thoại cho phân đoạn (Trang 54)
Hình 3.14: Minh hoạ hệ thống so khớp văn bản - Khóa luận tốt nghiệp Khoa học máy tính: Tóm tắt sự kiện quan trọng của nhân vật trong phim
Hình 3.14 Minh hoạ hệ thống so khớp văn bản (Trang 56)
Hình 3.15: Tạo video tóm tắt - Khóa luận tốt nghiệp Khoa học máy tính: Tóm tắt sự kiện quan trọng của nhân vật trong phim
Hình 3.15 Tạo video tóm tắt (Trang 58)
Bảng 4.2: Tổng quan query tập train - Khóa luận tốt nghiệp Khoa học máy tính: Tóm tắt sự kiện quan trọng của nhân vật trong phim
Bảng 4.2 Tổng quan query tập train (Trang 60)
Bảng 4.3: Tập test - Khóa luận tốt nghiệp Khoa học máy tính: Tóm tắt sự kiện quan trọng của nhân vật trong phim
Bảng 4.3 Tập test (Trang 61)
Hình 4.1: Kết quả nhân vật trên các trường hợp với thời gian = 120s - Khóa luận tốt nghiệp Khoa học máy tính: Tóm tắt sự kiện quan trọng của nhân vật trong phim
Hình 4.1 Kết quả nhân vật trên các trường hợp với thời gian = 120s (Trang 65)
Hình 4.2: Kết quả nhân vật trên các trường hợp với thời gian = 240s - Khóa luận tốt nghiệp Khoa học máy tính: Tóm tắt sự kiện quan trọng của nhân vật trong phim
Hình 4.2 Kết quả nhân vật trên các trường hợp với thời gian = 240s (Trang 66)
Hình 4.3: Kết quả nhân vật trên các trường hợp với thời gian = 360s - Khóa luận tốt nghiệp Khoa học máy tính: Tóm tắt sự kiện quan trọng của nhân vật trong phim
Hình 4.3 Kết quả nhân vật trên các trường hợp với thời gian = 360s (Trang 66)
Là 0.2475 ở trường hợp 2 và 3. Hình 4.2 - Khóa luận tốt nghiệp Khoa học máy tính: Tóm tắt sự kiện quan trọng của nhân vật trong phim
0.2475 ở trường hợp 2 và 3. Hình 4.2 (Trang 68)
Hình 4.5: Minh hoạ các sự kiện đúng - Khóa luận tốt nghiệp Khoa học máy tính: Tóm tắt sự kiện quan trọng của nhân vật trong phim
Hình 4.5 Minh hoạ các sự kiện đúng (Trang 69)
Bảng 4.9: Tổng quan bộ dữ liệu tự thu thập - Khóa luận tốt nghiệp Khoa học máy tính: Tóm tắt sự kiện quan trọng của nhân vật trong phim
Bảng 4.9 Tổng quan bộ dữ liệu tự thu thập (Trang 70)
Hình 5.1: Giao diện ứng dụng - Khóa luận tốt nghiệp Khoa học máy tính: Tóm tắt sự kiện quan trọng của nhân vật trong phim
Hình 5.1 Giao diện ứng dụng (Trang 74)
Hình 5.2: Giao diện trực quan hoa dữ liệu một phim - Khóa luận tốt nghiệp Khoa học máy tính: Tóm tắt sự kiện quan trọng của nhân vật trong phim
Hình 5.2 Giao diện trực quan hoa dữ liệu một phim (Trang 75)
Hình 5.3: Giao diện trực quan hoa dữ liệu một phim - Khóa luận tốt nghiệp Khoa học máy tính: Tóm tắt sự kiện quan trọng của nhân vật trong phim
Hình 5.3 Giao diện trực quan hoa dữ liệu một phim (Trang 77)
Bảng 2: Thống kê bộ nhãn dif liệu - Khóa luận tốt nghiệp Khoa học máy tính: Tóm tắt sự kiện quan trọng của nhân vật trong phim
Bảng 2 Thống kê bộ nhãn dif liệu (Trang 85)
Hình 2: Quá trình gán nhãn dữ liệu - Khóa luận tốt nghiệp Khoa học máy tính: Tóm tắt sự kiện quan trọng của nhân vật trong phim
Hình 2 Quá trình gán nhãn dữ liệu (Trang 86)

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN

w