Phát hiện thông tin bạo lực trong video dựa trên đa đặc trưng mang tính ngữ nghĩa cao

ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN LÂM QUANG VŨ PHÁT HIỆN THÔNG TIN BẠO LỰC TRONG VIDEO DỰA TRÊN ĐA ĐẶC TRƯNG MANG TÍNH NGỮ NGHĨA CAO LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN TP HỒ CHÍ MINH - 2018 ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN LÂM QUANG VŨ PHÁT HIỆN THÔNG TIN BẠO LỰC TRONG VIDEO DỰA TRÊN ĐA ĐẶC TRƯNG MANG TÍNH NGỮ NGHĨA CAO Chuyên ngành: Khoa Học Máy Tính Mã số ngành: 62 48 01 01 Phản biện 1: TS Lê Thành Sách Phản biện 2: PGS.TS Vũ Đức Lung Phản biện 3: TS Nguyễn Hồng Sơn Phản biện độc lập 1: PGS.TS Phạm Thế Bảo Phản biện độc lập 2: TS Nguyễn Hồng Sơn NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS DƯƠNG ANH ĐỨC TS LÊ ĐÌNH DUY TP Hồ Chí Minh – 2018 LỜI CẢM ƠN Lời xin gửi lời cảm ơn chân thành đến PGS.TS Dương Anh Đức TS Lê Đình Duy ln theo sát động viên, định hướng hỗ trợ suốt q trình thực luận án Nếu khơng có đốc thúc hỗ trợ tận tình Thầy Đức với khơi gợi, bảo định hướng đắn Thầy Duy tơi khơng thể có kết trình bày luận án Tôi xin chân thành cảm ơn GS Shin’ichi Satoh hỗ trợ định hướng cho nghiên cứu thời gian việc Viện NII Hầu hết thí nghiệm thực luận án thực hệ thống máy tính phịng thí nghiệm GS Shin’ichi Satoh Tơi xin chân thành cảm ơn bạn đồng nghiệp phòng thí nghiệm Truyền Thơng Đa Phương Tiện – ĐH Cơng Nghệ Thông Tin, đặc biệt TS Ngô Đức Thành chia sẻ, động viên hỗ trợ nhiệt thành bạn Tôi xin chân thành cảm ơn Ban Chủ Nhiệm Khoa Công Nghệ Thông Tin – ĐHKHTN hỗ trợ chia sẻ công việc, giúp tơi có thêm thời gian q báu để hồn thành luận án Xin cảm ơn quý Thầy/Cô đồng nghiệp Khoa ln sát cánh giúp tơi vừa hồn thành tốt cơng việc chun mơn, cơng việc quản lý vừa thực luận án Lời cảm ơn sau xin gửi đến gia đình Xin ghi nhận lòng biết ơn sâu sắc đến ba mẹ, người hỗ trợ vô điều kiện, hồn cảnh khó khăn Anh xin cảm ơn vợ hai trai nguồn động lực to lớn giúp ba hồn thành cơng việc LỜI CAM ĐOAN Tơi xin cam đoan cơng trình nghiên cứu riêng tơi cộng Các số liệu, kết thí nghiệm trình bày luận án trung thực chưa cơng bố cơng trình khác, ngoại trừ tư liệu trích dẫn ghi tài liệu tham khảo Tác giả luận án Lâm Quang Vũ MỤC LỤC DANH MỤC HÌNH vi DANH MỤC CÁC TỪ VIẾT TẮT xii Tóm tắt luận án PHẦN MỞ ĐẦU 1) Giới thiệu cơng trình nghiên cứu .3 2) Động lực nghiên cứu 3) Mục đích, đối tượng phạm vi luận án 4) Ý nghĩa khoa học thực tiễn luận án 5) Các đóng góp luận án 6) Bố cục luận án 10 Chương TỔNG QUAN 12 1.1 Giới thiệu toán .12 1.2 Các thách thức 14 1.3 Tổng quan hướng tiếp cận cho toán VSD .17 1.4 Giới thiệu hướng tiếp cận luận án .19 1.4.1 Giới thiệu kiến trúc tổng quan 19 1.4.2 Bước - Tiền xử lý liệu 20 1.4.3 Bước – Biểu diễn đặc trưng .22 1.4.4 Bước - Huấn luyện mơ hình/ đánh giá 28 1.4.5 Bước - Kết hợp kết 31 1.5 Bộ liệu MediaEval 31 1.5.1 Giới thiệu MediaEval 32 1.5.2 Giới thiệu liệu MediaEval-VSD .32 i 1.5.3 Thông tin liệu 33 1.5.4 Các khái niệm gán nhãn liệu 34 1.5.5 Quy trình xây dựng liệu 34 1.5.6 Các đóng góp việc xây dựng liệu 36 1.6 Kết luận .37 Chương BIỂU DIỄN ĐA ĐẶC TRƯNG CHO BÀI TOÁN VSD 38 2.1 Giới thiệu 39 2.2 Các hướng tiếp cận sử dụng đa đặc trưng cho toán VSD 42 2.3 Đặc trưng cấp thấp 45 2.3.1 Các đặc trưng khung ảnh .45 2.3.2 Đặc trưng chuyển động .47 2.3.3 Đặc trưng âm 50 2.4 Đặc trưng tự học rút trích từ mơ hình mạng nơ-ron tích chập 51 2.4.1 Giới thiệu 51 2.4.2 Giới thiệu mạng nơ-ron tích chập .52 2.4.3 Một số vấn đề mạng nơ-ron tích chập 54 2.4.4 Áp dụng đặc trưng trích xuất từ mơ hình mạng nơ-ron tích chập cho tốn VSD 55 2.5 Dữ liệu thử nghiệm 59 2.6 Phân tích kết .60 2.6.1 Đặc trưng toàn cục 60 2.6.2 Đặc trưng cục 61 2.6.3 Đặc trưng chuyển động .64 ii 2.6.4 Đặc trưng âm 64 2.6.5 So sánh cách biểu diễn đặc trưng BoW FV 66 2.6.6 Đặc trưng rút trích từ mơ hình AlexNet 67 2.6.7 Đặc trưng rút trích từ mơ hình VGGNet 67 2.6.8 Đặc trưng rút trích từ mơ hình UvANet 68 2.7 So sánh loại đặc trưng 69 2.8 Phân tích trực quan 70 2.9 Kết luận .72 Chương ĐẶC TRƯNG CẤP CAO CHO BÀI TOÁN VSD 74 3.1 Giới thiệu 74 3.1.1 Các hướng tiếp cận sử dụng đặc trưng cấp cao 75 3.2 Đặc trưng cấp cao sử dụng thuộc tính liên quan đến khái niệm bạo lực 78 3.2.1 Giới thiệu thuộc tính 78 3.2.2 Biểu diễn cảnh bạo lực thuộc tính .80 3.2.3 Thử nghiệm đánh giá kết 84 3.3 So sánh đặc trưng dựa thuộc tính .85 3.4 Tính ngữ nghĩa kết .86 3.5 Kết luận .86 Chương KẾT HỢP ĐẶC TRƯNG VÀ TỐI ƯU TÀI NGUN TÍNH TỐN CHO VSD 88 4.1 Giới thiệu 89 4.2 Các hướng tiếp cận kết hợp đặc trưng .90 4.3 Kết hợp đặc trưng 92 iii 4.3.1 Kết hợp đặc trưng trước huấn luyện .92 4.3.2 Kết hợp kết phân loại đặc trưng sau huấn luyện 94 4.4 Lựa chọn đặc trưng 96 4.4.1 Giới thiệu 96 4.4.2 Phân tích kết loại đặc trưng riêng 97 4.4.3 Đánh giá kết lựa chọn 98 4.5 Tối ưu tài ngun tính tốn .101 4.5.1 Giới thiệu 101 4.5.2 Mơi trường tính tốn 104 4.5.3 Chi phí rút trích đặc trưng 104 4.5.4 Đánh giá kết .106 4.6 So sánh kết nhóm nghiên cứu 108 4.7 Đánh giá độ phức tạp kiến trúc hệ thống 113 4.8 Phân tích đánh giá 118 4.9 Kết luận 121 Chương KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 123 5.1 Những kết đạt 123 5.2 Hạn chế hướng phát triển 125 DANH MỤC CƠNG TRÌNH 127 TÀI LIỆU THAM KHẢO 128 PHỤ LỤC 138 6.1 Thống kê kỹ thuật sử dụng nhóm tham gia MediaEval VSD từ năm 2011 đến năm 2014 138 iv 6.2 Danh sách thi (Task) MediaEval 141 6.3 Định nghĩa tập khái niệm liệu MediaEval VSD 141 6.3.1 Khái niệm bạo lực: 141 6.3.2 Các khái niệm hình ảnh liên quan đến bạo lực: 142 6.3.3 Khái niệm âm liên quan đến bạo lực: .143 6.3.4 Nguyên tắc gán nhãn liệu 144 6.4 Nguyên tắc quy trình xây dựng liệu 145 6.5 Song song hóa việc rút trích đặc trưng huấn luyện/phân loại khái niệm 146 v DANH MỤC HÌNH Hình 0.1 Sự liên hệ cảnh bạo lực phim đời thực Hình 0.2 Minh họa hệ thống hỗ trợ phát thơng tin bạo lực Hình 0.3 Các thơng tin bạo lực có cảnh bạo lực dựa vào định nghĩa WHO [22] Hình 1.1 Hai giai đoạn hệ thống hỗ trợ phát thông tin bạo lực 13 Hình 1.2 Ví dụ đa dạng thể cảnh bạo lực: (a) cảnh chiến đấu; (b) cảnh ma; (c) cảnh giết người có tiếng thét; (d) cảnh truy đuổi xe gây tai nạn; (e) cảnh dí súng bắn người; (f) cảnh chiến đấu có cháy nổ; (g) cảnh xác người đầy máu; (h) cảnh người bị thương chết với nhiều vết thương; (i) cảnh đánh nhau; (j) cảnh cháy nổ gây thương vong đám đông 15 Hình 1.3 Minh họa cảnh nhập nhằng khái niệm bạo lực 16 Hình 1.4 Minh họa thành phần hệ thống hỗ trợ phát kiện dùng rộng rãi nay[70] 18 Hình 1.5 Kiến trúc tổng quan hệ thống hỗ trợ phát thông tin bạo lực 19 Hình 1.6 Minh họa hai bước biểu diễn đặc trưng mơ hình túi từ (Bag of Visual Words) [100] .24 Hình 1.7 Minh họa Fisher Vector Dấu (X) thông tin giá trị trung bình đặc trưng cục Dấu khoanh trịn thơng tin phương sai [71] .26 Hình 1.8 Biểu diễn đặc trưng mơ hình Bag of Words FV toán VSD[CT1] 28 Hình 2.1 Ví dụ ứng dụng học sâu mô tả ảnh [50] 52 Hình 2.2 Minh họa kiến trúc mạng CNN tốn phân lớp ảnh [24] 53 Hình 2.3 Các đặc trưng học qua tầng huấn luyện mạng CNN nhận dạng mặt người[50] 54 vi [67] Penet, Cédric, Demarty, Claire Hélène, Gravier, Guillaume, and Gros, Patrick, (2013), “Technicolor/INRIA team at the MediaEval 2013 violent scenes detection task,” CEUR Workshop Proceedings, volume 1043 [68] Penet, Cédric, Demarty, Claire Hélène, Gravier, Guillaume, and Gros, Patrick, (2011), “Technicolor and INRIA/IRISA at MediaEval 2011: Learning temporal modality integration with Bayesian Networks,” CEUR Workshop Proceedings, volume 807, pp 2010–2011 [69] Penet, Cédric, Demarty, Claire Hélène, Soleymani, Mohammad, Gravier, Guillaume, and Gros, Patrick, (2012), “Technicolor/INRIA/Imperial College London at the mediaeval 2012 violent scene detection task,” CEUR Workshop Proceedings, volume 927, pp 2011–2012 [70] Perera, A G.Amitha et al., (2011), “GENIE TRECVID2011 Multimedia Event Detection: Late-Fusion Approaches to Combine Multiple Audio-Visual features,” TRECVID 2011 Notebook papers [71] Perronnin, F and Dance, C., (2006), “Fisher Kenrels on Visual Vocabularies for Image Categorizaton,” Proc {CVPR}, pp 1–8 [72] Perronnin, F., Sánchez, J., and Mensink, T., “Improving the {F}isher Kernel for Large-Scale Image Classification,” in Eccv, Springer, (2010), pp 143–156 [73] Rabiner, Lawrence R and Schafer, Ronald W., (2007), “Introduction to Digital Speech Processing,” Foundations and Trends® in Signal Processing, volume 1, no 1–2, pp 1–194 [74] Rasmussen, C E., (2000), “The Infinite {G}aussian Mixture Model,” Proc {NIPS}, volume 12, pp 554–560 [75] Razavian, Ali Sharif, Azizpour, Hossein, Sullivan, Josephine, and Carlsson, Stefan, (2014), “CNN features off-the-shelf: An astounding baseline for recognition,” IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops, pp 512–519 [76] Rusk, Nicole, (2015), “Deep learning,” Nature Methods, volume 13, no 1, pp 35–35 [77] Russakovsky, Olga et al., (2015), “ImageNet Large Scale Visual Recognition Challenge,” International Journal of Computer Vision, volume 115, no 3, pp 211–252 [78] Sadanand, Sreemanananth and Corso, Jason J., (2012), “Action bank: A highlevel representation of activity in video,” Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, no May, pp 1234–1241 134 [79] Safadi, Bahjat, Qu, Georges, Safadi, Bahjat, Qu, Georges, Safadi, Bahjat, and Quénot, Georges, (2012), “LIG at MediaEval 2011 affect task : use of a generic method To cite this version : LIG at MediaEval 2011 affect task : use of a generic method.” [80] Sanchez, Jorge et al., (2013), “Image Classification with the Fisher Vector : Theory and Practice,” International journal of computer vision, volume 105, no 3, pp 222–245 [81] Van De Sande, Koen, Gevers, Theo, and Snoek, Cees, (Sep 2010), “Evaluating color descriptors for object and scene recognition,” IEEE Transactions on Pattern Analysis and Machine Intelligence, volume 32, no 9, pp 1582–1596 [82] Schedi, Markus et al., (2015), “VSD2014: A dataset for violent scenes detection in Hollywood movies and web videos,” Proceedings - International Workshop on Content-Based Multimedia Indexing, volume 2015–July, pp 1– [83] Schedl, Markus et al., (2014), “The MediaEval 2013 Affect Task : Violent Scenes Detection To cite this version : The MediaEval 2013 Affect Task : Violent Scenes Detection,” In MediaEval 2013 Workshop, volume 1263, pp 18–19 [84] Schlüter, Jan, Ionescu, Bogdan, Mironicǎ, Ionuţ, and Schedl, Markus, (2012), “ARF @ MediaEval 2012: An uninformed approach to violence detection in hollywood movies,” CEUR Workshop Proceedings, volume 927, pp 4–5 [85] Schüldt, Christian, Caputo, Barbara, Sch, Christian, and Barbara, Laptev, (2017), “Recognizing human actions : A local SVM approach Recognizing Human Actions,” Pattern Recognition, 2004 ICPR 2004 Proceedings of the 17th International Conference on, volume 3, no September 2004, pp 3–7 [86] Sjoberg, Mats, Mironica, Ionut, Schedl, Markus, and Ionescu, Bogdan, (2014), “Far at MediaEval 2014 Violent Scenes Detection: A concept-Based fusion approach,” CEUR Workshop Proceedings, volume 1263 [87] Sjoberg, Mats et al., (2013), “FAR at MediaEval 2013 violent scenes detection: Concept-based violent scenes detection in movies,” CEUR Workshop Proceedings, volume 1043 [88] Snoek, Cees G M., Worring, Marcel, and Smeulders, Arnold W M., (2005), “Early versus late fusion in semantic video analysis,” Proceedings of the 13th annual ACM international conference on Multimedia - MULTIMEDIA ’05, p 399 [89] de Souza, F D M., Cha, G C., Valle, Eduardo A., and de A Araujo, Arnaldo, (2010), “Violence Detection in Video Using Spatio-Temporal 135 Features,” 2010 23rd SIBGRAPI Conference on Graphics, Patterns and Images, pp 224–230 [90] Sun, Chen and Nevatia, Ram, (2013), “Large-scale web video event classification by use of Fisher Vectors,” Proceedings of IEEE Workshop on Applications of Computer Vision, pp 15–22 [91] Tan, Chun Chet and Ngo, Chong Wah, (2013), “The vireo team at MediaEval 2013: Violent Scenes Detection by mid-level concepts learnt from youtube,” CEUR Workshop Proceedings, volume 1043 [92] Tian, Ying-li, Hampapur, Arun, and Brown, Lisa, (2008), “Event Detection, Query, and Retrieval for Video Surveillance,” Image Retrieval, [93] Tsai, Chih-Fong, (2012), “Bag-of-Words Representation in Image Annotation: A Review,” ISRN Artificial Intelligence, volume 2012, pp 1–19 [94] Wang, Heng, Kläser, Alexander, Schmid, Cordelia, and Liu, Cheng Lin, (Jun 2011), “Action recognition by dense trajectories,” Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, pp 3169–3176 [95] Wang, Heng and Schmid, Cordelia, (2013), “Action recognition with improved trajectories,” Proceedings of the IEEE International Conference on Computer Vision, pp 3551–3558 [96] Wu, Yuhai and Vapnik, Vladimir N., (1999), Statistical Learning Theory, Technometrics, volume 41, no [97] Xu, Zhongwen, Yang, Yi, and Hauptmann, Alexander G., (2015), “A discriminative CNN video representation for event detection,” Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, volume 07–12–June, pp 1798–1807 [98] Yao, Bangpeng, Jiang, Xiaoye, Khosla, Aditya, Lin, Andy Lai, Guibas, Leonidas, and Fei-Fei, Li, (Nov 2011), “Human action recognition by learning bases of action attributes and parts,” Proceedings of the IEEE International Conference on Computer Vision, pp 1331–1338 [99] Yeffet, L and Wolf, L., (Sep 2009), “Local Trinary Patterns for Human Action Recognition,” 2009 Ieee 12th International Conference on Computer Vision (Iccv), no Iccv, pp 492–497 [100] Yin Zhang, Rong Jin, Zhi-Hua Zhou, “Understanding bag-of-words model: a statistical framework,” International Journal of Machine Learning and Cybernetics, volume 1, no 1–4, pp 43–52 136 [101] Yosinski, Jason, Clune, Jeff, Bengio, Yoshua, and Lipson, Hod, (2014), “How transferable are features in deep neural networks?,” Advances in Neural Information Processing Systems 27 (Proceedings of NIPS), volume 27, pp 1– [102] Zhang, Bowen, Yi, Yun, Wang, Hanli, and Yu, Jian, (2014), “Mic-TJU at MediaEval Violent Scenes Detection (VSD) 2014,” CEUR Workshop Proceedings, volume 1263 [103] Zhang, Jianguo, Marszałek, Marcin, Lazebnik, Svetlana, and Schmid, Cordelia, (2007), “Local features and kernels for classification of texture and object categories: A comprehensive study,” International journal of computer vision, volume 73, no 2, pp 213–238 [104] Zhao, Haiyong and Liu, Zhijing, (2011), “Human Action Recognition Based on Non-linear SVM Decision Tree,” Journal Of Computational Information Systems, volume 7, pp 2461–2468 [105] Zhu, Guangyu, Yang, Ming, Yu, Kai, Xu, Wei, and Gong, Yihong, (2009), “Detecting video events based on action recognition in complex scenes using spatio-temporal descriptor,” Proceedings of the seventeen ACM international conference on Multimedia - MM ’09, p 165 137 PHỤ LỤC 6.1 Thống kê kỹ thuật sử dụng nhóm tham gia MediaEval VSD từ năm 2011 đến năm 2014 Đặc trưng âm Đặc trưn g văn Kết hợp đặc trưng Năm Nhóm Đặc trưng tự học 2011 TECHNI No Five audio feature s The shot duration, the average number of blood pixels, the average activity and the number of ashes No Histogra m NB FAN K2 Early Late Score Moothing (decision maximum vote) Score Moothing COLOR Đặc trưng hình ảnh Mã hóa đặc trưng Phân lớp 2011 UNIGE No Multi audion featurs e Shot length The shot motion component The skewness of the motion vectors Shot wor ds rate (SW R) Histogra m QDA LDA NB Early 2011 TUB No MFCC SIFT No BoW SVM (RBF kernel) Early 2011 LIG No No Color Texture SIFT No Histogra m kNNbased Late 2011 DYNI No MFCC LBP No Histogra m 2011 NII No No Color moments Color histogram Edge orientation histogram Local binary patterns No Histogra m SVM (RBF kernel) Early 2012 NII No No Color moments Color histogram Edge orientation histogram Local binary patterns No Histogra m SVM(RB F kernel) Late 2012 TUM No Multi audio feature s HSV,Optical Flow , Laplacian edge, Mean Optical No Histogra m SVM(Lin ear kernel) Early Late Hậu xử lý Early 138 Flow, Optical Flow standard deviation 2012 TECHNI No TF-IDF Three color harmonization Motion activity measure (angle, energy or motion activity) No Histogra m SVM with HIK and Chisquared Late Early COLOR 2012 SHANG HAI No MFCC Trajectorybased Features SIFT, STIP No BoW SVM (X2 kernel) 2012 DAI No MFCC Motion feature No BoW SVM (RBF kernel) 2012 ARF No Multi audio feature s Histogram of Oriented Gradients (HoG) Color Naming Histogram No Histogra m Neuron Network Early 2012 LIG No MFCC Color Texture SIFT No Histogra m BoW SVM Late 2012 LIS No Multi audio feature s Audio concep t Multi-Scale Local Binary Pattern (MSLBP) No Histogra m SVM (linear kernel) Early 2013 FUDAN Yes MFCC Trajectorybased Features: (HOG), (HOF) (MBH) STIP Part-Level Attributes No BoW SVM (linear/X kernel) Early 2013 NII No MFCC CH, CM, EOH, LBP OpponentSIFT and CSIFT Dentrajectory (MBH) No BoW SVM (chisquare kernel) 2013 FAR No Multi audio feature s HoG Color Naming Histogram No BoW Generic neural network 2013 VISILAB No No Motion (power spectrum using 2D Fast Fourier Transform) No Histogra m kNN SVM (linear kernel) Score Moothing Temporal re-ranking Threshold selection Score smoothing Early 139 2013 VIREO No MFCC HOG HOF MBH SIFT No BoW SVM(X2 kernel) Early Score smoothing 2013 LIG No MFCC color,texture,S IFT,,STIP No BoW SVM kNN Late Temporal Reranking 2013 TUDCL No MFCC HOG, HOF, MBH No BoW SVM (Multi Kernel Learning ) 2013 MTM No MFCC optical flow No BoW Bayesia n Network Early 2013 TECHNI COLOR No MFCC Three color harmonization Motion activity measure (angle, energy or motion activity) No BoW A naive contextu al Bayesia n network Early Late 2014 FUDAN Yes MFCC HOG,HOF,MB H, TrajShape, STIP No FV SVM(X2/ linear kernel) DNN Early Late 2014 VIVOLA B No MFCC HOG, HOF, MBH No FV SVM (linear kernel) GMM/H MM Late 2014 MIC No MFCC HOG, HOF, MBH, SIFT No FV SVM (linear kernel) Early Late 2014 NII No MFCC SIFT, HOG, HOF, MBH No BoW FV SVM(chi square/li near kernel) Late No 2014 FAR No Multi audio feature s Color Naming, CM, LBP, Color Structure Descriptor HOG No Histogra m BoW Neuron Network Early Score smoothing 2014 TUB No MFCC HOG, HOF, Color No BoW SVM Early No 2014 MTM No MFCC No No BoW Dynamic Bayesia n Network 2014 RECOD Yes Multi audio feature s SURF No BoW SVM Score smoothing Score smoothing No Late No Bảng 6.1 Bảng tổng hợp kỹ thuật nhóm nghiên cứu tham gia MediaEval VSD từ năm 2011-2014[3], [64], [74], [81],[1], [64], [81], [39], [2], [11], [87], [86], [91], [102], [17], [18], [23], [45], [63], [67], [77], [83] 140 6.2 Danh sách thi (Task) MediaEval Các toán MediaEval cập nhật thay đổi năm dựa vào thay đổi xu hướng phát triển cộng đồng nghiên cứu, ví dụ năm 2015, Task MediaEval bao gồm: • Phát kiện xã hội liệu Mutimedia (Social Event Detection for Social Multimedia) • Tìm kiếm liên kết nội dung truyền hình (Search and Hyperlinking of Television Content) • Định vị: dự đốn vị trí liệu truyền thông đa phương tiện (Placing: Geo-coordinate Prediction for Social Multimedia) • Phát thơng tin bạo lực video (Violent Scenes Detection in Film Affect Task) (từ năm 2011 2015) • Đảm bảo tính riêng tư liệu ảnh (Visual Privacy) • Tìm kiếm dựa vào tiếng nói Web (Spoken Web Search) • Hệ thống hỏi đáp dựa vào tiếng nói Web (Question Answering for the Spoken Web) • Lựa chọn kênh âm (Soundtrack Selection for Commercials MusiClef Task) • Phân đoạn liệu tiếng nói (Similar Segments of Social Speech) • Cảm xúc âm nhạc (Emotion in Music) 6.3 Định nghĩa tập khái niệm liệu MediaEval VSD Có tổng cộng khái niệm bạo lực, khái niệm hình ảnh liên quan đến bạo lực khái niệm âm liên quan đến bạo lực tiến hành gán nhãn liệu [22] Cụ thể sau: 6.3.1 Khái niệm bạo lực: 1) Khái niệm bạo lực mang tính khách quan (objective violence): cảnh bạo lực, đoạn phim chứa hành động gây 141 tổn thương cho người Cần ghi nhận lại khung ảnh bắt đầu khung ảnh kết thúc phân đoạn Ví dụ: o 234 389 a girl was killed by a man 2) Khái niệm bạo lực mang tính chủ quan (subjective violence): cảnh bạo lực không phù hợp với trẻ em tuổi Cần ghi nhận lại khung ảnh bắt đầu khung ảnh kết thúc phân đoạn, điểm khác biệt với Objective violence thường phân đoạn Subjective phân đoạn dài, trọn vẹn nội dung, Objective violence phân đoạn ngắn, chứa hành động bạo lực kết Cần ghi nhận lại khung ảnh bắt đầu khung ảnh kết thúc phân đoạn Ví dụ: o 230 1789 scene with group of people attack a man in car, blood, man die Khái niệm bạo lực mang tính khách quan sử dụng MediaEval VSD từ năm 2011 đến 2013 Từ năm 2013, Ban tổ chức MediaEval VSD định sử dụng khái niệm bạo lực mang tính chủ quan thi hàng năm định nghĩa chủ quan gần với thực tế 6.3.2 Các khái niệm hình ảnh liên quan đến bạo lực: 1) Khái niệm Blood – Máu: cảnh chứa máu người, động vật Cần ghi nhận lại khung ảnh bắt đầu kết thúc kèm với nhãn thích (máu nhiều, ít, trung bình khơng đáng kể) Ví dụ: o 12324 13123 blood_medium 2) Khái niệm Car Chase – Truy đuổi xe: cảnh có xe truy đuổi Cần ghi nhận lại khung ảnh bắt đầu khung ảnh kết thúc phân đoạn Ví dụ: o 1330 1789 group of car chasing 3) Khái niệm Coldarm – Vũ khí lạnh: cảnh có vũ khí lạnh dao, mác, kiếm, lưỡi lê … Cần ghi nhận lại khung ảnh bắt đầu khung ảnh kết thúc phân đoạn Ví dụ: o 2340 2489 knife 142 4) Khái niệm Firearm – Vũ khí nóng: cảnh có vũ khí nóng súng, lựu đạn … Cần ghi nhận lại khung ảnh bắt đầu khung ảnh kết thúc phân đoạn Ví dụ: o 230 1789 machine guns 5) Khái niệm Gore – Cảnh người chết: cảnh có thi thể người chết, xác người, người ngồi hành tinh, xác động vật, bị giết nhiều lý khác Cần ghi nhận lại khung ảnh bắt đầu khung ảnh kết thúc phân đoạn Ví dụ: o 3230 3789 two blood bodies 6) Khái niệm Fire – cháy: cảnh chứa khung ảnh cháy, nổ, lửa cháy vật dụng … Cần ghi nhận lại khung ảnh bắt đầu khung ảnh kết thúc phân đoạn, kèm theo màu lửa Ví dụ: o 9230 9789 house is burnt with red fire 7) Khái niệm Fight – đánh nhau: cảnh đánh có người (người với người, người với động vật…) Cần ghi nhận lại khung ảnh bắt đầu khung ảnh kết thúc phân đoạn, kèm theo nhãn phân loại: đánh 1, đánh nhóm nhỏ, đánh nguyên nhóm lớn, cơng đánh từ xa Ví dụ: o 230 1789 small o 3245 3312 vs 6.3.3 Khái niệm âm liên quan đến bạo lực: 8) Nhãn Scream – tiếng thét: chứa đoạn có tiếng thét Phải ghi nhận liên tục phân đoạn từ đầu đến cuối, theo số khung ảnh mà theo thời gian Ví dụ sau: o 206.5936349 206.9557166 (nothing) o 206.9557166 207.3298821 scream o 207.3298821 207.4288190 (nothing) 9) Nhãn Explosion - tiếng nổ: chứa đoạn có tiếng nổ (bom, mìn, súng, lựa đạn, vật dụng nổ) Phải ghi nhận liên tục phân đoạn từ đầu đến cuối, theo số khung ảnh mà theo thời gian Ví dụ sau: 143 o 206.5936349 206.9557166 (nothing) o 206.9557166 207.3298821 explosion o 207.3298821 207.4288190 (nothing) 10) Nhãn Gunshot - tiếng súng: chứa đoạn có tiếng súng (đủ loại súng, đại bác…) Phải ghi nhận liên tục phân đoạn từ đầu đến cuối, theo số khung ảnh mà theo thời gian Ví dụ sau: o 206.5936349 206.9557166 (nothing) o 206.9557166 207.3298821 gunshot o 207.3298821 207.4288190 (nothing) 6.3.4 Nguyên tắc gán nhãn liệu Ban tổ chức MediaEval VSD Task đưa định nghĩa cho khái niệm nguyên tắc gán nhãn cho khái niệm (chi tiết trình bày [82]), chi tiết quy trình thực tổ chức nhóm gán nhãn tự thu xếp Ví dụ việc gán nhãn khái niệm bạo lực mang tính chủ quan (subjective violence) phải tuân thủ hướng dẫn sau: • Các cảnh chứa thơng tin gây shock cho trẻ em tuổi phải gán nhãn bạo lực, cụ thể gồm: ảnh nhiều máu, đánh có chủ định cơng nhằm gây tổn hại cho đối thủ, cảnh xác chết, cảnh ma, cảnh chiến đấu chiến trường khốc liệt, cách hành xử mạnh bạo (tát bạn, xô bạn ngã …), cảnh chém giết Bên cạnh cảnh chứa âm rùng rợn, ma qi thiết thét kinh hồng ảnh hưởng đến tâm lý trẻ em • Việc xác định phân đoạn phải trọn vẹn, theo chủ thể thống từ đầu đến cuối phân đoạn (thường vị trí đầu cuối cảnh chuyển), khơng cắt rời nguyên cảnh thành phân đoạn rời rạc (đây điểm khác biệt objective subjective) Các trường hợp không chắn phải ghi nhận dạng chưa rõ (borderline case) với kí hiệu [???] để Ban tổ chức định, người thực khơng tự ý định cảnh nằm danh sách hướng dẫn 144 6.4 Nguyên tắc quy trình xây dựng liệu Quy trình xây dựng liệu Ban tổ chức MediaEval định nghĩa Hình 6.1 gồm bước thực hiện: • Bước 1: Ban tổ chức tiến hành xây dựng định nghĩa khái niệm bao lực xây dựng hướng dẫn quy trình gán nhãn liệu: a Xác định định nghĩa b Quy định công cụ sử dụng gán nhãn c Quy định định dạng liệu chuyển đổi (để đảm bảo phim rút trích xác khung ảnh • Bước 2: Hai thành viên độc lập tiến hành gán nhãn liệu cho video (các thành viên lựa chọn đa dạng: sinh viên, người có gia đình, có nhỏ, …) • Bước 3: Thành viên thứ tiến hành tổng hợp liệu từ thành viên bước 1: a Nếu hai nguồn liệu không mâu thuẫn  xác định nhãn liệu b Nếu hai nguồn liệu mâu thuẫn  Thành viên tiến hành kiểm tra i Nếu thành viên xác định nhãn liệu (nghĩa xác định cảnh bạo lực hay không)  xác định nhãn liệu ii Nếu thành viên không xác định  gán nhãn trường hợp cần kiểm tra để Ban tổ chức bước cuối kiểm tra lại • Bước 4: Ban tổ chức tiến hành họp để kiểm tra trường hợp bước 2.b.ii  xác định cảnh bạo lực hay không đưa vào danh sách trường hợp lưỡng lự (borderline case) 145 Hình 6.1 Quy trình xây dựng liệu MediaEval VSD[82] 6.5 Song song hóa việc rút trích đặc trưng huấn luyện/phân loại khái niệm Để rút ngắn thời gian tính tốn, chúng tơi thiết kế lại hệ thống VSD để chạy hệ thống GRID Computing (gồm ~500 Cores) Trong giai đoạn rút trích đặc trưng, đặc trưng thiết kế chạy độc lập core CPU cho phân đoạn video Để hạn chế việc truyền tải liệu mạng, quy trình rút trích đặc trưng mơ tả Hình 6.2: 146 Hình 6.2 Mơ tả quy trình rút trích đặc trưng ảnh hệ thống GRID COMPUTING • Bước 1: Các khung ảnh rút trích từ video gom lại thành tập tin nén (để chép lên server GRID lần chạy, tránh server GRID truy cập liệu hệ thống lưu trữ tập trung, gây nghẽn cổ chai đường truyền mạng) • Bước 2: Các server GRID tiến hành giải nén tập tin chứa khung ảnh, rút trích đặc trưng cho ảnh, tạo thành vector đặc trưng (thường histogram vector), sau nén lại thành tệp nén chứa vector đặc trưng chép lại hệ thống lưu trữ • Bước 3: Giải nén tệp chức vector đặc trưng hệ thống lưu trữ tập trung pooling thành vector đặc trưng cho video clip phân đoạn film Với cách tiếp cận trên, việc triển khai thí nghiệm cho loại đặc trưng rút ngắn từ 500 ngày (trên máy đơn) xuống ngày (trên hệ thống GRID) Tổng thời gian rút trích loại đặc trưng khác cho VSD giảm xuống cịn khoảng vài ngày cho thí nghiệm Việc tạo điều kiện cho nhóm nghiên cứu thử nghiệm nhiều loại đặc trưng, cấu hình khác cho đặc trưng 147 Tương tự gian đoạn huấn luyện đánh giá, thiết kế mơ hình huấn luyện song song hệ thống server lưới 148 ... 0 Phát thông tin bạo lực liệu Video 0 0 D/S phân đoạn gán nhãn bạo lực Hình 1.1 Hai giai đoạn hệ thống hỗ trợ phát thông tin bạo lực Hệ thống phát thông tin bạo lực định nghĩa với đầu vào video, ... http://www.multimediaeval.org/mediaeval2011/violence2011/ 12 phát kiện, nhiên tính chất khái niệm bạo lực, cảnh chức thơng tin bạo lực đa dạng tính ngữ nghĩa cao Tương tự hệ thống hỗ trợ phát kiện khác, tính đa dạng cao thể thơng tin bạo lực, toán... ĐẠI HỌC KHOA HỌC TỰ NHIÊN LÂM QUANG VŨ PHÁT HIỆN THÔNG TIN BẠO LỰC TRONG VIDEO DỰA TRÊN ĐA ĐẶC TRƯNG MANG TÍNH NGỮ NGHĨA CAO Chuyên ngành: Khoa Học Máy Tính Mã số ngành: 62 48 01 01 Phản biện

Định dạng
Số trang	164
Dung lượng	6,34 MB