Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 91 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
91
Dung lượng
15,84 MB
Nội dung
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH ĐẠI HỌC CƠNG NGHỆ THƠNG TIN KHOA KHOA HỌC MÁY TÍNH ĐỖ VĂN TIẾN ỨNG DỤNG DEEP LEARNING CHO BÀI TOÁN PHÁT HIỆN SỰ KIỆN TRONG DỮ LIỆU VIDEO LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH MÃ SỐ: 60.48.01.01 GIẢNG VIÊN HƯỚNG DẪN: PGS TS DƯƠNG ANH ĐỨC PGS TS LÊ ĐÌNH DUY TP HỒ CHÍ MINH, 2016 ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CƠNG NGHỆ THƠNG TIN KHOA KHOA HỌC MÁY TÍNH HUỲNHGỌC TÍN ĐỖ VĂN TIẾN ỨNG DỤNG DEEP LEARNING CHO BÀI TOÁN PHÁT HIỆN SỰ KIỆN TRONG DỮ LIỆU VIDEO LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH MÃ SỐ: 60.48.01.01 GS.TSKH HỒNG VĂN KIẾM TP HỒ CHÍ MINH - Năm 2016 LỜI CÁM ƠN Trước tiên, em xin gửi lời cảm ơn chân thành đến thầy PGS.TS Dương Anh Đức thầy PGS.TS Lê Đình Duy Trong suốt trình làm luận văn, hai thầy dành nhiều cơng sức giúp đỡ hướng dẫn em tận tình để em hồn tất đề tài cách thuận lợi Bên cạnh đó, em xin cảm ơn anh chị đồng nghiệp bạn sinh viên phòng Thí nghiệm Truyền thơng Đa Phương tiện, trường ĐH Công nghệ Thông tin hỗ trợ em nhiều suốt thời gian em thực luận văn Em xin gửi lời cảm ơn đến thầy cô trường ĐH Công nghệ Thông tin, ĐHQG HCM tạo điều kiện cho em học tập hoàn tất luận văn Em xin chân thành cảm ơn TP.HCM, tháng năm 2016 Đỗ Văn Tiến LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu riêng tơi Các số liệu, kết nêu luận văn trung thực chưa công bố công trình khác, ngoại trừ tư liệu trích dẫn ghi mục tài liệu tham khảo Tác giả luận văn Đỗ Văn Tiến iii TĨM TẮT Bài tốn phát kiện video (multimedia event detection - MED)1 mô tả sau: đầu vào thường video danh sách kiện, yêu cầu đầu đoạn video chứa nội dung tương ứng với kiện cho trước rút từ video đầu vào Khái niệm kiện bao gồm nhiều loại từ đơn giản như: mưa, đám lửa, đến kiện phức tạp như: bữa tiệc, bạo lực Đây tốn có nhiều thách thức độ lớn phức tạp liệu video, tính đa dạng mang tính ngữ nghĩa cao kiện Việc giải toán tiền đề để xây dựng ứng dụng thực tế hệ thống giám sát, phân tích nội dung video Các nghiên cứu gần thường tập trung vào việc lựa chọn sử dụng đặc trưng (feature) để biểu diễn khái niệm kiện video Tuy nhiên, đặc trưng thường sử dụng chưa thể độ phức tạp tính ngữ nghĩa kiện hầu hết đặc trưng chuyên gia thiết kế đề xuất (handcrafted) Deep Learning (DL) khái niệm thuật toán máy học để xây dựng mơ hình đối tượng cách học theo nhiều cấp biểu diễn từ quan hệ phức tạp liệu học [1] Một tính bật DL khả tự học đặc trưng trực tiếp từ liệu đầu vào Tuy nhiên, theo khảo sát học viên toán thị giác máy nghiên cứu thường áp dụng DL ảnh, nghiên cứu áp dụng DL liệu video áp dụng vào toán phát kiện video bước sơ khởi Ngồi ra, DL lĩnh vực cộng đồng nghiên cứu nước nên chưa có nhiều tài liệu tham khảo http://www.multimediaeval.org/ Theo đó, nội dung luận văn tập trung vào việc tìm hiểu áp dụng DL vào tốn phát kiện video Sự kiện, nội dung đề cập cảnh bạo lực - toán phát cảnh bạo lực video (Violent Scenes Detection -VSD) Đây ví dụ điển hình lớp tốn phát kiện thể mức độ phức tạp khái niệm bạo lực đa dạng đối tượng, thành phần tham gia kiện bạo lực Luận văn thực việc áp dụng đặc trưng Deep Feature (DF) rút trích từ mơ hình DL (Alexnet, VGG, UvAnet) Thực nghiệm tiến hành tập liệu chuẩn MediaEval Affect Task 2014 - Violent Scenes Detection -VSD Kết thực nghiêm cho thấy việc áp dụng DL tăng độ xác hệ thống từ 1% đến 15% so với đặc trưng handcrafted Kết nghiên cứu công bố hội nghị khoa học Quốc gia lần thứ - nghiên cứu ứng dụng công nghệ thông tin FAIR - Fundamental and Applied IT Research (2016) - Cần thơ Từ khóa: Deep learning, Phát sựu kiện - Event detection, Phát thông cảnh bạo lực video - Violent Scene Detection http://www.multimediaeval.org/mediaeval20/ NHỮNG ĐÓNG GĨP CHÍNH • Đề xuất áp dụng đặc trưng Deep feature từ mơ hình Deep learning cho toán phát cảnh bạo lực video Kết nghiên cứu công bố hội nghị khoa học Quốc gia lần thứ - nghiên cứu ứng dụng công nghệ thông tin - Fundamental and Applied IT Research (FAIR-2016) • Nội dung luận văn hệ thống lại kiến thức sở DL, tài liệu tham khảo hữu ích cho nghiên cứu sau Mục lục Lời cam đoan iii Tóm tắt iv Những đóng góp vi Mục lục vii Danh sách hình vẽ x Danh sách bảng xii Danh sách từ viết tắt xiii Mở đầu 1.1 Đặt vấn đề 1.2 Thách thức, mục tiêu phạm vi 1.2.1 Thách thức 1.2.2 Tính tính cấp thiết 1.2.3 Mục tiêu phạm vi 1.3 Cấu trúc luận văn Bài toán phát cảnh bạo lực video 2.1 Phát biểu toán 2.2 Một số thách thức 2.2.1 Về mặt liệu 2.2.2 Độ phức tạp khái niệm bạo lực vii 1 4 8 11 11 13 MỤC LỤC 2.3 2.4 Một số nghiên cứu liên quan Kết chương Tổng quan Deep learning 3.1 Neural networks 3.1.1 Neural sinh học 3.1.2 Neural nhân tạo 3.1.3 Mạng neural nhân tạo (Artificial Neural Networks) 3.1.4 Huấn luyện ANN 3.1.5 Thuật toán lan truyền ngược 3.2 Deep learning 3.2.1 Khái niệm Deep learning 3.2.2 Phân loại Deep learning 3.2.2.1 DL cho học không giám sát 3.2.2.2 DL cho học giám sát 3.2.2.3 Mạng kết hợp DL 3.3 Convolutional Neural Networks 3.3.1 Các thành phần mạng CNN 3.3.1.1 Convolution 3.3.1.2 Pooling 3.3.1.3 ReLU 3.3.1.4 Fully-connected 3.3.2 Kiến trúc CNN 3.4 Một số thư viện framework hỗ trợ DL 3.4.1 Caffe 3.4.2 Torch 3.4.3 TensorFlow 3.4.4 Theano 3.5 Một số nghiên cứu sử dụng DL thị giác máy 3.6 Kết chương 14 16 18 18 19 21 24 26 27 28 28 30 31 33 34 34 35 35 40 40 41 42 42 43 44 44 45 46 48 Deep Learning cho toán phát cảnh bạo lực video 49 4.1 Kiến trúc hệ thống 50 viii MỤC LỤC 4.1.1 4.1.2 Tiền xử lý video Rút trích đặc trưng 4.1.2.1 Alexnet 4.1.2.2 VGG 4.1.2.3 UvANet 4.1.2.4 RGB-SIFT 4.1.2.5 Đặc trưng âm MFCC 4.1.2.6 Đặc trưng chuyển động (Motion) 4.1.3 Biểu diễn đặc trưng 4.1.4 Thuật toán SVM Dữ liệu thực nghiệm phương thức đánh giá 4.2.1 Dữ liệu thực nghiệm 4.2.2 Phương thức đánh giá Kết thực nghiệm đánh giá 4.3.1 Kết thực nghiệm DF biểu diễn khái niệm bạo lực thông qua sub-concepts (C1) 4.3.2 Kết thực nghiệm DF biểu diễn trực tiếp khái niệm bạo lực (C2) 4.3.3 Đánh giá Kết chương 51 52 52 53 54 55 55 56 57 57 58 58 58 60 Kết luận hướng phát triển 5.1 Kết luận 5.2 Hướng phát triển 69 69 70 Cơng trình cơng bố 71 Tài liệu tham khảo 72 4.2 4.3 4.4 ix 61 64 66 67 DL cho toán phát kiện liệu video Hình 4.9: Phân tích kết dựa kiến trúc DL (C1) Hình 4.10: Phân tích kết lựa chọn cách biểu diễn video (C1) 63 DL cho toán phát kiện liệu video đặc trưng RGB-SIFT – đặc trưng mà nhiều nghiên cứu sử dụng xử lý ảnh, đặc trưng chuyển động (Motion), đặc trưng âm MFCC Theo độ xác đạt sử dụng RGB-SIFT 39.44%, Motion 47.64% MFCC 34.09% Dựa vào biểu đồ so sánh kết hình 4.11, so sánh kết tốt mơ hình cho ta thấy việc sử dụng DL đem lại hiệu tốt 1% so với đặc trưng chuyển động, 13% so với việc sử dụng RGB-SIFT MFCC Hình 4.11: So sánh sử dụng DF với phương pháp sử dụng đặc trưng RGB-SIFT, Motion, MFCC (C1) 4.3.2 Kết thực nghiệm DF biểu diễn trực tiếp khái niệm bạo lực (C2) Bảng 4.4 kết thực nghiệm việc sử dụng DF để biểu diễn trực tiếp khái niệm bạo lực Trong thay sử dụng khái niệm, thuộc tính liên quan đến khái niệm bạo lực đặc trưng rút trích trực tiếp từ keyframe gán nhãn bạo lực huấn luyện mơ hình Từ bảng kết ta thấy với đặc trưng rút trích từ mơ hình VGG-16 cách kết hợp maxpooling cho kết tốt (50.17%) Khi so với kết thực từ việc biểu diễn thông qua sub-concept ta thấy độ xác cao tăng lên từ 48.12% lên 50.17% 64 DL cho toán phát kiện liệu video Bảng 4.4: Kết thực nghiệm DF biểu diễn trực tiếp khái niệm bạo lực (C2) Mơ hình Alexnet VGG 16 VGG 19 UvAnet Cấu trúc mạng Fc6 fc7 Fully connected layer Fc6 fc7 Fully connected layer Fc6 fc7 Fully connected layer UvANet_Bottom-up-4k UvANet_Bottom-up-8k UvANet_Bottom-up-12k MAP % (max pooling) MAP % (sum pooling) 45.20 45.57 47.30 45.20 35.92 35.55 49.25 47.60 50.17 47.19 36.90 37.91 50.02 49.12 48.84 47.26 36.76 38.07 42.29 39.60 42.32 40.82 42.86 42.46 Hình 4.12: Phân tích kết dựa kiến trúc DL (C2) Khi xét mặt cấu trúc mơ hình ta thấy kết fc7 layer cho kết cao so với layer khác (hình 4.12) Cũng tương tự phương pháp max pooling cho thường cho kết tốt so với sử dụng sum pooling (hình 4.13) Khi so sánh sử dụng DF với sử dụng đặc trưng RGB-SIFT 40.67%, Motion 47.64%, MFCC 34.09% cho thấy kết sử dụng DF tốt từ 3% đến 15% (hình 4.14 ) 65 DL cho toán phát kiện liệu video Hình 4.13: Phân tích kết lựa chọn cách biểu diễn video (C2) Hình 4.14: So sánh đặc trưng DF với đặc trưng handcraffted (C2) 4.3.3 Đánh giá Dựa vào kết chạy thực nghiệm phân tích khía cạnh khác thực nghiệm (C1) (C2) ta rút số đánh giá nhận xét sau: • Ta áp dụng DL mà cụ thể DF vào việc giải toán phát cảnh bạo lực video Cụ thể hơn, video chia thành đoạn (shot), đoạn ta lấy mẫu nhiều cảnh (keyframe) Việc rút trích đặc trưng thực keyframe 66 DL cho toán phát kiện liệu video • Sử dụng DF cho kết tốt từ 1% đến 15% so với việc sử dụng đặc trưng handcraffed • Trong việc biểu diễn thơng tin shot từ keyframe sử dụng phương pháp max-pooling cho kết cao so với phương pháp sum-pooling • Sử dụng DF biểu diễn trực tiếp khái niệm bạo lực (C2) cho độ xác cao so với sử dụng DF biểu diễn gián tiếp khái niệm bạo lực thông qua khái niệm hay thuộc tính liên quan đến bạo lực(c2) (hình 4.15 ) • Trong mơ hình DL cộng đồng nghiên cứu giới sử dụng Alexnet, VGG, UvANet mơ hình VGG cho kết tốt cho tốn VSD Trong đặc trưng từ tầng kế cuối cho kết tốt Hình 4.15: So sánh phương thức biểu diễn khái niệm bạo lực:(C1) - biểu diễn khái niệm bạo lực qua sub-concept; (C2) - biểu diễn trực tiếp khái niệm bạo lực 4.4 Kết chương Nội dung chương giới thiệu, đề xuất kết thưc nghiệm việc áp dụng đặc trưng DL từ mơ hình DL vào giải tốn VSD Theo 67 DL cho toán phát kiện liệu video đó, từ video ta tiến hành cắt thành đoạn (shot), đoạn lấy mẫu cảnh (keyframe) sau thực việc rút trích đặc trưng trực tiếp từ keyframe Việc biểu diễn thông tin shot thực cách kết hợp đặc trưng riêng lẻ keyframe shot phương pháp maxpooling làm tăng độ xác trình nhận diện Trong trình thực nghiệm đặc trưng rút từ tầng kế cuối mơ hình Alexnet, VGG, UvAnet thường cho kết tốt, với mơ hình VGG cho kết tốt Kết thực nghiệm chứng minh việc sử dụng DF vào giải toán VSD nâng cao độ xác so với sử dụng đặc trưng handcraffed từ 1% đến 15% 68 Chương Kết luận hướng phát triển 5.1 Kết luận Nội dung luận văn tập trung vào việc giải toán phát kiện liệu video cách áp dụng thuật toán cộng đồng giới quan tâm DL Sự kiện đề cập luận văn phát cảnh bạo lực, bạo lực định nghĩa cảnh không nên cho em bé tuổi xem Bài tốn mơ tả sau: đầu vào video yêu cầu đầu đoạn chứa cảnh bạo lực Đây tốn có ý nghĩa thực tế, tiền đề để xây dựng cơng cụ hỗ trợ phân tích kiểm sốt nội dung video Bản thân toán cần giải có nhiều thách thức độ phức tạp độ lớn liệu tính ngữ nghĩa việc biểu diễn khái niệm bạo lực Bên cạnh đó, thuật tốn DL thuật tốn mới, việc tìm hiểu áp dụng DL vào liệu video mà cụ thể tốn VSD có nhiều thách thức Theo luận văn đề xuất sử dụng DF từ mơ hình DL bao gồm Alexnet, VGG, UvAnet để trích xuất đặc trưng biểu diễn cho khái niệm bạo lực nhằm nâng cao độ xác hệ thống Q trình thực nghiệm chứng minh việc áp dụng DF từ mô hình DL nâng cao độ xác hệ thống từ 1% đến 15% so với nghiên cứu trước Dựa mục tiêu đặt luận văn có kết sau: Tìm hiểu tổng quan toán phát kiện video MED, toán phát cảnh bạo lực video - VSD 69 Kết luận hướng phát triển Tìm hiểu tổng quan DL nghiên cứu liên quan Bên cạnh hệ thống lại kiến thức sở thuật toán DL CNN Đề xuất áp dụng DF từ mơ hình DL biểu diễn thơng tin bạo lực cho toán VSD Kết đề xuất công bố hội nghị khoa học Quốc gia lần thứ - nghiên cứu ứng dụng công nghệ thông tin FAIR Fundamental and Applied IT Research (2016) - Cần thơ Xét phương diện giải tốn VSD DL ta có số kết luận sau: • Việc áp dụng DL vào giải hướng tiềm DL mơ hình độ phức tạp ngữ nghĩa khái niệm kiện trường hợp khái niệm bạo lực • Đối với thuật tốn DL việc xây dựng (xác định kiến trúc mạng phù hợp) huấn luyện mơ hình DL cho tốn khó khăn chưa có lý thuyết cụ thể Bên cạnh DL có u cầu tài ngun tính tốn liệu huấn luyện lớn • Hiện chưa có mơ hình DL dùng để giải chun biệt toán phát cảnh bạo lực video Đây hướng nghiên cứu tiềm 5.2 Hướng phát triển DL thuật toán áp dụng cho nhiều lĩnh vực khác bao gồm xử lý ảnh, xử lý âm thanh, xử lý ngôn ngữ tự nhiên Nội dung luận văn tập trung vào việc sử dụng DL cho đặc trưng thị giác Do hướng nghiên cứu áp dụng DL vào phần xử lý đặc trưng âm kết hợp đặc trưng lại với hứa hẹn nâng cao độ xác hệ thống Ngồi phân tích xây dựng mơ hình DL giải tốn VSD hứa hẹn 70 Cơng trình cơng bố [CT] Đỗ Văn Tiến, Lâm Quang Vũ, Phan Lê Sang, Ngô Đức Thành, Lê Đình Duy, Dương Anh Đức "Sử dụng Deep neural networks biểu diễn thuộc tính cho tốn phát cảnh bạo lực video", Hội nghị khoa học quốc gia lần thứ IX "Nghiên cứu ứng dụng Công nghệ thông tin" - Fundamental and Applied IT Research-FAIR 2016, Cần Thơ Việt Nam - 2016 71 Tài liệu tham khảo [1] Y Bengio, A Courville, and P Vincent, “Representation learning: A review and new perspectives,” IEEE Trans Pattern Anal Mach Intell., vol 35, no 8, pp 1798–1828, Aug 2013 [Online] Available: http://dx.doi.org/10.1109/TPAMI.2013.50 iv, [2] V Lam, S Phan, T D Ngo, D.-D Le, D A Duong, and S Satoh, “Violent scene detection using mid-level feature,” in Proceedings of the Fourth Symposium on Information and Communication Technology ACM, 2013, pp 198–205 x, 14, 15, 50, 51, 52, 61 [3] Y.-G Jiang, Q Dai, C C Tan, X Xue, and C.-W Ngo, “The shanghaihongkong team at mediaeval2012: Violent scene detection using trajectorybased features.” in MediaEval, 2012 x, 14, 15, 16 [4] Q V Le, R Monga, M Devin, K Chen, G S Corrado, J Dean, and A Y Ng, “Building high-level features using large scale unsupervised learning,” in In International Conference on Machine Learning, 2012 103 x, 3, 31, 47 [5] Y LeCun, L Bottou, Y Bengio, and P Haffner, “Gradient-based learning applied to document recognition,” Proceedings of the IEEE, vol 86, no 11, pp 2278–2324, 1998 xi, 34 [6] D Ciresan, U Meier, J Masci, and J Schmidhuber, “A committee of neural networks for traffic sign classification,” in Neural Networks (IJCNN), The 2011 International Joint Conference on, July 2011, pp 1918–1921 xi, 47 [7] A Krizhevsky, I Sutskever, and G E Hinton, “Imagenet classification with deep convolutional neural networks,” in Advances in 72 TÀI LIỆU THAM KHẢO Neural Information Processing Systems 25, F Pereira, C Burges, L Bottou, and K Weinberger, Eds Curran Associates, Inc., 2012, pp 1097–1105 [Online] Available: http://papers.nips.cc/paper/ 4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf xi, 47, 48, 50, 52, 53 [8] J Schmidhuber, “Multi-column deep neural networks for image classification,” in Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), ser CVPR ’12 Washington, DC, USA: IEEE Computer Society, 2012, pp 3642–3649 [Online] Available: http://dl.acm.org/citation.cfm?id=2354409.2354694 xii, 46 [9] J Aggarwal and M Ryoo, “Human activity analysis: A review,” ACM Comput Surv., vol 43, no 3, pp 16:1–16:43, Apr 2011 [Online] Available: http://doi.acm.org/10.1145/1922649.1922653 2, 47 [10] P Turaga, R Chellappa, V S Subrahmanian, and O Udrea, “Machine recognition of human activities: A survey,” Circuits and Systems for Video Technology, IEEE Transactions on, vol 18, no 11, pp 1473–1488, 2008 2, 47 [11] O Paul, G Awad, M Michel, J Fiscus, W Kraaij, A Smeaton, and G Quéenot, “Trecvid 2011-an overview of the goals, tasks, data, evaluation mechanisms and metrics,” In Proc TRECVID 2011, 2011 2, 47 [12] C.-H Demarty, C Penet, M Schedl, I Bogdan, V L Quang, and Y.-G Jiang, “The mediaeval 2013 affect task: violent scenes detection,” in MediaEval 2013 Working Notes, 2013, p 2, [13] D Yu and L Deng, “Deep learning and its applications to signal and information processing [exploratory dsp],” IEEE Signal Processing Magazine, vol 28, no 1, pp 145–154, 2011 3, 16, 29, 30, 31, 49 [14] T U of Pittsburgh, “TV and Movie Violence: Why watching it is harmful to children,” Http://www.ocd.pitt.edu/Files/PDF/Parenting/ TvAndMovieViolence.pdf, 2015, [Online; Accessed 10 Jan 2015] 73 TÀI LIỆU THAM KHẢO [15] J Nam, M Alghoniemy, and A H Tewfik, “Audio-visual content-based violent scene characterization,” in Image Processing, 1998 ICIP 98 Proceedings 1998 International Conference on, vol IEEE, 1998, pp 353–357 14 [16] L.-H Chen, H.-W Hsu, L.-Y Wang, and C.-W Su, “Violence detection in movies,” in Computer Graphics, Imaging and Visualization (CGIV), 2011 Eighth International Conference on IEEE, 2011, pp 119–124 14 [17] T Giannakopoulos, D Kosmopoulos, A Aristidou, and S Theodoridis, “Violence content classification using audio features,” in Hellenic Conference on Artificial Intelligence Springer, 2006, pp 502–507 14, 15 [18] T Giannakopoulos, A Makris, D Kosmopoulos, S Perantonis, and S Theodoridis, “Audio-visual fusion for detecting violent scenes in videos,” in Hellenic Conference on Artificial Intelligence Springer, 2010, pp 91–100 14, 15 [19] V Lam, S Phan, D.-D Le, D A Duong, and S Satoh, “Evaluation of multiple features for violent scenes detection,” Multimedia Tools and Applications, pp 1–25, 2016 14, 15 [20] C Penet, C.-H Demarty, G Gravier, and P Gros, “Technicolor and inria/irisa at mediaeval 2011: learning temporal modality integration with bayesian networks,” in MediaEval 2011, Multimedia Benchmark Workshop, vol 807, 2011 14, 15 [21] X.-F Liu and X.-X Zhu, “Parallel feature extraction through preserving global and discriminative property for kernel-based image classification.” 14, 15 [22] L Deng, “A tutorial survey of architectures, algorithms, and applications for deep learning,” APSIPA Transactions on Signal and Information Processing, vol 3, p e2, 2014 30 74 TÀI LIỆU THAM KHẢO [23] D Erhan, Y Bengio, A Courville, P.-A Manzagol, P Vincent, and S Bengio, “Why does unsupervised pre-training help deep learning?” Journal of Machine Learning Research, vol 11, no Feb, pp 625–660, 2010 34 [24] M D Zeiler, M Ranzato, R Monga, M Mao, K Yang, Q V Le, P Nguyen, A Senior, V Vanhoucke, J Dean et al., “On rectified linear units for speech processing,” in 2013 IEEE International Conference on Acoustics, Speech and Signal Processing IEEE, 2013, pp 3517–3521 41 [25] A Graves, M Liwicki, S Fernández, R Bertolami, H Bunke, and J Schmidhuber, “A novel connectionist system for unconstrained handwriting recognition,” IEEE Trans Pattern Anal Mach Intell., vol 31, no 5, pp 855–868, May 2009 [Online] Available: http: //dx.doi.org/10.1109/TPAMI.2008.137 47 [26] D C Cire¸san, A Giusti, L M Gambardella, and J Schmidhuber, “Mitosis detection in breast cancer histology images with deep neural networks,” in Medical Image Computing and Computer-Assisted Intervention–MICCAI 2013 Springer, 2013, pp 411–418 47 [27] D Ciresan, A Giusti, L M Gambardella, and J Schmidhuber, “Deep neural networks segment neuronal membranes in electron microscopy images,” in Advances in Neural Information Processing Systems 25, F Pereira, C Burges, L Bottou, and K Weinberger, Eds Curran Associates, Inc., 2012, pp 2843–2851 [Online] Available: http://papers.nips.cc/paper/ 4741-deep-neural-networks-segment-neuronal-membranes-in-electron-microscopy-images pdf 47 [28] K Simonyan and A Zisserman, “Very deep convolutional networks for largescale image recognition,” arXiv preprint arXiv:1409.1556, 2014 50, 52 [29] P Mettes, D C Koelma, and C G Snoek, “The imagenet shuffle: Reorganized pre-training for video event detection,” arXiv preprint arXiv:1602.07119, 2016 50, 52 [30] C.-H Demarty, C Penet, M Soleymani, and G Gravier, “Vsd, a public dataset for the detection of violent scenes in movies: design, annotation, 75 TÀI LIỆU THAM KHẢO analysis and evaluation,” Multimedia Tools and Applications, vol 74, no 17, pp 7379–7404, 2015 51 [31] C.-H Demarty, B Ionescu, Y.-G Jiang, V L Quang, M Schedl, and C Penet, “Benchmarking violent scenes detection in movies,” in 2014 12th International Workshop on Content-Based Multimedia Indexing (CBMI) IEEE, 2014, pp 1–6 51 [32] V Lam, D.-D Le, S Phan, S Satoh, and D A Duong, “Nii-uit at mediaeval 2014 violent scenes detection affect task.” in MediaEval Citeseer, 2014 52 [33] M Merler, B Huang, L Xie, G Hua, and A Natsev, “Semantic model vectors for complex video event recognition,” IEEE Transactions on Multimedia, vol 14, no 1, pp 88–101, 2012 52 [34] Y Jia, E Shelhamer, J Donahue, S Karayev, J Long, R Girshick, S Guadarrama, and T Darrell, “Caffe: Convolutional architecture for fast feature embedding,” in Proceedings of the 22nd ACM international conference on Multimedia ACM, 2014, pp 675–678 52 [35] C Szegedy, W Liu, Y Jia, P Sermanet, S Reed, D Anguelov, D Erhan, V Vanhoucke, and A Rabinovich, “Going deeper with convolutions,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015, pp 1–9 55 [36] L R Rabiner and R W Schafer, “Introduction to digital speech processing,” Foundations and trends in signal processing, vol 1, no 1, pp 1–194, 2007 55 [37] H Wang and C Schmid, “Action recognition with improved trajectories,” in Proceedings of the IEEE International Conference on Computer Vision, 2013, pp 3551–3558 56 [38] Y.-G Jiang, J Yang, C.-W Ngo, and A Hauptmann, “Representations of keypoint-based semantic concept detection: A comprehensive study,” 2009 57 76 TÀI LIỆU THAM KHẢO [39] Y.-G Jiang, C.-W Ngo, and J Yang, “Towards optimal bag-of-features for object categorization and semantic video retrieval,” in Proceedings of the 6th ACM international conference on Image and video retrieval ACM, 2007, pp 494–501 57 [40] C.-C Chang and C.-J Lin, “Libsvm: a library for support vector machines,” ACM Transactions on Intelligent Systems and Technology (TIST), vol 2, no 3, p 27, 2011 58 77 ... vi Mục tiêu: Luận văn Ứng dụng Deep Learning cho toán phát kiện liệu video có mục tiêu sau dây: (a) Tìm hiểu tổng quan tốn phát kiện video Cụ thể toán phát cảnh bạo lực video Chương Tổng quan... NGHỆ THƠNG TIN KHOA KHOA HỌC MÁY TÍNH HUỲNHGỌC TÍN ĐỖ VĂN TIẾN ỨNG DỤNG DEEP LEARNING CHO BÀI TOÁN PHÁT HIỆN SỰ KIỆN TRONG DỮ LIỆU VIDEO LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH MÃ SỐ: 60.48.01.01... hiểu tổng quan DL áp dụng DL cho toán phát cảnh bạo lực video (Violent Scenes Detection -VSD) - dạng kiện lớp toán phát kiện video Đầu vào toán video clip, yêu cầu đầu đoạn video có chứa nội dung