Phát hiện thông tin bạo lực trong video dựa trên đa đặc trưng mang tính ngữ nghĩa cao TT

31 229 2
Phát hiện thông tin bạo lực trong video dựa trên đa đặc trưng mang tính ngữ nghĩa cao TT

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN LÂM QUANG VŨ PHÁT HIỆN THÔNG TIN BẠO LỰC TRONG VIDEO DỰA TRÊN ĐA ĐẶC TRƯNG MANG TÍNH NGỮ NGHĨA CAO Chuyên ngành: Khoa Học Máy Tính Mã số ngành: 62 48 01 01 TÓM TẮT LUẬN ÁN TIẾN SĨ NGÀNH CƠNG NGHỆ THƠNG TIN TP Hồ Chí Minh năm 2018 Cơng trình hồn thành tại: Khoa Công Nghệ Thông Tin, Trường Đại Học Khoa Học Tự Nhiên, ĐHQG Thành Phố Hồ Chí Minh Người hướng dẫn khoa học: HDC: PGS.TS DƯƠNG ANH ĐỨC HDP: TS LÊ ĐÌNH DUY Phản biện 1: TS Lê Thành Sách Phản biện 2: PGS.TS Vũ Đức Lung Phản biện 3: TS Nguyễn Hồng Sơn Phản biện độc lập 1: PGS.TS Phạm Thế Bảo Phản biện độc lập 2: TS Nguyễn Hồng Sơn Luận án bảo vệ trước Hội đồng chấm luận án cấp sở đào tạo họp Trường Đại Học Khoa Học Tự Nhiên, ĐHQG Thành Phố Hồ Chí Minh vào hồi ngày tháng năm Có thể tìm hiểu luận án thư viện: Thư viện Tổng hợp Quốc gia Tp.HCM Thư viện trường Đại học Khoa học Tự Nhiên-HCM MỤC LỤC PHẦN MỞ ĐẦU 1) 2) 3) 4) 5) Giới thiệu động lực nghiên cứu định hướng nghiên cứu Mục đích, đối tượng phạm vi nghiên cứu luận án Ý nghĩa khoa học thực tiễn luận án Các đóng góp luận án Bố cục luận án Chương TỔNG QUAN 1.1 Giới thiệu toán 1.2 Các thách thức 1.3 Tổng quan hướng tiếp cận cơng trình liên quan 1.3.1 Các hướng tiếp cận chung cho toán phát kiện 1.3.2 Các hướng tiếp cận đa đặc trưng cho bài toán VSD 1.3.3 Các hướng tiếp cận sử dụng đặc trưng cấp cao 1.3.4 Các hướng tiếp cận kết hợp đặc trưng 1.4 Giới thiệu hướng tiếp cận luận án 1.4.1 Giới thiệu kiến trúc tổng quan 1.4.2 Bước - Tiền xử lý liệu 1.4.3 Bước – Biểu diễn đặc trưng 1.4.4 Bước - Huấn luyện mơ hình/ đánh giá 1.4.5 Bước - Kết hợp kết 1.4.6 Song song hóa việc rút trích đặc trưng 1.5 Đánh giá độ phức tạp kiến trúc hệ thống 1.6 Bộ liệu MediaEval 1.6.1 Giới thiệu MediaEval 1.6.2 Giới thiệu liệu MediaEval-VSD 1.6.3 Thông tin liệu 1.6.4 Các khái niệm gán nhãn liệu 1.6.5 Nguyên tắc quy trình xây dựng liệu 1.6.6 Các độ đo 1.6.7 Các đóng góp việc xây dựng liệu 1.7 Kết luận Chương ĐẶC TRƯNG CẤP THẤP VÀ ĐẶC TRƯNG TỰ HỌC CHO BÀI TOÁN VSD 2.1 Giới thiệu 2.2 Đặc trưng cấp thấp 10 2.2.1 Các đặc trưng khung ảnh 10 2.2.2 Đặc trưng chuyển động 11 2.2.3 Đặc trưng âm 12 2.3 Đặc trưng tự học rút trích từ mơ hình mạng nơ-ron tích chập 12 2.3.1 Giới thiệu 12 2.3.2 Giới thiệu mạng nơ-ron tích chập (CNN) 12 2.3.3 Một số vấn đề mạng nơ-ron tích chập 12 2.3.4 Áp dụng đặc trưng rút trích từ mơ hình mạng nơ-ron tích chập cho toán VSD 13 2.4 Dữ liệu thử nghiệm 13 2.5 Phân tích kết 13 2.5.1 Đặc trưng toàn cục 13 i 2.5.2 Đặc trưng cục 14 2.5.3 Đặc trưng chuyển động 14 2.5.4 Đặc trưng âm 14 2.5.5 So sánh cách biểu diễn đặc trưng BoW Fisher Vector 14 2.5.6 Đặc trưng mơ hình AlexNet 14 2.5.7 Đặc trưng mơ hình VGGNet 14 2.5.8 Đặc trưng mơ hình UvANet 15 2.5.9 So sánh với đặc trưng thiết kế sẵn (hand-crafted) 15 2.6 Phân tích trực quan 15 2.7 Kết luận 15 Chương ĐẶC TRƯNG CẤP CAO CHO BÀI TOÁN VSD 16 3.1 Giới thiệu 16 3.2 Đặc trưng cấp cao sử dụng thuộc tính liên quan đến bạo lực 17 3.2.1 Giới thiệu thuộc tính 17 3.2.2 Biểu diễn cảnh bạo lực thuộc tính 17 3.2.3 Thử nghiệm đánh giá kết 18 3.3 So sánh đặc trưng dựa thuộc tính 18 3.4 Tính ngữ nghĩa kết 18 3.5 Kết luận 19 Chương KẾT HỢP ĐẶC TRƯNG VÀ TỐI ƯU TÀI NGUYÊN TÍNH TỐN CHO VSD 19 4.1 Giới thiệu 19 4.2 Kết hợp đặc trưng 20 4.2.1 Kết hợp đặc trưng trước huấn luyện (early fusion) 20 4.2.2 Kết hợp kết phân loại đặc trưng sau huấn luyện (late fusion) 20 4.3 Lựa chọn đặc trưng 21 4.3.1 Giới thiệu 21 4.3.2 Phân tích kết loại đặc trưng riêng 21 4.3.3 Đánh giá kết lựa chọn 21 4.4 Tối ưu tài nguyên tính tốn 22 4.4.1 Giới thiệu 22 4.4.2 Môi trường tính tốn 24 4.4.3 Chi phí rút trích đặc trưng 24 4.4.4 Đánh giá kết 24 4.5 So sánh kết nhóm nghiên cứu 25 4.6 Phân tích đánh giá 26 4.7 Kết luận 26 Chương KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 26 5.1 5.2 Những kết đạt 26 Hướng phát triển 26 DANH MỤC CƠNG TRÌNH 26 ii PHẦN MỞ ĐẦU 1) Giới thiệu động lực nghiên cứu định hướng nghiên cứu Trong năm qua, với bùng nổ kênh thông tin truyền thông đa phương tiện, ngày có hàng ngàn, hàng triệu video chia sẻ qua mạng Bên cạnh thơng tin giải trí, kiến thức bổ ích, kênh thơng tin truyền thơng đa phương tiện có nhiều nội dung ảnh hưởng tiêu cực đến giới trẻ cần kiểm soát chặt chẽ (phim khiêu dâm, nội dung bạo lực…), đặc biệt đối tượng xem thiếu niên trẻ nhỏ Tác động nội dung, thông tin khơng tốt có ảnh hưởng tiêu cực đến hành vi giới trẻ Trong khuôn khổ luận án này, chúng tơi hướng tới việc giải tốn phát thông tin bạo lực liệu video (VSD – Violent Scenes Detection [21]) 2) Mục đích, đối tượng phạm vi nghiên cứu luận án Đầu vào hệ thống phát thông tin bạo lực (hoặc nhiều) phim, video clip Hệ thống tự động phát gán nhãn phân đoạn bạo lực phim, video clip • Đối tượng nghiên cứu: Đối tượng nghiên cứu luận án cảnh chứa thông tin bạo lực phương pháp phát thông tin bạo lực liệu video Thông tin bạo lực bao gồm đối tượng, cảnh, hành động, hành vi bạo lực gây tổn thương cho người Cảnh bạo lực định nghĩa theo WHO1 liệu [24]: o Cảnh chứa thông tin bạo lực không nên cho trẻ tuổi xem o Thông tin bạo lực: đối tượng, cảnh, hành động, kiện đe dọa làm tổn thương đến người • Mục đích nghiên cứu: Nghiên cứu phát triển phương pháp khai thác biểu diễn thông tin bạo lực mơ hình đặc trưng máy tính, phục vụ cho việc đánh giá mức độ bạo lực cảnh video với độ xác cao • Phạm vi nghiên cứu: o Sử dụng định nghĩa cảnh bạo lực, thông tin bạo lực video theo WHO o Phương pháp rút trích biểu diễn đa đặc trưng thông tin bạo lực o Đánh giá liệu chuẩn cung cấp MediaEval, bao gồm phim Hollywood [76], với đầu vào phim đầu cảnh đánh giá mức độ bạo lực 3) Ý nghĩa khoa học thực tiễn luận án Về mặt khoa học, luận án tập trung đánh giá mơ hình đặc trưng nhiều kênh thông tin (kênh thông tin thị giác khai thác khung ảnh chuỗi khung ảnh - video, kênh âm thanh) để biểu diễn cảnh bạo lực Từ đó, xác định loại đặc trưng phù hợp đề xuất phương pháp kết hợp đặc trưng cho tốn phát thơng tin bạo lực Kết nghiên cứu giúp nhóm nghiên cứu có sở lựa chọn đặc trưng phù hợp theo yêu cầu, làm tảng cho việc cải tiến độ xác, chi phí tính tốn nghiên cứu sau, tiết kiệm thời gian thử nghiệm lại loại đặc trưng Về mặt thực tiễn, mô hình hệ thống đánh giá thực nghiệm tảng để phát triển ứng dụng phát thông tin bạo lực, kiểm duyệt phim, xếp hạng phim theo mức độ bạo lực cách tự động (rating), kiểm duyệt thông tin bạo lực kênh truyền thông đa phương tiện Internet http://www.who.int/violenceprevention/approach/definition/en/ 4) Các đóng góp luận án Bài toán phát cảnh bạo lưc video (VSD - Violent Scene Detection) dạng toán phát kiện (MED - Multimedia Event Detection), thách thức lớn dạng tốn tính ngữ nghĩa độ phức tạp cao thể qua xuất đối tượng, người, cảnh vật tương tác chúng Để giải vấn đề này, hướng tiếp cận kết hợp đa đặc trưng chứng minh phổ biến hiệu cho tốn MED Do đó, hướng tiếp cận dùng để giải toán VSD luận án Thách thức hướng tiếp cận đa đặc trưng số lượng đặc trưng nhiều, độ phức tạp tính tốn hiệu đặc trưng khác Do đó, mục tiêu luận án tìm tập đặc trưng vừa đủ (compact) cho độ xác hệ thống cao chi phí tính tốn thấp Để thực mục tiêu này, framework thiết kế phép đánh giá nhiều loại đặc trưng từ nhiều modal khác (như ảnh, video, âm thanh), thuật toán đơn giản hiệu đề xuất để kết hợp loại đặc trưng cho thỏa mãn ràng buộc cân độ xác chi phí tính tốn Hệ thống đề xuất đánh giá tập liệu chuẩn (public benchmark) cho toán này, cho kết tốt so với phương pháp kết hợp đa đặc trưng khác Đây đóng góp quan trọng luận án cơng bố tạp chí MTA [CT1] hội nghị SoCPaR [CT3] Bên cạnh việc phân loại cảnh bạo lực, luận án đề xuất cách biểu diễn cảnh bạo lực sử dụng đặc trưng cấp cao dựa thuộc tính liên quan đến bạo lực Việc sử dụng đặc trưng cấp thấp giúp phân loại khái niệm mà chưa thể giải tốn có mức độ ngữ nghĩa cao VSD Khác với hướng tiếp cận sử dụng đặc trưng cấp cao thường sử dụng việc phân loại khái niệm, luận án đề xuất thiết kế đặc trưng cấp cao giúp bổ sung minh chứng liên quan đến cảnh bạo lực (ví dụ: cảnh bạo lực có đánh nhau, có máu người bị thương hay cảnh cháy nổ có thương vong) giúp giảm khoảng cách ngữ nghĩa tính chủ quan khái niệm Quá trình thiết kế đánh giá đặc trưng cấp cao dựa thuộc tính cơng bố [CT4] trình bày Chương luận án Với tính ngữ nghĩa cao đa dạng mặt thể khái niệm bạo lực, để khai thác tồn diện thơng tin liên quan đến cảnh bạo lực biểu diễn nhận dạng, đề xuất mơ hình kết hợp đa đặc trưng dựa chọn lọc đặc trưng phù hợp có tính bổ trợ cao Tuy nhiên, với khối lượng thông tin lớn video, việc kết hợp nhiều đặc trưng dẫn tới thách thức tài ngun tính tốn Để hạn chế thách thức này, đề xuất mơ hình kết hợp đa đặc trưng tối ưu theo tài nguyên, hướng đến việc triển khai ứng dụng thực tiễn tương lai Kết công bố [CT2] trình bày Chương luận án Trong q trình nghiên cứu, chúng tơi tham gia xây dựng liệu phương pháp đánh giá chuẩn MediaEval Benchmarking VSD Error! Reference source not f ound.[CT9], đồng thời phát triển hệ thống gửi kết đánh giá hội thảo MediaEval VSD hàng năm [CT5][CT7][CT6] Quá trình tham gia xây dựng liệu trình bày chi tiết Chương luận án Dựa kết nghiên cứu, xây dựng hệ thống hỗ trợ phát thông tin bạo lực (lọt vào chung kết thi Nhân Tài đất Việt 2014) đăng ký giải pháp hữu ích để bảo hộ cho hệ thống đề xuất Việt Nam 5) Bố cục luận án • • • • • • Luận án bố cục theo chương mục sau: PHẦN MỞ ĐẦU CHƯƠNG 1: TỔNG QUAN CHƯƠNG 2: ĐẶC TRƯNG CẤP THẤP VÀ ĐẶC TRƯNG TỰ HỌC CHO BÀI TOÁN VSD CHƯƠNG 3: ĐẶC TRƯNG CẤP CAO CHO BÀI TOÁN VSD CHƯƠNG 4: KẾT HỢP ĐA ĐẶC TRƯNG VÀ TỐI ƯU TÀI NGUN TÍNH TỐN CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Chương TỔNG QUAN Trong chương này, chúng tơi giới thiệu tốn giải luận án: Phát thông tin bạo lực video; tầm quan trọng thách thức giải tốn Sau đó, chúng tơi giới thiệu sơ lược cách tiếp cận sử dụng rộng rãi kế thừa từ tốn phát kiện video; từ đó, giới thiệu hướng tiếp cận thực luận án Bên cạnh đó, chúng tơi trình bày kiến trúc hệ thống xây dựng để thực thí nghiệm cho luận án giới thiệu trình tham gia xây dựng liệu chuẩn cho tốn phát thơng tin bạo lực Error! Reference source not found.[CT9] 1.1 Giới thiệu toán Bài toán VSD giải dạng tốn học có giám sát (supervised learning methods) tổ chức qua hai giai đoạn ngoại tuyến (huấn luyện mơ hình) giai đoạn trực tuyến (đánh giá kết quả) Hệ thống VSD với hai giai đoạn minh họa Hình 1.1: Giai đoạn huấn luyện (Offline ) Dữ liệu huấn luyện Rút trích đặc trưng 0 1 0 1 ct r đặc trưng Huấn luyện Mơ hình 0 Video gán nhãn 1: bạo lực 0: không bạo lực Giai đoạn kiểm tra (Online) Kết đánh giá Dữ liệu kiểm tra Rút trích đặc trưng ct r đặc trưng Phân lớp 1 0 Phát thông tin bạ lực tr ng liệu id 0 0 D/S phân đoạn gán nhãn bạo lực Hình 1.1 Hai giai đoạn hệ thống hỗ trợ phát thông tin bạo lực Hệ thống VSD tổ chức thành hai giai đoạn mơ tả Hình 1.1 Ở giai đoạn đầu (thực ngoại tuyến - offline), dựa vào liệu huấn luyện gán sẵn nhãn bạo lực, hệ thống tiến hành rút trích biểu diễn đặc trưng máy tính từ liệu video đầu vào, sau sử dụng phương pháp học giám sát để huấn luyện mơ hình máy học có khả đánh giá, phân loại khái niệm bạo lực Ở giai đoạn (thực trực tuyến - online), hệ thống sử dụng mơ hình huấn luyện bước đầu để tiến hành đánh giá liệu cần kiểm tra Trong phạm vi luận án, chúng tơi tập trung vào bước rút trích biểu diễn đặc trưng máy tính cho khái niệm bạo lực Trong phạm vi luận án, toán VSD đặc tả cụ thể sau: Vấn đề 1.1: Bài tốn phát thơng tin bạo lực tổng quát Đầu vào: • Cho V tập hợp gồm 𝑛 video: 𝑉 = {𝑣1 , 𝑣2 , , 𝑣𝑛 } với 𝑣𝑖 ∈ 𝑉𝑖𝑑𝑒𝑜, 1≤ 𝑖 ≤ 𝑛 𝑖 }, • Mỗi video 𝑣𝑖 tập hợp phân đoạn 𝑣𝑖 = {𝑠1𝑖 , 𝑠2𝑖 , … , 𝑠𝑚 với 𝑚 số phân đoạn video 𝑣𝑖 • ℎ hàm rút trích biểu diễn đặc trưng : ℎ: ℕ𝐻×𝑊×𝐿 ⟶ ℝ𝐷 , 𝐻, 𝑊 chiều cao rộng khung ảnh 𝑠𝑗𝑖 ⟼ ℎ(𝑠𝑗𝑖 ), 𝐿 số khung ảnh phân đoạn 𝐷 chiều dài vector đặc trưng • 𝑡 hàm phân lớp: 𝑡: ℝ𝐷 ⟶ ℤ2 = {0,1}, ℎ(𝑠𝑗𝑖 ) ⟼ 𝑙𝑗𝑖 𝑙𝑗𝑖 nhãn phân đoạn thứ 𝑗 video 𝑣𝑖 có giá trị = khơng bạo lực, 1= bạo lực Đầu ra: • Với video 𝑣𝑖 ∈ 𝑉, kết nhận tập phân đoạn gán 𝑖 𝑖 nhãn bạo lực 𝑟𝑒𝑠𝑢𝑙𝑡𝑖 = {(𝑠1𝑖 , 𝑙1𝑖 ), (𝑠2𝑖 , 𝑙2𝑖 ), … , (𝑠𝑚 , 𝑙𝑚 )}, với ≤ 𝑖 ≤ 𝑛, 𝑙𝑗𝑖 = {0,1} Bài toán cần giải quyết: ℎ • 𝑡 𝑠𝑗𝑖 → ℎ(𝑠𝑗𝑖 ) → 𝑙𝑗𝑖 , chúng tơi tập trung vào giải việc biểu diễn đặc trưng khái niệm bạo lực (hàm ℎ) 1.2 Các thách thức Bài toán phát thông tin bạo lực liệu video dạng toán phát kiện Đây tốn có nhiều thách thức, nên kết chưa đáp ứng nhu cầu thực tế [21] a) Tính đa dạng, đa thể khái niệm bạo lực thách thức lớn toán VSD Theo định nghĩa từ MediaEval WHO2, cảnh bạo lực cảnh có hành động gây thương vong cho người [75] b) Tính ngữ nghĩa cao: bên cạnh thể đa dạng, khái niệm bạo lực phụ thuộc nhiều vào nhận định chủ quan người Tùy thuộc vào lứa tuổi, văn hóa, quan điểm bạo lực người nhận định khái niệm bạo lực khác c) Tài nguyên: việc xử lý liệu video đòi hỏi tài nguyên lưu trữ tính tốn lớn Ví dụ để xử lý rút trích đặc trưng cho video, sử dụng đặc trưng khung ảnh, phải rút trích xử lý 90.000 khung ảnh (25 khung ảnh/ giây) d) Dữ liệu cho toán học giám sát: với đặc tính ngữ nghĩa cao, việc xây dựng liệu huấn luyện dựa khái niệm định nghĩa thách thức 1.3 Tổng quan hướng tiếp cận cơng trình liên quan Phát thơng tin bạo lực dạng toán phát kiện video Thông thường, kiện có nhiều thể đa dạng, mang tính ngữ nghĩa cao nên hướng tiếp cận sử dụng kết hợp đa đặc trưng để biểu diễn kiện, nhiên chưa có nhiều nghiên cứu tương tự cho tốn phát thơng tin bạo lực Kể từ sau năm 2011, MediEval công ty Technicolor đưa liệu MediaEval VSD[76], nhiều nhóm nghiên cứu tham gia giải toán liệu chuẩn 1.3.1 Các hướng tiếp cận chung cho toán phát kiện Bài toán phát thơng tin bạo lực video dạng tốn phát kiện liệu đa phương tiện (MED - multimedia event detection) phổ biến Bài tốn phát thơng tin bạo lực MediEval mà luận án giải xây dựng liệu phim Hollywood (video dài, biên tập nội dung, có độ phân giải cao nhiều kỹ xảo) tính ngữ nghĩa khái niệm cao 1.3.2 Các hướng tiếp cận đa đặc trưng cho bài tốn VSD Đặc điểm chung cơng trình giai đoạn sử dụng khái niệm liên quan đến bạo lực để thay cho khái niệm bạo lực Việc sử dụng định nghĩa mang tính chủ quan cao khơng giải tốn cách tổng quát thể đa dạng khái niệm, phạm vi độ phức tạp toán giảm đáng kể Từ năm 2011, MediaEval VSD phát triển định nghĩa hình thức khái niệm bạo lực công bố kèm liệu chuẩn, nhiều nhóm nghiên cứu giới tham gia vào MediaEval VSD qua năm nhiều công trình cơng bố [21] Các hướng tiếp cận chung toán việc áp dụng đa đặc trưng nhiều kênh thông tin từ ảnh, âm thanh, video cách kết hợp đặc trưng cho hiệu Các nhóm nghiên cứu thường cơng bố kết việc http://www.who.int/violenceprevention/approach/definition/en/ sử dụng đặc trưng khơng cơng bố cấu hình đặc trưng sử dụng, kết công bố thường kết hợp (fusion) nhiều loại đặc trưng khác nên khó để đánh giá kết loại đặc trưng riêng biệt Khác với công trình nghiên cứu khác, luận án đánh giá cách hệ thống loại đặc trưng cách kết hợp hiệu cho toán VSD 1.3.3 Các hướng tiếp cận sử dụng đặc trưng cấp cao Bên cạnh hướng tiếp cận biểu diễn đặc trưng cấp thấp, cần cách tiếp cận giàu ngữ nghĩa cho việc biểu diễn cảnh bạo lực Một số cách tiếp cận sử dụng thuộc tính (attributes) để giải toán nhận dạng đối tượng (như Object Bank [48]), phân lớp cảnh sử dụng thuộc tính đối tượng [49], nhận dạng hành động cách sử dụng ngân hàng hành động [71] Đặc điểm chung cơng trình trước sử dụng thuộc tính biểu diễn cho cảnh, hành động đơn giản, chưa mang tính ngữ nghĩa cao kiện (liên quan đến nhiều thể hiện, nhiều cảnh, hành vi khác nhau) Trong luận án này, chọn cách tiếp cận thiết kế đặc trưng cấp cao dựa thuộc tính liên quan để biểu diễn cảnh bạo lực Đây cách tiếp cận sử dụng đặc trưng cấp cao cho toán MediaEval VSD 1.3.4 Các hướng tiếp cận kết hợp đặc trưng Đối với toán VSD, việc sử dụng kết hợp nhiều đặc trưng chứng minh hiệu quả, nhiên đa số cơng trình tập trung vào việc lựa chọn đặc trưng mà không quan tâm đến chi phí tính tốn loại đặc trưng này[75] Khác với cơng trình liên quan, chúng tơi tiến hành lựa chọn đặc trưng phù hợp cho việc kết hợp, đánh giá lại phương thức kết hợp đặc trưng (kết hợp sớm, kết hợp trễ, kết hợp phân đoạn) cho tốn phát thơng tin bạo lực liệu MediaEval VSD Ngồi chúng tơi xác định chi phí tính tốn việc rút trích loại đặc trưng, từ đề xuất cấu hình đặc trưng tối ưu điều kiện hạn chế tài ngun tính tốn, đánh giá đề xuất sở để triển khai ứng dụng giới thực 1.4 Giới thiệu hướng tiếp cận luận án 1.4.1 Giới thiệu kiến trúc tổng quan Chúng xây dựng hệ thống hỗ trợ phát thông tin bạo lực tảng tham khảo hệ thống hỗ trợ phát kiện [40], [65], [96] Hệ thống chúng tơi xây dựng có khả rút trích đặc trưng nhiều kênh thơng tin Bên cạnh đó, hệ thống thiết kế để thực tính toán song song hệ thống GRID Computing Kiến trúc hệ thống minh họa Hình 1.2 bên Dữ liệu huấn luyện 0 1 0 TIỀN XỬ LÝ 1 Dữ liệu đánh giá 0 BIỂU DIỄN ĐẶC TRƯNG HUẤN LUYỆN VÀ ĐÁNH GIÁ PHÂN ĐOẠN RÚT TRÍCH KHUNG ẢNH CHUẨN HĨA KÍCH THƯỚC RÚT TRÍCH ĐẶC TRƯNG MÃ HĨA ĐẶC TRƯNG HUẤN LUYỆN MƠ HÌNH ĐÁNH GIÁ/ PHÂN LỚP TỔNG HỢP KẾT QUẢ KẾT HỢP KẾT QUẢ HẬU XỬ LÝ TĂNG ĐỘ CHÍNH XÁC Hình 1.2 Kiến trúc tổng quan hệ thống hỗ trợ phát thông tin bạo lực Bước - Tiền xử lý liệu Dữ liệu đầu vào toán VSD thường phim video clip có chiều dài khác Mục tiêu tốn xác định phân đoạn có chứa thơng tin bạo lực, bước hệ thống thực hiện: (1) Phân chia video thành phân đoạn; (2) trích khung ảnh từ phân đoạn (3) chuẩn hóa kích thước Cụ thể bước tiền xử lý liệu đặc tả tổng quát sau: 1.4.2 Bước 1: Tiền xử lý liệu Đầu vào: • Danh sách video 𝑉 = {𝑣1 , 𝑣2 , , 𝑣𝑛 } với 𝑣𝑖 ∈ 𝑉, ≤ 𝑖 ≤ 𝑛 • Độ dài phân đoạn ∆𝑓𝑟𝑎𝑚𝑒𝑠 • Số lượng khung ảnh 𝑛𝑓𝑟𝑎𝑚𝑒 rút trích giây • Kích thước khung ảnh 𝑤𝑛𝑜𝑟𝑚𝑎𝑙𝑖𝑧𝑒 × ℎ Đầu ra: 𝑖 } • Danh sách phân đoạn video 𝑣𝑖 : 𝑆𝑖 = {𝑠1𝑖 , 𝑠2𝑖 , … , 𝑠𝑛𝑆ℎ𝑜𝑡 𝑖 • Danh sách khung ảnh cho phân đoạn 𝑠𝑗 , 𝑖 𝑖 𝑠𝑗𝑖 = {𝑓𝑗,𝑘 : 𝑓𝑗,𝑘 ∈ ℕ𝑤𝑛𝑜𝑟𝑚𝑎𝑙𝑖𝑧𝑒 ×ℎ , 𝑘 = 1, 𝑛𝐾𝐹𝑗𝑖 }, 𝑘 thứ tự khung ảnh phân Thuật • • • • • • • • • đoạn 𝑠𝑗𝑖 có 𝑛𝐾𝐹𝑗𝑖 khung ảnh, 𝑤𝑛𝑜𝑟𝑚𝑎𝑙𝑖𝑧𝑒 × ℎ chiều rộng chiều cao khung ảnh sau giảm kích thước tốn: Bước 1: Loop duyệt qua video 𝑣𝑖 Bước 1.1: Chia video thành phân đoạn có độ dài ∆𝑓𝑟𝑎𝑚𝑒𝑠 Bước 1.2: Loop duyệt qua phân đoạn 𝑠𝑖 Bước 1.2.1: Rút trích theo tỷ lệ 𝑛𝑓𝑟𝑎𝑚𝑒 / 𝑔𝑖â𝑦 Bước 1.2.2: Giảm kích thước khung ảnh 𝑤𝑛𝑜𝑟𝑚𝑎𝑙𝑖𝑧𝑒 × ℎ Bước 1.2.3: Loại bỏ khung ảnh có dãy màu đồng End Loop Bước 1.3: Tạo danh sách khung ảnh cho phân đoạn 𝑠𝑖 End Loop Bước 2: Trả danh sách phân đoạn khung ảnh tương ứng cho phân đoạn 1.4.3 Bước – Biểu diễn đặc trưng Sau bước tiền xử lý liệu, đặc trưng thơ rút trích để tạo thành vector đặc trưng biểu diễn cho ảnh Đối với đặc trưng cục bộ, âm đặc trưng chuyển động, đặc trưng thơ sau rút trích chuẩn hóa kỹ thuật khác (túi từ - Bag of Words [88], Fisher Vector [66]) Bước 2: Rút trích đặc trưng cho phân đoạn Đầu vào: 𝑖 } • Danh sách phân đoạn video 𝑣𝑖 : 𝑆𝑖 = {𝑠1𝑖 , 𝑠2𝑖 , … , 𝑠𝑛𝑆ℎ𝑜𝑡 𝑖 • Danh sách khung ảnh cho phân đoạn 𝑠𝑗 , 𝑖 𝑖 𝑠𝑗𝑖 = {𝑓𝑗,𝑘 : 𝑓𝑗,𝑘 ∈ ℕ𝑤𝑛𝑜𝑟𝑚𝑎𝑙𝑖𝑧𝑒 ×ℎ , 𝑘 = 1, 𝑛𝐾𝐹𝑗𝑖 }, 𝑘 thứ tự khung ảnh phân đoạn • Đầu ra: • Thuật • • • • • 𝑠𝑗𝑖 có 𝑛𝐾𝐹𝑗𝑖 khung ảnh, 𝑤𝑛𝑜𝑟𝑚𝑎𝑙𝑖𝑧𝑒 × ℎ chiều rộng chiều cao khung ảnh sau giảm kích thước Sử dụng hàm rút trích đặc trưng ℎ để tạo Vector đặc trưng cho phân đoạn ℎ(𝑠𝑗𝑖 ) = 𝑠𝑓𝑗𝑖 , 𝑠𝑓𝑗𝑖 ∈ ℝ𝐷 , với 𝐷 số chiều vector đặc trưng Tập vector đặc trưng 𝑋𝑖 cho phân đoạn video 𝑣𝑖 : 𝑖 𝑋𝑖 = {𝑠𝑓1𝑖 , 𝑠𝑓2𝑖 , … 𝑠𝑓𝑛𝑆ℎ𝑜𝑡 }, với 𝑠𝑓𝑗𝑖 phân đoạn thứ 𝑗 video 𝑣𝑖 có tổng cộng 𝑛𝑆ℎ𝑜𝑡 toán: Bước 1: Loop qua phân đoạn 𝑠𝑗𝑖 Bước 1.1: Rút trích đặc trưng thơ khung ảnh Bước 1.2: Mã hóa đặc trưng (BoW, FV Bước 1.3: Pooling (max, avg) đặc trưng khung ảnh  đặc trưng cho Phân đoạn 𝑠𝑗𝑖 End Loop Bước 2: Trả danh sách đặc trưng phân đoạn Hình 2.1 Ví dụ sử dụng đặc trưng trích xuất từ mơ hình mạng nơ-ron tích chập để làm đầu vào huấn luyện phận loại khái niệm [75] 2.3.4 Áp dụng đặc trưng rút trích từ mơ hình mạng nơ-ron tích chập cho tốn VSD Việc huấn luyện mơ hình CNN riêng cho việc xác định thơng tin bạo lực đòi hỏi nguồn liệu huấn luyện lớn, điều chưa khả thi với liệu VSD Trong khuôn khổ nghiên cứu này, thử nghiệm đặc trưng rút trích từ mơ hình học sâu CNN để biểu diễn khái niệm bạo lực Việc huấn luyện khái niệm thực SVM Trong phần này, tiến hành đánh giá chi tiết việc sử dụng mơ hình CNN AlexNet, VGGNet UvANet cho tốn phát thơng tin bạo lực 2.3.4.1 AlexNet (2012) [4] 2.3.4.2 VGGNet (2014) [79] 2.3.4.3 UvANet (2016) [55] 2.4 Dữ liệu thử nghiệm Chúng tiến hành thực nghiệm liệu MediaEval VSD 2014 với phần liệu phim Để cân chi phí tính tốn độ xác hệ thống, qua thực nghiệm MediaEval VSD 2011, 2012 [44], [89], bước tiền xử lý liệu chúng tơi lựa chọn tham số sau: • Chiều dài phân đoạn: giây • Tần suất rút trích khung ảnh: khung ảnh/ giây • Kích thước khung ảnh: chiều rộng khung ảnh 500 pixels, chiều cao khung ảnh giảm theo tỷ lệ tương ứng Bộ liệu tổ chức sau: • Tập huấn luyện : dùng để huấn luyện khái niệm bạo lực, gồm 24 phim với tổng cộng 34,779 phân đoạn (chia giây), tổng độ dài 173,883 giây • Tập kiểm tra: dùng để đánh giá kết quả, gồm phim với tổng cộng 10,006 phân đoạn (chia giây), tổng độ dài 50,011 giây • Tổng thời gian toàn Bộ liệu 63.55 giờ, với 44,785 phân đoạn 2.5 Phân tích kết 2.5.1 Đặc trưng toàn cục Kết đánh giá thực nghiệm liệu MediaEval VSD cho thấy, với đặc trưng tồn cục: • Các thể cảnh bạo lựcthơng tin màu sắc đa dạng, việc sử dụng đặc trưng dựa kênh màu khác tỏ không hiệu việc sử dụng ảnh đơn màu (GRAY) • Các đặc trưng góc cạnh dạng vân cho kết tốt đặc trưng màu 13 • Max pooling cho kết tốt Average pooling 2.5.2 Đặc trưng cục Kết đánh giá thực nghiệm liệu MediaEval VSD cho thấy, với đặc trưng cục bộ: • Phương pháp lấy điểm đặc trưng theo mẫu dày có kết tốt hẳn phương thức Harlap • Trong đặc trưng dựa SIFT, đặc trưng SIFT mở rộng kênh màu RGB có kết tốt • Việc phân chia vùng khơng gian giúp cải thiện kết rõ rệt Việc chia vùng khơng gian mịn giúp tăng độ xác • Max pooling cho kết tốt Avg pooing 2.5.3 Đặc trưng chuyển động Đặc trưng MBH không bị ảnh hưởng chuyển động camera so với HoG HoF (đã chứng minh [91]), MBH có kết tốt cho VSD, HoG HoF có kết thấp (so với MBH đặc trưng cục bộ) Việc kết hợp mô tả không giúp cải thiện hiệu hệ thống 2.5.4 Đặc trưng âm Việc sử dụng đặc trưng âm cho tốn phát thơng tin bạo lực khơng thực hiệu mặt độ xác tính thể đa dạng kênh âm cảnh bạo lực Tuy nhiên thấy kết đặc trưng MFCC tương đồng với đặc trưng toàn cục, kết MAP-AT100 tương đối tốt thể đặc trưngtính phân loại cao (nếu cảnh bạo lựcđặc trưng riêng có tiếng thét, tiếng súng, tiếng nổ), điều giúp cho việc kết hợp với đặc trưng khác trở nên hiệu 2.5.5 So sánh cách biểu diễn đặc trưng BoW Fisher Vector Bảng 2.1 Bảng so sánh cách mã hóa đặc trưng Bag of Words Fisher Vector Feature BoW_MAP2014 FV_MAP2014 BoW_MAP-AT100 FV_MAP-AT100 Densetrajectory - MBHHOFHOG 46.52% 50.77% 67.78% 73.23% SIFT 33.82% 37.33% 59.40% 58.47% MFCC 32.80% 34.09% 42.70% 45.89% Kết thực nghiệm Bảng 2.1 cho thấy FV có kết tốt 2-4% so với cách biểu diễn BoW Biểu diễn FV đặc biệt tỏ hiệu đặc trưng chuyển động tốn VSD tính phân loại thơng tin cao 2.5.6 Đặc trưng mơ hình AlexNet Bảng 2.2 trình bày kết đặc trưng sử dụng tầng cuối mơ hình AlexNet Sum pooling đặc trưng tầng fc7 cho kết tốt Bảng 2.2 Kết sử dụng đặc trưng từ mơ hình CNN AlexNet STT Đặc trưng AlexNet_fc7.max AlexNet_fc6.sum AlexNet_fc7.sum AlexNet_fc6.max AlexNet_Full.max AlexNet_Full.sum MAP2014 47.30% 45.57% 45.20% 45.20% 35.92% 35.55% 2.5.7 Đặc trưng mơ hình VGGNet Bảng 2.3 trình bày kết cCác đặc trưng rút trích từ mơ hình VGGNet tầng cuối, tầng có số chiều tương tự AlexNet Phương pháp áp dụng max14 pooling đặc trưng fc7 cho kết tốt Kết VGGNet cho kết cao AlexNet (~3%) chứng minh cải tiến VGG mơ hình Alex phát huy tác dụng Bảng 2.3 Kết sử dụng đặc trưng rút trích từ mơ hình VGGNet STT 10 11 12 Đặc trưng VGGNet_fc7-16.max VGGNet_fc6-19.max VGGNet_fc6-16.max VGGNet_fc6-19.sum VGGNet_fc7-19.max VGGNet_fc6-16.sum VGGNet_fc7-19.sum VGGNet_fc7-16.sum VGGNet_Full-19.sum VGGNet_Full-16.sum VGGNet_Full-16.max VGGNet_Full-19.max MAP2014 50.17% 50.02% 49.25% 49.12% 48.84% 47.60% 47.26% 47.19% 38.07% 37.91% 36.90% 36.76% 2.5.8 Đặc trưng mô hình UvANet Kết đặc trưng rút trích từ mơ hình UvANet trình bày Bảng 2.4, phương pháp sử dụng max-pooling cho kết tốt sum-pooling Với kết cấu hình 4k,8k,12k (~4000,8000,12000 khái niệm tầng kết nối đầy đủ) thật khơng có nhiều chênh lệch Việc sử dụng nhiều khái niệm không đem lại hiệu cao độ xác mà chi phí huấn luyện lớn Bảng 2.4 Kết sử dụng đặc trưng rút trích từ mơ hình UvANet STT Đặc trưng UvANet_bottomup_12k_Full.max UvANet_topdown_4k_Full.max UvANet_bottomup_12k_Full.sum UvANet_bottomup_8k_Full.max UvANet_bottomup_4k_Full.max UvANet_bottomup_8k_Full.sum UvANet_topdown_4k_Full.sum UvANet_bottomup_4k_Full.sum MAP2014 42.86% 42.47% 42.46% 42.32% 42.29% 40.82% 40.07% 39.60% 2.5.9 So sánh với đặc trưng thiết kế sẵn (hand-crafted) Các đặc trưng rút trích từ mơ hình mạng nơ-ron tích chập cho kết tốt cho toán VSD, đặc trưng rút trích ảnh, chưa tận dụng thông tin không gian thời gian đặc trưng chuyển động, cho kết tốt 2.6 Phân tích trực quan 2.7 Kết luận Việc đánh giá lại đặc trưng phổ dụng tập liệu cần thiết Với tham số xác định tối ưu loại đặc trưng, tiến hành đánh giá việc kết hợp đặc trưng cho toán phát thông tin bạo lực Chương Đây tiền đề cho việc xây dựng hệ thống tích hợp đa đặc trưng cách kết hợp đặc trưng với cấu hình tốt Kết việc đánh giá đặc trưng công bố hội nghị SocPar2013 [CT3] tạp chí MTA2016 [CT1], đồng thời sử dụng thi MediaEval VSD hàng năm từ 2012 đến 2014 [CT7][CT5] 15 Chương ĐẶC TRƯNG CẤP CAO CHO BÀI TỐN VSD Các phương pháp rút trích đặc trưng cấp cao4 chủ đề quan tâm nghiên cứu gần đây.Cảnh bạo lực thường chứa thông tin liên quan đặc trưng riêng, thơng qua q trình xây dựng liệu, chúng tơi xác định thuộc tính có liên quan đến cảnh bạo lực xây dựng liệu huấn luyện cho thuộc tính Trên sở đó, chúng tơi thiết kế đặc trưng cấp cao dựa thuộc tính liên quan để biểu diễn cảnh bạo lực Đặc trưng cấp cao dựa thuộc tính khơng giúp xây dựng phân loại đánh giá mức độ bạo lực mà cung cấp thêm thông tin mô tả giàu ngữ nghĩa Kết nội dung nghiên cứu báo hội nghị SoICT 2013 [CT4] tạp chí MTA 2016 [CT1] 3.1 Giới thiệu Do đặc trưng khái niệm, kiện mang tính ngữ nghĩa, đặc biệt kiện Một khái niệm, kiện có nhiều thể mang tính ngữ nghĩa cao, đơi phụ thuộc vào suy nghĩ chủ quan người (ví dụ khái niệm bạo lực, người nói cảnh bạo lực, người khác lại nói khơng bạo lực) Chúng tập trung nghiên cứu vấn đề sau: • Biểu diễn cảnh bạo lực thuộc tính liên quan: để làm giảm khoảng cách mặt ngữ nghĩa, chúng tơi sử dụng thuộc tính trung gian lựa chọn trước để biểu diễn cảnh bạo lực (xem Hình 3.1) • Mơ tả cảnh bạo lực: bên cạnh việc sử dụng thuộc tính để định cảnh bạo lực, sử dụng thuộc tính để mơ tả thơng tin cho cảnh Việc cung cấp thêm thông tin mô tả giúp người dùng cuối có nhiều thơng tin đơn định có/khơng có bạo lực Cảnh bạo lực Xác định Khái niệm Khoảng cách ngữ nghĩa thấp ũ khí lạnh Lửa Máu Máu Đặc trưng cấp cao ũ khí nóng Nổ Một vài khái niệm liên quan đến bạo lực ũ khí lạnh Khoảng cách ngữ nghĩa cao Chết chóc Khoảng cách ngữ nghĩa thấp Đặc trưng cấp thấp Đặc trưng biểu diễn máy tính Hình 3.1 Giảm khoảng cách ngữ nghĩa cách sử dụng khái niệm liên quan (thuộc tính) biểu diễn VSD Thuật ngữ đặc trưng cấp cao dùng chung cho thuật ngữ tiếng Anh sau với nghĩa tương đương: attribute (thuộc tính), mid-level feature 16 3.2 Đặc trưng cấp cao sử dụng thuộc tính liên quan đến bạo lực 3.2.1 Giới thiệu thuộc tính Dựa định nghĩa khái niệm bạo lực theo WHO, q trình xây dựng liệu, chúng tơi lựa chọn đối tượng, cảnh, hành động kiện có liên quan đến khái niệm bạo lực sử dụng thông tin thuộc tính để biểu diễn cảnh bạo lực 3.2.2 Biểu diễn cảnh bạo lực thuộc tính Các thuộc tính có khái niệm ngữ nghĩa thấp khái niệm bạo lực nên sử dụng đặc trưng cục tự học để biểu diễn dễ dàng Giải pháp chúng tơi đề xuất có tính mở, cho phép thay đổi, bổ sung hay định nghĩa riêng danh sách thuộc tính tập A phù hợp tốn Trong phạm vi luận án, chúng tơi chọn thuộc tính sau cho tập A gồm 13 thuộc tính sở kế thừa mở rộng tập gồm thuộc tính ban đầu liệu chúng tơi đề xuất thơng qua q trình thực gán nhãn liệu Vấn đề 3.1: Biểu diễn cảnh bạo lực đặc trưng dựa thuộc tính Đầu vào: • Cho V tập hợp gồm n video: 𝑉 = {𝑣1 , 𝑣2 , , 𝑣𝑛 } với 𝑣𝑖 ∈ 𝑉𝑖𝑑𝑒𝑜, 1≤ 𝑖 ≤ 𝑛 • Cho G tập huấn luyện với ground truth 𝐺 = {𝐺1 , 𝐺2 , , 𝐺𝑛 } mô tả nhãn kết phân đoạn video: 𝑖 𝑖 G𝑖 = {(𝑠1𝑖 , 𝑙1𝑖 ), (𝑠2𝑖 , 𝑙2𝑖 ), … , (𝑠𝑚 , 𝑙𝑚 )}, với ≤ 𝑖 ≤ 𝑛, 𝑙𝑗𝑖 = {0,1} Nhãn 𝑙𝑗𝑖 = {0,1} phân đoạn j video 𝑣𝑖 có giá trị(1 0), tương ứng với việc phân đoạn có xem bạo lực (1) hay khơng (0) • Gọi 𝐴 = {𝑎1 , 𝑎2 , , 𝑎𝑛𝐴𝑡𝑡𝑟𝑖𝑏𝑢𝑡𝑒𝑠 } tập hợp gồm gồm 𝑛𝐴𝑡𝑡𝑟𝑖𝑏𝑢𝑡𝑒𝑠 thuộc tính tương ứng với khái niệm liên quan đến cảnh bạo lực • Ngồi tập video V ground truth G, đầu vào tốn có tập ground truth 𝐺 𝐴 cho khái niệm có liên quan đến bạo lực 𝑎 𝑎 𝑎 𝑎 𝑎 𝑎 𝑘 𝑘 𝑘 )} , 𝐺𝑖𝐴 = {(𝑔𝑠𝑡𝑎𝑟𝑡𝑖,1𝑘 , 𝑒𝑛𝑑𝑖,1𝑘 , 𝑔𝑙𝑎𝑏𝑒𝑙𝑖,1𝑘 ), … , (𝑔𝑠𝑡𝑎𝑟𝑡𝑖,𝑔𝑛 , 𝑒𝑛𝑑𝑖,𝑔𝑛 , 𝑔𝑙𝑎𝑏𝑒𝑙𝑖,𝑔𝑛 𝑖 𝑖 𝑖 𝑣ớ𝑖 ≤ 𝑖 ≤ 𝑛, ≤ 𝑘 ≤ 𝑛𝐴𝑡𝑡𝑟𝑖𝑏𝑢𝑡𝑒𝑠 𝑎 Nhãn 𝑔𝑙𝑎𝑏𝑒𝑙𝑖,𝑗𝑘 phân đoạn j video 𝑣𝑖 có giá trị nhị phân (1 0), tương ứng với việc phân đoạn có xem có thơng tin thuộc tính 𝑎𝑘 hay khơng o Đầu ra: • Với video 𝑣𝑖 ∈ 𝑉, kết nhận tập phân đoạn đánh giá xác suất (hay gọi mức độ) bạo lực: 𝑖 𝑖 𝑟𝑒𝑠𝑢𝑙𝑡𝑖 = {(𝑠1𝑖 , 𝑠𝑐𝑜𝑟𝑒1𝑖 ), (𝑠2𝑖 , 𝑠𝑐𝑜𝑟𝑒2𝑖 ), … , (𝑠𝑛𝑆ℎ𝑜𝑡 , 𝑠𝑐𝑜𝑟𝑒𝑛𝑆ℎ𝑜𝑡 )}, với ≤ 𝑖 ≤ 𝑛, 𝑠𝑐𝑜𝑟𝑒𝑗𝑖 = 𝑖 [0,1], với 𝑠𝑐𝑜𝑟𝑒𝑗 gần bạo lực • Bên cạnh kết đánh giá bạo lực, với video 𝑣𝑖 ∈ 𝑉, kết có tập 𝑟𝑒𝑠𝑢𝑙𝑡𝑖𝐴 mơ tả việc gán nhãn đánh giá thuộc tính liên quan bạo lực phân đoạn video 𝑣𝑖 𝑎 𝑖,𝑎 𝑖,𝑎 𝑖,𝑎 𝑖 𝑘 𝑟𝑒𝑠𝑢𝑙𝑡𝑖 𝑘 = {(𝑠1𝑖 , 𝑠𝑐𝑜𝑟𝑒1 𝑘 ), (𝑠2𝑖 , 𝑠𝑐𝑜𝑟𝑒2 𝑘 ), … , (𝑠𝑛𝑆ℎ𝑜𝑡 , 𝑠𝑐𝑜𝑟𝑒𝑛𝑆ℎ𝑜𝑡 )}, 𝑣ớ𝑖 ≤ 𝑖 ≤ 𝑛, ≤ 𝑎𝑘 ≤ 𝑛𝐴𝑡𝑡𝑟𝑖𝑏𝑢𝑡𝑒𝑠 Thuật tốn: • Bước 1: chia tập liệu V thành tập con: o Tập V𝑇𝑟𝑎𝑖𝑛1 ⊆ V dùng để huấn luyện phân loại cho khái niệm liên quan (huấn luyện thuộc tính) o Tập V𝑇𝑟𝑎𝑖𝑛2 ⊆ V dùng để huấn luyện cho khái niệm bạo lực o Tập V𝑇𝑒𝑠𝑡 ⊆V dùng để kiểm tra kết • Bước 2: Rút trích đặc trưng biểu diễn đặc trưng phần 1.4.3 cho tập V𝑇𝑟𝑎𝑖𝑛1 , V𝑇𝑟𝑎𝑖𝑛2 , V𝑇𝑒𝑠𝑡 • Bước 3: Sử dụng liệu gán nhãn 𝐺 𝐴 (trên tập V𝑇𝑟𝑎𝑖𝑛1 ) để huấn luyện phân loại cho thuộc tính) o Xây dựng phân loại 𝐶𝑖 cho thuộc tính (khái niệm) 𝑎𝑘 𝑣ớ𝑖 ≤ 𝑘 ≤ 𝑛𝐴𝑡𝑡𝑟𝑖𝑏𝑢𝑡𝑒𝑠 17 • • • • Bước 4: Sử dụng phân loại 𝐶𝑎𝑘 để kiểm tra cho phân đoạn tập V𝑇𝑟𝑎𝑖𝑛2 V𝑇𝑒𝑠𝑡 𝑎𝑘 Bước 4: Sử dụng điểm đánh giá 𝑠𝑠𝑐𝑜𝑟𝑒 kết bước để tạo thành vector biểu diễn cho phân đoạn (mỗi vector phân đoạn 𝑎𝑘 chứa 𝑠𝑠𝑐𝑜𝑟𝑒 thuộc tính) Như phân đoạn biểu diễn vector có 𝑛𝐴𝑡𝑡𝑟𝑖𝑏𝑢𝑡𝑒𝑠, đại diện cho 𝑛𝐴𝑡𝑡𝑟𝑖𝑏𝑢𝑡𝑒𝑠 thuộc tính liên quan Vector đặc trưng phân đoạn có dạng: 𝑓(𝑠ℎ𝑜𝑡𝑡 ) = (𝐶𝑎1 (𝑠ℎ𝑜𝑡𝑡 ), 𝐶𝑎2 (𝑠ℎ𝑜𝑡𝑡 ), … , 𝐶𝑎𝑎𝐴𝑡𝑡𝑟𝑖𝑏𝑢𝑡𝑒𝑠 (𝑠ℎ𝑜𝑡𝑡 )) Bước 5: Sử dụng liệu gán nhãn G (trên tập V𝑇𝑟𝑎𝑖𝑛2 ) khái niệm bạo lực để huấn luyện phân loại cho khái niệm bạo lực Bước 6: Kiểm tra phân loại tập V𝑇𝑒𝑠𝑡 3.2.3 Thử nghiệm đánh giá kết 3.2.3.1 Dữ liệu thử nghiệm Chúng sử dụng liệu thử nghiệm MediaEval 2014 với việc tổ chức tập huấn luyện kiểm tra sau: • Tập V𝑇𝑟𝑎𝑖𝑛1 : dùng để huấn luyện thuộc tính • Tập V𝑇𝑟𝑎𝑖𝑛2 : dùng để huấn luyện khái niệm bạo • Tập V𝑇𝑒𝑠𝑡 : dùng để kiểm tra đánh giá kết 3.2.3.2 Đánh giá kết Bảng 3.1 Kết sử dụng thuộc tính cho tốn VSD (độ đo MAP2014) Features RGBSIFT AlexNET VGG đặc trưng thô Sử dụng thuộc tính 39.83% 40.59% 47.21% 47.32% 48.84% 48.12% Theo Bảng 3.1 cho thấy, việc sử dụng thuộc tính để biểu diễn cảnh bạo lực có kết tương đồng với việc sử dụng đặc trưng thô tập huấn luyện Tuy nhiên, so với cách tiếp cận đặc trưng thơ, cách sử dụng thuộc tính giàu ngữ nghĩa bên cạnh việc xác định cảnh có bạo lực hay khơng, vector đặc trưng mơ tả cảnh cung cấp thơng tin thuộc tính có cảnh (ví dụ cảnh có máu đánh nhau) Với khả vượt trội việc xác định đối tượng thông tin khung ảnh, đặc trưng rút trích từ mơ hình mạng nơ-ron tích chập AlexNet VGGNet có kết tốt hẳn so với đặc trưng cục RGBSIFT việc biểu diễn thuộc tính 3.3 So sánh đặc trưng dựa thuộc tính Trong phần 3.2 chúng tơi so sánh việc sử dụng thuộc tính biểu diễn khái niệm bạo lực: sử dụng thuộc tính liên quan đến khái niệm cho kết tốt thuộc tính khơng liên quan (chất lượng thuộc tính quan trọng), thuộc tính khơng liên quan, số lượng thuộc tính lớn, độ xác cao (số lượng thuộc tính quan trọng) 3.4 Tính ngữ nghĩa kết Hình 3.2 thể kết hệ thống trả danh sách cảnh bạo lực theo thứ tự giảm dần kèm thơng tin thuộc tính liên quan đến bạo lực Cách tiếp cận sử dụng thuộc tính cung cấp thơng tin ngữ nghĩa nhiều hơn, biết thêm thông tin liên quan đến cảnh việc định thực chủ quan người 18 Hình 3.2 Hình minh họa kết Top cảnh bạo lực mà hệ thống trả kèm thơng tin thuộc tính liên quan đến bạo lực Phía khung ảnh giá trị thể điểm đánh giá thuộc tính bên phải khung ảnh biểu tượng thuộc tính có tồn phân đoạn đánh giá 3.5 Kết luận Trong chương đề xuất cách tiếp cận mặt ngữ nghĩa, sử dụng thuộc tính để biểu diễn cho khái niệm bạo lực Việc sử dụng thuộc tính giúp tăng tính ngữ nghĩa khái niệm thơng qua thuộc tính xây dựng vector đặc trưng biểu diễn Kết nghiên cứu chương công bố hội nghị SoICT2013 [CT4] Chương KẾT HỢP ĐẶC TRƯNG VÀ TỐI ƯU TÀI NGUN TÍNH TỐN CHO VSD Kết hợp đa đặc trưng hướng tiếp cận phổ biến nay, lựa chọn đặc trưng để kết hợp mà không ảnh hưởng đến hiệu hệ thống (tăng độ xác, tiết kiệm chi phí tính tốn) vấn đề mở cần giải đáp cho tốn phát thơng tin bạo lực Chúng tơi đánh giá cách kết hợp sớm (early fusion) kết hợp trễ (late fusion) đặc trưng, đồng thời lựa chọn hướng tiếp cận loại bỏ đặc trưng kết hợp (leave one feature out) để đánh giá mức độ đóng góp đặc trưng kết hợp, từ lựa chọn lại đặc trưng thực đóng góp hiệu Việc kết hợp đặc trưng đòi hỏi tài ngun tính tốn lớn, để triển khai ứng dụng thực tế, cần cân nhắc lựa chọn tối ưu đặc trưng phù hợp với điều kiện tính tốn thực tế Trong chương tiến hành đánh giá đề xuất cấu hình (bộ đặc trưng) tùy vào điều kiện tài ngun tính tốn khác Kết nghiên cứu chương trình bày hội nghị IC3INA 2016[CT2] 4.1 Giới thiệu Đối với toán phát thông tin bạo lực, hướng tiếp cận nhóm nghiên cứu trước ln sử dụng kết hợp nhiều loại đặc trưng chưa có nghiên cứu đánh giá việc kết hợp đặc trưng phù hợp Trong nghiên cứu chương này, tiến hành thử nghiệm đánh giá mơ hình kết hợp khác việc sử dụng loại đặc trưng, bao gồm: • Đánh giá việc kết hợp đặc trưng khung ảnh (từng keyframe) cho việc biểu diễn đặc trưng cảnh (video) • Đánh giá việc kết hợp sớm đặc trưng trước huấn luyện (early fusion) • Đánh giá việc kết hợp trễ kết đặc trưng sau huấn luyện (late fusion) 19 4.2 Kết hợp đặc trưng 4.2.1 Kết hợp đặc trưng trước huấn luyện (early fusion) 4.2.1.1 Kết hợp đặc trưng khung ảnh Để xây dựng đặc trưng cho phân đoạn thử nghiệm cách tiếp cận kết hợp ghép nối vector đặc trưng (concatenation), lấy giá trị trung bình (average), giá trị tối đa (max), giá trị tối thiểu (min) bin vector đặc trưng khung ảnh cảnh Kết thực nghiệm đặc trưng cục toàn cục cho thấy cách tiếp cận lấy giá trị tối đa (max pooling) cho giá trị tốt 4.2.1.2 Kết hợp sớm loại đặc trưng trước huấn luyện Do số chiều vector đặc trưng khác cách biểu diễn loại đặc trưng khác biệt, tiến hành đánh giá việc ghép nối đặc trưng loại 4.2.2 Kết hợp kết phân loại đặc trưng sau huấn luyện (late fusion) Vấn đề 4.1: Kết hợp trễ kết (Late fusion) Đầu vào: • • Cho tập Rank list 𝑅𝐿 gồm 𝑚 Rank list 𝑚 đặc trưng 𝑅𝐿 = {𝑅𝐿1 , 𝑅𝐿2 , , 𝑅𝐿𝑚 }, với 𝑚 số đặc trưng cần Late fusion Mỗi Rank list 𝑅𝐿𝑖 tập hợp gồm 𝑛𝑆ℎ𝑜𝑡 mô tả thông tin mã số video phân đoạn (𝑠ℎ𝑜𝑡𝐼𝐷) giá trị đánh giá mức độ bạo lực phân đoạn video (𝑠𝑐𝑜𝑟𝑒𝑠ℎ𝑜𝑡𝐼𝐷 ) 𝑅𝐿𝑖 = {(𝑠ℎ𝑜𝑡𝐼𝐷1 , 𝑠𝑐𝑜𝑟𝑒𝑖,1 ), (𝑠ℎ𝑜𝑡𝐼𝐷2 , 𝑠𝑐𝑜𝑟𝑒𝑖,2 ), (𝑠ℎ𝑜𝑡𝐼𝐷𝑛𝑆ℎ𝑜𝑡 , 𝑠𝑐𝑜𝑟𝑒𝑖,𝑛𝑆ℎ𝑜𝑡 )}, ∀ 𝑖 = 1,2, 𝑚 Đầu ra: • • Kết late fusion Rank list 𝑅𝐿𝐿𝑎𝑡𝑒𝐹𝑢𝑠𝑖𝑜𝑛 dựa trung bình cộng có trọng số giá trị score tất Rank list tập 𝑅𝐿 Kết nhận là: ∗ )} 𝑅𝐿𝐿𝑎𝑡𝑒𝐹𝑢𝑠𝑖𝑜𝑛 = {(𝑠ℎ𝑜𝑡𝐼𝐷1, 𝑠𝑐𝑜𝑟𝑒1∗ ), (𝑠ℎ𝑜𝑡𝐼𝐷2 , 𝑠𝑐𝑜𝑟𝑒2∗ ), (𝑠ℎ𝑜𝑡𝐼𝐷𝑛𝑆ℎ𝑜𝑡 , 𝑠𝑐𝑜𝑟𝑒𝑛𝑆ℎ𝑜𝑡 𝑓𝑢𝑠𝑖𝑜𝑛 với 𝑠𝑐𝑜𝑟𝑒𝑗 = 𝑚 𝑖=1 𝑤𝑖 𝑠𝑐𝑜𝑟𝑒𝑖,𝑗 , ∀ 𝑗 = 1,2, , 𝑛𝑆ℎ𝑜𝑡 𝑣à ≤ 𝑤𝑖 ≤ Trong luận án này, giá trị trọng số 𝑤𝑖 = 1/𝑚 Các tiếp cận kết hợp đặc trưng trễ sau huấn luyện khái niệm cách tiếp cận phổ biến toán phát kiện nói chung, tốn VSD nói riêng Bảng 4.1 Kết việc kết hợp cấu hình đặc trưng loại theo phương thức kết hợp trễ (late fusion) STT Tên kết hợp Số cấu hình MAP2014 Đặc trưng tốt MAP2014 Kết hợp tất đặc trưng toàn cục 20 34.44% LBP 31.18% Kết hợp tất đặc trưng cục 48 46.90% RGBSIFT 45.06% Kết hợp tất cấu hình đặc trưng âm 37.93% MFCC_FV 34.09% Kết hợp tất đặc trưng chuyển động 50.15% DenJ_FV_MBH 47.13% 49.21% ATT_VGGNet 48.12% Kết hợp tất đặc trưng dựa thuộc tính Kết hợp tất đặc trưng rút trích từ mơ hình mạng nơ-ron tích chập 26 50.81% CNN_VGG_Fc7 50.17% Kết hợp cấu hình tốt loại 14 53.50% Kết hợp tất cấu hình tất đặc trưng 106 49.57% Bảng 4.1 trình bày kết kết hợp đặc trưng phương thức kết hợp trễ Kết cho thấy việc kết hợp cấu hình đặc trưng loại giúp tăng độ xác hệ thống Tuy nhiên, kết hợp tất cấu hình đặc trưng từ nhiều loại đặc trưng khác nhau, thấy kết khơng tốt việc lựa chọn kết hợp cấu hình tốt 20 loại đặc trưng (14 cấu hình), điều chứng tỏ việc kết hợp nhiều loại đặc trưng khơng đảm bảo hiệu tăng, chi phí tính tốn chắn tăng đáng kể 4.3 Lựa chọn đặc trưng 4.3.1 Giới thiệu Trong phần tiến hành đánh giá lại loại đặc trưng đóng góp loại đặc trưng việc kết hợp Thay sử dụng lại tồn đặc trưng với cấu hình khác nhau, chúng tơi sử dụng cấu hình tốt loại đặc trưng so sánh với loại đặc trưng khác Chúng chọn cách tiếp cận loại bỏ đặc trưng kết hợp (Leave one feature out) để xác định mức độ đóng góp đặc trưng kết hợp Gọi ℱ = {𝑓1 , 𝑓2 , … , 𝑓𝑛 } tập hợp loại đặc trưng lựa chọn cấu hình tốt Chúng tơi đánh giá đóng góp loại 𝑓𝑖 ∈ ℱ toán VSD 𝑀0 = 𝑀𝐴𝑃(ℱ, 𝐷) (4.1) 𝑀0 độ xác trung bình việc kết hợp tất đặc trưng 𝑀𝑖 = 𝑀𝐴𝑃(ℱ\{𝑓𝑖 }, 𝐷), ≤ 𝑖 ≤ 𝑛 (4.2) 𝑀𝑖 độ xác trung bình việc kết hợp đặc trưng ngoại trừ đặc trưng thứ 𝑖 Đóng góp 𝑔 loại feature 𝑓𝑖 ∈ ℱ toán VSD với liệu D xác định theo công thức sau: 𝑔(𝑓𝑖 ) = 𝑀0 − 𝑀𝑖 , ≤ 𝑖 ≤ 𝑛 (4.3) Sau thuật tốn xác định đóng góp đặc trưng Thuật tốn 4.1: Lựa chọn đặc trưng đóng góp cho việc kết hợp (Leave one feature out) Đầu vào: • Danh sách đặc trưng ℱ = {𝑓1 , 𝑓2 , … , 𝑓𝑛 } Đầu ra: • Danh sách đặc trưng có đóng góp cho việc kết hợp ϕ ⊆ ℱ với 𝑓𝑖 ∈ ϕ, 𝑔(𝑓𝑖 ) < Thuật tốn: • Bước 1: Kết hợp tất đặc trưng, tính 𝑀0 theo (4.1) • Bước 2: Loop qua đặc trưng 𝑓𝑖 ∈ ℱ Tính 𝑀𝑖 theo cơng thức (4.2) If (𝑀𝑖 < 𝑀0) Then Đưa 𝑓𝑖 vào Danh sách chọn ϕ End If End Loop • Bước 3: Trả Danh sách chọn ϕ 4.3.2 Phân tích kết loại đặc trưng riêng 4.3.3 Đánh giá kết lựa chọn Chúng tơi sử dụng Thuật tốn 4.1 để tính mức độ đóng góp đặc trưng việc kết hợp Hình 4.1 thể mức độ đóng góp đặc trưng việc kết hợp Chúng ta thấy việc loại đặc trưng màu (CH, CM), đặc trưng EOH, CSIFT OPPSIFT giúp hệ thống tăng độ xác, đó, có kết thấp CSIFT OPPSIFT, loại đặc trưng MFCC hiệu hệ thống giảm, điều chứng tỏ kênh thơng tin âm hữu ích việc kết hợp với thơng tin khác tốn phát thơng tin bạo lực Ngồi ra, thấy, khơng có kết cao đặc trưng 21 đặc trưng chuyển động video (Motion) lại có đóng góp tốt kết hợp đặc trưng (nếu bỏ Motion kết giảm đáng kể) 0.015 0.01 0.005 -0.005 -0.01 -0.015 -0.02 MAP2014 MAP-AT2014 Hình 4.1 Kết việc loại đặc trưng, xếp giảm dần theo MAP2014 Trong hai độ đo, giá trị cao loại đặc trưng chứng tỏ đóng góp việc kết hợp đặc trưng 4.4 Tối ưu tài ngun tính tốn 4.4.1 Giới thiệu Việc sử dụng nhiều đặc trưng chưa mang lại độ xác cao cho hệ thống, cần nhiều tài ngun tính tốn Việc lựa chọn đặc trưng phù hợp phụ thuộc vào đặc điểm liệu cách kết hợp đặc trưng Trong phần tiến tìm giải pháp tối ưu cho việc cân tài ngun tính tốn (số lượng core CPU GPU) độ xác hệ thống Chúng tơi sử dụng thuật tốn Brute Force Search để tìm kiếm kết hợp đặc trưng tối ưu cho cấu hình tính tốn tương ứng Chi tiết đặc tả sau: Vấn đề 4.2: Tìm đặc trưng tối ưu theo cấu hình Đầu vào: • Gọi  = {𝑓1 , 𝑓2 , … , 𝑓𝑛 } tập hợp loại đặc trưng có đóng góp cho việc kết hợp đặc trưng lựa chọn phần (0) • Gọi Γ = {𝜒1 , 𝜒2 , … , 𝜒𝑚 } tập số lượng CPU sử dụng, 𝜒𝑗 ∈ Z + , ≤ 𝑗 ≤𝑚 • 𝑪𝒐𝒔𝒕(𝒇𝒊 ) chi phí (core hour) để tính tốn (chỉ sử dụng CPU) loại đặc trưng 𝑓𝑖 ∈ , ≤ 𝑖 ≤ n, chi phí tính thực nghiệm • 𝑪𝒐𝒔𝒕𝑮𝑷𝑼 (𝒇𝒊 ) chi phí (core hour) để tính tốn (có sử dụng GPU) loại đặc trưng 𝑓𝑖 ∈ , ≤ 𝑖 ≤ n, chi phí tính thực nghiệm • Gọi 𝛟 tổ hợp đặc trưng, ϕ ∈  𝐶𝑜𝑠𝑡(ϕ) = ∑ 𝐶𝑜𝑠𝑡(𝑓𝑖 ) (4.4) 𝑓𝑖 ∈ϕ 𝐶𝑜𝑠𝑡𝐺𝑃𝑈 (ϕ) = ∑ 𝐶𝑜𝑠𝑡𝐺𝑃𝑈 (𝑓𝑖 ) Đầu ra: • Mục tiêu trị MAP tốt trưng tương tối ưu Với cấu (4.5) 𝑓𝑖 ∈ϕ cần xác định với cấu hình sử dụng 𝜒𝑗 CPU (𝜒𝑗 ∈ Γ), giá đạt 𝑴𝒂𝒙_𝑴𝑨𝑷_𝑪𝑷𝑼(𝝌𝒋 ) tổ hợp đặc ứng 𝑺𝒆𝒍𝒆𝒄𝒕𝒆𝒅_𝑺𝑬𝑻_𝑪𝑷𝑼(𝝌𝒋 ) dùng để đạt giá trị MAP hình sử dụng 𝜒𝑗 CPU (𝜒𝑗 ∈ Γ): 22 𝑴𝒂𝒙_𝑴𝑨𝑷_𝑪𝑷𝑼(𝝌𝒋 ) = 𝑚𝑎𝑥{𝑀𝐴𝑃(ϕ, 𝐷), ∀ ϕ ⊆ Φ ∧ Cost(ϕ) ≤ 𝜒𝑗 } • Chúng xét tập khác rỗng ϕ ⊆ Φ với điều kiện tổng chi phí để tính tốn đặc trưng 𝑓𝑖 ∈ ϕ không vượt số lượng CPU có (𝜒𝑗 ) Tập loại đặc trưng tương ứng xác định: 𝑺𝒆𝒍𝒆𝒄𝒕𝒆𝒅_𝑺𝑬𝑻_𝑪𝑷𝑼(𝝌𝒋 ) = 𝑎𝑟𝑔𝑚𝑎𝑥ϕ ⊆ Φ {𝑀𝐴𝑃(ϕ, D), với Cost(ϕ) ≤ 𝜒𝑗 • (4.6) (4.7) Tương tự, xác định với cấu hình sử dụng 𝜒𝑗 CPU (𝜒𝑗 ∈ Γ) có kèm theo Card GPU, giá trị 𝑀𝐴𝑃 tốt đạt 𝑴𝒂𝒙_𝑴𝑨𝑷_𝒘𝑮𝑷𝑼(𝝌𝒋 ) tập loại đặc trưng tương ứng 𝑺𝒆𝒍𝒆𝒄𝒕𝒆𝒅_𝑺𝑬𝑻_𝒘𝑮𝑷𝑼(𝝌𝒋 ) dùng để đạt giá trị 𝑀𝐴𝑃 tối ưu 𝑴𝒂𝒙_𝑴𝑨𝑷_𝒘𝑮𝑷𝑼(𝝌𝒋 ) = 𝑚𝑎𝑥{𝑀𝐴𝑃(ϕ, 𝐷), ∀ ϕ ⊆ Φ ∧ Cost 𝐺𝑃𝑈 (ϕ) ≤ 𝜒𝑗 } (4.8) 𝑺𝒆𝒍𝒆𝒄𝒕𝒆𝒅_𝑺𝑬𝑻_𝒘𝑮𝑷𝑼(𝝌𝒋 ) = 𝑎𝑟𝑔𝑚𝑎𝑥ϕ ⊆ Φ {𝑀𝐴𝑃(ϕ, D), với Cost 𝐺𝑃𝑈 (ϕ) ≤ 𝜒𝑗 (4.9) Chúng trình bày chi tiết thuật tốn tìm kết hợp tối ưu theo cấu hình Thuật tốn 4.2 Thuật tốn 4.2: Tìm đặc trưng tối ưu theo cấu hình Đầu vào: • Danh sách đặc trưng  = {𝑓1 , 𝑓2 , … , 𝑓𝑛 } • Bộ cấu hình tài nguyên CPU, GPU Γ = {𝜒1 , 𝜒2 , … , 𝜒𝑚 } • Chi phí tính tốn đặc trưng 𝐶𝑜𝑠𝑡() = {𝐶𝑜𝑠𝑡(𝑓1 ), 𝐶𝑜𝑠𝑡(𝑓2 ), … , 𝐶𝑜𝑠𝑡(𝑓𝑛 )} Đầu ra: • Bộ kết hợp đặc trưng tối ưu 𝑺𝒆𝒍𝒆𝒄𝒕𝒆𝒅_𝑺𝑬𝑻_𝑪𝑷𝑼(𝝌𝒋 ) • 𝑀𝐴𝑃 cấu hình 𝑴𝒂𝒙_𝑴𝑨𝑷_𝑪𝑷𝑼(𝝌𝒋 ) Thuật tốn: • Bước 1: Tạo tổ hợp tất kết hợp đặc trưng ϕ ⊆  • Bước 2: Loop duyệt qua đặc trưng ϕ𝑘 ⊆  Bước 2.1: Tính 𝑀𝐴𝑃(ϕ𝑘 , 𝐷) theo (1.6) Bước 2.2: Tính tổng chi phí 𝐶𝑜𝑠𝑡(ϕ𝑘 ) theo (4.4) Bước 2.3: Loop duyệt qua cấu hình 𝜒𝑚 ⊆ Γ If (𝐶𝑜𝑠𝑡(ϕ𝑘 ) ≤ 𝜒𝑚 ) Then 𝐴[𝑘][𝑚] = Else 𝐴[𝑘][𝑚] = End If End Loop End Loop • Bước 3: Loop duyệt qua cấu hình 𝜒𝑚 • Bước 3.1: 𝑀𝑎𝑥_𝑀𝐴𝑃_𝐶𝑃𝑈(𝜒𝑚 ) = • Bước 3.2: 𝑆𝑒𝑙𝑒𝑐𝑡𝑒𝑑_𝑆𝐸𝑇_𝐶𝑃𝑈(𝜒𝑚 ) = ∅ • Bước 3.3: Loop duyệt qua đặc trưng ϕ ⊆  • If 𝐴[𝑘][𝑚] = 𝑎𝑛𝑑 𝑀𝐴𝑃(ϕ𝑘 , 𝐷) > 𝑀𝑎𝑥_𝑀𝐴𝑃_𝐶𝑃𝑈(𝜒𝑚 ) Then • 𝑀𝑎𝑥_𝑀𝐴𝑃_𝐶𝑃𝑈(𝜒𝑚 ) = 𝑀𝐴𝑃(ϕ𝑘 , 𝐷) • 𝑆𝑒𝑙𝑒𝑐𝑡𝑒𝑑_𝑆𝐸𝑇_𝐶𝑃𝑈(𝜒𝑚 ) = ϕ𝑘 • End If • End Loop • End Loop 23 4.4.2 Mơi trường tính tốn 4.4.3 Chi phí rút trích đặc trưng Bằng cách đánh giá thời gian xử lý rút trích đặc trưng video quy đổi thành số lượng CPU cần để rút trích đặc trưng cho video xử lý (song song hóa xử lý hệ thống tính tốn lưới nhiều CPU) Hình 4.2 trình bày thời gian rút trích video đặc trưng Thời gian rút trích đặc trưng (đơn vị tính giờ) UvANet(UvA) 1.42 VGGNet(VGG) 1.21 24.45 20.44 Motion 9.3 0.12 AlexNet(Alex) Attribute 8.14 2.1 RGBSIFT 1.49 LBP 0.31 MFCC 0.11 10 15 GPU 20 25 30 CPU Hình 4.2 Chi phí rút trích đặc trưng (thời gian để rút trích video), đặc trưng học sâu rút trích CPU GPU 4.4.4 Đánh giá kết Hình 4.3 thể kết hiệu tối ưu hệ thống với số lượng core CPU tương ứng, thấy hiệu hệ thống tỷ lệ thuận với số lượng core sử dụng Bảng 4.2 Tổ hợp tối ưu đặc trưng theo số lượng core (CPU) sử dụng (để xử lý video giờ) Số Core CPU 16 32 64 Tổ hợp đặc trưng tối ưu cho việc xử lý video (không dùng GPU) MAP2014 MAP2014-AT100 MFCC+LBP MFCC+LBP MFCC+LBP+RGBSIFT MFCC+LBP+RGBSIFT MFCC+LBP+RGBSIFT+Attribute MFCC+LBP+RGBSIFT MFCC+LBP+RGBSIFT+Motion MFCC+LBP+RGBSIFT+Motion MFCC+RGBSIFT+Motion+Alex MFCC+RGBSIFT+Motion+Alex MFCC+RGBSIFT+Motion+Alex+VGG+UvA MFCC+RGBSIFT+Motion+VGG Bảng 4.2 thể tổ hợp tối ưu đặc trưng (đem lại độ xác cao cho hệ thống) sử dụng với số lượng core tương ứng Kết việc khảo sát chứng tỏ việc kết hợp nhiều loại đặc trưng nhiều kênh thơng tin khác cách có chọn lọc đem lại hiệu cao giúp tiết kiệm tài ngun tính tốn đáng kể 24 0.75 0.7 0.65 0.6 0.55 0.5 0.45 0.4 0.35 0.3 16 32 64 Số lượng c r dùng để rút trích đặc trưng (khơng dùng GPU) MAP2014 MAP2014-AT100 Hình 4.3 Kết tối ưu hệ thống dựa vào số lượng core có (tất dùng CPU, khơng sử dụng GPU) 4.5 So sánh kết nhóm nghiên cứu Để đánh giá hiệu đề xuất, tham gia MediaEval VSD Task hàng năm (từ 2012) gửi kết so sánh với nhóm tham gia nghiên cứu giải tốn phát thơng tin bạo lực Kết nhóm nằm top MediaEval VSD năm Trong Bảng 4.3, với độ đo MAP2014, chúng tơi (nhóm NII-UIT) sử dụng cấu hình gồm đặc trưng tốt thời điểm năm 2014 (SIFT + CSIFT + OPPSIFT + RGBSIFT + MFCC + MOTION), kết xếp sau nhóm FUDAN [19] Kết tốt nhóm FUDAN có độ xác trung bình 63%, kết sử dung kỹ thuật hậu xử lý làm trơn danh sách trả về, sử dụng đặc trưng không qua hậu xử lý, kết nhóm FUDAN 51.36% (sử dụng đặc trưng chuyển động, đặc trưng âm đặc trưng học sâu) Bảng 4.3 Kết so sánh nhóm tham gia MediaEval VSD 2014 [24] Để tăng độ xác danh sách kết trả về, sử dụng kỹ thuật làm trơn danh sách kết dựa vào đặc trưng cảnh bạo lực thường diễn nhiều cảnh liên tiếp[18] Việc sử dụng kỹ thuật làm trơn giúp tăng trung bình khoảng 15% độ đo MAP2014 12% độ đo MAP-AT100 Đây mức tăng đáng kể tốn tìm kiếm thơng tin Thuật tốn 4.3: Hậu xử lý làm trơn kết (Score smoothing) Đầu vào: • Ranklist kết đặc trưng tổ hợp đặc trưng: 𝑅𝐿(𝑓𝑖 ) = {(𝑠ℎ𝑜𝑡𝐼𝐷1, 𝑠𝑐𝑜𝑟𝑒𝑖,1 ), (𝑠ℎ𝑜𝑡𝐼𝐷2, 𝑠𝑐𝑜𝑟𝑒𝑖,2 ), (𝑠ℎ𝑜𝑡𝐼𝐷𝑛𝑆ℎ𝑜𝑡 , 𝑠𝑐𝑜𝑟𝑒𝑖,𝑛𝑆ℎ𝑜𝑡 )} • Số lượng 𝑛𝑊𝑖𝑛𝑑𝑜𝑤 phân đoạn cửa sổ làm trơn Đầu ra: 25 • Ranklist làm trơn 𝑠𝑚 𝑠𝑚 𝑠𝑚 ), (𝑠ℎ𝑜𝑡𝐼𝐷2 , , 𝑠𝑐𝑜𝑟𝑒𝑖,2 ), (𝑠ℎ𝑜𝑡𝐼𝐷𝑛𝑆ℎ𝑜𝑡 , 𝑠𝑐𝑜𝑟𝑒𝑖,𝑛𝑆ℎ𝑜𝑡 )} 𝑅𝐿𝑠𝑚 (𝑓𝑖 ) = {(𝑠ℎ𝑜𝑡𝐼𝐷1 , 𝑠𝑐𝑜𝑟𝑒𝑖,1 Thuật tốn: • Bước 1: For 𝑘 = to 𝑛𝑆ℎ𝑜𝑡 𝑠𝑚 𝑠𝑐𝑜𝑟𝑒𝑖,𝑘 = (𝑛−1) (𝑛−1) 𝑡=𝑘− 𝑘+ 𝑠𝑐𝑜𝑟𝑒𝑖,𝑡 End For 4.6 Phân tích đánh giá 4.7 Kết luận Trong chương tiến hành đánh giá phương pháp kết hợp cho toán phát thơng tin bạo lực, từ đề xuất cách kết hợp tối ưu lựa chọn đặc trưng phù hợp để biểu diễn khái niệm bạo lực Kết cơng bố cơng trình [CT2] Để đánh giá mức độ hiểu việc lựa chọn kết hợp đặc trưng, tham gia vào thi MediaEval VSD hàng năm, kết ln nằm top đầu tốn VSD Kết tham gia MediaEval VSD năm công bố cơng trình [CT5][CT6][CT7] Chương KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 5.1 Những kết đạt Để giải tốn phát thơng tin bạo lực video,chúng tơi tiến hành nghiên cứu tồn diện vấn đề liên quan, bao gồm: định nghĩa toán, xây dựng liệu chuẩn tham gia cộng đồng nghiên cứu toán này, xây dựng hệ thống thử nghiệm có khả xử lý thử nghiệm nhiều loại đặc trưng khác nhau, thử nghiệm đánh giá hiệu suất hệ thống cách tham gia hội thảo để so sánh kết với nhiều nhóm nghiên cứu tiếng khác giới Các kết tóm tắt sau: • Đánh giá đặc trưng thiết kế sẵn đặc trưng tự học tiên tiến, đóng vai trò quan trọng việc lựa chọn kết hợp đa đặc trưng biểu diễn khái niệm bạo lực • Thiết kế đặc trưng cấp cao dựa thuộc tính liên quan đến khái niệm bạo lực • Đề xuất cách tiếp cận lựa chọn đặc trưng phù hợp cách kết hợp đa đặc trưng cách hiệu điều kiện hạn chế tài ngun tính tốn • Tham gia xây dựng cơng bố liệu cho tốn MediaEval VSD Kết hoạt động nghiên cứu cơng bố tạp chí chun ngành [CT1] hội thảo quốc tế phản biện độc lập [CT2,3,4,5,6,7,8,9] 5.2 Hướng phát triển • • • Mở rộng toán sang liệu video clips người dùng tự quay, loại liệu game video giới thiệu sản phẩm cho trẻ em Mở rộng sang tốn liên quan (phát cảm xúc, tính hấp dẫn) Triển khai ứng dụng dạng dịch vụ kiểm tra thơng tin bạo lực DANH MỤC CƠNG TRÌNH CƠNG TRÌNH CHÍNH: [CT1] Lam, Vu, Phan, S., Le, D D., Duong, D A., & Satoh, S (2016) Evaluation of multiple features for violent scenes detection Multimedia Tools and Applications, 1–25 (SCIEIF 1.331) http://doi.org/10.1007/s11042-016-3331-4 [CT2] Lam, Vu, S P Le, T Do, T D Ngo, D D Le and D A Duong (2016) "Computational optimization for violent scenes detection," 2016 International Conference on Computer, Control, Informatics and its Applications (IC3INA), Tangerang, pp 141-146 doi: 10.1109/IC3INA.2016.7863039 [CT3] Lam, Vu, Le, D.-D., Le, S P., Satoh, S., Duong, D A., & Ngo, T D (2013) 26 Evaluation of low-level features for detecting violent scenes in videos In 2013 International Conference on Soft Computing and Pattern Recognition, SoCPaR 2013, Hanoi, Vietnam, pp 213–218 [CT4] Lam, Vu, Phan, S., Ngo, D T., Le, D.-D., Duong, D A., & Satoh, S (2013) Violent Scenes Detection Using Mid-Level Feature In The Fourth Symposium on Information and Communication Technology (SoICT) Da Nang, Vietnam, pp 198–205 CƠNG TRÌNH LIÊN QUAN: [CT5] Lam, Vu, Sang Phan Le, Duy-Dinh Le, Shin'ichi Satoh, and Duc Anh Duong (2015) " NII-UIT at MediaEval 2015 Affective Impact of Movies Task." In Working Notes Proceedings of the MediaEval 2015 Workshop, Wurzen, Germany [CT6] Lam, Vu, Duy-Dinh Le, Sang Phan Le, Shin'ichi Satoh, and Duc Anh Duong (2014) " NII-UIT at MediaEval 2014 Violent Scenes Detection Affect Task." In Working Notes Proceedings of the MediaEval 2014 Workshop, Barcelona, Catalunya, Spain [CT7] Lam, Vu, Duy-Dinh Le, Sang Phan Le, Shin'ichi Satoh, and Duc Anh Duong (2013) " NII-UIT at MediaEval 2013 Violent Scenes Detection Affect Task." In Proceedings of the MediaEval 2013 Multimedia Benchmark Workshop, Barcelona, Spain [CT8] Schedl, M., Sjöberg, M., Mironica, I., Ionescu, B., Quang, V L., Jiang, Y.-G., & Demarty, C.-H (2015) VSD2014: A dataset for violent scenes detection in hollywood movies and web videos In 13th International Workshop on Content-Based Multimedia Indexing, (CBMI) Prague, Czech Republic, pp 1–6 [CT9] Demarty, C H., Ionescu, B., Jiang, Y G., Quang, V L., Schedl, M., & Penet, C (2014, June) Benchmarking violent scenes detection in movies In 2014 12th International Workshop on Content-Based Multimedia Indexing (CBMI) (pp 1-6) IEEE 27 ... phát gán nhãn phân đoạn bạo lực phim, video clip • Đối tượng nghiên cứu: Đối tượng nghiên cứu luận án cảnh chứa thông tin bạo lực phương pháp phát thông tin bạo lực liệu video Thông tin bạo lực. .. phát triển ứng dụng phát thông tin bạo lực, kiểm duyệt phim, xếp hạng phim theo mức độ bạo lực cách tự động (rating), kiểm duyệt thông tin bạo lực kênh truyền thông đa phương tiện Internet http://www.who.int/violenceprevention/approach/definition/en/... cách ngữ nghĩa tính chủ quan khái niệm Q trình thiết kế đánh giá đặc trưng cấp cao dựa thuộc tính cơng bố [CT4] trình bày Chương luận án Với tính ngữ nghĩa cao đa dạng mặt thể khái niệm bạo lực,

Ngày đăng: 26/02/2018, 13:14

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan