Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 31 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
31
Dung lượng
2,08 MB
Nội dung
ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN LÂM QUANG VŨ PHÁTHIỆNTHÔNGTINBẠOLỰCTRONGVIDEODỰATRÊNĐAĐẶCTRƯNGMANGTÍNHNGỮNGHĨACAO Chuyên ngành: Khoa Học Máy Tính Mã số ngành: 62 48 01 01 TÓM TẮT LUẬN ÁN TIẾN SĨ NGÀNH CƠNG NGHỆ THƠNGTIN TP Hồ Chí Minh năm 2018 Cơng trình hồn thành tại: Khoa Công Nghệ Thông Tin, Trường Đại Học Khoa Học Tự Nhiên, ĐHQG Thành Phố Hồ Chí Minh Người hướng dẫn khoa học: HDC: PGS.TS DƯƠNG ANH ĐỨC HDP: TS LÊ ĐÌNH DUY Phản biện 1: TS Lê Thành Sách Phản biện 2: PGS.TS Vũ Đức Lung Phản biện 3: TS Nguyễn Hồng Sơn Phản biện độc lập 1: PGS.TS Phạm Thế Bảo Phản biện độc lập 2: TS Nguyễn Hồng Sơn Luận án bảo vệ trước Hội đồng chấm luận án cấp sở đào tạo họp Trường Đại Học Khoa Học Tự Nhiên, ĐHQG Thành Phố Hồ Chí Minh vào hồi ngày tháng năm Có thể tìm hiểu luận án thư viện: Thư viện Tổng hợp Quốc gia Tp.HCM Thư viện trường Đại học Khoa học Tự Nhiên-HCM MỤC LỤC PHẦN MỞ ĐẦU 1) 2) 3) 4) 5) Giới thiệu động lực nghiên cứu định hướng nghiên cứu Mục đích, đối tượng phạm vi nghiên cứu luận án Ý nghĩa khoa học thực tiễn luận án Các đóng góp luận án Bố cục luận án Chương TỔNG QUAN 1.1 Giới thiệu toán 1.2 Các thách thức 1.3 Tổng quan hướng tiếp cận cơng trình liên quan 1.3.1 Các hướng tiếp cận chung cho toán phát kiện 1.3.2 Các hướng tiếp cận đađặctrưng cho bài toán VSD 1.3.3 Các hướng tiếp cận sử dụng đặctrưng cấp cao 1.3.4 Các hướng tiếp cận kết hợp đặctrưng 1.4 Giới thiệu hướng tiếp cận luận án 1.4.1 Giới thiệu kiến trúc tổng quan 1.4.2 Bước - Tiền xử lý liệu 1.4.3 Bước – Biểu diễn đặctrưng 1.4.4 Bước - Huấn luyện mơ hình/ đánh giá 1.4.5 Bước - Kết hợp kết 1.4.6 Song song hóa việc rút trích đặctrưng 1.5 Đánh giá độ phức tạp kiến trúc hệ thống 1.6 Bộ liệu MediaEval 1.6.1 Giới thiệu MediaEval 1.6.2 Giới thiệu liệu MediaEval-VSD 1.6.3 Thôngtin liệu 1.6.4 Các khái niệm gán nhãn liệu 1.6.5 Nguyên tắc quy trình xây dựng liệu 1.6.6 Các độ đo 1.6.7 Các đóng góp việc xây dựng liệu 1.7 Kết luận Chương ĐẶCTRƯNG CẤP THẤP VÀ ĐẶCTRƯNG TỰ HỌC CHO BÀI TOÁN VSD 2.1 Giới thiệu 2.2 Đặctrưng cấp thấp 10 2.2.1 Các đặctrưng khung ảnh 10 2.2.2 Đặctrưng chuyển động 11 2.2.3 Đặctrưng âm 12 2.3 Đặctrưng tự học rút trích từ mơ hình mạng nơ-ron tích chập 12 2.3.1 Giới thiệu 12 2.3.2 Giới thiệu mạng nơ-ron tích chập (CNN) 12 2.3.3 Một số vấn đề mạng nơ-ron tích chập 12 2.3.4 Áp dụng đặctrưng rút trích từ mơ hình mạng nơ-ron tích chập cho toán VSD 13 2.4 Dữ liệu thử nghiệm 13 2.5 Phân tích kết 13 2.5.1 Đặctrưng toàn cục 13 i 2.5.2 Đặctrưng cục 14 2.5.3 Đặctrưng chuyển động 14 2.5.4 Đặctrưng âm 14 2.5.5 So sánh cách biểu diễn đặctrưng BoW Fisher Vector 14 2.5.6 Đặctrưng mơ hình AlexNet 14 2.5.7 Đặctrưng mơ hình VGGNet 14 2.5.8 Đặctrưng mơ hình UvANet 15 2.5.9 So sánh với đặctrưng thiết kế sẵn (hand-crafted) 15 2.6 Phân tích trực quan 15 2.7 Kết luận 15 Chương ĐẶCTRƯNG CẤP CAO CHO BÀI TOÁN VSD 16 3.1 Giới thiệu 16 3.2 Đặctrưng cấp cao sử dụng thuộc tính liên quan đến bạolực 17 3.2.1 Giới thiệu thuộc tính 17 3.2.2 Biểu diễn cảnh bạolực thuộc tính 17 3.2.3 Thử nghiệm đánh giá kết 18 3.3 So sánh đặctrưngdựa thuộc tính 18 3.4 Tínhngữnghĩa kết 18 3.5 Kết luận 19 Chương KẾT HỢP ĐẶCTRƯNG VÀ TỐI ƯU TÀI NGUYÊN TÍNH TỐN CHO VSD 19 4.1 Giới thiệu 19 4.2 Kết hợp đặctrưng 20 4.2.1 Kết hợp đặctrưng trước huấn luyện (early fusion) 20 4.2.2 Kết hợp kết phân loại đặctrưng sau huấn luyện (late fusion) 20 4.3 Lựa chọn đặctrưng 21 4.3.1 Giới thiệu 21 4.3.2 Phân tích kết loại đặctrưng riêng 21 4.3.3 Đánh giá kết lựa chọn 21 4.4 Tối ưu tài nguyên tính tốn 22 4.4.1 Giới thiệu 22 4.4.2 Môi trường tính tốn 24 4.4.3 Chi phí rút trích đặctrưng 24 4.4.4 Đánh giá kết 24 4.5 So sánh kết nhóm nghiên cứu 25 4.6 Phân tích đánh giá 26 4.7 Kết luận 26 Chương KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 26 5.1 5.2 Những kết đạt 26 Hướng phát triển 26 DANH MỤC CƠNG TRÌNH 26 ii PHẦN MỞ ĐẦU 1) Giới thiệu động lực nghiên cứu định hướng nghiên cứu Trong năm qua, với bùng nổ kênh thôngtin truyền thôngđa phương tiện, ngày có hàng ngàn, hàng triệu video chia sẻ qua mạng Bên cạnh thơngtin giải trí, kiến thức bổ ích, kênh thơngtin truyền thơngđa phương tiện có nhiều nội dung ảnh hưởng tiêu cực đến giới trẻ cần kiểm soát chặt chẽ (phim khiêu dâm, nội dung bạo lực…), đặc biệt đối tượng xem thiếu niên trẻ nhỏ Tác động nội dung, thôngtin khơng tốt có ảnh hưởng tiêu cực đến hành vi giới trẻ Trong khuôn khổ luận án này, chúng tơi hướng tới việc giải tốn phátthôngtinbạolực liệu video (VSD – Violent Scenes Detection [21]) 2) Mục đích, đối tượng phạm vi nghiên cứu luận án Đầu vào hệ thốngphátthôngtinbạolực (hoặc nhiều) phim, video clip Hệ thống tự động phát gán nhãn phân đoạn bạolực phim, video clip • Đối tượng nghiên cứu: Đối tượng nghiên cứu luận án cảnh chứa thôngtinbạolực phương pháp phátthôngtinbạolực liệu videoThôngtinbạolựcbao gồm đối tượng, cảnh, hành động, hành vi bạolực gây tổn thương cho người Cảnh bạolực định nghĩa theo WHO1 liệu [24]: o Cảnh chứa thôngtinbạolực không nên cho trẻ tuổi xem o Thôngtinbạo lực: đối tượng, cảnh, hành động, kiện đe dọa làm tổn thương đến người • Mục đích nghiên cứu: Nghiên cứu phát triển phương pháp khai thác biểu diễn thôngtinbạolực mơ hình đặctrưng máy tính, phục vụ cho việc đánh giá mức độ bạolực cảnh video với độ xác cao • Phạm vi nghiên cứu: o Sử dụng định nghĩa cảnh bạo lực, thôngtinbạolựcvideo theo WHO o Phương pháp rút trích biểu diễn đađặctrưngthôngtinbạolực o Đánh giá liệu chuẩn cung cấp MediaEval, bao gồm phim Hollywood [76], với đầu vào phim đầu cảnh đánh giá mức độ bạolực 3) Ý nghĩa khoa học thực tiễn luận án Về mặt khoa học, luận án tập trung đánh giá mơ hình đặctrưng nhiều kênh thôngtin (kênh thôngtin thị giác khai thác khung ảnh chuỗi khung ảnh - video, kênh âm thanh) để biểu diễn cảnh bạolực Từ đó, xác định loại đặctrưng phù hợp đề xuất phương pháp kết hợp đặctrưng cho tốn phátthơngtinbạolực Kết nghiên cứu giúp nhóm nghiên cứu có sở lựa chọn đặctrưng phù hợp theo yêu cầu, làm tảng cho việc cải tiến độ xác, chi phí tính tốn nghiên cứu sau, tiết kiệm thời gian thử nghiệm lại loại đặctrưng Về mặt thực tiễn, mô hình hệ thống đánh giá thực nghiệm tảng để phát triển ứng dụng phátthôngtinbạo lực, kiểm duyệt phim, xếp hạng phim theo mức độ bạolực cách tự động (rating), kiểm duyệt thôngtinbạolực kênh truyền thôngđa phương tiện Internet http://www.who.int/violenceprevention/approach/definition/en/ 4) Các đóng góp luận án Bài toán phát cảnh bạolưcvideo (VSD - Violent Scene Detection) dạng toán phát kiện (MED - Multimedia Event Detection), thách thức lớn dạng tốn tínhngữnghĩa độ phức tạp cao thể qua xuất đối tượng, người, cảnh vật tương tác chúng Để giải vấn đề này, hướng tiếp cận kết hợp đađặctrưng chứng minh phổ biến hiệu cho tốn MED Do đó, hướng tiếp cận dùng để giải toán VSD luận án Thách thức hướng tiếp cận đađặctrưng số lượng đặctrưng nhiều, độ phức tạp tính tốn hiệu đặctrưng khác Do đó, mục tiêu luận án tìm tập đặctrưng vừa đủ (compact) cho độ xác hệ thốngcao chi phí tính tốn thấp Để thực mục tiêu này, framework thiết kế phép đánh giá nhiều loại đặctrưng từ nhiều modal khác (như ảnh, video, âm thanh), thuật toán đơn giản hiệu đề xuất để kết hợp loại đặctrưng cho thỏa mãn ràng buộc cân độ xác chi phí tính tốn Hệ thống đề xuất đánh giá tập liệu chuẩn (public benchmark) cho toán này, cho kết tốt so với phương pháp kết hợp đađặctrưng khác Đây đóng góp quan trọng luận án cơng bố tạp chí MTA [CT1] hội nghị SoCPaR [CT3] Bên cạnh việc phân loại cảnh bạo lực, luận án đề xuất cách biểu diễn cảnh bạolực sử dụng đặctrưng cấp caodựa thuộc tính liên quan đến bạolực Việc sử dụng đặctrưng cấp thấp giúp phân loại khái niệm mà chưa thể giải tốn có mức độ ngữnghĩacao VSD Khác với hướng tiếp cận sử dụng đặctrưng cấp cao thường sử dụng việc phân loại khái niệm, luận án đề xuất thiết kế đặctrưng cấp cao giúp bổ sung minh chứng liên quan đến cảnh bạolực (ví dụ: cảnh bạolực có đánh nhau, có máu người bị thương hay cảnh cháy nổ có thương vong) giúp giảm khoảng cách ngữnghĩatính chủ quan khái niệm Quá trình thiết kế đánh giá đặctrưng cấp caodựa thuộc tính cơng bố [CT4] trình bày Chương luận án Với tínhngữnghĩacaođa dạng mặt thể khái niệm bạo lực, để khai thác tồn diện thơngtin liên quan đến cảnh bạolực biểu diễn nhận dạng, đề xuất mơ hình kết hợp đađặctrưngdựa chọn lọc đặctrưng phù hợp có tính bổ trợ cao Tuy nhiên, với khối lượng thôngtin lớn video, việc kết hợp nhiều đặctrưng dẫn tới thách thức tài ngun tính tốn Để hạn chế thách thức này, đề xuất mơ hình kết hợp đađặctrưng tối ưu theo tài nguyên, hướng đến việc triển khai ứng dụng thực tiễn tương lai Kết công bố [CT2] trình bày Chương luận án Trong q trình nghiên cứu, chúng tơi tham gia xây dựng liệu phương pháp đánh giá chuẩn MediaEval Benchmarking VSD Error! Reference source not f ound.[CT9], đồng thời phát triển hệ thống gửi kết đánh giá hội thảo MediaEval VSD hàng năm [CT5][CT7][CT6] Quá trình tham gia xây dựng liệu trình bày chi tiết Chương luận án Dựa kết nghiên cứu, xây dựng hệ thống hỗ trợ phátthôngtinbạolực (lọt vào chung kết thi Nhân Tài đất Việt 2014) đăng ký giải pháp hữu ích để bảo hộ cho hệ thống đề xuất Việt Nam 5) Bố cục luận án • • • • • • Luận án bố cục theo chương mục sau: PHẦN MỞ ĐẦU CHƯƠNG 1: TỔNG QUAN CHƯƠNG 2: ĐẶCTRƯNG CẤP THẤP VÀ ĐẶCTRƯNG TỰ HỌC CHO BÀI TOÁN VSD CHƯƠNG 3: ĐẶCTRƯNG CẤP CAO CHO BÀI TOÁN VSD CHƯƠNG 4: KẾT HỢP ĐAĐẶCTRƯNG VÀ TỐI ƯU TÀI NGUN TÍNH TỐN CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Chương TỔNG QUAN Trong chương này, chúng tơi giới thiệu tốn giải luận án: Phátthôngtinbạolực video; tầm quan trọng thách thức giải tốn Sau đó, chúng tơi giới thiệu sơ lược cách tiếp cận sử dụng rộng rãi kế thừa từ tốn phát kiện video; từ đó, giới thiệu hướng tiếp cận thực luận án Bên cạnh đó, chúng tơi trình bày kiến trúc hệ thống xây dựng để thực thí nghiệm cho luận án giới thiệu trình tham gia xây dựng liệu chuẩn cho tốn phátthơngtinbạolực Error! Reference source not found.[CT9] 1.1 Giới thiệu toán Bài toán VSD giải dạng tốn học có giám sát (supervised learning methods) tổ chức qua hai giai đoạn ngoại tuyến (huấn luyện mơ hình) giai đoạn trực tuyến (đánh giá kết quả) Hệ thống VSD với hai giai đoạn minh họa Hình 1.1: Giai đoạn huấn luyện (Offline ) Dữ liệu huấn luyện Rút trích đặctrưng 0 1 0 1 ct r đặctrưng Huấn luyện Mơ hình 0 Video gán nhãn 1: bạolực 0: không bạolực Giai đoạn kiểm tra (Online) Kết đánh giá Dữ liệu kiểm tra Rút trích đặctrưng ct r đặctrưng Phân lớp 1 0 Phátthôngtin bạ lực tr ng liệu id 0 0 D/S phân đoạn gán nhãn bạolực Hình 1.1 Hai giai đoạn hệ thống hỗ trợ phátthôngtinbạolực Hệ thống VSD tổ chức thành hai giai đoạn mơ tả Hình 1.1 Ở giai đoạn đầu (thực ngoại tuyến - offline), dựa vào liệu huấn luyện gán sẵn nhãn bạo lực, hệ thống tiến hành rút trích biểu diễn đặctrưng máy tính từ liệu video đầu vào, sau sử dụng phương pháp học giám sát để huấn luyện mơ hình máy học có khả đánh giá, phân loại khái niệm bạolực Ở giai đoạn (thực trực tuyến - online), hệ thống sử dụng mơ hình huấn luyện bước đầu để tiến hành đánh giá liệu cần kiểm tra Trong phạm vi luận án, chúng tơi tập trung vào bước rút trích biểu diễn đặctrưng máy tính cho khái niệm bạolựcTrong phạm vi luận án, toán VSD đặc tả cụ thể sau: Vấn đề 1.1: Bài tốn phátthơngtinbạolực tổng quát Đầu vào: • Cho V tập hợp gồm 𝑛 video: 𝑉 = {𝑣1 , 𝑣2 , , 𝑣𝑛 } với 𝑣𝑖 ∈ 𝑉𝑖𝑑𝑒𝑜, 1≤ 𝑖 ≤ 𝑛 𝑖 }, • Mỗi video 𝑣𝑖 tập hợp phân đoạn 𝑣𝑖 = {𝑠1𝑖 , 𝑠2𝑖 , … , 𝑠𝑚 với 𝑚 số phân đoạn video 𝑣𝑖 • ℎ hàm rút trích biểu diễn đặctrưng : ℎ: ℕ𝐻×𝑊×𝐿 ⟶ ℝ𝐷 , 𝐻, 𝑊 chiều cao rộng khung ảnh 𝑠𝑗𝑖 ⟼ ℎ(𝑠𝑗𝑖 ), 𝐿 số khung ảnh phân đoạn 𝐷 chiều dài vector đặctrưng • 𝑡 hàm phân lớp: 𝑡: ℝ𝐷 ⟶ ℤ2 = {0,1}, ℎ(𝑠𝑗𝑖 ) ⟼ 𝑙𝑗𝑖 𝑙𝑗𝑖 nhãn phân đoạn thứ 𝑗 video 𝑣𝑖 có giá trị = khơng bạo lực, 1= bạolực Đầu ra: • Với video 𝑣𝑖 ∈ 𝑉, kết nhận tập phân đoạn gán 𝑖 𝑖 nhãn bạolực 𝑟𝑒𝑠𝑢𝑙𝑡𝑖 = {(𝑠1𝑖 , 𝑙1𝑖 ), (𝑠2𝑖 , 𝑙2𝑖 ), … , (𝑠𝑚 , 𝑙𝑚 )}, với ≤ 𝑖 ≤ 𝑛, 𝑙𝑗𝑖 = {0,1} Bài toán cần giải quyết: ℎ • 𝑡 𝑠𝑗𝑖 → ℎ(𝑠𝑗𝑖 ) → 𝑙𝑗𝑖 , chúng tơi tập trung vào giải việc biểu diễn đặctrưng khái niệm bạolực (hàm ℎ) 1.2 Các thách thức Bài toán phátthôngtinbạolực liệu video dạng toán phát kiện Đây tốn có nhiều thách thức, nên kết chưa đáp ứng nhu cầu thực tế [21] a) Tínhđa dạng, đa thể khái niệm bạolực thách thức lớn toán VSD Theo định nghĩa từ MediaEval WHO2, cảnh bạolực cảnh có hành động gây thương vong cho người [75] b) Tínhngữnghĩa cao: bên cạnh thể đa dạng, khái niệm bạolực phụ thuộc nhiều vào nhận định chủ quan người Tùy thuộc vào lứa tuổi, văn hóa, quan điểm bạolực người nhận định khái niệm bạolực khác c) Tài nguyên: việc xử lý liệu video đòi hỏi tài nguyên lưu trữ tính tốn lớn Ví dụ để xử lý rút trích đặctrưng cho video, sử dụng đặctrưng khung ảnh, phải rút trích xử lý 90.000 khung ảnh (25 khung ảnh/ giây) d) Dữ liệu cho toán học giám sát: với đặctínhngữnghĩa cao, việc xây dựng liệu huấn luyện dựa khái niệm định nghĩa thách thức 1.3 Tổng quan hướng tiếp cận cơng trình liên quan Phátthơngtinbạolực dạng toán phát kiện videoThông thường, kiện có nhiều thể đa dạng, mangtínhngữnghĩacao nên hướng tiếp cận sử dụng kết hợp đađặctrưng để biểu diễn kiện, nhiên chưa có nhiều nghiên cứu tương tự cho tốn phátthơngtinbạolực Kể từ sau năm 2011, MediEval công ty Technicolor đưa liệu MediaEval VSD[76], nhiều nhóm nghiên cứu tham gia giải toán liệu chuẩn 1.3.1 Các hướng tiếp cận chung cho toán phát kiện Bài toán phátthơngtinbạolựcvideo dạng tốn phát kiện liệu đa phương tiện (MED - multimedia event detection) phổ biến Bài tốn phátthơngtinbạolực MediEval mà luận án giải xây dựng liệu phim Hollywood (video dài, biên tập nội dung, có độ phân giải cao nhiều kỹ xảo) tínhngữnghĩa khái niệm cao 1.3.2 Các hướng tiếp cận đađặctrưng cho bài tốn VSD Đặc điểm chung cơng trình giai đoạn sử dụng khái niệm liên quan đến bạolực để thay cho khái niệm bạolực Việc sử dụng định nghĩamangtính chủ quan cao khơng giải tốn cách tổng quát thể đa dạng khái niệm, phạm vi độ phức tạp toán giảm đáng kể Từ năm 2011, MediaEval VSD phát triển định nghĩa hình thức khái niệm bạolực công bố kèm liệu chuẩn, nhiều nhóm nghiên cứu giới tham gia vào MediaEval VSD qua năm nhiều công trình cơng bố [21] Các hướng tiếp cận chung toán việc áp dụng đađặctrưng nhiều kênh thôngtin từ ảnh, âm thanh, video cách kết hợp đặctrưng cho hiệu Các nhóm nghiên cứu thường cơng bố kết việc http://www.who.int/violenceprevention/approach/definition/en/ sử dụng đặctrưng khơng cơng bố cấu hình đặctrưng sử dụng, kết công bố thường kết hợp (fusion) nhiều loại đặctrưng khác nên khó để đánh giá kết loại đặctrưng riêng biệt Khác với công trình nghiên cứu khác, luận án đánh giá cách hệ thống loại đặctrưng cách kết hợp hiệu cho toán VSD 1.3.3 Các hướng tiếp cận sử dụng đặctrưng cấp cao Bên cạnh hướng tiếp cận biểu diễn đặctrưng cấp thấp, cần cách tiếp cận giàu ngữnghĩa cho việc biểu diễn cảnh bạolực Một số cách tiếp cận sử dụng thuộc tính (attributes) để giải toán nhận dạng đối tượng (như Object Bank [48]), phân lớp cảnh sử dụng thuộc tính đối tượng [49], nhận dạng hành động cách sử dụng ngân hàng hành động [71] Đặc điểm chung cơng trình trước sử dụng thuộc tính biểu diễn cho cảnh, hành động đơn giản, chưa mangtínhngữnghĩacao kiện (liên quan đến nhiều thể hiện, nhiều cảnh, hành vi khác nhau) Trong luận án này, chọn cách tiếp cận thiết kế đặctrưng cấp caodựa thuộc tính liên quan để biểu diễn cảnh bạolực Đây cách tiếp cận sử dụng đặctrưng cấp cao cho toán MediaEval VSD 1.3.4 Các hướng tiếp cận kết hợp đặctrưng Đối với toán VSD, việc sử dụng kết hợp nhiều đặctrưng chứng minh hiệu quả, nhiên đa số cơng trình tập trung vào việc lựa chọn đặctrưng mà không quan tâm đến chi phí tính tốn loại đặctrưng này[75] Khác với cơng trình liên quan, chúng tơi tiến hành lựa chọn đặctrưng phù hợp cho việc kết hợp, đánh giá lại phương thức kết hợp đặctrưng (kết hợp sớm, kết hợp trễ, kết hợp phân đoạn) cho tốn phátthơngtinbạolực liệu MediaEval VSD Ngồi chúng tơi xác định chi phí tính tốn việc rút trích loại đặc trưng, từ đề xuất cấu hình đặctrưng tối ưu điều kiện hạn chế tài ngun tính tốn, đánh giá đề xuất sở để triển khai ứng dụng giới thực 1.4 Giới thiệu hướng tiếp cận luận án 1.4.1 Giới thiệu kiến trúc tổng quan Chúng xây dựng hệ thống hỗ trợ phátthôngtinbạolực tảng tham khảo hệ thống hỗ trợ phát kiện [40], [65], [96] Hệ thống chúng tơi xây dựng có khả rút trích đặctrưng nhiều kênh thơngtin Bên cạnh đó, hệ thống thiết kế để thực tính toán song song hệ thống GRID Computing Kiến trúc hệ thống minh họa Hình 1.2 bên Dữ liệu huấn luyện 0 1 0 TIỀN XỬ LÝ 1 Dữ liệu đánh giá 0 BIỂU DIỄN ĐẶCTRƯNG HUẤN LUYỆN VÀ ĐÁNH GIÁ PHÂN ĐOẠN RÚT TRÍCH KHUNG ẢNH CHUẨN HĨA KÍCH THƯỚC RÚT TRÍCH ĐẶCTRƯNG MÃ HĨA ĐẶCTRƯNG HUẤN LUYỆN MƠ HÌNH ĐÁNH GIÁ/ PHÂN LỚP TỔNG HỢP KẾT QUẢ KẾT HỢP KẾT QUẢ HẬU XỬ LÝ TĂNG ĐỘ CHÍNH XÁC Hình 1.2 Kiến trúc tổng quan hệ thống hỗ trợ phátthôngtinbạolực Bước - Tiền xử lý liệu Dữ liệu đầu vào toán VSD thường phim video clip có chiều dài khác Mục tiêu tốn xác định phân đoạn có chứa thơngtinbạo lực, bước hệ thống thực hiện: (1) Phân chia video thành phân đoạn; (2) trích khung ảnh từ phân đoạn (3) chuẩn hóa kích thước Cụ thể bước tiền xử lý liệu đặc tả tổng quát sau: 1.4.2 Bước 1: Tiền xử lý liệu Đầu vào: • Danh sách video 𝑉 = {𝑣1 , 𝑣2 , , 𝑣𝑛 } với 𝑣𝑖 ∈ 𝑉, ≤ 𝑖 ≤ 𝑛 • Độ dài phân đoạn ∆𝑓𝑟𝑎𝑚𝑒𝑠 • Số lượng khung ảnh 𝑛𝑓𝑟𝑎𝑚𝑒 rút trích giây • Kích thước khung ảnh 𝑤𝑛𝑜𝑟𝑚𝑎𝑙𝑖𝑧𝑒 × ℎ Đầu ra: 𝑖 } • Danh sách phân đoạn video 𝑣𝑖 : 𝑆𝑖 = {𝑠1𝑖 , 𝑠2𝑖 , … , 𝑠𝑛𝑆ℎ𝑜𝑡 𝑖 • Danh sách khung ảnh cho phân đoạn 𝑠𝑗 , 𝑖 𝑖 𝑠𝑗𝑖 = {𝑓𝑗,𝑘 : 𝑓𝑗,𝑘 ∈ ℕ𝑤𝑛𝑜𝑟𝑚𝑎𝑙𝑖𝑧𝑒 ×ℎ , 𝑘 = 1, 𝑛𝐾𝐹𝑗𝑖 }, 𝑘 thứ tự khung ảnh phân Thuật • • • • • • • • • đoạn 𝑠𝑗𝑖 có 𝑛𝐾𝐹𝑗𝑖 khung ảnh, 𝑤𝑛𝑜𝑟𝑚𝑎𝑙𝑖𝑧𝑒 × ℎ chiều rộng chiều cao khung ảnh sau giảm kích thước tốn: Bước 1: Loop duyệt qua video 𝑣𝑖 Bước 1.1: Chia video thành phân đoạn có độ dài ∆𝑓𝑟𝑎𝑚𝑒𝑠 Bước 1.2: Loop duyệt qua phân đoạn 𝑠𝑖 Bước 1.2.1: Rút trích theo tỷ lệ 𝑛𝑓𝑟𝑎𝑚𝑒 / 𝑔𝑖â𝑦 Bước 1.2.2: Giảm kích thước khung ảnh 𝑤𝑛𝑜𝑟𝑚𝑎𝑙𝑖𝑧𝑒 × ℎ Bước 1.2.3: Loại bỏ khung ảnh có dãy màu đồng End Loop Bước 1.3: Tạo danh sách khung ảnh cho phân đoạn 𝑠𝑖 End Loop Bước 2: Trả danh sách phân đoạn khung ảnh tương ứng cho phân đoạn 1.4.3 Bước – Biểu diễn đặctrưng Sau bước tiền xử lý liệu, đặctrưng thơ rút trích để tạo thành vector đặctrưng biểu diễn cho ảnh Đối với đặctrưng cục bộ, âm đặctrưng chuyển động, đặctrưng thơ sau rút trích chuẩn hóa kỹ thuật khác (túi từ - Bag of Words [88], Fisher Vector [66]) Bước 2: Rút trích đặctrưng cho phân đoạn Đầu vào: 𝑖 } • Danh sách phân đoạn video 𝑣𝑖 : 𝑆𝑖 = {𝑠1𝑖 , 𝑠2𝑖 , … , 𝑠𝑛𝑆ℎ𝑜𝑡 𝑖 • Danh sách khung ảnh cho phân đoạn 𝑠𝑗 , 𝑖 𝑖 𝑠𝑗𝑖 = {𝑓𝑗,𝑘 : 𝑓𝑗,𝑘 ∈ ℕ𝑤𝑛𝑜𝑟𝑚𝑎𝑙𝑖𝑧𝑒 ×ℎ , 𝑘 = 1, 𝑛𝐾𝐹𝑗𝑖 }, 𝑘 thứ tự khung ảnh phân đoạn • Đầu ra: • Thuật • • • • • 𝑠𝑗𝑖 có 𝑛𝐾𝐹𝑗𝑖 khung ảnh, 𝑤𝑛𝑜𝑟𝑚𝑎𝑙𝑖𝑧𝑒 × ℎ chiều rộng chiều cao khung ảnh sau giảm kích thước Sử dụng hàm rút trích đặctrưng ℎ để tạo Vector đặctrưng cho phân đoạn ℎ(𝑠𝑗𝑖 ) = 𝑠𝑓𝑗𝑖 , 𝑠𝑓𝑗𝑖 ∈ ℝ𝐷 , với 𝐷 số chiều vector đặctrưng Tập vector đặctrưng 𝑋𝑖 cho phân đoạn video 𝑣𝑖 : 𝑖 𝑋𝑖 = {𝑠𝑓1𝑖 , 𝑠𝑓2𝑖 , … 𝑠𝑓𝑛𝑆ℎ𝑜𝑡 }, với 𝑠𝑓𝑗𝑖 phân đoạn thứ 𝑗 video 𝑣𝑖 có tổng cộng 𝑛𝑆ℎ𝑜𝑡 toán: Bước 1: Loop qua phân đoạn 𝑠𝑗𝑖 Bước 1.1: Rút trích đặctrưng thơ khung ảnh Bước 1.2: Mã hóa đặctrưng (BoW, FV Bước 1.3: Pooling (max, avg) đặctrưng khung ảnh đặctrưng cho Phân đoạn 𝑠𝑗𝑖 End Loop Bước 2: Trả danh sách đặctrưng phân đoạn Hình 2.1 Ví dụ sử dụng đặctrưng trích xuất từ mơ hình mạng nơ-ron tích chập để làm đầu vào huấn luyện phận loại khái niệm [75] 2.3.4 Áp dụng đặctrưng rút trích từ mơ hình mạng nơ-ron tích chập cho tốn VSD Việc huấn luyện mơ hình CNN riêng cho việc xác định thơngtinbạolực đòi hỏi nguồn liệu huấn luyện lớn, điều chưa khả thi với liệu VSD Trong khuôn khổ nghiên cứu này, thử nghiệm đặctrưng rút trích từ mơ hình học sâu CNN để biểu diễn khái niệm bạolực Việc huấn luyện khái niệm thực SVM Trong phần này, tiến hành đánh giá chi tiết việc sử dụng mơ hình CNN AlexNet, VGGNet UvANet cho tốn phátthơngtinbạolực 2.3.4.1 AlexNet (2012) [4] 2.3.4.2 VGGNet (2014) [79] 2.3.4.3 UvANet (2016) [55] 2.4 Dữ liệu thử nghiệm Chúng tiến hành thực nghiệm liệu MediaEval VSD 2014 với phần liệu phim Để cân chi phí tính tốn độ xác hệ thống, qua thực nghiệm MediaEval VSD 2011, 2012 [44], [89], bước tiền xử lý liệu chúng tơi lựa chọn tham số sau: • Chiều dài phân đoạn: giây • Tần suất rút trích khung ảnh: khung ảnh/ giây • Kích thước khung ảnh: chiều rộng khung ảnh 500 pixels, chiều cao khung ảnh giảm theo tỷ lệ tương ứng Bộ liệu tổ chức sau: • Tập huấn luyện : dùng để huấn luyện khái niệm bạo lực, gồm 24 phim với tổng cộng 34,779 phân đoạn (chia giây), tổng độ dài 173,883 giây • Tập kiểm tra: dùng để đánh giá kết quả, gồm phim với tổng cộng 10,006 phân đoạn (chia giây), tổng độ dài 50,011 giây • Tổng thời gian toàn Bộ liệu 63.55 giờ, với 44,785 phân đoạn 2.5 Phân tích kết 2.5.1 Đặctrưng toàn cục Kết đánh giá thực nghiệm liệu MediaEval VSD cho thấy, với đặctrưng tồn cục: • Các thể cảnh bạolực có thơngtin màu sắc đa dạng, việc sử dụng đặctrưngdựa kênh màu khác tỏ không hiệu việc sử dụng ảnh đơn màu (GRAY) • Các đặctrưng góc cạnh dạng vân cho kết tốt đặctrưng màu 13 • Max pooling cho kết tốt Average pooling 2.5.2 Đặctrưng cục Kết đánh giá thực nghiệm liệu MediaEval VSD cho thấy, với đặctrưng cục bộ: • Phương pháp lấy điểm đặctrưng theo mẫu dày có kết tốt hẳn phương thức Harlap • Trongđặctrưngdựa SIFT, đặctrưng SIFT mở rộng kênh màu RGB có kết tốt • Việc phân chia vùng khơng gian giúp cải thiện kết rõ rệt Việc chia vùng khơng gian mịn giúp tăng độ xác • Max pooling cho kết tốt Avg pooing 2.5.3 Đặctrưng chuyển động Đặctrưng MBH không bị ảnh hưởng chuyển động camera so với HoG HoF (đã chứng minh [91]), MBH có kết tốt cho VSD, HoG HoF có kết thấp (so với MBH đặctrưng cục bộ) Việc kết hợp mô tả không giúp cải thiện hiệu hệ thống 2.5.4 Đặctrưng âm Việc sử dụng đặctrưng âm cho tốn phátthơngtinbạolực khơng thực hiệu mặt độ xác tính thể đa dạng kênh âm cảnh bạolực Tuy nhiên thấy kết đặctrưng MFCC tương đồng với đặctrưng toàn cục, kết MAP-AT100 tương đối tốt thể đặctrưng có tính phân loại cao (nếu cảnh bạolực có đặctrưng riêng có tiếng thét, tiếng súng, tiếng nổ), điều giúp cho việc kết hợp với đặctrưng khác trở nên hiệu 2.5.5 So sánh cách biểu diễn đặctrưng BoW Fisher Vector Bảng 2.1 Bảng so sánh cách mã hóa đặctrưng Bag of Words Fisher Vector Feature BoW_MAP2014 FV_MAP2014 BoW_MAP-AT100 FV_MAP-AT100 Densetrajectory - MBHHOFHOG 46.52% 50.77% 67.78% 73.23% SIFT 33.82% 37.33% 59.40% 58.47% MFCC 32.80% 34.09% 42.70% 45.89% Kết thực nghiệm Bảng 2.1 cho thấy FV có kết tốt 2-4% so với cách biểu diễn BoW Biểu diễn FV đặc biệt tỏ hiệu đặctrưng chuyển động tốn VSD tính phân loại thơngtincao 2.5.6 Đặctrưng mơ hình AlexNet Bảng 2.2 trình bày kết đặctrưng sử dụng tầng cuối mơ hình AlexNet Sum pooling đặctrưng tầng fc7 cho kết tốt Bảng 2.2 Kết sử dụng đặctrưng từ mơ hình CNN AlexNet STT Đặctrưng AlexNet_fc7.max AlexNet_fc6.sum AlexNet_fc7.sum AlexNet_fc6.max AlexNet_Full.max AlexNet_Full.sum MAP2014 47.30% 45.57% 45.20% 45.20% 35.92% 35.55% 2.5.7 Đặctrưng mơ hình VGGNet Bảng 2.3 trình bày kết cCác đặctrưng rút trích từ mơ hình VGGNet tầng cuối, tầng có số chiều tương tự AlexNet Phương pháp áp dụng max14 pooling đặctrưng fc7 cho kết tốt Kết VGGNet cho kết cao AlexNet (~3%) chứng minh cải tiến VGG mơ hình Alex phát huy tác dụng Bảng 2.3 Kết sử dụng đặctrưng rút trích từ mơ hình VGGNet STT 10 11 12 Đặctrưng VGGNet_fc7-16.max VGGNet_fc6-19.max VGGNet_fc6-16.max VGGNet_fc6-19.sum VGGNet_fc7-19.max VGGNet_fc6-16.sum VGGNet_fc7-19.sum VGGNet_fc7-16.sum VGGNet_Full-19.sum VGGNet_Full-16.sum VGGNet_Full-16.max VGGNet_Full-19.max MAP2014 50.17% 50.02% 49.25% 49.12% 48.84% 47.60% 47.26% 47.19% 38.07% 37.91% 36.90% 36.76% 2.5.8 Đặctrưng mô hình UvANet Kết đặctrưng rút trích từ mơ hình UvANet trình bày Bảng 2.4, phương pháp sử dụng max-pooling cho kết tốt sum-pooling Với kết cấu hình 4k,8k,12k (~4000,8000,12000 khái niệm tầng kết nối đầy đủ) thật khơng có nhiều chênh lệch Việc sử dụng nhiều khái niệm không đem lại hiệu cao độ xác mà chi phí huấn luyện lớn Bảng 2.4 Kết sử dụng đặctrưng rút trích từ mơ hình UvANet STT Đặctrưng UvANet_bottomup_12k_Full.max UvANet_topdown_4k_Full.max UvANet_bottomup_12k_Full.sum UvANet_bottomup_8k_Full.max UvANet_bottomup_4k_Full.max UvANet_bottomup_8k_Full.sum UvANet_topdown_4k_Full.sum UvANet_bottomup_4k_Full.sum MAP2014 42.86% 42.47% 42.46% 42.32% 42.29% 40.82% 40.07% 39.60% 2.5.9 So sánh với đặctrưng thiết kế sẵn (hand-crafted) Các đặctrưng rút trích từ mơ hình mạng nơ-ron tích chập cho kết tốt cho toán VSD, đặctrưng rút trích ảnh, chưa tận dụng thôngtin không gian thời gian đặctrưng chuyển động, cho kết tốt 2.6 Phân tích trực quan 2.7 Kết luận Việc đánh giá lại đặctrưng phổ dụng tập liệu cần thiết Với tham số xác định tối ưu loại đặc trưng, tiến hành đánh giá việc kết hợp đặctrưng cho toán phátthôngtinbạolực Chương Đây tiền đề cho việc xây dựng hệ thống tích hợp đađặctrưng cách kết hợp đặctrưng với cấu hình tốt Kết việc đánh giá đặctrưng công bố hội nghị SocPar2013 [CT3] tạp chí MTA2016 [CT1], đồng thời sử dụng thi MediaEval VSD hàng năm từ 2012 đến 2014 [CT7][CT5] 15 Chương ĐẶCTRƯNG CẤP CAO CHO BÀI TỐN VSD Các phương pháp rút trích đặctrưng cấp cao4 chủ đề quan tâm nghiên cứu gần đây.Cảnh bạolực thường chứa thôngtin liên quan đặctrưng riêng, thơng qua q trình xây dựng liệu, chúng tơi xác định thuộc tính có liên quan đến cảnh bạolực xây dựng liệu huấn luyện cho thuộc tínhTrên sở đó, chúng tơi thiết kế đặctrưng cấp caodựa thuộc tính liên quan để biểu diễn cảnh bạolựcĐặctrưng cấp caodựa thuộc tính khơng giúp xây dựng phân loại đánh giá mức độ bạolực mà cung cấp thêm thôngtin mô tả giàu ngữnghĩa Kết nội dung nghiên cứu báo hội nghị SoICT 2013 [CT4] tạp chí MTA 2016 [CT1] 3.1 Giới thiệu Do đặctrưng khái niệm, kiện mangtínhngữ nghĩa, đặc biệt kiện Một khái niệm, kiện có nhiều thể mangtínhngữnghĩa cao, đơi phụ thuộc vào suy nghĩ chủ quan người (ví dụ khái niệm bạo lực, người nói cảnh bạo lực, người khác lại nói khơng bạo lực) Chúng tập trung nghiên cứu vấn đề sau: • Biểu diễn cảnh bạolực thuộc tính liên quan: để làm giảm khoảng cách mặt ngữ nghĩa, chúng tơi sử dụng thuộc tínhtrung gian lựa chọn trước để biểu diễn cảnh bạolực (xem Hình 3.1) • Mơ tả cảnh bạo lực: bên cạnh việc sử dụng thuộc tính để định cảnh bạo lực, sử dụng thuộc tính để mơ tả thơngtin cho cảnh Việc cung cấp thêm thôngtin mô tả giúp người dùng cuối có nhiều thơngtin đơn định có/khơng có bạolực Cảnh bạolực Xác định Khái niệm Khoảng cách ngữnghĩa thấp ũ khí lạnh Lửa Máu Máu Đặctrưng cấp cao ũ khí nóng Nổ Một vài khái niệm liên quan đến bạolực ũ khí lạnh Khoảng cách ngữnghĩacao Chết chóc Khoảng cách ngữnghĩa thấp Đặctrưng cấp thấp Đặctrưng biểu diễn máy tính Hình 3.1 Giảm khoảng cách ngữnghĩa cách sử dụng khái niệm liên quan (thuộc tính) biểu diễn VSD Thuật ngữđặctrưng cấp cao dùng chung cho thuật ngữ tiếng Anh sau với nghĩa tương đương: attribute (thuộc tính), mid-level feature 16 3.2 Đặctrưng cấp cao sử dụng thuộc tính liên quan đến bạolực 3.2.1 Giới thiệu thuộc tínhDựa định nghĩa khái niệm bạolực theo WHO, q trình xây dựng liệu, chúng tơi lựa chọn đối tượng, cảnh, hành động kiện có liên quan đến khái niệm bạolực sử dụng thôngtin thuộc tính để biểu diễn cảnh bạolực 3.2.2 Biểu diễn cảnh bạolực thuộc tính Các thuộc tính có khái niệm ngữnghĩa thấp khái niệm bạolực nên sử dụng đặctrưng cục tự học để biểu diễn dễ dàng Giải pháp chúng tơi đề xuất có tính mở, cho phép thay đổi, bổ sung hay định nghĩa riêng danh sách thuộc tính tập A phù hợp tốn Trong phạm vi luận án, chúng tơi chọn thuộc tính sau cho tập A gồm 13 thuộc tính sở kế thừa mở rộng tập gồm thuộc tính ban đầu liệu chúng tơi đề xuất thơng qua q trình thực gán nhãn liệu Vấn đề 3.1: Biểu diễn cảnh bạolựcđặctrưngdựa thuộc tính Đầu vào: • Cho V tập hợp gồm n video: 𝑉 = {𝑣1 , 𝑣2 , , 𝑣𝑛 } với 𝑣𝑖 ∈ 𝑉𝑖𝑑𝑒𝑜, 1≤ 𝑖 ≤ 𝑛 • Cho G tập huấn luyện với ground truth 𝐺 = {𝐺1 , 𝐺2 , , 𝐺𝑛 } mô tả nhãn kết phân đoạn video: 𝑖 𝑖 G𝑖 = {(𝑠1𝑖 , 𝑙1𝑖 ), (𝑠2𝑖 , 𝑙2𝑖 ), … , (𝑠𝑚 , 𝑙𝑚 )}, với ≤ 𝑖 ≤ 𝑛, 𝑙𝑗𝑖 = {0,1} Nhãn 𝑙𝑗𝑖 = {0,1} phân đoạn j video 𝑣𝑖 có giá trị(1 0), tương ứng với việc phân đoạn có xem bạolực (1) hay khơng (0) • Gọi 𝐴 = {𝑎1 , 𝑎2 , , 𝑎𝑛𝐴𝑡𝑡𝑟𝑖𝑏𝑢𝑡𝑒𝑠 } tập hợp gồm gồm 𝑛𝐴𝑡𝑡𝑟𝑖𝑏𝑢𝑡𝑒𝑠 thuộc tính tương ứng với khái niệm liên quan đến cảnh bạolực • Ngồi tập video V ground truth G, đầu vào tốn có tập ground truth 𝐺 𝐴 cho khái niệm có liên quan đến bạolực 𝑎 𝑎 𝑎 𝑎 𝑎 𝑎 𝑘 𝑘 𝑘 )} , 𝐺𝑖𝐴 = {(𝑔𝑠𝑡𝑎𝑟𝑡𝑖,1𝑘 , 𝑒𝑛𝑑𝑖,1𝑘 , 𝑔𝑙𝑎𝑏𝑒𝑙𝑖,1𝑘 ), … , (𝑔𝑠𝑡𝑎𝑟𝑡𝑖,𝑔𝑛 , 𝑒𝑛𝑑𝑖,𝑔𝑛 , 𝑔𝑙𝑎𝑏𝑒𝑙𝑖,𝑔𝑛 𝑖 𝑖 𝑖 𝑣ớ𝑖 ≤ 𝑖 ≤ 𝑛, ≤ 𝑘 ≤ 𝑛𝐴𝑡𝑡𝑟𝑖𝑏𝑢𝑡𝑒𝑠 𝑎 Nhãn 𝑔𝑙𝑎𝑏𝑒𝑙𝑖,𝑗𝑘 phân đoạn j video 𝑣𝑖 có giá trị nhị phân (1 0), tương ứng với việc phân đoạn có xem có thơngtin thuộc tính 𝑎𝑘 hay khơng o Đầu ra: • Với video 𝑣𝑖 ∈ 𝑉, kết nhận tập phân đoạn đánh giá xác suất (hay gọi mức độ) bạo lực: 𝑖 𝑖 𝑟𝑒𝑠𝑢𝑙𝑡𝑖 = {(𝑠1𝑖 , 𝑠𝑐𝑜𝑟𝑒1𝑖 ), (𝑠2𝑖 , 𝑠𝑐𝑜𝑟𝑒2𝑖 ), … , (𝑠𝑛𝑆ℎ𝑜𝑡 , 𝑠𝑐𝑜𝑟𝑒𝑛𝑆ℎ𝑜𝑡 )}, với ≤ 𝑖 ≤ 𝑛, 𝑠𝑐𝑜𝑟𝑒𝑗𝑖 = 𝑖 [0,1], với 𝑠𝑐𝑜𝑟𝑒𝑗 gần bạolực • Bên cạnh kết đánh giá bạo lực, với video 𝑣𝑖 ∈ 𝑉, kết có tập 𝑟𝑒𝑠𝑢𝑙𝑡𝑖𝐴 mơ tả việc gán nhãn đánh giá thuộc tính liên quan bạolực phân đoạn video 𝑣𝑖 𝑎 𝑖,𝑎 𝑖,𝑎 𝑖,𝑎 𝑖 𝑘 𝑟𝑒𝑠𝑢𝑙𝑡𝑖 𝑘 = {(𝑠1𝑖 , 𝑠𝑐𝑜𝑟𝑒1 𝑘 ), (𝑠2𝑖 , 𝑠𝑐𝑜𝑟𝑒2 𝑘 ), … , (𝑠𝑛𝑆ℎ𝑜𝑡 , 𝑠𝑐𝑜𝑟𝑒𝑛𝑆ℎ𝑜𝑡 )}, 𝑣ớ𝑖 ≤ 𝑖 ≤ 𝑛, ≤ 𝑎𝑘 ≤ 𝑛𝐴𝑡𝑡𝑟𝑖𝑏𝑢𝑡𝑒𝑠 Thuật tốn: • Bước 1: chia tập liệu V thành tập con: o Tập V𝑇𝑟𝑎𝑖𝑛1 ⊆ V dùng để huấn luyện phân loại cho khái niệm liên quan (huấn luyện thuộc tính) o Tập V𝑇𝑟𝑎𝑖𝑛2 ⊆ V dùng để huấn luyện cho khái niệm bạolực o Tập V𝑇𝑒𝑠𝑡 ⊆V dùng để kiểm tra kết • Bước 2: Rút trích đặctrưng biểu diễn đặctrưng phần 1.4.3 cho tập V𝑇𝑟𝑎𝑖𝑛1 , V𝑇𝑟𝑎𝑖𝑛2 , V𝑇𝑒𝑠𝑡 • Bước 3: Sử dụng liệu gán nhãn 𝐺 𝐴 (trên tập V𝑇𝑟𝑎𝑖𝑛1 ) để huấn luyện phân loại cho thuộc tính) o Xây dựng phân loại 𝐶𝑖 cho thuộc tính (khái niệm) 𝑎𝑘 𝑣ớ𝑖 ≤ 𝑘 ≤ 𝑛𝐴𝑡𝑡𝑟𝑖𝑏𝑢𝑡𝑒𝑠 17 • • • • Bước 4: Sử dụng phân loại 𝐶𝑎𝑘 để kiểm tra cho phân đoạn tập V𝑇𝑟𝑎𝑖𝑛2 V𝑇𝑒𝑠𝑡 𝑎𝑘 Bước 4: Sử dụng điểm đánh giá 𝑠𝑠𝑐𝑜𝑟𝑒 kết bước để tạo thành vector biểu diễn cho phân đoạn (mỗi vector phân đoạn 𝑎𝑘 chứa 𝑠𝑠𝑐𝑜𝑟𝑒 thuộc tính) Như phân đoạn biểu diễn vector có 𝑛𝐴𝑡𝑡𝑟𝑖𝑏𝑢𝑡𝑒𝑠, đại diện cho 𝑛𝐴𝑡𝑡𝑟𝑖𝑏𝑢𝑡𝑒𝑠 thuộc tính liên quan Vector đặctrưng phân đoạn có dạng: 𝑓(𝑠ℎ𝑜𝑡𝑡 ) = (𝐶𝑎1 (𝑠ℎ𝑜𝑡𝑡 ), 𝐶𝑎2 (𝑠ℎ𝑜𝑡𝑡 ), … , 𝐶𝑎𝑎𝐴𝑡𝑡𝑟𝑖𝑏𝑢𝑡𝑒𝑠 (𝑠ℎ𝑜𝑡𝑡 )) Bước 5: Sử dụng liệu gán nhãn G (trên tập V𝑇𝑟𝑎𝑖𝑛2 ) khái niệm bạolực để huấn luyện phân loại cho khái niệm bạolực Bước 6: Kiểm tra phân loại tập V𝑇𝑒𝑠𝑡 3.2.3 Thử nghiệm đánh giá kết 3.2.3.1 Dữ liệu thử nghiệm Chúng sử dụng liệu thử nghiệm MediaEval 2014 với việc tổ chức tập huấn luyện kiểm tra sau: • Tập V𝑇𝑟𝑎𝑖𝑛1 : dùng để huấn luyện thuộc tính • Tập V𝑇𝑟𝑎𝑖𝑛2 : dùng để huấn luyện khái niệm bạo • Tập V𝑇𝑒𝑠𝑡 : dùng để kiểm tra đánh giá kết 3.2.3.2 Đánh giá kết Bảng 3.1 Kết sử dụng thuộc tính cho tốn VSD (độ đo MAP2014) Features RGBSIFT AlexNET VGG đặctrưng thô Sử dụng thuộc tính 39.83% 40.59% 47.21% 47.32% 48.84% 48.12% Theo Bảng 3.1 cho thấy, việc sử dụng thuộc tính để biểu diễn cảnh bạolực có kết tương đồng với việc sử dụng đặctrưng thô tập huấn luyện Tuy nhiên, so với cách tiếp cận đặctrưng thơ, cách sử dụng thuộc tính giàu ngữnghĩa bên cạnh việc xác định cảnh có bạolực hay khơng, vector đặctrưng mơ tả cảnh cung cấp thơngtin thuộc tính có cảnh (ví dụ cảnh có máu đánh nhau) Với khả vượt trội việc xác định đối tượng thôngtin khung ảnh, đặctrưng rút trích từ mơ hình mạng nơ-ron tích chập AlexNet VGGNet có kết tốt hẳn so với đặctrưng cục RGBSIFT việc biểu diễn thuộc tính 3.3 So sánh đặctrưngdựa thuộc tínhTrong phần 3.2 chúng tơi so sánh việc sử dụng thuộc tính biểu diễn khái niệm bạo lực: sử dụng thuộc tính liên quan đến khái niệm cho kết tốt thuộc tính khơng liên quan (chất lượng thuộc tính quan trọng), thuộc tính khơng liên quan, số lượng thuộc tính lớn, độ xác cao (số lượng thuộc tính quan trọng) 3.4 Tínhngữnghĩa kết Hình 3.2 thể kết hệ thống trả danh sách cảnh bạolực theo thứ tự giảm dần kèm thơngtin thuộc tính liên quan đến bạolực Cách tiếp cận sử dụng thuộc tính cung cấp thơngtinngữnghĩa nhiều hơn, biết thêm thôngtin liên quan đến cảnh việc định thực chủ quan người 18 Hình 3.2 Hình minh họa kết Top cảnh bạolực mà hệ thống trả kèm thơngtin thuộc tính liên quan đến bạolực Phía khung ảnh giá trị thể điểm đánh giá thuộc tính bên phải khung ảnh biểu tượng thuộc tính có tồn phân đoạn đánh giá 3.5 Kết luận Trong chương đề xuất cách tiếp cận mặt ngữ nghĩa, sử dụng thuộc tính để biểu diễn cho khái niệm bạolực Việc sử dụng thuộc tính giúp tăng tínhngữnghĩa khái niệm thơng qua thuộc tính xây dựng vector đặctrưng biểu diễn Kết nghiên cứu chương công bố hội nghị SoICT2013 [CT4] Chương KẾT HỢP ĐẶCTRƯNG VÀ TỐI ƯU TÀI NGUN TÍNH TỐN CHO VSD Kết hợp đađặctrưng hướng tiếp cận phổ biến nay, lựa chọn đặctrưng để kết hợp mà không ảnh hưởng đến hiệu hệ thống (tăng độ xác, tiết kiệm chi phí tính tốn) vấn đề mở cần giải đáp cho tốn phátthơngtinbạolực Chúng tơi đánh giá cách kết hợp sớm (early fusion) kết hợp trễ (late fusion) đặc trưng, đồng thời lựa chọn hướng tiếp cận loại bỏ đặctrưng kết hợp (leave one feature out) để đánh giá mức độ đóng góp đặctrưng kết hợp, từ lựa chọn lại đặctrưng thực đóng góp hiệu Việc kết hợp đặctrưng đòi hỏi tài ngun tính tốn lớn, để triển khai ứng dụng thực tế, cần cân nhắc lựa chọn tối ưu đặctrưng phù hợp với điều kiện tính tốn thực tế Trong chương tiến hành đánh giá đề xuất cấu hình (bộ đặc trưng) tùy vào điều kiện tài ngun tính tốn khác Kết nghiên cứu chương trình bày hội nghị IC3INA 2016[CT2] 4.1 Giới thiệu Đối với toán phátthôngtinbạo lực, hướng tiếp cận nhóm nghiên cứu trước ln sử dụng kết hợp nhiều loại đặctrưng chưa có nghiên cứu đánh giá việc kết hợp đặctrưng phù hợp Trong nghiên cứu chương này, tiến hành thử nghiệm đánh giá mơ hình kết hợp khác việc sử dụng loại đặc trưng, bao gồm: • Đánh giá việc kết hợp đặctrưng khung ảnh (từng keyframe) cho việc biểu diễn đặctrưng cảnh (video) • Đánh giá việc kết hợp sớm đặctrưng trước huấn luyện (early fusion) • Đánh giá việc kết hợp trễ kết đặctrưng sau huấn luyện (late fusion) 19 4.2 Kết hợp đặctrưng 4.2.1 Kết hợp đặctrưng trước huấn luyện (early fusion) 4.2.1.1 Kết hợp đặctrưng khung ảnh Để xây dựng đặctrưng cho phân đoạn thử nghiệm cách tiếp cận kết hợp ghép nối vector đặctrưng (concatenation), lấy giá trị trung bình (average), giá trị tối đa (max), giá trị tối thiểu (min) bin vector đặctrưng khung ảnh cảnh Kết thực nghiệm đặctrưng cục toàn cục cho thấy cách tiếp cận lấy giá trị tối đa (max pooling) cho giá trị tốt 4.2.1.2 Kết hợp sớm loại đặctrưng trước huấn luyện Do số chiều vector đặctrưng khác cách biểu diễn loại đặctrưng khác biệt, tiến hành đánh giá việc ghép nối đặctrưng loại 4.2.2 Kết hợp kết phân loại đặctrưng sau huấn luyện (late fusion) Vấn đề 4.1: Kết hợp trễ kết (Late fusion) Đầu vào: • • Cho tập Rank list 𝑅𝐿 gồm 𝑚 Rank list 𝑚 đặctrưng 𝑅𝐿 = {𝑅𝐿1 , 𝑅𝐿2 , , 𝑅𝐿𝑚 }, với 𝑚 số đặctrưng cần Late fusion Mỗi Rank list 𝑅𝐿𝑖 tập hợp gồm 𝑛𝑆ℎ𝑜𝑡 mô tả thôngtin mã số video phân đoạn (𝑠ℎ𝑜𝑡𝐼𝐷) giá trị đánh giá mức độ bạolực phân đoạn video (𝑠𝑐𝑜𝑟𝑒𝑠ℎ𝑜𝑡𝐼𝐷 ) 𝑅𝐿𝑖 = {(𝑠ℎ𝑜𝑡𝐼𝐷1 , 𝑠𝑐𝑜𝑟𝑒𝑖,1 ), (𝑠ℎ𝑜𝑡𝐼𝐷2 , 𝑠𝑐𝑜𝑟𝑒𝑖,2 ), (𝑠ℎ𝑜𝑡𝐼𝐷𝑛𝑆ℎ𝑜𝑡 , 𝑠𝑐𝑜𝑟𝑒𝑖,𝑛𝑆ℎ𝑜𝑡 )}, ∀ 𝑖 = 1,2, 𝑚 Đầu ra: • • Kết late fusion Rank list 𝑅𝐿𝐿𝑎𝑡𝑒𝐹𝑢𝑠𝑖𝑜𝑛 dựatrung bình cộng có trọng số giá trị score tất Rank list tập 𝑅𝐿 Kết nhận là: ∗ )} 𝑅𝐿𝐿𝑎𝑡𝑒𝐹𝑢𝑠𝑖𝑜𝑛 = {(𝑠ℎ𝑜𝑡𝐼𝐷1, 𝑠𝑐𝑜𝑟𝑒1∗ ), (𝑠ℎ𝑜𝑡𝐼𝐷2 , 𝑠𝑐𝑜𝑟𝑒2∗ ), (𝑠ℎ𝑜𝑡𝐼𝐷𝑛𝑆ℎ𝑜𝑡 , 𝑠𝑐𝑜𝑟𝑒𝑛𝑆ℎ𝑜𝑡 𝑓𝑢𝑠𝑖𝑜𝑛 với 𝑠𝑐𝑜𝑟𝑒𝑗 = 𝑚 𝑖=1 𝑤𝑖 𝑠𝑐𝑜𝑟𝑒𝑖,𝑗 , ∀ 𝑗 = 1,2, , 𝑛𝑆ℎ𝑜𝑡 𝑣à ≤ 𝑤𝑖 ≤ Trong luận án này, giá trị trọng số 𝑤𝑖 = 1/𝑚 Các tiếp cận kết hợp đặctrưng trễ sau huấn luyện khái niệm cách tiếp cận phổ biến toán phát kiện nói chung, tốn VSD nói riêng Bảng 4.1 Kết việc kết hợp cấu hình đặctrưng loại theo phương thức kết hợp trễ (late fusion) STT Tên kết hợp Số cấu hình MAP2014 Đặctrưng tốt MAP2014 Kết hợp tất đặctrưng toàn cục 20 34.44% LBP 31.18% Kết hợp tất đặctrưng cục 48 46.90% RGBSIFT 45.06% Kết hợp tất cấu hình đặctrưng âm 37.93% MFCC_FV 34.09% Kết hợp tất đặctrưng chuyển động 50.15% DenJ_FV_MBH 47.13% 49.21% ATT_VGGNet 48.12% Kết hợp tất đặctrưngdựa thuộc tính Kết hợp tất đặctrưng rút trích từ mơ hình mạng nơ-ron tích chập 26 50.81% CNN_VGG_Fc7 50.17% Kết hợp cấu hình tốt loại 14 53.50% Kết hợp tất cấu hình tất đặctrưng 106 49.57% Bảng 4.1 trình bày kết kết hợp đặctrưng phương thức kết hợp trễ Kết cho thấy việc kết hợp cấu hình đặctrưng loại giúp tăng độ xác hệ thống Tuy nhiên, kết hợp tất cấu hình đặctrưng từ nhiều loại đặctrưng khác nhau, thấy kết khơng tốt việc lựa chọn kết hợp cấu hình tốt 20 loại đặctrưng (14 cấu hình), điều chứng tỏ việc kết hợp nhiều loại đặctrưng khơng đảm bảo hiệu tăng, chi phí tính tốn chắn tăng đáng kể 4.3 Lựa chọn đặctrưng 4.3.1 Giới thiệu Trong phần tiến hành đánh giá lại loại đặctrưng đóng góp loại đặctrưng việc kết hợp Thay sử dụng lại tồn đặctrưng với cấu hình khác nhau, chúng tơi sử dụng cấu hình tốt loại đặctrưng so sánh với loại đặctrưng khác Chúng chọn cách tiếp cận loại bỏ đặctrưng kết hợp (Leave one feature out) để xác định mức độ đóng góp đặctrưng kết hợp Gọi ℱ = {𝑓1 , 𝑓2 , … , 𝑓𝑛 } tập hợp loại đặctrưng lựa chọn cấu hình tốt Chúng tơi đánh giá đóng góp loại 𝑓𝑖 ∈ ℱ toán VSD 𝑀0 = 𝑀𝐴𝑃(ℱ, 𝐷) (4.1) 𝑀0 độ xác trung bình việc kết hợp tất đặctrưng 𝑀𝑖 = 𝑀𝐴𝑃(ℱ\{𝑓𝑖 }, 𝐷), ≤ 𝑖 ≤ 𝑛 (4.2) 𝑀𝑖 độ xác trung bình việc kết hợp đặctrưng ngoại trừ đặctrưng thứ 𝑖 Đóng góp 𝑔 loại feature 𝑓𝑖 ∈ ℱ toán VSD với liệu D xác định theo công thức sau: 𝑔(𝑓𝑖 ) = 𝑀0 − 𝑀𝑖 , ≤ 𝑖 ≤ 𝑛 (4.3) Sau thuật tốn xác định đóng góp đặctrưng Thuật tốn 4.1: Lựa chọn đặctrưng đóng góp cho việc kết hợp (Leave one feature out) Đầu vào: • Danh sách đặctrưng ℱ = {𝑓1 , 𝑓2 , … , 𝑓𝑛 } Đầu ra: • Danh sách đặctrưng có đóng góp cho việc kết hợp ϕ ⊆ ℱ với 𝑓𝑖 ∈ ϕ, 𝑔(𝑓𝑖 ) < Thuật tốn: • Bước 1: Kết hợp tất đặc trưng, tính 𝑀0 theo (4.1) • Bước 2: Loop qua đặctrưng 𝑓𝑖 ∈ ℱ Tính 𝑀𝑖 theo cơng thức (4.2) If (𝑀𝑖 < 𝑀0) Then Đưa 𝑓𝑖 vào Danh sách chọn ϕ End If End Loop • Bước 3: Trả Danh sách chọn ϕ 4.3.2 Phân tích kết loại đặctrưng riêng 4.3.3 Đánh giá kết lựa chọn Chúng tơi sử dụng Thuật tốn 4.1 để tính mức độ đóng góp đặctrưng việc kết hợp Hình 4.1 thể mức độ đóng góp đặctrưng việc kết hợp Chúng ta thấy việc loại đặctrưng màu (CH, CM), đặctrưng EOH, CSIFT OPPSIFT giúp hệ thống tăng độ xác, đó, có kết thấp CSIFT OPPSIFT, loại đặctrưng MFCC hiệu hệ thống giảm, điều chứng tỏ kênh thơngtin âm hữu ích việc kết hợp với thơngtin khác tốn phátthơngtinbạolực Ngồi ra, thấy, khơng có kết caođặctrưng 21 đặctrưng chuyển động video (Motion) lại có đóng góp tốt kết hợp đặctrưng (nếu bỏ Motion kết giảm đáng kể) 0.015 0.01 0.005 -0.005 -0.01 -0.015 -0.02 MAP2014 MAP-AT2014 Hình 4.1 Kết việc loại đặc trưng, xếp giảm dần theo MAP2014 Trong hai độ đo, giá trị cao loại đặctrưng chứng tỏ đóng góp việc kết hợp đặctrưng 4.4 Tối ưu tài ngun tính tốn 4.4.1 Giới thiệu Việc sử dụng nhiều đặctrưng chưa mang lại độ xác cao cho hệ thống, cần nhiều tài ngun tính tốn Việc lựa chọn đặctrưng phù hợp phụ thuộc vào đặc điểm liệu cách kết hợp đặctrưngTrong phần tiến tìm giải pháp tối ưu cho việc cân tài ngun tính tốn (số lượng core CPU GPU) độ xác hệ thống Chúng tơi sử dụng thuật tốn Brute Force Search để tìm kiếm kết hợp đặctrưng tối ưu cho cấu hình tính tốn tương ứng Chi tiết đặc tả sau: Vấn đề 4.2: Tìm đặctrưng tối ưu theo cấu hình Đầu vào: • Gọi = {𝑓1 , 𝑓2 , … , 𝑓𝑛 } tập hợp loại đặctrưng có đóng góp cho việc kết hợp đặctrưng lựa chọn phần (0) • Gọi Γ = {𝜒1 , 𝜒2 , … , 𝜒𝑚 } tập số lượng CPU sử dụng, 𝜒𝑗 ∈ Z + , ≤ 𝑗 ≤𝑚 • 𝑪𝒐𝒔𝒕(𝒇𝒊 ) chi phí (core hour) để tính tốn (chỉ sử dụng CPU) loại đặctrưng 𝑓𝑖 ∈ , ≤ 𝑖 ≤ n, chi phí tính thực nghiệm • 𝑪𝒐𝒔𝒕𝑮𝑷𝑼 (𝒇𝒊 ) chi phí (core hour) để tính tốn (có sử dụng GPU) loại đặctrưng 𝑓𝑖 ∈ , ≤ 𝑖 ≤ n, chi phí tính thực nghiệm • Gọi 𝛟 tổ hợp đặc trưng, ϕ ∈ 𝐶𝑜𝑠𝑡(ϕ) = ∑ 𝐶𝑜𝑠𝑡(𝑓𝑖 ) (4.4) 𝑓𝑖 ∈ϕ 𝐶𝑜𝑠𝑡𝐺𝑃𝑈 (ϕ) = ∑ 𝐶𝑜𝑠𝑡𝐺𝑃𝑈 (𝑓𝑖 ) Đầu ra: • Mục tiêu trị MAP tốt trưng tương tối ưu Với cấu (4.5) 𝑓𝑖 ∈ϕ cần xác định với cấu hình sử dụng 𝜒𝑗 CPU (𝜒𝑗 ∈ Γ), giá đạt 𝑴𝒂𝒙_𝑴𝑨𝑷_𝑪𝑷𝑼(𝝌𝒋 ) tổ hợp đặc ứng 𝑺𝒆𝒍𝒆𝒄𝒕𝒆𝒅_𝑺𝑬𝑻_𝑪𝑷𝑼(𝝌𝒋 ) dùng để đạt giá trị MAP hình sử dụng 𝜒𝑗 CPU (𝜒𝑗 ∈ Γ): 22 𝑴𝒂𝒙_𝑴𝑨𝑷_𝑪𝑷𝑼(𝝌𝒋 ) = 𝑚𝑎𝑥{𝑀𝐴𝑃(ϕ, 𝐷), ∀ ϕ ⊆ Φ ∧ Cost(ϕ) ≤ 𝜒𝑗 } • Chúng xét tập khác rỗng ϕ ⊆ Φ với điều kiện tổng chi phí để tính tốn đặctrưng 𝑓𝑖 ∈ ϕ không vượt số lượng CPU có (𝜒𝑗 ) Tập loại đặctrưng tương ứng xác định: 𝑺𝒆𝒍𝒆𝒄𝒕𝒆𝒅_𝑺𝑬𝑻_𝑪𝑷𝑼(𝝌𝒋 ) = 𝑎𝑟𝑔𝑚𝑎𝑥ϕ ⊆ Φ {𝑀𝐴𝑃(ϕ, D), với Cost(ϕ) ≤ 𝜒𝑗 • (4.6) (4.7) Tương tự, xác định với cấu hình sử dụng 𝜒𝑗 CPU (𝜒𝑗 ∈ Γ) có kèm theo Card GPU, giá trị 𝑀𝐴𝑃 tốt đạt 𝑴𝒂𝒙_𝑴𝑨𝑷_𝒘𝑮𝑷𝑼(𝝌𝒋 ) tập loại đặctrưng tương ứng 𝑺𝒆𝒍𝒆𝒄𝒕𝒆𝒅_𝑺𝑬𝑻_𝒘𝑮𝑷𝑼(𝝌𝒋 ) dùng để đạt giá trị 𝑀𝐴𝑃 tối ưu 𝑴𝒂𝒙_𝑴𝑨𝑷_𝒘𝑮𝑷𝑼(𝝌𝒋 ) = 𝑚𝑎𝑥{𝑀𝐴𝑃(ϕ, 𝐷), ∀ ϕ ⊆ Φ ∧ Cost 𝐺𝑃𝑈 (ϕ) ≤ 𝜒𝑗 } (4.8) 𝑺𝒆𝒍𝒆𝒄𝒕𝒆𝒅_𝑺𝑬𝑻_𝒘𝑮𝑷𝑼(𝝌𝒋 ) = 𝑎𝑟𝑔𝑚𝑎𝑥ϕ ⊆ Φ {𝑀𝐴𝑃(ϕ, D), với Cost 𝐺𝑃𝑈 (ϕ) ≤ 𝜒𝑗 (4.9) Chúng trình bày chi tiết thuật tốn tìm kết hợp tối ưu theo cấu hình Thuật tốn 4.2 Thuật tốn 4.2: Tìm đặctrưng tối ưu theo cấu hình Đầu vào: • Danh sách đặctrưng = {𝑓1 , 𝑓2 , … , 𝑓𝑛 } • Bộ cấu hình tài nguyên CPU, GPU Γ = {𝜒1 , 𝜒2 , … , 𝜒𝑚 } • Chi phí tính tốn đặctrưng 𝐶𝑜𝑠𝑡() = {𝐶𝑜𝑠𝑡(𝑓1 ), 𝐶𝑜𝑠𝑡(𝑓2 ), … , 𝐶𝑜𝑠𝑡(𝑓𝑛 )} Đầu ra: • Bộ kết hợp đặctrưng tối ưu 𝑺𝒆𝒍𝒆𝒄𝒕𝒆𝒅_𝑺𝑬𝑻_𝑪𝑷𝑼(𝝌𝒋 ) • 𝑀𝐴𝑃 cấu hình 𝑴𝒂𝒙_𝑴𝑨𝑷_𝑪𝑷𝑼(𝝌𝒋 ) Thuật tốn: • Bước 1: Tạo tổ hợp tất kết hợp đặctrưng ϕ ⊆ • Bước 2: Loop duyệt qua đặctrưng ϕ𝑘 ⊆ Bước 2.1: Tính 𝑀𝐴𝑃(ϕ𝑘 , 𝐷) theo (1.6) Bước 2.2: Tính tổng chi phí 𝐶𝑜𝑠𝑡(ϕ𝑘 ) theo (4.4) Bước 2.3: Loop duyệt qua cấu hình 𝜒𝑚 ⊆ Γ If (𝐶𝑜𝑠𝑡(ϕ𝑘 ) ≤ 𝜒𝑚 ) Then 𝐴[𝑘][𝑚] = Else 𝐴[𝑘][𝑚] = End If End Loop End Loop • Bước 3: Loop duyệt qua cấu hình 𝜒𝑚 • Bước 3.1: 𝑀𝑎𝑥_𝑀𝐴𝑃_𝐶𝑃𝑈(𝜒𝑚 ) = • Bước 3.2: 𝑆𝑒𝑙𝑒𝑐𝑡𝑒𝑑_𝑆𝐸𝑇_𝐶𝑃𝑈(𝜒𝑚 ) = ∅ • Bước 3.3: Loop duyệt qua đặctrưng ϕ ⊆ • If 𝐴[𝑘][𝑚] = 𝑎𝑛𝑑 𝑀𝐴𝑃(ϕ𝑘 , 𝐷) > 𝑀𝑎𝑥_𝑀𝐴𝑃_𝐶𝑃𝑈(𝜒𝑚 ) Then • 𝑀𝑎𝑥_𝑀𝐴𝑃_𝐶𝑃𝑈(𝜒𝑚 ) = 𝑀𝐴𝑃(ϕ𝑘 , 𝐷) • 𝑆𝑒𝑙𝑒𝑐𝑡𝑒𝑑_𝑆𝐸𝑇_𝐶𝑃𝑈(𝜒𝑚 ) = ϕ𝑘 • End If • End Loop • End Loop 23 4.4.2 Mơi trường tính tốn 4.4.3 Chi phí rút trích đặctrưng Bằng cách đánh giá thời gian xử lý rút trích đặctrưngvideo quy đổi thành số lượng CPU cần để rút trích đặctrưng cho video xử lý (song song hóa xử lý hệ thốngtính tốn lưới nhiều CPU) Hình 4.2 trình bày thời gian rút trích videođặctrưng Thời gian rút trích đặctrưng (đơn vị tính giờ) UvANet(UvA) 1.42 VGGNet(VGG) 1.21 24.45 20.44 Motion 9.3 0.12 AlexNet(Alex) Attribute 8.14 2.1 RGBSIFT 1.49 LBP 0.31 MFCC 0.11 10 15 GPU 20 25 30 CPU Hình 4.2 Chi phí rút trích đặctrưng (thời gian để rút trích video), đặctrưng học sâu rút trích CPU GPU 4.4.4 Đánh giá kết Hình 4.3 thể kết hiệu tối ưu hệ thống với số lượng core CPU tương ứng, thấy hiệu hệ thống tỷ lệ thuận với số lượng core sử dụng Bảng 4.2 Tổ hợp tối ưu đặctrưng theo số lượng core (CPU) sử dụng (để xử lý video giờ) Số Core CPU 16 32 64 Tổ hợp đặctrưng tối ưu cho việc xử lý video (không dùng GPU) MAP2014 MAP2014-AT100 MFCC+LBP MFCC+LBP MFCC+LBP+RGBSIFT MFCC+LBP+RGBSIFT MFCC+LBP+RGBSIFT+Attribute MFCC+LBP+RGBSIFT MFCC+LBP+RGBSIFT+Motion MFCC+LBP+RGBSIFT+Motion MFCC+RGBSIFT+Motion+Alex MFCC+RGBSIFT+Motion+Alex MFCC+RGBSIFT+Motion+Alex+VGG+UvA MFCC+RGBSIFT+Motion+VGG Bảng 4.2 thể tổ hợp tối ưu đặctrưng (đem lại độ xác cao cho hệ thống) sử dụng với số lượng core tương ứng Kết việc khảo sát chứng tỏ việc kết hợp nhiều loại đặctrưng nhiều kênh thơngtin khác cách có chọn lọc đem lại hiệu cao giúp tiết kiệm tài ngun tính tốn đáng kể 24 0.75 0.7 0.65 0.6 0.55 0.5 0.45 0.4 0.35 0.3 16 32 64 Số lượng c r dùng để rút trích đặctrưng (khơng dùng GPU) MAP2014 MAP2014-AT100 Hình 4.3 Kết tối ưu hệ thốngdựa vào số lượng core có (tất dùng CPU, khơng sử dụng GPU) 4.5 So sánh kết nhóm nghiên cứu Để đánh giá hiệu đề xuất, tham gia MediaEval VSD Task hàng năm (từ 2012) gửi kết so sánh với nhóm tham gia nghiên cứu giải tốn phátthơngtinbạolực Kết nhóm nằm top MediaEval VSD năm Trong Bảng 4.3, với độ đo MAP2014, chúng tơi (nhóm NII-UIT) sử dụng cấu hình gồm đặctrưng tốt thời điểm năm 2014 (SIFT + CSIFT + OPPSIFT + RGBSIFT + MFCC + MOTION), kết xếp sau nhóm FUDAN [19] Kết tốt nhóm FUDAN có độ xác trung bình 63%, kết sử dung kỹ thuật hậu xử lý làm trơn danh sách trả về, sử dụng đặctrưng không qua hậu xử lý, kết nhóm FUDAN 51.36% (sử dụng đặctrưng chuyển động, đặctrưng âm đặctrưng học sâu) Bảng 4.3 Kết so sánh nhóm tham gia MediaEval VSD 2014 [24] Để tăng độ xác danh sách kết trả về, sử dụng kỹ thuật làm trơn danh sách kết dựa vào đặctrưng cảnh bạolực thường diễn nhiều cảnh liên tiếp[18] Việc sử dụng kỹ thuật làm trơn giúp tăng trung bình khoảng 15% độ đo MAP2014 12% độ đo MAP-AT100 Đây mức tăng đáng kể tốn tìm kiếm thơngtin Thuật tốn 4.3: Hậu xử lý làm trơn kết (Score smoothing) Đầu vào: • Ranklist kết đặctrưng tổ hợp đặc trưng: 𝑅𝐿(𝑓𝑖 ) = {(𝑠ℎ𝑜𝑡𝐼𝐷1, 𝑠𝑐𝑜𝑟𝑒𝑖,1 ), (𝑠ℎ𝑜𝑡𝐼𝐷2, 𝑠𝑐𝑜𝑟𝑒𝑖,2 ), (𝑠ℎ𝑜𝑡𝐼𝐷𝑛𝑆ℎ𝑜𝑡 , 𝑠𝑐𝑜𝑟𝑒𝑖,𝑛𝑆ℎ𝑜𝑡 )} • Số lượng 𝑛𝑊𝑖𝑛𝑑𝑜𝑤 phân đoạn cửa sổ làm trơn Đầu ra: 25 • Ranklist làm trơn 𝑠𝑚 𝑠𝑚 𝑠𝑚 ), (𝑠ℎ𝑜𝑡𝐼𝐷2 , , 𝑠𝑐𝑜𝑟𝑒𝑖,2 ), (𝑠ℎ𝑜𝑡𝐼𝐷𝑛𝑆ℎ𝑜𝑡 , 𝑠𝑐𝑜𝑟𝑒𝑖,𝑛𝑆ℎ𝑜𝑡 )} 𝑅𝐿𝑠𝑚 (𝑓𝑖 ) = {(𝑠ℎ𝑜𝑡𝐼𝐷1 , 𝑠𝑐𝑜𝑟𝑒𝑖,1 Thuật tốn: • Bước 1: For 𝑘 = to 𝑛𝑆ℎ𝑜𝑡 𝑠𝑚 𝑠𝑐𝑜𝑟𝑒𝑖,𝑘 = (𝑛−1) (𝑛−1) 𝑡=𝑘− 𝑘+ 𝑠𝑐𝑜𝑟𝑒𝑖,𝑡 End For 4.6 Phân tích đánh giá 4.7 Kết luận Trong chương tiến hành đánh giá phương pháp kết hợp cho toán phátthơngtinbạo lực, từ đề xuất cách kết hợp tối ưu lựa chọn đặctrưng phù hợp để biểu diễn khái niệm bạolực Kết cơng bố cơng trình [CT2] Để đánh giá mức độ hiểu việc lựa chọn kết hợp đặc trưng, tham gia vào thi MediaEval VSD hàng năm, kết ln nằm top đầu tốn VSD Kết tham gia MediaEval VSD năm công bố cơng trình [CT5][CT6][CT7] Chương KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 5.1 Những kết đạt Để giải tốn phátthơngtinbạolực video,chúng tơi tiến hành nghiên cứu tồn diện vấn đề liên quan, bao gồm: định nghĩa toán, xây dựng liệu chuẩn tham gia cộng đồng nghiên cứu toán này, xây dựng hệ thống thử nghiệm có khả xử lý thử nghiệm nhiều loại đặctrưng khác nhau, thử nghiệm đánh giá hiệu suất hệ thống cách tham gia hội thảo để so sánh kết với nhiều nhóm nghiên cứu tiếng khác giới Các kết tóm tắt sau: • Đánh giá đặctrưng thiết kế sẵn đặctrưng tự học tiên tiến, đóng vai trò quan trọng việc lựa chọn kết hợp đađặctrưng biểu diễn khái niệm bạolực • Thiết kế đặctrưng cấp caodựa thuộc tính liên quan đến khái niệm bạolực • Đề xuất cách tiếp cận lựa chọn đặctrưng phù hợp cách kết hợp đađặctrưng cách hiệu điều kiện hạn chế tài ngun tính tốn • Tham gia xây dựng cơng bố liệu cho tốn MediaEval VSD Kết hoạt động nghiên cứu cơng bố tạp chí chun ngành [CT1] hội thảo quốc tế phản biện độc lập [CT2,3,4,5,6,7,8,9] 5.2 Hướng phát triển • • • Mở rộng toán sang liệu video clips người dùng tự quay, loại liệu game video giới thiệu sản phẩm cho trẻ em Mở rộng sang tốn liên quan (phát cảm xúc, tính hấp dẫn) Triển khai ứng dụng dạng dịch vụ kiểm tra thơngtinbạolực DANH MỤC CƠNG TRÌNH CƠNG TRÌNH CHÍNH: [CT1] Lam, Vu, Phan, S., Le, D D., Duong, D A., & Satoh, S (2016) Evaluation of multiple features for violent scenes detection Multimedia Tools and Applications, 1–25 (SCIEIF 1.331) http://doi.org/10.1007/s11042-016-3331-4 [CT2] Lam, Vu, S P Le, T Do, T D Ngo, D D Le and D A Duong (2016) "Computational optimization for violent scenes detection," 2016 International Conference on Computer, Control, Informatics and its Applications (IC3INA), Tangerang, pp 141-146 doi: 10.1109/IC3INA.2016.7863039 [CT3] Lam, Vu, Le, D.-D., Le, S P., Satoh, S., Duong, D A., & Ngo, T D (2013) 26 Evaluation of low-level features for detecting violent scenes in videos In 2013 International Conference on Soft Computing and Pattern Recognition, SoCPaR 2013, Hanoi, Vietnam, pp 213–218 [CT4] Lam, Vu, Phan, S., Ngo, D T., Le, D.-D., Duong, D A., & Satoh, S (2013) Violent Scenes Detection Using Mid-Level Feature In The Fourth Symposium on Information and Communication Technology (SoICT) Da Nang, Vietnam, pp 198–205 CƠNG TRÌNH LIÊN QUAN: [CT5] Lam, Vu, Sang Phan Le, Duy-Dinh Le, Shin'ichi Satoh, and Duc Anh Duong (2015) " NII-UIT at MediaEval 2015 Affective Impact of Movies Task." In Working Notes Proceedings of the MediaEval 2015 Workshop, Wurzen, Germany [CT6] Lam, Vu, Duy-Dinh Le, Sang Phan Le, Shin'ichi Satoh, and Duc Anh Duong (2014) " NII-UIT at MediaEval 2014 Violent Scenes Detection Affect Task." In Working Notes Proceedings of the MediaEval 2014 Workshop, Barcelona, Catalunya, Spain [CT7] Lam, Vu, Duy-Dinh Le, Sang Phan Le, Shin'ichi Satoh, and Duc Anh Duong (2013) " NII-UIT at MediaEval 2013 Violent Scenes Detection Affect Task." In Proceedings of the MediaEval 2013 Multimedia Benchmark Workshop, Barcelona, Spain [CT8] Schedl, M., Sjöberg, M., Mironica, I., Ionescu, B., Quang, V L., Jiang, Y.-G., & Demarty, C.-H (2015) VSD2014: A dataset for violent scenes detection in hollywood movies and web videos In 13th International Workshop on Content-Based Multimedia Indexing, (CBMI) Prague, Czech Republic, pp 1–6 [CT9] Demarty, C H., Ionescu, B., Jiang, Y G., Quang, V L., Schedl, M., & Penet, C (2014, June) Benchmarking violent scenes detection in movies In 2014 12th International Workshop on Content-Based Multimedia Indexing (CBMI) (pp 1-6) IEEE 27 ... phát gán nhãn phân đoạn bạo lực phim, video clip • Đối tượng nghiên cứu: Đối tượng nghiên cứu luận án cảnh chứa thông tin bạo lực phương pháp phát thông tin bạo lực liệu video Thông tin bạo lực. .. phát triển ứng dụng phát thông tin bạo lực, kiểm duyệt phim, xếp hạng phim theo mức độ bạo lực cách tự động (rating), kiểm duyệt thông tin bạo lực kênh truyền thông đa phương tiện Internet http://www.who.int/violenceprevention/approach/definition/en/... cách ngữ nghĩa tính chủ quan khái niệm Q trình thiết kế đánh giá đặc trưng cấp cao dựa thuộc tính cơng bố [CT4] trình bày Chương luận án Với tính ngữ nghĩa cao đa dạng mặt thể khái niệm bạo lực,