Phát hiện thông tin bạo lực trong video dựa trên đa đặc trưng mang tính ngữ nghĩa cao TT

• Mục đích nghiên cứu: Nghiên cứu và phát triển các phương pháp khai thác và biểu diễn thông tin bạo lực bằng các mô hình đặc trưng trên máy tính, phục vụ cho việc đánh giá mức độ bạo l

Trang 1

ĐẠI HỌC QUỐC GIA TP.HCM

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

Trang 2

Công trình được hoàn thành tại: Khoa Công Nghệ Thông Tin, Trường Đại Học Khoa Học Tự Nhiên, ĐHQG Thành Phố Hồ Chí Minh

Người hướng dẫn khoa học:

vào hồi giờ ngày tháng năm

Có thể tìm hiểu luận án tại thư viện:

1 Thư viện Tổng hợp Quốc gia Tp.HCM

2 Thư viện trường Đại học Khoa học Tự Nhiên-HCM

Trang 3

MỤC LỤC

PHẦN MỞ ĐẦU 1

1) Giới thiệu động lực nghiên cứu và định hướng nghiên cứu 1

2) Mục đích, đối tượng và phạm vi nghiên cứu của luận án 1

3) Ý nghĩa khoa học và thực tiễn của luận án 1

4) Các đóng góp chính của luận án 2

5) Bố cục luận án 2

Chương 1 TỔNG QUAN 3

1.1 Giới thiệu bài toán 3

1.2 Các thách thức 4

1.3 Tổng quan các hướng tiếp cận và các công trình liên quan 4

1.3.1 Các hướng tiếp cận chung cho bài toán phát hiện sự kiện 4

1.3.2 Các hướng tiếp cận đa đặc trưng cho bài bài toán VSD 4

1.3.3 Các hướng tiếp cận sử dụng đặc trưng cấp cao 5

1.3.4 Các hướng tiếp cận kết hợp đặc trưng 5

1.4 Giới thiệu hướng tiếp cận của luận án 5

1.4.1 Giới thiệu kiến trúc tổng quan 5

1.4.2 Bước 1 - Tiền xử lý dữ liệu 5

1.4.3 Bước 2 – Biểu diễn đặc trưng 6

1.4.4 Bước 3 - Huấn luyện mô hình/ đánh giá 7

1.4.5 Bước 4 - Kết hợp kết quả 7

1.4.6 Song song hóa việc rút trích đặc trưng 7

1.5 Đánh giá độ phức tạp của kiến trúc hệ thống 7

1.6 Bộ dữ liệu MediaEval 8

1.6.1 Giới thiệu MediaEval 8

1.6.2 Giới thiệu bộ dữ liệu MediaEval-VSD 8

1.6.3 Thông tin bộ dữ liệu 8

1.6.4 Các khái niệm được gán nhãn trong bộ dữ liệu 8

1.6.5 Nguyên tắc và quy trình xây dựng bộ dữ liệu 8

1.6.6 Các độ đo 8

1.6.7 Các đóng góp trong việc xây dựng bộ dữ liệu 9

1.7 Kết luận 9

Chương 2 ĐẶC TRƯNG CẤP THẤP VÀ ĐẶC TRƯNG TỰ HỌC CHO BÀI TOÁN VSD 9 2.1 Giới thiệu 9

2.2 Đặc trưng cấp thấp 10

2.2.1 Các đặc trưng trên khung ảnh 10

2.2.2 Đặc trưng chuyển động 11

2.2.3 Đặc trưng âm thanh 12

2.3 Đặc trưng tự học được rút trích từ mô hình mạng nơ-ron tích chập 12

2.3.1 Giới thiệu 12

2.3.2 Giới thiệu mạng nơ-ron tích chập (CNN) 12

2.3.3 Một số vấn đề của mạng nơ-ron tích chập 12

2.3.4 Áp dụng đặc trưng được rút trích từ mô hình mạng nơ-ron tích chập cho bài toán VSD 13 2.4 Dữ liệu thử nghiệm 13

2.5 Phân tích kết quả 13

2.5.1 Đặc trưng toàn cục 13

Trang 4

ii

2.5.2 Đặc trưng cục bộ 14

2.5.3 Đặc trưng chuyển động 14

2.5.4 Đặc trưng âm thanh 14

2.5.5 So sánh cách biểu diễn đặc trưng BoW và Fisher Vector 14

2.5.6 Đặc trưng của mô hình AlexNet 14

2.5.7 Đặc trưng của mô hình VGGNet 14

2.5.8 Đặc trưng của mô hình UvANet 15

2.5.9 So sánh với các đặc trưng được thiết kế sẵn (hand-crafted) 15

2.6 Phân tích trực quan 15

2.7 Kết luận 15

Chương 3 ĐẶC TRƯNG CẤP CAO CHO BÀI TOÁN VSD 16

3.1 Giới thiệu 16

3.2 Đặc trưng cấp cao sử dụng thuộc tính liên quan đến bạo lực 17

3.2.1 Giới thiệu các thuộc tính 17

3.2.2 Biểu diễn cảnh bạo lực bằng thuộc tính 17

3.2.3 Thử nghiệm và đánh giá kết quả 18

3.3 So sánh giữa các đặc trưng dựa trên thuộc tính 18

3.4 Tính ngữ nghĩa của kết quả 18

3.5 Kết luận 19

Chương 4 KẾT HỢP ĐẶC TRƯNG VÀ TỐI ƯU TÀI NGUYÊN TÍNH TOÁN CHO VSD 19 4.1 Giới thiệu 19

4.2 Kết hợp đặc trưng 20

4.2.1 Kết hợp đặc trưng trước khi huấn luyện (early fusion) 20

4.2.2 Kết hợp kết quả phân loại của các đặc trưng sau khi huấn luyện (late fusion) 20 4.3 Lựa chọn đặc trưng 21

4.3.2 Phân tích kết quả từng loại đặc trưng riêng 21

4.3.3 Đánh giá kết quả lựa chọn 21

4.4 Tối ưu tài nguyên tính toán 22

4.4.2 Môi trường tính toán 24

4.4.3 Chi phí rút trích đặc trưng 24

4.4.4 Đánh giá kết quả 24

4.5 So sánh kết quả giữa các nhóm nghiên cứu 25

4.6 Phân tích đánh giá 26

4.7 Kết luận 26

Chương 5 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 26

5.1 Những kết quả đạt được 26

5.2 Hướng phát triển 26

DANH MỤC CÔNG TRÌNH 26

Trang 5

PHẦN MỞ ĐẦU

1) Giới thiệu động lực nghiên cứu và định hướng nghiên cứu

Trong những năm qua, với sự bùng nổ của các kênh thông tin truyền thông đa phương tiện, mỗi ngày có hàng ngàn, hàng triệu video được chia sẻ qua mạng Bên cạnh những thông tin giải trí, các kiến thức bổ ích, các kênh thông tin truyền thông đa phương tiện còn có rất nhiều nội dung ảnh hưởng tiêu cực đến giới trẻ cần kiểm soát chặt chẽ (phim khiêu dâm, các nội dung bạo lực…), đặc biệt khi đối tượng xem là thanh thiếu niên và trẻ nhỏ Tác động của những nội dung, thông tin không tốt có ảnh hưởng tiêu cực đến hành vi của giới trẻ Trong khuôn khổ của luận án này, chúng tôi hướng tới việc giải quyết bài toán phát hiện thông tin bạo lực trong dữ liệu video (VSD – Violent Scenes Detection [21])

2) Mục đích, đối tượng và phạm vi nghiên cứu của luận án

Đầu vào của một hệ thống phát hiện thông tin bạo lực là một (hoặc nhiều) bộ phim, video clip Hệ thống sẽ tự động phát hiện và gán nhãn các phân đoạn bạo lực trong phim, video clip

• Đối tượng nghiên cứu:

Đối tượng nghiên cứu trong luận án này là các cảnh chứa thông tin bạo lực và các phương pháp phát hiện thông tin bạo lực trong dữ liệu video Thông tin bạo lực bao gồm các đối tượng, cảnh, hành động, hành vi bạo lực gây ra sự tổn thương cho con người Cảnh bạo lực được định nghĩa theo WHO1 trong bộ dữ liệu [24]:

o Cảnh chứa các thông tin bạo lực không nên cho trẻ dưới 8 tuổi xem

o Thông tin bạo lực: các đối tượng, cảnh, hành động, sự kiện đe dọa hoặc làm tổn thương đến con người

• Mục đích nghiên cứu:

Nghiên cứu và phát triển các phương pháp khai thác và biểu diễn thông tin bạo lực bằng các mô hình đặc trưng trên máy tính, phục vụ cho việc đánh giá mức độ bạo lực của các cảnh trong video với độ chính xác cao

• Phạm vi nghiên cứu:

o Sử dụng định nghĩa cảnh bạo lực, thông tin bạo lực trong video theo WHO

o Phương pháp rút trích và biểu diễn đa đặc trưng thông tin bạo lực

o Đánh giá trên bộ dữ liệu chuẩn được cung cấp bởi MediaEval, bao gồm các phim Hollywood [76], với đầu vào là các bộ phim và đầu ra là các cảnh được đánh giá mức độ bạo lực

3) Ý nghĩa khoa học và thực tiễn của luận án

Về mặt khoa học, luận án tập trung đánh giá các mô hình đặc trưng trên nhiều kênh thông tin (kênh thông tin thị giác khai thác trên từng khung ảnh hoặc chuỗi khung ảnh - video, kênh âm thanh) để biểu diễn cảnh bạo lực Từ đó, xác định các loại đặc trưng phù hợp và đề xuất phương pháp kết hợp các đặc trưng cho bài toán phát hiện thông tin bạo lực Kết quả của nghiên cứu này giúp các nhóm nghiên cứu có cơ sở lựa chọn các đặc trưng phù hợp theo yêu cầu, làm nền tảng cho việc cải tiến độ chính xác, chi phí tính toán trong các nghiên cứu về sau, tiết kiệm thời gian thử nghiệm lại từng loại đặc trưng

Về mặt thực tiễn, mô hình hệ thống và các đánh giá thực nghiệm là nền tảng để phát triển các ứng dụng phát hiện thông tin bạo lực, kiểm duyệt phim, xếp hạng các bộ phim theo mức độ bạo lực một cách tự động (rating), kiểm duyệt thông tin bạo lực trên các kênh truyền thông đa phương tiện trên Internet

1 http://www.who.int/violenceprevention/approach/definition/en/

Trang 6

2

4) Các đóng góp chính của luận án

Bài toán phát hiện cảnh bạo lưc trong video (VSD - Violent Scene Detection) là một dạng bài toán phát hiện sự kiện (MED - Multimedia Event Detection), trong đó thách thức lớn nhất của dạng bài toán này là tính ngữ nghĩa và độ phức tạp cao thể hiện qua sự xuất hiện của các đối tượng, người, cảnh vật và tương tác giữa chúng Để giải quyết các vấn đề này, hướng tiếp cận kết hợp đa đặc trưng đã được chứng minh là phổ biến và hiệu quả cho bài toán MED Do đó, đây cũng là hướng tiếp cận được dùng để giải quyết bài toán VSD trong luận án này

Thách thức chính đối với hướng tiếp cận đa đặc trưng đó là số lượng đặc trưng nhiều, độ phức tạp tính toán và hiệu quả của mỗi đặc trưng khác nhau Do đó, mục tiêu của luận án là tìm một tập đặc trưng vừa đủ (compact) sao cho độ chính xác của hệ thống cao trong khi chi phí tính toán thấp Để hiện thực mục tiêu này, một framework đã được thiết kế để cho phép đánh giá nhiều loại đặc trưng từ nhiều modal khác nhau (như ảnh, video, âm thanh), và một thuật toán đơn giản nhưng hiệu quả đã được đề xuất để kết hợp các loại đặc trưng sao cho thỏa mãn ràng buộc cân bằng giữa độ chính xác và chi phí tính toán Hệ thống đề xuất đã được đánh giá trên tập dữ liệu chuẩn (public benchmark) cho bài toán này, và cho kết quả tốt nhất so với các phương pháp kết hợp đa đặc trưng khác Đây là đóng góp quan trọng nhất của luận án và đã được công bố trên tạp chí MTA [CT1] và hội nghị SoCPaR [CT3]

Bên cạnh việc phân loại cảnh bạo lực, luận án cũng đề xuất cách biểu diễn cảnh bạo lực

sử dụng đặc trưng cấp cao dựa trên các thuộc tính liên quan đến bạo lực Việc sử dụng các đặc trưng cấp thấp chỉ giúp phân loại khái niệm mà chưa thể giải quyết các bài toán có mức độ ngữ nghĩa cao như VSD Khác với các hướng tiếp cận sử dụng đặc trưng cấp cao thường được sử dụng trong việc phân loại khái niệm, luận án đề xuất thiết kế đặc trưng cấp cao giúp bổ sung minh chứng liên quan đến cảnh bạo lực (ví dụ: cảnh bạo lực có đánh nhau, có máu và người bị thương hay cảnh cháy nổ có thương vong) giúp giảm khoảng cách ngữ nghĩa và tính chủ quan của khái niệm Quá trình thiết kế và đánh giá đặc trưng cấp cao dựa trên thuộc tính được công bố trong [CT4] và được trình bày trong Chương 3 của luận án

Với tính ngữ nghĩa cao và sự đa dạng về mặt thể hiện của khái niệm bạo lực, để khai thác toàn diện thông tin liên quan đến cảnh bạo lực trong biểu diễn và nhận dạng, chúng tôi đề xuất

mô hình kết hợp đa đặc trưng dựa trên sự chọn lọc các đặc trưng phù hợp và có tính bổ trợ cao Tuy nhiên, với khối lượng thông tin lớn trong video, việc kết hợp nhiều đặc trưng sẽ dẫn tới thách thức về tài nguyên tính toán Để hạn chế thách thức này, chúng tôi đề xuất các mô hình kết hợp

đa đặc trưng tối ưu theo tài nguyên, hướng đến việc triển khai một ứng dụng thực tiễn trong tương lai Kết quả được công bố trong [CT2] và được trình bày trong Chương 4 của luận án

Trong quá trình nghiên cứu, chúng tôi cũng tham gia xây dựng các bộ dữ liệu và phương

pháp đánh giá chuẩn trong MediaEval Benchmarking VSD Error! Reference source not f ound.[CT9], đồng thời cũng phát triển hệ thống và gửi kết quả đánh giá trong hội thảo MediaEval

VSD hàng năm [CT5][CT7][CT6] Quá trình tham gia xây dựng bộ dữ liệu được trình bày chi tiết trong Chương 1 của luận án Dựa trên các kết quả nghiên cứu, chúng tôi đã xây dựng hệ thống

hỗ trợ phát hiện thông tin bạo lực (lọt vào chung kết cuộc thi Nhân Tài đất Việt 2014) và đã đăng

ký giải pháp hữu ích để bảo hộ cho hệ thống được đề xuất tại Việt Nam

• CHƯƠNG 3: ĐẶC TRƯNG CẤP CAO CHO BÀI TOÁN VSD

• CHƯƠNG 4: KẾT HỢP ĐA ĐẶC TRƯNG VÀ TỐI ƯU TÀI NGUYÊN TÍNH TOÁN

• CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

Trang 7

dữ liệu chuẩn cho bài toán phát hiện thông tin bạo lực Error! Reference source not found.[CT9]

1.1 Giới thiệu bài toán

Bài toán VSD được giải quyết dưới dạng bài toán học có giám sát (supervised learning methods) tổ chức qua hai giai đoạn ngoại tuyến (huấn luyện mô hình) và giai đoạn trực tuyến (đánh giá kết quả) Hệ thống VSD với hai giai đoạn được minh họa trong Hình 1.1:

Hình 1.1 Hai giai đoạn trong hệ thống hỗ trợ phát hiện thông tin bạo lực

Hệ thống VSD được tổ chức thành hai giai đoạn như mô tả trong Hình 1.1 Ở giai đoạn đầu (thực hiện ngoại tuyến - offline), dựa vào các dữ liệu huấn luyện được gán sẵn các nhãn bạo lực,

hệ thống tiến hành rút trích và biểu diễn các đặc trưng trên máy tính từ dữ liệu video đầu vào, sau

đó sẽ sử dụng các phương pháp học giám sát để huấn luyện mô hình máy học có khả năng đánh giá, phân loại khái niệm bạo lực Ở giai đoạn tiếp theo (thực hiện trực tuyến - online), hệ thống

sẽ sử dụng các mô hình huấn luyện ở bước đầu để tiến hành đánh giá các dữ liệu cần kiểm tra Trong phạm vi của luận án, chúng tôi sẽ tập trung chính vào bước rút trích và biểu diễn đặc trưng trên máy tính cho khái niệm bạo lực

Trong phạm vi luận án, bài toán VSD được đặc tả cụ thể như sau:

Vấn đề 1.1: Bài toán phát hiện thông tin bạo lực tổng quát

• ℎ là hàm rút trích biểu diễn đặc trưng :

ℎ: ℕ 𝐻×𝑊×𝐿 ⟶ ℝ 𝐷 , 𝐻, 𝑊 là chiều cao và rộng của khung ảnh

𝑠𝑗𝑖 ⟼ ℎ(𝑠𝑗𝑖 ), 𝐿 là số khung ảnh trong phân đoạn

• 𝑡 là hàm phân lớp:

𝑡: ℝ 𝐷 ⟶ ℤ2= {0,1},

Rút trích đặc trưng ct r đặc trưng Huấn luyện Mô hình

Dữ liệu huấn luyện

Video được gán nhãn

1: bạo lực

0: không bạo lực

Giai đoạn huấn luyện (Offline )

Dữ liệu kiểm tra

Rút trích đặc trưng ct r đặc trưng Phân lớp

Phát hiện thông tin bạ lực tr ng dữ liệu id

Trang 8

4

ℎ(𝑠𝑗𝑖 ) ⟼ 𝑙𝑗𝑖 𝑙𝑗𝑖 là nhãn của phân đoạn thứ 𝑗 trong video

𝑣𝑖 có giá trị 0 = không bạo lực, 1= bạo lực

Đầu ra:

• Với mỗi video 𝑣 𝑖 ∈ 𝑉, kết quả nhận được là tập các phân đoạn được gán nhãn bạo lực 𝑟𝑒𝑠𝑢𝑙𝑡𝑖= {(𝑠1𝑖 , 𝑙1𝑖 ), (𝑠2𝑖 , 𝑙2𝑖 ), … , (𝑠𝑚𝑖 , 𝑙𝑚𝑖 )}, với 1 ≤ 𝑖 ≤ 𝑛, 𝑙𝑗𝑖 = {0,1}

Bài toán cần giải quyết:

• 𝑠𝑗𝑖 → ℎ(𝑠ℎ 𝑗𝑖 ) → 𝑙𝑡 𝑗𝑖 , trong đó chúng tôi tập trung vào giải quyết việc biểu

diễn đặc trưng của khái niệm bạo lực (hàm ℎ)

1.2 Các thách thức

Bài toán phát hiện thông tin bạo lực trong dữ liệu video là một dạng của bài toán phát hiện sự kiện Đây là bài toán có nhiều thách thức, nên các kết quả hiện tại vẫn còn chưa đáp ứng được nhu cầu thực tế [21]

a) Tính đa dạng, đa thể hiện của khái niệm bạo lực là một trong những thách thức lớn

của bài toán VSD Theo định nghĩa từ MediaEval và WHO2, cảnh bạo lực là cảnh có

những hành động gây ra sự thương vong cho con người [75]

b) Tính ngữ nghĩa cao: bên cạnh sự thể hiện đa dạng, khái niệm bạo lực phụ thuộc rất

nhiều vào nhận định chủ quan của con người Tùy thuộc vào lứa tuổi, văn hóa, quan điểm bạo lực của mỗi người sẽ nhận định khái niệm bạo lực khác nhau

c) Tài nguyên: việc xử lý trên dữ liệu video đòi hỏi tài nguyên lưu trữ và tính toán lớn

Ví dụ để xử lý rút trích đặc trưng cho một giờ video, nếu sử dụng đặc trưng trên khung ảnh, chúng ta phải rút trích và xử lý 90.000 khung ảnh (25 khung ảnh/ giây)

d) Dữ liệu cho bài toán học giám sát: với đặc tính ngữ nghĩa cao, việc xây dựng bộ dữ liệu huấn luyện dựa trên khái niệm được định nghĩa cũng là một thách thức

1.3 Tổng quan các hướng tiếp cận và các công trình liên quan

Phát hiện thông tin bạo lực là một dạng của bài toán phát hiện sự kiện trong video Thông thường, mỗi sự kiện có nhiều thể hiện đa dạng, mang tính ngữ nghĩa cao nên các hướng tiếp cận đều sử dụng kết hợp đa đặc trưng để biểu diễn sự kiện, tuy nhiên chưa có nhiều nghiên cứu tương

tự cho bài toán phát hiện thông tin bạo lực Kể từ sau năm 2011, khi MediEval và công ty Technicolor đưa ra bộ dữ liệu MediaEval VSD[76], nhiều nhóm nghiên cứu đã cùng tham gia giải quyết bài toán trên bộ dữ liệu chuẩn này

1.3.1 Các hướng tiếp cận chung cho bài toán phát hiện sự kiện

Bài toán phát hiện thông tin bạo lực trong video là dạng bài toán phát hiện sự kiện trong

dữ liệu đa phương tiện (MED - multimedia event detection) đang phổ biến hiện nay Bài toán phát hiện thông tin bạo lực của MediEval mà luận án đang giải quyết được xây dựng trên dữ liệu phim Hollywood (video dài, được biên tập nội dung, có độ phân giải cao và nhiều kỹ xảo) và tính ngữ nghĩa của khái niệm cao hơn

1.3.2 Các hướng tiếp cận đa đặc trưng cho bài bài toán VSD

Đặc điểm chung của các công trình trong giai đoạn này là sử dụng các khái niệm liên quan đến bạo lực để thay thế cho khái niệm bạo lực Việc sử dụng các định nghĩa mang tính chủ quan cao không giải quyết bài toán một cách tổng quát và mất đi sự thể hiện đa dạng của khái niệm, phạm vi và độ phức tạp của bài toán cũng giảm đáng kể

Từ năm 2011, khi MediaEval VSD phát triển định nghĩa hình thức của khái niệm bạo lực

và công bố kèm bộ dữ liệu chuẩn, nhiều nhóm nghiên cứu trên thế giới đã tham gia vào MediaEval VSD qua các năm và nhiều công trình đã được công bố [21] Các hướng tiếp cận chung của các bài toán là việc áp dụng đa đặc trưng trên nhiều kênh thông tin từ ảnh, âm thanh, video và các cách kết hợp đặc trưng sao cho hiệu quả Các nhóm nghiên cứu thường công bố kết quả của việc

2 http://www.who.int/violenceprevention/approach/definition/en/

Trang 9

sử dụng đặc trưng nhưng không công bố cấu hình các đặc trưng sử dụng, cũng như các kết quả công bố thường được kết hợp (fusion) giữa nhiều loại đặc trưng khác nhau nên rất khó để đánh giá kết quả của từng loại đặc trưng riêng biệt Khác với các công trình nghiên cứu khác, luận án đánh giá một cách hệ thống từng loại đặc trưng và cách kết hợp hiệu quả cho bài toán VSD

1.3.3 Các hướng tiếp cận sử dụng đặc trưng cấp cao

Bên cạnh các hướng tiếp cận biểu diễn bằng đặc trưng cấp thấp, chúng ta cần những cách tiếp cận giàu ngữ nghĩa cho việc biểu diễn cảnh bạo lực Một số cách tiếp cận sử dụng thuộc tính (attributes) để giải quyết các bài toán nhận dạng đối tượng (như Object Bank [48]), phân lớp cảnh

sử dụng thuộc tính là các đối tượng như [49], nhận dạng hành động bằng cách sử dụng ngân hàng các hành động như [71] Đặc điểm chung của các công trình trước đây sử dụng các thuộc tính biểu diễn cho cảnh, hành động đơn giản, chưa mang tính ngữ nghĩa cao như các sự kiện (liên quan đến nhiều thể hiện, nhiều cảnh, hành vi khác nhau) Trong luận án này, chúng tôi chọn cách tiếp cận thiết kế một đặc trưng cấp cao dựa trên các thuộc tính liên quan để biểu diễn cảnh bạo lực Đây là cách tiếp cận sử dụng đặc trưng cấp cao đầu tiên cho bài toán MediaEval VSD

1.3.4 Các hướng tiếp cận kết hợp đặc trưng

Đối với bài toán VSD, việc sử dụng kết hợp nhiều đặc trưng đã chứng minh hiệu quả, tuy nhiên hiện tại đa số các công trình đều tập trung vào việc lựa chọn đặc trưng mà không quan tâm đến chi phí tính toán của các loại đặc trưng này[75] Khác với các công trình liên quan, chúng tôi tiến hành lựa chọn các đặc trưng phù hợp cho việc kết hợp, đánh giá lại các phương thức kết hợp đặc trưng (kết hợp sớm, kết hợp trễ, kết hợp trên phân đoạn) cho bài toán phát hiện thông tin bạo lực trên bộ dữ liệu của MediaEval VSD Ngoài ra chúng tôi cũng xác định chi phí tính toán trong việc rút trích các loại đặc trưng, từ đó đề xuất các bộ cấu hình đặc trưng tối ưu trong điều kiện hạn chế tài nguyên tính toán, các đánh giá và đề xuất này là cơ sở để triển khai các ứng dụng trong thế giới thực

1.4 Giới thiệu hướng tiếp cận của luận án

1.4.1 Giới thiệu kiến trúc tổng quan

Chúng tôi xây dựng hệ thống hỗ trợ phát hiện thông tin bạo lực trên nền tảng tham khảo các hệ thống hỗ trợ phát hiện sự kiện [40], [65], [96] Hệ thống chúng tôi xây dựng có khả năng rút trích các đặc trưng trên nhiều kênh thông tin Bên cạnh đó, hệ thống cũng được thiết kế để thực hiện các tính toán song song trên hệ thống GRID Computing

Kiến trúc hệ thống được minh họa trong Hình 1.2 bên dưới

Hình 1.2 Kiến trúc tổng quan của hệ thống hỗ trợ phát hiện thông tin bạo lực

1.4.2 Bước 1 - Tiền xử lý dữ liệu

Dữ liệu đầu vào của bài toán VSD thường là các phim hoặc video clip có chiều dài khác nhau Mục tiêu của bài toán là xác định các phân đoạn có chứa thông tin bạo lực, vì vậy ở bước đầu tiên hệ thống sẽ thực hiện: (1) Phân chia video thành các phân đoạn; (2) trích khung ảnh từ các phân đoạn (3) chuẩn hóa kích thước

Cụ thể bước tiền xử lý dữ liệu được đặc tả tổng quát như sau:

Bước 1: Tiền xử lý dữ liệu

MÃ HÓA ĐẶC TRƯNG

HUẤN LUYỆN VÀ ĐÁNH GIÁ

HUẤN LUYỆN

MÔ HÌNH

ĐÁNH GIÁ/

PHÂN LỚP

KẾT HỢP KẾT QUẢ

HẬU XỬ

LÝ TĂNG

ĐỘ CHÍNH XÁC

TỔNG HỢP KẾT QUẢ TIỀN XỬ LÝ

PHÂN ĐOẠN RÚT TRÍCH KHUNG ẢNH CHUẨN HÓA KÍCH THƯỚC

Trang 10

6

• Độ dài của một phân đoạn ∆ 𝑓𝑟𝑎𝑚𝑒𝑠

• Số lượng khung ảnh 𝑛 𝑓𝑟𝑎𝑚𝑒 rút trích trên 1 giây

• Kích thước khung ảnh 𝑤 𝑛𝑜𝑟𝑚𝑎𝑙𝑖𝑧𝑒 × ℎ

Đầu ra:

• Danh sách các phân đoạn của từng video 𝑣 𝑖 : 𝑆𝑖= {𝑠1𝑖 , 𝑠2𝑖 , … , 𝑠𝑛𝑆ℎ𝑜𝑡𝑖 }

• Danh sách các khung ảnh cho từng phân đoạn 𝑠𝑗𝑖 ,

𝑠𝑗𝑖 = {𝑓𝑗,𝑘𝑖 : 𝑓𝑗,𝑘𝑖 ∈ ℕ 𝑤𝑛𝑜𝑟𝑚𝑎𝑙𝑖𝑧𝑒 ×ℎ , 𝑘 = 1, 𝑛𝐾𝐹𝑗𝑖 }, 𝑘 là thứ tự khung ảnh trong phân đoạn 𝑠𝑗𝑖 có 𝑛𝐾𝐹𝑗𝑖 khung ảnh, 𝑤𝑛𝑜𝑟𝑚𝑎𝑙𝑖𝑧𝑒 × ℎ là chiều rộng và chiều cao của khung ảnh sau khi được giảm kích thước

Thuật toán:

• Bước 1: Loop duyệt qua từng video 𝑣𝑖

• Bước 1.1: Chia video thành các phân đoạn có độ dài ∆ 𝑓𝑟𝑎𝑚𝑒𝑠

• Bước 1.2: Loop duyệt qua từng phân đoạn 𝑠𝑖

• Bước 1.2.1: Rút trích theo tỷ lệ 𝑛𝑓𝑟𝑎𝑚𝑒/ 𝑔𝑖â𝑦

• Bước 1.2.2: Giảm kích thước khung ảnh về 𝑤𝑛𝑜𝑟𝑚𝑎𝑙𝑖𝑧𝑒 × ℎ

• Bước 1.2.3: Loại bỏ khung ảnh có dãy màu đồng nhất

1.4.3 Bước 2 – Biểu diễn đặc trưng

Sau bước tiền xử lý dữ liệu, các đặc trưng thô được rút trích để tạo thành các vector đặc trưng biểu diễn cho các ảnh Đối với đặc trưng cục bộ, âm thanh và đặc trưng chuyển động, các đặc trưng thô sau khi rút trích sẽ được chuẩn hóa bằng các kỹ thuật khác nhau (túi từ - Bag of Words [88], hoặc Fisher Vector [66])

Bước 2: Rút trích đặc trưng cho phân đoạn

Đầu vào:

• Danh sách các phân đoạn của video 𝑣 𝑖 : 𝑆 𝑖 = {𝑠1𝑖 , 𝑠2𝑖 , … , 𝑠𝑛𝑆ℎ𝑜𝑡𝑖 }

• Danh sách các khung ảnh cho từng phân đoạn 𝑠𝑗𝑖 ,

𝑠𝑗𝑖 = {𝑓𝑗,𝑘𝑖 : 𝑓𝑗,𝑘𝑖 ∈ ℕ 𝑤𝑛𝑜𝑟𝑚𝑎𝑙𝑖𝑧𝑒 ×ℎ , 𝑘 = 1, 𝑛𝐾𝐹𝑗𝑖 }, 𝑘 là thứ tự khung ảnh trong phân đoạn

𝑠𝑗𝑖 có 𝑛𝐾𝐹𝑗𝑖 khung ảnh, 𝑤𝑛𝑜𝑟𝑚𝑎𝑙𝑖𝑧𝑒 × ℎ là chiều rộng và chiều cao của khung ảnh sau khi được giảm kích thước

• Sử dụng hàm rút trích đặc trưng ℎ để tạo Vector đặc trưng cho từng phân đoạn

ℎ(𝑠𝑗𝑖 ) = 𝑠𝑓𝑗𝑖 , 𝑠𝑓𝑗𝑖 ∈ ℝ 𝐷 , với 𝐷 là số chiều của vector đặc trưng

Đầu ra:

• Tập vector đặc trưng 𝑋 𝑖 cho các phân đoạn trong video 𝑣𝑖:

𝑋𝑖= {𝑠𝑓1𝑖 , 𝑠𝑓2𝑖 , … 𝑠𝑓𝑛𝑆ℎ𝑜𝑡𝑖 }, với 𝑠𝑓𝑗𝑖 là phân đoạn thứ 𝑗 trong video 𝑣𝑖 có tổng cộng 𝑛𝑆ℎ𝑜𝑡

Thuật toán:

• Bước 1: Loop qua từng phân đoạn 𝑠𝑗𝑖

• Bước 1.1: Rút trích đặc trưng thô trên khung ảnh

• Bước 1.2: Mã hóa đặc trưng (BoW, FV

• Bước 1.3: Pooling (max, avg) các đặc trưng trên khung

ảnh  đặc trưng cho Phân đoạn 𝑠𝑗𝑖

• Bước 2: Trả về danh sách đặc trưng của các phân đoạn

Trang 11

1.4.4 Bước 3 - Huấn luyện mô hình/ đánh giá

1.4.4.1 Huấn luyện mô hình

Bài toán phát hiện thông tin bạo lực là một dạng bài toán học có giám sát (supervised learning) Trong luận án chúng tôi sử dụng phương pháp phổ biến là vector hỗ trợ (Support Vector Machines - SVM[87])

Bước 3a: Huấn luyện mô hình phân loại khái niệm

• Cho G là tập huấn luyện với dữ liệu mẫu (ground truth): 𝐺 = {𝐺 1 , 𝐺2, , 𝐺𝑛}

mô tả nhãn kết quả của các phân đoạn trong video:

G𝑖= {(𝑠1𝑖 , 𝑙1𝑖 ), (𝑠2𝑖 , 𝑙2𝑖 ), … , (𝑠𝑚𝑖 , 𝑙𝑚𝑖 )}, với 1 ≤ 𝑖 ≤ 𝑛, 𝑙𝑗𝑖 = {0,1}

o Nhãn 𝑙𝑗𝑖 = {0,1} của phân đoạn j trong video 𝑣𝑖 có giá trị (1 hoặc

0), tương ứng với việc phân đoạn này có được xem là bạo lực (1) hay không (0)

1.4.5 Bước 4 - Kết hợp kết quả

Do đặc trưng ngữ nghĩa cao và thể hiện đa dạng của bài toán phát hiện sự kiện nói chung

và bài toán phát hiện thông tin bạo lực nói chung, việc kết hợp sử dụng nhiều loại đặc trưng trên các kênh thông tin khác nhau sẽ giúp tăng khả năng phân loại thông tin trong biểu diễn khái niệm

Ở bước này chúng tôi tiến hành thực hiện: (1) kết hợp sớm các đặc trưng (early fusion): kết hợp đặc trưng khung ảnh, kết hợp các bộ mô tả; (2) kết hợp trễ trên danh sách kết quả (late fusion): lựa chọn đặc trưng kết hợp, hậu xử lý trên danh sách kết quả, tối ưu bộ kết hợp theo tài nguyên tính toán

1.4.6 Song song hóa việc rút trích đặc trưng

Để rút ngắn thời gian tính toán, chúng tôi đã thiết kế lại hệ thống VSD để chạy trên hệ thống tính toán lưới GRID Computing (gồm ~500 Cores)

1.5 Đánh giá độ phức tạp của kiến trúc hệ thống

Ở bước tiền xử lý dữ liệu: chi phí tính toán phụ thuộc chủ yếu vào phương pháp chia phân đoạn và tỷ lệ lấy mẫu khung ảnh trong một giây Tổng chi phí tính toán ở bước tiền xử lý dữ liệu là:

Trang 12

8

Ở bước rút trích và biểu diễn đặc trưng: chi phí tính toán của các đặc trưng toàn cục không đáng kể so với việc rút trích đặc trưng cục bộ và đặc trưng chuyển động Độ phức tạp ở bước rút trích đặc trưng là (cả hai giai đoạn: rút trích và mã hóa):

𝑂(𝑛 𝑚 ) 𝑣ớ𝑖 𝑛 𝑙à 𝑡ổ𝑛𝑔 𝑠ố 𝑝ℎâ𝑛 đ𝑜ạ𝑛, 𝑚 𝑙à 𝑠ố 𝑐ℎ𝑖ề𝑢 𝑣𝑒𝑐𝑡𝑜𝑟 đặ𝑐 𝑡𝑟ư𝑛𝑔 (1.2) Đối với công đoạn huấn luyện và kiểm tra, độ phức tạp và thời gian thực hiện phụ thuộc vào độ phức tạp của SVM Độ phức tạp của bước huấn luyện là:

𝑂(𝑛 𝑚2 ) 𝑣ớ𝑖 𝑛 𝑙à 𝑡ổ𝑛𝑔 𝑠ố 𝑝ℎâ𝑛 đ𝑜ạ𝑛, 𝑚 𝑙à 𝑠ố 𝑐ℎ𝑖ề𝑢 𝑣𝑒𝑐𝑡𝑜𝑟 đặ𝑐 𝑡𝑟ư𝑛𝑔 (1.3)

Ở bước kiểm tra, mô hình SVM sử dụng lõi tuyến tính có độ phức tạp là 𝑂(𝐷), trong khi

mô hình SVM sử dụng lõi 𝜒2có độ phức tạp ở bước kiểm tra là 𝑂(𝑛𝑠𝑣𝐷), trong đó 𝑛𝑠𝑣 là số lượng support vector [13] Như vậy độ phức tạp của bước kiểm tra là 𝑂(𝑛𝑡𝑒𝑠𝑡𝑆ℎ𝑜𝑡𝑛𝑐𝑙𝑢𝑠𝑡𝑒𝑟𝑠𝑥𝑦), trong

đó 𝑛𝑡𝑒𝑠𝑡𝑆ℎ𝑜𝑡 là số tượng phân đoạn cần đánh giá trong bộ dữ liệu kiểm tra

Ở bước kết hợp kết quả, độ phức tạp của việc kết hợp trễ là 𝑂(𝑛𝑡𝑒𝑠𝑡𝑆ℎ𝑜𝑡 𝑛𝑓𝑒𝑎𝑡𝑢𝑟𝑒𝑠), trong

đó 𝑛𝑓𝑒𝑎𝑡𝑢𝑟𝑒𝑠 là số lượng các đặc trưng trong bộ kết hợp

Như vậy độ phức tạp của toàn bộ kiến trúc hệ thống (không tính các công đoạn huấn luyện codebook trong mô hình Bow và FV) ở gian đoạn huấn luyện mô hình được tính như sau: 𝑂(𝑛 𝑚2 ) 𝑣ớ𝑖 𝑛 𝑙à 𝑡ổ𝑛𝑔 𝑠ố 𝑝ℎâ𝑛 đ𝑜ạ𝑛 ℎ𝑢ấ𝑛 𝑙𝑢𝑦ệ𝑛, 𝑚 𝑙à 𝑠ố 𝑐ℎ𝑖ề𝑢 𝑣𝑒𝑐𝑡𝑜𝑟 đặ𝑐 𝑡𝑟ư𝑛𝑔 (1.4)

Ở giai đoạn kiểm tra đánh giá, độ phức tạp được tính như sau:

𝑂(𝑛 𝑚 ) 𝑣ớ𝑖 𝑛 𝑙à 𝑡ổ𝑛𝑔 𝑠ố 𝑝ℎâ𝑛 đ𝑜ạ𝑛 đá𝑛ℎ 𝑔𝑖á, 𝑚 𝑙à 𝑠ố 𝑐ℎ𝑖ề𝑢 𝑣𝑒𝑐𝑡𝑜𝑟 đặ𝑐 𝑡𝑟ư𝑛𝑔 (1.5)

1.6 Bộ dữ liệu MediaEval

Nhằm tìm hiểu bài toán phát hiện thông tin bạo lực và có được bộ dữ liệu nghiên cứu chuẩn, từ năm 2012 chúng tôi tham gia vào Ban tổ chức của hội thảo MediaEval và tham gia vào nhóm xây dựng bộ dữ liệu MediaEval-VSD3

1.6.1 Giới thiệu MediaEval

1.6.2 Giới thiệu bộ dữ liệu MediaEval-VSD

1.6.3 Thông tin bộ dữ liệu

Bộ dữ liệu MediaEval VSD được xây dựng lần đầu năm 2011 và phát triển đến năm 2014 Tổng thời gian của toàn bộ Bộ dữ liệu MediaEval VSD là 63.55 giờ

1.6.4 Các khái niệm được gán nhãn trong bộ dữ liệu

1.6.5 Nguyên tắc và quy trình xây dựng bộ dữ liệu

Trong đó V là số lượng video có trong bộ dữ liệu và AP độ chính xác trung bình cho từng video

Bên cạnh đó, Ban tổ chức cũng sử dụng MAP2014-AT100, trong đó AP được tính bằng công thức:

3 Bộ dữ liệu được công bố tại: data-sharing/violent-scenes-dataset

Trang 13

http://www.technicolor.com/en/innovation/scientific-community/scientific-𝐴𝑃 = 𝑛𝑘=1(𝑃(𝑘)×𝑟𝑒𝑙 (𝑘))

Trong đó P(k) là độ chính xác của top k phân đoạn có độ bạo lực cao nhất

1.6.7 Các đóng góp trong việc xây dựng bộ dữ liệu

Tác giả luận án đóng vai trò là trưởng nhóm gán nhãn dữ liệu ở VN, cụ thể thực hiện các công việc sau:

• Tổ chức nhóm gán nhãn ở Việt Nam: gán nhãn 31 bộ phim, hơn 60h video cho tổng cộng 12 khái niệm

• Đóng vai trò master annotators ,tham gia BTC (định nghĩa khái niệm, độ đo, kiểm duyệt tất cả các trường hợp chưa rõ)

• Tham gia viết bài công bố bộ dữ liệu CBMI 2014 [CT9], 2015Error! Reference s ource not found

1.7 Kết luận

Trong chương này, chúng tôi giới thiệu tổng quan bài toán phát hiện thông tin bạo lực, các thách thức và đánh giá các hướng tiếp cận tổng quan của bài toán, từ đó đề xuất một kiến trúc tổng quan chung để tiến hành các thực nghiệm cho bài toán phát hiện thông tin bạo lực Quá trình phát triển và cải tiến kiến trúc tổng quan hệ thống được thực hiện song song với việc tham gia và xây dựng bộ dữ liệu MediEval VSD Kết quả của quá trình xây dựng bộ dữ liệu được công bố

trong các công trình Error! Reference source not found.[CT9]

Chương 2 ĐẶC TRƯNG CẤP THẤP VÀ ĐẶC TRƯNG TỰ HỌC CHO BÀI TOÁN VSD

Trong chương này, chúng tôi sử dụng các loại đặc trưng cấp thấp được rút trích từ nhiều kênh thông tin khác nhau để biểu diễn khái niệm bạo lực Thông qua việc đánh giá một cách hệ thống các cấu hình đặc trưng khác nhau, chúng tôi có thể tối ưu hóa các bộ tham số của các đặc trưng nhằm tăng độ chính xác trong việc phát hiện thông tin bạo lực

Bên cạnh các đặc trưng được thiết kế sẵn, chúng tôi đề xuất sử dụng các đặc trưng học sâu của các mô hình được huấn luyện sẵn trong một số thư viện CNN có sẵn như Alexnet, UvANet, VGGnet Thông qua việc đánh giá các đặc trưng được rút trích từ nhiều mô hình mạng nơ-ron tích chập phổ biến, chúng tôi đề xuất sử dụng các đặc trưng ở tầng kế cuối cho việc biểu diễn thông tin bạo lực, các đặc trưng này đem lại độ chính xác cao cho bài toán phát hiện thông tin bạo lực

Chúng tôi tiến hành thử nghiệm trên bộ dữ liệu của bài toán MediaEval-VSD Mục đích chính của việc thử nghiệm này là lựa chọn được bộ tham số tối ưu cho bài toán phát hiện thông tin bạo lực Kết quả của nội dung nghiên cứu này được công bố trên hội nghị SocPar2013[CT3], một phần trong bài tạp chí MTA2016 [CT1] và hội thảo MediaEval 2013,2014,2015 [CT5][CT6][CT7]

2.1 Giới thiệu

Để biểu diễn sự đa dạng của thông tin bạo lực trên máy tính, chúng tôi tiến hành thử nghiệm các loại đặc trưng trên các kênh thông tin khác nhau:

• Đặc trưng khung ảnh: để xác định các thông tin liên quan đến cảnh (scene detection)

chúng tôi dựa vào đề xuất của [57], [81], [100] để lựa chọn các đặc trưng toàn cục trong việc đánh giá: color moments, color histogram, edge orientation histogram, and local binary patterns; để xác định các thông tin liên quan đến đối tượng (object detection), chúng tôi sử dụng đặc trưng cục bộ theo đề xuất của [8], [38]: SIFT, Color-SIFT, and Opponent-SIFT Các đặc trưng trên khung ảnh được kỳ vọng giúp xác định được các thông tin bạo lực dạng đối tượng và cảnh

Trang 14

10

• Đặc trưng chuyển động: trong video thường chứa nhiều hành động, hành vi liên quan

đến bạo lực Các đặc trưng chuyển động là một trong những cách tiếp cận tiên tiến nhất

để có thể xác định các hành động trên video Dựa trên khảo sát các công trình liên quan đến bài toán phát hiện hành động [9], [41], [95] và phát hiện sự kiện [60], [64], chúng tôi đề xuất sử dụng đặc trưng được cải tiến của Dense Trajectory [96], với các bộ mô tả Motion Boundary Histogram (MBH), Histograms of Oriented Gradients (HoG), and Histograms of Optical Flow (HoF) Các đặc trưng này tận dụng ưu điểm của video (dãy liên tục các khung ảnh có liên quan với nhau) so với các đặc trưng trên khung ảnh

• Đặc trưng âm thanh: chúng tôi sử dụng để xác định các tín hiệu âm thanh liên quan

đến bạo lực, thông thường các tín hiệu âm thanh rất dễ phân biệt và khó nhầm lẫn trong

các cảnh bạo lực (ví dụ như tiếng gào thét, tiếng nổ, tiếng súng ) Đặc trưng MFCC

[73] đã chứng minh được tính hiệu quả trong các bài toàn phát hiện sự kiện [10], [39],

[60] và bài toán VSD [1], [40], [62], [102]

• Đặc trưng học sâu được rút trích từ nhiều mô hình mạng nơ-ron tích chập: việc

huấn luyện một mô hình CNN riêng cho việc xác định thông tin bạo lực đòi hỏi nguồn

dữ liệu huấn luyện lớn, điều này hiện chưa khả thi với các bộ dữ liệu VSD hiện tại Trong khuôn khổ nghiên cứu này, chúng tôi thử nghiệm các đặc trưng được rút trích từ các mô hình học sâu CNN để biểu diễn khái niệm bạo lực Giống như cách tiếp cận fine-tuning cho các mô hình CNN, chúng tôi sử dụng đặc trưng được rút trích từ các tầng kết nối đầy

đủ cuối của các mô hình CNN để biểu diễn cho khái niệm bạo lực

Vấn đề 2.1: đánh giá đặc trưng

Đầu vào:

• Cho ℱ = {𝑓 1 , 𝑓2, … , 𝑓𝑛}là tập hợp các loại đặc trưng khác nhau, bao gồm:

o Đặc trưng trên khung ảnh (cục bộ, toàn cục, đặc trưng được rút trích từ mô hình mạng nơ-ron tích chập)

o Đặc trưng chuyển động (chuyển động)

o Đặc trưng trên âm thanh

• Mỗi loại đặc trưng 𝑓𝑖 có 𝑓𝑚 𝑖 tham số, trong đó tham số 𝑝𝑎𝑟𝑎𝑚 𝑖,𝑘 có miền giá trị là 𝔻 𝑖,𝑘 (𝑣ớ𝑖 1 ≤ 𝑖 ≤ 𝑛 𝑣à 1 ≤ 𝑘 ≤ 𝑚 𝑖 ) Gọi 𝔊(𝑓 𝑖 ) là tập hợp các cấu hình khác nhau cho loại đặc trưng 𝑓𝑖, cụ thể là:

𝔊(𝑓𝑖) = {(𝑣𝑖,1, 𝑣𝑖,2, … , 𝑣𝑖,𝑚𝑖) ∈ 𝔻𝑖,1 × 𝔻𝑖,2 × 𝔻𝑖,𝑚𝑖}

• Ví dụ: với loại đặc trưng toàn cục 𝑓 𝑖 , cấu hình chủ yếu gồm độ mịn (granularity), không gian màu (color space) và lượng hóa (quantization)

𝔊(𝑓 𝑖 ) = {(𝑔 𝑖 , 𝑐 𝑖 , 𝑞 𝑖 } với 𝑔 𝑖 ∈ 𝔻 granularity , 𝑐 𝑖 ∈ 𝔻 color 𝑠𝑝𝑎𝑐𝑒 , 𝑞 𝑖 ∈ 𝔻 𝑞𝑢𝑎𝑛𝑡𝑖𝑧𝑎𝑡𝑖𝑜𝑛

Đầu ra: cùng với các cấu hình

• Trong phạm vi vấn đề này, chúng tôi xét riêng từng loại đặc trưng

𝑓 ⊆ ℱ để tìm ra cấu hình tốt nhất 𝑐̂(𝑓) ∈ 𝔊(𝑓) để đạt được kết quả cao nhất trong việc phát hiện cảnh bạo lực trên video khi chỉ sử dụng duy nhất một loại đặc trưng 𝑓 này

• Gọi 𝑆𝑐𝑜𝑟𝑒(ϕ, 𝐶 ϕ ) là độ chính xác đạt được khi đánh giá nhãn bạo lực

cho tập video 𝑉 sử dụng tập các loại đặc trưng ϕ ⊆ ℱ và tập cấu

Trang 15

khác nhau Với loại đặc trưng toàn cục f i, cấu hình chủ yếu gồm độ mịn (granularity), không gian màu (color space) và lượng hóa (quantization)

2.2.1.2 Đặc trưng cục bộ

Trong phần đánh giá các đặc trưng cục bộ, chúng tôi sử dụng đặc trưng thông dụng SIFT

và các đặc trưng SIFT mở rộng sử dụng thêm các thông tin màu: RGB-SIFT, Opponent-SIFT, và C-SIFT [9] cùng với việc xác định các điểm đặc trưng bằng Hessian-Laplace [56] và lấy mẫu dày

(dense sampling) và chia khung ảnh thành các lưới n x m (không chồng lên nhau)

Thuật toán 2.1: Rút trích và mã hóa đặc trưng cục bộ dưới dạng BoW

Đầu vào:

• Danh sách các phân đoạn 𝑆 = {𝑠 1 , 𝑠 2 , , 𝑠 𝑚 }

• Danh sách các khung ảnh cho từng phân đoạn 𝑠 𝑖

• Bước 1: Huấn luyện codebook

• Bước 1.1: Rút trích ngẫu nhiên điểm 𝑛 𝑠𝑎𝑚𝑝𝑙𝑒 đặc trưng

• Bước 1.2: Rút trích bộ mô tả

• Bước 1.3: Phân nhóm 𝑛𝑐𝑜𝑑𝑒𝑏𝑜𝑜𝑘 cluster bằng K-means

• Bước 1.4: Tạo codebook

• Bước 2: Loop từng khung ảnh trong DS khung ảnh của Phân đoạn 𝑠𝑖

• Bước 2.1: Chia không gian khung ảnh theo (𝑥 × 𝑦)

• Bước 2.1: Xác định các điểm đặc trưng 𝔻 keypoint detector

Thuật toán 2.2: Rút trích đặc trưng chuyển động và mã hóa Fisher Vector Đầu vào:

• Các biểu diễn Fisher Vector cho mỗi phân đoạn ℊ𝜆𝑋 ∈ ℝ 𝐾(2𝐷+1)

• Vector đặc trưng cho từng phân đoạn

Thuật toán:

• Bước 1: Huấn luyện codebook

• Bước 1.1: Rút trích ngẫu nhiên các điểm

• Bước 1.2: Rút trích bộ mô tả

• Bước 1.3: Phân nhóm bằng GMM

• Bước 1.4: Tạo codebook

• Bước 2: Loop từng khung ảnh trong DS khung ảnh của Phân đoạn 𝑠𝑖

• Bước 2.1: Xác định các điểm đặc trưng dense sampling

Định dạng
Số trang	31
Dung lượng	2,08 MB