ỨNG DỤNG DEEP LEARNING CHO bài TOÁN PHÁT HIỆN sự KIỆN TRONG dữ LIỆU VIDEO

Bài toán phát hiện sự kiện trong video multimedia event detection- MED1 được mô tả như sau: đầu vào thường là một video và danhsách các sự kiện, yêu cầu đầu ra là các đoạn video chứa nội

Trang 1

KHOA KHOA HỌC MÁY TÍNH

ĐỖ VĂN TIẾN

ỨNG DỤNG DEEP LEARNING CHO BÀI TOÁN PHÁT HIỆN SỰ KIỆN

TRONG DỮ LIỆU VIDEO

LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH

MÃ SỐ: 60.48.01.01

GIẢNG VIÊN HƯỚNG DẪN:

PGS TS DƯƠNG ANH ĐỨC PGS TS LÊ ĐÌNH DUY

TP HỒ CHÍ MINH, 2016

Trang 2

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

KHOA KHOA HỌC MÁY TÍNH

HUỲNHGỌC TÍN

ĐỖ VĂN TIẾN

ỨNG DỤNG DEEP LEARNING CHO BÀI TOÁN PHÁT HIỆN SỰ KIỆN TRONG DỮ LIỆU VIDEO

LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH

MÃ SỐ: 60.48.01.01

GS.TSKH HOÀNG VĂN KIẾM

Trang 3

Trước tiên, em xin gửi lời cảm ơn chân thành đến thầy PGS.TS DươngAnh Đức và thầy PGS.TS Lê Đình Duy Trong suốt quá trình làmluận văn, hai thầy đã dành nhiều công sức giúp đỡ và hướng dẫn emtận tình để em có thể hoàn tất đề tài này một cách thuận lợi nhất.Bên cạnh đó, em xin cảm ơn các anh chị đồng nghiệp cùng các bạnsinh viên tại phòng Thí nghiệm Truyền thông Đa Phương tiện, trường

ĐH Công nghệ Thông tin đã hỗ trợ em rất nhiều trong suốt thời gian

em thực hiện luận văn

Em cũng xin gửi lời cảm ơn đến các thầy cô tại trường ĐH Công nghệThông tin, ĐHQG HCM đã tạo mọi điều kiện cho em có thể học tập

và hoàn tất luận văn này

Em xin chân thành cảm ơn

TP.HCM, tháng 8 năm 2016

Đỗ Văn Tiến

Trang 4

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi Các số liệu, kết quảnêu trong luận văn là trung thực và chưa từng được ai công bố trong bất kỳ côngtrình nào khác, ngoại trừ các tư liệu được trích dẫn ghi trong mục tài liệu thamkhảo

Tác giả luận văn

Đỗ Văn Tiến

Trang 5

Bài toán phát hiện sự kiện trong video (multimedia event detection

- MED)1 được mô tả như sau: đầu vào thường là một video và danhsách các sự kiện, yêu cầu đầu ra là các đoạn video chứa nội dungtương ứng với sự kiện cho trước được rút ra từ video đầu vào Kháiniệm sự kiện ở đây bao gồm nhiều loại từ đơn giản như: mưa, đámlửa, đến các sự kiện phức tạp như: bữa tiệc, bạo lực Đây là bàitoán có rất nhiều thách thức bởi độ lớn và phức tạp của dữ liệu video,cũng như tính đa dạng và mang tính ngữ nghĩa cao của các sự kiện.Việc giải quyết bài toán là tiền đề để xây dựng những ứng dụng thực

tế như hệ thống giám sát, phân tích nội dung video Các nghiên cứugần đây thường tập trung vào việc lựa chọn và sử dụng các đặc trưng(feature) để biểu diễn khái niệm sự kiện trong video Tuy nhiên, cácđặc trưng thường được sử dụng vẫn chưa thể hiện được độ phức tạp

và tính ngữ nghĩa của sự kiện do hầu hết các đặc trưng này đều đượccác chuyên gia thiết kế và đề xuất (handcrafted)

Deep Learning (DL) là một khái niệm chỉ các thuật toán máy học đểxây dựng mô hình đối tượng bằng cách học theo nhiều cấp biểu diễn

từ các quan hệ phức tạp trong dữ liệu học [1] Một trong những tínhnăng nổi bật của DL đó là khả năng tự học các đặc trưng trực tiếp

từ dữ liệu đầu vào Tuy nhiên, theo khảo sát của học viên trong cácbài toán về thị giác máy các nghiên cứu thường chỉ áp dụng DL trênảnh, nghiên cứu áp dụng DL trên dữ liệu video và áp dụng vào bàitoán phát hiện sự kiện trong video mới ở bước sơ khởi Ngoài ra, DLvẫn còn là lĩnh vực mới đối với cộng đồng nghiên cứu trong nước nêncũng chưa có nhiều tài liệu tham khảo

1 http://www.multimediaeval.org/

Trang 6

Theo đó, nội dung của luận văn này tập trung vào việc tìm hiểu và

áp dụng DL vào bài toán phát hiện sự kiện trong video Sự kiện, nộidung được đề cập ở đây là cảnh bạo lực - bài toán phát hiện cảnh bạolực trong video (Violent Scenes Detection -VSD) Đây là một trongnhững ví dụ điển hình của lớp các bài toán phát hiện sự kiện thể hiệnmức độ phức tạp của khái niệm bạo lực cũng như sự đa dạng của cácđối tượng, thành phần tham gia sự kiện bạo lực Luận văn thực hiệnviệc áp dụng các đặc trưng Deep Feature (DF) được rút trích từ các

mô hình DL (Alexnet, VGG, UvAnet) Thực nghiệm được tiến hànhtrên tập dữ liệu chuẩn MediaEval Affect Task 2014 - Violent ScenesDetection -VSD 1 Kết quả thực nghiêm cho thấy việc áp dụng DL

sẽ tăng độ chính xác của hệ thống từ 1% đến 15% so với đặc trưnghandcrafted Kết quả của nghiên cứu này đã được công bố tại hộinghị khoa học Quốc gia lần thứ 9 - nghiên cứu cơ bản và ứng dụngcông nghệ thông tin FAIR - Fundamental and Applied IT Research(2016) - Cần thơ

Từ khóa: Deep learning, Phát hiện sựu kiện - Event detection, Pháthiện thông cảnh bạo lực trong video - Violent Scene Detection

1 http://www.multimediaeval.org/mediaeval20/

Trang 7

• Đề xuất áp dụng các đặc trưng Deep feature từ các mô hìnhDeep learning cho bài toán phát hiện cảnh bạo lực trong video.Kết quả nghiên cứu này đã được công bố tại hội nghị khoa họcQuốc gia lần thứ 9 - nghiên cứu cơ bản và ứng dụng công nghệthông tin - Fundamental and Applied IT Research (FAIR-2016).

• Nội dung luận văn đã hệ thống lại các kiến thức cơ sở về DL,đây sẽ là tài liệu tham khảo hữu ích cho các nghiên cứu sau này

Trang 8

Mục lục

Danh sách từ viết tắt xiii

1.1 Đặt vấn đề 1

1.2 Thách thức, mục tiêu và phạm vi 4

1.2.1 Thách thức 4

1.2.2 Tính mới và tính cấp thiết 4

1.2.3 Mục tiêu và phạm vi 5

1.3 Cấu trúc luận văn 6

2 Bài toán phát hiện cảnh bạo lực trong video 8 2.1 Phát biểu bài toán 8

2.2 Một số thách thức 11

2.2.1 Về mặt dữ liệu 11

2.2.2 Độ phức tạp của khái niệm bạo lực 13

Trang 9

2.3 Một số nghiên cứu liên quan 14

2.4 Kết chương 16

3 Tổng quan về Deep learning 18 3.1 Neural networks 18

3.1.1 Neural sinh học 19

3.1.2 Neural nhân tạo 21

3.1.3 Mạng neural nhân tạo (Artificial Neural Networks) 24

3.1.4 Huấn luyện ANN 26

3.1.5 Thuật toán lan truyền ngược 27

3.2 Deep learning 28

3.2.1 Khái niệm Deep learning 28

3.2.2 Phân loại Deep learning 30

3.2.2.1 DL cho học không giám sát 31

3.2.2.2 DL cho học giám sát 33

3.2.2.3 Mạng kết hợp DL 34

3.3 Convolutional Neural Networks 34

3.3.1 Các thành phần cơ bản của mạng CNN 35

3.3.1.1 Convolution 35

3.3.1.2 Pooling 40

3.3.1.3 ReLU 40

3.3.1.4 Fully-connected 41

3.3.2 Kiến trúc CNN 42

3.4 Một số thư viện và framework hỗ trợ DL 42

3.4.1 Caffe 43

3.4.2 Torch 44

3.4.3 TensorFlow 44

3.4.4 Theano 45

3.5 Một số nghiên cứu sử dụng DL trong thị giác máy 46

4 Deep Learning cho bài toán phát hiện cảnh bạo lực trong video 49 4.1 Kiến trúc hệ thống 50

Trang 10

MỤC LỤC

4.1.1 Tiền xử lý video 51

4.1.2 Rút trích đặc trưng 52

4.1.2.1 Alexnet 52

4.1.2.2 VGG 53

4.1.2.3 UvANet 54

4.1.2.4 RGB-SIFT 55

4.1.2.5 Đặc trưng âm thanh MFCC 55

4.1.2.6 Đặc trưng chuyển động (Motion) 56

4.1.3 Biểu diễn đặc trưng 57

4.1.4 Thuật toán SVM 57

4.2 Dữ liệu thực nghiệm và phương thức đánh giá 58

4.2.1 Dữ liệu thực nghiệm 58

4.2.2 Phương thức đánh giá 58

4.3 Kết quả thực nghiệm và đánh giá 60

4.3.1 Kết quả thực nghiệm DF biểu diễn khái niệm bạo lực thông qua sub-concepts (C1) 61

4.3.2 Kết quả thực nghiệm DF biểu diễn trực tiếp khái niệm bạo lực (C2) 64

4.3.3 Đánh giá 66

5 Kết luận và hướng phát triển 69 5.1 Kết luận 69

5.2 Hướng phát triển 70

Trang 11

1.1 Lượng dữ liệu được upload lên Internet trong 1 giây 2

1.2 Ví dụ phát hiện cảnh bạo lực trong đoạn video 3

1.3 Các giai đoạn xây dựng bộ nhận dạng 3

2.1 Thống kê cho thấy trong 6 tháng đầu năm 2011 có hơn 75% tội phạm hình sự là thanh thiếu niên 9

2.2 Có sự ảnh hưởng của việc xem video có nội dung bạo lực đến hành vi của trẻ em 9

2.3 Mô tả bài toán VSD 10

2.4 Kiến trúc tổng quan hệ thống VSD 11

2.5 Minh họa tính phức tạp và mất cân bằng của dữ liệu 12

2.6 Độ phân giải của dữ liệu thực tế 12

2.7 Minh họa tính phức tạp khái niệm bạo lực nhiều thể hiện 13

2.8 Thuộc tính biểu diễn thông tin bạo lực [2] 14

2.9 Một số loại đặc trưng hình ảnh và âm thanh 15

2.10 Framework kết hợp các loại đặc trưng [3] 16

3.1 Minh họa bộ não con người 19

3.2 Minh họa cấu tạo neural sinh học 21

3.3 Cấu trúc neural nhân tạo 22

3.4 Minh họa ANN một tầng 24

3.5 Minh họa mạng nhiều tầng truyền thẳng 25

3.6 Minh họa mạng hồi quy 26

3.7 Mô hình huấn luyện mạng ANN sử dụng lan truyền ngược 27

3.8 Ý tưởng bài toán nhận diện mặt người sử dụng DL [4] 31

Trang 12

DANH SÁCH HÌNH VẼ

3.9 Ví dụ kiến trúc mạng RNNs 32

3.10 Ví dụ kiến trúc mạng DAs 33

3.11 Ví dụ mô hình sử dụng CNN đầu tiên Lenet [5] 34

3.12 Ví dụ mạng cách thức xử lý ANN với cấu trúc full connected 35

3.13 Neural được liên kết cục bộ với các neural thuộc tầng trước 36

3.14 Cách thức hoạt động của Conv 36

3.15 Minh họa việc sử dụng Conv trong xử lý ảnh 37

3.16 Các tham số trong Conv 38

3.17 Ví dụ tầng Conv trong ảnh 39

3.18 Ví dụ tầng pooling 41

3.19 Một số thư viện hỗ trợ DL 43

3.20 Bài toán nhận diện chữ số viết tay 46

3.21 Đầu vào bài toán nhận diện biển báo giao thông [6] 47

3.22 Dữ liệu trong ImageNet [7] 48

4.1 Kiến trúc chung xây dựng bộ phát hiện thông tin bạo lực 51

4.2 Xây dựng bộ phát hiện thông tin bạo lực thông qua sub-concepts 52 4.3 Mô hình Alexnet [7] 53

4.4 Mô hình VGG 16 54

4.5 Mô hình VGG 19 54

4.6 Mô hình Googlenet 55

4.7 Đặc trưng SIFT 56

4.8 Hai cách thức biểu diễn đặc trưng cho shot 57

4.9 Phân tích kết quả dựa trên kiến trúc DL (C1) 63

4.10 Phân tích kết quả lựa chọn cách biểu diễn video (C1) 63

4.11 So sánh sử dụng DF với phương pháp sử dụng đặc trưng RGB-SIFT, Motion, MFCC (C1) 64

4.12 Phân tích kết quả dựa trên kiến trúc DL (C2) 65

4.13 Phân tích kết quả lựa chọn cách biểu diễn video (C2) 66

4.14 So sánh đặc trưng DF với đặc trưng handcraffted (C2) 66

4.15 So sánh phương thức biểu diễn khái niệm bạo lực:(C1) - biểu diễn khái niệm bạo lực qua các sub-concept; (C2) - biểu diễn trực tiếp khái niệm bạo lực 67

Trang 13

3.1 Một số hàm truyền trong mạng neural 23

3.2 Kết quả cuộc thi ILSVRC 2015 29

3.3 Kết quả bài toán nhận diện chữ số viết tay [8] 46

4.1 Thống kê dữ liệu trong tập xây dựng mô hình 59

4.2 Thống kê dữ liệu trong tập đánh giá 59

4.3 Kết quả thực nghiệm đánh giá DF biểu diễn từ sub-concept (C1) 62

4.4 Kết quả thực nghiệm DF biểu diễn trực tiếp khái niệm bạo lực (C2) 65

Trang 14

Danh mục từ viết tắt

DL Deep learning

SIFT Scale Invariant Feature Transform

HOG Histogram of Oriented Gradients

mAP mean Average Precision

MED Multimedia Event Detection

VSD Violent Scene Detection

CNN Convolutional Neural Networks

DF Deep Feature

Trang 15

Mở đầu

1.1 Đặt vấn đề

Cùng với sự phát triển của công nghệ thông tin, cũng như sự phổ biến của cácthiết bị cầm tay có chức năng ghi hình như điện thoại , ipad thì lượng dữ liệuđặc biệt là dữ liệu video ngày một gia tăng Theo thống kê của Smart Insights1thì năm 2014 trong 1 giây có khoảng 300 giờ video được upload - chia sẻ trênyoutube và số lượng này ngày càng tăng Chính sự bùng nổ về mặt dữ liệu này

đã phát sinh ra nhu cầu trong việc quản lý, tìm kiếm, phân tích và kiểm soát nộidung hay các sự kiện diễn ra trong video trước khi các nội dung này được uploadlên các kênh chia sẻ hoặc tiếp cận đến người xem Đây cũng là mục tiêu chínhcủa bài toán phát hiện sự kiện trong video (multimedia event detection - MED)2.Trong đó các sự kiện ở đây được chia làm 2 mức: nhận dạng các hành động củacon người (human actions, human activities) ví dụ như hôn nhau (kissing), ômnhau (hugging), và nhận dạng các sự kiện phức tạp liên quan đến tương tác giữangười với người, người với môi trường cảnh vật xung quanh, ví dụ như đỗ xe saituyến, ăn trộm, và cảnh bạo lực trong phim (violent scene detection)

Bài toán MED được mô tả như sau: đầu vào thường là một video và danhsách các sự kiện, yêu cầu đầu ra là các đoạn video chứa nội dung tương ứng với

sự kiện cho trước được rút ra từ video đầu vào (hình1.2 là ví dụ minh họa về hệ

1 http://www.smartinsights.com/internet-marketing-statistics/happens-online-60-seconds/

2 http://www.multimediaeval.org/

Trang 16

Chương 1 Tổng quan

Hình 1.1: Lượng dữ liệu được upload lên Internet trong 1 giây1

thống phát hiện cảnh bạo lực trong video)

Với rất nhiều ứng dụng được đưa vào thực tế như hệ thống hỗ trợ quản lí nộidung (phát hiện các đoạn video liên quan đến bạo lực, nội dung người lớn )hay các hệ thống video giám sát (surveillance video) [9], [10],[11],[12] thì bàitoán phát hiện sự kiện trong video đang được cộng đồng nghiên cứu về thị giácmáy quan tâm giải quyết

Trong kiến trúc chung của hệ thống phát hiện sự kiện trong video thì bộ nhậndạng, phát hiện đóng vai trò quyết định độ chính xác của hệ thống Trong giaiđoạn xây dựng bộ nhận dạng thì việc rút trích và chọn đặc trưng (feature) cóvai trò rất quan trọng vì chúng sẽ được sử dụng làm dữ liệu để huấn luyện môhình đối tượng cần nhận dạng (hình 1.3) Trong các nghiên cứu gần đây, một

số đặc trưng thị giác (visual feature) thường được sử dụng đó là: Scale-Invariant

1 http://www.smartinsights.com/internet-marketing-statistics/happens-online-60-seconds/

Trang 17

Hình 1.2: Ví dụ phát hiện cảnh bạo lực trong đoạn video

Feature Transform -SIFT , Histogram of Oriented Gradients -HoG Tuy nhiên,các đặc trưng này đều do các chuyên gia đề xuất (hand-craffed)- mới chỉ biểudiễn thông tin ở cấp thấp – thông tin về cạnh trong ảnh (only capture low-leveledge information) [13], chưa thể hiện được hết được tính ngữ nghĩa cũng như độphức tạp của một khái niệm sự kiện

Hình 1.3: Các giai đoạn xây dựng bộ nhận dạng

Deep Learning (DL) là một khái niệm chỉ các thuật toán máy học để xâydựng mô hình đối tượng bằng cách học theo nhiều cấp biểu diễn từ các quan

hệ phức tạp trong dữ liệu học [1] Một trong những lý do mà DL được đặc biệtchú ý tới trong bài toán nhận dạng đó là khả năng học đặc trưng (learn featurerepresentation) Với các kết quả nổi bật so với các phương pháp trước đây (đặcbiệt trong bài toán nhận dạng ảnh độ chính xác nhận dạng tăng một số đáng kể

so với các thuật toán trước đây [4]), cũng như được áp dụng trong nhiều lĩnh vựckhác nhau như: nhận dạng ảnh, xử lý tiếng nói, xử lý ngôn ngữ tự nhiên DLđang là một xu hướng mà cộng đồng nghiên cứu trên thế giới đặc biệt quan tâm

Trang 18

Chương 1 Tổng quan

Theo đó, nội dung luận văn này học viên sẽ tìm hiểu tổng quan về DL và

áp dụng DL cho bài toán phát hiện cảnh bạo lực trong video (Violent ScenesDetection -VSD) - đây cũng là một dạng sự kiện trong lớp các bài toán về pháthiện sự kiện trong video Đầu vào của bài toán là video clip, yêu cầu đầu ra làcác đoạn video có chứa nội dung bạo lực Đây là một trong những ví dụ điển hìnhthể hiện mức độ phức tạp của bài toán phát hiện sự kiện Khái niệm sự kiện bạolực ở đây có mức độ nhập nhằng và mang tính ngữ nghĩa cao Do sự kiện bạolực có sự tham gia tương tác của nhiều đối tượng (con người, vũ khí, xe ) cũngnhư kết hợp của nhiều hoạt động, hành vi khác nhau, trong khi đó việc phát hiệnriêng rẽ một hành động hay đối tượng cũng đã là bài toán khó

• DL bao gồm nhiều thuật toán khác nhau cũng như nhiều thư viện đã càiđặt các thuật toán này Việc lựa chọn thuật toán, thư viện phù hợp cho vấn

Trang 19

• DL là một xu hướng mới đang được quan tâm nghiên cứu Đặc biệt với khảnăng tự học và đưa ra các đặc trưng trong các bài toán nhận diện ảnh.

• Việc áp dụng DL vào bài toán phát hiện sự kiện trong video đang ở bước

sơ khởi Đây là hướng nghiên cứu tiềm năng và còn nhiều cơ hội cho cácnhóm mới bắt đầu

• Đối với cộng đồng nghiên cứu trong nước thì DL vẫn lĩnh vực mới - chưa

có tài liệu tiếng việt giới thiệu về DL, cũng như bài toán phát hiện sự kiệntrong video chưa có nhiều nghiên cứu

sẽ giúp đánh giá, lựa chọn được một thuật toán cụ thể để giải quyết yêucầu đặt ra

Trang 20

1 Nghiên cứu và khảo sát bài toán phát hiện cảnh bạo lực trong video.

2 Tìm hiểu tổng quan kĩ thuật DL, hệ thống lại các kiến thức cơ sở của thuậttoán DL Giới thiệu về Convolutional Neural Networks (CNN) - thuật toánhiện cho kết quả cao nhất về độ chính xác trên các bài toán về thị giác máy

3 Đề xuất sử dụng đặc trưng được rút ra từ các mô hình DL hay còn gọi làDeep Feature (DF) vào bài toán VSD Thực hiện việc đánh giá và so sánhtrên tập dữ liệu chuẩn được cộng đồng nghiên cứu bài toán trên thế giới sửdụng

Phạm vi:

• Nghiên cứu trên bài toán phát hiện cảnh bạo lực trong video (Violent ScenesDetection -VSD) - đây cũng là một dạng sự kiện trong lớp các bài toán vềphát hiện sự kiện trong video MED

• Hệ thống lại các kiến thức cơ sở của thuật toán DL và các nghiên cứu liênquan cũng như trình bày kiến thức về CNN

• Tiến hành thực nghiệm và đánh giá đề xuất trên tập dữ liệu chuẩn của cuộcthi VSD-2014 (Media Eval – Violent Scene Detection dataset [12])

1.3 Cấu trúc luận văn

Trong chương1học viên đã giới thiệu động lực nghiên cứu cũng như mục tiêu

và phạm vi trong luận văn này Các nội dung sẽ được trình bày trong các chươngtiếp theo có cấu trúc như sau:

Trang 21

• Chương 2 có nội dung giới thiệu bài toán phát hiện cảnh bạo lực trongvideo và các hướng nghiên cứu liên quan.

• Trong chương 3 học viên sẽ giới thiệu kiến thức tổng quan về DL, một sốkiến thức và lý thuyết cơ sở được sử dụng Nội dung chính của chương sẽgiới thiệu thuật toán CNN và một số nghiên cứu liên quan đến việc sử dụng

DL trong việc giải quyết các bài toán về thị giác máy

• Chương 4sẽ giới thiệu việc áp dụng DL vào giải quyết bài toán VSD Trongnội dung của chương này cũng sẽ tiến hành các đánh giá phương pháp đềxuất trên tập dữ liệu chuẩn của bài toán VSD Theo đó, học viên sẽ trìnhbày chi tiết về các bộ dữ liệu, việc cài đặt thí nghiệm và kết quả thí nghiệm

• Nội dung trong chương 5, học viên sẽ tổng kết về luận văn, bàn luận thêm

về phương pháp đề xuất và hướng cải tiến, mở rộng để nâng cao hiệu suấtcủa hệ thống trong thời gian tới

Trang 22

2.1 Phát biểu bài toán

Ngày nay, Internet đã trở nên rất phổ biến, mọi người ở mọi lứa tuổi đều cóthể dễ dàng tiếp cận với các thông tin mà mình quan tâm dưới nhiều hình thứckhác nhau như bằng văn bản, hình ảnh, âm thanh hoặc các đoạn video Trong

đó video là một những phương thức trực quan với lượng dữ liệu rất lớn, đượcchia sẻ trên nhiều kênh Tuy nhiên, không phải tất cả các nội dung đều phù hợpvới mọi lứa tuổi đặc biệt là trẻ em Đã có nhiều nghiên cứu cũng như dẫn chứng

đã chứng minh có sự ảnh hưởng giữa nội dung video đến hành vi của trẻ emđặc biệt là các nội dung bạo lực [14] Theo thống kê từ báo An ninh Thủ đô thìtrong 6 tháng đầu năm 2011 có 15.000 vụ phạm pháp hình sự, xử lý trên 22.000đối tượng, trong đó có hơn 75% tội phạm hình sự là thanh thiếu niên, bài báochỉ ra rằng một trong những nguyên nhân đó là sự tác động của việc quá nhiềuphim bạo lực cũng như các trò chơi trực tuyến có nội dung bạo lực tràn lan trên

Trang 23

internet (hình 2.2).

Từ thực tế này bài toán phát hiện cảnh bạo lực trong video được đề xuất vàđược mô tả như sau: đầu vào là video bất kì, đầu ra là các cảnh có chứa thôngtin bạo lực (hình 2.3)

Hình 2.1: Thống kê cho thấy trong 6 tháng đầu năm 2011 có hơn 75% tội phạmhình sự là thanh thiếu niên

Hình 2.2: Có sự ảnh hưởng của việc xem video có nội dung bạo lực đến hành vicủa trẻ em 2

2 http://anninhthudo.vn/phap-luat/75-toi-pham-hinh-su-la-nguoi-tre/420361.antd

Trang 24

2 Bài toán phát hiện cảnh bạo lực trong video

Hình 2.3: Mô tả bài toán VSD

Đây là một bài toán có tính ứng dụng cao, là tiền đề cho việc xây dựng các

hệ thống tự động nhằm hỗ trợ phân tích và kiểm soát nội dung các video trướckhi đến với người dùng, đặc biệt là trẻ em Trong đó, khái niệm bạo lực được sửdụng trong luận văn được định nghĩa như sau: cảnh bạo lực là cảnh chứa hìnhảnh không nên cho một đứa trẻ dưới 8 tuổi xem - “one would not let an 8 yearsold child see in a movie because they contain physical violence” Đây là khái niệmđược đề xuất sử dụng trong cuộc thi về phát hiện cảnh bạo lực trong video (The

2014 Affect in Multimedia Task: Violent Scenes Detection)3, cuộc thi thu hút rấtnhiều đội ở nhiều phòng thí nghiệm, các viện nghiên cứu ở khắp nơi trên thế giớitham gia

Kiến trúc tổng quan của một hệ thống phát hiện cảnh bạo lực bao gồm cácphần chính sau: (1) tiền xử lý video, (2) trích xuất và biểu diễn đặc trưng, (3) sửdụng thuật toán máy học để xây dựng mô hình từ tập đặc trưng rút trích, (4) sửdụng mô hình đã học để phát hiện các cảnh bạo lực trong video đầu vào (hình

2.10) Trong đó độ chính xác của hệ thống phụ thuộc nhiều vào việc trích chọnđặc trưng phù hợp ở bước (2) để biểu diễn cho khái niệm bạo lực

3 http://www.multimediaeval.org/mediaeval2014/violence2014/

Trang 25

Hình 2.4: Kiến trúc tổng quan hệ thống VSD

2.2 Một số thách thức

Độ lớn và phức tạp về mặt dữ liệu video cần xử lý cũng như sự nhập nhằng,tính ngữ nghĩa cao của khái niệm bạo lực là những thách thức chính trong bàitoán phát hiện cảnh bạo lực trong video

2.2.1 Về mặt dữ liệu

• Sự mất cân bằng (imbalanced dataset) của dữ liệu, trong dữ liệu video sốlượng các cảnh chứa bạo lực thường ít hơn nhiều so với các cảnh còn lạiđây là thách thức lớn cho các thuật toán máy học hiện nay Chẳng hạntrong dữ liệu của cuộc thi phát hiện sự kiện trong video (TRECVID 2011,multimedia event detection task) với hơn 32,000 video clip của gần 1,000giờ video, nhưng số lượng liên quan trung bình khoảng 100 cho mỗi sự kiện

• Dữ liệu huấn luyện không đủ Thông thường các thuật toán học máy sẽlàm việc tốt khi dữ liệu huấn luyện (training data) nhiều và phủ hầu hết

Trang 26

Hình 2.5: Minh họa tính phức tạp và mất cân bằng của dữ liệu

các biến đổi (variation) của dữ liệu cần phân loại Tuy nhiên đối với các bàitoán nhận dạng sự kiện trong thực tế, tìm kiếm được nhiều dữ liệu huấnluyện lại rất khó khăn Lấy ví dụ ở trên, chỉ có khoảng 100 mẫu trong hơn32,000 mẫu, nên việc tìm ra 100 mẫu này lại rất tốn kém công sức Ngoài

ra, các thuật toán hiện nay hầu hết chỉ chạy tốt cho một số loại dữ liệunhất định, khả năng tổng quát hóa chưa cao

• Các loại đặc trưng thường được sử dụng hiện nay đòi hỏi tài nguyên lớnhàng trăm CPU cores, GPU, quá trình tính toán rất phức tạp

• Đối với dữ liệu thức tế, ví dụ dữ liệu thu được qua hệ thống giám sát cóchất lượng và độ phân giải kém ( minh họa hình 2.6 )

Hình 2.6: Độ phân giải của dữ liệu thực tế

Trang 27

2.2.2 Độ phức tạp của khái niệm bạo lực

Khái niệm bạo lực nhập nhằng đôi khi còn phụ thuộc vào suy nghĩ chủ quancủa con người Một cảnh đối với người là bạo lực, nhưng có thể người khác lạikhông bạo lực Trước năm 2011, do chưa có định nghĩa hình thức của khái niệmbạo lực và cũng chưa có tổ chức nào phát triển các bộ dữ liệu chuẩn cho bài toánnày nên các công trình nghiên cứu thường sử dụng khái niệm bạo lực tự địnhnghĩa và tiến hành trên các bộ dữ liệu tự thu thập Trong đó, các khái niệm liênquan đến bạo lực (như cảnh có máu và lửa, âm thanh cháy nổ ) thay thế chokhái niệm bạo lực Cho đến năm 2011 sau khi MediaEval VSD phát triển địnhnghĩa hình thức của khái niệm bạo lực và công bố kèm bộ dữ liệu chuẩn thì cácnghiên cứu mới sử dụng thống nhất chung khái niệm

Hình 2.7: Minh họa tính phức tạp khái niệm bạo lực nhiều thể hiện

Bên cạnh đó, khái niệm bạo lực còn mang tính ngữ nghĩa cao do liên quanđến nhiều đối tượng cũng như nhiều loại hoạt động, hành vi tương tác với nhau.Đây là bài toán phức tạp do đối với bài toán đơn thuần phát hiện từng đối tượng,hành vi cũng đã là bài toán khó

Trong nội dung luận văn này, học viên tập trung vào việc giải quyết tháchthức phức tạp của khái niệm bạo lực bằng cách sử dụng các đặc trưng Deep

Trang 28

feature từ một số mô hình DL

2.3 Một số nghiên cứu liên quan

Các nghiên gần đây tập trung vào việc trích chọn đặc trưng để biểu diễn kháiniệm bạo lực trong video Theo đó, dựa vào các loại đặc trưng được sử dụng ta cóthể chia các nghiên cứu liên quan thành các hướng nghiên cứu chính sau: hướngnghiên cứu sử dụng đặc trưng thị giác (visual feature) [15], [16], hướng nghiêncứu sử dụng đặc trưng âm thanh [17],[18] , hướng nghiên cứu sử dụng kết hợp đađặc trưng [19],[20], [21],[3]

Hình 2.8: Thuộc tính biểu diễn thông tin bạo lực [2]

Một số đặc trưng thị giác thường được sử dụng như Scale-Invariant FeatureTransform (SIFT), Histogram of Oriented Gradients (HoG), Histograms of Op-tical Flow (HoF), Trong đó, một số nghiên cứu trước đây sử dụng những đặctrưng này để phát hiện các phân cảnh chứa lửa, máu, vụ nổ, làm cơ sở để pháthiện cảnh bạo lực Nghiên cứu đầu tiên thuộc lĩnh vực này là của Jeho và cộng sự[15], nhóm tác giả đề xuất tiếp cận nhận dạng cảnh bạo lực bằng cách phát hiệncác cảnh xuất hiện ngọn lửa, máu, phân tích mức độ chuyển động và sử dụng đặctrưng của hiệu ứng âm thanh Trong khi đó, Chen và cộng sự đã tách rời việcphát hiện cảnh bạo lực thành phát hiện cảnh hành động và cảnh đẫm máu [16].Bên cạnh đó, các nghiên cứu gần đây sử dụng các thuộc tính (attributes) để biểudiễn khái niệm bạo lực Các thuộc tính ở đây liên quan đến hành vi, sự kiện, vật

Trang 29

dụng liên quan đến bạo lực như: lửa (fire), vũ khí nóng (firearms), vật dụng gâysát thương (cold arms), rượt đuổi xe (car chases), cảnh chết chóc (gore), máu(blood), đánh nhau (fights) [2] Tuy nhiên, trong nghiên cứu này tác giả chỉ sửdụng các đặc trưng handcraffed để biểu điễn các khái niệm thuộc tính.

Âm thanh cũng là một yếu tố quan trọng để phát hiện cảnh bạo lực trongvideo, Mel-frequency Cepstral Coefcient (MFCC) là đặc trưng âm thanh thườngđược các nhóm nghiên cứu sử dụng Trong đó bằng việc sử dụng MFCC cácnhóm nghiên cứu đã giành giải nhất cuộc thi về phát hiện sự kiện trong video(TRECVID Multimedia Event Detection 2010) [17],[18]

Hình 2.9: Một số loại đặc trưng hình ảnh và âm thanh

Hướng nghiên cứu giải quyết bài toán bằng cách kết hợp đa đặc trưng gầnđây cũng được nhiều nhóm nghiên cứu quan tâm Trong nghiên cứu [19], tác giả

đã so sánh và đánh giá các loại đặc trưng trong đó bao gồm việc kết hợp đặctrưng thị giác và âm thanh Ngoài ra cách thức kết hợp các loại đặc trưng vớinhau cũng được quan tâm nghiên cứu Các nghiên cứu [20], [21], [3] chỉ ra rằng

có hai hướng kết hợp đó là (1) Early fusion: kết hợp các loại đặc trưng trước làm

dữ liệu huấn luyện mô hình, (2) Late fustion: tổng hợp từ kết quả của các môhình được học từ các đặc trưng riêng rẽ Trong quá trình thực nghiệm, nhóm các

Trang 30

tác giả này cũng đưa ra các kết quả thực nghiệm cho thấy độ chính xác của LateFustion cao hơn so với Early Fusion

Hình 2.10: Framework kết hợp các loại đặc trưng [3]

Như vậy, hầu hết các nghiên cứu trước đây đều sử dụng các loại đặc trưngcấp thấp (lower feature), các đặc trưng này được đề xuất bởi các chuyên gia(handcraffed)-mới chỉ biểu diễn thông tin ở cấp thấp – thông tin về cạnh trongảnh (only capture low-level edge information)[13] Do đó các đặc trưng này chưathể hiện được mức ngữ nghĩa cũng như phức tạp của khái niệm bạo lực

Trang 31

và phân lớp ảnh gần đây cho thấy các đặc trưng được rút trích từ các thuật toánDeep learning cho kết quả cao hơn so với các đặc trưng hand-craffed Một trongnhững đặc điểm nổi bật của của Deep learning là mô hình hóa được đối tượngcần học bằng cách tự học được các đặc trưng trực tiếp từ dữ liệu đầu vào theonhiều tầng, tầng sau khái quát hơn các tầng trước Theo đó, nội dung chính củaluận văn sẽ tìm hiểu và nghiên cứu thuật toán DL và đề xuất áp dụng Dl vàogiải quyết bài toán VSD.

Trang 32

Chương 3

Tổng quan về Deep learning

Nội dung chính của chương tập trung vào việc hệ thống lại các kiến thức vềDeep learning(DL) và giới thiệu một số nghiên cứu liên quan đến việc áp dụng

DL trong các bài toán về thị giác máy Trong đó, phần 3.1 sẽ đề cập đến mạngneural nhân tạo (Artificial Neural Network), đây cũng là kiến thức cơ sở sử dụngcho việc giới thiệu về DL trong phần 3.2 Cho tới thời điểm thực hiện luận vănnày, thuật toán Convolutional Neural Networks (CNN) là thuật toán cho kết quảtốt nhất trong bài toán phân lớp và nhận dạng ảnh, đây cũng là thuật toán đượchọc viên sử dụng trong luận văn của mình sẽ được giới thiệu chi tiết trong phần

3.3 Một số thư viện và framwork hỗ trợ DL thường được các nhóm nghiên cứu

sử dụng được đề cập đến trong phần 3.4 Cuối chương phần3.5 sẽ trình bày một

số nghiên cứu liên quan đến việc sử dụng DL trong lĩnh vực thị giác máy

3.1 Neural networks

Mạng neural nhân tạo (Artificial Neural Network : ANN), gọi tắt neuralnetwork là mô hình xử lý thông tin mô phỏng hoạt động của các hệ neural sinhhọc mà cụ thể hơn ở đây là bộ não con người Trong đó, thành phần cơ bản củaANN là neural nhân tạo có cách thức hoạt động và xử lý tương tự neural sinhhọc ANN được hình thành từ số lượng lớn các neural được liên kết với nhau theocấu trúc từng tầng (layer), các neural kết nối với nhau giữa các tầng thông quatrọng số liên kết (weight)

Trang 33

3.1.1 Neural sinh học

Cách thức hoạt động của bộ não nói riêng và của hệ thần kinh nói chung đãđược con người quân tâm nghiên cứu từ rất lâu nhưng cho đến nay các nhà khoahọc vẫm chưa thực sự hiểu rõ chi tiết về hoạt động của bộ não và hệ thần kinh.Đặc biệt là trong các hoạt động liên quan đến trí óc như suy nghĩ, học tập, tưduy, trí nhớ, sáng tạo Tuy nhiên, các nhà khoa học cũng có một số thông tincăn bản về bộ não con người Theo đó, một bộ não con người trung bình cânnặng khoảng 1,5kg và có thể tích là 235 cm3 , cấu tạo bộ não được chia ra làmnhiều vùng khác nhau, mỗi vùng kiểm soát một hay nhiều hoạt động của conngười Hoạt động của cả hệ thống thần kinh bao gồm não bộ và các giác quannhư sau: đầu tiên con người nhận được kích thích bởi các giác quan từ bên ngoàihoặc trong cơ thể Các kích thích này được biến thành các xung điện bởi chínhcác giác quan tiếp nhận kích thích Những tín hiệu này được chuyển về trungương thần kinh là bộ não để xử lý Tại bộ não các thông tin sẽ được xử lý, đánhgiá và so sánh với các thông tin đã được lưu trữ để đưa ra các quyết định dướidạng các xung điện1 Từ những quyết định từ bộ não sẽ sinh ra các mệnh lệnhcần thiết và gửi đến những bộ phận thi hành thích hợp như các cơ tay, chân, giácquan

Hình 3.1: Minh họa bộ não con người 2

1 https://www.youtube.com/watch?v=Qm0cAqdjHGA

2 http://science-all.com/brain-coloring-page.html

Trang 34

Chương 3.Tổng quan về Deep learning

Khi xem xét ở mức độ tế bào thì bộ não được hình thành từ 1011 phần tử gọi

là nơ-ron (hay neural sinh học)1 Mỗi neural được liên kết chặt chẽ với 104 neuralkhác Các neural này có nhiều đặc điểm chung với các tế bào khác trong cơ thể,ngoài ra chúng có những khả năng mà các tế bào khác không có được đó là khảnăng nhận, xử lý và truyền các tín hiệu điện hóa làm cơ sở hình cách thức xử lýthông tin của bộ não Hình 3.2 mô tả cấu tạo và cách thức hoạt động của neuralsinh học, trong đó mỗi neural sinh học có 4 thành phần cơ bản:

• Thân neural (cell body) chứa nhân (nucleus) hay một số tài liệu gọi là soma

có nhiệm vụ chính là tổng hợp và xử lý các tín hiệu điện nhận vào từ cácđầu vào Bản chất của quá trình này chính là việc lấy tổng tất cả các tínhiệu neural nhận được

• Các nhánh tín hiệu vào (denrites) đây chính là các mạng dạng cây của cácdây thần kinh truyền tín hiệu vào đến thân neural

• Sợi trục ra (axon) có chức năng truyền tín hiệu từ thân tế bào này sangneural khác Phần cuối của axon được chia thành nhiều nhánh nhỏ (cả củadenrites và axon) kết thúc tại khớp nối (Synapse)

• Khớp nối (Synapse) là điểm liên kết giữa sợi trục ra của neural này với cácnhánh denrites của neural khác Liên kết giữa các neural và độ nhạy củamỗi synapse được xác định bởi quá trình học phức tạp Khi điện thế củasynapses tăng lên do xung điện phát ra từ axon thì synapses sẽ tiết ra mộtloại hóa chất để kết nối mở ra cho các ion đi qua nó Các ion này làm thayđổi tín hiệu điện thế trên các điểm tiếp xúc tạo ra các xung điện lan truyềntới các neural khác

Một cách tổng quát neural sinh học hoạt động theo cách thức sau: neural nhậntín hiệu đầu vào từ các denrites sau đó xử lý các tín hiệu này tại nhân neural mà

cụ thể hơn là lấy tổng tất cả các tín hiệu đầu vào mà nó nhận được sau đó phát

ra một tín hiệu điện thế; nếu tổng tất cả các tín hiệu điện lớn hơn một ngưỡngcho phép nào đó thì xử lý và cho ra một tín hiệu đầu ra Tín hiệu đầu ra này

1 https://www.khanacademy.org/science/biology/human-biology

1 http://katie-humanbio.blogspot.com/2008/04/overview-of-nervous-system.html

Trang 35

Hình 3.2: Minh họa cấu tạo neural sinh học 1

được truyền qua axon và chính là tín hiệu đầu vào của một neural khác.Dựa trêncấu trúc và cách thức hoạt động của neural sinh học, các nhà nghiên cứu đã đềxuất mô hình neural nhân tạo được trình bày chi tiết ở phần sau

3.1.2 Neural nhân tạo

Một neural là một đơn vị xử lý thông tin và là thành phần cơ bản của mộtmạng ANN Cấu trúc của một neural được mô tả trong hình 3.3

• Hàm kết hợp ak (combination function): Thường dùng để tính tổng củatích các giá trị đầu vào với trọng số liên kết tương ứng của nó (vì thế một

số tài liệu là hàm tổng - summing function)

Trang 36

Hình 3.3: Cấu trúc neural nhân tạo

• Đầu ra yk: Là tín hiệu đầu ra của một neural

Trang 37

Bảng 3.1: Một số hàm truyền trong mạng neural

yk= f(ak) (3.2)Như vậy, tương tự như neural sinh học, neural nhân tạo cũng nhận các tínhiệu đầu vào, xử lý ( nhân các tín hiệu này với trọng số liên kết, tính tổng cáctích thu được rồi gửi kết quả tới hàm truyền), và cho một tín hiệu đầu ra ( là kếtquả của hàm truyền)

Trang 38

3.1.3 Mạng neural nhân tạo (Artificial Neural Networks)

Mạng neural nhân tạo là một mô hình tính toán gồm nhiều phần tử xử lý gọi

là neural được liên kết với nhau và cùng hoạt động song song Tính năng hoạtđộng của mạng phụ thuộc vào cấu trúc mạng, trọng số liên kết giữa các neural

và quá trình xử lý bên trong neural Nguyên lý cấu tạo của một mạng bao gồmmột hoặc nhiều tầng (layer) hay lớp Mỗi tầng bao gồm nhiều neural có cùng mộtchức năng trong mạng1 Dựa vào số tầng hay sự liên kết giữa các lớp trong mạng

mà người ta phân ANN thành các nhóm khác nhau

Phân loại dựa theo số tầng

Dựa theo số tầng trong mạng thì ANN gồm hai loại: mạng một tầng và mạngnhiều tầng

• Mạng một tầng: Mạng một tầng cấu thành từ một tầng neural, nó vừa

là tầng vào vừa là tầng ra

Hình 3.4: Minh họa ANN một tầng

• Mạng nhiều tầng: Mạng nhiều tầng tổng quát có n tầng (n ≥ 2) : trong

đó gồm tầng nhận tín hiệu đầu vào được gọi tầng đầu vào (input) Các tínhiệu đầu ra của mạng được sản sinh bởi tầng ra của mạng - tầng thứ n.Các tầng nằm giữa tầng vào và tầng ra được gọi là tầng ẩn - có (n-1) tầng

ẩn (thông thường tầng đầu tiên chỉ có tác dụng chuyển tín hiệu vào tầngtiếp theo)

Trang 39

Hình 3.5: Minh họa mạng nhiều tầng truyền thẳng

Phân loại theo cách thức liên kết

Dựa vào cách thức truyền dữ liệu giữa các thành phần trong mạng người ta

có thể chia ANN làm hai loại thường được sử dụng:

• Mạng truyền thẳng (feedforward neural networks): Dòng dữ liệu từ đơn

vị đầu vào đến đơn vị đầu ra chỉ được truyền thẳng Việc xử lý dữ liệu cóthể trên nhiều lớp, nhưng không có những liên kết ngược Cụ thể hơn làkhông có các liên kết từ các neural từ các lớp đầu vào và các neural ở cáclớp đầu ra hay các neural trong cùng một lớp cũng không có liên kết vớinhau (3.5 minh họa lớp truyền thẳng n lớp)

• Mạng hồi quy(recurrent neural network): Khác với mạng truyền thẳng,mạng hồi quy chứa các liên kết ngược - có sự kết nối giữa neural đầu ravới neural đầu vào Mạng lưu lại các trạng thái trước đó, và trạng thái tiếptheo không chỉ phụ thuộc vào các tín hiệu đầu vào mà còn phụ thuộc vàocác trạng thái trước đó của mạng, hình 3.6 minh họa một mạng hồi quy.Hoạt động của ANN có thể mô tả một cách cụ thể như sau: tại tầng đầu vàocác neural sẽ nhận tín hiệu và xử lý (tính tổng trọng số, gửi thông tin tới hàmtruyền) rồi cho kết quả (là kết quả thông qua hàm kích hoạt) Kết quả này sẽ

1 http://neuralnetworksanddeeplearning.com/

Trang 40

Hình 3.6: Minh họa mạng hồi quy

được truyền tới các neural thuộc tầng ẩn thứ nhất, các neural tại đây tiếp nhậnnhư tín hiệu đầu vào xử lý và gửi kết quả đến tầng ẩn thứ 2 quá trình này tiếptục cho đến khi các neural thuộc tầng cuối cho ra kết quả

3.1.4 Huấn luyện ANN

Chức năng của một mạng ANN được quyết định bởi các nhân tố như sau:hình trạng hay cấu trúc của mạng (số tầng, số neural trong mỗi tầng và cách cáctầng liên kết với nhau) và các trọng số của các liên kết bên trong mạng Kiếntrúc mạng thường là cố định tương ứng với mỗi bài toán và các trọng số liên kếtđược quyết định bởi một thuật toán huấn luyện (training algorithm) Tiến trìnhđiều chỉnh các trọng số để mạng có thể nhận biết được mối quan hệ giữa đầu vào

và đích mong muốn được gọi là học (learning) hay huấn luyện (training)

Để làm rõ hơn ta giả sử cho tập huấn luyện (training set) (xi, yi), ,(xk, yk),với xi là dữ liệu đầu vào và giá trị mong muốn có được sau khi tính toán quamạng là yi Ta gọi yi0 là giá thực đầu ra tương ứng vơí mẫu huấn luyện xi, khi

đó quá trình huấn luyện bản chất là sự thay đổi các trọng số liên kết của mạngthông qua mẫu huấn luyện sao cho |yi - yi0| (được gọi là độ lệch hay sai số) là nhỏnhất Như vậy việc huấn luyện hay cho mạng học là bài toán xác định các trọng

số trong mạng sao cho sai số là nhỏ nhất

Có nhiều thuật toán dùng để huấn luyện mạng ANN trong đó thuật toán lantruyền ngược (back-propagation) được sử dụng phổ biến

Định dạng
Số trang	91
Dung lượng	15,84 MB