Nghiên cứu kỹ thuật nhận dạng trong phát hiện hành động có thể gây nguy hiểm của học sinh

BỘ GIÁO DỤC VÀ ĐÀO TẠO UBND TỈNH THANH HÓA TRƢỜNG ĐẠI HỌC HỒNG ĐỨC NGUYỄN CẨM NGỌC NGHIÊN CỨU KỸ THUẬT NHẬN DẠNG TRONG PHÁT HIỆN HÀNH ĐỘNG CÓ THỂ GÂY NGUY HIỂM CỦA HỌC SINH LUẬN VĂN THẠC SĨ CƠNG NGHỆ THƠNG TIN THANH HĨA, NĂM 2020 BỘ GIÁO DỤC VÀ ĐÀO TẠO UBND TỈNH THANH HÓA TRƢỜNG ĐẠI HỌC HỒNG ĐỨC NGUYỄN CẨM NGỌC NGHIÊN CỨU KỸ THUẬT NHẬN DẠNG TRONG PHÁT HIỆN HÀNH ĐỘNG CÓ THỂ GÂY NGUY HIỂM CỦA HỌC SINH LUẬN VĂN THẠC SĨ CƠNG NGHỆ THƠNG TIN Chun ngành: Khoa học máy tính Mã số: 8480101 Ngƣời hƣớng dẫn khoa học: PGS.TS HOÀNG VĂN DŨNG THANH HĨA, NĂM 2020 LỜI CAM ĐOAN Tơi xin cam đoan luận văn “Nghiên cứu kỹ thuật nhận dạng phát hành động gây nguy hiểm học sinh” đề tài nghiên cứu cá nhân tơi dƣới hƣớng dẫn PGS.TS Hồng Văn Dũng, trung thực không chép tác giả khác Trong toàn nội dung nghiên cứu luận văn, vấn đề đƣợc trình bày tìm hiểu nghiên cứu cá nhân tơi đƣợc trích dẫn từ nguồn tài liệu có ghi tham khảo rõ ràng, hợp pháp Tơi xin chịu trách nhiệm hình thức kỷ luật theo quy định cho lời cam đoan Thanh Hóa, ngày tháng Ngƣời cam đoan Nguyễn Cẩm Ngọc i năm 2020 LỜI CẢM ƠN Trƣớc tiên em xin gửi lời cảm ơn sâu sắc đến Thầy hƣớng dẫn, PGS.TS Hồng Văn Dũng tận tình hƣớng dẫn, truyền đạt kiến thức, kinh nghiệm cho em suốt trình thực luận văn Xin gửi lời cảm ơn đến quý thầy cô Khoa Công nghệ thôn tin – Truyền thông , Trƣờng đại học Hồng Đức, ngƣời truyền đạt kiến thức quý báu cho em suốt thời gian học tập vừa qua Tôi xin gửi lời cảm ơn tới đồng chí lãnh đạo đơn vị trƣờng THPT Nông Cống I - Huyện Nông Cống - Thanh Hóa tạo điều kiện thời gian để tơi hồn thành chƣơng trình học Sau xin gửi lời cảm ơn đến gia đình, bạn bè bạn học viên lớp thạc sĩ khoa học máy tính khóa 2018-2020 ln động viên, giúp đỡ trình học tập làm luận văn Mặc dù thân cố gắng nghiên cứu nhƣng với khả kiến thức có hạn nên khơng tránh khỏi thiếu sót Rất mong nhận đƣợc góp ý q báu từ Q Thầy, Cơ để luận văn đƣợc hoàn chỉnh Một lần em xin chân thành cảm ơn! ii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT vi DANH MỤC BẢNG BIỂU vii DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ viii MỞ ĐẦU 1 Lý chọn đề tài Mục đích đề tài Đối tƣợng phạm vi nghiên cứu 3.1 Đối tƣợng nghiên cứu đề tài 3.2 Phạm vi nghiên cứu Phƣơng pháp nghiên cứu 4.1 Phƣơng pháp nghiên cứu lý thuyết 4.2 Phƣơng pháp nghiên cứu thực nghiệm Dự kiến kết đạt đƣợc CHƢƠNG 1: TỔNG QUAN VỀ CƠ SỞ LÝ THUYẾT 1.1 Trí tuệ nhân tạo 1.1.1 Một số khái niệm chung 1.1.2 Một số ứng dụng trí tuệ nhân tạo 1.2 Một số phƣơng pháp học máy 1.2.1 Khái niệm chung 1.2.2 Phân loại phƣơng pháp học máy 1.3 Trích chọn biểu diễn đặc trƣng 10 1.3.1 Trích chọn biên phƣơng pháp Canny 11 1.3.2.Trích chọn đặc trƣng Haar 13 1.3.3 Trích chọn đặc trƣng HOG 15 iii 1.4 Kỹ thuật học sâu 25 1.4.1 Một số khái niệm 25 1.4.2 Mạng neural học sâu 25 1.4.3 Mạng neural tích chập 26 1.5 Ứng dụng nhận dạng đối tƣợng 27 CHƢƠNG MỘT SỐ KỸ THUẬT NHẬN DẠNG HÀNH ĐỘNG VÀ GIẢI PHÁP PHÁT HIỆN MỘT SỐ HÀNH ĐỒNG GÂY NGUY HIỂM 29 2.1 Một số kỹ thuật nhận dạng hành động 29 2.1.1 Máy phân loại hỗ trợ vector SVM 29 2.1.2 Giới thiệu mạng neural tích chập 31 2.2 Bài toán phát hành động gây nguy hiểm cho học sinh 40 2.3 Thiết kế mơ hình nhận dạng hành động hƣớng ứng dụng 43 2.3.1 Tổng quát mô hình phát hành động đáng ngờ 43 2.3.2 Kỹ thuật nhận dạng hành động phƣơng pháp học nông 45 2.3.3 Kỹ thuật nhận dạng hành động phƣơng pháp học sâu 46 CHƢƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ MƠ HÌNH 49 3.1 Mơi trƣờng công cụ sử dụng thực nghiệm 49 3.2 Dữ liệu thực nghiệm 49 3.2.1 Dữ liệu video hành động chuẩn nghiên cứu 49 3.2.2 Tạo liệu số loại hành động gây nguy hiểm 50 3.3 Xây dựng kiến trúc thiết lập tham số 54 3.3.1 Tiền xử lý video 54 3.3.2 Tạo lớp neural kiến trúc mạng DCNN 54 3.3.3 Huấn luyện đánh giá mạng DCNN 55 3.3.4 Xử lý tăng cƣờng liệu 56 3.4 Thực nghiệm tập dự liệu chuẩn UCF 58 3.4.1 Huấn luyện mơ hình nhận dạng 58 3.4.2 Kết thực nghiệm tập liệu UCF 59 3.5 Thực nghiệm liệu tự tạo số hành động học sinh 62 iv 3.5.1 Huấn luyện mơ hình nhận dạng 62 3.5.2 Kết thực nghiệm 66 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 71 TÀI LIỆU THAM KHẢO 73 v DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Ký hiệu Diễn giải Tiếng Anh Tiếng Việt AI Artificial intelligence Trí tuệ nhân tạo ANN Artificial Neural Network Mạng nơ-ron nhân tạo CNN Convolution Neural Network Mạng nơ-ron tích chập DNN Deep Neural Network Mạng neural sâu GPU Graphics Processing Unit Đơn vị xử lý đồ họa ReLU Rectified Linear Unit Hiệu chỉnh đơn vị tuyến tính SVM Support Vetor Machines Máy vector hỗ trợ vi DANH MỤC BẢNG BIỂU Bảng So sánh độ xác tập UCF101 phƣơng pháp 61 Bảng Bảng tổng hợp số liệu mẫu theo loại hành động 62 Bảng 3 Tham số mạng học sâu đƣợc sử dụng để huấn luyện 64 Bảng Chỉ sử dụng đặc trƣng HOG 66 Bảng Chỉ sử dụng đặc trƣng HOF 66 Bảng Kết hợp loại đặc trƣng HOG+ HOF+ (HMBX HMBY) 66 Bảng Kết dự đoán hành động phƣơng pháp học sâu 69 vii DANH MỤC CÁC HÌNH Hình 1.1 Ứng dụng phổ biến học không giám sát tốn phân cụm…………………………………………………………………………… Hình 1.2 Mơ hình học bán giám sát 10 Hình 1.3 Minh họa tìm cực đại cục theo hƣớng gradient 12 Hình 1.4 Mơ tả đặc trƣng Haar-Like 13 Hình 1.5 Đặc trƣng Haar-like 13 Hình 1.6 Đặc trƣng cạnh 14 Hình 1.7 Đặc trƣng đƣờng 14 Hình 1.8 Đặc trƣng xung quanh tâm 14 Hình 1.9 Sơ đồ q trình trích rút đặc trƣng HOG 16 Hình 1.10 Đƣa tất hình ảnh tập liệu kích thƣớc chung 16 Hình 1.11 Kết thu đƣợc sau bƣớc 18 Hình 1.12 Các block xếp chồng lên 18 Hình 1.13 Chuẩn hóa histogram thành phần theo khối (block) 20 Hình 1.14 Tính tốn đặc trƣng HOG cell 20 Hình 1.15 Xây dựng biểu đồ cƣờng độ gradients cell 21 Hình 1.16 Biểu đồ kết cƣờng độ gradients cell 21 Hình 1.17 Minh họa ảnh hƣởng việc chuẩn hóa tới vector gradient 22 Hình 1.18 Mỗi block chứa cells với 9bins/cell 24 Hình 2.1 Phân chia lớp không gian hai chiều 30 Hình 2.2 Cực đại lề máy phân loại SVM 31 Hình 2.3 Mơ hình mạng neural tích chập 32 Hình 2.4 Phép tích chập với lọc 33 Hình 2.5 Phép MaxPooling 35 Hình 2.6 Phép tích chập khối (3D-CNN) 36 Hình 2.7 Các loại tích chập: (a) Tích chập 2D, (b) Tích chập 3D 38 viii 64 kernels tích chập độc lập tƣơng ứng Kết vài lớp đƣợc minh họa Hình 3.6, kết đƣợc trả lại từ mẫu hình ảnh vào Kết cho thấy lớp ReLu có ý nghĩa đáng kể so với sử dụng số lớp tích chập Chi tiết kiến trúc nhận dạng đƣợc Hình 2.10 Hình 2.14 Kết kiểm tra chéo cho thấy độ xác hệ thống đạt đƣợc tỷ lệ xác trung bình đến 90,6% Kết cho thấy cách tiếp cận dựa kết hợp cho kết tốt tốt so với học máy truyền thống SVM (a) Sử dụng kỹ thuật SVM phƣơng pháp trích xuất đặc trƣng HOG, HOF, HMB 60 (b) Sử dụng kỹ thuật trích xuất đặc trƣng DCNN Hình 3.7 Kết độ xác nhận dạng tập liệu UCF101 Kết giá trị dự đốn đƣợc trình bày với kết trung bình tất lớp tập liệu Kết kết thu đƣợc tốt sử dụng UCF101 phát đơn dùng đặc trƣng ghép nối truyền thống Với tập liệu phức tạp nhƣ UCF101 kết thu đƣợc đề tài chấp nhận đƣợc Bảng So sánh độ xác tập UCF101 phƣơng pháp STT Phƣơng pháp UCF101 Two-stream CNN [16] 88.0 ResNeXt [13] 90.7 TDDs [18] 90.3 Sử dụng DCNN 86.5 Kết hợp DCNN+SVM 90.6 61 3.5 Thực nghiệm liệu tự tạo số hành động học sinh 3.5.1 Huấn luyện mơ hình nhận dạng Để thực hiện đánh giá giải pháp đề xuất dùng mạng học sâu nhận dạng hành động, thực huấn luyện nhận dạng đánh giá với tập liệu Trong nghiên cứu sử dụng 70% mẫu cho huấn luyện 30% cho đánh giá, số lƣợng cụ thể đƣợc thể Bảng 3.2, nhƣ sau: Bảng Bảng tổng hợp số liệu mẫu theo loại hành động Tổng số mẫu liệu 213 Số mẫu dùng cho huấn luyện (chƣa tăng cƣờng liệu) 158 Số mẫu dùng cho đánh giá 55 Đá 265 200 65 Đấm 853 634 219 Đánh (hỗn hợp) 89 65 24 Trèo tƣờng (nhảy, treo 588 439 149 2008 1496 512 Loại hành động Chạy đuổi tƣờng, hàng rào) Tổng a) Huấn luyện mơ hình dự đốn phương pháp học nơng Để thực dự đốn hành động phƣơng pháp học nơng, ta thực bƣớc theo sơ đồ thuật tốn Hình 2.12 Hình 2.13 Đầu tiên, trích xuất loại đặc trƣng HOG, HOF, HMBX HMBY từ video chứa hành động Sau phƣơng pháp k-mean đƣợc sử dụng để xây dựng từ điểm cho loại đặc trƣng theo cách tiếp cận Bag of Word (BoW) với 2000 từ (word) Sau từ điển tƣơng ứng đƣợc sử dụng để phân cụm đặc trƣng theo BoW HOG, HOF, HMBX HMBY Vector đặc trƣng theo phƣơng pháp BoW HOG, HOF, HMBX HMBY từ tập video huấn luyện (nhƣ phần chia trên) đƣợc tập hợp thành 62 liệu huấn luyện mơ hình học máy truyền thống (ví dụ nhƣ sử dụng phƣơng pháp SVM Qui trình đƣợc chia làm giai đoạn chính: - Giai đoạn - Huấn luyện: Từ liệu đầu vào, tiến hành trích xuất đặc trƣng liệu, sau sử dụng kỹ thuật học máy SVM để huấn luyện tạo trọng số Sử dụng mơ hình SVM để thực phân lớp Khi phân lớp, sử dụng trọng số đƣợc tạo q trình huấn luyện liệu trích xuất để gán điểm số/nhãn cho thành phần Dựa điểm số này, phần tử đƣợc đƣa vào đƣa khỏi lớp Sau phân lớp, tiến hành huấn luyện CRF để tiến hành gán nhãn cho thành phần với ƣớc lƣợng trọng số hợp lý Từ đó, sử dụng mơ hình suy luận để tạo suy luận sử dụng giai đoạn – Nhận dạng - Giai đoạn - Nhận dạng: Từ video đầu vào, tiến hành trích xuất đặc trƣng thành phần video Tiến hành phân lớp, sau sử dụng suy luận có đƣợc từ trình huấn luyện giai đoạn để tạo lớp hành động b) Huấn luyện mơ hình dự đoán phương pháp học sâu Trong toán nhận dạng loại hành động đƣợc xem toán nhỏ kỹ thuật học sâu Do vậy, thiết kế lại mạng học sâu nhỏ với 34 lớp, với kích thƣớc ảnh đầu vào 180, 320] Để huấn luyện mẫu liệu video đƣợc điều chỉnh đồng kích thƣớc frame 180x320 pixcels Trong video frame liên tục có thay đổi nhỏ opticalflow đó, tơi thực lấy mẫu frame lấy frame tổng cộng có 15 frame đƣợc trích xuất với mẫu video Đối với toán nhận dạng hành động, đặc trƣng màu không quan trọng, để giảm kích thƣớc mẫu đầu vào, tơi xử lý ảnh đa mức xám 63 TT 10 11 12 13 14 15 16 17 Bảng 3 Tham số mạng học sâu đƣợc sử dụng để huấn luyện Kiểu lớp Tham số huấn luyện Mỗi mẫu video đầu vào trích xuất 15 frame chuẩn hóa ảnh đầu vào với kích thƣớc Lớp ảnh đầu vào 180x320, chuẩn hóa liệu dạng có trung tâm (zero-centered) 64 lớp tích chập có kích thƣớc ma trận 7x7x15 với khoảng cách dịch chuyển (stride) [1 1] Lớp tích chập giá trị thêm vào xung quanh biên ảnh(padding) [2 2 2] Lớp ReLU Sử dụng hàm kích hoạt phi tuyến ReLU Lớp kết chuẩn hóa Kết chuẩn hóa với kênh cho phần tử Lớp Pooling sử Sử dụng hàm lọc cực đại Max pooling 3x3 với dụng hàm lọc cực kích thƣớc trƣợt [2 2] and giá trị thêm vào xung đại (Max Pooling) quanh biên ảnh [0 0 0] 96 lớp tích chập kích thƣớc 5x5x64 với khoảng Lớp tích chập cách dịch chuyển (stride) [1 1] giá trị thêm vào xung quanh biên ảnh(padding) [2 2 2] Lớp ReLU Sử dụng hàm kích hoạt phi tuyến ReLU Lớp kết chuẩn hóa Kết chuẩn hóa với kênh cho phần tử Lớp Pooling sử Sử dụng hàm lọc cực đại Max pooling 3x3 với dụng hàm lọc cực kích thƣớc trƣợt [2 2] and giá trị thêm vào xung đại quanh biên ảnh [0 0 0] 128 lớp tích chập kích thƣớc 5x5x96 vớikhoảng Lớp tích chập cách dịch chuyển (stride) [1 1] giá trị thêm vào xung quanh biên ảnh(padding) [2 2 2] Lớp ReLU Sử dụng hàm kích hoạt phi tuyến ReLU Lớp kết chuẩn hóa Kết chuẩn hóa với kênh cho phần tử Lớp Pooling sử Sử dụng hàm lọc cực đại Max pooling 3x3 với dụng hàm lọc cực kích thƣớc trƣợt [2 2] and giá trị thêm vào xung đại quanh biên ảnh [0 0 0] 96 lớp tích chập kích thƣớc 5x5x128 vớikhoảng Lớp tích chập cách dịch chuyển (stride) [1 1] giá trị thêm vào xung quanh biên ảnh(padding) [2 2 2] Lớp ReLU Sử dụng hàm kích hoạt phi tuyến ReLU Lớp kết chuẩn hóa Kết chuẩn hóa với kênh cho phần tử Lớp Pooling sử Sử dụng hàm lọc cực đại Max pooling 3x3 với 64 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 dụng hàm lọc cực kích thƣớc trƣợt [2 2] and giá trị thêm vào xung đại quanh biên ảnh [0 0 0] 96 lớp tích chập kích thƣớc 5x5x96 vớikhoảng Lớp tích chập cách dịch chuyển (stride) [1 1] giá trị thêm vào xung quanh biên ảnh(padding) [2 2 2] Lớp ReLU Sử dụng hàm kích hoạt phi tuyến ReLU Lớp kết chuẩn hóa Kết chuẩn hóa với kênh cho phần tử Lớp Pooling sử Sử dụng hàm lọc cực đại Max pooling 3x3 với dụng hàm lọc cực kích thƣớc trƣợt [2 2] and giá trị thêm vào xung đại quanh biên ảnh [0 0 0] 64 lớp tích chập kích thƣớc 5x5x96 vớikhoảng Lớp tích chập cách dịch chuyển (stride) [1 1] giá trị thêm vào xung quanh biên ảnh(padding) [2 2 2] Lớp ReLU Sử dụng hàm kích hoạt phi tuyến ReLU Lớp kết chuẩn hóa Kết chuẩn hóa với kênh cho phần tử Lớp Pooling sử Sử dụng hàm lọc cực đại Max pooling 3x3 với dụng hàm lọc cực kích thƣớc trƣợt [2 2] and giá trị thêm vào xung đại quanh biên ảnh [0 0 0] Lớp kết nối đầy đủ 4096 lớp kết nối đầy đủ Lớp ReLU Sử dụng hàm kích hoạt phi tuyến ReLU Lớp Dropout Sử dụng dropout ẩn 50% đơn vị Lớp kết nối đầy đủ 4096 lớp kết nối đầy đủ Lớp Dropout Sử dụng dropout ẩn 50% đơn vị Lớp kết nối đầy đủ lớp kết nối đầy đủ Lớp Dropout Sử dụng dropout ẩn 50% đơn vị Lớp Softmax Sử dụng Softmaxđể phân loại đối tƣợng lớp đầu ra: Chạy đuổi, Đá nhau, Đấm nhau, Lớp đầu Đánh nhau, Trèo tƣờng Từ liệu đầu vào, lần khởi động, lớp ghép độ sâu đƣợc sử dụng để nối đầu tất nhánh mơ hình đồ thị Sau khối tích chập chuẩn hóa cuối cùng, lớp Max pooling đƣợc sử dụng để lấy mẫu cuối sau chúng đƣợc đƣa đến lớp kết nối đầy đủ Lớp kết nối đầy đủ đƣợc kết nối từ lớp dropout đƣợc đƣa đến lớp Softmax, hỗ trợ phân loại cuối cho đầu 65 3.5.2 Kết thực nghiệm a) Phát hành động phƣơng pháp học nông Bảng Chỉ sử dụng đặc trƣng HOG Chạy Đấm Đánh Trèo Đá Tổng đuổi nhau tƣờng 0 54 Chạy đuổi 55 (1.82%) (98.18%) 0 0 65 Đá 65 (100%) 0 216 Đấm 219 (98.63%) (1.37%) 0 0 24 Đánh 24 (100%) 0 15 132 Trèo tƣờng 149 (1.34%) (10.07%) (88.59%) Bảng Chỉ sử dụng đặc trƣng HOF Chạy Đấm Đánh Trèo Đá Tổng đuổi nhau tƣờng 0 54 Chạy đuổi 55 (1.82%) (98.18%) 0 64 Đá 65 (1.54%) (98.46%) 0 31 188 Đấm 219 (85.84%) (14.16%) 0 23 Đánh 24 (4.17%) (95.83%) 0 16 131 Trèo tƣờng 149 (1.34%) (10.74%) (87.92%) Bảng Kết hợp loại đặc trƣng HOG+ HOF+ (HMBX HMBY) Chạy Đấm Đánh Trèo Đá Tổng đuổi nhau tƣờng 0 54 Chạy đuổi 55 (1.82%) (98.18%) 0 0 65 Đá 65 (100%) 0 217 Đấm 219 (99.09%) (0.91%) 0 0 24 Đánh 24 (100%) 0 15 134 Trèo tƣờng 149 (10.07%) (89.93%) 66 Kết thực nghiệm cho thấy ta sử dụng dự đoán phát hành động phƣơng pháp học nông lần lƣợt sử dụng loại đặc trƣng nhƣ: - Chỉ sử dụng đặc trƣng HOG - Chỉ sử dụng đặc trƣng HOF - Kết hợp loại đặc trƣng HOG, HOF, (HMBX HMBY) Kết dự đốn tƣơng đối xác cho loại hành động hành động đƣợc đƣa đề tài Tỷ lệ nhập nhằng hành động bé, xảy tối đa hành động, nhƣng hành động đƣợc dự đoán chiếm tỷ lệ cao vƣợt trội Tuy nhiên, nhận thấy, sử dụng đặc trƣng HOF, có hành động nhƣ “đấm nhau”, tỉ lệ xác đạt 85,84%, sử dụng đặc trƣng có HOG tỉ lệ 98-99% Ngồi ra, với hành động “đánh nhau”, sử dụng đặc trƣng HOF tỉ lệ xác đạt đƣợc 95,83%, trong sử dụng đặc trƣng có HOG tỉ lệ 100% Qua đó, thấy, sử dụng phƣơng pháp học nông để phát hành động nên sử dụng phƣơng pháp có sử dụng đặc trƣng HOG Và nên sử dụng phƣơng pháp muốn phát hành động gây nguy hiểm cảnh báo mức độ tƣơng đối xác với thực tế b) Phát hành động phƣơng pháp học sâu Đối với nhiệm vụ nhận dạng phát hành động học sinh gây nguy hiểm liệu nhỏ, với số lƣợng hành động năm (5), với mơ hình học sâu cho kết nhận dạng xác cao Trong mơ hình này, lộc tích chập lớp input 15 kênh tƣơng ứng với 15 frame xám Các lọc độc lập đƣợc kết nối với 15 kênh hình ảnh đầu vào thực qua lọc để đến đƣợc đầu 67 (a) 15 frame đầu vào cho hành động (1 chu trình thực hiện) (b) Giá trị đầu lớp tích chập với 64 lớp đặc trƣng 68 (c) Giá trị đầu lớp RLU tƣơng ứng với 64 lớp đặc trƣng lớp tích chập Hình 3.8 Kết kích hoạt số lớp DCNN Kết đánh giá dự đoán hành động video phạm vi loại hành động xác định luận văn, cho độ xác tuyệt đối mơ hình học sâu Bảng Kết dự đoán hành động phƣơng pháp học sâu Chạy Đấm Đánh Trèo Đá Tổng đuổi nhau tƣờng 55 (100%) 0 0 Đá 65 (100%) 0 Đấm 0 219 (100%) 0 Đánh 0 24 (100%) Trèo tƣờng 0 0 149 (100%) Chạy đuổi 69 55 (100%) 65 (100%) 219 (100%) 24 (100%) 149 (100%) Kết thực nghiệm cho thấy sử dụng phát dự đoán hành động hành động đƣợc đƣa đề tài phƣơng pháp học sâu DCNN cho độ xác tuyệt đối Hành động đƣợc dự đốn xác 100% với hành động thực tế Chính thể sử dựng phƣơng pháp cảnh báo đến phận an ninh hoàn tồn xác 70 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN Với kiến thức nghiên cứu vấn đề kỹ thuật xử lý ảnh, máy học, trí tuệ nhân tạo đặc biệt tìm hiểm sâu mạng tích chập CNN xử lý nhận dạng hành động hệ thống camera giám sát an ninh, luận văn ứng dụng kết hợp mạng DNN SVM truyền thống việc dự đoán nhận dạng hành động đáng ngờ hệ thống camera giám sát an ninh Thông thƣờng, phƣơng pháp truyền thống ghép tất đặc trƣng cục để đƣa vào máy phân loại Trong đề tài dùng nhận dạng tăng cƣờng dựa đặc trƣng cục riêng biệt để tạo kết tốt Đầu tiên, đặc trƣng cục đƣợc trích xuất khung từ L khung hình liên tiếp Thứ hai, đặc trƣng cục đƣợc xây dựng dựa đặc trƣng cục khoảng L khung hình Thứ ba, tập véc-tơ đặc trƣng đƣợc phân loại Hành động cuối đƣợc dự đoán việc sử dụng SVM tuyến tính Q trình dự đốn thực kiểm tra thành công số tập liệu đánh giá UCF101 Kết huấn luyện cho thấy hệ thống đạt đƣợc độ xác gần 99,98% hàm tỉ lệ học tập nhỏ dựa tốt độ phân rã sau số epochs Với kết nghiên cứu thực nghiệm so sánh kết khác tập liệu huấn luyện UCF101 để nhận dạng hành động đáng ngờ cho thấy Việc sử dụng phép kết hợp mạng DNN SVM mang lại kết tốt so với số phƣơng pháp khác nhƣ hệ thống SVM độc lập, hay sử dụng CNN tất trƣờng hợp.Trong hệ thống này, có tiếp cận khác biệt với truyền thống liên kết tích chập CNN xử lý frame liên tục đƣợc sử dụng trích xuất đặc trƣng thay phân lớp Các mẫu video đƣợc phân loại thành lớp hành động sử dụng kỹ thuật phân lớp SVM 71 Về chƣơng thực nghiệm minh họa, dùng phƣơng pháp khác để so sánh độ xác hệ sở liệu huấn luyện kiểm thử mẩu test Tuy nhiên để đánh giá xác khách quan xây dựng tập video hành động từ thực tế đa dạng nhằm nâng cao độ xác hệ thống nhận dạng Ngồi ra, để áp dụng vào hệ thống giám sát thực tế cần phải tiếp tục nghiên cứu để giảm chi phí tính tốn để đề tài mang tính khả thi cao Nghiên cứu ứng dụng thêm kỹ thuật nhằm giảm thời gian xử lý nhằm hƣớng tới phát triển theo hƣớng xử lý theo thời gian thực 72 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Hoàng Văn Dũng (2018), Nhận dạng xử lý ảnh, Nhà xuất khoa học kỹ thuật [2] Nam Đoàn (2018), “Support Vector Machine (SVM) gì?” [3] Hải Hà (2019), “Tìm hiểu phương pháp nhận diện khuôn mặt Violas & John” [4] Hải Hà (2019), “Tìm hiểu phương pháp mô tả đặc trưng HOG (Histogram of Oriented Gradients)” [5] Lê Công Hiếu (2018), “Nhận dạng hành động người mạng học sâu 3D CNN” [6] Nguyễn Hoàng Nam (2018), “Chia s ạng nơ-ron tích chập (Convolutional Neural Networks or ConvNEts)” [7] Nguyễn Thị Oanh, Phùng Minh Tám (2015), “Khả ứng dụng phân loại bề mặt lớp phủ thuật tốn Support Vector Machine”, Tạp chí Khoa học công nghệ lâm nghiệp (số 1) [8] Quốc Phạm (2019), “Tìm hiểu Convolutional Neural Networks cho phân loại ảnh” [9] Đồn Hồng Quang, Lê Hồng Minh, Thái Dỗn Nguyên (2019), “Nhận dạng khuôn mặt video mạng nơ ron tích chập”, Tạp chí Khoa học cơng nghệ Việt Nam, tập 62 số [10] Nguyễn Nhật Quang (2019), Bài giảng Nhập môn Học máy Khai phá liệu, Viện Công nghệ thông tin truyền thông - Trƣờng Đại học Bách Khoa Hà Nội [11] Phạm Văn Toàn (2016), “Support Vector Machine học máy - Một nhìn đơn giản hơn” Tiếng Anh [12] Shuiwang Ji, Wei Xu, Ming Yang, and Kai Yu (2010), “3D Convolutional Neural Networks for Human Action Recognition”, Proceedings of the 27th International Conference on Machine Learning, Haifa, Israel 73 [13] Kensho Hara, Hirokatsu Kataoka, Yutaka Satoh (2018), “Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?” [14] Van Huy Pham, My Ha Le, Van Thuyen Ngo, and Van Dung Hoang (2017), “Boosting Discriminative Models for Activity Detection using Local feature descriptors”, ACIIDS 2017: Intelligent Information and Database Systems, pp 609-618 [15] Van Huy Pham, Jo Kang-Hyun, Hoang Van Dung (2019), “Scalable local features and hybrid classifiers for improving action recognition” In Journal of Intelligent & Fuzzy Systems, vol 36, no 4, pp 3357-3372 [16] K Simonyan, and A Zisserman (2014), "Two-stream convolutional networks for action recognition in videos," in Advances in neural information processing systems, pp 568-576 [17] Khurram Soomro, Amir Roshan Zamir and Mubarak Shah (2012), “UCF101: A Dataset of 101 Human Action Classes From Videos in The Wild”, CRCV-TR-12-01 [18] L Wang, Y Qiao, and X Tang (2015), "Action recognition with trajectory pooled deep convolutional descriptors," in Proceedings of the IEEE conference on computer vision and pattern recognition, pp 43054314 Tài liệu internet [19] https://docs.opencv.org/3.3.1/da/d22/tutoria4l_py_canny.html [20] https://viblo.asia/p/tim-hieu-ve-phuong-phap-mo-ta-dac-trung-hoghistogram-of-oriented-gradients-V3m5WAwxZO7 74

Định dạng
Số trang	85
Dung lượng	3,83 MB