Ứng dụng thuật toán YOLO trong xây dựng hệ thống hỗ trợ phân tích hình ảnh tự động tại phòng kỹ thuật hình sự công an tỉnh khánh hòa

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC NHA TRANG LÃ HẢI PHONG ỨNG DỤNG THUẬT TOÁN YOLO TRONG XÂY DỰNG HỆ THỐNG HỖ TRỢ PHÂN TÍCH HÌNH ẢNH TỰ ĐỘNG TẠI PHỊNG KỸ THUẬT HÌNH SỰ - CƠNG AN TỈNH KHÁNH HÒA LUẬN VĂN THẠC SĨ KHÁNH HÒA - 2020 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC NHA TRANG LÃ HẢI PHONG ỨNG DỤNG THUẬT TOÁN YOLO TRONG XÂY DỰNG HỆ THỐNG HỖ TRỢ PHÂN TÍCH HÌNH ẢNH TỰ ĐỘNG TẠI PHỊNG KỸ THUẬT HÌNH SỰ - CƠNG AN TỈNH KHÁNH HỊA LUẬN VĂN THẠC SĨ Ngành: Công nghệ thông tin Mã ngành: 8480201 Mã học viên: 59CH314 Quyết định giao đề tài: 453/QĐ-ĐHNT ngày 04/5/2019 Quyết định thành lập hội đồng: Ngày bảo vệ: Người hướng dẫn khoa học: TS ĐINH ĐỒNG LƯỠNG Chủ tịch Hội Đồng: Phịng Đào tạo Sau Đại học: KHÁNH HỊA - 2020 LỜI CAM ĐOAN Tôi xin cam đoan kết đề tài: “Ứng dụng thuật toán YOLO xây dựng hệ thống hỗ trợ phân tích hình ảnh tự động Phịng Kỹ thuật hình Cơng an tỉnh Khánh Hịa” cơng trình nghiên cứu cá nhân chưa công bố cơng trình khoa học khác thời điểm Khánh Hòa, tháng năm 2020 Tác giả luận văn Lã Hải Phong iii LỜI CẢM ƠN Để hồn thành luận văn này, tơi nhận nhiều hỗ trợ, giúp đỡ nhiều tổ chức cá nhân Với tình cảm chân thành sâu sắc, tơi xin bày tỏ lịng biết ơn đến tất tổ chức cá nhân tạo điều kiện giúp đỡ trình học tập nghiên cứu đề tài Trước hết xin gửi tới thầy cô Khoa Công nghệ thông tin, Trường Đại học Nha Trang lời cảm ơn sâu sắc Với quan tâm, dạy dỗ, bảo tận tình, chu đáo thầy để tơi hồn thành khóa học Đặc biệt tơi xin gửi lời cảm ơn chân thành tới TS Đinh Đồng Lưỡng, thầy quan tâm, giúp đỡ, truyền cảm hứng hướng dẫn tơi kiến thức chun mơn để hồn thành tốt luận văn: “Ứng dụng thuật toán YOLO xây dựng hệ thống hỗ trợ phân tích hình ảnh tự động Phịng Kỹ thuật hình - Cơng an tỉnh Khánh Hịa” Tơi bày tỏ lịng biết ơn đến lãnh đạo Trường Đại học Nha Trang, Phòng Đào tạo sau đại học trực tiếp gián tiếp giúp đỡ tơi suốt q trình học tập nghiên cứu đề tài Cuối cùng, xin gửi lời cảm ơn chân thành đến gia đình, đặc biệt vợ tất bạn học viên cao học công nghệ thông tin giúp đỡ, động viên suốt trình học tập thực đề tài Với điều kiện thời gian kinh nghiệm hạn chế, luận văn tránh thiếu sót Rất mong nhận bảo, đóng góp ý kiến thầy để tơi có điều kiện bổ sung, nâng cao kiến thức Tơi xin chân thành cảm ơn! Khánh Hịa, tháng năm 2020 Tác giả luận văn Lã Hải Phong iv MỤC LỤC LỜI CAM ĐOAN iii LỜI CẢM ƠN iv MỤC LỤC .v DANH MỤC CHỮ VIẾT TẮT vii DANH MỤC BẢNG viii DANH MỤC HÌNH ix TRÍCH YẾU LUẬN VĂN xi CHƯƠNG 1: TỔNG QUAN 1.1 Lý chọn đề tài .1 1.2 Mục tiêu nghiên cứu đề tài luận văn 1.3 Đối tượng nghiên cứu 1.4 Phạm vi nghiên cứu 1.5 Phương pháp nghiên cứu 1.6 Cấu trúc luận văn .2 CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 2.1 Giới thiệu học sâu 2.1.1 Trí tuệ nhân tạo .4 2.1.2 Học máy 2.1.3 Học sâu 2.2 Mạng nơ-ron 10 2.2.1 Perceptron 10 2.2.2 Mơ hình mạng nơ-ron 14 2.2.3 Lan truyền tiến 15 2.2.4 Hàm mát mạng nơ-ron 16 2.2.5 Tối ưu hóa hàm mát .17 2.3 Mạng nơ-ron tích chập 18 2.3.1 Tích chập 20 v 2.3.2 Lớp tích chập 23 2.3.3 Lớp kích hoạt 24 2.3.4 Lớp hợp .25 2.3.5 Lớp kết nối đầy đủ 26 CHƯƠNG 3: PHÁT HIỆN ĐỐI TƯỢNG TRONG VIDEO SỬ DỤNG THUẬT TOÁN YOLO .27 3.1 Giới thiệu toán phát đối tượng số phương pháp phát đối tượng 27 3.1.1 Nhóm phát đối tượng hai giai đoạn 28 3.1.2 Nhóm phát đối tượng giai đoạn 32 3.2 Thuật toán phát đối tượng YOLOV3 .32 3.2.1 Kiến trúc mạng YOLOV3 33 3.2.2 Hộp neo .37 3.2.3 Chỉ số IoU 38 3.2.4 Thuật toán Non-maximum Suppression .39 3.2.5 Hàm mát thuật toán 40 CHƯƠNG 4: XÂY DỰNG ỨNG DỤNG VÀ THỬ NGHIỆM 42 4.1 Xây dựng sở liệu 42 4.1.1 Dữ liệu Microsoft COCO .42 4.1.2 Dữ liệu hình ảnh súng từ hệ thống Camera quan sát 42 4.2 Huấn luyện mơ hình 45 4.3 Thử nghiệm nhận dạng 46 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 48 TÀI LIỆU THAM KHẢO .50 vi DANH MỤC CHỮ VIẾT TẮT DIỄN GIẢI KÍ HIỆU TIẾNG ANH TIẾNG VIỆT AI Artificial Intelligence Trí tuệ nhân tạo ANNs Artificial Neural Networks Mạng nơ-ron nhân tạo CNNs Convolutional Neural Networks Mạng nơ-ron tích chập COCO Common Object in Context DL Deep Learning FCN Fully Connected Neural Network GPU Graphics Processing Unit HOG Histogram of Oriented Gradients IoU Intersection over Union ML Machine Learning NMS Non-maximum Suppression R-CNN Region-based Convolutional Neural Network ReLU Rectified Linear Unit RNNs Recurrent Neural Networks RoI Region of Interest RPN Region Proposal Network SIFT Scale-Invariant Feature Transform SSD Single Shot Detector SVM Support Vector Machine YOLO You Only Look Once Học sâu Mạng nơ-ron kết nối đầy đủ Bộ xử lý đồ họa Học máy Đơn vị tuyến tính chỉnh lưu RNNs vii DANH MỤC BẢNG Bảng 2.1: Một số hàm kích hoạt phổ biến mạng nơ-ron 12 Bảng 2.2: Ví dụ số kernel xử lý ảnh .22 viii DANH MỤC HÌNH Hình 2.1: Khác biệt học máy lập trình truyền thống Hình 2.2: Minh họa mối quan hệ DL, ML AI Hình 2.3: Các miêu tả từ liệu học mơ hình học sâu Hình 2.4: Mạng nơ-ron với trọng số tham số lớp Hình 2.5: Mô tả ý nghĩa hàm mát để điều chỉnh trọng số mơ hình Hình 2.6: Mô tả cấu trúc nơ-ron sinh học 10 Hình 2.7: Mơ tả nơ-ron đơn lẻ mạng nơ-ron 10 Hình 2.8: Mơ hình tốn học nơ-ron đơn lẻ mạng nơ-ron .12 Hình 2.9: Mơ hình mạng nơ-ron với lớp ẩn 14 Hình 2.10: Mơ thuật tốn Gradient Descent .17 Hình 2.11: Mơ hình mạng nơ-ron thông thường với lớp ẩn .19 Hình 2.12: Minh họa phép tính tích chập 20 Hình 2.13: Hình ví dụ ma trận X với stride=1, padding=1 (hình bên trái) stride =2, padding=1 (hình bên phải) 21 Hình 2.14: Phép tính tích chập ảnh màu 23 Hình 2.15: Ảnh minh họa phép tính tích chập ảnh màu .23 Hình 2.16: Ảnh mô tả hoạt động lớp hợp (pooling layer) .25 Hình 2.17: Minh họa mơ hình mạng CNNs 26 Hình 3.1: Minh họa kết phát đối tượng ảnh 27 Hình 3.2: Phát đối tượng ảnh nhiều tỉ lệ sử dụng thuật tốn HOG+SVM .28 Hình 3.3: Minh họa ảnh xử lý qua thuật toán Selective Search 29 Hình 3.4: Mơ hình mạng R-CNN 29 Hình 3.5: Mơ hình mạng Fast R-CNN 30 Hình 3.6: Mơ hình mạng Faster R-CNN .31 Hình 3.7: Mơ hình mạng SSD .32 Hình 3.8: Ví dụ đối tượng phát thuật tốn YOLOV3 .33 Hình 3.9: Mơ hình Darknet-53 34 ix Hình 3.10: Minh họa đường nối tắt Resnet .34 Hình 3.11: Kiến trúc mạng YOLOV3 35 Hình 3.12: Ảnh mô tả véc-tơ đặc trưng hộp chứa dự đốn .36 Hình 3.13: Mơ tả cách tính tọa độ hộp chứa từ giá trị dự đốn mơ hình 37 Hình 3.14: Mơ tả hộp neo (Anchor box) .38 Hình 3.15: Hình mơ tả hộp chứa dự đoán hộp chứa đối tượng thực tế 38 Hình 3.16: Cơng thức tính số IoU 39 Hình 3.17: Minh họa thuật tốn NMS 39 Hình 4.1: Một số hình ảnh súng thu thập từ hệ thống camera quan sát 44 Hình 4.2: Gán nhãn cho liệu phần mềm LabelImg 44 Hình 4.3: Một số hình ảnh súng ngắn tập đánh giá nhận dạng mơ hình huấn luyện 47 Hình 4.4: Một số hình ảnh nhận dạng phương tiện giao thơng nhận dạng mơ hình sử dụng tệp tin trọng số huấn luyện tập liệu MS COCO .47 x Cần ý vector đặc trưng ta thấy ký hiệu tx, ty, tw, th bx, by, bw, bh Ở tx, ty, tw, th giá trị dự đoán YOLOV3 chưa qua xử lý, để tính bx, by, bw, bh cần áp dụng cơng thức sau: Hình 3.13: Mơ tả cách tính tọa độ hộp chứa từ giá trị dự đốn mơ hình Trong đó:  Cx, Cy số hàng số cột, số hàng ô chứa đối tượng lưới  Pw, Pw chiều rộng chiều cao hộp neo (anchor box) có nhiệm vụ nhận dạng đối tượng  hàm sigmoid 3.2.2 Hộp neo Hộp neo (Anchor box) khái niệm mà ta thấy nhắc đến phần nói thuật tốn Faster R-CNN Trong thuật tốn YOLOV3, lưới phát đối tượng trường hợp điểm trung tâm hai đối tượng rơi vào có đối tượng khơng phát Để giải trường hợp này, YOLO sử dụng khái niệm hộp neo Tại ô lưới thay nhận dạng đối tượng nhận dạng hộp chứa đối tượng khác hộp chứa có kích thước khác giúp cho việc nhận dạng tốt YOLOV3 thực dự đốn tỉ lệ khác nên có tổng cộng hộp neo 37 Hình 3.14: Mơ tả hộp neo (Anchor box) Các hộp neo xác định cách duyệt qua toàn tệp đánh nhãn tập liệu sử dụng thuật tốn k-means để phân cụm kích thước hộp chứa đối tượng xác định đánh nhãn tay 3.2.3 Chỉ số IoU Chỉ số IoU (Intersection over Union) khái niệm sử dụng nhiều thuật toán phát đối tượng IoU số đánh giá sử dụng để đo độ xác phát đối tượng tập liệu Để áp dụng IoU để đánh giá object detector ta cần:  Tọa độ hộp chứa thực tế (ground-truth bounding box) đối tượng khoanh vùng đánh nhãn tay  Tọa độ hộp dự đốn mơ hình sinh Hình 3.15: Hình mơ tả hộp chứa dự đoán hộp chứa đối tượng thực tế 38 Hình 3.16: Cơng thức tính số IoU 3.2.4 Thuật toán Non-maximum Suppression Thuật toán Non-maximum Suppression (NMS) phương pháp loại bỏ hộp chứa trùng đối tượng Hình 3.17: Minh họa thuật tốn NMS Đầu vào: Tập danh sách hộp chứa đối tượng đề xuất ký hiệu B với với hộp chứa đề xuất thứ i Tập độ tin cậy hộp chứa đề xuất ký hiệu S với chứa , với độ tin cậy hộp Giá trị ngưỡng xác định trùng N Đầu ra: Một tập hộp chứa D loại bỏ hộp chứa dư thừa tương ứng với đối tượng hình 39 Thuật tốn:  Bước 1: Khởi tạo tập đầu D = {}  Bước 2: Chọn hộp chứa có độ tin cậy cao tập S, loại hộp chứa khỏi tập B thêm vào tập D  Bước 3: Tính giá trị IoU hộp chứa vừa loại bước với toàn hộp chứa cịn lại tập B Nếu có hộp chứa B có giá trị IoU lớn ngưỡng N loại hộp chứa khỏi B, S  Bước 4: Lặp lại bước đến khơng cịn hộp chứa có tập B 3.2.5 Hàm mát thuật toán Để huấn luyện thuật tốn YOLOV3 thành phần quan trọng khơng thể thiếu hàm mát Hàm mát thuật toán gồm thành phần sau [9]:  Hàm mát có đối tượng tồn Tính mát xác suất đối tượng tồn Chú ý  Hàm mát khơng có đối tượng xuất Tính mát xác suất đối tượng không tồn Chú ý  Hàm mát cho tốn phân lớp Tính mát xác suất có điều kiện cho thứ i nơi đối tượng xuất Chú ý pi(c) đối tượng thuộc lớp c theo thực tế (ground-truth), ngược lại pi(c) ln  Hàm mát cho tốn tìm vị trí đối tượng ảnh Tính mất điểm trung tâm (x, y) mát kích thước (độ rộng chiều cao) cho hộp thứ j ô thứ i nơi đối tượng tồn 40 Kết hợp thành phần ta hàm mát YOLO sau: Trong ký hiệu hiểu sau: hộp chứa thứ j thứ i có chứa đối tượng Vì trình huấn  luyện cần ảnh với vị trí đối tượng ảnh (ground-truth) nên YOLO biết điểm trung tâm đối tượng rơi vào ô lưới box thứ j ô thứ i không chứa object  ô thứ i có chứa object  S kích thước lưới tỉ lệ (13x13, 26x26, 52x52) B số hộp dự đốn ô Trong YOLOV3 B = tỉ lệ Nên tổng có có loại hộp neo với kích thước khác độ tin cậy dự đốn mơ hình,  độ tin cậy thực tế xác suất lớp c thứ i dự đốn mơ hình,  xác suất lớp c ô thứ i thực tế  , , giá trị tọa độ điểm trung tâm, kích thước hộp chứa thứ j thứ i có đối tượng tồn tại, dự đốn mơ hình Tương tự với xi, yi, wi, hi giá trị thực tế (ground-truth)  λcoord = 5.0, λnoobj = 0.5 λcoord thông số cân để cân tổn thất tọa độ (x, y, w, h) với tổn thất khác λnoob thơng số cân để cân hộp có khơng có đối tượng Đa số ảnh khơng có đối tượng, có đối tượng  classes: lớp đối tượng cần nhận dạng Ví dụ: người, xe, súng v.v 41 CHƯƠNG 4: XÂY DỰNG ỨNG DỤNG VÀ THỬ NGHIỆM 4.1 Xây dựng sở liệu Một yếu tố quan trọng định thành cơng thuật tốn học sâu học máy tập liệu Một tập liệu tốt góp phần tạo mơ hình tốt đạt kết mong muốn Để tạo đa dạng đối tượng phát hệ thống phân loại hình ảnh tự động, tơi tìm hiểu hai loại liệu sử dụng cho ứng dụng hỗ trợ phân loại hình ảnh liệu Microsoft COCO liệu thu thập từ hệ thống camera quan sát 4.1.1 Dữ liệu Microsoft COCO Đối với liệu Microsoft COCO (Common Objects in Context) liệu quy mô lớn phục vụ cho việc huấn luyện mơ hình học sâu để thực nhiệm vụ phát hiện, phân đoạn thích đối tượng Bộ liệu giới thiệu lần vào năm 2014 trì phát triển thời điểm [10] Hiện liệu có 330.000 hình ảnh (trong có 200.000 hình gán nhãn) với 1.5 triệu đối tượng mô tả hình ảnh Các đối tượng tập liệu Microsoft COCO chia thành 80 lớp lớp liệu quen thuộc với car, people, bicycle, train, truck, handbag, backpack, knife, cellphone hình ảnh liệu hình ảnh quen thuộc sống ngày Để ứng dụng liệu hệ thống phân loại hình ảnh tự động, sử dụng tệp tin trọng số YOLOV3 huấn luyện tập liệu MS COCO tác giả YOLOV3 chia sẻ địa https://pjreddie.com/media/files/yolov3.weights [16] 4.1.2 Dữ liệu hình ảnh súng từ hệ thống Camera quan sát Đối với liệu từ hệ thống camera quan sát, phạm vi luận văn này, tiến hành thử nghiệm liệu hình ảnh súng ngắn thu thập trực tiếp từ hệ thống camera quan sát Đây lớp liệu chưa có liệu Microsoft COCO Mục tiêu việc tìm hiểu nắm rõ bước thu thập, xử lý huấn luyện mơ hình với liệu để hệ thống đáp ứng yêu cầu phát 42 sinh thực tế Chẳng hạn mơ hình phát hình ảnh súng video ứng dụng để xây dựng hệ thống cảnh báo sử dụng súng ngân hàng, tiệm vàng, … Qua tìm hiểu nghiên cứu liên quan, vấn đề phát súng qua video gặp phải số thách thức sau:  Do thao tác cầm nắm tay hai tay nên phần hình dạng súng bị che lại [11]  Việc phát hiện, cảnh báo súng tự động phải thực theo thời gian thực hệ thống tin có xuất súng khung hình [11] xác định xác vị trí súng  Các tập liệu để nhận dạng súng đánh nhãn khơng hiệu vài trường hợp [11], đòi hỏi phải thu thập thêm liệu phù hợp với trường hợp Vấn đề khác biệt khoảng cách từ camera đến vị trí quan sát, độ cao camera, chất lượng hình ảnh camera Để giải vấn đề này, có số nghiên cứu liên quan sử dụng cách tiếp cận mạng nơ-ron tích chập (Convolutional Neural Networks -CNNs) với mơ Faster R-CNN [11] [12], GoogLeNet-Overfeat [13] nghiên cứu đạt kết tích cực Dữ liệu hình ảnh súng thu thập gồm 2843 hình để huấn luyện mơ hình 300 hình để đánh giá mơ hình Dữ liệu gồm hình ảnh súng nhiều góc độ khác tách từ video trích xuất từ hệ thống camera quan sát Các hình ảnh tập liệu gán nhãn phần mềm LabelImg [17] theo định dạng YOLO Các ảnh nhãn tổ chức theo cấu trúc sau:  Các ảnh phần mở rộng *.jpg lưu thư mục Images  Mỗi ảnh có tệp tin đánh nhãn tên lưu thư mục Labels, có phần mở rộng *.txt Ví dụ:  Trong tập tin đánh nhãn, dịng có cấu trúc dạng “[id_lớp] [x_center] [y_center] [width] [height]” tương ứng với hộp chứa đối tượng đánh nhãn 43 Hình 4.1: Một số hình ảnh súng thu thập từ hệ thống camera quan sát Hình 4.2: Gán nhãn cho liệu phần mềm LabelImg 44 Có thể nói, trình thu thập liệu trình quan trọng, định đến chất lượng mơ hình Với hình ảnh đối tượng ta muốn mơ hình phát phải có hình ảnh đối tượng tập liệu huấn luyện có tương đồng hình dạng, bề mặt phản ánh đối tượng, kích thước, góc xoay, góc nghiêng, ánh sáng tác động Vì vậy, liệu chuẩn bị tập huấn luyện phải có đa dạng, đáp ứng tiêu chí 4.2 Huấn luyện mơ hình Mơi trường chạy thuật tốn sử dụng phân phối Anaconda Python 3.7 [19], framework Pytorch 1.3 [18] thư viện CUDA 10.1 [20], hệ thống máy tính cấu hình CPU I7 9700K, RAM 32GB, GPU RTX2080Ti 11GB Tiếp theo, tùy vào số lượng lớp cần phát mơ hình mà ta phải điều chỉnh số lượng kernel phù hợp lớp tích chập trước lớp YOLO thuật tốn YOLOV3 Các điều chỉnh thực tệp tin yolov3.cfg Cơng thức tính số lượng kernel theo số lớp sau: Trong , số hộp neo tỉ lệ dự đoán Với liệu MS COCO gồm 80 lớp số kernel phải điều chỉnh 255, cịn với liệu súng số kernel phải điều chỉnh 18 Quá trình huấn luyện trình nhiều thời gian, cần thực nhiều thử nghiệm lần chạy thuật tốn để tìm tệp tin trọng số có kết mong đợi Một số điểm cần ý q trình là:  Việc tăng kích thước đầu vào mơ hình cải thiện độ xác mơ hình, nhiên số lượng tham số mạng tăng lên nhanh, đòi hỏi nhiều tài nguyên hệ thống  Việc thực huấn luyện mơ hình chạy GPU nhanh nhiều lần so với chạy CPU  Phải kiểm tra kỹ tệp tin nhãn tệp tin hình ảnh tương ứng tệp liệu, tránh sai sót định dạng đánh nhãn 45  Cần ý số loại đối tượng có phân biệt chiều hướng ví dụ biển báo, biển số xe cần tránh thực phép lật hình, đảo hình trình tiền xử lý liệu Với liệu hình ảnh súng ngắn thu thập từ hệ thống camera quan sát, tiến hành huấn luyện mơ hình với với kích thước batch 8, kích thước ảnh đầu vào 640x640, sau 200 epochs mơ hình hội tụ 4.3 Thử nghiệm nhận dạng Để đánh giá mơ hình ta sử dụng tiêu chí sau:  True Positive (TP): Mơ hình phát đối tượng dự đoán lớp đối tượng  False Positive (FP): Mơ hình phát đối tượng dự đoán sai lớp đối tượng  False Negative (FN): Đối tượng có ảnh mơ hình khơng phát đối tượng Tiến hành đánh giá mơ hình nhận dạng súng ngắn 300 hình tập kiểm tra Kết cụ thể sau: Số hình kiểm tra TP FP FN 300 239 54 Từ kết ta tính số đánh giá mơ sau: Trong số Recall phản ánh khả phát đối tượng súng mơ hình Precision phản ánh độ xác phát đối tượng súng mơ hình F1-Score độ đo cân tiêu chí Precision Recall 46 Hình 4.3: Một số hình ảnh súng ngắn tập đánh giá nhận dạng mơ hình huấn luyện Hình 4.4: Một số hình ảnh nhận dạng phương tiện giao thơng nhận dạng mơ hình sử dụng tệp tin trọng số huấn luyện tập liệu MS COCO 47 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết luận Với mục tiêu ứng dụng thuật toán YOLOV3 để xây dựng ứng dụng hỗ trợ phân loại hình ảnh tự động video, luận văn đạt số kết sau:  Đã nghiên cứu kỹ thuật học sâu, khái niệm liên quan đến mạng nơ-ron, mạng nơ-ron tích chập, mơ hình học sâu phổ biến áp dụng toán phân loại đối tượng  Đã tìm hiểu lý thuyết liên quan đến mơ hình YOLOV3, mơ hình học sâu tiêu biểu liên quan đến toán phát đối tượng  Đã tìm hiểu thực việc thu thập xử lý liệu ban đầu phục vụ huấn luyện, thiết lập mơi trường chạy thuật tốn, thiết lập mơ hình cuối huấn luyện mơ hình YOLOV3 để nhận dạng đối tượng đặc thù theo yêu cầu thực tế  Đã rút điểm cần lưu ý trình thu thập liệu huấn luyện mơ hình  Đã xây dựng ứng dụng dựa thuật toán YOLOV3, có giao diện người dùng thân thiện, để thực việc hỗ trợ phân loại hình ảnh tự động video Tuy nhiên thời gian hạn chế thân nên luận văn số hạn chế sau:  Việc phát đối tượng mơ hình cịn hạn chế, đặc biệt đối tượng có kích thước nhỏ so với kích thước hình đầu vào  Tập liệu huấn luyện cịn so với u cầu mơ hình học sâu, thấy rõ qua so sánh tập liệu tự thu thập tập liệu MS COCO Việc liệu thiếu chưa đa dạng ảnh hưởng không nhỏ đến chất lượng mơ hình  Ứng dụng hỗ trợ phân loại hình ảnh tự động mức bản, chưa triển khai chức hữu dụng giới hạn vùng phát hình, bám theo đối tượng chuyển động (tracking), tìm kiếm theo màu sắc, … Hướng phát triển Để khắc phục hạn chế nêu trên, thời gian tới, thực hướng sau: 48  Thu thập nhiều liệu hình ảnh súng từ hệ thống camera quan sát nhiều bối cảnh khác để làm đa dạng tập liệu cải thiện chất lượng mơ hình  Tìm hiểu phương pháp cải tiến phần cứng, thuật tốn YOLOV3 để nâng cao khả phát đối tượng có kích thước nhỏ, cải thiện độ xác thuật toán  Xây dựng thêm chức hữu ích cho ứng dụng hỗ trợ phân loại hình ảnh tự động  Sử dụng liệu hình ảnh từ nhiều camera hệ thống camera quan sát để tăng khả phát đối tượng hệ thống 49 TÀI LIỆU THAM KHẢO Tài liệu tiếng việt: [1] Vũ Hữu Tiệp (2018), Machine Learning bản, NXB Khoa học kỹ thuật Tài liệu tiếng anh: [2] F Chollet (2018), Deep Learning with Python, Manning Publications Co [3] Y L a Y Bengio (1998), Convolutional Networks for Images, Speech, and TimeSeries,, The Handbook of Brain Theory and Neural Networks, MIT Press, pp 255-258 [4] A Rosebrock (2018), Deep Learning for Computer Vision with Python, PYIMAGESEARCH.COM [5] A Suleiman and V Sze (2015), An Energy-Efficient Hardware Implementation of HOG-Based Object Detection at 1080HD 60 fps with Multi-Scale Support, Springer Science+Business Media New York [6] L Jiao, F Zhang, F Liu, S Yang, L Li, Z Feng and R Qu (2019), A Survey of Deep Learning-based Object Detection, IEEE Access, vol 7, pp 128837 – 128868 [7] Z.-Q Zhao, P Zheng, S.-t Xu and X Wu (2019), Object Detection with Deep Learning: A Review, IEEE Transactions on Neural Networks and Learning Systems, vol 30, no 11, pp 3212-3232, 2019 [8] J Redmon and A Farhadi (2018), YOLOv3: An Incremental Improvement, arXiv.org [9] J Redmon, S Divvala, R Girshick and A Farhadi (2015), You Only Look Once: Unified, Real-Time Object Detection, arXiv.org [10] T.-Y Lin, M Maire , S Belongie , L Bourdev , R Girshick, J Hays , P Perona , D Ramanan , C L Zitnick and P Dollár (2014), Microsoft COCO: Common Objects in Context, Lecture Notes in Computer Science, Springer, Cham [11] R Olmos, S Tabik and F Herrera (2017), Automatic handgun detection alarm in videos using deep learning, Neurocomputing 275, p 66–72 [12] G K Verma and A Dhillon (2017), A Handheld Gun Detection using Faster RCNN Deep Learning, Research Gate [13] L Justin and S Maples (2017), Developing a Real-Time Gun Detection Classifier, cs231n.stanford.edu Các trang web: [14] "CS231n Convolutional Neural Networks for Visual Recognition”, truy cập ngày 09 tháng năm 2020, từ https://cs231n.github.io/convolutional-networks/ 50 [15] "Activation Functions : Sigmoid, ReLU, Leaky ReLU and Softmax basics for Neural Networks and Deep Learning", truy cập ngày 07 tháng 11 năm 2019 từ https://medium.com/@himanshuxd/activation-functions-sigmoid-relu-leaky-relu-andsoftmax-basics-for-neural-networks-and-deep-8d9c70eed91e [16] “YOLO: Real-Time Object Detection”, truy cập ngày 01 tháng 12 năm 2019 từ https://pjreddie.com [17] “LabelImg”, truy cập ngày 01 tháng 12 từ https://github.com/tzutalin/labelImg [18] “Pytorch” truy cập ngày 03 tháng 12 từ https://pytorch.org/ [19] “Anaconda” truy cập ngày 03 tháng 12 từ https://www.anaconda.com/ [20] “Cuda Toolkit” truy cập ngày 03 tháng 12 từ https://developer.nvidia.com/cuda-toolkit 51 ... NHA TRANG LÃ HẢI PHONG ỨNG DỤNG THUẬT TOÁN YOLO TRONG XÂY DỰNG HỆ THỐNG HỖ TRỢ PHÂN TÍCH HÌNH ẢNH TỰ ĐỘNG TẠI PHỊNG KỸ THUẬT HÌNH SỰ - CƠNG AN TỈNH KHÁNH HỊA LUẬN VĂN THẠC SĨ Ngành: Cơng nghệ thông... Sau Đại học: KHÁNH HỊA - 2020 LỜI CAM ĐOAN Tôi xin cam đoan kết đề tài: ? ?Ứng dụng thuật toán YOLO xây dựng hệ thống hỗ trợ phân tích hình ảnh tự động Phịng Kỹ thuật hình Cơng an tỉnh Khánh Hịa”... tài nghiên cứu cho Luận văn tơi có tên ? ?Ứng dụng thuật toán YOLO xây dựng hệ thống hỗ trợ phân tích hình ảnh tự động Phịng Kỹ thuật hình - Cơng an tỉnh Khánh Hịa” Nội dung nghiên cứu Luận văn

Định dạng
Số trang	63
Dung lượng	6,66 MB