Nghiên cứu các mạng neural học sâu cho bài toán phát hiện người trong ảnh

BỘ GIÁO DỤC VÀ ĐÀO TẠO UBND TỈNH THANH HÓA TRƯỜNG ĐẠI HỌC HỒNG ĐỨC - - NGUYỄN NGỌC HUÂN NGHIÊN CỨU CÁC MẠNG NEURAL HỌC SÂU CHO BÀI TOÁN PHÁT HIỆN NGƯỜI TRONG ẢNH LUẬN VĂN THẠC SĨ MÁY TÍNH Chuy n ng nh: ho học máy tính s : 848.01.01 Người hướng dẫn khoa học: PGS.TS Phạm Thế Anh TH NH H , NĂ 2021 LỜI CAM ĐOAN Tôi xin c m đo n luận văn ―Nghiên cứu mạng neural học sâu cho toán phát người ảnh‖ l đề tài nghiên cứu củ cá nhân hướng dẫn PGS.,TS Phạm Thế Anh, trung thực khơng chép tác giả khác Trong tồn nội dung nghiên cứu luận văn, vấn đề trình b y tìm hiểu nghiên cứu cá nhân tơi trích dẫn từ nguồn tài liệu có ghi tham khảo rõ ràng, hợp pháp Tôi xin chịu trách nhiệm hình thức kỷ luật theo quy định cho lời c m đo n n y Thanh Hóa, ngày 01 tháng 09 năm 2021 Ngƣời cam đoan Nguyễn Ngọc Huân i LỜI CẢM ƠN Trước ti n em xin gửi lời cảm ơn sâu sắc đến Thầy hướng dẫn PGS.,TS Phạm Thế Anh đ tận tình hướng dẫn, truyền đạt kiến thức, kinh nghiệm cho em su t trình thực luận văn n y Xin gửi lời cảm ơn đến quý thầy cô ho Công nghệ thông tin, Trường đại học Hồng Đức, người đ truyền đạt kiến thức cho em su t thời gi n học tập Tôi xin gửi lời cảm ơn tới đồng chí l nh đạo, đồng nghiệp qu n Sở Giáo dục v Đ o tạo tỉnh Th nh Hó đ tạo điều kiện v thời gi n để tơi ho n th nh chương trình học củ Tơi xin gửi lời cảm ơn đến gi đình, bạn bè v bạn học vi n lớp thạc sĩ kho học máy tính khó 2019-2021 đ ln động vi n, giúp đỡ trình học tập v l m luận văn ặc dù thân đ c gắng nghi n cứu với khả v kiến thức có hạn n n khơng tránh khỏi thiếu sót Rất mong nhận góp ý q báu từ Q Thầy, Cơ để luận văn ho n chỉnh ột lần nữ em xin chân th nh cảm ơn! Học viên Nguyễn Ngọc Huân ii MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC TỪ VIẾT TẮT v DANH MỤC CÁC BẢNG vi DANH MỤC HÌNH ẢNH vii MỞ ĐẦU 1 Tính cấp thiết củ đề tài Mục tiêu nghiên cứu 3 Đ i tượng, phạm vi nghiên cứu Nội dung nghiên cứu Phương pháp nghi n cứu Dự kiến kết đạt Chƣơng GIỚI THIỆU 1.1 B i tốn dị tìm đ i tượng ảnh 1.2 B i tốn dị tìm người ảnh 1.3 Các thách thức toán 1.4 Một s ứng dụng thực tế 11 Chƣơng TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU 13 2.1 Các kỹ thuật dị tìm đ i tượng tổng quát 13 2.1.1 Các thuật toán dựa R-CNN 13 2.1.2 Thuật toán SSD 15 2.1.3 Thuật toán YOLO 16 2.2 Dị tìm người dựa vào HOG 17 2.2.1 HOG SVM 20 2.2.2 HOG luật WEBER 21 2.2.3 HOG Fourier 22 iii 2.3 Các kỹ thuật dị tìm người dựa vào mạng nhân chập 22 2.4 Các hàm mục ti u dị tìm đ i tượng 26 Chƣơng NGHIÊN CỨU MẠNG NEURAL HỌC SÂU PHÁT HIỆN NGƢỜI TRONG ẢNH 30 3.1 Mơ tả mơ hình tốn 30 3.2 Lựa chọn mạng neuron tích chập (CNN) dị tìm đ i tượng 31 3.2.1 Kiến trúc mạng YOLOv4 31 3.2.2 Kiến trúc mạng YOLOv4-Tiny 36 3.3 Chuẩn bị liệu huấn luyện mơ hình 37 3.4 Thực nghiệm v đánh giá kết 39 3.4.1 Độ đo hiệu 39 3.4.2 Kết thực nghiệm 42 3.5 Kết demo 44 Chƣơng KẾT LUẬN VÀ KIẾN NGHỊ 48 4.1 Kết luận 48 4.2 Kiến nghị 49 TÀI LIỆU THAM KHẢO 50 iv DANH MỤC TỪ VIẾT TẮT AI: Artifical intelligence CNN : Convolutional Neural Network Densenet: Dense connected convolutional network DL: Deep Learning GAN: Generative Adversarial Networks ResNet: Residual Network SSD: Single Shot Detector SVM: Support Vector Machine YOLO: You only look once v DANH MỤC CÁC BẢNG Bảng 3.1 Kết hiệu dò tìm người YOLOv4-Tiny v đội tham gia thi tập Validation WiderPerson 43 Bảng trình bày t c độ YOLOv4-Tiny CPU GPU 44 vi DANH MỤC HÌNH ẢNH Hình 2.1 Kiến trúc mơ hình R-CNN 14 Hình 2.2 Minh họ bước mạng Faster-RCNN 15 Hình 2.3 Minh họ ý tưởng thuật toán YOLO 17 Hình 2.4 (a) Ảnh đầu vào, (b) Cửa sổ dùng mô tả HOG, (c) Histogram ô cửa sổ (9 bin) 18 Hình 2.5 Chuẩn hóa histogram thànhphần theo kh i (block) 20 Hình 2.6 hình dị tìm người HOG SVM 20 Hình 2.7 Minh họ ý tưởng mô tả Weber 21 Hình 2.8 Kiến trúc mạng CNN dị tìm người 24 Hình 2.9 Kiến trúc đ mạng dị tìm người ảnh vệ tinh 25 Hình 3.1 Biểu diễn đ i ảnh hình hộp bao 30 Hình 3.2 Kiến trúc YOLOv4 32 Hình 3.3 Kiến trúc mạng CSPDenseNet 33 Hình 3.4 Kiến trúc mạng CSPDenseNet thu gọn 33 Hình 3.5 Mạng SPP áp dụng YOLOv4 33 Hình 3.6 Mạng PAN sử đổi YOLOv4 34 Hình 3.7 Phần Head củ YOLOv3 sử dụng YOLOv4 (3 tầng YOLO để dị tìm đ i tượng nhỏ) 34 Hình 3.8 Minh họa ảnh thuộc tập liệu WiderPerson 38 Hình 3.9 Quá trình huấn luyện mạng 39 Hình 3.10 Cơng thức tính IoU 40 Hình 3.11 Minh họ trường hợp IoU 40 Hình 3.12 Minh họa khái niệm True/False Positive True/False Negative 41 vii MỞ ĐẦU Tính cấp thiết đề tài Hiện n y thuật ngữ học sâu (Deep Le rning - DL) v Trí tuệ nhân tạo (Artificial Intelligence - I) đ khơng cịn lạ với cộng đồng nghi n cứu thị giác máy nói ri ng lĩnh vực ứng dụng I nói chung Chỉ cần có liệu cộng với mạng neuron đủ lớn l nh phát triển tạo r hệ th ng I cho đầu r với y u cầu Tuy nhi n, hệ th ng I dự tr n mạng tích chập học sâu thường địi hỏi hệ th ng phần cứng có lực tính tốn c o, thời gi n tính tốn chậm đặc biệt với tốn dị tìm đ i tượng Điều n y gây r cản trở đ i với ứng dụng y u cầu thời gi n thực m thiết bị phần cứng bi n (edge devices) đáp ứng (do giá th nh t n lượng) Những kết nghi n cứu củ giới cơng nghệ trí tuệ nhân tạo thời gi n gần chủ yếu tập trung thiết kế mạng neuron tích chập học sâu CNN [15], [29], [30], [36], [38], [41], [43], [44] để giải b i toán, ứng dụng cụ thể, chẳng hạn như: nhận dạng đ i tượng, camera an ninh, giám sát đ i tượng, gi o thông thông minh,… Các mạng CNN n y đ kiểm nghiệm thông qu nhiều tập liệu đánh giá chuẩn củ giới (Benchm rk D t sets) v cho kết ấn tượng Tuy nhi n, mạng CNN n y tồn hạn chế t c độ xử lý chư kỳ vọng Hầu hết kiến trúc mạng CNN m ng lại độ xác c o cần máy tính phải lực tính tốn lớn Nếu lắp đặt hệ th ng máy tính n y điểm lắp đặt c mer gây t n chi phí lắp đặt chi phí lượng để trì Trong sở hạ tầng Internet n y chư đủ băng thơng để truyền liệu liệu hình ảnh thời gi n thực từ c mer /sm rtphones máy chủ mạnh khiến ứng dụng củ b i toán thị giác máy chư thể triển kh i rộng r i Ngo i r , kiến trúc mạng CNN dư thừ nhiều th nh phần, s lớp/tầng (network l yers) chư phát huy khả tự học đặc trưng qu n trọng củ liệu Nhiều mơ hình mạng neuron thiết kế để giải b i toán tổng quát (như hệ th ng SSD [37], YOLO [39], Faster R-CNN [40],…), việc kh i thác, ứng dụng mạng n y để giải b i tốn cụ thể, có quy mơ v ngữ cảnh hẹp hơn, không hiệu Về mặt hiệu năng, th nh tựu vượt sức tưởng tượng củ kiến trúc mạng tích chập CNN (Convolution l Neur l Networks) đ tạo th nh xu hướng công nghệ tr n to n giới v i năm trở lại Các kiến trúc mạng li n tiếp cải thiện theo năm m ng lại cảm hứng cho nhiều chuyên gia nghiên cứu nh phát triển ứng dụng Từ mạng Lenet5 đơn giản với v i tầng thiết kế để phân loại tập ảnh viết t y chữ s từ 0-9 với 10 lớp khác nh u, mạng CNN n y đ phát triển sâu đến h ng trăm tầng v có khả phân loại h ng chục nghìn đ i tượng ResNet, DenseNet… Ngo i chức phân loại ảnh (Im ge Cl ssific tion) b n đầu, mạng CNN n y cải tiến để áp dụng s ng nhiều b i toán khác như: dị tìm đ i tượng (Object Detection), phân vùng đ i tượng (Image Segmentation), mạng G N (Generative dvers ri l Networks) h y chí cịn áp dụng s ng lĩnh vực xử lý ngôn ngữ tự nhi n Dị tìm đ i tượng ứng dụng thành cơng trí tuệ nhân tạo mạng học sâu Nhiều mơ hình mạng tích chập đ đề xuất phát triển nhanh mạnh thời gi n qu mạng YOLOv2, YOLOv3, YOLOv4, chí l YOLOv5 đ xuất Các mơ hình có khả dị tìm nhiều đ i tượng khác nh u (h ng trăm đ i tượng) với độ xác cao thời gian nhanh, chí chạy gần thời gian thực kiến trúc CPU Trong b i tốn dị tìm đ i tượng tổng qt, dị tìm người tốn cụ thể có nhiều tiềm ứng dụng thực tế, tiêu biểu lĩnh vực n ninh, giám sát người qu n, si u thị; giám sát theo dõi [X1, Y1, X2, Y2] (ta gọi l Groudtruth) hi đó, để xác định xem kết dự đốn thuật tốn có xác khơng, người t tính đọ đo IoU v so sánh với ngưỡng IoU tính cách lấy phần giao hình chữ nhật dự đốn v hình chữ nhật GroundTruth chia cho phần hợp hình chữ nhật Cụ thể, IoU tính s u (Hình 3.10) Hình 3.10 Cơng thức tính IoU9 Hình 3.11 minh họ trường hợp IoU khác thể mức độ xác hình chữ nhật dự đốn v hình chữ nhật đáp án (IoU c ng gần 1,0 hai hình chữ nhật khớp hay chồng lên nhau) Hình 3.11 Minh họa trường hợp IoU10 https://jonathan-hui.medium.com/map-mean-average-precision-for-object-detection-45c121a31173 40 Như vậy, kết dự đốn thuật tốn dị tìm đ i tượng xem l (Correct) IoU hình chữ nhật dự đốn v hình chữ nhật đáp án lớn ngưỡng (bằng 0.5 thử nghiệm chúng tôi) Để tính tốn Precision Recall cho thuật tốn dị tìm đ i tượng (ký hiệu P-Algorithm), ta sử dụng thuật ngữ sau (Hình 3.12, giả sử thuật tốn dị tìm/phát ảnh): - True positive: P-Algorithm dự đốn có vị trí s thực tế có (như vị trí s Hình 3.11) - False positive: P-Algorithm dự đốn có vị trí s thực tế khơng có n o (còn gọi l F lse l rm h y báo động nhầm) - False negative: P-Algorithm dự đoán khơng có vị trí s thực tế có (cịn gọi Miss Detection hay bỏ sót) - True negative: P-Algorithm dự đốn khơng có vị trí s thực tế khơng có n o Hình 3.12 Minh họa khái niệm True/False Positive True/False Negative11 10 https://www.pyimagesearch.com/2016/11/07/intersection-over-union-iou-for-object-detection/ https://pro.arcgis.com/en/pro-app/latest/tool-reference/image-analyst/how-compute-accuracy-for-objectdetection-works.htm 11 41 hi đó, Precision v Rec ll tính s u: Precision = (True Positive)/(True Positive + False Positive) Recall = (True Positive)/(True Positive + False Negative) Ví dụ, cho trước ảnh có 100 người, mạng YOLOv4-Tiny trả kết 120 người, có 90 người khớp với đáp án, vậy: True Positive = 90, False Positive = 30, False Negative = 10: Precision = 90/120 = 0.75 Recall = 90/100 = 0.9 Tuy nhi n, để đo hiệu thuật tốn dị tìm đ i tượng, người ta hay dùng khái niệm ver ge Precision ( P) tích tốn tích phân Precision theo Recall r=1 P= ∫ P r dr r=0 Chúng sử dụng P để đánh giá hiệu mạng YOLOv4Tiny phần 3.4.2 Kết thực nghiệm Chúng đánh giá hiệu YOLOv4-Tiny tập Validation liệu WiderPerson so sánh với đội tham gia thi Dị tìm người tổ chức năm 201912 Cuộc thi nằm khuôn khổ chương trình Hội nghị http://iccv2019.thecvf.com/ (thuộc Top hội nghị uy tín lĩnh vực Computer Vision) Do liệu WiderPerson không cung cấp nhãn cho tập Test, nên cung cấp kết thử nghiệm tập Validation Bảng trrình bày kết so sánh Như chúng t quan sát thấy, YOLOv4-Tiny đạt độ xác AP = 0.62, đứng thứ 12 tổng s 23 đội tham dự thi 12 https://wider-challenge.org/2019.html 42 Bảng 3.1 Kết hiệu dị tìm ngƣời YOLOv4-Tiny đội tham gia thi tập Validation WiderPerson13 Tên đội (username) Kết AP (Xếp hạng) zed0630 0.7060 (1) hongsong.wang 0.7025 (2) Bresee 0.6915 (3) saberZero 0.6861 (4) ws 0.6707 (5) boke 0.6629 (6) herrylu 0.6470 (7) foobar 0.6417 (8) guan 0.6369 (9) 10 Vicky 0.6368 (10) 11 zeenolife 0.6300 (11) 12 topc 0.6219 (12) 13 zhaozhenxing904 0.6193 (13) 14 chenm 0.6159 (14) 15 shirley.s 0.6153 (15) 16 Vick 0.6090 (16) 17 guyubit 0.5931 (17) STT 13 https://competitions.codalab.org/competitions/20132#results 43 Tên đội (username) Kết AP (Xếp hạng) 18 xiaozhuka 0.5826 (18) 19 chuchen 0.5669 (19) 20 zdhAaron 0.5491 (20) 21 sophiahxw 0.4068 (21) 22 subha94 0.0001 (22) 23 YOLOv4-Tiny 0.62 (12) STT Chú ý YOLOv4-Tiny thiết kế để t i ưu hó t c độ Do vậy, độ xác dị tìm đ i tượng đạt ấn tượng Về t c độ xử lý, Bảng 3.2 trình bày t c độ YOLOv4-Tiny tr n CPU v GPU Như quan sát thấy, YOLOv4-Tiny cho t c độ xử lý nhanh CPU GPU Bảng trình bày tốc độ YOLOv4-Tiny CPU GPU STT Cấu hình máy CPU i7-7700K GeForce GTX 1070, 8Gb memory Thời gian (ms) FPS 25 ms 40 10.5 ms 95 3.5 Kết demo - Link video: - Ảnh minh họa trực quan kết dị tìm người YOLOv4-Tiny: 44 45 46 47 Chƣơng KẾT LUẬN VÀ KIẾN NGHỊ 4.1 Kết luận Trong luận văn n y, chúng tơi đ tìm hiểu v nghi n cứu b i toán phát người ảnh/video Đây l b i tốn khó lĩnh vực thị giác máy tính có nhiều tiềm ứng dụng thực tiễn, đặc biệt lĩnh vực n ninh, giám sát tự động, cảnh báo tụ tập đông người, biểu tình Các đóng góp củ luận văn n y tóm tắt s u: - Báo cáo tổng qu n tình hình nghi n cứu lĩnh vực phát người ảnh, tập trung v o phương pháp học máy, đặc biệt l mơ hình mạng nhân chập học sâu (deep le rning methods) Các ưu điểm v hạn chế củ phương pháp phân tích, trình b y v đánh giá chi tiết, to n diện - Tìm hiểu chi tiết kiến trúc mạng YOLOv4 – giới thiệu gần v đ chứng minh hiệu độ xác v t c độ xử lý Tr n sở đó, chúng tơi tìm hiểu, nghi n cứu phi n rút gọn củ YOLOv4, l YOLOv4-Tiny, nhằm nghi n cứu kiến trúc mạng nhỏ gọn, đáp ứng ti u chí thời gi n thực xử lý tr n thiết bị CPU thông dụng - C i đặt, huấn luyện mạng v l m mịn (fine-tuning) mơ hình mạng nhân chập YOLOv4-Tiny tr n tập liệu WiderPerson so sánh kết hiệu với phương pháp khác ết cho thấy YOLOv4-Tiny fine-tining lại đ cho hiệu ổn định, với ưu điểm hoạt động thời gian thực CPU Từ đó, ứng dụng thực tế cần yếu t thời gian xử lý nhanh phù hợp để áp dụng mơ hình - Xây dựng ứng dụng demo hệ th ng dò tìm người ảnh chạy tập liệu Việt Nam Kết trực quan cho thấy hệ th ng hoạt động xác bền vững với nhiều biến đổi chất lượng ảnh, độ phân giải phức tạp thông tin ảnh 48 4.2 Kiến nghị Với kết đ đạt được, hệ th ng có tiềm triển kh i, tích hợp v o thiết bị CPU giá rẻ v ứng dụng tr n phạm vi rộng Do vậy, đề t i cần tiếp tục đầu tư, phát triển để xây dựng sản phẩm ứng dụng ho n chỉnh, bổ sung chức nghiệp vụ tùy thuộc v o ứng dụng cụ thể 49 TÀI LIỆU THAM KHẢO Tiếng Anh [1] Alexey Bochkovskiy, Chien-Yao Wang, Hong-Yuan Mark Liao (2020), ―YOLOv4: Optim l Speed nd ccur cy of Object Detection‖, arXiv, 10934 [2] Dina Chahyati, Mohamad Ivan Fanany, Aniati Murni Arymurthy (2017), ―Tracking People by Detection Using CNN Features‖, Procedia Computer Science, 124, pp.167-172 [3] Jie Chen, Shiguang Shan, Guoying Zhao, Xilin Chen, Wen Gao and M Pietikainen (2008), " robust descriptor b sed on Weber’s L w", IEEE Conference on Computer Vision and Pattern Recognition, pp.1-7, doi: 10.1109/CVPR.2008.4587644 [4] N Dalal and B Triggs (2005), "Histograms of oriented gradients for human detection", IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05), pp 886-893 vol 1, doi: 10.1109/CVPR.2005.177 [5] R Girshick, Jeff Donahue, Trevor Darrell, Jitendra Malik (2014), ―Rich Feature Hierarchies for Accurate Object Detection and Semantic Segment tion‖, IEEE Conference on Computer Vision and Pattern Recognition [6] R Girshick (2015), ―F st R-CNN‖, IEEE International Conference on Computer Vision (ICCV) [7] Goodfellow, Ian; Pouget-Abadie, Jean; Mirza, Mehdi; Xu, Bing; WardeFarley, David; Ozair, Sherjil; Courville, Aaron; Bengio, Yoshua (2014), "Generative Adversarial Networks", Proceedings of the International Conference on Neural Information Processing Systems (NIPS 2014), pp 2672–2680 [8] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun (2015), ―Spatial pyramid pooling in deep convolutional networks for visual recognition‖, IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 37(9), 1904-1916 50 [9] M Kachouane, S Sahki, M Lakrouf and N Ouadah (2012), "HOG based fast human detection", International Conference on Microelectronics (ICM), pp 1-4, doi: 10.1109/ICM.2012.6471380 [10] Rayson Laroca ; Evair Severo ; Luiz A Zanlorensi ; Luiz S Oliveira; Gabriel Resende Gonỗalves; William, Robson Schwartz; David (2018), "Menotti Robust Real-Time Automatic License Plate Recognition Based on the YOLO Detector", International Joint Conference on Neural Networks (IJCNN), pp 1-10 [11] Y LeCun, L Bottou, Y Bengio, and P Haffner (1998), "Gradient-based learning applied to document recognition", Proceedings of the IEEE, 86(11), 2278-2324 [12] Liang, Z.; Shao, J.; Zhang, D.; Gao, L (2018), Small Object Detection Using Deep Feature Pyramid Networks, In Proceedings of the Advances in Multimedia Information Processing—PCM, Hefei, China, pp 554–564 [13] Lin, S.D & Liu, Y.-M & Jhu, Y.-R (2013), ―A robust image descriptor for human detection based on hog and weber's law‖, International Journal of Innovative Computing, Information and Control, (9), pp 3887-3901 [14] Shu Liu, Lu Qi, Haifang Qin, Jianping Shi, and Jiaya Jia (2018), ―Path aggregation network for instance segmentation‖, In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp 8759–8768 [15] Aurelia Michelea Vincent ColinaDiaz D.Santika (2019), "MobileNet Convolutional Neural Networks and Support Vector Machines for Palmprint Recognition", Procedia Computer Science, 157, pp110-117 [16] A B Nassif, I Shahin, I Attili, M Azzeh and K Shaalan (2019), "Speech Recognition Using Deep Neural Networks: A Systematic Review", IEEE Access, vol 10.1109/ACCESS.2019.2896880 51 7, pp 19143-19165, doi: [17] Joseph Redmon and Ali Farhadi (2018), ―YOLOv3: An incremental improvement‖, arXiv, preprint arXiv:1804.02767 [18] Mingxing Tan, Ruoming Pang, and Quoc V Le (2020), ―EfficientDet: Scalable and efficient object detection‖, In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) [19] J Tang, C Deng, and G B Huang (2016), ―Extreme le rning m chine for multilayer perceptron‖, IEEE Transactions on Neural Networks & Learning Systems, 27(4), pp.809–821 [20] J Uijlings, K van de Sande, T Gevers, and A Smeulders (2013), ―Selective search for object recognition‖, IJCV [21] Mirela Kundid Vasic and Vladan Papic (2020), ―Multimodel Deep Learning for Person Detection in Aerial Images‖, Electronics, 9(9) [22] Chien-Yao Wang and Alexey Bochkovskiy and Hong-Yuan Mark Liao (2020), ―Scaled-YOLOv4: Scaling Cross Stage Partial Network‖, arXiv, arXiv2011.08036 [23] Chien-Yao Wang, Hong-Yuan Mark Liao, Yueh-Hua Wu, Ping-Yang Chen, Jun-Wei Hsieh, and I-Hau Yeh CSPNet (2020), ―A new backbone that can enhance learning capability of cnn‖, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshop (CVPR Workshop) [24] Zhang, Shifeng & Zhu, Xiangyu & Lei, Zhen & Shi, Hailin & Wang, Xiaobo & Li, Stan (2017), FaceBoxes, A CPU Real-time Face Detector with High Accuracy 10.1109/BTAS.2017.8272675 [25] Zhang, Shifeng and Xie, Yiliang and Wan, Jun and Xia, Hansheng and Li, Stan Z and Guo, Guodong (2019), "WiderPerson: A Diverse Dataset for Dense Pedestrian Detection in the Wild", IEEE Transactions on Multimedia (TMM) 52 Internet [26] Nouar AlDahoul, Aznul Qalid Md Sabri, Ali Mohammed Mansoor (2018), "Real-Time Human Detection for Aerial Captured Video Sequences via Neuroscience, Deep Models", vol 2018, Computational Article ID Intelligence 1639561, and pp.14, https://doi.org/10.1155/2018/1639561 [27] Bahri, H., Chouchene, M., Sayadi, F.E et al (2020), ―Real-time moving human detection using HOG and Fourier descriptor based on CUDA implementation‖, J Real-Time Image Proc 17, pp.1841–1856, https://doi.org/10.1007/s11554-019-00935-1 [28] Alexey Bochkovskiy (2020), ―Darknet: Open Source Neural Networks in Python‖, Available online: https://github.com/AlexeyAB/darknet [29] Jiankang Deng, Jia Guo, Niannan Xue, Stefanos Zafeiriou (2018), "ArcFace: Additive Angular Margin Loss for Deep Face Recognition", https://arxiv.org/abs/1801.07698 [30] Face Detection Data Set and Benchmark, http://vis- www.cs.umass.edu/fddb/ [31] K He, X Zhang, S Ren, and J Sun (2015), ―Deep residual learning for image recognition‖, https://arxiv.org/abs/1512.03385 [32] Kaiming He and Xiangyu Zhang and Shaoqing Ren and Jian Sun (2015), "Deep Residual Learning for Image Recognition", http://arxiv.org/abs/1512.03385, 2015 [33] G Huang, Z Liu and L van der Maaten (2018), ―Densely Connected Convolution l Networks‖, https://arxiv.org/pdf/1608.06993v3.pdf [34] Labeled Faces in the Wild, http://vis-www.cs.umass.edu/lfw/ [35] Yann LeCun, Leon Bottou, Yosuha Bengio, Patrick Haffner (1998), "Gradient-Based Learning Applied to Document http://yann.lecun.com/exdb/publis/pdf/lecun-01a.pdf 53 Recognition", [36] Jian Li, Yabiao Wang, Changan Wang, Ying Tai, Jianjun Qian, Jian Yang, Chengjie Wang, Jilin Li, Feiyue Huang (2018), "DSFD: Dual Shot Face Detector", https://arxiv.org/abs/1810.10220 [37] Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, Alexander C Berg (2015), "SSD: Single Shot MultiBox Detector", https://arxiv.org/abs/1512.02325 [38] Weiyang Liu, Yandong Wen, Zhiding Yu, Ming Li, Bhiksha Raj, Le Song (2017), "SphereFace: Deep Hypersphere Embedding for Face Recognition", https://arxiv.org/abs/1704.08063 [39] Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi (2015), "You Only Look Once: Unified, Real-Time Object Detection", https://arxiv.org/abs/1506.02640 [40] Shaoqing Ren, Kaiming He, Ross Girshick, Jian Sun (2015), "Faster RCNN: Towards Real-Time Object Detection with Region Proposal Networks", https://arxiv.org/abs/1506.01497 [41] Florian Schroff, Dmitry Kalenichenko, James Philbin (2015), "FaceNet: A Unified Embedding for Face Recognition and Clustering", https://arxiv.org/abs/1503.03832 [42] Christian Szegedy and Wei Liu and Yangqing Jia and Pierre Sermanet and Scott Reed and Dragomir Anguelov and Dumitru Erhan and Vincent Vanhoucke and Andrew Rabinovich (2014), "Going Deeper with Convolutions", https://arxiv.org/abs/1409.4842 [43] Hao Wang, Yitong Wang, Zheng Zhou, Xing Ji, Dihong Gong, Jingchao Zhou, Zhifeng Li, Wei Liu (2018), "CosFace: Large Margin Cosine Loss for Deep Face Recognition", https://arxiv.org/abs/1801.09414 [44] Shuo Yang, Yuanjun Xiong, Chen Change Loy, Xiaoou Tang (2017), "Face Detection through Scale-Friendly Deep Convolutional Networks", https://arxiv.org/abs/1706.02863 [45] Kaipeng Zhang, Zhanpeng Zhang, Zhifeng Li, Yu Qiao (2016), "Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks‖, https://arxiv.org/abs/1604.02878 54

Định dạng
Số trang	62
Dung lượng	3,47 MB