Nghiên cứu các kỹ thuật rút gọn mạng và ứng dụng trong bài toán dò tìm đối tượng

BỘ GIÁO DỤC VÀ ĐÀO TẠO UBND TỈNH THANH HÓA TRƯỜNG ĐẠI HỌC HỒNG ĐỨC NGUYỄN THỊ THU LAN NGHIÊN CỨU CÁC KỸ THUẬT RÚT GỌN MẠNG VÀ ỨNG DỤNG TRONG BÀI TỐN DỊ TÌM ĐỐI TƯỢNG LUẬN VĂN THẠC SĨ MÁY TÍNH THANH HĨA, NĂM 2022 BỘ GIÁO DỤC VÀ ĐÀO TẠO UBND TỈNH THANH HÓA TRƯỜNG ĐẠI HỌC HỒNG ĐỨC NGUYỄN THỊ THU LAN NGHIÊN CỨU CÁC KỸ THUẬT RÚT GỌN MẠNG VÀ ỨNG DỤNG TRONG BÀI TOÁN DỊ TÌM ĐỐI TƯỢNG LUẬN VĂN THẠC SĨ MÁY TÍNH Chuyên ngành: Khoa học máy tính Mã số: 8480101 Người hướng dẫn khoa học: PGS TS Phạm Thế Anh THANH HÓA, NĂM 2022 Danh sách Hội đồng chấm luận văn Thạc sỹ khoa học (Theo Quyết định số 1677/QĐ- ĐHHĐ 03 tháng 08 năm 2022 Hiệu trưởng Trường Đại học Hồng Đức) Học hàm, học vị Cơ quan Chức danh Họ tên Công tác Hội đồng PGS.TS Vũ Việt Vũ Viện CNTT- ĐH Quốc gia Hà Nội Chủ tịch HĐ TS Nguyễn Văn Hậu Trường ĐHSP Kỹ thuật Hưng Yên UV, Phản biện TS Nguyễn Đình Công Trường ĐH Hồng Đức UV, Phản biện PGS.TS Trịnh Viết Cường Trường ĐH Hồng Đức Uỷ viên TS Nguyễn Thế Cường Trường ĐH Hồng Đức Uỷ viên, Thư ký Xác nhận Người hướng dẫn Học viên chỉnh sửa theo ý kiến Hội đồng Ngày 12 tháng năm 2022 PGS.TS Phạm Thế Anh LỜI CAM ĐOAN Tơi xin cam đoan cơng trình nghiên cứu thân, khơng trùng lặp với khóa luận, luận văn, luận án cơng trình nghiên cứu công bố Các kết nghiên cứu kết luận luận văn trung thực, không chép từ nguồn hình thức Việc tham khảo nguồn tài liệu (nếu có) thực trích dẫn ghi nguồn tài liệu tham khảo quy định Người cam đoan Nguyễn Thị Thu Lan i LỜI CẢM ƠN Để hoàn thành đề tài luận văn này, tơi xin bày tỏ lịng biết ơn chân thành sâu sắc đến PGS TS Phạm Thế Anh, Trường Đại học Hồng Đức tận tình hướng dẫn, tạo điều kiện tốt suốt q trình thực luận văn Nhân dịp này, tơi xin gửi lời cảm ơn đến Ban lãnh đạo, thầy cô, cán Bộ môn Khoa học máy tính, Khoa Cơng nghệ Thơng tin & Truyền thơng, Phịng Quản lý đào tạo Sau đại học, Trường Đại học Hồng Đức; bạn đồng nghiệp, gia đình người thân động viên, giúp đỡ tơi hồn thành luận văn Thanh Hóa, ngày 12 tháng năm 2022 Tác giả luận văn Nguyễn Thị Thu Lan ii MỤC LỤC LỜI CAM ĐOAN - LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC TỪ VIẾT TẮT……………………………………………………v DANH MỤC CÁC BẢNG vi DANH MỤC HÌNH ẢNH vii MỞ ĐẦU 1 Tính cấp thiết đề tài Mục tiêu nghiên cứu Đối tượng, phạm vi nghiên cứu 3.1 Đối tượng nghiên cứu: 3.2 Phạm vi nghiên cứu: 4 Nội dung nghiên cứu: Phương pháp nghiên cứu Dự kiến kết đạt Chương GIỚI THIỆU 1.1 Tổng quan thị giác máy 1.2 Các ứng dụng thị giác máy tính 1.3 Phương pháp kỹ nghệ đặc trưng (Feature Engineering) hay học đặc trưng thủ công 10 1.3.1 Các kỹ thuật dị tìm đặc trưng mức thấp 10 1.3.2 Các kỹ thuật dị tìm đặc trưng ngữ cảnh 15 1.3.3 Các kỹ thuật dị tìm đặc trưng tồn cục 16 1.4 Phương pháp trích chọn đặc trưng tự động dựa mạng tích chập CNN 18 1.4.1 Giới thiệu mạng nhân chập CNN 18 1.4.2 Ưu điểm mạng CNN 21 1.4.3 Các hạn chế mạng CNN tiềm nghiên cứu 22 Tóm tắt Chương 23 iii Chương TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU 24 2.1 Các mơ hình mạng nhân chập hiệu cao 24 2.1.1 Mạng VGG16 [5] 24 2.1.2 Mạng ResNet[24] 25 2.1.3 Mạng DSFD [8] 27 2.2 Các mạng nhân chập thời gian thực 28 2.2.1 YOLO4 [15] 28 2.2.2 YOLO5 30 2.3 Các kỹ thuật tối ưu rút gọn mạng 31 2.3.1 Kỹ thuật Drop-Out [29] 31 2.3.2 Kỹ thuật học chuyển tiếp 32 2.3.3 Kỹ thuật rút gọn mạng 34 Tóm tắt Chương 42 Chương NGHIÊN CỨU CÁC KỸ THUẬT RÚT GỌN MẠNG 44 VÀ ỨNG DỤNG 44 3.1 Đặt vấn đề 44 3.2 Kỹ thuật Group Convolutions (GC) 44 3.3 Kỹ thuật ShufflleNet 45 3.4 Kỹ thuật Approximated ResNet 47 3.5 Xây dựng kiến trúc mạng rút gọn dị tìm đối tượng 48 3.6 Chuẩn bị liệu huấn luyện mơ hình 50 3.7 Thực nghiệm đánh giá kết 51 3.7.1 Đánh giá độ xác dị tìm khn mặt 51 3.7.2 Đánh giá độ hiệu (thời gian xử lý) 55 Kết luận Chương 56 KẾT LUẬN VÀ KIẾN NGHỊ 57 Kết luận 57 Kiến nghị 58 TÀI LIỆU THAM KHẢO 59 iv DANH MỤC TỪ VIẾT TẮT CNN : Convolutional Neural Network AI: Artifical intelligence DL: Deep Learning ResNet: Residual Network Densenet: Dense connected convolutional network GAN: Generative Adversarial Networks YOLO: You only look once FC: Fully-Connected RL: Residual Learning FEM: Feature Enhance Module FPN: Feature Paramyd Network NMS: Non-Maxima Suppression SPP: Spatial Pyramid Pooling PAN: Path Aggregation Network GC: Group Convolution DSC: Depthwise Separable Convolution BDWR: Bottleneck Depth-Separable Convolution with Residual AP: Average Precision ReLU: Rectified Linear Activation Unit SIFT: Scale Invariant Feature Transform FPS: First Person Shooter v DANH MỤC CÁC BẢNG Bảng 2.1 Tổng hợp kỹ thuật tối ưu dùng YOLO4………………29 Bảng 2.2 So sánh nhân chập truyền thống nhân chập phân tách…36 Bảng 3.1 Tổng hợp, so sánh độ phức tạp tính tốn trước sau rút gọn48 Bảng 3.2 Kiến trúc mạng tổng qt dị tìm đối tượng…………………….49 vi nhân chập tiêu chuẩn để tăng cường đặc trưng mà bị loại bỏ áp dụng kỹ thuật rút gọn mạng Kiến trúc mạng tổng quát trình bày bảng 3.2 Bảng 3.2 Kiến trúc mạng tổng qt dị tìm đối tượng STT Mạng sở Input Output Ghi Conv2d (33, Nhân chập 3843843 19219230 tride=2) chuẩn Conv2d (33, 19219230 969660 stride=2) AppResNet 969660 969660 ShuffleNet Unit 969660 969660 Số nhóm = Conv2d (33, 969660 4848126 stride=2) AppResNet 4848126 4848126 Số nhóm = 3, ShuffleNet Unit 4848126 4848126 tầng anchor Conv2d (33, 4848126 2424126 stride=2) AppResNet 2424126 2424126 Số nhóm = 3, 10 ShuffleNet Unit 2424126 2424126 tầng anchor Conv2d (33, 11 2424126 1212126 stride=2) Số nhóm = 3, 12 ShuffleNet Unit 1212126 1212126 tầng anchor Conv2d (33, 13 1212126 66126 stride=2) 14 AppResNet 66126 66126 Số nhóm = 3, 15 ShuffleNet Unit 66126 66126 tầng anchor 16 Detection Head 49 Để dị tìm đối tượng ảnh, áp dụng kỹ thuật hộp neo (anchor) kỹ thuật tăng cường liệu, hàm mục tiêu tiên tiến mô tả báo [45] 3.6 Chuẩn bị liệu huấn luyện mô hình Tập liệu huấn luyện Wider Face [44] sử dụng rộng rãi cộng đồng nghiên cứu để đánh giá thuật tốn dị tìm khn mặt Tập liệu chứa 393,703 khuôn mặt từ sưu tập gồm 32.203 hình ảnh có mức độ đa dạng cao tỷ lệ, tư thế, nét mặt, môi trường ánh sáng góc chụp Ngồi ra, mơ tả 60 kiện phổ biến sống hàng ngày phân nhóm ngẫu nhiên thành ba tập: Training (40%), Validation (10%) Testing (50%) Mơ hình mạng đào tạo tập Training đánh giá Validation Testing Bên cạnh đó, để có nhìn sâu sắc hiệu suất dị tìm khn mặt, kết đánh giá chia thành ba mức độ khó, gồm: Easy, Medium Hard Các hàm mục tiêu huấn luyện tham số huấn luyện sử dụng lại báo [45] Hình 3.4 minh họa kết huấn luyện Như quan sát thấy hàm mục tiêu tương ứng với tập Training Validation hội tự cạnh nhau, chứng tỏ mơ hình hoạt động hiệu tập huấn luyện đưa vào thực tế Hình 3.4 Quá trình huấn luyện mạng (Validation : màu xanh, Training: đỏ) 50 3.7 Thực nghiệm đánh giá kết 3.7.1 Đánh giá độ xác dị tìm khn mặt Chúng tơi đánh giá hiệu hệ thống tập liệu FDDB [46] Wider Face [44] theo độ đo trình bày [45] Hình 3.5 cung cấp kết dị tìm khn mặt tập FDDB Đối với tập Wider Face, sử dụng độ đo Precision/Recall AP (Average Precision) tính tập Đồng thời độ đo tính theo mức độ khó khác (Easy, Medium, Hard) theo phân bố liệu Hình 3.6 minh họa kết hệ thống đề xuất so sánh với phương pháp khác Mạng đề xuất đạt điểm AP ấn tượng 0.832, 0.792, 0.603 tương ứng cho tác tập: Easy, Medium, Hard Hình 3.5 Kết dị tìm khn mặt tập FDDB 51 (a) Kết tập Easy Wider Face (b)Kết tập Medium Wider Face 52 (c) Kết tập Hard Wider Face Hình 3.6 Precision Recall hệ thống đề xuất (kí hiệu Ours) so sánh với hệ thống khác 53 Hình 3.7 cung cấp số ví dụ cụ thể, trực quan kết dị tìm khn mặt thuật tốn đề xuất 54 Hình 3.8 Minh họa kết trực quan tập Wider Face (các hình hộp đỏ kết dị tìm hệ thống) 3.7.2 Đánh giá độ hiệu (thời gian xử lý) Phần đánh giá độ hiệu thuật toán đề xuất thực nghiệm Chúng so sánh tốc độ xử lý dạng FPS hệ thống đề xuất so với phương pháp khác (được tối ưu độ phức tạp tính tốn) Ở đây, AP tính tập liệu FDDB [46], tốc độ xử lý hệ thống đề xuất tính tập Wider Face (Val) Và thực cấu hình máy CPU STT Tên hệ thống FPS AP Ours 37.3 95.5 FaceBoxes [47] 20.1 95.6 ACF [48] 20.0 85.2 JointCascade [49] 34.9 86.3 Cascade-CNN [50] 14 85.7 55 Kết luận Chương Trong chương này, chúng tơi trình bày nội dung nghiên cứu luận văn: nghiên cứu kỹ thuật rút gọn mạng ứng dụng xây dựng kiến trúc mạng gọn nhẹ, giải tốn dị tìm đối tượng, cụ thể dị tìm khn mặt ảnh Cụ thể, tập trung nghiên cứu kỹ thuật rút gọn mạng cụ thể sau: Group Convolutions (GC), ShufflleNet, Approximated ResNet (AppResNet) Kỹ thuật ShufflleNet kết hợp với GC cho phép xáo trộn kênh tín hiệu đầu vào khai thác tốt mối tương quan đặc trưng trực quan kênh tín hiệu đầu vào, giảm đáng kể độ phức tạp tính tốn Kỹ thuật AppResNet cho phép tạo phiên nhỏ gọn module mạng Inception-ResNet-A (vốn hiệu cho toán dị tìm phân loại đối tượng) Dựa ba kỹ thuật trên, xây dựng kiến trúc mạng gọn nhẹ ứng dụng vào tốn dị tìm khn mặt Mơ hình mạng đề xuất huấn luyện tập liệu chuẩn Wider Face nhiều thử nghiệm thực cho thấy nhiều ưu điểm độ xác tốc độ xử lý (ở dạng FPS) Kết đạt chương cho thấy tiềm kỹ thuật rút gọn mạng hay xấp xỉ mạng lớn, có tính khả thi tính ứng dụng cao Đây giải pháp hiệu tối ưu để triển khai mạng CNN thiết bị có lực tính tốn thấp thiết bị di động (mobile) 56 KẾT LUẬN VÀ KIẾN NGHỊ Kết luận Luận văn nghiên cứu kỹ thuật rút gọn xấp xỉ mạng ứng dụng vào toán dị tìm đối tượng Để thực nội dung đề tài, Chương luận văn trình bày kiến thức tảng thị giác máy tính ứng dụng thực tiễn Chương trình bày cách có hệ thống phương pháp trích chọn đặc trưng từ mức thấp đến mức cao, phân nhóm thành cách tiếp cận chính: kỹ nghệ đặc trưng (Feature Engineering) học đặc trưng tự động qua mạng nơ ron nhân chập học sâu CNN (Deep Convolutional Neuron Networks) Trên sở đó, chúng tơi phân tích đánh giá ưu điểm hạn chế cách tiếp cận, làm sở cho nội dung nghiên cứu Chương Chương luận văn trình bày tổng quan kiến trúc mạng CNN hiệu cao nhằm khẳng định kết ấn tượng đột phá lĩnh vực học sâu (Deep Learning), đặc biệt tốn lĩnh vực thị giác máy tính Từ đó, hạn chế kiến trúc mạng CNN liên quan đến vấn đề tốc độ xử lý, số lượng tham số mạng tiềm triển khai thiết bị di động Để giải vấn đề đó, chúng tơi trình bày, phân tích đánh giá phương pháp rút gọn mạng xấp xỉ mạng Một số phương pháp lựa chọn đánh giá bao gồm: Group Convolutions, ShufflleNet, Depthwise Separable Convolution, DropOut, Transfer learning Chương nội dung nghiên cứu đề tài, tập trung vào việc ứng dụng kỹ thuật rút gọn xấp xỉ mạng để xây dựng kiến trúc mạng cụ thể, giải tốn dị tìm đối tượng lĩnh vực dị tìm khn mặt Chúng tơi lựa chọn kỹ thuật tiêu biểu Group Convolutions, ShufflleNet Approximated ResNet Việc kết hợp kỹ thuật để xây dựng kiến trúc mạng dị tìm khn mặt phân tích, đánh giá thử nghiệm tập liệu tiêu chuẩn, sử dụng rộng rãi cộng đồng nghiên cứu Kết 57 thực nghiệm cho thấy hệ thống đề xuất hoạt động hiệu quả, với tốc độ xử lý đáp ứng tiêu chí thời gian thực thiết bị CPU (khơng yêu cầu máy chuyên dụng GPU) độ xác ấn tượng Kết khẳng định tiềm kỹ thuật rút gọn xấp xỉ mạng mở nhiều hướng nghiên cứu tương lai Kiến nghị Dựa kết đạt được, chúng tơi có số nhận xét đề xuất sau: - Các kỹ thuật rút gọn mạng xấp xỉ mạng tỏ hiệu việc xây dựng mạng CNN gọn nhẹ, độ xác cao, thích hợp với ứng dụng thời gian thực, đặc biệt cần triển khai thiết bị di động CPU có lực xử lý hạn chế - Các kết nghiên cứu luận văn kết ban đầu quy mô, phạm vi hẹp Cần tiếp tục thử nghiệm đánh giá hệ thống ngữ cảnh thực tế liệu phức tạp Việc hoàn thiện phát triển ứng dụng thiết bị di động cần thiết để đánh giá cách xác hiệu nghiên cứu luận văn - Đề nghị Khoa tiếp tục hỗ trợ điều kiện máy tính, máy xử lý đồ họa hiệu cao cho phép thu thập liệu khuôn mặt nhằm đánh giá 58 TÀI LIỆU THAM KHẢO Tiếng Việt: [1] Phạm Thế Anh, Nguyễn Mạnh An, Đỗ Năng Tồn (2017), Giáo trình Xử lý ảnh, NXB Giáo dục [2] Lê Hoài Bắc (2014), Cơ sở trí tuệ nhân tạo, Nhà xuất Khoa học Kỹ thuật [3] Hồng Văn Dũng (2018), Giáo trình Nhận dạng Xử lý ảnh, Nhà xuất Khoa học Kỹ thuật Tiếng Anh: [4] A G Howard, M Zhu, B Chen, D Kalenichenko, W Wang, T Weyand, M Andreetto, and H Adam (2017), “Mobilenets: Efficient convolutional neural networks for mobile vision applications” arXiv, 1704.04861 [cs.CV] [5] A G Howard, M Zhu, B Chen, D Kalenichenko, W Wang, T Weyand, M Andreetto, and H Adam (2017), “Mobilenets: Efficient convolutional neural networks for mobile vision applications” arXiv, 1704.04861 [cs.CV] [6] A Krizhevsky, I Sutskever, and G E Hinton (2012), “Imagenet classification with deep convolutional neural networks”, in Advances in Neural Information Processing Systems, F Pereira, C J C Burges, L Bottou, and K Q Weinberger, Eds., vol 25 Curran Associates, Inc [7] Bochkovskiy, A., Wang, C.Y., Liao, H.Y.M (2020), Yolov4: optimal speed and accuracy of object detection arXiv:2004.10934v1 [cs.CV] [8] Chien-Yao Wang, Hong-Yuan Mark Liao, Yueh-Hua Wu, Ping-Yang Chen, JunWei Hsieh, and I-Hau Yeh CSPNet (2020), “A new backbone that can enhance learning capability of cnn”, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshop (CVPR Workshop) [9] Chen, D., Ren, S., Wei, Y., Cao, X., Sun (2014), “J.: Joint cascade face detection and alignment”, In: European Conference on Computer Vision (ECCV), pp 109–122 [10] C Szegedy, S Ioffe, V Vanhoucke, and A A Alemi (2017), “Inception-v4, inception-resnet and the impact of residual connections on learning”, in Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence, ser, AAAI’17 AAAI Press, pp 4278- 4284 59 [11] C Harris and M Stephens (1988), "A combined corner and edge detector (PDF)”, Proceedings of the 4th Alvey Vision Conference, pp 147– 151 [12] Delong Qi, Weijun Tan, Qi Yao, Jingfeng Liu (2021), "YOLO5Face: Why Reinventing a Face Detector", arXiv, 2105.12931 [cs.CV] [13] Farfade, S.S., Saberian, M.J., Li, L.J(2015), “Multi - view face detection using deep convolutional neural networks”, In Proceedings of the 5th ACM on International Conference on Multimedia Retrieval, pp 643–650 [14] GlennJocher, YOLOv5 (20/2/2022), https://github.com/ultralytics/yolov5 [15] Gibson, Perry & Cano, José & Turner, Jack & Crowley, Elliot & O'Boyle, Michael & Storkey, Amos (2020), Optimizing Grouped Convolutions on Edge Devices, 10.1109/ASAP49362.2020.00039 [16] G E Hinton, N Srivastava, A Krizhevsky, I Sutskever, and R R Salakhutdinov (2012), “Improving neural networks by preventing coadaptation of feature detectors”, arXiv, 1207.0580 [cs.NE] [17] Jain, V., Learned-Miller (2010), “E.: Fddb: A benchmark for face detection in unconstrained settings Tech Rep UM-CS-2010-009”, University of Massachusetts, Amherst [18] Jain, V., Learned-Miller (2010), “E.: Fddb: A benchmark for face detection in unconstrained settings”, Tech Rep, UM-CS-2010-009, University of Massachusetts, Amherst [19] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun (2015), “Spatial pyramid pooling in deep convolutional networks for visual recognition”, IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 37(9): 1904 – 1916 [20] K He, X Zhang, S Ren, and J Sun (2016), “Deep residual learning for image recognition”, in 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp 770 – 778 [21] Krizhevsky, A., Sutskever, I., Hinton (2012), “G.E.: Imagenet classification with deep convolutional neural networks”, In: F Pereira, C.J.C Burges, L Bottou, K.Q Weinberger (eds.) Advances in Neural Information Processing Systems, vol 25 Curran Associates, Inc 60 [22] Lin, T., Dollar, P., Girshick, R., He, K., Hariharan, B., Belongie, S (2017), “Feature pyramid networks for object detection”, In: 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp 936–944 (2017) DOI: 10.1109/CVPR.106 [23] Li, J., Wang, Y., Wang, C., Tai, Y., Qian, J., Yang, J., Wang, C., Li, J., Huang, F.: Dsfd (2019), “Dual shot face detector”, In: 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp 5055–5064 (2019) DOI 10.1109/CVPR 00520 [24] Liu, S., Huang, D., Wang (2018), Y, “Receptive field block net for accurate and fast object detection”, In: European Conference on Computer Vision (ECCV), pp 404–419 [25] Li, H., Lin, Z., Shen, X., Brandt, J., Hua, G (2015), “A convolutional neural network cascade for face detection”, In: 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp 5325–5334, DOI 10.1109/CVPR.2015.7299170 [26] Lloyd, Stuart P (1982), "Least squares quantization in PCM", IEEE Transactions on Information Theory, 28 (2): 129–137 [27] L Sifre (2014)., “Rigid-motion scattering for image classification”, PhD thesis, Ph D thesis [28] Li, H., Lin, Z., Shen, X., Brandt, J., Hua, G.: (2015), “A convolutional neural network cascade for face detection”, In: 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp 5325–5334 DOI 10.1109/CVPR, 729917 [29] Lowe, David G (2004) "Distinctive Image Features from Scale-Invariant Keypoints", International Journal of Computer Vision, 60 (2): 91–110 [30] M Sandler, A Howard, M Zhu, A Zhmoginov, and L.-C Chen (2019), “Mobilenetv2: Inverted residuals and linear bottlenecks”, arXiv:1801.04381 [cs.CV] [31] M Sandler, A Howard, M Zhu, A Zhmoginov, and L.-C Chen (2019), “Mobilenetv2: Inverted residuals and linear bottlenecks”, arXiv, 1801.04381 [cs.CV] 61 [32] Pham The Anh, Le Viet Nam, Nguyen Dinh Dinh (2021), “Efficient human detection with separable convolutional filters”, The 24th Vietnam Conference of Selected ICT Problems, pp 112-118 [33] Simonyan, K., Zisserman (2014), “A.: Very deep convolutional networks for large-scale image recognition”, arXiv, 1409.1556 [34] S Belongie, J Malik, and J Puzicha (2002), "Shape Matching and Object Recognition Using Shape Contexts", IEEE Transactions on Pattern Analysis and Machine Intelligence, 24 (24): 509–521 [35] Shu Liu, Lu Qi, Haifang Qin, Jianping Shi, and Jiaya Jia (2018), “Path aggregation network for instance segmentation”, In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 8759– 8768 [36].S Xie, R Girshick, P Dollar, Z Tu, and K (2016), “He Aggregated residual transformations for deep neural networks”, arXiv preprint arXiv,1611.05431 [37] Tang, X., Du, D.K., He, Z., Liu, J (2018), “Pyramidbox: A context-assisted single shot face detector”, In: European Conference on Computer Vision (ECCV), pp 812–828 [38] T.-A Pham (2021), “Semantic convolutional features for face detection,” Machine Vision and Applications, vol 33, no 3, pp 1–18, 2021 [Online] Available: https://doi.org/10.1007/s00138-021-01245-y [39] Tan, M., Pang, R., Le, Q.V (2020), “Efficientdet: Scalable and efficient object detection”, In: 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp 10, 778–10, 787 https://doi.org/10.1109/CVPR42600.2020.01079 [40].Wang, Zong-Sheng & Lee, Jung & Song (2020), “Chang & Kim, Sun”, Efficient Chaotic Imperialist Competitive Algorithm with Dropout Strategy for Global Optimization, Symmetry 12 635 10.3390/sym12040635 [41] X Zhang, X Zhou, M Lin, and J Sun (2017), “Shufflenet: An extremely efficient convolutional neural network for mobile devices,” arXiv, 1707.01083 [cs.CV] 62 [42] Yang, S., Luo, P., Loy, C.C., Tang (2016), “X: Wider face: a face detection benchmark”, In: IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp 5525–553 [43] Yang, B., Yan, J., Lei, Z., Li, S.Z.:(2014), “Aggregate channel features for multiview face detection”, arXiv, 1407.4023[cs.CV] [44] Yang, S., Luo, P., Loy, C.C., Tang (2015), “X.: From facial parts responses to face detection: A deep learning approach”, In: Proceedings of the 2015 IEEE International Conference on Computer Vision (ICCV), pp 3676–3684 [45] Zhang, S., Zhu, X., Lei, Z., Shi, H., Wang, X., Li, S.Z.: S3fd 2017), “Single shot scale-invariant face detector”, In: 2017 IEEE International Conference on Computer Vision (ICCV), pp 192–201 (2017) DOI 10.1109/ICCV.2017.30 [46] Pham, TA (2022), “ Effective deep neural networks for license plate detection and recognition”, Vis Comput https://doi.org/10.1007/s00371-021-02375-0 [47] Zhang, S., Chi, C., Lei, Z., Li, S.Z.(2020), “ Refineface: refinement neural network for high performance face detection”, IEEE Trans Pattern Anal Mach Intell https://doi.org/10.1109/TPAMI [48] Zhang, S., Zhu, X., Lei, Z., Shi, H., Wang, X., Li, S.Z.(2017), “Faceboxes: A cpu real-time face detector with high accuracy”, In: 2017 IEEE International Joint Conference on Biometrics (IJCB), pp 1–9 DOI 10.1109/BTAS.2017.8272675 [49] https://iq.opengenus.org/shufflenet/, 22/02/2022 [50] https://github.com/TropComplique/ShuffleNet-tensorflow, 22/02/2022 63

Định dạng
Số trang	75
Dung lượng	2,65 MB