Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 59 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
59
Dung lượng
3,36 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC SƢ PHẠM THÀNH PHỐ HỒ CHÍ MINH Nguyễn Thanh Dƣơng PHÁT HIỆN VÀ ĐẾM SỐ LƢỢNG ĐỐI TƢỢNG TRONG ẢNH DỰA TRÊN MÁY HỌC LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Thành phố Hồ Chí Minh – 2020 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC SƢ PHẠM THÀNH PHỐ HỒ CHÍ MINH Nguyễn Thanh Dƣơng PHÁT HIỆN VÀ ĐẾM SỐ LƢỢNG ĐỐI TƢỢNG TRONG ẢNH DỰA TRÊN MÁY HỌC Chuyên ngành : Khoa học máy tính Mã số : 8480101 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS NGUYỄN THANH BÌNH Thành phố Hồ Chí Minh - 2020 LỜI CAM ĐOAN Tác giả xin cam đoan luận văn: ―Phát đếm số lượng đối tượng ảnh dựa máy học‖ cơng trình nghiên cứu cá nhân tác giả hướng dẫn PGS.TS Nguyễn Thanh Bình thời gian qua Ngồi ra, báo cáo có sử dụng số nguồn tài liệu tham khảo trích dẫn nguồn thích rõ ràng Tác giả xin hồn tồn chịu trách nhiệm trước mơn, khoa nhà trường cam đoan Thành phố Hồ Chí Minh, ngày 30 tháng 11 năm 2020 Nguyễn Thanh Dương LỜI CẢM ƠN Trong trình học tập thực luận văn, tác giả xin gửi lời cảm ơn chân thành đến quý thầy cô khoa Công Nghệ Thông Tin, Phongf Sau đại học Trường đại học Sư phạm Thành phố Hồ Ch Minh Đặc biệt, cho phép tác giả bày tỏ trân quý biết ơn đến thầy PGS.TS Nguyễn Thanh Bình, người tận tình bảo, hướng dẫn giúp đỡ tác giả nhiều trình thực đề tài Tiếp theo, tác giả xin gửi lời cảm ơn đến ban lãnh đạo, đồng nghiệp Trường THPT An Nghĩa nơi tác giả công tác quan tâm, tạo điều kiện thuận lợi hỗ trợ, giúp đỡ tác giả trình học tập thực luận văn Cuối cùng, tác giả xin gửi lời cảm ơn chân thành đến gia đình bạn bè ln đồng hành, hỗ trợ khuyến khích tác giả cố gắng suốt q trình học tập nghiên cứu Tác giả cố gắng để hoàn thành luận văn này, với kiến thức có hạn nên khơng tránh khỏi thiếu sót Tác giả mong nhận bảo, góp ý q thầy giáo, anh chị bạn đồng nghiệp để luận văn hoàn thiện Một lần tác giả xin chân thành cảm ơn! MỤC LỤC Trang phụ bìa Lời cam đoan Lời cám ơn Mục lục Danh mục bảng Danh mục hình vẽ, đồ thị Danh mục chữ viết tắt Chƣơng GIỚI THIỆU 1.1 Giới thiệu đề tài 1.2 Mục tiêu nội dung đề tài 1.3 Giới hạn đề tài 1.4 Đóng góp mặt khoa học 1.5 Đóng góp mặt thực tiễn 1.6 Phương pháp nghiên cứu 1.7 Cấu trúc báo cáo Chƣơng CƠ SỞ LÍ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN 2.1 Cơ sở lí thuyết 2.1.1 Convolutional Neural Network 2.1.2 Residual Network 2.1.3 Feature Pyramid Network 2.2 Các nghiên cứu liên quan 11 2.2.1 R-CNN 11 2.2.2 Fast R-CNN 12 2.2.3 Faster R-CNN 13 2.2.4 Mask R-CNN 15 2.2.5 YOLO 17 2.2.6 YOLO9000 19 Chƣơng PHƢƠNG PHÁP PHÁT HIỆN VÀ ĐẾM SỐ LƢỢNG ĐỐI TƢỢNG TRONG ẢNH DỰA TRÊN MÁY HỌC 21 3.1 Ngữ cảnh toán 21 3.2 Thách thức đề tài 21 3.3 Phương pháp đề xuất phát đếm số lượng đối tượng ảnh dựa máy học 21 3.3.1 Quá trình huấn luyện 23 3.3.2 Quá trình thử nghiệm 31 Chƣơng THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 33 4.1 Phần cứng tập liệu thử nghiệm 33 4.1.1 Phần cứng 33 4.1.2 Tập liệu thử nghiệm 33 4.2 Đánh giá kết thực nghiệm 36 KẾT LUẬN 43 TÀI LIỆU THAM KHẢO 44 DANH MỤC CÁC BẢNG Bảng 4.1 Kết AP với ngưỡng IoU khác toàn liệu 39 Bảng 4.2 Kết tập liệu testing 40 Bảng 4.3 Giá trị Average Precision phương pháp phát đối tượng liệu INRIA Person 40 DANH MỤC HÌNH VẼ, ĐỒ THỊ Hình 2.1 Biểu diễn hình ảnh dạng chiều Hình 2.2 Mơ hình CNN Hình 2.3 Training error (bên trái) test error (bên phải) CIFAR10 với 20-layer 56-layer Hình 2.4 Residual block Hình 2.5 Kiến trúc ResNet Hình 2.6 Trích xuất đồ đặc trưng theo hướng bottom-up Hình 2.7 Dự đốn lớp mơ hình 10 Hình 2.8 Feature Pyramid Network 10 Hình 2.9 Kiến trúc R-CNN 12 Hình 2.10 Kiến trúc Fast R-CNN 13 Hình 2.11 Kiến trúc Faster R-CNN 14 Hình 2.12 Mơ hình Mask R-CNN 15 Hình 2.13 RoIPool Faster R-CNN 16 Hình 2.14 RoIAlign Mask R-CNN 17 Hình 2.16 Mơ hình hoạt động YOLO 18 Hình 2.17 K ch thước vị trí hộp giới hạn dự đốn 20 Hình 3.1 Mơ hình đề xuất 22 Hình 3.2 Ảnh resize 23 Hình 3.3 Biểu diễn chi tiết đường theo hướng từ lên từ xuống FPN 25 Hình 3.4 Region Proposal Network 26 Hình 3.5 Tạo anchors sổ trượt 27 Hình 3.6 Non-maximum suppresstion 28 Hình 3.7 Đề xuất khu vực chứa đối tượng 29 Hình 3.8 RoIAlign 30 Hình 3.9 T nh điểm lấy mẫu 30 Hình 3.10 Phân loại đối tượng 31 Hình 3.11 Quá trình thử nghiệm 32 Hình 4.1 Một số ảnh liệu Thermal Dogs and People 33 Hình 4.2 Một số ảnh liệu Mask Wearing 34 Hình 4.3 Một số ảnh liệu Raccoon 35 Hình 4.4 Một số ảnh liệu INRIA Person 36 Đồ thị 4.1 Loss function sau lần lặp liệu 37 Đồ thị 4.2 Các hàm mát sau lần lặp liệu 38 Hình 4.5 Phát người chó 41 DANH MỤC CÁC CHỮ VIẾT TẮT Chữ viết đầy đủ Chữ viết tắt AP Average Precision CPU Central Processing Unit CNN Convolutional Neural Netwok DDR4 Double Date Rate FPN Feature Pyramid Network GPU Graphics Processing Unit HOG Histogram of Oriented Gradients MRI Magnetic Resonance Imaging IoU Intersection over Union RAM Random Access Memory ReLU Rectified Linear Units RGB Red, Green, Blue RoI Region of Interest RPN Region Proposal Network R-CNN Region-based Convolutional Neural Network ResNet Residual Network SIFT Scale-Invariant Feature Transform SSD Soid State Drive SVM Support Vector Machine XML Extensible Markup Language YOLO You Only Look Once 35 3) Raccoon Dataset [27] Bộ liệu gồm 196 ảnh gấu mèo Hình 4.3, ảnh có k ch thước 416×416 tệp thích tên với định dạng XML, ban đầu liệu thu thập Dat Tran đăng lại Roboflow Tác giả chia liệu làm phần, 70% dùng để training với 137 ảnh, 10% dùng để validation với 20 ảnh 20% lại dùng cho testing với 39 ảnh Hình 4.3 Một số ảnh liệu Raccoon 4) INRIA Person Dataset [34] Bộ liệu người INRIA Naveet Dalal gồm 902 ảnh người 1671 ảnh có khung cảnh không chứa người Các ảnh hợp thành tệp có định dạng SEQ tệp thích ảnh hợp thành tệp có định dạng VBB Để thuận tiện cho trình huấn luyện tác giả chuyển tệp hình ảnh định dạng SEQ thành tệp hình ảnh có định dạng PNG (Portable Network Graphics) chuyển tệp th ch định dạng VBB thành tệp th ch có định dạng JSON (JavaScript Object Noattion) 36 Do q trình huấn luyện cần ảnh đầu vào có chứa người nên tác giả sử dụng 902 ảnh người với k ch thước khác Hình 4.4 Tác giả chia liệu làm phần, gồm 614 ảnh dùng để training chiếm khoảng 68% 288 ảnh dùng để validation chiếm khoảng 32% Hình 4.4 Một số ảnh liệu INRIA Person 4.2 Đánh giá kết thực nghiệm Tác giả huấn luyện mơ hình với cấu hình tương tự cấu hình sở sử dụng để đào tạo tập liệu COCO [26], tác giả thay đổi vài thuộc tính cho phù hợp với liệu, chẳng hạn: thay đổi số lớp từ 81 lớp COCO xuống lớp tùy thuộc vào số lượng đối tượng cần phát hiện, k ch thước ảnh thay đổi cố định chẳng hạn , mơ hình huấn luyện lần lặp (epoch), lần lặp có số bước tùy theo số lượng ảnh tập huấn luyện Sau lần lặp, trọng số mơ hình cập nhật, trạng thái mơ hình chuyển dần từ underfitting sang optimal sau overfitting 37 Có thể thấy Đồ thị 4.1, tỉ lệ hàm mát (loss function) mơ hình giảm sau lần lặp nghĩa mơ hình ngày tối ưu Đồ thị 4.1 Loss function sau lần lặp liệu Trong hàm mát bao gồm hàm mát classification loss (rpn_class_loss) bounding box regression loss (rpn_bbox_loss ) RPN; classification loss (mrcnn_class_loss), bounding box regression loss (mrcnn_bbox_loss) mask loss (mrcnn_mask_loss) Mask R-CNN Đồ thị 4.2 thể tỷ lệ hàm mát sau lần lặp, nhìn chung liệu tỷ lệ mát hàm giảm, mask loss có tỷ lệ mát cao phần ảnh huấn luyện khơng có mask mà mask tạo từ hộp giới hạn nên chưa bao sát đối tượng, hàm classification loss RPN Mask R-CNN thấp số lượng đối tượng cần phân loại có đến lớp bao gồm lớp background 38 Đồ thị 4.2 Các hàm mát sau lần lặp liệu Kết thúc lần lặp trọng số mơ hình cập nhật lưu lại thành tệp trọng lượng để lần lặp học tập tệp trọng lượng Tác giả đánh giá độ xác mơ hình cách tính giá trị AP với ngưỡng IoU khác tệp trọng lượng thu sau lần lặp, kết Bảng 4.1 Nhìn chung, ngưỡng IoU cao (hộp giới hạn dự đoán khớp với hộp giới hạn thật sự) độ xác mơ hình giảm, mơ hình tốt với ngưỡng IoU = 0.5 ( ) Độ xác tăng dần sau lần cập nhật trọng số, cụ thể sau: Đối với liệu Thermal Dogs and People, Raccoon INRIA Person, độ xác cao 93.06%, 92.01% 94.74% sau lần lặp với ngưỡng IoU = Trong lần lặp thứ độ ch nh xác có xu hướng giảm cho thấy mơ hình học hết đặc trưng đối tượng 39 ảnh, tiếp tục học mơ hình khơng học thêm mà cịn làm giảm độ xác mơ hình Đối với liệu Mask Wearing, độ xác sau lần lặp với ngưỡng IoU = 0.5 83.61% chưa có dấu hiệu giảm nên tiếp tục học để cải thiện độ xác mơ hình Bảng 4.1 Kết AP với ngƣỡng IoU khác toàn liệu Số lần lặp huấn luyện Thermal Dogs and 80.19 85.36 87.52 93.06 89.50 People 50.21 73.74 75.60 80.59 85.48 0.81 Raccoon 3.51 5.50 4.73 8.87 88.48 86.39 88.69 92.01 91.24 63.69 60.63 62.29 78.23 77.21 2.04 Mask Wearing 0.26 0.0 11.73 5.87 72.39 73.57 74.83 81.38 83.61 40.86 48.52 45.60 65.23 70.43 0.45 INRIA Person 0.65 1.14 2.86 5.35 94.27 94.46 93.66 94.74 93.94 Do mơ hình có kết tốt với ngưỡng IoU = 0.5 nên tác giả tiến hành tính tốn AP với ngưỡng IoU = 0.5 tập liệu testing liệu Bảng 4.2 nhằm đánh giá mơ hình phát đối tượng với liệu (chưa nhìn thấy trình huấn luyện) Cả liệu có độ xác 75% Cụ thể, sau lần lặp độ xác liệu Thermal Dogs and People 86.94% Raccoon 89.74%, liệu Mask Wearing có độ xác 75.17% sau lần lặp 40 Bảng 4.2 Kết tập liệu testing Số lần lặp huấn luyện Thermal Dogs and People Raccoon Mask Wearing 71.71 86.11 63.79 74.10 87.18 67.68 77.48 89.74 68.72 86.94 89.74 73.97 79.73 89.74 75.17 Mơ hình phát người sử dụng Mask R-CNN với mạng xương sống ResNet101 tác giả có độ xác 94.74% Để so sánh với phương pháp phát người khác, tác giả đưa số kết AP Abdulkader [35] (dùng YOLOv3-tiny), Dalal [20] (HOG với SVM tuyến tính), Hussain [36] (sử dụng HOG kết hợp với Local Binary Patterns - LBP Local Ternary Patterns - LTP), Felzenszwalb [37] (HOG với phân loại SVM tiềm ẩn tuyến tính sử dụng nhiều gốc), Cevikalp [38] (sử dụng LBP + HOG huấn luyện với loại cascade) Bảng 4.3 Bảng 4.3 Giá trị Average Precision phƣơng pháp phát đối tƣợng liệu INRIA Person Phƣơng pháp Abdulkader [35] 62.14 Dalal [20] 75.00 Hussain [36] 84.10 Felzenszwalb [37] 86.90 Cevikalp [38] Cascade I 90.43 Cascade II 93.46 Cascade III 96.03 Resnet101 + FPN (phương pháp đề xuất) 94.74 41 Nhìn chung, độ xác mơ hình tác giả đề xuất tương đối cao mơ hình học sâu (huấn luyện qua nhiều lớp tích chập, cụ thể 101 lớp), bên cạnh sử dụng phương pháp học tập chuyển giao nên mơ hình khơng học đặc trưng ảnh từ liệu mà cịn học đặc trưng ảnh mơ hình trước Tuy nhiên, độ xác mơ hình lại thấp phương pháp Cevikalp [38] (Cascade III) 1.29%, phần đối tượng ảnh bị trùng lắp dẫn đến mơ hình phát chưa xác Hình 4.5 Phát ngƣời chó 42 Ngồi ra, mơ hình phát người chó ảnh nhiệt tác giả có xác suất phát đối tượng cao so với mơ hình EfficientDet [39] có xương sống EfficientNet huấn luyện với tập liệu gốc (gồm 203 ảnh 140 ảnh dùng để huấn luyện, 41 ảnh dùng cho xác thực 22 ảnh để thử nghiệm) Cụ thể Hình 4.5 a) mơ hình EfficientDet dự đốn hình, hình thứ dự đốn người chó có xác suất 66% 60%, hình thứ dự đốn có đối tượng chó với xác suất 34%, Hình 4.5 b) sử dụng mơ hình đề xuất tác giả có xác suất dự đốn cao hơn, với hình thứ xác suất dự đốn người 98.39%, chó 75.35% hình thứ xác suất dự đốn đối tượng chó lên đến 97.64% 43 KẾT LUẬN Tác giả tiến hành nghiên cứu cơng trình phát đối tượng sử dụng phương pháp học máy phương pháp học sâu Sau đó, tác giả đánh giá ưu nhược điểm cơng trình nghiên cứu Bên cạnh tác giả tìm hiểu hình ảnh định dạng khác JPG, PNG, SEQ biết đặc trưng đối tượng người, vật nuôi Trong luận văn tác giả đề xuất phương pháp phát đếm số lượng đối tượng ảnh dựa máy học sau so sánh kết với cơng trình khác Phương pháp đề xuất tác giả giúp xây dựng mơ hình huấn luyện tập liệu nhỏ dùng để phát đối tượng Do sử dụng phương pháp học tập chuyển giao nên mơ hình huấn luyện trước học nhiều đặc trưng đối tượng có hình ảnh giúp ích cho việc học lại đặc trưng với liệu Tuy nhiên, mơ hình gặp khó khăn phát ảnh bị lật, xoay, nhiễu, trùng lắp Gần mạng xương sống thiết kế đặc biệt cho nhiệm vụ phát đối tượng DetNet [40] đạt kết tốt việc phát đối tượng phân đoạn cá thể dựa liệu chuẩn COCO Vì tác giả đề xuất thay sử dụng mơ hình Mask R-CNN với mạng xương sống ResNet thay mạng xương sống DetNet Hy vọng với hướng phát triển mang lại mơ hình phát đối tượng tốt 44 TÀI LIỆU THAM KHẢO [1] R Girshick, J Donahue, T Darrell, and J Malik, ―Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation,‖ in 2014 IEEE Conference on Computer Vision and Pattern Recognition, Jun 2014, pp 580–587, doi: 10.1109/CVPR.2014.81 [2] R Girshick, ―Fast R-CNN,‖ in 2015 IEEE International Conference on Computer Vision (ICCV), Dec 2015, vol 2015 Inter, pp 1440–1448, doi: 10.1109/ICCV.2015.169 [3] S Ren, K He, R Girshick, and J Sun, ―Faster R-CNN: Towards RealTime Object Detection with Region Proposal Networks,‖ IEEE Trans Pattern Anal Mach Intell., vol 39, no 6, pp 1137–1149, Jun 2017, doi: 10.1109/TPAMI.2016.2577031 [4] K He, G Gkioxari, P Dollar, and R Girshick, ―Mask R-CNN,‖ IEEE Trans Pattern Anal Mach Intell., vol 42, no 2, pp 386–397, Feb 2020, doi: 10.1109/TPAMI.2018.2844175 [5] J Redmon, S Divvala, R Girshick, and A Farhadi, ―You Only Look Once: Unified, Real-Time Object Detection,‖ in 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Jun 2016, vol 2016–Decem, pp 779–788, doi: 10.1109/CVPR.2016.91 [6] S Yang, P Luo, C C Loy, and X Tang, ―WIDER FACE: A Face Detection Benchmark,‖ in 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Jun 2016, vol 2016–Decem, pp 5525–5533, doi: 10.1109/CVPR.2016.596 [7] Rein-Lien Hsu, M Abdel-Mottaleb, and A K Jain, ―Face detection in color images,‖ IEEE Trans Pattern Anal Mach Intell., vol 24, no 5, pp 696–706, May 2002, doi: 10.1109/34.1000242 [8] I Sa, Z Ge, F Dayoub, B Upcroft, T Perez, and C McCool, ―DeepFruits: A Fruit Detection System Using Deep Neural Networks,‖ 45 Sensors, vol 16, no 8, p 1222, Aug 2016, doi: 10.3390/s16081222 [9] D Nova, A Ferreira, and P Cortez, ―A Machine Learning Approach to Detect Violent Behaviour from Video,‖ in Lecture Notes of the Institute for Computer Sciences, Social-Informatics and Telecommunications Engineering, LNICST, vol 273, 2019, pp 85–94 [10] W Ouyang and X Wang, ―Joint Deep Learning for Pedestrian Detection,‖ in 2013 IEEE International Conference on Computer Vision, 2013, pp 2056–2063, doi: 10.1109/ICCV.2013.257 [11] H.-Y Cheng, B.-S Jeng, P.-T Tseng, and K.-C Fan, ―Lane Detection With Moving Vehicles in the Traffic Scenes,‖ IEEE Trans Intell Transp Syst., vol 7, no 4, pp 571–582, 2006, doi: 10.1109/TITS.2006.883940 [12] M M William et al., ―Traffic Signs Detection and Recognition System using Deep Learning,‖ in 2019 Ninth International Conference on Intelligent Computing and Information Systems (ICICIS), 2019, pp 160–166, doi: 10.1109/ICICIS46948.2019.9014763 [13] S Albawi, T A Mohammed, and S Al-Zawi, ―Understanding of a convolutional neural network,‖ in 2017 International Conference on Engineering and Technology (ICET), Aug 2017, pp 1–6, doi: 10.1109/ ICEngTechnol.2017.8308186 [14] Đ Hồn, ―Convolutional Neural Network | Cái nhìn tổng quan.‖ https://medium.com/@hon_14885/convolutional-neural-network-cáinhìn-tổng-quan-c6aaba265a39 (accessed Oct 31, 2020) [15] K He, X Zhang, S Ren, and J Sun, ―Deep Residual Learning for Image Recognition,‖ in 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Jun 2016, vol 2016–Decem, pp 770– 778, doi: 10.1109/CVPR.2016.90 [16] P Đ Khánh, ―Bài 38 - Các kiến trúc CNN đại.‖ https:// 46 phamdinhkhanh.github.io/2020/05/31/CNNHistory.html#46-resnet-502015 (accessed Oct 31, 2020) [17] X Li et al., ―Weighted Feature Pyramid Networks for Object Detection,‖ in 2019 IEEE Intl Conf on Parallel & Distributed Processing with Applications, Big Data & Cloud Computing, Sustainable Computing & Communications, Social Computing & Networking SocialCom/SustainCom), (ISPA/BDCloud/ Dec 2019, pp 1500–1504, doi: 10.1109/ISPA-BDCloud-SustainCom-SocialCom48970.2019.00217 [18] W Liu et al., ―SSD: Single Shot MultiBox Detector,‖ in Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), vol 9905 LNCS, 2016, pp 21–37 [19] D G Lowe, ―Distinctive Image Features from Scale-Invariant Keypoints,‖ Int J Comput Vis., vol 60, no 2, pp 91–110, 2004, doi: 10.1023/B:VISI.0000029664.99615.94 [20] N Dalal and B Triggs, ―Histograms of Oriented Gradients for Human Detection,‖ in 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’05), 2020, vol 1, no 7, pp 886–893, doi: 10.1109/CVPR.2005.177 [21] J Redmon and A Farhadi, ―YOLO9000: Better, Faster, Stronger,‖ in 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Jul 2017, vol 2017–Janua, pp 6517–6525, doi: 10.1109/ CVPR.2017.690 [22] J Redmon and A Farhadi, ―YOLOv3: An Incremental Improvement,‖ 2018, [Online] Available: http://arxiv.org/abs/1804.02767 [23] A Bochkovskiy, C.-Y Wang, and H.-Y M Liao, ―YOLOv4: Optimal Speed and Accuracy of Object Detection,‖ 2020, [Online] Available: 47 http://arxiv.org/abs/2004.10934 [24] S.-H Tsang, ―Review: Mask R-CNN (Instance Segmentation & Human Pose Estimation).‖ https://medium.com/analytics-vidhya/review-maskr-cnn-instance-segmentation-human-pose-estimation-61080a93bf4 (accessed Nov 17, 2020) [25] L Weng, ―Object Detection Part 4: Fast Detection Models,‖ GitHub, Dec 27, 2018 https://lilianweng.github.io/lil-log/2018/12/27/objectdetection-part-4.html (accessed Nov 01, 2020) [26] ―Mask R-CNN for object detection and instance segmentation on Keras and TensorFlow,‖ GitHub repository, 2017 https://github.com/ matterport/Mask_RCNN (accessed Nov 18, 2020) [27] ―Computer Vision Datasets,‖ Accessed: Nov 17, 2020 [Online] Available: https://public.roboflow.com/ [28] K Simonyan and A Zisserman, ―Very Deep Convolutional Networks for Large-Scale Image Recognition,‖ pp 1–14, Sep 2014, [Online] Available: https://arxiv.org/pdf/1409.1556.pdf [29] C Szegedy et al., ―Going deeper with convolutions,‖ in Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, Jun 2015, vol 07–12–June, pp 1–9, doi: 10.1109/ CVPR.2015.7298594 [30] G Huang, Z Liu, L Van Der Maaten, and K Q Weinberger, ―Densely Connected Convolutional Networks,‖ in 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017, vol 2017– Janua, pp 2261–2269, doi: 10.1109/CVPR.2017.243 [31] P H Hoang, ―[Deep Learning] - Thuật toán Faster-RCNN với toán phát đường lưỡi bò - Faster-RCNN object detection algorithm for Nine-dash-line detection!‖ https://viblo.asia/p/deep-learning-thuat-toanfaster-rcnn-voi-bai-toan-phat-hien-duong-luoi-bo-faster-rcnn-object- 48 detection-algorithm-for-nine-dash-line-detection-bJzKmREOZ9N#_ rpn-region-proposal-network-6 (accessed Nov 17, 2020) [32] N Bodla, B Singh, R Chellappa, and L S Davis, ―Soft-NMS — Improving Object Detection with One Line of Code,‖ in 2017 IEEE International Conference on Computer Vision (ICCV), Oct 2017, vol 2017–Octob, pp 5562–5570, doi: 10.1109/ICCV.2017.593 [33] K E (burnpiro), ―Understanding Region of Interest — (RoI Align and RoI Warp).‖ https://towardsdatascience.com/understanding-region-ofinterest-part-2-roi-align-and-roi-warp-f795196fc193 (accessed Jan 06, 2021) [34] ―Caltech Pedestrian Detection Benchmark,‖ Accessed: May 25, 2020 [Online] Available: http://www.vision.caltech.edu/Image_Datasets/ CaltechPedestrians/ [35] A Abdulkader and C Vlahija, ―Real-time vehicle and pedestrian detection , a data-driven recommendation focusing on safety as a perception to autonomous vehicles,‖ p 43, 2020 [36] S ul Hussain and B Triggs, ―Feature Sets and Dimensionality Reduction for Visual Object Detection,‖ in Procedings of the British Machine Vision Conference 2010, 2010, p 112.1-112.10, doi: 10.5244/C.24.112 [37] P Felzenszwalb, D McAllester, and D Ramanan, ―A discriminatively trained, multiscale, deformable part model,‖ 26th IEEE Conf Comput Vis Pattern Recognition, CVPR, 2008, doi: 10.1109/CVPR.2008 4587597 [38] H Cevikalp and B Triggs, ―Efficient object detection using cascades of nearest convex model classifiers,‖ in 2012 IEEE Conference on Computer Vision and Pattern Recognition, Jun 2012, pp 3138–3145, doi: 10.1109/CVPR.2012.6248047 49 [39] ―Introducing a Thermal Infrared Dataset for Object Detection.‖ https://blog.roboflow.com/thermal-infrared-dataset-computer-vision/ (accessed Nov 14, 2020) [40] Z Li, C Peng, G Yu, X Zhang, Y Deng, and J Sun, ―DetNet: Design Backbone for Object Detection,‖ in Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), vol 11213 LNCS, 2018, pp 339–354 ... PHÁP PHÁT HIỆN VÀ ĐẾM SỐ LƢỢNG ĐỐI TƢỢNG TRONG ẢNH DỰA TRÊN MÁY HỌC 3.1 Ngữ cảnh toán Trong toán phát đối tượng đầu vào thường ảnh video Riêng đề tài phát đếm số lượng đối tượng tác giả đầu vào ảnh. .. PHÁP PHÁT HIỆN VÀ ĐẾM SỐ LƢỢNG ĐỐI TƢỢNG TRONG ẢNH DỰA TRÊN MÁY HỌC 21 3.1 Ngữ cảnh toán 21 3.2 Thách thức đề tài 21 3.3 Phương pháp đề xuất phát đếm số lượng đối tượng ảnh. .. thứ Tham số thứ 11 xác xuất đối tượng ô đối tượng (trong 20 đối tượng cần nhận dạng) Tương tự tham số 12 xác xuất đối tượng ô đối tượng tiếp tục tham số 30 xác xuất đối tượng ô đối tượng 20 Do