Thuật toán Faster R-CNN được đánh giá là mô hình nhận dạng khá tốt về độ chính xác phát hiện và tốc độ phát hiện. Bài viết Độ chính xác nhận dạng trong mô hình Faster R-CNN khi có nhiễu được nghiên cứu nhằm đánh giá về độ chính xác nhận dạng của mô hình ở trạng thái bình thường và nhiễu.
Nguyễn Văn Nam, Ngơ Đình Thanh ĐỘ CHÍNH XÁC NHẬN DẠNG TRONG MƠ HÌNH FASTER R-CNN KHI CĨ NHIỄU THE DETECTION ACCURACY OF THE FASTER R-CNN MODEL THROUGH INTERFERENCE ENVIRONMENTS Nguyễn Văn Nam1, Ngơ Đình Thanh2 Trường Đại học Sư phạm Kỹ thuật - Đại học Đà Nẵng; nvnam@ute.udn.vn Trường Đại học Bách khoa - Đại học Đà Nẵng; ndthanh@dut.udn.vn Tóm tắt - Thuật tốn Faster R-CNN đánh giá mơ hình nhận dạng tốt độ xác phát tốc độ phát Đã có nhiều nghiên cứu đánh giá độ xác mơ hình với mơ hình nhận dạng khác Tuy nhiên, kết hầu hết thực với ảnh đưa vào nhận dạng không bị nhiễu Nghiên cứu để đánh giá độ xác nhận dạng mơ hình trạng thái bình thường nhiễu Để thực việc này, tác giả huấn luyện cho mơ hình nhận dạng 10 lồi hoa sau cho nhận dạng với trạng thái khác nhau: Ảnh có ánh sáng tốt; ảnh bị che khuất 1/3; 1/2; ảnh thiếu ánh sáng Phân tích phương sai ANOVA (Analysis of variance) trắc nghiệm khác biệt nhỏ LSD (Least Significant Difference) phần mềm SPSS 20.0 để đánh giá độ xác nhận dạng trạng thái Kết cho thấy, độ xác thuật tốn phụ thuộc nhiều vào mức độ nhiễu; độ xác nhận dạng đạt 99,28%, 78,46%, 40,36% 62,38% tương ứng với trạng thái Abstract - The Faster R-CNN algorithm is currently among the stateof-the-art in term of its speed and detection accuracy However, most research on the accuracy of this algorithm is about noiseless images This study, hence, conducts an accuracy assessment of the algorithm with both noisy and noiseless images To this end, the algorithm is trained to classify ten flower species Experiments are then implemented on images in four cases; images with non being in shadow, with ratio of 1/3, 1/2 of partially being in shadow and with totally being in shadow Performance of the algorithm, via SPSS 2.0 software, is then analysed based on analysis of variance (ANOVA) and least significant difference (LSD) Experimental results show that the algorithm accuracy depends heavily on noise level Detection accuracy achieves 99,28%, 78,46%, 40,36%, and 62,38% in cases of non being in shadow, 1/3, 1/2 of partially being in shadow, and totally being in shadow, respectively Từ khóa - Trí tuệ nhân tạo; thị giác máy tính; deep learning; nhận dạng đối tượng; xử lý ảnh Key words - Artificial intelligence; computer vision; deep learning; identify the object; image processing Đặt vấn đề Những năm gần đây, việc ứng dụng mơ hình Deep Learning vào thực tế nhiều nhà khoa học quan tâm tham gia nghiên cứu, trội mơ hình mạng nơ ron tích chập (Convolutional Neural Networks, CNN) [1], [2], [3] Một ứng cử viên sáng giá để giải vấn đề như: xử lý liệu đầu vào lớn, xử lý online, nâng cao độ xác xử lý nhiễu đầu vào Để thực yêu cầu mơ hình CNN trải qua cải tiến cụ thể: Mạng nơ ron tích chập khu vực (Regional convolutional neural networks, R-CNN) [4], [5]; Mạng nơ ron tích chập khu vực nhanh (Fast region-based convolutional neural networks, Fast R-CNN) [6]; Mạng nơ ron tích chập khu vực nhanh (Faster region-based convolutional neural networks, Faster R-CNN) [7], [8] Trong đó, mơ hình Faster R-CNN khơng dùng thuật tốn tìm kiếm chọn lọc để lấy khu vực, mà thêm mạng CNN gọi mạng đề xuất khu vực (Region Proposal Networks, RPN) để tìm khu vực [7] Đầu tiên ảnh cho qua mơ hình huấn luyện trước để lấy đồ đặc trưng Sau đồ đặc trưng dùng cho RPN để lấy khu vực, sau lấy vị trí khu vực thực tương tự Fast R-CNN [6] Một kết thử nghiệm thời gian R-CNN [9] thể Hình Hình cho thấy, mơ hình Faster R-CNN nhanh hẳn dịng R-CNN trước đó, dùng cho nhận dạng đối tượng thời gian thực Độ xác nhận dạng yếu tố quan trọng mơ hình ứng dụng vào thực tế, đầu vào bị nhiễu (nhiễu: hình ảnh mơi trường trời tối, trời mưa ảnh bị che khuất phần…) ảnh hưởng đến trình nhận dạng nào? Trong nghiên cứu cho thấy ảnh hưởng nhiễu đầu vào lên độ xác nhận dạng Hình Thử thời gian R-CNN Để thực nghiên cứu trên, tác giả tiến hành huấn luyện cho mơ hình Faster R-CNN nhận dạng mười lồi hoa khác nhau, lồi hoa phổ biến dễ tiếp cận nên thuận lợi trình thu thập liệu để phục vụ cho việc nghiên cứu Hơn nữa, tác giả muốn hướng đến ứng dụng mơ hình vào phục vụ ngành lâm nghiệp, muốn huấn luyện mơ hình định danh lồi rừng từ hoa, lá, thân… Bởi muốn định danh số lồi rừng phải nhờ đến chuyên gia định danh Ngoài ra, ứng dụng mơ hình nhận dạng định danh cho loài rừng hay nhận dạng loài động vật chưa áp dụng phục vụ ngành lâm nghiệp Việc điều tra, kiểm kê tài nguyên rừng cần hỗ trợ công nghệ giải khó khăn công tác quản lý tài nguyên rừng, công việc mà lâu người thực Để việc ứng dụng TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG, VOL 17, NO 11, 2019 vào thực tế mang lại hiệu tốt cần có đánh giá q trình thực nghiệm Nội dung thực Để thực nghiệm mơ hình đạt kết tốt trình thu thập tập liệu để huấn luyện cho mơ hình học quan trọng Ở nghiên cứu này, tác giả chọn thực nghiệm nhận dạng cho mười loài hoa nên việc thu thập liệu chủ yếu lấy từ mạng internet thơng qua trang tìm kiếm Google Đây thuận lợi trình nghiên cứu 2.1 Thu thập liệu gán nhãn cho loài hoa Tổng số hình ảnh thu thập để huấn luyện mơ hình 506 (ảnh) [10] Các lồi hoa gán số thứ tự chia thành hai tập: tập dạy mơ hình học (train) chiếm 80% tổng số hình ảnh; cịn lại tập kiểm tra mơ hình (test) chiếm 20% Tập hình ảnh train test chọn cách ngẫu nhiên Dữ liệu sau thu thập (train test) đưa vào phần mềm LabelImg để gán nhãn Trong hình ảnh ta lấy khu vực RPN gán nhãn Hình Số lượng hình ảnh lồi hoa thu thập gán nhãn thể chi tiết Bảng Bảng Bảng thu thập liệu loài hoa gán nhãn Số lượng Số Số lượng Tên TT tổng loài hoa Số lượng train Số lượng test Tên gán nhãn Cầu1 55 44 11 Hydrangeas Cúc2 50 40 10 Chrysanthemum Tiền3 41 33 Gerbera Dương4 45 36 Sun Flower Hồng5 57 46 11 Rose Ly6 55 44 11 Lily Mai7 51 41 10 Apricot Plossom Sen8 55 44 11 Lotus Sứ9 56 45 11 Porcelain Flower 10 Tiên10 Narcissus Tổng 41 33 506 406 100 10 (loài hoa) Chú thích: 1) Hoa cẩm tú cầu; 2) Hoa Cúc; 3) Hoa đồng tiền; 4) Hoa hướng dương; 5) Hoa hồng; 6) Hoa ly; 7) Hoa mai; 8) Hoa sen; 9) Hoa sứ; 10) Hoa thủy tiên Hình Thu thập liệu hoa hồng hoa hướng dương Hình Gán nhãn cho hoa hồng hoa cẩm tú cầu 2.2 Mơi trường thực nghiệm mơ hình Tác giả thực nghiệm máy tính PC main H310; Bộ xử lý (CPU): Core I7 8700es nhân 12 luồng; Bộ nhớ (RAM):16GB bus 1600GHz; Ổ cứng (SSD): 240GB; Card đồ họa (VGA): GTX 1060 2.3 Huấn luyện cho mô hình Mơ hình Faster R-CNN huấn luyện nhận dạng cho mười lồi hoa có kiến trúc sau: Lớp tích chập có kích thước 3x3; lớp lấy mẫu (RoI pooling) có kích thước 7x7; hàm kích hoạt ReLU (thơng qua thư viện Keras) [11]; kích thước kernel 7x7x512 Nguyễn Văn Nam, Ngơ Đình Thanh luyện cho mơ hình học Theo Hình 4b tác giả dừng huấn luyện mơ hình bước 45555 nhận kết 0,0214, độ mát huấn luyện Trung bình thời gian để huấn luyện bước 0,300 (giây/step) 2.4 Thực nghiệm mơ hình Hình ảnh đưa vào cho mơ hình nhận dạng tác giả chụp từ thực tế chụp cắt từ nguồn video Google Số hình ảnh đưa vào nhận dạng 487 (ảnh) [12], kết nhận dạng qua mơ hình tác giả chụp lưu lại [13] 2.5 Độ xác q trình nhận dạng Độ xác q trình nhận dạng dựa vào số mẫu (số ảnh) nhận dạng chia cho tổng số mẫu (số ảnh) kiểm chứng đưa vào SMNDĐ ĐCX(%) = 100 TSMKC Trong đó: ĐCX: Độ xác q trình nhận dạng; SMNDĐ: Số mẫu nhận dạng đúng; TSMKC: Tổng số mẫu kiểm chứng đưa vào 2.6 Đánh giá độ xác nhận dạng (ĐCX) trạng thái môi trường Để đánh giá khác biệt độ xác nhận dạng trạng thái mơi trường có ý nghĩa mặt thống kê hay khơng, tác giả tiến hành phân tích phương sai ANOVA (Analysis of variance) trắc nghiệm khác biệt nhỏ LSD (Least Significant Difference) phần mềm SPSS 20.0 a) b) Hình a) Quá trình bắt đầu huấn luyện liệu mơ hình; b) Q trình kết thúc huấn luyện liệu mơ hình Trong trình huấn luyện việc dừng huấn luyện cho mơ hình tác giả dựa vào đồ thị tensorboard, biểu đồ mát theo thời gian trình huấn luyện Hình Biểu đồ mát theo thời gian mơ hình Hình cho thấy, từ bước 25000 trở độ mát huấn luyện dao động khoảng từ đến 0,06 Như vậy, huấn luyện đến bước dừng huấn Kết thực nghiệm mơ hình Quy ước kết nhận dạng: Kết nhận dạng kết nhận dạng với mẫu kiểm chứng đưa vào; Kết nhận dạng sai kết nhận dạng không với mẫu kiểm chứng đưa vào; Không nhận dạng kết không cho kết nhận dạng loài mẫu kiểm chứng cho kết nhận dạng từ hai loài khác trở lên 3.1 Kết thực nghiệm nhận dạng mơi trường có ánh sáng tốt Kết nhận dạng mơ hình hình ảnh mơi trường có ánh sáng tốt thể Bảng Nhìn vào Bảng ta thấy, ô màu đỏ tổng số mẫu kiểm chứng đưa vào 139 mẫu, ô màu xanh số mẫu mà mơ hình nhận dạng 138 mẫu Như vậy, trường hợp độ xác tổng thể mơ hình 99,28% Trong đó, có lồi có độ xác nhận dạng 100%, cịn lại lồi hoa cúc có độ xác 88,89% với mẫu đưa vào nhận dạng mẫu, mẫu không nhận dạng tổng số mẫu không nhận dạng trường hợp mẫu Bảng2 Bảng ma trận đánh giá độ xác kết nhận dạng mơi trường có ánh sáng tốt Kết nhận dạng Đây loài nhận dạng qua mơ hình Nhận dạng Cầu Cúc Tiền Dương Hồng Ly Mai Sen Sứ Tiên Tổng 12 14 11 15 14 12 22 18 12 138 Nhận dạng nhầm Khơng nhận dạng Tổng Độ xác 12 100% 88,89% 14 11 15 14 12 22 18 100% 100% 100% 100% 100% 100% 100% 12 139 100% 99,28% TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG, VOL 17, NO 11, 2019 thể mơ hình 78,46%, lồi có độ xác 100%, lồi đạt 70%, lồi cịn lại có độ xác 70% Riêng lồi hoa ly có độ xác thấp 27,27% với 11 mẫu đưa vào nhận dạng cịn mẫu không nhận dạng 3.2 Kết thực nghiệm nhận dạng ảnh bị che khuất 1/3 Tương tự, Bảng ta có, số mẫu kiểm chứng đưa vào 130 mẫu, tổng số mẫu mà mơ hình nhận dạng 102 mẫu, 21 mẫu mơ hình khơng nhận dạng mẫu nhận dạng nhầm Vậy trường hợp độ xác tổng Bảng Bảng ma trận đánh giá độ xác kết nhận dạng ảnh bị che khuất 1/3 Kết nhận dạng Đây loài nhận dạng qua mơ hình Nhận dạng Cầu Cúc Tiền Dương Hồng Ly Mai Sen Sứ Tiên Tổng 13 19 13 19 8 102 21 Nhận dạng nhầm Không nhận dạng Tổng 13 Độ xác 100% 66,67% 19 13 19 100% 100% 100% 3 11 12 27,27% 66,67% 10 14 10 130 70% 51,14% 60% 78,46% cao 90%, lồi hoa ly có độ xác thấp 0%, 11 mẫu đưa vào 11 mẫu không nhận dạng Tổng số mẫu không nhận dạng trường hợp 55 mẫu có 10 mẫu nhận dạng nhầm Khi ảnh bị che khuất 1/2 có số ảnh mơ hình khơng thể nhận dạng 3.3 Kết thực nghiệm nhận dạng ảnh bị che khuất 1/2 Ở Bảng ta có, tổng số mẫu đưa vào kiểm chứng 109 mẫu, tổng số mẫu mà mơ hình nhận dạng 44 mẫu Độ xác tổng thể mơ hình 40,36%, khơng có lồi đạt độ xác 100%, lồi hoa hồng có độ xác Bảng Bảng ma trận đánh giá độ xác kết nhận dạng ảnh bị che khuất 1/2 Kết nhận dạng Đây loài nhận dạng qua mơ hình Nhận dạng Cầu Cúc Tiền Dương Hồng Ly Mai Sen Sứ Tiên Tổng 6 44 1 11 10 55 12 12 10 11 12 10 12 10 109 90% 0% 8,33% 60% 50% 10% 40,36% Nhận dạng nhầm Không nhận dạng Tổng 11 Độ xác 36,36% 55,56% 58,33% 41,67% 10 Trong đó, có lồi có độ xác 100%, lồi hoa sứ có độ xác thấp 10% với 10 mẫu đưa vào nhận dạng mẫu, mẫu nhận dạng sai (hoa ly: mẫu; hoa mai: mẫu) mẫu không nhận dạng Trong môi trường thiếu ánh sáng có đến 34 mẫu mơ hình khơng nhận dạng mẫu nhận dạng nhầm 3.4 Kết thực nghiệm nhận dạng ảnh mơi trường thiếu ánh sáng Bảng ta có, tổng số mẫu kiểm chứng đưa vào nhận dạng 109 mẫu, tổng số mẫu mà mơ hình nhận dạng 68 mẫu Độ xác tổng thể mơ hình 62,38% Bảng Bảng ma trận đánh giá độ xác kết nhận dạng mơi trường thiếu ánh sáng Kết nhận dạng Đây lồi nhận dạng qua mơ hình Nhận dạng Cầu Cúc Tiền Dương Hồng Ly Mai Sen Sứ Tiên Tổng 10 10 10 68 7 5 34 12 109 Nhận dạng nhầm Không nhận dạng Tổng Độ xác 10 13 10 15 10 12 10 100% 100% 53,85% 100% 53,33% 25% 100% 33,33% 10% 3.5 Độ xác nhận dạng trạng thái mơi trường Kết phân tích phương sai ANOVA trắc nghiệm khác biệt nhỏ LSD kết độ xác nhận dạng trạng thái mơi trường trình bày Bảng 58,33% 62,38% Kết Bảng cho thấy, ĐCX kết nhận dạng trạng thái khác khác biệt có ý nghĩa mặt thống kê Kết trắc nghiệm LSD cho thấy, ĐCX trạng thái có ánh sáng tốt khác biệt có ý nghĩa mặt thống kê trường hợp cịn lại Bảng Kết phân tích phương sai trắc nghiệm LSD kết nhận dạng Trạng thái môi trường ĐCX (%) Ánh sáng tốt Che khuất 1/3 Che khuất 1/2 Thiếu ánh sáng Mức ý nghĩa (P) 99,28±3,5a 78,46±24,7b 40,36±28,1c 62,38±34,7bc 0,000 Ghi chú: Các kí tự khác dịng thể số liệu khác biệt có ý nghĩa thống kê LSD0,05 23,17 Nguyễn Văn Nam, Ngơ Đình Thanh 10 Kết luận Với 506 hình ảnh để huấn luyện cho mơ hình Faster R-CNN học nhận dạng, kết sau thực nghiệm cho thấy ĐCX nhận dạng tổng thể mơ hình giảm dần độ nhiễu đầu vào nhận dạng tăng lên ảnh bị che khuất 1/3 có độ xác nhận dạng 78,46% cịn ảnh bị che khuất 1/2 độ xác nhận dạng 40,36%, số mẫu mà mơ hình khơng nhận dạng tăng tương ứng 21 mẫu 55 mẫu Đối với ảnh môi trường thiếu ánh sáng độ xác 62,38% với 34 mẫu khơng nhận dạng Như vậy, với ảnh đưa vào nhận dạng khơng bị nhiễu mơ hình cho kết nhận dạng xác cao với 99,28% có mẫu không nhận dạng Sự khác biệt ĐCX nhận dạng trạng thái môi trường nghiên cứu có ý nghĩa mặt thống kê Với kết ứng dụng mơ hình để nhận dạng hệ động thực vật rừng phục vụ giảng dạy nghiên cứu, đặc biệt công tác kiểm kê, thống kê tài nguyên rừng Hiện nay, công tác điều tra kiểm kê tài nguyên rừng, việc nhận diện loài thực vật, động vật, côn trùng, … chủ yếu người thực Đây công việc thật vất vả công việc điều tra thường thực diện tích lớn số lượng điều tra nhiều Hơn nữa, chuyên gia phụ trách lĩnh vực chun mơn việc định danh lồi thực vật, động vật, côn trùng, … không nhiều, đơn vị quản lý tài nguyên rừng thiếu chuyên gia giỏi Do đó, cần hỗ trợ từ cơng nghệ đại trí tuệ nhân tạo việc nhận dạng, định danh loài động thực vật, việc làm mà lâu người đảm nhận Việc làm tương lai drone thực mang lại nhiều thuận lợi hiệu Những hạn chế nghiên cứu này: Thứ nhất, mơi trường thực nghiệm có cấu hình chưa đủ mạnh nên chưa thể thực liệu đầu vào có dung lượng lớn Thứ hai, chưa đánh giá ảnh hưởng khoảng cách chụp ảnh đến độ xác nhận dạng mơ hình Thứ ba, chưa có nghiên cứu tương tự để tác giả đưa đánh giá tính hiệu nghiên cứu Lời cảm ơn: Nghiên cứu tài trợ Trường Đại học Sư phạm Kỹ thuật – Đại học Đà Nẵng cho đề tài mã số T2019-06-130, chủ nhiệm đề tài: Nguyễn Văn Nam, năm 2019 TÀI LIỆU THAM KHẢO J Bouvrie, “Notes on Convolutional Neural Networks”, Massachusetts Inst Technol Cambridge, MA 02139, 2006 [2] T Liu, S Fang, Y Zhao, P Wang, and J Zhang, “Implementation of Training Convolutional Neural Networks”, arXiv:1506.01195v2, 2015 [3] R L Galvez, A A Bandala, E P Dadios, R R P Vicerra, and J M Z Maningo, “Object Detection Using Convolutional Neural Networks”, IEEE Reg 10 Annu Int Conf Proceedings/TENCON, vol 2018-October, no October, pp 2023–2027, 2019 [4] R Girshick, J Donahue, T Darrell, and J Malik, “Rich feature hierarchies for accurate object detection and semantic segmentation”, Proc IEEE Comput Soc Conf Comput Vis Pattern Recognit., pp 580–587, 2014 [5] J Liu, D Wang, Z Wei, L Lu, L Kim, and R Summers, “Colitis detection on computed tomography using regional convolutional neural networks”, 2016 IEEE 13th Int Symp Biomed Imaging, pp 863–866, 2016 [6] R Girshick, “Fast R-CNN”, Proc IEEE Int Conf Comput Vis., vol 2015 Inter, pp 1440–1448, 2015 [7] S Ren, K He, R Girshick, and J Sun, “Faster R-CNN: Towards RealTime Object Detection with Region Proposal Networks”, IEEE Trans Pattern Anal Mach Intell., vol 39, no 6, pp 1137–1149, 2017 [8] R Gavrilescu, C Fo, C Zet, and D Cotovanu, “Faster R-CNN : an Approach to Real-Time Object Detection”, 2018 Int Conf Expo Electr Power Eng., pp 165–168, 2018 [9] F R.-C R-CNN, Fast R-CNN, “R-CNN Test-Time Speed”, [Online] Available: https://towardsdatascience.com/r-cnn-fast-rcnn-faster-r-cnn-yolo-object-detection-algorithms-36d53571365e [10] G Drive, “Hinh anh huan luyen mo hinh.rar”, [Online] Available: https://drive.google.com/open?id=1I5Fs9A9KmlcsjVrH2IH_0odII ZLABlBd [11] W Pages, “ReLU (Rectified Linear Unit)”, [Online] Available: https://missinglink.ai/guides/neural-network-concepts/7-typesneural-network-activation-functions-right/ [12] G Drive, “Hinh anh dua vao nhan dang.rar”, [Online] Available: https://drive.google.com/open?id=1xIeALJ31LMQTpj2tHWBojYp2 5Oi4A9du [13] G Drive, “Hinh anh sau nhan dang.rar”, [Online].Available: https://drive.google.com/open?id=1DbAnEiIPL4uWQgSM_iYRElU 2KyPN6YMF [1] (BBT nhận bài: 07/9/2019, hoàn tất thủ tục phản biện: 25/11/2019) ... mẫu mà mô hình nhận dạng 138 mẫu Như vậy, trường hợp độ xác tổng thể mơ hình 99,28% Trong đó, có lồi có độ xác nhận dạng 100%, cịn lại lồi hoa cúc có độ xác 88,89% với mẫu đưa vào nhận dạng mẫu,... 40,36% Nhận dạng nhầm Không nhận dạng Tổng 11 Độ xác 36,36% 55,56% 58,33% 41,67% 10 Trong đó, có lồi có độ xác 100%, lồi hoa sứ có độ xác thấp 10% với 10 mẫu đưa vào nhận dạng mẫu, mẫu nhận dạng. .. thể mơ hình giảm dần độ nhiễu đầu vào nhận dạng tăng lên ảnh bị che khuất 1/3 có độ xác nhận dạng 78,46% cịn ảnh bị che khuất 1/2 độ xác nhận dạng 40,36%, số mẫu mà mơ hình khơng nhận dạng tăng