Hội nghị Khoa học trẻ lần năm 2022 (YSC2022) – IUH Ngày 14/10/2022 ISBN: 978-604-920-155-4 YSC4F.205 HỆ THỐNG PHÁT HIỆN NGƯỜI ĐEO VÀ KHÔNG ĐEO KHẨU TRANG DỰA TRÊN MƠ HÌNH HỌC SÂU NGUYỄN HOANH, NGUYỄN CƠNG TƯỚC, PHẠM THANH NGÂN, NGUYỄN PHI TRƯỜNG, HUỲNH ĐỨC HẢI Khoa Công nghệ Điện, Trường Đại học Công nghiệp Thành phố Hồ Chí Minh nguyenhoanh@iuh.edu.vn, 18054561.tuoc@student.iuh.edu.vn, 18035031.ngan@student.iuh.edu.vn, 18028891.truong@student.iuh.edu.vn, 18032251.hai@student.iuh.edu.vn Tóm tắt Vai trị việc đeo trang nơi cơng cộng trở nên quan trọng, góp phần vào việc hạn chế lây lan COVID-19 Trong báo này, nhóm tác giả xây dựng hệ thống phát người đeo/không đeo trang dựa tảng học sâu với ngõ vào hình ảnh thu từ camera lắp đặt nơi công cộng Hệ thống dựa mơ hình FCOS, mơ hình học sâu cho phát đối tượng, để phát trường hợp đeo trang/khơng đeo trang hình ảnh thu Nhằm cải thiện độ xác tốc độ thực thi, báo sử dụng phương pháp tăng cường liệu để tăng số lượng liệu huấn luyện sử dụng mạng nơ ron tích chập ResNet Kết huấn luyện kiểm tra liệu cho thấy hệ thống phát người đeo trang với tỉ lệ 95,1% người khơng đeo trang 91.3% Ngồi ra, nhóm tác giả cịn xây dựng giao diện trực quan, đầy đủ thành phần để tạo thành phần mềm hoàn chỉnh, thân thiện dễ sử dụng với người dùng Kết thực thi với ảnh video thực tế cho thấy hệ thống hoạt động ổn định đạt tỉ lệ xác cao Từ khóa COVID-19, FCOS, ResNet, học sâu, đeo trang, không đeo trang FACE MASK DETECTION SYSTEM BASED ON DEEP LEARNING Abstract The role of wearing a mask in public places becomes important, it is making a major contribution to limiting the spread of COVID-19 In this article, the authors build a mask-wearing/non-masking detection system based on deep learning with the input of images obtained from cameras installed in public places The system is based on FCOS model, which is a deep learning model for objects detection, to detect mask wearing/non-masking cases on the acquired images In order to improve the accuracy and execution speed, in this article, data enhancement methods are used to increase the amount of training data and use ResNet convolutional neural network The results of training and testing on the dataset show that the system can detect people wearing a mask with a rate of 95.1% and people without a mask at 91.3% In addition, the author team also built an intuitive interface, full of components to form a complete, user-friendly and easyto-use software The performance results with actual photos and videos show that the system operates stably and achieves a high accuracy rate Keywords COVID-19, FCOS, ResNet, deep learning, mask, no mask GIỚI THIỆU Với phát triển mạnh mẽ học sâu năm gần đây, mơ hình phát đối tượng dựa học sâu phát triển mạnh mẽ cho thấy độ xác vượt trội so với phương pháp truyền thống Hơn nữa, mơ hình phát đối tượng dựa học sâu cho thấy hiệu với ứng dụng thực tế cho độ xác cao nhiều môi trường khác nhiều loại đối tượng khác kích thước, tỉ lệ, màu sắc, Các mơ hình phát đối tượng dựa học sâu phát triển để phát nhiều loại đối tượng khác xe cộ, khuôn mặt, biển số xe, biển báo giao thông, Các mô hình thường bao gồm mạng nơ ron tích chập ngõ vào để trích xuất đặc trưng ảnh mạng để phát đối tượng cuối để phát đối tượng dựa đặc trưng trích xuất 50 2022 Trường Đại học Cơng nghiệp Thành phố Hồ Chí Minh Hội nghị Khoa học trẻ lần năm 2022 (YSC2022) – IUH Ngày 14/10/2022 ISBN: 978-604-920-155-4 trước Một số mơ hình phát đối tượng phổ biến mơ hình Faster R-CNN [1], SSD (Single Shot MultiBox Detector) [2], FCOS (Fully Convolutional One-stage Object Detection) [3], FPN (Feature Pyramid Network) [4], Với đặc điểm phân tích trên, báo đề xuất xây dựng hệ thống phát người đeo/không đeo trang dựa hình ảnh Hệ thống đề xuất xây dựng dựa mơ hình FCOS, mơ hình phát triển cho toán phát đối tượng dựa hình ảnh Hệ thống xây dựng phát tất khuôn mặt đeo/không đeo trang có hình ảnh thu từ mơi trường thực tế Hệ thống xây dựng huấn luyện kiểm tra tập liệu Face Mask Detection [5] CÁC CƠNG TRÌNH LIÊN QUAN Hệ thống phát khn mặt đeo trang hệ thống phức tạp, yêu cầu giải lúc hai toán Thứ nhất, hệ thống phải giải toán phân lớp, phân biệt khuôn mặt đeo trang khuôn mặt không đeo trang Thứ hai, hệ thống phải giải tốn phát hiện, định vị xác vị trí khn mặt có đeo trang/khơng đeo trang ảnh Có số hướng tiếp cận để giải tốn Trong [6], nhóm tác giả đề xuất sử dụng hệ thống gồm hai hệ thống để giải toán phát khuôn mặt đeo, không đeo trang Sơ đồ tổng quan hệ thống Hình Hệ thống đề xuất gồm có hai hệ thống Hệ thống thứ sử dụng mơ hình RetinaFace detector [7] cho tốn phát khn mặt Hệ thống thứ hai sử dụng mạng MobileNet V1 [8] cho tốn phân lớp khn mặt đeo trang/khơng đeo trang Kết phát khuôn mặt ảnh hệ thống thứ ngõ vào hệ thống thứ hai Ngõ vào hệ thống thứ ảnh chứa khuôn mặt có đeo trang/ khơng đeo trang Hướng tiếp cận có nhược điểm hệ thống phức tạp phải có hai giai đoạn phát nhận dạng độc lập dẫn đến tốc độ thực thi chậm Tuy nhiên, hệ thống có ưu điểm tách rời hai giai đoạn phân lớp khuôn mặt phát khuôn mặt nên hệ thống phát khn mặt điều kiện khó khăn [9] Một hướng tiếp cận khác sử dụng mơ hình cho hai toán nhận dạng phát Với hướng tiếp cận này, mơ hình xây dựng dựa thuật toán xử lý ảnh truyền thống dựa mơ hình học sâu Các mơ hình dựa học sâu ln cho độ xác cao so với mơ hình sử dụng xử lý ảnh truyền thống Trong [10] đề xuất xây dựng mô hình phát khn mặt thời gian thực dựa mơ hình YOLO (You Only Look Once) v4 kinh điển Mơ hình đề xuất bao gồm số khối cải tiến để giúp hệ thống phát người đeo trang tốt hơn, đặc biệt điều kiện trời tối Trong báo này, nhóm tác giả đề xuất xây dựng hệ thống phát người đeo/không đeo trang dựa học sâu Cụ thể hơn, mô hình FCOS sử dụng để phát khn mặt đeo/khơng đeo trang Mơ hình xây dựng có độ xác cao tốc độ thực thi nhanh điều kiện thực tế Chi tiết hệ thống xây dựng báo trình bày chi tiết phần sau Hình 1: Mơ hình đề xuất [6] © 2022 Trường Đại học Cơng nghiệp Thành phố Hồ Chí Minh 51 Hội nghị Khoa học trẻ lần năm 2022 (YSC2022) – IUH Ngày 14/10/2022 ISBN: 978-604-920-155-4 MƠ HÌNH ĐỀ XUẤT Bài báo đề xuất sử dụng mơ hình FCOS cho hệ thống phát người đeo trang Mơ hình FCOS mơ hình đề xuất vào năm 2019 [3] dùng để phát đối tượng ảnh Sự đời mơ hình FCOS dấu mốc cho lột xác hoàn toàn khác so với mơ hình phát đối tượng có RetinaNet, SSD, YOLO v3 Faster R-CNN dựa vào neo để xác định hộp Mơ hình FCOS đề xuất mơ hình khơng sử dụng neo đề xuất neo Bằng cách loại bỏ neo xác định trước Mơ hình FCOS hồn tồn tránh tính tốn phức tạp liên quan đến neo chẳng hạn tính tốn chồng chéo q trình huấn luyện Quan trọng hơn, nhóm tác giả tránh tất tham số liên quan đến neo Hình mơ tả chi tiết cấu trúc mơ hình FCOS Như mơ tả Hình 2, mơ hình FCOS gồm có khối chính: Khối FPN khối phát đối tượng Đầu tiên, ảnh trích xuất đặc trưng thơng qua mạng nơ-ron tích chập Các đồ đặc trưng tầng cuối khối trích xuất đặc trưng sử dụng cho khối Cuối cùng, dựa đối tượng có kích thước cố định, khối phát đối tượng cho kết cuối Chi tiết khối mơ hình FCOS trình bày sau Ngồi khối chính, số phương pháp xử lý bên khối trình bày chi tiết Bài báo đề xuất mơ hình phát đối tượng giai đoạn hồn tồn tích hợp (FCOS) để giải việc phát đối tượng theo kiểu dự đoán pixel Hình 2: Mơ hình FCOS [3] 3.1 FPN (Feature Pyramid Networks) Trong khối FPN [4], liệu ảnh đầu vào qua hai hướng hướng Bottom-up hướng Top-down Hướng Bottom-up FCOS đề xuất sử dụng mạng nơ ron tích chập ResNet mơ hình Hướng Topdown dùng lớp tích chập để tái tạo lại hình ảnh có độ phân giải cao với giàu thơng tin ngữ cảnh Hình Kiến trúc FPN [4] 52 2022 Trường Đại học Công nghiệp Thành phố Hồ Chí Minh Hội nghị Khoa học trẻ lần năm 2022 (YSC2022) – IUH Ngày 14/10/2022 ISBN: 978-604-920-155-4 3.1.1 Mạng ResNet (Hướng Bottom-up) Để trích xuất đặc trưng từ ảnh ngõ vào, hướng Bottom-up FCOS đề xuất sử dụng mạng nơ ron tích chập ResNet mơ hình Mạng ResNet mạng nơ ron tích chập gồm nhiều tầng sử dụng khối Residual Hình mơ tả cấu trúc khối Residual Trọng tâm khối kết nối đồng tầng với Ngõ khối Residual tính theo cơng thức sau: 𝑦 = 𝑓(𝑥, {𝑊𝑖}) + 𝑥 (1) Với 𝑥 ngõ vào khối, 𝑊𝑖 trọng số tầng Với kết nối đồng nhất, q trình thực thi thuật tốn lan truyền ngược để cập nhật giá trị trọng số mơ tả hình Từ hình ta thấy q trình lan truyền ngược có nhánh Đường dốc Đường dốc Đường dốc nhánh để cập nhật lại giá trị trọng số tính tốn lại đạo hàm sai số dựa vào giá trị trọng số Việc cập nhật làm giá trị đạo hàm sai số giảm dần qua tầng Đường dốc phương pháp hiệu để giải vấn đề Vì Đường dốc khơng qua tầng có trọng số, giá trị đạo hàm sai số khơng bị suy giảm, kết đạo hàm sai số lan truyền ngược đến tầng ngõ vào để cập nhật giá trị trọng số Một ý kết nối đồng khối Residual phép toán đơn giản khơng cần thêm thơng số vào khối, kết mức độ học khối Residual tương tự lớp tích chập thơng thường tận dụng để xây dựng mạng học sâu nhiều tầng Hình 4: Khối Residual để xây dựng mạng ResNet [4] Hình Thuật tốn lan truyền ngược khối Residual [11] 3.1.2 Cấu trúc mạng ResNet Dựa khối Residual, cấu hình mạng ResNet khác đề xuất, ResNet-18 [12], ResNet-34 [13], ResNet-50 [14], ResNet-101, ResNet-110, ResNet-152, ResNet-164, ResNet-1202 Các cấu hình khác số lớp Trong cấu hình cấu hình ResNet-34 sử dụng phổ biến tính hiệu độ xác tốc độ thực thi Trong báo này, nhóm tác giả chi tiết cấu hình mạng ResNet-34 Bảng mô tả chi tiết cấu trúc mạng ResNet-34 Mạng ResNet-34 gồm có 34 tầng Ảnh ngõ vào cho qua tầng tích chập có kích thước lọc 7×7 theo sau tầng max pooling có kích thước lọc 3×3 Sau đó, có tầng tích hợp, tầng tích hợp thứ có khối residual, © 2022 Trường Đại học Cơng nghiệp Thành phố Hồ Chí Minh 53 Hội nghị Khoa học trẻ lần năm 2022 (YSC2022) – IUH Ngày 14/10/2022 ISBN: 978-604-920-155-4 tầng tích hợp thứ có khối residual, tầng tích hợp thứ có khối residual tầng tích hợp cuối có khối residual Sau tầng tích hợp, kích thước feature map giảm nửa nhờ sử dụng tầng tích chập có stride bên khối residual Đồng thời, số kênh đồ đặt trưng tăng gấp đơi sau tầng tích hợp Bảng Cấu hình chi tiết mạng ResNet-34 [11] Tên lớp Kích thước ngõ 18 lớp conv1 112 x 112 7x7, 64, stride 34 lớp 50 lớp 101 lớp 152 lớp 3x3 max pool, stride conv2_x 56x56 [ 3x3, 64 ]x2 3x3, 64 [ 3x3, 64 ]x3 3x3, 64 1x1, 64 [3x3, 64 ] x3 1x1, 256 1x1, 64 [3x3, 64 ] x3 1x1, 256 1x1, 64 [3x3, 64 ] x3 1x1, 256 conv3_x 28x28 [ 3x3, 128 ]x2 3x3, 128 [ 3x3, 128 ]x4 3x3, 128 1x1, 128 [3x3, 128] x4 1x1, 512 1x1, 128 [3x3, 128] x4 1x1, 512 1x1, 128 [3x3, 128] x8 1x1, 512 conv4_x 14x14 [ 3x3, 256 ]x2 3x3, 256 [ 3x3, 256 ]x6 3x3, 256 1x1, 256 [3x3, 256 ] 1x1, 1024 x6 1x1, 256 [3x3, 256 ] 1x1, 1024 x23 1x1, 256 [3x3, 256 ] 1x1, 1024 x36 conv5_x 7x7 [ 3x3, 512 ]x2 3x3, 512 [ 3x3, 512 ] x3 3x3, 512 1x1, 512 [3x3, 512 ] 1x1, 2048 x3 1x1, 512 [3x3, 512 ] x3 1x1, 2048 1x1, 512 [3x3, 512 ] x3 1x1, 2048 1x1 average pool, 1000-d fc, softmax 3.8x109 7.6x109 11.3x109 FLOPs 1.8x109 3.6x109 3.1.3 Khối tái tạo đặc trưng đối tượng (Hướng Top-down) Trong [15], hướng Top-down FPN sử dụng lớp tích chập 1x1 để giảm số kênh lớp C5 để tạo lớp M5 M5 lớp đồ đặc trưng dùng để dự đoán đối tượng Theo chiều xuống mũi tên, nhóm tác giả sử dụng thuật toán làm tăng độ phân giải lớp phía lên hai lần Sau tiếp tục sử dụng lớp tích chập 1x1 cho feature map C4 cộng chúng lại với để thu đồ đặc trưng M4 Để giảm hiệu ứng cưa M4, nhóm tác giả áp dụng lớp tích chập 3x3 để tạo đồ đặc trưng P4 Lập lại q trình để có P3, P2 Khơng thực tới P1 kích thước đồ đặc trưng C1 lớn làm giảm tốc độ xử lý 54 2022 Trường Đại học Công nghiệp Thành phố Hồ Chí Minh Hội nghị Khoa học trẻ lần năm 2022 (YSC2022) – IUH Ngày 14/10/2022 ISBN: 978-604-920-155-4 Hình 6: Khối đặc trưng đối tượng [15] 3.2 KHỐI PHÁT HIỆN ĐỐI TƯỢNG 3.2.1 Khối phân lớp (Classification) Ở nhánh phân lớp, mơ hình dự đốn xác suất lớp pixel tính điểm trung tâm Xác suất lớp có cách nhân xác suất lớp với điểm trung tâm, thay dùng khái niệm neo, mơ hình đưa giá trị pixel cho qua mạng học, từ cho biết pixel có chứa có nằm vùng thuộc đối tượng hay khơng Hình Khối phân lớp [3] Mục đích mơ hình huấn luyện tìm hàm f(x) thơng qua hàm f tìm để gán nhãn cho liệu, bước thường gọi học hay huấn luyện (2) 𝑓(𝑥) = 𝑦 © 2022 Trường Đại học Cơng nghiệp Thành phố Hồ Chí Minh 55 Hội nghị Khoa học trẻ lần năm 2022 (YSC2022) – IUH Ngày 14/10/2022 ISBN: 978-604-920-155-4 x: đặc trưng hay đầu vào liệu y: nhãn lớp hay đầu Thơng thường để xây dựng mơ hình phân lớp cho toán cần sử dụng thuật toán học giám sát (supervised learning) k-nearest neighbors [16], Neural Network [17], SVM, Decision tree, Naive Bayes 3.2.2 Khối trung tâm (Center-ness) Sau sử dụng dự đoán đa cấp FCOS, có nhiều hộp giới hạn chất lượng thấp tạo nằm cách xa tâm vật thể Vì vậy, việc đề xuất chiến lược đơn giản giải hiệu vấn đề vô cần thiết Cụ thể, bổ sung thêm nhánh lớp đơn, song song với nhánh phân loại để dự đốn “tâm điểm” vị trí cụ thể [3] Trung tâm mơ tả khoảng cách chuẩn hóa từ vị trí trung tâm vật thể mà vị trí chịu trách nhiệm hồi quy cho thơng số l*, r*, t*, b* xác định qua công thức: min(𝑙 ∗ , 𝑟 ∗ ) min(𝑡 ∗ , 𝑏 ∗ ) 𝑇𝑟𝑢𝑛𝑔𝑡â𝑚∗ = √ × max(𝑙 ∗ , 𝑟 ∗ ) max(𝑡 ∗ , 𝑏 ∗ ) (3) Với l*, r*, t*, b* khoảng cách tương ứng từ vị trí trung tâm đến bốn cạnh trái, phải, trên, hộp giới hạn mục tiêu hồi quy xác định công thức (4) Căn bậc hai sử dụng để làm chậm trình phân rã trung tâm Giá trị trung tâm dao động từ đến vị trí tiến lại gần tâm đối tượng ngược lại huấn luyện qua hàm BCE (Binary cross-entropy loss) Trong suốt trình thử nghiệm, giá trị trung tâm mạng dự đoán nhân với điểm phân loại để điểm cuối trước xếp hạng hộp giới hạn suy ra, từ làm giảm đáng kể số lượng hộp giới hạn chất lượng thấp dự đốn nằm vị trí nằm xa tâm vật thể Hình 8: Center-ness tốn tìm tâm vật thể [3] 3.2.3 Khối hồi quy (Regression) Theo [3], sau biết pixel có nằm vùng thuộc đối tượng, nhánh hồi quy có nhiệm vụ tính vị trí pixel đến cạnh đối tượng Hình 11 tạo thành khoảng cách (l, t, b, r khoảng cách từ pixel đến cạnh trên, dưới, trái, phải hộp giới hạn) từ khoảng cách tạo nên hộp vng cuối Hộp ground-truth cho hình ảnh đầu vào xác định {Bi} có toạ độ Bi=(x0(i), y0(i), x1(i), y1(i),c(i)) với: x0(i), y0(i),x1(i), y1(i): Toạ độ góc trái phía góc phải phía hộp giới hạn c(i): Lớp đối tượng Nếu vị trí (x, y) liên kết với hộp giới hạn, mục tiêu hồi quy đào tạo cho vị trí tính cơng thức đây: 56 2022 Trường Đại học Công nghiệp Thành phố Hồ Chí Minh Hội nghị Khoa học trẻ lần năm 2022 (YSC2022) – IUH Ngày 14/10/2022 ISBN: 978-604-920-155-4 l*= x – x0(i) , t*= y – y0(i) (4) r*= x1 – x, b*= y1 – y (I) (i) Khác với mơ hình phát dựa vào neo, báo sử dụng hồi quy trực tiếp hộp giới hạn mục tiêu vị trí Nói cách khác, nhóm tác giả xem vị trí mẫu thử huấn luyện thay hộp neo phát dựa vào neo Hình 9: FCOS hoạt động cách dự đoán vector 4D ( l*, t*, r*, b*) [3] KẾT QUẢ THỰC NGHIỆM Phương pháp đề xuất thực máy tính có cấu sau: CPU Intel Core I7-11375 GPU Nvidia RTX 3060, DDR4 16GB Ngơn ngữ lập trình sử dụng Python với thư viện Pytorch, mmdetection cho mơ hình học sâu thư viện OpenCv cho thuật toán xử lý ảnh đơn giản Chi tiết trình thực nghiệm mơ hình trình bày chi tiết phần sau 4.1 Dataset Để thực hệ thống phát người đeo/không đeo trang, liệu Face Mask Detection [5] sử dụng Bộ liệu gồm có 853 ảnh với độ phân giải đa dạng thu thập từ thực tế Các ảnh liệu chia làm lớp: lớp có đeo trang, lớp không đeo trang lớp đeo trang khơng phù hợp Hình 10 giới thiệu vài ảnh tượng trưng ứng với lớp Mỗi ảnh dán nhãn kèm theo tập tin dạng xml tương ứng Các nhãn gán gồm có thơng tin vị trí hộp vng đối tượng nhãn lớp tương ứng với hộp vuông Trong báo này, để đơn giản nhóm tác giả sử dụng lớp: lớp có đeo trang lớp không đeo trang Tất ảnh lớp đeo trang không phù hợp thuộc lớp khơng đeo trang Hình 10: Ảnh từ liệu Face Mask Detection [5] © 2022 Trường Đại học Cơng nghiệp Thành phố Hồ Chí Minh 57 Hội nghị Khoa học trẻ lần năm 2022 (YSC2022) – IUH Ngày 14/10/2022 ISBN: 978-604-920-155-4 4.2 Kết huấn luyện mô hình Mơ hình FCOS cho liệu đeo/khơng đeo trang huấn luyện với số epochs = 20 Tốc độ học chọn mặc định mơ hình gốc [1] Các thông số huấn luyện khác giữ nguyên mơ hình gốc Kết huấn luyện sau 20 epochs thể Bảng (có đính kèm file train_log.txt) Có thể thấy sau 20 epochs, mơ hình có AP ứng với IoU 0.5 71.5% Bảng 2: Kết huấn luyện mơ hình sau 20 epochs Average Precision Average Precision Average Precision Average Precision Average Precision Average Precision Average Recall Average Recall Average Recall Average Recall Average Recall Average Recall (AP) (AP) (AP) (AP) (AP) (AP) (AR) (AR) (AR) (AR) (AR) (AR) [ IoU= 0.50 : 0.95 [ IoU= 0.50 [ IoU= 0.75 [ IoU= 0.50 : 0.95 [ IoU= 0.50 : 0.95 [ IoU= 0.50 : 0.95 [ IoU= 0.50 : 0.95 [ IoU= 0.50 : 0.95 [ IoU= 0.50 : 0.95 [ IoU= 0.50 : 0.95 [ IoU= 0.50 : 0.95 [ IoU= 0.50 : 0.95 | area = all | maxDets= 100 ] = 0.420 | area = all | maxDets= 100 ] = 0.715 | area = all | maxDets= 100 ] = 0.477 | area = small | maxDets= 100 ] = 0.377 | area = medium | maxDets= 100 ] = 0.525 | area = large | maxDets= 100 ] = 0.808 | area = all | maxDets= ] = 0.201 | area = all | maxDets= 10 ] = 0.465 | area = all | maxDets= 100 ] = 0.503 | area = small | maxDets= 100 ] = 0.446 | area = medium | maxDets= 100 ] = 0.605 | area = large | maxDets= 100 ] = 0.837 Trong đó: Average Precision (AP): AP: Độ xác trung bình IoU=.50: 05 : 95 APIoU=.50: Độ xác trung bình IoU=0.5 APIoU=.75: Độ xác trung bình IoU=0.75 AP Across Scales: APsmall: Độ xác trung bình cho đối tượng nhỏ,với kích thước đối tượng < 32x32 ( height x weight) theo kích cỡ pixel APmedium: Độ xác trung bình cho đối tượng trung bình, với 32x32 < kích thước đối tượng < 96x96 APlarge: Độ xác trung bình cho đối tượng lớn, với kích thước đối tượng > 96x96 Average Recall (AR): ARmax=1 : Độ nhạy trung bình với phát ảnh ARmax=10 : Độ nhạy trung bình với 10 phát ảnh ARmax=100: Độ nhạy trung bình với 100 phát ảnh AR Across Scales: ARsmall: Độ nhạy trung bình cho đối tượng nhỏ,với kích thước đối tượng < 32x32 (height x weight) theo kích cỡ pixel ARmedium: Độ nhạy trung bình cho đối tượng trung bình, với 32x32 < kích thước đối tượng < 96x96 ARlarge: Độ nhạy trung bình cho đối tượng lớn, với kích thước đối tượng > 96x96 4.3 Kết thực nghiệm mơ hình Mơ hình sau huấn luyện đánh giá tập liệu testing liệu Tập liệu kiểm tra gồm có 213 ảnh lấy từ 853 ảnh gốc Trong 213 ảnh kiểm tra có tổng cộng 412 khn mặt với 46 khn mặt khơng đeo trang 366 khn mặt có đeo trang (bao gồm trường hợp đeo trang không tiêu chuẩn) Kết kiểm tra thống kê Bảng Mỗi kết hộp vuông phát khuôn mặt đeo/không đeo trang tập kiểm tra so sánh với ground-truth có sẵn liệu Giá trị IoU (Intersection over Union) tính tốn dựa hộp vng phát dựa dự đốn hộp vng ground-truth Nếu IoU hộp vuông >=0.5 nhãn với nhãn hộp vng ground-truth hộp vng xem phát phân loại xác Với hệ thống phát 58 2022 Trường Đại học Công nghiệp Thành phố Hồ Chí Minh Hội nghị Khoa học trẻ lần năm 2022 (YSC2022) – IUH Ngày 14/10/2022 ISBN: 978-604-920-155-4 đeo/khơng đeo trang hai kết quan tâm True Negative rate False Negative rate True Negative rate cho biết hệ thống phát xác người khơng đeo trang, từ giúp người vận hành mơ hình có biện pháp ứng phó kịp thời với tình Trong đó, False Negative rate cho biết hệ thống phát sai trường hợp có đeo trang (có đeo trang hệ thống báo không đeo trang) Điều giúp người vận hành mơ hình đánh giá mức độ tin cậy mơ hình để đưa ứng phó phù hợp Dựa vào kết Bảng 3, hệ thống phát 42/46 người không đeo trang với tỉ lệ 91.3% Và hệ thống phát sai 38/366 trường hợp có đeo trang với tỉ lệ 10,4% Bảng 3: Kết thử nghiệm mơ hình tập liệu kiểm tra Số người thực tế có tập liệu kiểm tra Số người phát phân lớp xác Số người phát phân lớp khơng xác Số người khơng phát Có đeo trang 366 306 38 22 Không đeo trang 46 42 4.4 Thiết kế giao diện Để áp dụng mơ hình huấn luyện vào sử dụng thực tế, nhóm tác giả đề xuất xây dựng giao diện để giúp người sử dụng thao tác dễ dàng Giao diện xây dựng Hình 11 Để xây dựng giao diện tích hợp mơ hình, thư viện Tkinter sử dụng Các thơng tin giao diện thiết kế bao gồm: Phần hiển thị thông tin mơ hình: gồm tên đề tài; logo Phần hiển thị ảnh kết phát hiện: gồm phần hiển thị ảnh gốc (ảnh đầu vào mơ hình FCOS); hiển thị ảnh kết mơ hình với người đeo/khơng đeo trang dự đốn ảnh Phần thơng tin: Bao gồm tên nhóm tác giả, ngày Phần thông tin xử lý: Hiển thị chế độ thực hiện tại, khung ảnh xử lý (với video camera); hiển thị thời gian xử lý ảnh/khung ảnh; hiển thị kết phát gồm số người có trang phát số người khơng có trang phát Phần nút nhấn: Gồm nút nhấn để chọn ảnh, nút nhấn để chọn video, nút nhấn chạy mơ hình dùng để chạy mơ hình khung ảnh (do tốc độ xử lý video nhanh nên nhóm tác giả sử dụng nút nhấn chạy mơ hình khung ảnh để dễ dàng quan sát kết quả), nút chạy camera để lấy ảnh thu từ camera cho hệ thống xử lý, nút lưu file dùng để lưu lại thơng tin trước hiển thị giao diện Hình 11: Giao diện hệ thống © 2022 Trường Đại học Cơng nghiệp Thành phố Hồ Chí Minh 59 Hội nghị Khoa học trẻ lần năm 2022 (YSC2022) – IUH Ngày 14/10/2022 ISBN: 978-604-920-155-4 Hình 12: Giao diện chọn ảnh/video từ nơi máy 4.5 Kết chạy hệ thống thực tế Nhóm tác giả tiến hành chạy thực tế hệ thống với số ảnh video thu thập từ Internet với hình ảnh thu từ camera thực tế Kết chạy hệ thống ảnh thể Hình 13, video Hình 14, hình ảnh thu camera thực tế Hình 15, hình ảnh thu camera điều kiện môi trường thiếu ánh sáng Hình 16 Hình 17 thể kết chạy hệ thống với video lưu liệu Như hiển thị Hình 13, hệ thống phát xác số người vị trí người đeo trang/không đeo trang ảnh Với video, hệ thống phát xác số người vị trí người đeo trang/khơng đeo trang phần lớn khung hình Cịn với hình ảnh thu camera thực tế hệ thống phát xác số lượng người đeo/khơng đeo trang trùng khớp với số lượng người mà camera ghi nhận lại Hình 13: Kết chạy hệ thống ảnh chọn 60 2022 Trường Đại học Cơng nghiệp Thành phố Hồ Chí Minh Hội nghị Khoa học trẻ lần năm 2022 (YSC2022) – IUH Ngày 14/10/2022 ISBN: 978-604-920-155-4 Dựa vào hình 13, chọn ảnh có chứa người đeo/khơng đeo trang thư mục chứa ảnh có sẵn máy tính, hệ thống cho kết xác số người đeo khơng đeo trang, nhận diện đối tượng có ảnh với thời gian xử lí nhanh (0,2 giây) Hình 14: Kết chạy hệ thống ảnh thu thập từ video Hình 14 chọn video có chứa đối tượng đeo/không đeo trang thư mục chứa video có sẵn máy tính, nhấn nút chạy video, hệ thống cho kết xác với tốc độ xử lí nhanh (0,11 giây) nhận diện đối tượng khung hình video Hình 15: Kết chạy hệ thống hình ảnh thu thập từ camera thực tế Hình 15 chọn chế độ chạy camera, hệ thống lấy khung hình thông qua camera thời điểm nhấn nút chạy camera để phân tích, xử lí, phát khn mặt đeo không đeo trang hiển thị kết © 2022 Trường Đại học Công nghiệp Thành phố Hồ Chí Minh 61 Hội nghị Khoa học trẻ lần năm 2022 (YSC2022) – IUH Ngày 14/10/2022 ISBN: 978-604-920-155-4 hình giao diện Khi nhấn chạy camera lần 2, hệ thống tiếp tục lấy khung hình thơng qua camera thời điểm nhấn lần để tiếp tục xử lí, phân tích Hình 16: Kết chạy hệ thống điều kiện thiếu ánh sáng Hình 16 nhóm tác giả chạy hệ thống thơng qua camera trường hợp Hình 15 điều kiện môi trường thiếu ánh sáng cho kết nhận diện xác số người đeo khơng đeo trang Hình 17: Kết chạy hệ thống với video lưu liệu 62 2022 Trường Đại học Công nghiệp Thành phố Hồ Chí Minh Hội nghị Khoa học trẻ lần năm 2022 (YSC2022) – IUH Ngày 14/10/2022 ISBN: 978-604-920-155-4 Như hình trên, nhóm tác giả thiết kế nút lưu liệu, cụ thể hơn, sau chạy mơ hình cho kết hiển thị hình giao diện, nhấn nút lưu liệu sau mở file excel tạo sẵn trước đó, thơng tin khung hình, thời gian xử lý, số người đeo không đeo trang thời điểm nhấn nút lưu liệu hiển thị trang tính excel Khi muốn cập nhật tiếp kết tiếp theo, nhấn nút lưu liệu mở lại trang tính excel, kết cập nhật lại KẾT LUẬN Trong báo nhóm tác giả đề xuất xây dựng hệ thống phát người đeo/khơng đeo trang dựa mơ hình học sâu với liệu thu từ hình ảnh, video camera Hệ thống đề xuất xây dựng dựa mơ hình FCOS, mơ hình phát triển với tính chất linh hoạt, đơn giản đảm bảo độ xác cao toán phát đối tượng Hệ thống xây dựng huấn luyện kiểm tra tập liệu Face Mask Detection [5] Kết huấn luyện kiểm tra liệu cho thấy hệ thống phát người đeo/khơng đeo trang đạt độ xác độ ổn định cao vấn đề phát phân loại Bên cạnh đó, nhóm tác giả xây dựng giao diện với đầy đủ thành phần để tạo thành phần mềm hồn chỉnh, giúp người dùng vận hành hệ thống cách dễ dàng Q trình kiểm tra mơ hình với ảnh video, camera thu thực tế cho kết cao độ xác mơ hình TÀI LIỆU THAM KHẢO [1] Shaoqing Ren, Kaiming He, Ross Girshick and Jian Sun, "Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks," Computer Vision and Pattern Recognition, 2016 [2] Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, Alexander C Berg, "SSD: Single Shot MultiBox Detector," In Proceedings of the IEEE/CVF international conference on computer vision, pp 21-37, 2016 [3] Zhi Tian, Chunhua Shen, Hao Chen, and Tong He, "FCOS: Fully Convolutional One-Stage Object Detection," Computer Vision and Pattern Recognition, pp 9627-9636, 2019 [4] Tsung-Yi Lin, Piotr Dollár, Ross Girshick, Kaiming He, Bharath Hariharan, Serge Belongie, "Feature Pyramid Networks for Object Detection," In Proceedings of the IEEE/CVF international conference on computer vision, pp 2117-2125, 2017 [5] Larxel, "Kaggle," Face Mask Detection, 2020 [Online] Available: https://www.kaggle.com/datasets/andrewmvd/face-mask-detection/ [6] Toon Van Craenendonck, Baturay Ofluoglu, "Github," Tutorial Face Mask Detection, 2020 [Online] Available: https://github.com/datarootsio/tutorial-face-mask-detection/ [7] Jiankang Deng, Jia Guo, Yuxiang Zhou, Jinke Yu, Irene Kotsia and Stefanos Zafeiriou, "Retinaface: Singlestage dense face localisation in the wild," Computer Vision and Pattern Recognition, 2019 [8] Andrew G Howard, Menglong Zhu, Bo Chen, Dmitry Kalenichenko, Weijun Wang, Tobias Weyand, Marco Andreetto, Hartwig Adam, "Mobilenets: Efficient convolutional neural networks for mobile vision applications," Computer Vision and Pattern Recognition, 2017 [9] Jingwei Liu, Yi Gu, Shumin Han et al, "Feature Rescaling and Fusion for Tiny Object Detection," IEEE Access, pp 62946-62955, 2021 © 2022 Trường Đại học Cơng nghiệp Thành phố Hồ Chí Minh 63 Hội nghị Khoa học trẻ lần năm 2022 (YSC2022) – IUH Ngày 14/10/2022 ISBN: 978-604-920-155-4 [10] Zhihao Cao, Mingfeng Shao, Li Xu, Shaomin Mu, Hongchun Qu, "MaskHunter: real- time object detection of face masks during the COVID-19 pandemic," IET Image Processing, pp 4359-4367, 2020 [11] A Sachan, "Learn Machine Learning, AI & Computer vision," 2020 [Online] Available: https://cvtricks.com/keras/understand-implement-resnets [12] Satnam Singh, Doris Schicker, "Seven Basic Expression Recognition Using ResNet-18," Computer Vision and Pattern Recognition, 2021 [13] Li Zhang, Qing Wang, Lei Xie, "Duality temporal-Channel-Frequency attention enhanced speaker representation learning," Computer Vision and Pattern Recognition, 2021 [14] Ross Wightman, Hugo Touvron, Hervé Jégou, "ResNet strikes back: An improved training procedure in timm," Computer Vision and Pattern Recognition, 2021 [15] J Hui, "Understanding Feature Pyramid Networks for object detection (FPN)," 2018 [Online] Available: https://jonathan-hui.medium.com/understanding-feature-pyramid-networks-for-object-detection-fpn45b227b9106c [16] Padraig Cunningham, Sarah Jane Delany, "k-Nearest Neighbour Classifiers: 2nd Edition (with Python examples)," Computer Vision and Pattern Recognition, 2020 [17] Keiron O’Shea, Ryan Nash, "An Introduction to Convolutional Neural Networks," Computer Vision and Pattern Recognition, 2015 64 2022 Trường Đại học Cơng nghiệp Thành phố Hồ Chí Minh