Cải tiến, hiện đại hóa hệ thống giám sát an ninh, bảo vệ căn cứ trên đảo là một nhiệm vụ quan trọng của Quân đội ta hiện nay. Trước đây, phương pháp học máy được áp dụng để xây dựng bộ phát hiện đối tượng, tuy nhiên kết quả quá trình thực nghiệm ở biển đảo chưa đáp ứng được yêu cầu đặt ra, tỷ lệ phát hiện nhầm đối tượng còn cao. Trong bài báo này, đề xuất thuật toán Yolov3 tiến hành tự động phát hiện đối tượng xuất hiện trong khu vực giám sát.
Nghiên cứu khoa học cơng nghệ Sử dụng thuật tốn Yolov3 nâng cao chất lượng phát đối tượng cho hệ thống giám sát, bảo vệ đảo Chu Văn Hoạt*, Vũ Minh Khiêm, Vũ Xuân Vượng, Nguyễn Đình Long Viện Tự động hóa Kỹ thuật qn sự/Viện Khoa học Công nghệ quân *Email liên hệ: sqchuhoat@gmail.com Nhận ngày 25/8/2021; Hoàn thiện ngày 28/10/2021; Chấp nhận đăng ngày 12/12/2021 DOI: https://doi.org/10.54939/1859-1043.j.mst.76.2021.137-143 TÓM TẮT Cải tiến, đại hóa hệ thống giám sát an ninh, bảo vệ đảo nhiệm vụ quan trọng Quân đội ta Trước đây, phương pháp học máy áp dụng để xây dựng phát đối tượng, nhiên kết trình thực nghiệm biển đảo chưa đáp ứng yêu cầu đặt ra, tỷ lệ phát nhầm đối tượng cịn cao Trong báo này, đề xuất thuật tốn Yolov3 tiến hành tự động phát đối tượng xuất khu vực giám sát Từ khóa: Tự động phát hiện; Hệ thống giám sát an ninh; Yolov3 ĐẶT VẤN ĐỀ Hệ thống giám sát an ninh thường tích hợp camera ảnh thường camera ảnh nhiệt, đặt bệ pan-tilt quay quét để tăng cường phạm vi giám sát Yêu cầu hệ thống giám sát biển đảo phải tự động phát đối tượng đột nhập khoảng cách xa, phát đối tượng điều kiện sóng biển, sương mù phức tạp Đối tượng có kích thước nhỏ, ảnh nhiều nhiễu, thế, khó trích xuất đặc trưng, gây khó khăn cho nhiệm vụ phát đối tượng Hiện nay, thuật toán phát đối tượng chủ yếu chia thành hai loại: phương pháp truyền thống dựa vào đặc trưng thủ công phương pháp học sâu dựa vào đặc trưng trích xuất từ mạng nơ-ron [1] Phương pháp truyền thống dựa vào cách lựa chọn cửa sổ trượt đặc trưng ảnh theo quy luật, sử dụng loại phương pháp đặc trưng ảnh tính khái quát không cao, làm ảnh hưởng tới hiệu thuật toán Bài báo [2] sử dụng thuật toán Adaboost mơ hình phân tầng Cascade để ứng dụng cho hệ thống giám sát an ninh, nhiên hệ thống thử nghiệm môi trường phức tạp biển đảo, tỷ lệ phát nhầm đối tượng cao Phương pháp học sâu sử dụng mạng nơ-ron tích chập để trích xuất đặc trưng ảnh, mô tả đối tượng tốt, giúp nâng cao độ xác thuật tốn Dựa theo ý tưởng thiết kế thuật tốn, phân thành hai loại: Thuật toán giai đoạn thuật toán hai giai đoạn Thuật tốn hai giai đoạn chia q trình phát đối tượng thành hai thành phần tạo khu vực dự đốn, sau từ khu vực tiến phát đối tượng Các thuật toán tiêu biểu bao gồm R-CNN [3], Fast-RCNN [4], Faster-RCNN [5] Thuật toán giai đoạn trực tiếp tạo xác suất mục tiêu tọa độ vị trí đối tượng thông qua mạng nơ ron, thuật tốn điển SSD [6], DSSD [7] Hiện số nghiên cứu sử dụng phương pháp học sâu để phát đối tượng tàu thuyền[8, 9], Tuy nhiên tập trung xử lý cho kênh ảnh định, báo [8] tiến hành phát phân loại tàu thuyền ảnh thường, báo [9] phát đối tượng ảnh vệ tinh Vì thế, để giải nhiệm vụ phát đối tượng cho ba kênh ảnh ảnh thường, ảnh hồng ngoại ảnh nhiệt, báo đề xuất thuật toán Yolov3 để nâng cao chất lượng phát đối tượng cho hệ thống Bài báo gồm có phần chính, bao gồm: Đặt vấn đề; Thu thập liệu; Thuật toán tự động phát đối tượng; Kết đạt được; Kết luận THU THẬP DỮ LIỆU Tập liệu chiếm vị trí quan trọng phát triển thuật toán phát đối Tạp chí Nghiên cứu KH&CN quân sự, Số 76, 12 - 2021 137 Công nghệ thông tin & Cơ sở toán học cho tin học tượng, tập liệu đủ lớn, đa dạng sở để phát triển thuật toán Bài báo sử dụng liệu MS COCO[10], ngồi ra, hình ảnh mục tiêu cịn thu thập từ camera hệ thống COCO liệu lớn đa dạng với 200.000 hình ảnh Tuy nhiên, liệu bao gồm ảnh chụp từ camera thường thường chụp từ khoảng cách gần, bị ảnh hưởng nhiễu Đối với hệ thống giám sát, bảo vệ đảo đối tượng giám sát thường vị trí cách xa camera, hình ảnh bị tác động lớn nhiễu Đặc biệt ảnh hồng ngoại ảnh nhiệt, đối tượng có đường viền mờ, đặc trưng màu sắc đặc trưng xám khó trích xuất, gây khó khăn cho nhiệm vụ phát đối tượng Vì thế, hình ảnh lấy thực địa có vai trị quan trọng, giúp thuật tốn thích ứng với khó khăn thực tế hệ thống Bộ liệu tăng cường hình biểu diễn bao gồm ảnh nhiệt, ảnh thường ảnh hồng ngoại với lớp đối tượng: Tàu thuyền, người, xe, UAV Trong đó, lớp tàu thuyền bao gồm 4450 ảnh với 19000 đối tượng, lớp đối tượng người bao gồm 6430 ảnh với 22095 đối tượng, lớp đối tượng xe bao gồm 5024 ảnh với 20032 đối tượng, lớp đối tượng UAV bao gồm 2026 ảnh với 5061 đối tượng Ảnh liệu thu thập nhiều khoảng thời gian khác ngày, điều kiện sóng biển, thời tiết khác nhau, khoảng cách xa, đối tượng có kích thước nhỏ 6*6 pixel Hình Tập liệu Hình Gán nhãn cho liệu Sau thu thập liệu cần tiến hành gán nhãn cho đối tượng Bài báo sử dụng phần mềm Yolo-mark để tiến hành gán nhãn cho liệu Phần mềm có chức lưu thơng tin lớp đối tượng thơng tin vị trí đánh dấu hình ảnh định dạng txt để tiến hành huấn luyện Hình cho thấy trình gán nhãn hình ảnh Sau chọn lớp đối tượng đánh dấu mục tiêu hình chữ nhật, phần mềm tạo văn nhãn định dạng txt có tên giống tên hình ảnh 138 C V Hoạt, …, N Đ Long, “Sử dụng thuật toán Yolov3 nâng cao … bảo vệ đảo.” Nghiên cứu khoa học cơng nghệ THUẬT TỐN TỰ ĐỘNG PHÁT HIỆN ĐỐI TƯỢNG 3.1 Cấu trúc thuật toán Thuật toán Yolov3 phương pháp sử dụng mạng thần kinh để hồn thành dự đốn tính tốn xác suất lớp đối tượng từ hình ảnh lần chạy Thuật tốn sử dụng thơng tin toàn ảnh lần sử dụng mạng thần kinh nên thuật toán tối ưu hóa, cấu trúc đơn giản, có hiệu suất phát cao, xử lý thời gian thực Ảnh đầu vào (batch_size: 416, 416, 32) Conv 32x32x3 Conv 64x3x3_s2 (batch_size: 208,208,64) Conv: Lớp tích chập Concatenate: Liên kết đầu vào Batch_size: Kích thước đầu lớp khối Residual Block 1x64 (batch_size: 208,208,64) Conv 128x3x3_s2 (batch_size: 104, 104, 128) Residual Block 2x128 (batch_size: 104, 104, 128) Conv Block 3x(128x1x1+256x3x3) (batch_size: 52, 52, 256) Conv 256x3x3_s2 (batch_size: 52, 52, 256) Residual Block 8x256 (batch_size: 52, 52, 256) Conv 512x3x3_s2 (batch_size: 26, 26, 512) Residual Block 8x512 (batch_size: 26, 26, 512) Conv 1024x3x3_s2 (batch_size: 13, 13, 1024) Residual Block 4x1024 (batch_size: 13, 13, 1024) Conv Block 3x(52x1x1+1024x3x3) (batch_size: 13, 13, 1024) Concatenate (batch_size: 52, 52, 384) Conv 128x1x1 + UpSample (batch_size: 52, 52, 128) Concatenate (batch_size: 26, 26, 768) Conv Block 3x(256x1x1+512x3x3) (batch_size: 26, 26, 512) Conv 256x1x1 + Upsample (batch_size: 26, 26, 256) Conv 255x1x1 + (batch_size: 13, 13, 255) Conv 255x1x1 + (batch_size: 52, 52, 255) Kết Scale 1: Dùng để phát đối tượng nhỏ Conv 255x1x1 + (batch_size: 26, 26, 255) Kết Scale 2: Dùng để phát đối tượng kích thước trung bình Kết Scale 3: Dùng để phát đối tượng kích thước lớn Hình Cấu trúc mơ hình mạng thuật tốn Sơ đồ cấu trúc mơ hình mạng Yolov3 hình biểu diễn, cấu trúc bao gồm 53 lớp nơ ron tích chập kết nối liên tiếp, lớp dùng để trích xuất đặc trưng hình ảnh Để giảm kích thước đầu sau lớp tích chập, tiến hành lấy mẫu xuống lọc có kích thước 2, qua giảm số lượng tham số mơ hình, cải thiện thời gian q trình trích xuất đặc trưng Các ảnh trước đưa vào mơ hình, đưa kích thước cố định, kích thước tham số thiết lập mơ hình thuật tốn, sử dụng kích thước bao gồm 608x608, 416x416 304x304 Đối với kích thước đầu vào thiết lập lớp riêng phù hợp với kích thước đầu vào Để cân độ xác tốc độ thuật tốn, báo sử dụng kích thước 416x416 để thiết lập kích thước đầu vào cho thuật tốn Sau qua nơ ron tích chập kích thước giảm dần theo cấp số nhân 2, sau đó, thu đồ đặc trưng có kích thước tương đối nhỏ để dự đốn đối tượng ô đồ đặc trưng Đối với đầu vào 416x416, kích thước đồ đặc trưng dùng để dự đoán đối tượng 13x13, 26x26 52x52 Tạp chí Nghiên cứu KH&CN quân sự, Số 76, 12 - 2021 139 Công nghệ thông tin & Cơ sở toán học cho tin học Đầu thuật toán vector bao gồm thành phần: yT p0 , x, y, w, h, p1 , p2 , , pn (1) Trong đó: - p0 xác suất đối tượng xuất khung; - (x,y) tọa độ tâm khung, (w,h) kích thước chiều rộng, dài khung; - p1 , p2 , , pn dự báo xác suất lớp đối tượng 3.2 Nguyên lý dự đoán thuật toán Trong thuật toán Yolov3, ảnh chia thành S * S ô vuông Nếu đối tượng cần phát tồn ơ, vng có nhiệm vụ phát mục tiêu Kết dự đoán khung giới hạn gồm phần tử (x, y, w, h, confidence), (x, y) tọa độ tâm khung dự đoán, (w, h) chiều rộng chiều cao khung dự đoán, confidence xác suất định nghĩa công thức sau: confidence Pr(Object ) IOU truth pred (1) (2) Trong đó: Pr(Object) biểu thị vng có chứa đối tượng hay khơng, có giá trị IOU truth pred (1) hàm đánh giá độ xác kết dự đốn, tính tỷ lệ diện tích phần giao phần hợp khung dự đoán khung chứa đối tượng dán nhãn tập liệu Nếu IOU> 0.5 khung dự đốn đánh giá tốt Thơng thường, ảnh chứa nhiều đối tượng có kích thước khác nhau, phát đối tượng cần phải phát đối tượng kích thước, thế, cấu trúc thuật tốn phải phù hợp để phát đối tượng có kích thước khác Bản đồ đặc trưng trích xuất từ mạng tích chập nông chủ yếu sử dụng để phản ánh đặc điểm chi tiết đối tượng, phù hợp dùng để phát đối tượng có kích thước bé Bản đồ đặc trưng trích xuất từ mạng tích chập sâu có kích thước nhỏ, dùng để mô tả đặc điểm trừu tượng đối tượng, phù hợp dùng để phát đối tượng có kích thước lớn Như lớp tích chập sâu, đồ đặc trưng có kích thước nhỏ, khả phát đối tượng có kích thước nhỏ khó Cách tiếp cận thuật tốn sử dụng đồ đặc trưng mạng tích chập lớp khác để phát đối tượng Ngồi ra, thuật tốn thêm liên kết lớp dự đoán, tiến hành lấy mẫu lên lớp dự đoán tầng sau liên kết với lớp dự đốn tầng trước đó, vậy, kết hợp thông tin từ đồ đặc trưng tầng khác nhau, tăng độ xác thuật tốn Dự đốn Dự đốn Dự đốn Hình Ngun lý dự đoán thuật toán 3.3 Hàm lỗi thuật tốn Trong q trình huấn luyện, mơ hình tập trung vào vng có chứa đối tượng Tăng 140 C V Hoạt, …, N Đ Long, “Sử dụng thuật toán Yolov3 nâng cao … bảo vệ đảo.” Nghiên cứu khoa học công nghệ điểm phân loại xác lớp lên Sau đó, tiếp tục tập trung vào vng đó, tìm vị trí khung dự đốn tốt tăng điểm vị trí khung dự đốn lên, thay đổi thơng tin khung dự đốn để gần với nhãn dán Đối với ô vuông không chứa đối tượng, giảm điểm tin cậy không quan tâm đến điểm phân loại điểm vị trí ô vuông Hàm lỗi dùng để tính giá trị lỗi cho khung dự đốn so với vị trí thực tế từ tập liệu Bao gồm thành phần: Độ lỗi việc dự đoán loại nhãn đối tượng tính tốn xác suất, độ lỗi vị trí độ lớn khung dự đoán Hàm lỗi tính sau: S2 B loc coord 1ijobj xi xˆi yi yˆi i 0 j 0 S2 B cls i 0 j 0 1ijobj 2 obj noobj 1ij Cij Cˆij w i wˆ i S2 1 obj i h i hˆi pi (c) pˆ i (c) 2 (3) (4) i 0 cC loc cls (5) Trong đó: - loc hàm lỗi vị trí độ lớn khung dự đoán so với thực tế khung dán nhãn; - cls hàm lỗi việc dự đoán loại nhãn đối tượng tính tốn xác suất; - 1iobj : Hàm indicator có giá trị 1, nhằm xác định xem ô i có chứa đối tượng hay khơng Bằng chứa đối tượng không chứa đối tượng; - 1ijobj : Cho biết khung thứ j ô i có chứa đối tượng hay không, có chứa đối tượng, khơng chứa đối tượng; - Cij : Điểm tin cậy ô i; - C : Tập hợp tất lớp đối tượng; - pi (c) : Xác suất có điều kiện lớp c C ô i mà mơ hình dự đốn KẾT QUẢ ĐẠT ĐƯỢC Hệ thống giám sát an ninh, bảo vệ sử dụng ba kênh ảnh thường ảnh hồng ngoại ảnh nhiệt Video dùng để thử nghiệm hiệu phương pháp đề xuất quay hệ thống giám sát khu vực khảo sát thực tế Thuật toán Yolov3 huấn luyện thử nghiệm tảng máy tính hệ điều hành window, Intel i5-10400F, 2.9GHz, RAM 16GB, card đồ họa RTX 3060, ngôn ngữ lập trình C, sử dụng thư viện OpenCV 3.4.0, thư viện CUDA11.1 CUDNN8.0 Máy tính kết nối với bệ pan-tilt quay quét tích hợp camera ảnh nhiệt camera thường Các tham số thuật toán thiết lập bảng thể Bảng Tham số thuật toán Tham số Batch Learning_rate momentum Decay Max iteration 16 0.0025 0.95 0.0005 200000 Giá trị Để đánh giá hiệu thuật toán tác động liệu tăng cường, báo sử dụng thuật toán Yolov3 huấn luyện liệu COCO, thuật toán SSD thuật toán FastRCNN để so sánh với hiệu với mơ hình mà báo đề xuất Kết so sánh hình bảng thể Hình bảng cho thấy, thuật toán Yolov3 huấn luyện liệu COCO, ảnh thường điều kiện ánh sáng tốt, thuật tốn có hiệu phát tốt, nhiên, điều kiện ánh sáng yếu, ảnh hồng ngoại, ảnh nhiệt hiệu thuật tốn giảm, độ xác thuật tốn 0.55 Thuật tốn SSD bỏ sót nhiều đối tượng, đặc biệt đối tượng có kích thước nhỏ đối tượng bị chồng lên nhau, thuật toán có độ xác 0.76 Tạp chí Nghiên cứu KH&CN quân sự, Số 76, 12 - 2021 141 Công nghệ thơng tin & Cơ sở tốn học cho tin học tốc độ xử lý 21frame/s Thuật toán Fast-RCNN có độ xác 0.84, nhiên, chi phí thời gian thuật tốn cao, tốc độ xử lý 13frame/s Thuật toán Yolov3 huấn luyện liệu COCO tăng cường đứng đầu độ xác với độ xác 0.94, thuật tốn có tốc độ xử lý nhanh, kích thước đầu vào thiết lập 416x416 tốc độ xử lý lên tới 59frame/s Có thể thấy, tăng cường liệu giúp cho mơ hình sau huấn luyện thích ứng tốt với tình hình thực tế thực địa thuật tốn Yolov3 có ưu đối tượng có kích thước nhỏ, phù hợp yêu cầu độ xác xử lý thời gian thực hệ thống giám sát, bảo vệ đảo (a) Kết thử nghiệm thuật toán Yolov3 với liệu COCO (b) Kết thử nghiệm thuật toán SSD với liệu COCO tăng cường (c) Kết thử nghiệm thuật toán Fast-RCNN với liệu COCO tăng cường (d) Kết thử nghiệm thuật toán Yolov3 với liệu COCO tăng cường Hình Kết thử nghiệm Bảng Độ xác tốc độ thuật tốn AP AP AP AP Fps Thuật toán mAP Tàu thuyền Người xe UAV Frame/s YOLOv3-COCO 0.47 0.59 0.63 0.53 0.55 59 SSD 0.76 0.75 0.80 0.75 0.76 21 Fast-RCNN 0.85 0.83 0.83 0.84 0.84 13 YOLOv3 0.95 0.92 0.93 0.93 0.94 59 KẾT LUẬN Bài báo đề xuất phương pháp Yolov3 để nâng cao chất lượng tự động phát hệ thống giám sát Kết thử nghiệm cho thấy phương pháp đề xuất phát đối tượng điều kiện phức tạp mưa, sương mù, ánh sáng yếu, nhiễu lớn Thông qua thực nghiệm cho thấy tính khả thi phương pháp đề xuất Do đó, thuật tốn áp dụng cho lĩnh vực công nghiệp quân phát giám sát đối tượng bến tàu hải 142 C V Hoạt, …, N Đ Long, “Sử dụng thuật toán Yolov3 nâng cao … bảo vệ đảo.” Nghiên cứu khoa học công nghệ cảng, cứu nạn hàng hải giao thông hàng hải Đặc biệt, lĩnh vực qn khơng ứng dụng vào việc phát địch, mà dùng cho hệ thống vũ khí để nâng cao độ xác thiết bị vũ khí, nâng cao hiệu chiến đấu quân đội ta Lời cảm ơn: Nhóm tác giả cảm ơn đóng góp ý kiến phòng KHQS, Bộ Tham mưu Hải quân giúp hoàn thiện báo Nghiên cứu hỗ trợ từ nhiệm vụ cấp mã số 2020.85.24 TÀI LIỆU THAM KHẢO [1] Kim C, Lee Y, Park J et al "Diminishing unwanted objects based on object detection using deep learning and image inpainting," 2018 International Workshop on Advanced Image Technology (IWAIT), 2018, 1-3 [2] Chu V H, Vũ M K “Xây dựng thuật toán tự động phát đối tượng ảnh động cho bệ quay quét giám sát an ninh,” Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san TĐH, 04 – 2019 [3] Uijlings J R R, van de Sande K E A, Gevers T, et al “Selective Search for Object Recognition,” Int J Comput Vis 104(2013), 154–171 [4] Girshick R “Fast r-cnn,” Proceedings of the IEEE international conference on computer vision, 2015, 1440-1448 [5] Ren S, He K, Girshick R, et al “Faster r-cnn: Towards real-time object detection with region proposal networks,” preprint arXiv:1506.01497, 2015 [6] Liu W, Anguelov D, Erhan D, et al “Ssd: Single shot multibox detector,” European conference on computer vision, 2016, 21-37 [7] Fu C Y, Liu W, Ranga A, et al “Dssd: Deconvolutional single shot detector,” arXiv preprint arXiv:1701.06659, 2017 [8] Cui H, Yang Y, Liu M, et al “Ship detection: an improved YOLOv3 method,” OCEANS 2019Marseille, 2019: 1-4 [9] Wang Q, Shen F, Cheng L, et al “Ship detection based on fused features and rebuilt YOLOv3 networks in optical remote-sensing images,” International Journal of Remote Sensing, 2021, 42(2): 520-536 [10] Russakovsky O, Deng J, Su H, et al “Imagenet large scale visual recognition challenge,” International Journal of Computer Vision, 2015, 115(3): 211-252 ABSTRACT USING THE YOLOV3 METHOD ENHANCED THE QUALITY OF OBJECT DETECTING FOR SURVEILLANCE SYSTEM, PROTECTION OF THE ISLAND FACILITIES Improvement and modernization of the security surveillance system, protecting bases on the island is a vital duty to our military nowadays Previously, machine learning methods have been used to construct object detectors, but the results of the experimental process in the ocean and islands did not meet the specified requirements, and the false detection rate was still high In this paper, Yolov3 algorithm is proposed to automatically detect objects appearing in the surveillance area Keywords: Auto-detection; Security monitoring system; Yolov3 Tạp chí Nghiên cứu KH&CN quân sự, Số 76, 12 - 2021 143 ... ? ?Sử dụng thuật toán Yolov3 nâng cao … bảo vệ đảo. ” Nghiên cứu khoa học cơng nghệ THUẬT TỐN TỰ ĐỘNG PHÁT HIỆN ĐỐI TƯỢNG 3.1 Cấu trúc thuật toán Thuật toán Yolov3 phương pháp sử dụng mạng thần... 13 YOLOv3 0.95 0.92 0.93 0.93 0.94 59 KẾT LUẬN Bài báo đề xuất phương pháp Yolov3 để nâng cao chất lượng tự động phát hệ thống giám sát Kết thử nghiệm cho thấy phương pháp đề xuất phát đối tượng. .. nghiệm cho thấy tính khả thi phương pháp đề xuất Do đó, thuật tốn áp dụng cho lĩnh vực công nghiệp quân phát giám sát đối tượng bến tàu hải 142 C V Hoạt, …, N Đ Long, ? ?Sử dụng thuật toán Yolov3 nâng