Thực nghiệm đánh giá double head cho bài toán phát hiện phương tiện giao thông từ không ảnh

Tạp chí Khoa học Trường Đại học Cần Thơ Tập 58, Số 4A (2022): 17-25 DOI:10.22144/ctu.jvn.2022.159 THỰC NGHIỆM ĐÁNH GIÁ DOUBLE-HEAD CHO BÀI TỐN PHÁT HIỆN PHƯƠNG TIỆN GIAO THƠNG TỪ KHÔNG ẢNH Nguyễn Thanh Thanh Trúc*, Trần Thị Mỹ Quyên, Bùi Cao Doanh, Võ Duy Nguyên Nguyễn Tấn Trần Minh Khang Trường Đại học Công nghệ Thông tin, Đại học Quốc gia Thành phố Hồ Chí Minh *Người chịu trách nhiệm viết: Nguyễn Thanh Thanh Trúc (email: 20520829@gm.uit.edu.vn) Thông tin chung: Ngày nhận bài: 03/03/2022 Ngày nhận sửa: 21/04/2022 Ngày duyệt đăng: 25/04/2022 Title: An emperical study of DoubleHead for vehicle detection in aerial images Từ khóa: Học sâu, máy bay khơng người lái, phát phương tiện giao thông, thành phố thông minh Keywords: Deep learning, smart city, unmaned aerial vehicle (UAVs), vehicle detection ABSTRACT Vehicle detection in aerial images problem poses multiple challenges and has been of great interest to many in the research community Objects in aerial images are a lot smaller in size compared to those in images taken from the ground, which is one of the biggest challenges in this problem With small objects, the differences between regional proposals gravely affect the detection result In this research, the Double-Head method is evaluated on the AERIAU dataset, an aerial image dataset that utilizes data augmentation techniques The Double-Head achieved an mAP score of 37.09% on the AERIAU dataset Compared with the previous method that achieved the highest result on the AERIAU dataset, which wasYOLOv3, Double-Head was surpassed by 2.01% The Double-Head model achieved remarkably high results in the ‘car’, ‘bus’, and ‘truck’ vehicle classes, from which proposals are made to detect smaller vehicles This is a premise of future research and a basis for developing smart traffic surveillance systems TÓM TẮT Phát phương tiện giao thông từ không ảnh đặt nhiều thách thức nhận quan tâm từ cộng đồng nghiên cứu Đối tượng không ảnh nhỏ nhiều so với ảnh chụp từ camera mặt đất, thách thức lớn Với đối tượng nhỏ, sai khác vùng đề xuất làm ảnh hưởng lớn đến kết phát đối tượng Trong nghiên cứu này, phương pháp Double-Head đánh giá dựa liệu AERIAU – liệu khơng ảnh có áp dụng kỹ thuật tăng cường liệu Double-Head đạt kết 37,09% mAP liệu AERIAU So sánh với mơ hình đạt kết cao cơng bố trước liệu AERIAU YOLOv3, Double-Head cao 2,01% Double-Head đạt kết cao lớp đối tượng xe ô tô, xe buýt, xe tải, từ đưa đề xuất phát xe loại nhỏ Đây tiền đề cho nghiên cứu tiếp theo, sở để phát triển hệ thống giám sát giao thông thông minh ngày đạt số lớn Theo số liệu Cục Cảnh sát giao thông, tháng 7/2020 (Tổng cục Đường Việt Nam, 2021), thành phố Hồ Chí Minh có 8.94 triệu phương tiện cá nhân, tăng gần 7% so với kỳ năm 2018 Trong đó, có 825.000 tơ (tăng GIỚI THIỆU Việt Nam nước có tình hình giao thơng phức tạp tồn giới với số lượng phương tiện giao thông lưu thông đường 17 Tạp chí Khoa học Trường Đại học Cần Thơ Tập 58, Số 4A (2022): 17-25 gần 16%) 8,12 triệu xe máy (tăng 6%) Chỉ khoảng 10 năm (từ năm 2010 đến nay), phương tiện giao thông tăng thêm triệu Theo thống kê, bình qn tháng có 30.000 phương tiện giao thơng đăng ký mới, đồng nghĩa với ngày có 1.000 phương tiện đăng ký Điều tạo áp lực cho hệ thống giám sát kiểm soát giao thông Phát phương tiện giao thông tốn khơng cịn xa lạ thuộc nhóm tốn phát đối tượng có nhiều ứng dụng thực tế, tiền đề giúp phát triển hệ thống giám sát giao thơng thơng minh Bài tốn nhận quan tâm nhà khoa học, hãng sản xuất công nghiệp lớn nhằm phát triển hệ thống tự động điều tiết giao thông Việc tìm vị trí đối tượng giao thơng từ không ảnh giúp phát bất thường, quản lý hoạt động nút giao thông cách hiệu quả, tồn diện Quản lý giao thơng thơng minh chìa khóa cho thành phố thơng minh phát Tuy nhiên, tầm nhìn quy mô không ảnh lớn nên việc phát phương tiện giao thơng cịn gặp cản trở nhiều đối tượng gây nhiễu tòa nhà, cầu, xanh, thùng rác, Điều tạo nhiều khó khăn cho việc phát đối tượng quan tâm cách xác Đặc biệt, đa số đối tượng không ảnh chiếm tỷ lệ nhỏ, cụ thể đối tượng xe mô tô, thách thức lớn cộng đồng thị giác máy tính Phát phương tiện giao thông chủ đề không xa lạ cộng đồng thị giác máy tính, nghiên cứu chủ đề công bố nhiều nước quốc tế (Ho et al., 2020; Liu et al., 2020) Trên sở kế thừa cơng trình nghiên cứu khoa học trước đó, nghiên cứu hướng đến việc phân loại phương tiện giao thông không ảnh dựa liệu AERIAU (Chung et al., 2020), lớp đối tượng xem xét phạm vi nghiên cứu xe ô tô (car), xe tải (truck), xe buýt (bus) xe mô tô (motor) Các phương tiện có hình dạng kích thước khác nhau, vùng đề xuất tìm có đa dạng kích thước, phù hợp cho mục tiêu nghiên cứu Ở Hình 1, phương tiện xác định xe mơ tơ có kích thước nhỏ, to ô tô, xe buýt, xe tải Khi thay đổi tầm nhìn, tốn trở nên khó hơn, dễ nhận nhầm đối tượng khó phát đối tượng nhỏ Hình ảnh chụp từ thiết bị bay khơng người lái (flycam, drone) hay cịn gọi không ảnh sử dụng rộng rãi năm gần Cụ thể lĩnh vực thị giác máy tính, giám sát giao thơng hoạt động thường xuyên, cần dựa vào hệ thống camera giám sát thiết lập cố định khơng ảnh có độ phân giải cao, tầm nhìn bao qt nên phương tiện giao thơng dễ dàng Hình Minh họa tốn phát phương tiện giao thơng Đầu vào (ảnh bên trái) ảnh phương tiện giao thông chụp từ cao, đầu (ảnh bên phải) hộp giới hạn chứa đối tượng gán nhãn theo lớp car – xe ô tô, truck – xe tải, bus – xe buýt, motor – xe mơ tơ Trong nghiên cứu này, tốn phát phương tiện giao thông từ không ảnh nâng cao hiệu phát đối tượng không ảnh với hai tác vụ phân lớp ảnh hồi quy hộp giới hạn cách tiếp cận khác giải Cụ thể, đóng góp nghiên cứu là: GRoIE, mơ-đun trích xuất đặc trưng đối tượng hiệu RoI Pooling − Đề xuất cách kết hợp Double-Head GRoIE, gọi GRoIE Double Head giúp tận dụng hai ý tưởng hai phương pháp − Thực nghiệm đánh giá phương pháp Double-Head liệu AERIAU − Nghiên cứu nhằm khảo sát đánh giá hai mơ hình: 1) mơ hình Double-Head, phương pháp hồi quy tọa độ đối tượng đầu tích chập (conv-head) phân loại đối tượng đầu kết nối đầy đủ (fc-head); 2) phương pháp CÁC NGHIÊN CỨU LIÊN QUAN Phát hai giai đoạn (two-stage detector) bao gồm hai cơng việc chính: tạo đề xuất khu vực 18 Tạp chí Khoa học Trường Đại học Cần Thơ Tập 58, Số 4A (2022): 17-25 (Tìm kiếm có chọn lọc R-CNN Fast-RCNN mạng đề xuất khu vực (RPN) Faster RCNN) phân loại đối tượng cho khu vực đề xuất Chẳng hạn, Faster RCNN (Ren et al., 2015), giai đoạn đầu, mạng đề xuất khu vực (RPN) tạo vùng đề xuất, sau vùng đề xuất sử dụng để phân loại đối tượng Cấu trúc phát hai giai đoạn linh hoạt, phù hợp cho phân loại theo vùng quan tâm Điểm bật cho độ xác cao phát giai đoạn nhiên chi phí tính tốn lớn tốc độ chậm R-CNN (Ren et al., 2015), R-FCN (Dai et al., 2016) mơ hình tiêu biểu sử dụng kiến trúc hai giai đoạn Mask R-CNN (He et al., 2017) phiên mở rộng Faster R-CNN, cấu trúc Mask R-CNN không khác biệt so với cấu trúc Faster R-CNN Với mục tiêu giải toán phân đoạn hình ảnh (Segmentation), giai đoạn đầu tiên, Mask R-CNN sử dụng mạng đề xuất khu vực để phân loại vật thể tạo hộp giới hạn có Với giai đoạn thứ hai, thay rút trích đặc trưng sử dụng “RoI Pooling” Faster R-CNN Mask R-CNN lại sử dụng “RoI Align” để thực việc ResNet (He et al., 2016), mạng đời với số lớp lớn giải vấn đề“tiêu biến gradient” “bùng nổ gradient” huấn luyện, đạt tỷ lệ lỗi (error rate) top-5 3,57%, có số lớp tăng đáng kể so với mạng trước Mơ hình ResNet-50 (He et al., 2016) bao gồm giai đoạn, giai đoạn có khối tích chập khối phần dư Mỗi khối tích chập có lớp tích chập khối phần dư có lớp tích chập ResNet50 có 23 triệu tham số huấn luyện Phát giai đoạn (one-stage detector) trực tiếp bỏ qua giai đoạn đề xuất khu vực phát hai giai đoạn, giai đoạn trực tiếp phân phối xác suất cho lớp định vị đối tượng ảnh Phát giai đoạn hạn chế thuật toán tiền xử lý tạo kiến trúc xương sống (backbone) gọn nhẹ giảm thiểu vùng đề xuất dự đoán Nhờ vậy, tốc độ phát đối tượng nhanh độ xác thường thấp so với phát hai giai đoạn Một số mơ hình sử dụng kiến trúc giai đoạn: YOLO (Redmon et al., 2016), SDD (Liu et al., 2016) YOLOv1 (Redmon et al., 2016) đánh dấu đời họ YOLO, lấy ý tưởng từ GoogLeNet (Szegedy et al., 2015).Nó hợp thành phần chuyên biệt tạo thành mạng nơron (24 lớp tích chập theo sau lớp kết nối đầy đủ) với ảnh đầu vào có kích thước 224×224 YOLOv2 (Redmon et al., 2017) tạo với mục tiêu khắc phục hạn chế YOLOv1, YOLOv2 cải thiện độ xác tăng tốc độ phát Thay có kiến trúc nơ-ron phức tạp, phiên biểu diễn thông tin đơn giản dễ học, trở thành “state-ofthe-art” (67 FPS, 76,8% mAP VOC 2007) vượt trội so với Faster RCNN, ResNet SSD YOLOv3 (Redmon et al., 2018) có kiến trúc giống YOLOv2, nhiên YOLOv3 có thay đổi giúp cải thiện hiệu suất phát đối tượng nhỏ - nhược điểm phương pháp họ YOLO trước đó: sử dụng “hồi quy logistic” cho việc dự đoán độ tin cậy cho hộp giới hạn dựa ngưỡng cho trước (threshold = 0,5); dựa ý tưởng kim tử tháp tính (Feature Pyramid Networks), ứng với vị trí YOLOv3 đưa dự đoán (hộp giới hạn, đối tượng, điểm số lớp); Darknet-19 thay Darknet-53 thực thi tác vụ rút trích đặc trưng PHƯƠNG PHÁP NGHIÊN CỨU 3.1 Phương pháp Double-Head Double-Head phương pháp đề xuất Bae et al (2020) để tận dụng lợi hai đầu, bao gồm đầu kết nối đầy đủ (fc-head) để phân lớp ảnh đầu tích chập (conv-head) để hồi quy hộp giới hạn Fc-head có độ nhạy định khơng gian (spatial sensitivity), fc-head có tham số khác cho phần khác đề xuất (proposal) nhờ đó, mơ hình dễ dàng phân biệt phận thành phần vật thể khác fc-head không trội việc xác định “miền offset” toàn vật thể Ngược lại, conv-head chia sẻ ma trận lọc tích chập cho tất vị trí đồ đặc trưng đầu vào sử dụng “average pooling” để tổng hợp Fchead phù hợp cho nhiệm vụ phân lớp chênh lệch điểm số phân loại ngưỡng IoU fc-head rõ rệt hẳn so với conv-head Trong đó, conv-head hồi quy hộp giới hạn xác Phương pháp Double-Head chia phân loại ảnh định vị hộp giới hạn thành fc-head conv-head tương ứng, kiến trúc đầy đủ thể Hình Chi tiết kiến trúc xương sống hai đầu mơ hình Double-Head mơ tả sau: Hình Minh họa kiến trúc Double-Head Bae et al (2020) đề xuất gồm đầu kết nối đầy đủ đầu tích chập 19 Tạp chí Khoa học Trường Đại học Cần Thơ Tập 58, Số 4A (2022): 17-25 − Kiến trúc xương sống: Sử dụng xương sống FPN (Liu et al.,2016) để tạo đề xuất khu vực (region proposals) sử dụng “RoI Align” trích xuất đặc trưng đối tượng từ nhiều cấp độ Mỗi đề xuất có đồ đặc trưng với kích thước 256×7×7, chuyển đổi fc-head convhead thành hai vectơ đặc trưng (mỗi vectơ có kích thước 1024) để phân loại hồi quy hộp giới hạn tương ứng việc lựa chọn lớp FPN Phương pháp gồm cơng việc chính: đầu tiên, thực “max-pooling” vùng quan tâm không đồng để biểu diễn có kích thước cố định Tiếp theo, đồ đặc trưng xử lý trước riêng biệt sau tổng hợp thành đồ đặc trưng Cuối cùng, xử lý hậu kỳ áp dụng để trích xuất thơng tin Phương pháp phù hợp cho phát đối tượng phân đoạn cá thể − Đầu kết nối đầy đủ (fc-head): Có hai lớp kết nối đầy đủ Kích thước đầu 1024 Kích thước tham số 13,25M Cấu trúc GRoIE gồm có phần tương ứng với cơng việc đề cập trên: mô-đun “RoI pooler”, mô-đun tiền xử lý, mơ-đun tổng hợp mơđun hậu xử lý (Hình 4) Hình Cấu trúc GRoIE (1) RoI Pooler (2) Preprocessing (3) Aggregation function (4) Postprocessing Hình Kiến trúc mạng hai thành phần: (a) khối dư (residual block) tăng số kênh từ 256 lên 1024, (b) khối nút cổ chai (residual bottleneck block) (Rossi et al., 2021) − Mô-đun “RoI pooler”: Từ đầu RPN, quy mơ có RoI có kích thước cố định sử dụng Trong số kỹ thuật “RoI pooling” có, “RoI Align” (He et al., 2017) thích hợp làm giảm vùng đặc trưng đối tượng cách chia RoI ban đầu hộp áp dụng nội suy song tuyến bên hộp Điều giúp tránh việc bị mát phần tử ảnh (Bae et al., 2021) − Đầu tích chập (conv-head): Xếp chồng 𝐾 khối dư (residual blocks) Khối tăng số lượng kênh từ 256 lên 1024 (Hình (a)), khối khác khối nút cổ chai (bottleneck blocks) (Hình (b)) Cuối cùng, “average pooling” sử dụng để tạo vectơ đặc trưng có kích thước 1024 Mỗi khối dư có 1,06 M tham số − Mơ-đun tiền xử lý: Phần dành để xử lý trước đồ đặc trưng cách riêng biệt mô-đun thường gồm lớp tích chập liên kết với tỷ lệ hình ảnh Cấu hình tối ưu bao gồm lớp tích chập có kích thước 5×5 quy mô − Loss Function: Cả hai đầu (fc-head convhead) huấn luyện với mạng đề xuất khu vực (RPN) từ đầu đến cuối Tổn thất chung tính sau: ℒ = 𝜔 𝑓𝑐 ℒ 𝑓𝑐 + 𝜔𝑐𝑜𝑛𝑣 ℒ 𝑐𝑜𝑛𝑣 + ℒ 𝑟𝑝𝑛 𝜔𝑓𝑐 𝜔𝑐𝑜𝑛𝑣 trọng số fc- − Mô-đun tổng hợp: Dùng để tổng hợp RoI đơn lẻ thành RoI Việc tổng hợp RoI giảm thiểu số lượng đặc trưng cần phải tính cho lớp điều giúp mạng tập trung vào trình đào tạo từ giúp mạng ổn định head conv-head ℒ𝑓𝑐 , ℒ𝑐𝑜𝑛𝑣 , ℒ𝑟𝑝𝑛 tổn thất fc-head, conv-head RPN 3.2 Phương pháp GRoIE GRoIE phương pháp cung cấp Rossi et al (2021) Phương pháp trích xuất đặc trưng đối tượng từ đồ đặc trưng chung, nghĩa sử dụng tất lớp FPN thay sử dụng lớp (lớp tốt nhất) loại RoI truyền thống Kiến trúc GRoIE cho phép hưởng lợi từ thơng tin có tất lớp FPN, điều giúp khắc phục hạn chế vốn có − Mơ-đun hậu xử lý: Hậu xử lý bước xây dựng bổ sung áp dụng cho đặc trưng hợp trước Nó cho phép mạng tìm hiểu đặc trưng toàn cục, xem xét tất quy mơ Mục tiêu lớp loại bỏ thơng tin vơ ích 20 Tạp chí Khoa học Trường Đại học Cần Thơ Tập 58, Số 4A (2022): 17-25 Hình Kiến trúc kết hợp GRoIE Double-Head (GRoIE Double-Head) 3.3 Đề xuất kết hợp GRoIE Double-Head từ xuống chụp máy bay không người lái dựa ba liệu video công cộng, cụ thể VisDrone2018 (Zhu et al., 2018), KIT AIS (Weisbrich et al., 2012) Aerial Open Source (Dertat et al., 2018) Bộ liệu chứa 1.474 hình ảnh 56.609 hộp đối tượng Sau đó, AERIAU áp dụng phương pháp tăng cường liệu khác bao gồm cắt xén xoay ngẫu nhiên hình ảnh có Các hình ảnh liệu sử dụng bối cảnh, kích thước, góc nhìn độ cao không gian khác nhau, độ cao không gian sử dụng liệu từ 55 m đến 80 m Điều làm tăng đa dạng đối tượng liệu Bộ liệu không ảnh AERIAU sau áp dụng hai kỹ thuật tăng cường liệu (AERIAU + Cắt xén + Quay ngẫu nhiên hình ảnh) bao gồm 7.792 ảnh định dạng JPG nhãn tương ứng 131.119 đối tượng gán nhãn Trong đó, tập huấn luyện (Train) 6.086 ảnh, tập thẩm định (Validation) 1.522 ảnh, tập kiểm tra (Test) 182 ảnh Số lượng cụ thể nhãn đối tượng liệu trình bày Bảng Như đề cập 3.1 3.2, Double-Head GRoIE loại kiến trúc phổ biến thêm vào để cải thiện kết mơ hình Do đó, kiến trúc coi mơ-đun dễ dàng kết hợp với phương pháp phát đối tượng khác Đó ý tưởng để nghiên cứu xây dựng kiến trúc áp dụng hai phương pháp GRoIE Double-Head Việc áp dụng GRoIE giúp trích xuất kết hợp đặc trưng RoI từ tầng FPN, giúp đặc trưng mang thông tin ngữ nghĩa mạnh mẽ, tăng hiệu dự đoán tọa độ hộp giới hạn phân lớp Bên cạnh đó, Double-Head khác với phương pháp 02 giai đoạn truyền thống Thay sử dụng hai lớp kết nối đầy đủ để dự đoán lúc tọa độ lớp đối tượng, Double-Head chia hai nhánh để giải công việc Việc phân lớp đối tượng hai lớp kết nối đầy đủ đảm trách, hồi quy tọa độ dự đốn hai lớp tích chập Việc hồi quy tọa độ cách sử dụng lớp tích chập chứng minh tốt so với hai lớp kết nối đầy đủ Trong mơ hình Double-Head, hai lớp tích chập sử dụng để hồi quy tọa độ có kích thước đầu × × 1024, kích thước đầu dùng mặc định nghiên cứu Với nhận định trên, phương pháp kết hợp Double-Head với GroIE tiến hành với tên gọi GRoIE Double-Head, đánh giá hiệu suất phát phương tiện giao thông từ không ảnh kiến trúc Kiến trúc mơ hình cụ thể trực quan Hình Bảng Thống kê chi tiết số lượng nhãn đối tượng liệu AERIAU Object Car Truck Bus Motor Train Validation Test 84.253 20.999 3.704 5.260 1.349 77 2.607 625 264 8.662 2.262 1.057 Total 108.956 6.686 3.496 11.981 (Chung et al., 2020) 4.2 Cấu hình thực nghiệm số đánh giá Tồn q trình thực nghiệm triển khai môi trường Google Colab Pro Nghiên cứu tiến hành huấn luyện Double-Head MMDetection framework V2.10.0 (Chen et al., 2019) sử dụng cấu hình mặc định với kiến trúc KẾT QUẢ THỰC NGHIỆM 4.1 Bộ liệu AERIAU Nghiên cứu thực liệu AERIAU (Chung et al., 2020) Đây liệu 21 Tạp chí Khoa học Trường Đại học Cần Thơ Tập 58, Số 4A (2022): 17-25 xương sống ResNet50 ResNeXt-101 huấn luyện vòng 12 epochs SSD áp dụng làm hàm kích hoạt với weight decay 1e-4, learning rate khởi tạo với giá trị 0,001 động lượng (momentum) 0,9 ResNet-50 (35,36% mAP) Double-Head ResNeXt101 cho kết thấp lớp "Ơ tơ" (57,1% so với 58,9%), "Xe tải" (41,8% so với 54,0%), "Mô tô" (1,7% so với 3,9%) cao vượt trội lớp "Xe buýt" (47,9% so với 21,8%) so với DoubleHead sử dụng ResNet-50 Điều cho thấy kiến trúc mạng sâu ResNeXt-101 phát tốt đối tượng có kích thước lớn, lại cho hiệu không tốt đối tượng nhỏ Do ResNeXt101 cho kết mAP tốt nên dùng phương pháp kết hợp GRoIE Double-Head đề xuất Kết 𝐴𝑃50 , 𝐴𝑃75 , mAP 59,4%, 48,7%, 38,0%, cao 1,19% 4,88% 0,91% so với Double Head nguyên sử dụng ResNet-50 GRoIE Double-Head cho kết vượt trội lớp "Xe buýt" so với Double-Head + ResNeXt-101, giữ hiệu phát tương lớp "Ơ tơ" Tuy nhiên, lớp "Xe tải" "Mơ tơ" mơ hình kết hợp cho hiệu suất DoubleHead nguyên Tuy nhiên, với độ đo mAP giá trị cao phương pháp GRoIE đề xuất hiệu so với thử nghiệm báo cáo Bảng Sau giai đoạn thực nghiệm q trình đánh giá mơ hình Double-Head liệu AERIAU, độ đo mAP (Mean Average Precision) (Lin et al., 2014) sử dụng để đánh giá nghiên cứu Kết có độ đo 𝐴𝑃50 𝐴𝑃75 tương ứng với ngưỡng IoU (Intersection over Union) 0,5 0,75 Lần lượt tính AP (Average Precision) lớp xuất trang với ngưỡng IoU khác nhau, từ tính trung bình để lấy AP lớp Sau có AP tất lớp, kết cuối cho mơ hình đưa việc tính trung bình để có độ đo mAP 4.3 Kết thảo luận Báo cáo kết thực nghiệm liệu AERIAU (Chung et al., 2020) thống kê Bảng Double-Head sử dụng kiến trúc xương sống ResNeXt-101 (37,09% mAP) vượt trội so với Bảng So sánh kết thực nghiệm phương pháp liệu AERIAU (%) Method Backbone Car YOLOv3 Darknet-53 54,56 Double-Head ResNet-50 58,9 Double-Head ResNeXt-101 57,1 GRoIE Double-Head ResNeXt-101 55,4 Phương pháp giai đoạn (YOLOv3) Chung et al (2020) thực nghiệm đánh giá liệu AERIAU, kết so sánh với kết phương pháp đề xuất Kết cho thấy Double-Head phát đối tượng “Ơ tơ” “Xe bt” liệu AERIAU tốt YOLOv3, đối tượng thuộc lớp “Mô tô” “Xe tải” lại cho kết thấp Điều cho thấy phương pháp 01 giai đoạn YOLOv3 có hiệu phát tốt đối tượng nhỏ so với phương pháp 02 giai đoạn YOLOv3 chứng minh tốt đối tượng nhỏ, (Liu et al., 2016) so sánh hiệu suất 22 Bus Truck Motor 𝑨𝑷𝟓𝟎 𝑨𝑷𝟕𝟓 mAP 12,21 62,72 10,86 35,08 21,8 54,0 3,9 54,08 43,1 35,36 47,9 41,8 1,7 58,21 43,82 37,09 54,5 39,5 2,6 59,4 48,7 38,0 phát đối tượng nhỏ, lớn trung bình phương pháp phát giai đoạn hai giai đoạn dựa tập liệu MS COCO Trong đó, YOLOv3 đạt điểm số cao thứ ba đối tượng nhỏ (18,3% APs), sau Retinane (21,8% APs với kiến trúc xương sống ResNet-101 24,1% APs với kiến trúc xương sống ResNeXt-101) YOLOv3 phát đối tượng nhỏ tốt chất YOLOv3 chia ảnh theo lưới phát dựa lưới Bên cạnh đó, YOLOv3 sử dụng tỷ lệ để chia lưới ảnh, nhiều lưới mơ hình nhìn rõ đối tượng nhỏ Tạp chí Khoa học Trường Đại học Cần Thơ a Tập 58, Số 4A (2022): 17-25 Dự đốn sai bao khơng hết đối tượng b Chồng chéo hộp giới hạn c Hộp giới hạn không chứa đối tượng d Bỏ sót đối tượng Hình Trực quan hình ảnh dự đốn chưa tốt sau thực nghiệm liệu AERIAU Mỗi màu sắc hộp giới hạn thể cho đối tượng khác nhau, đối tượng màu đỏ đại diện cho đối tượng xe ô tô, màu xanh lam cho xe tải, màu xanh lục cho xe buýt màu vàng cho xe mô tô Phương pháp Double-Head mang lại AP tốt, cải thiện tỷ lệ phát đối tượng lên khoảng 2% so với thực nghiệm gốc Tuy nhiên, độ xác lớp khơng quán Nhìn bảng ta thấy, độ tự tin cao thuộc lớp “Ơ tơ”, mơ hình phân loại xác đối tượng với kết 57,1% AP Điều dễ hiểu lớp đối tượng “Ơ tơ” có nhiều nhãn đối tượng huấn luyện nhất, tỷ lệ kích thước hầu hết đối tượng so với hình ảnh liệu giúp mơ hình trích xuất đặc trưng rõ ràng Tuy AP cao việc dự đoán đối tượng “Ơ tơ” gặp vài lỗi bỏ sót đối tượng (Hình (d)) chồng chéo hộp giới hạn (Hình (b)) Kết thực nghiệm lớp đối tượng “Mô tô” 1,7% AP, kết thấp lớp “Mô tô” lớp đối tượng có kích thước nhỏ Phát đối tượng nhỏ thách thức lớn nhận nhiều quan tâm cộng đồng thị giác máy tính Kết thực nghiệm lớp “Xe buýt” (47,9% AP) lớp “Xe tải” (41,8% AP) đạt hiệu suất phát mức tương đối có sai sót đáng quan tâm việc bỏ sót đối tượng nhầm lẫn với đối tượng khác (Hình (a)), hộp giới hạn bao khơng hồn tồn đối tượng (Hình (a)) Đánh giá mơ hình thực nghiệm dựa phân tích trên, mơ hình Double-Head đạt kết phát phương tiện giao thơng tương đối khả quan, mơ hình đạt hiệu suất cao với đối tượng “Ơ tơ” “Xe buýt” Tuy nhiên, xảy số vấn đề như: bỏ sót nhầm lẫn đối tượng xuất rõ ràng hình ảnh (Hình (a)), Hình (d)); xảy tình trạng chồng chéo hộp giới hạn (Hình (b)); bao khơng hết đối tượng (Hình (a)); hộp giới hạn khơng chứa đối tượng (Hình (c)) Đánh giá kiến trúc Double-Head kết hợp GRoIE (hay gọi GRoIE Double-Head) đề xuất báo này, mơ hình đạt kỳ vọng kết lớp đối tượng “Xe buýt” cao tất thực nghiệm tiến hành (54,5% AP), kết lớp đối tượng “Ơ tơ” cao (55,4% AP) Tuy nhiên, mơ hình khơng hoạt động tốt mong đợi lớp đối tượng nhỏ vừa lớp “Xe tải” đạt 39,5% AP (thấp nhất) 2,6% AP lớp “Mô tô” KẾT LUẬN Phương pháp áp dụng cấu trúc hai đầu – DoubleHead thực nghiệm đánh giá để phát 23 Tạp chí Khoa học Trường Đại học Cần Thơ Tập 58, Số 4A (2022): 17-25 phương tiện giao thông từ không ảnh liệu AERIAU Kết cho thấy so với phương pháp phát giai đoạn (YOLOv3), DoubleHead phát lớp đối tượng “Ơ tơ” “Xe bt” dễ dàng hiệu Ngược lại, đối tượng “Xe tải” “Mơ tơ” cho hiệu suất thấp Ngồi ra, mơ hình GRoIE Double-Head nghiên cứu hoạt động tốt đối tượng có kích lớn trung bình, cải thiện hiệu suất phát Trong đó, mơ hình cho kết khơng khả quan dự đốn đối tượng có kích thước nhỏ Phát dẫn đến nghiên cứu sâu thay đổi cấu hình tùy chọn để đạt cài đặt phù hợp với tất lớp đối tượng xem xét Các vấn đề trình bày nghiên cứu góp phần mang lại nguồn cảm hứng đóng góp hữu ích cho nghiên cứu liên quan LỜI CẢM TẠ Nghiên cứu thực Phịng thí nghiệm Truyền thông Đa phương tiện (MMLab), Trường Đại học Công nghệ Thông tin, Đại học Quốc gia Thành phố Hồ Chí Minh TÀI LIỆU THAM KHẢO Bae, W., Noh, J., & Kim, G (2020) Rethinking class activation mapping for weakly supervised object localization In European Conference on Computer Vision (pp 618-634) Springer, Cham https://doi.org/10.1007/978-3-030-58555-6_37 Chen, K., Wang, J., Pang, J., Cao, Y., Xiong, Y., Li, X., Sun, X., Feng, W., Liu, Z., Xu, J., Zhang, Z., Cheng, D., Zhu, C., Cheng, T., Zhao, O., Li, B., Lu, X., Zhu, R., Wu, Y., Dai, D., Wang, J., Shi, J., Ouyang, W., Loy, C C., & Lin, D (2019) MMDetection: Open mmlab detection toolbox and benchmark arXiv preprint arXiv:1906.07155 Chung, Q M., Le, T D., Dang, T V., Vo, N D., Nguyen, T V., & Nguyen, K (2020) Data augmentation analysis in vehicle detection from aerial videos In 2020 RIVF International Conference on Computing and Communication Technologies (RIVF) (pp 1-3) IEEE https://doi.org/10.1007/978-3-030-58555-6_37 Dai, J., Li, Y., He, K., & Sun, J (2016) R-fcn: Object detection via region-based fully convolutional networks Advances in neural information processing systems, 29 Dertat, A (2018) Applied deep learning-part 1: Artificial neural networks, 2017 URl: https://towardsdatascience.com/applied-deeplearningpart-1-artificial-neural-networksd7834f67a4f6 Tổng cục Đường Việt Nam (2021) Ơ nhiễm mơi trường giao thông tại VN: Thực trạng giải pháp https://drvn.gov.vn/tin-tuc/tin-tuc-sukien/o-nhiem-moi-truong-giao-thong-tai-vnthuc-trang-va-giai-phap2.html?site=20830 He, K., Zhang, X., Ren, S., & Sun, J (2016) Deep residual learning for image recognition In Proceedings of the IEEE conference on computer vision and pattern recognition (pp 770-778) https://doi.org/10.1109/CVPR.2016.90 He, K., Gkioxari, G., Dollár, P., & Girshick, R (2017) Mask r-cnn In Proceedings of the IEEE international conference on computer vision (pp 2961-2969) https://doi.org/10.1109/ICCV.2017.322 Ho, N., Pham, M., Vo, N D., & Nguyen, K (2020) Vehicle detection at night time In 2020 7th NAFOSTED Conference on Information and Computer Science (NICS) (pp 250-255) IEEE https://doi.org/10.1109/NICS51282.2020.9335870 Lin, T Y., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., Dollár, P., & Zitnick, C L (2014) Microsoft coco: Common objects in context In European conference on computer vision (pp 740-755) Springer, Cham https://doi.org/10.1007/978-3-319-10602-1_48 Lin, T Y., Goyal, P., Girshick, R., He, K., & Dollár, P (2017) Focal loss for dense object detection In Proceedings of the IEEE international conference on computer vision (pp 2980-2988) https://doi.org/10.1109/ICCV.2017.324 Liu, W., Anguelov, D., Erhan, D., Szegedy, C., Reed, S., Fu, C Y., & Berg, A C (2016) Ssd: Single shot multibox detector In European conference on computer vision (pp 21-37) Springer, Cham https://doi.org/10.1007/978-3319-46448-0_2 Liu, Z., Zhang, W., Gao, X., Meng, H., Tan, X., Zhu, X., Xue, Z., Ye, X., Zhang, H., Wen, S., & Ding, E (2020) Robust movement-specific vehicle counting at crowded intersections In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (pp 614-615) https://doi.org/10.1109/CVPRW50498.2020.00315 Redmon, J., Divvala, S., Girshick, R., & Farhadi, A (2016) You only look once: Unified, real-time object detection In Proceedings of the IEEE conference on computer vision and pattern recognition (pp 779-788) https://doi.org/10.1109/CVPR.2016.91 Redmon, J., & Farhadi, A (2017) YOLO9000: better, faster, stronger In Proceedings of the IEEE conference on computer vision and pattern recognition (pp 7263-7271) https://doi.org/10.1109/CVPR.2017.690 24 Tạp chí Khoa học Trường Đại học Cần Thơ Tập 58, Số 4A (2022): 17-25 Redmon, J., & Farhadi, A (2018) Yolov3: An incremental improvement arXiv preprint arXiv:1804.02767 Ren, S., He, K., Girshick, R., & Sun, J (2015) Faster r-cnn: Towards real-time object detection with region proposal networks Advances in neural information processing systems, 28 Rossi, L., Karimi, A., & Prati, A (2021) A novel region of interest extraction layer for instance segmentation In 2020 25th International Conference on Pattern Recognition (ICPR) (pp 2203-2209) https://doi.org/10.1109/ICPR48806.2021.9412258 Szegedy, C., Liu, W., Jia, Y., Sermanet, P., Reed, S., Anguelov, D., Erhan, D., Vanhoucke, V., & Rabinovich, A (2015) Going deeper with convolutions In Proceedings of the IEEE conference on computer vision and pattern recognition (pp 1-9) https://doi.org/10.1109/CVPR.2015.7298594 Weisbrich, W I (2012) Kit-ipf-forschung – downloads http://www.ipf.kit.edu/downloads.php Zhu, P., Wen, L., Bian, X., Ling, H., & Hu, Q (2018) Vision meets drones: A challenge arXiv preprint arXiv:1804.07437 25 ... LUẬN Phương pháp áp dụng cấu trúc hai đầu – DoubleHead thực nghiệm đánh giá để phát 23 Tạp chí Khoa học Trường Đại học Cần Thơ Tập 58, Số 4A (2022): 17-25 phương tiện giao thông từ không ảnh. .. kết hợp Double- Head GRoIE, gọi GRoIE Double Head giúp tận dụng hai ý tưởng hai phương pháp − Thực nghiệm đánh giá phương pháp Double- Head liệu AERIAU − Nghiên cứu nhằm khảo sát đánh giá hai mô... lực cho hệ thống giám sát kiểm sốt giao thơng Phát phương tiện giao thơng tốn khơng cịn xa lạ thuộc nhóm tốn phát đối tượng có nhiều ứng dụng thực tế, tiền đề giúp phát triển hệ thống giám sát giao

Định dạng
Số trang	9
Dung lượng	790,92 KB