Bài viết trình bày một hệ thống phát hiện và nhận diện biển báo giao thông Việt Nam thời gian thực dựa trên kiến trúc MobileNet kết hợp với SSD trên board Jetson Nano. Với đặc tính và cấu hình nổi trội của mô hình, sự kết hợp giữa MobileNet và SSD mang lại độ chính xác cao và thời gian triển khai nhanh chóng trên các hệ thống có hạn chế phần cứng.
Hội nghị Quốc gia lần thứ 24 Điện tử, Truyền thông Công nghệ Thông tin (REV-ECIT2021) Nhận diện biển báo giao thông Việt Nam thời gian thực thuật toán MobileNet kết hợp SSD board Jetson Nano Dương Văn Sơn, Nguyễn Vũ Minh Thành, Nguyễn Thị Thanh Xn, Lê Đức Hùng Phịng thí nghiệm DESLAB, Khoa Điện Tử - Viễn Thông, Trường Đại Học Khoa Học Tự Nhiên – Đại học Quốc gia TP.HCM Email: ldhung@hcmus.edu.vn Abstract – Nhận diện biển báo giao thông thành phần quan trọng ngành công nghiệp hệ thống điều khiển tự động ví dụ xe vận hành khơng người lái, hệ thống kiểm sốt giao thông máy bay tự hành drones Trong báo này, báo trình bày hệ thống phát nhận diện biển báo giao thông Việt Nam thời gian thực dựa kiến trúc MobileNet kết hợp với SSD board Jetson Nano Với đặc tính cấu hình trội mơ hình, kết hợp MobileNet SSD mang lại độ xác cao thời gian triển khai nhanh chóng hệ thống có hạn chế phần cứng Ngồi ra, tính chất đặc thù mơi trường giao thơng Việt Nam, báo phân tích, bổ sung nâng cấp liệu để phù hợp phương pháp xử lí liệu ảnh thư viện OpenCV Sau trình nghiên cứu, hệ thống đạt hiệu với mAP = 84.4% (indoor) mAP = 71% (outdoor) cho tốc độ xử lí 13 FPS Với kết với module có kích thước nhỏ, phương pháp hứa hẹn tích hợp lên xe hơi, hệ thống giám sát giao thông đường phố, v.v để giải vấn đề giao thông tai nạn xe Việt Nam thế, hệ thống nhận diện biển báo giao thông công cụ quan trọng để giúp người lái xe an toàn lái xe Người lái xe biết có chạy q tốc độ cho phép biết cách nhường đường cho phương tiện để tránh tai nạn không đáng tiếc xảy ra? Một số phương pháp kể đến [1] xử lí vấn đề dựa thuật tốn nhận diện màu sắc, hình dạng, kích thước phương pháp sử dụng đặc trưng Haar mạng nơron nhân tạo [2], … áp dụng rộng rãi vào nghiên cứu học thuật lại không mang lại kết khả quan vận dụng vào điều kiện thực tế Vì thế, hệ thống nhận diện biển báo giao thông báo sử dụng hệ thống tích chập nơron CNN hướng tiếp cận đại làm mơ hình để nhận diện vật thể Hệ thống mang lại hiệu tin cậy cao độ thực thi thời gian thực Các ảnh đầu vào mơ hình xử lí, vận dụng feature map kiến trúc để tạo phân loại biển báo giao thơng mơ tả Hình Keywords: Nhận diện biển báo giao thông Việt Nam, TSR, MobileNet, SSD, thời gian thực, AI, ADAS I GIỚI THIỆU Thành phần nhận diện biển báo giao thông phải đáp ứng không nhanh mặt thời gian thực mà phải mang lại hiệu cao mặt xác Nhận diện biển báo giao thông nghiên cứu thực nghiệm giới phổ biến mơi trường giao thơng Việt Nam lĩnh vực gặp nhiều hạn chế Nguyên nhân dẫn đến điều mơi trường Việt Nam thử thách, điển khơng có nhiều nguồn liệu biển báo, đường xá phức tạp, xe cộ lưu thông đường nhiều, loại biển báo bị che phủ,… Theo nghiên cứu cục Quản lý An tồn Giao thơng Đường cao tốc Quốc gia (NHTSA) Mỹ, trung bình năm có khoảng 51% vụ tai nạn chết người người điều khiển vượt đèn đỏ khoảng 29% người điều khiển phương tiện giao thông lơ biển báo đường tín hiệu giao thơng Con số đường xá Việt Nam chằng chịt nhiều chướng ngại vật gấp nhiều lần so với nước Mỹ Chính ISBN 978-604-80-5958-3 Hình Quy trình hệ thống nhận diện biển báo giao thông 272 Hội nghị Quốc gia lần thứ 24 Điện tử, Truyền thông Công nghệ Thông tin (REV-ECIT2021) II Kiến trúc mơ hình xây dựng dựa tảng sử dụng phép nhân chập tách rời theo chiều sâu (Depthwise Separable Convolution) mà dạng phức hợp cho phép biến đổi phép nhân chập thông thường thành nhân chập chiều sâu (Depthwise Convolution) phép nhân chập x hay gọi nhân chập theo điểm (Pointwise Convolution) HỆ THỐNG VỚI MƠ HÌNH MOBILENET-SSD II.1 Bo NVIDIA Jetson Nano 4GB Board hệ thống sử dụng SBC từ hãng NVIDIA Jetson Nano Development Kit, với kích thước nhỏ gọn tích hợp 128 lõi GPU Maxwell Cùng với đó, hệ thống cho phép làm việc framework AI Pytorch, Tensorflow,… giúp triển khai mơ hình nhanh chóng thuận tiện nhiều Hình Phần cứng hệ thống Camera sử dụng camera Raspberry Pi v2 với độ phân giải 8MP giúp thu thập thơng tin hình ảnh cho board xử lí Hình Phép nhân chập tách rời theo chiều sâu Kiến trúc tầng mô hình MobileNet-v1: II.2 Mơ hình nhận diện vật thể SSD Bảng Mô tả tầng kiến trúc MobileNet-v1 Mơ hình phát nhận diện biển báo giao thông huấn luyện dựa mạng sở MobileNet-v1 làm mạng trích xuất liệu mạng nhân chập SSD [4] tạo đối tượng phát vật thể Sau q trình hậu xử lí NMS để triệt tiêu vùng phát lân cận Mô hình mơ tả Hình Loại / Stride Kích thước filter Input image Conv / s2 x x x 32 224 x 224 x Conv dw / s1 x x 32 dw 112 x 112 x 32 Conv / s1 x x 32 x 64 112 x 112 x 32 Con dw / s2 x x 64 dw 112 x 112 x 64 Conv / s1 x x 64 x 128 56 x 56 x 64 Conv dw / s1 x x 128 dw 56 x 56 x 128 Conv / s1 x x 128 x 128 56 x 56 x 128 Con dw / s2 x x 128 dw 56 x 56 x 128 Conv / s1 x x 128 x 256 28 x 28 x 128 Con dw / s1 x x 256 dw 28 x 28 x 256 Conv / s1 x x 256 x 256 28 x 28 x 256 Conv dw / s2 x x 256 dw 28 x 28 x 256 Conv / s1 x x 256 x 512 14 x 14 x 256 Conv dw / s1 5x Conv / s1 x x 512 dw 14 x 14 x 512 x x 512 x 512 14 x 14 x 512 Conv dw / s2 x x 512 dw 14 x 14 x 512 II.3 Kiến trúc mạng sở MobileNet Conv / s1 x x 512 x 1024 x x 512 Kiến trúc mạng Mobilenet mơ hình nhỏ, nhẹ, cấu hình thơng số mà đảm bảo độ xác cao Mạng sở MobileNet có nhiều hệ MobileNet-v1, MobileNet-v2, MobileNet-v3, hệ thống này, mạng MobileNet-v1 sử dụng để làm mạng sở thực thi tốt bo nhúng có kích thước nhỏ Conv dw / s2 x x 1024 dw x x 1024 Conv / s1 x x 1024 x 1024 x x 1024 Avg Pool / s1 Pool x 7 x x 1024 FC / s1 1024 x 1000 x x 1024 Softmax / s1 Classifier x x 1000 Hình Tổng quan quan mơ hình phát dựa kiến trúc SSD ISBN 978-604-80-5958-3 273 Hội nghị Quốc gia lần thứ 24 Điện tử, Truyền thông Công nghệ Thông tin (REV-ECIT2021) Kiến trúc tổng thể bao gồm 14 tầng nhân chập (kể nhân chập tách rời) kết nối liền kề với nhau, loại bỏ tầng cuối mơ hình phân loại bao gồm tầng Avg Pool, tầng Fully-Connected (FC) phụ trợ (19×19), (10×10), (5×5), (3×3), (2×2), (1×1) Kiến trúc đầu vào ảnh (300 x 300) kiến trúc tiêu chuẩn điều chỉnh lại kèm theo feature map II.4 Kiến trúc SSD (Single Shot Multibox Detector) Hình Kiến trúc mạng mơ hình SSD Mơ hình mạng SSD dựa trình chiết xuất liệu từ mạng sở (VGG-16) sau tầng phụ trợ đưa vào với mục đích tạo phát cho đối tượng khung ảnh Trong trình này, kiến trúc SSD tiến hành đánh giá tập hợp nhỏ gồm khung bao mặc định (các khung nét đứt Hình 6) tương ứng với tỉ lệ cạnh khác feature map khác hình bên Hình Kích thước phân chia feature map khác SSD Hai hàm mát bao gồm hàm mát vị trí Smooth L1, hàm đo lường sai số tham số khung bao dự đoán (p – predicted box) khung bao thật (g – ground truth box) hàm hàm mát tin cậy cross-entropy đo đạc giá trị _ để lấy điểm tin cậy Hình Sơ đồ kiến trúc kết hợp mơ hình MobileNet-v1 với SSD Với feature map khác mơ hình SSD khác nhau, ta gán số lượng khung bao mặc định cho vng feature map Q trình phát sử dụng hàm mát quy hai kết Classification: _ × _ × _ , Regression: _ × × _ II.5 Kết hợp kiến trúc MobileNet với SSD Quá trình chiết xuất đặc trưng MobileNet, sau xử lí thông qua tầng phụ trợ phần đầu mô hình SSD Với tầng phụ trợ vậy, SSD cấu hình kích thước feature map khác để tạo phát vật thể với kích thước khác Chi tiết mơ tả Hình Khi thay VGG16 MobileNetv1, toán nhận diện biển báo giao thông kết nối tầng 12 14 MobileNet Ta sử dụng tầng cuối để miêu tả vấn đề tầng thứ 14 trả nhiều đặc trưng tầng thứ 12, ta cần đặc trưng mức cao đặc trưng mức trung bình cho việc chiết xuất hình ảnh Những đặc trưng cao trung bình giúp mơ hình thơng minh việc nhận dạng thơng tin ảnh Bài toán kết nối lại tầng nhân chập tách rời theo chiều sâu với lọc × × 512 × 512 (tầng thứ 12) với SSD để tạo feature map có độ sâu 512 tầng nhân chập với lọc × × 1024 × 1024 (tầng thứ 14) với mơ hình SSD để tạo ma trận đặc trưng 1024 Kiến trúc có ma trận đặc trưng cho tầng ISBN 978-604-80-5958-3 274 Hội nghị Quốc gia lần thứ 24 Điện tử, Truyền thông Cơng nghệ Thơng tin (REV-ECIT2021) II.6 Q trình huấn luyện mơ hình II.6.1 Chiến lược ghép nối khung bao vật thể Cơ chế dự đốn mơ hình phân loại thành dự đoán dự đoán sai Nếu tỉ lệ IoU lớn 0.5 khung bao dự đoán xem đúng, ngược lại, dự đoán IoU bé 0.5 dự đốn sai Hình Mơ tả độ ghép nối khung bao mặc định Hình 10 Các kích thước điều chỉnh mơ hình Để phát vật thể khác kích thước khung hình khác nhau, mơ hình sử dụng ma trận đặc trưng với kích thước khác cho tầng mơ hình Tỉ lệ ma trận trận trưng (scale) nhỏ 0.2 (hoặc 0.1) sau tỉ lệ tăng dần qua tầng mơ hình sau (lớn 0.9) III BỘ DỮ LIỆU BIỂN BÁO GIAO THÔNG III.1 Các liệu biển báo giao thông Nhận diện biển báo giao thông nhiệm vụ đặc thù nguồn liệu đến từ nhiều biển báo giao thông khác Tùy quốc gia, có kích thước, màu sắc, kí hiệu, ý nghĩa biển báo giao thông khác Hình Ma trận đặc trưng với kích thước khác II.6.2 Lựa chọn kích thước tỉ lệ khung cho mơ hình SSD Hình 11: Độ đa dạng loại biển báo giao thông Tỉ lệ feature map đo lường trước với tỉ lệ khung hình khác để tạo kích thước chiều dài chiều rộng feature map tương ứng với tầng Cơng thức để tính chiều dài (h) chiều rộng (w) là: = ℎ= ỉ ệ ℎ ỉ ệ ℎ Bảng Thống kê liệu biển báo giao thơng Số lượng (ảnh) Gán nhãn Quốc gia GTSRB > 50000 ✓ Đức TT100K 100000 ~ 20% Trung Quốc Zalo 4500 ~ 95% Việt Nam ℎì ℎ ℎì ℎ (mức scale 1, 2, 3, 1/2, 1/3) Điều chỉnh thông số dựa phương thức, bao gồm: Feature map, Shrinkage, Kích thước khung bao tỉ lệ khung hình tương ứng với feature map trải qua phép nhân chập Hình 10 ISBN 978-604-80-5958-3 Dataset 275 Chú thích Kích thước nhỏ, biển báo riêng lẻ Kích thước bé, ý nghĩa biển báo Trung Quốc Biển báo phù hợp, số lượng Hội nghị Quốc gia lần thứ 24 Điện tử, Truyền thông Công nghệ Thông tin (REV-ECIT2021) III.2 Phương pháp xử lí liệu thư viện OpenCV Q trình tiền xử lí liệu tổng hợp sửa đổi từ liệu thành nguồn liệu phù hợp, trình xử lí mơ tả theo chu trình Hình 12 III.3.4 Bộ liệu biển báo thức sử dụng Bộ liệu sau nâng cấp bao gồm 13 loại biển báo giao thơng mà trước chưa có tập liệu khác Những loại biển báo bao gồm: Bảng Thống kê 13 loại biển báo liệu Tốc độ tối đa 30km Tốc độ tối đa 50km Tốc độ tối đa 70km Chạy theo vòng xuyến Cấm ngược chiều Trẻ em N Biển báo hiệu lệnh Hình 12: Quy trình tổng quát xử lí liệu III.3 Các q trình xử lí liệu II.3.1 Loại bỏ kênh alpha ảnh Các biển báo giao thông liệu GTSRB cắt phần, phần lại ảnh loại biển báo giao thông loại bỏ phần ảnh phía sau Chỉ rẽ trái Cấm dừng đỗ xe N Tốc độ tối đa N Biển nguy hiểm N Biển cấm khác N Cấm rẽ trái/phải *N: Nhóm III.3.2 Phương pháp điều chỉnh độ sáng, độ tương phản Hai phép tính sử dụng phổ biến q trình xử lí phép nhân phép cộng với số cụ thể ( )= ( )+ Hình 13 Biểu đồ chênh lệch liệu thức IV KẾT QUẢ IV.1 Huấn luyện mơ hình Google Colab Q trình huấn luyện đề xuất mơ hình SSD300, SSD512 SSD608 tương ứng với kích thước ảnh đầu vào 300, 512 608 III.3.3 Phương pháp nạp chồng hình ảnh Bảng Kết mơ hình đề xuất MobileNet-SSD Ảnh biển báo nạp chồng vào ảnh khác với vị trí biết trước, cho phép tạo liệu phù hợp cho mơ hình để đào tạo Các ảnh sau đánh nhãn tương thích phân chia định dạng thành loại định dạng phù hợp, cung cấp cho mơ hình học Các ảnh sau xử lí tương tự với tập liệu cịn lại ISBN 978-604-80-5958-3 276 Kiến trúc mAP FPS # Boxes SSD300 SSD512 SSD608 35.3 60.1 71.2 39 18 13 3000 8190 11658 Input image 300 x 300 512 x 512 608 x 608 Hội nghị Quốc gia lần thứ 24 Điện tử, Truyền thông Công nghệ Thông tin (REV-ECIT2021) Bảng Kết đo đạc cho 13 loại biển báo Loại biển báo Biển báo Cấm dừng đỗ xe Tốc độ tối đa cho phép 30km Tốc độ tối đa cho phép 50km Tốc độ tối đa cho phép 70km Trẻ em Biển cấm khác Chạy theo vòng xuyến Cấm rẽ trái/phải Chỉ rẽ trái Biến báo hiệu lệnh Cấm ngược chiều Biến báo nguy hiểm Độ xác trung bình: Hình 14 Biểu đồ hàm mát mơ hình SSD300, 512 608 Một số kết kiểm tra thực nghiệm: V Độ xác 86.2% 79.2% 95.4% 85.3% 70.1% 80.6% 73.4% 63.2% 93.5% 87.1% 85.0% 86.7% 84.4% KẾT LUẬN Hệ thống phát nhận diện biển báo giao thông đạt kết xác cao ~ 84.4% (indoor) ~71% (outdoor) tốc độ 13 fps bo Jetson Nano Hệ thống triển khai để nhận diện trình xe di chuyển cho kết tốt Với điều kiện giao thông Việt Nam, hệ thống cho phép hoạt được 13 loại biển báo đặc thù thông qua việc cung cấp, sửa đổi Tuy nhiên, nhiều điểm hạn chế hệ thống phát nhận diện biển báo giao thông khả phân tích biển báo giao thơng nhỏ, đối tượng biển báo giao thơng bị nhịe q trình chụp, sở liệu chưa đủ mạnh, … điều dẫn đến hệ thống cịn nhiều cơng việc cần làm tương lai TÀI LIỆU THAM KHẢO [1] Ayoub Ellahyani, Ilyas El Jaafari and Said Charfi, “Traffic Sign Detection for Intelligent Transportation Systems: A Survey”, E3S Web of Conferences, 2021 So sánh hiệu suất với phương pháp khác: Bảng 5: So sánh hiệu suất với phương pháp khác Bài báo Hiện [5] Phương pháp MobileNetSSD CNN model Kết Realtime Loại biển báo 81.2% Có Việt Nam 95% Khơng Đức [2] Haar + SVM 92% Không Việt Nam [3] Overfeat 84% Không Trung Quốc [2] Lê Chân Thiện Tâm, Phạm Hồng Thái, Trần Tiến Đức, “Phát nhận dạng số biển báo giao thông đường nguy hiểm Việt Nam”, Bài báo khoa học trường Đại học Lạc Hồng Đại học Sư Phạm Kỹ Thuật, 2017 [3] Zhe Zhu, Dun Liang, “Traffic-Sign Detection and Classification in the Wild”, Computer Vision Foundation, 2016 [4] Wei Liu, Dragomir Anguelov, “SSD: Single Shot MultiBox Detector”, Computer Vision and Pattern Recognition (cs.CV), 2016 [5] Adrian Rosebrock, “Traffic Sign Classification with Keras and Deep Learning”, https://www.pyimagesearch.com/2019/11/04/, 2019 ISBN 978-604-80-5958-3 277 ... (lớn 0.9) III BỘ DỮ LIỆU BIỂN BÁO GIAO THÔNG III.1 Các liệu biển báo giao thông Nhận diện biển báo giao thông nhiệm vụ đặc thù nguồn liệu đến từ nhiều biển báo giao thông khác Tùy quốc gia, có... độ 13 fps bo Jetson Nano Hệ thống triển khai để nhận diện trình xe di chuyển cho kết tốt Với điều kiện giao thông Việt Nam, hệ thống cho phép hoạt được 13 loại biển báo đặc thù thông qua việc... sửa đổi Tuy nhiên, nhiều điểm hạn chế hệ thống phát nhận diện biển báo giao thông khả phân tích biển báo giao thơng nhỏ, đối tượng biển báo giao thơng bị nhịe q trình chụp, sở liệu chưa đủ mạnh,