Tính cấp thiết của đề tài Với sự phát triển thần tốc của cuộc cách mạng công nghiệp 4.0, công nghệ trí tuệ nhân tạo AI đã và đang được ứng dụng để giải quyết nhiều bài toán phức tạp tro
Trang 1LUẬN VĂN THẠC SĨ MÁY TÍNH
THANH HÓA, NĂM 2022
Trang 2- 2 -
Trang 3LUẬN VĂN THẠC SĨ MÁY TÍNH
Chuyên ngành: Khoa học máy tính
Mã số: 8480101
Người hướng dẫn khoa học: PGS.TS Phạm Thế Anh
THANH HÓA, NĂM 2022
Trang 4ii
Danh sách Hội đồng đánh giá luận văn Thạc sỹ khoa học
(Theo Quyết định số: /QĐ- ĐHHĐ ngày tháng năm 2022
của Hiệu trưởng Trường Đại học Hồng Đức)
Học hàm, học vị
Họ và tên
Cơ quan Công tác
Chức danh trong Hội đồng
Chủ tịch HĐ
UV, Phản biện 1
UV, Phản biện 2
Uỷ viên
Uỷ viên, Thư ký
Xác nhận của Người hướng dẫn
Học viên đã chỉnh sửa theo ý kiến của Hội đồng
Ngày tháng năm 2022
Trang 5i
LỜI CAM ĐOAN
Tôi xin cam đoan đề tài luận văn “Nghiên cứu các kỹ thuật dò tìm biển
số xe trong ảnh” tôi tự mình nghiên cứu tìm hiểu vận dụng các kiến thức đã học
và trao đổi với giảng viên hướng dẫn, đồng nghiệp, bạn bè,…
Các thông tin dữ liệu tôi sử dụng trong luận văn này là hoàn toàn trung thực và có nguồn gốc rõ ràng
Thanh Hoá, ngày 12 tháng 9 năm 2022
Tác giả luận văn
Phạm Thị Quỳnh Hương
Trang 6ii
LỜI CẢM ƠN
Trước tiên tôi xin cảm ơn thầy hướng dẫn luận văn của tôi – PGS.TS Phạm Thế Anh – giảng viên hướng dẫn trực tiếp của tôi Thầy đã đưa ra những nhận xét, góp ý dẫn dắt tôi trong suốt thời gian nghiên cứu, thực hiện đề tài luận văn thạc sĩ
Tôi cũng xin cảm ơn các thầy cô trong khoa CNTT&TT trường Đại học Hồng Đức đã truyền đạt cho tôi những kiến thức chuyên sâu về chuyên ngành trong suốt thời gian học tập để tôi có nền tảng kiến thức hỗ trợ rất lớn cho tôi trong quá trình làm luận văn thạc sĩ
Với thời gian nghiên cứu còn hạn chế, luận văn sẽ không tránh khỏi những thiếu sót, tôi rất mong nhận được những ý kiến đóng góp quý báu chân thành đến từ quý các thầy cô, đồng nghiệp, bạn bè để đề tài luận văn của tôi được hoàn thiện hơn nữa Chân thành cảm ơn
Thanh Hoá, ngày 12 tháng 9 năm 2022
Tác giả luận văn
Phạm Thị Quỳnh Hương
Trang 7iii
MỤC LỤC
LỜI CAM ĐOAN - 1 -
LỜI CẢM ƠN ii
DANH MỤC TỪ VIẾT TẮT v
MỤC LỤC iii
DANH MỤC CÁC BẢNG vi
DANH MỤC HÌNH ẢNH vii
MỞ ĐẦU 1
1 Tính cấp thiết của đề tài 1
2 Mục tiêu nghiên cứu 2
3 Đối tượng, phạm vi nghiên cứu 2
4 Nội dung nghiên cứu 3
5 Phương pháp nghiên cứu 3
6 Dự kiến kết quả đạt được 3
7 Cấu trúc nội dung của luận văn 4
Chương 1 GIỚI THIỆU 5
1.1 Bài toán dò tìm và nhận dạng biển số xe 5
1.2 Tìm hiểu đặc trưng biển số xe tại Việt Nam 6
1.2.1 Kích thước biển số xe 6
1.2.2 Về nội dung biển số xe 7
1.2.3 Về màu sắc biển số xe 7
1.3 Tìm hiểu đặc trưng biển số xe trên thế giới 8
1.4 Một số sản phẩm thương mại trên thị trường 9
1.5 Một số ứng dụng thực tế của bài toán 10
Kết luận Chương 1 11
Chương 2 TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU 12
2.1 Các phương pháp dò tìm đối tượng tổng quát 12
2.1.1 Thuật toán R-CNN [13] 12
Trang 8iv
2.1.2 Thuật toán Fast R-CNN [14] 13
2.1.3 Thuật toán Faster R-CNN [15] 14
2.1.4 Thuật toán SSD [12] 18
2.1.5 Thuật toán YOLO 21
2.2 Các mạng CNN dò tìm biển số xe 22
2.2.1 Kỹ thuật dựa trên YOLO 22
2.2.2 Các hệ thống dò tìm biển số xe khác 27
2.3 Một số cơ sở dữ liệu chuẩn về ảnh biển số xe 029
2.3.1 Cơ sở dữ liệu CCPD 30
2.3.2 Cơ sở dữ liệu UFPR 31
2.3.3 Cơ sở dữ liệu AOLP 32
2.3.4 Cơ sở dữ liệu SSIG 33
Kết luận Chương 2 34
Chương 3 NGHIÊN CỨU XÂY DỰNG KIẾN TRÚC MẠNG DÒ TÌM ĐIỂM GÓC BIỂN SỐ XE 35
3.1 Mô hình bài toán dò tìm biển số xe 35
3.2 Dò tìm vùng chứa biển số xe 36
3.3 Dò tìm tọa độ 4 điểm góc của biển số xe 42
3.4 Chuẩn bị dữ liệu và huấn luyện mô hình 44
3.5 Thực nghiệm và đánh giá kết quả 46
3.5.1 Dò tìm biển số xe 46
3.5.2 Dò tìm tọa độ 4 điểm của biển số xe 48
Kết luận Chương 3 54
KẾT LUẬN VÀ KIẾN NGHỊ 55
1 Kết luận 55
2 Kiến nghị 56
TÀI LIỆU THAM KHẢO Error! Bookmark not defined
Trang 9v
DANH MỤC TỪ VIẾT TẮT
CNN: Convolutional Neural Network
AI: Artifical Intelligence
ALPR: Automatic License Plate Recognition DL: Deep Learning
ResNet: Residual Network
RPN: Region Proposal Network SSD: Single Shot MultiBox Detector PS: Positive Sample
NS: Negative Sample FM: Feature Map Densenet: Dense connected convolutional network GAN: Generative Adversarial Networks
SSD: Single Shot MultiBox Detector BB: Bounding Box
PS: Positive Sample NS: Negative Sample YOLO: You only look once
LP Detector: License Plate detector
Trang 10vi
DANH MỤC CÁC BẢNG
Bảng 3.1 Kết quả MSE trên tập dữ liệu CCPD (ảnh được cắt từ kết quả của module dò tìm biển số xe) 49 Bảng 3.2 Kết quả MSE trên tập dữ liệu CCPD (ảnh được cắt trực tiếp thông tin GroundTruth) 50
Trang 11vii
DANH MỤC HÌNH ẢNH
Hình 1.1 Kích thước biển số xe ôtô……….6
Hình 1.2 Kích thước biển số moto, máy kéo, xe máy điện……… 6
Hình 1.3 Minh họa ảnh một số biển số xe ở Việt Nam………7
Hình 1.4 Minh họa một số loại biển số xe của các nước trên thế giới (hai ảnh trái là từ tập CCPD [10], 3 ảnh bên phải là từ UFPR [23])……… 7
Hình 2.1 Kiến trúc hệ thống R-CNN [13]……… 13
Hình 2.2 Kiến trúc hệ thống Fast R-CNN [14]……… 14
Hình 2.3 Kiến trúc mạng RPN [15]………15
Hình 2.4 Kiến trúc tổng thể của Faster R-CNN [15]……… 16
Hình 2.5 Kiến trúc mạng SSD [12]………19
Hình 2.6 Minh họa quá trình dùng hộp neo của SSD [12]: (a) ảnh đầu vào và các vị trí đối tượng (groundtruth boxes), kết quả đối sánh các anchor trên bản đồ đặc trưng (FM) có kích thước 88 (b) và 44 (c)……… 20
Hình 2.7 Minh họa ý tưởng chia lưới trong YOLO [21]………22
Hình 2.8 Kiến trúc mạng FAST-YOLO [21] được áp dụng để dò tìm biển số xe và phương tiện xe [23]………23
Hình 2.9 Minh hoạt kết quả dò tìm và phân loại biển số xe theo khu vực/nước [6]……… 24
Hình 2.10 Kiến trúc mạng dò tìm và hiệu chỉnh ảnh biển số xe [25] 25
Hình 2.11 Kiến trúc mạng WPOD-NET [25] 25
Hình 2.12 Các kỹ thuật tăng cường dữ liệu áp dụng cho một ảnh đầu vào [25]……… 26
Hình 2.13 Minh họa khái niệm vùng FV của phương tiện xe………26
Hình 2.14 Kiến trúc RPNet dò tìm biển số xe [10]………27
Hình 2.15 Kiến trúc mạng dò tìm biển số xe trong [28] 29
Hình 2.16 Cấu trúc dữ liệu của CCPD [10]………30
Hình 2.17 Một số hình ảnh trong cơ sở dữ liệu CCPD……… 31
Trang 12viii
Hình 2.18 Ảnh biển số xe trong UFPR……… 32
Hình 2.19 Một số hình ảnh trong tập AOLP……… …33
Hình 2.20 Ảnh mẫu từ SSIG……… 33
Hình 3.1 Mô hình bài toán dò tìm biển số xe (ảnh mẫu từ tập CCPD [10]) 35 Hình 3.2 Kiến trúc hệ thống dò tìm biển số xe [34]……… 36
Hình 3.3 Chi tiết quá trình dự đoán nhãn đối tượng ……….39
Hình 3.4 Chi tiết quá trình dự đoán vị trí đối tượng 40
Hình 3.5 Mô tả bài toán dò tìm điểm góc của biển số xe……… 42
Hình 3.6 Kiến trúc hệ thống dò tìm điểm góc biển số xe……… 43
Hình 3.7 Các kết quả của phép biến đổi dịch chuyển vị trí ngẫu nhiên ……45
Hình 3.8 Quá trình hội tụ của MSE và các hàm mục tiêu 46
Hình 3.9 Một số kết quả dò tìm biển số xe trên tập CCPD ……… 48
Hình 3.10 Các sai số trong thông tin Groundtruth của CCPD (các điểm góc màu đỏ không chính xác so với các góc của biển số xe)……… 49
Hình 3.11 Minh họa hình chữ nhật đích (trái) và nguồn (phải)……… 52
Hình 3.12 Kết quả dò tìm 4 điểm góc (trái) và nắn chỉnh hình học (phải) khi sử dụng ảnh biển số được cắt từ kết quả của module dò tìm biển số xe…….52
Hình 3.13 Kết quả dò tìm 4 điểm góc (trái) và nắn chỉnh hình học (phải) khi sử dụng ảnh biển số được cắt trực tiếp từ thông tin GroundTruth…………
Error! Bookmark not defined
Trang 131
MỞ ĐẦU
1 Tính cấp thiết của đề tài
Với sự phát triển thần tốc của cuộc cách mạng công nghiệp 4.0, công nghệ trí tuệ nhân tạo (AI) đã và đang được ứng dụng để giải quyết nhiều bài toán phức tạp trong thực tiễn cuộc sống như giao thông thông minh, nhà thông minh, kiểm soát an ninh, theo dõi tội phạm,… Dò tìm và nhận dạng biển số xe tự động [5,6,7,8,9, 10, 11] là một hệ thống đòi hỏi độ chính xác cao, có tốc độ nhận dạng nhanh (đáp ứng thời gian thực), có khả năng đọc biển số xe mà không cần
sự can thiệp của con người Quá trình nhận dạng hệ thống sẽ dần tạo nên bộ siêu dữ liệu xác định hình ảnh có chứa biển số xe và văn bản được giải mã liên quan của biển số xe
Dò tìm và nhận dạng biển số xe là một bài toán có nhiều ứng dụng trong thực tiễn, đặc biệt là trong lĩnh vực giám sát an ninh; thu phí phương tiện giao thông cầu/đường tự động; kiểm soát xe tại các khu vực trọng yếu như đường biên giới để nhận diện các phương tiện giao thông làm thủ tục thông quan, hoặc phát hiện các xe vượt biên trái phép qua đó hỗ trợ công tác kiểm tra và an ninh quốc gia Hiện nay dịch bệnh Covid-19 vẫn diễn biến phức tạp và có xu hướng tăng cao ở các nước Đông Nam Á (Campuchia, Thái Lan, ) Việc kiểm soát nhập cảnh trái phép vào Việt Nam hiện đang được thực hiện thủ công bằng phương pháp giám sát tuần tra nhằm ngăn chặn người nhập cảnh mang dịch bệnh vào nước ta Do vậy, cần thiết phải có giải pháp hỗ trợ giám sát người và phương tiện xe nhập cảnh tại các vị trí trọng yếu như đường biên giới Ngoài
ra, tại các cơ quan - doanh nghiệp trên địa bàn tỉnh Thanh Hóa, đặc biệt là đơn
vị hành chính sự nghiệp như Tỉnh ủy, UBND, các Sở, Ban, Ngành,… là nơi công tác đảm bảo trật tự, an ninh luôn được coi trọng hàng đầu Do lượng xe ra vào cơ quan hằng ngày là rất lớn, việc kiểm soát an ninh bằng phương tiện đòi hỏi phải chính xác, nhanh chóng Vì vậy cần thiết có một hệ thống giám sát xe
ra vào tự động, có độ chính xác cao và đặc biệt đáp ứng yếu tố thời gian thực
Do vậy, bài toán này đã thu hút các nhà nghiên cứu và các nhóm phát triển trí
Trang 142
tuệ nhân tạo nhằm xây dựng và phát triển các hệ thống nhận dạng biển số xe tối ưu, độ chính xác cao, có thể phát hiện và nhận dạng được biển số xe trong thời gian thực
Về cơ bản, bài toán dò tìm và nhận dạng biển số xe trong ảnh gồm hai bài toán con: dò tìm vùng ảnh chứa biển số xe và nhận dạng các ký tự của biển số
xe Kết quả nhận dạng biển số xe do vậy phụ thuộc nhiều vào chất lượng của giai đoạn dò tìm các biển số xe Thông thường ảnh được chụp và thu nhận qua các camera gắn tại các vị trí khác nhau, chất lượng ảnh có thể bị ảnh hưởng bởi tác động của môi trường (nhiễu, điều kiện ánh sáng, thời tiết,…) Ngoài ra, phụ thuộc vào góc chụp/thu nhận ảnh của camera mà ảnh biển số xe có thể bị xiên hoặc méo về mặt hình học Các yếu tố này ảnh hưởng nhiều đến chất lượng của quá trình nhận dạng sau này
Xuất phát từ các lý do thực tiễn trên, trong phạm vi của đề tài này chúng tôi đề xuất giải quyết một phần của bài toán dò tìm và nhận dạng biển số xe
Cụ thể, đề tài tập trung nghiên cứu các kỹ thuật dò tìm biển số xe Từ các lý do
trên, tác giả chọn đề tài nghiên cứu “Nghiên cứu các kỹ thuật dò tìm biển số
xe trong ảnh”
2 Mục tiêu nghiên cứu
Nghiên cứu các kỹ thuật mạng nhân chập học sâu để dò tìm biển số xe trong ảnh Trên cơ sở đó khai thác các đặc trưng ảnh để thực hiện hiệu chỉnh hình học biển số xe
3 Đối tượng, phạm vi nghiên cứu
3.1 Đối tượng nghiên cứu:
- Các mô hình mạng nơ ron nhân chập học sâu
- Các thuật toán dò tìm đối tượng [4, 12], dò tìm biển số xe trong ảnh [5-9]
3.2 Phạm vi nghiên cứu:
- Đặc điểm hình học biển số xe ở Việt Nam và một số nước trong khu vực
- Đề tài tập trung giải quyết một phần của bài toàn dò tìm và nhận dạng biện
số xe, đó là giai đoạn dò tìm biển số xe
Trang 153
4 Nội dung nghiên cứu
Trong phạm vi đề tài này, chúng tôi sẽ thực hiện các nội dung nghiên cứu sau đây:
- Tìm hiểu tổng quan các kỹ thuật và phương pháp trích chọn đặc trưng phổ biến [1,2,3]
- Tìm hiểu, nghiên cứu các mô hình mạng nhân chập học sâu
- Tìm hiểu, nghiên cứu các thuật toán dò tìm đối tượng tổng quát, dò tìm phương tiện (vehicle detection), dò tìm biển số xe
- Lựa chọn cơ sở dữ liệu ảnh chứa biển số xe phù hợp
- Xây dựng kiến trúc hệ thống dò tìm biển số xe gồm hai pha: dò tìm phương tiện trước và dò tìm biển số từ vùng ảnh chứa phương tiện xe
- Viết báo cáo, khóa luận đề tài về các kết quả đạt được
5 Phương pháp nghiên cứu
Quá trình thực hiện đề tài sử dụng hai phương pháp nghiên cứu chính là: phương pháp nghiên cứu tài liệu và phương pháp nghiên cứu thực nghiệm
- Phương pháp nghiên cứu lý thuyết: Tiến hành thu thập, tổng hợp và nghiên cứu kỹ thuật và thuật toán có liên quan đến lĩnh vực thị giác máy, máy
học, trí tuệ nhân tạo nhằm phục vụ thực hiện đề tài “Nghiên cứu các kỹ thuật
dò tìm biển số xe trong ảnh”
- Phương pháp nghiên cứu thực nghiệm: Tổ chức chuẩn bị dữ liệu huấn luyện; Cài đặt đánh giá mô hình mạng xây dựng trên tập dữ liệu chuẩn và so
sánh kết quả thực nghiệm với các phương pháp khác
6 Dự kiến kết quả đạt được
Trong phạm vi nghiên cứu của luận văn thạc sĩ, dự kiến kết quả đạt được của đề tài là:
- Báo cáo phân tích, đánh giá tổng quan về các mô hình mạng nhân chập học sâu, đặc biệt là các mô hình, phương pháp mạng tập trung giải quyết bài toàn dò tìm phương tiện giao thông, dò tìm biển số xe
Trang 164
- Cài đặt và tiến hành các thử nghiệm và đánh giá hiệu năng của mô hình mạng nơ ron nhân tạo được xây dựng
7 Cấu trúc nội dung của luận văn
Luận văn bao gồm 3 chương:
Chương 1: Giới thiệu
Nội dung chương này tìm hiểu đặc trưng biển số xe ở Việt Nam và các biển số xe trên thế giới Một số ứng dụng của bài toán nhận dạng biển số xe tự động của hệ thống ALPR
Chương 2: Tổng quan tình hình nghiên cứu
Nội dung của chương trình bày các hệ thống dò tìm đối tượng tổng quát (R-CNN, Fast R-CNN, Faster R-CNN, YOLO) và sau đó tập trung mô tả kiến trúc và các đặc điểm chính của các hệ thống dò tìm biển số xe dựa trên kiến
trúc mạng CNN (RPNet, các mạng dựa trên YOLO, Faster R-CNN,…) Giới
thiệu tổng quan các cơ sở dữ liệu chuẩn về biển số xe phục vụ đánh giá và so sánh các thuật toán dò tìm, phát hiện và nhận dạng biển số xe
Chương 3: Nghiên cứu xây dựng kiến trúc mạng dò tìm điểm góc biển số xe
Nội dung của chương phân tích, đánh giá chi tiết và lựa chọn kiến trúc mạng CNN để giải quyết bài toán dò tìm biển số xe trong ảnh và các điểm góc của biển số xe (4 điểm góc) từ ảnh được chứa biển số xe
Trang 175
Chương 1 GIỚI THIỆU
1.1 Bài toán dò tìm và nhận dạng biển số xe
Dò tìm và nhận dạng biển số xe tự động từ ảnh ALPR (Automatic License Plate Recognition) là một bài toán thu hút được sự quan tâm của các nhà nghiên cứu trong lĩnh vực thị giác máy tính (Computer Vision) Những nghiên cứu đầu tiên về ALPR cách đây hàng chục năm [33] đã tập trung giải quyết ALPR bằng cách chia thành thành các bài toán nhỏ hơn gồm: dò tìm vùng chứa biển số xe trong ảnh, phân vùng ký tự trong ảnh và áp dụng OCR để nhận dạng các ký tự đã được phân đoạn
ALPR cung cấp nhiều lợi ích[36] quan trọng, làm cơ sở cho các ứng dụng hữu ích trong thế giới thực Hầu hết các lợi ích của ALPR đi kèm với việc
tự động hóa các tác vụ thủ công, quản lý đối tượng trong không gian lớn về số lượng, quy mô, và nâng cao trải nghiệm của khách hàng Một số lợi ích cụ thể của ALPR như sau:
- Tự động hóa: Việc tự động nhận dạng biển số cho phép cảnh báo và điều khiển tự động cho các phương tiện Do đó, ALPR là công nghệ then chốt cho các thành phố thông minh, giao thông thông minh, giám sát tự động
- Phân tích: Dữ liệu được xử lý từ ALPR có thể được sử dụng để phân tích mật độ lưu lượng giao thông Điều này đặc biệt quan trọng đối với việc vận hành hệ thống giao thông thông minh (ITS), nơi các công nghệ xử lý dữ liệu được sử dụng để cải thiện tính di chuyển của người và hàng hóa, quản lý nhu cầu, tăng cường an toàn, giảm tắc nghẽn giao thông và quản lý sự cố hiệu quả, rút ngắn thời gian chờ xe, giảm tải tác động đến môi trường
- Nhận dạng: Nhận dạng nhanh biển số xe là cơ sở để nhận dạng các phương tiện xe nhanh chóng và tự động Nhận dạng có thể được sử dụng để cấp cho các phương tiện truy cập hoặc tìm và theo dõi các phương tiện cụ thể
Trang 186
- Hiệu quả: Việc nhận dạng biển số chính xác và nhanh chóng không phụ thuộc vào các yếu tố của con người và hoàn toàn tự động bằng phần mềm Do đó,
nó thúc đẩy quản trị hiệu quả về chi phí và giảm thời gian chờ đợi
- Thuận tiện: ALPR thường được tích hợp với các hệ thống CNTT khác
và hoạt động trong một hệ sinh thái để nâng cao trải nghiệm cho người dùng cuối Do đó, công nghệ này được sử dụng để nâng cao trải nghiệm của khách hàng và cung cấp các dịch vụ và sản phẩm mới, chẳng hạn như thanh toán đỗ
xe tự động, thanh toán phí dịch vụ cầu đường tự động (không dừng xe)
1.2 Tìm hiểu đặc trưng biển số xe tại Việt Nam
Thông tư Số 15/TT-BCA ngày 04/4/2014 của Bộ Công an quy định về đăng ký xe [37] đã mô tả rõ về các đặc trưng của biến số xe Việt Nam theo kích thước, màu sắc và nội dung (ký tự của biến số xe) Một số thông tin chính về biển số xe ở Việt Nam như sau:
1.2.1 Kích thước biển số xe
Theo quy định [37], kích thước biển số xe tùy vào loại phương tiện mà
có các quy định khác nhau, nhưng chủ yếu có 2 loại biển số có kích thước sau:
- Đối với ô tô được cấp biển số xe ô tô có 2 biển số xe, 1 biển gắn phía trước và 1 biển gắn phía sau xe phù hợp với vị trí nơi thiết kế lắp biển số của
xe Ô tô có 2 loại biển số có kích thước khác nhau như Hình 1.1
Hình 1.1 Kích thước biển số xe ôtô[37]
- Biển số xe moto, máy kéo, xe máy điện được cấp 1 biển duy nhất gắn phía sau xe, kích thước 140 mm x 190 mm
Trang 197
Hình 1.2 Kích thước biển số moto, máy kéo, xe máy điện[37]
1.2.2 Về nội dung biển số xe
Theo thông tư số 15/TT-BCA ngày 04/4/2014 của Bộ Công an quy định
về đăng ký xe thì nội dung trên biển số xe của Việt Nam bao gồm ký tự và số được sắp xếp theo quy tắc đặt tên nhất định Nội dung biển xe thông thường gồm hai nhóm ký tự sau:
- Nhóm thứ nhất là hai số đầu là mã ký hiệu của tỉnh, thành phố trực thuộc trung ương, ví dụ 36 (Thanh Hóa), 29 hoặc 30 (Hà Nội), 37 (Nghệ An),…
- Nhóm số thứ hai là thứ tự xe đăng ký gồm 05 chữ số tự nhiên, từ 000.01 đến 999.99, riêng biển số xe quốc tế thì số thứ tự sẽ từ 01 đến 99
và các cơ quan chuyên môn thuộc Ủy ban nhân dân cấp tỉnh, cấp huyện; tổ chức chính trị - xã hội; đơn vị sự nghiệp công lập (trừ Trung tâm đào tạo sát hạch lái
xe công lập; Ban quản lý dự án có chức năng quản lý nhà nước, lực lượng công
an nhân dân)
- Biển số nền màu trắng, chữ và số màu đen: cấp cho xe của doanh nghiệp, các tổ chức xã hội, xã hội - nghề nghiệp, xe của đơn vị sự nghiệp ngoài công lập, xe của cá nhân, xe cơ quan, tổ chức và cá nhân nước ngoài tại Việt Nam,…
Trang 208
- Biển số nền màu vàng, chữ và số màu đỏ cấp cho xe của khu kinh tế - thương mại đặc biệt hoặc khu kinh tế cửa khẩu quốc tế theo quy định của Chính phủ
Một số loại biển số xe ở Việt Nam được minh họa như sau:
Hình 1.3 Minh họa ảnh một số biển số xe ở Việt Nam1
1.3 Tìm hiểu đặc trưng biển số xe trên thế giới
Biển số xe trên thế giới về cơ bản cũng được phân loại thành các nhóm chính như: biển một hàng, biển hai hàng Nội dung trên biển số cũng chủ yếu
sử dụng các ký tự Tiếng Anh, chữ cái và chữ số Riêng các nước Ả Rập, Châu
Á có thể sử dụng các ký tự riêng thể hiện ngôn ngữ đặc thù của mỗi nước Màu sắc trên biển số xe của các nước trên thế giới cũng đa dạng, phụ thuộc hoàn toàn vào quy định cụ thể của mỗi nước, mỗi khu vực Hình 1.4 minh họa một
số loại biển số xe của các nước trên thế giới
Hình 1.4 Minh họa một số loại biển số xe của các nước trên thế giới (hai ảnh trái là từ tập CCPD [10], 3 ảnh bên phải là từ UFPR [23])
1 https://baoquangngai.vn/channel/8181/201208/giai-ma-nhung-chu-cai-tren-bien-so-xe-o-viet-nam-2179448/
Trang 219
1.4 Một số sản phẩm thương mại trên thị trường
Bài toán ALPR đã được nghiên cứu và phát triển bởi các tổ chức, doanh nghiệp và công ty công nghệ ở Việt Nam trong nhiều năm qua Có thể giới thiệu một số sản phẩm tiêu biểu như sau:
- Sản phẩm AI-SOFT-ANPPR của Công ty Công nghệ AI2: Phần mềm SOFT-ANPPR ứng dụng công nghệ trí tuệ nhân tạo có các ưu điểm như sau:
AI-+ Độ chính xác cao (≥ 98%);
+ Nhận dạng hình ảnh/Kết nối camera IP;
+ Nhận dạng được tất cả các loại biển số xe ở Việt Nam;
+ Tốc độ nhận dạng biển số nhanh, trung bình từ 50 ms
+ Nhận dạng đầy đủ các ký tự của biển số, kể cả số quy định mã vùng, khu vực
+ Đọc được biển số một dòng (biển số ô tô), biển số 2 dòng (biển số ô
tô và xe máy) và biển số nghiêng
+ Trích xuất được hình ảnh, video, tích hợp lưu trữ dữ liệu
- Công nghệ nhận diện biển số xe BB-ANPR3: BB-ANPR là sản phẩm của các kỹ sư phần mềm Công ty cổ phần Biển Bạc Các ưu điểm chính của phần mềm này như sau:
+ Nhận dạng tất cả các loại biển số xe ô tô, xe máy theo đúng định dạng, ký tự và màu sắc
+ Thời gian nhận dạng nhanh chỉ từ 20-50 ms do đó có thể nhận dạng được biển số xe máy vi phạm tốc độ trên 80km/h
+ Độ chính xác nhận dạng hơn 98%
+ Nhận dạng được cả trong điều kiện thiếu sáng, ban đêm
+ Nhận dạng màu sắc đèn tín hiệu giao thông để phát hiện vi phạm
- Giải pháp công nghệ nhận diện biển số xe ANPR Paracel4: Phần mềm này
có các ưu điểm chính sau:
+ Nhận dạng biển số xe dưới dạng text; tích hợp với phần mềm kế toán, bán hàng, kho
+ Tỷ lệ nhận dạng chính xác trung bình >95% với cả ngày và đêm; + Tốc độ nhận dạng nhanh;
2 https://aitech.com.vn/Sanpham/Phan-mem-nhan-dang
3 https://silversea.vn/en/product/phan-mem-nhan-dang-bien-so-xe-bb-anpr-lpr
4 https://www.acs.vn/phan-mem-nhan-dang-bien-so-xe-prs104
Trang 2210
+ Nhận dạng được tất cả các định dạng biển số tại Việt Nam và nhiều quốc gia khác có sử dụng chữ Latin;
+ Nhận dạng biển số bẩn, mờ, trong điều kiện thời tiết mưa, vào ban đêm
1.5 Một số ứng dụng thực tế của bài toán
Tính năng nhận dạng biển số tự động của hệ thống ALPR rất cần thiết cho một loạt các ứng dụng, trong đó việc phát hiện, nhận dạng hoặc khoanh vùng phương tiện là quan trọng [36] Một số ứng dụng cụ thể trong thực tế như sau:
- Hỗ trợ giám sát và thực thi pháp luật: Lực lượng cảnh sát và cơ quan chức năng có thể sử dụng hệ thống ALPR cho các mục đích thực thi pháp luật, bao gồm để kiểm tra xem một chiếc xe đã được đăng ký hay chưa hoặc để xác định các phương tiện liên quan đến vi phạm giao thông Khả năng phát hiện và nhận dạng biển số trong thời gian thực cho phép cơ quan chức năng xác định phương tiện và theo dõi vị trí của chúng một cách thuận tiện, dễ dàng và nhanh chóng Cảnh sát không phải mất thời gian xem lại video hành trình giao thông vốn rất tốn thời gian và công sức và nhàm chán
- Quản lý bãi đậu xe ô tô: Quản lý bãi đậu xe ô tô yêu cầu một giải pháp tích hợp để phát hiện các phương tiện xe của cá nhân Do đó, nhận dạng biển
số tự động là chìa khóa để quản lý bãi đậu xe hiệu quả ALPR cho phép các khu vực nhà để xe có chức năng quản lý bãi đậu xe tự động vì mọi ô tô đều được tính theo biển số của nó Do đó, người sử dụng nhà để xe tránh được căng thẳng, mệt mỏi, nhàm chán trong việc quản lý vé và theo dõi thời gian sử dụng, tránh rủi ro bị phạt nếu trả vé không chính xác hoặc làm mất vé của họ Hệ thống bãi đậu xe như vậy theo dõi mọi phương tiện trong bãi đỗ xe và đảm bảo quản lý toàn diện, an toàn, hiệu quả, chính xác
- Phân tích thời gian hành trình giao thông: Phân tích thời gian hành trình giao thông là một ứng dụng quan trọng để cơ quan chức năng xác định các phương tiện đi qua và thời gian của chúng từ địa điểm này đến địa điểm khác Ngoài ra, những phân tích như vậy cho phép các nhà quản lý lập kế hoạch tuyến đường tốt hơn, giúp nâng cao trải nghiệm cho các nhân viên giao thông, bảo trì đường bộ
- Quản lý giao thông: ALPR có thể được sử dụng khắp các thành phố để phát hiện xe chạy quá tốc độ quy định, xe chạy ẩu hoặc bất kỳ sự cố tình cờ
Trang 2311
nào, phát hiện tự động xe vi phạm giao thông (lấn vạch, rẻ sai làn, vượt đèn đỏ,…) ALPR cung cấp các giải pháp giám sát và phân tích dữ liệu giao thông liên quan đến khu vực của một khu vực nhất định hoặc toàn bộ thành phố Ở quy mô lớn hơn, ALPR cho phép hiểu rõ hơn về tình trạng tắc nghẽn giao thông để lập kế hoạch giao thông tốt hơn
- Quản lý trạm thu phí tự động: Quản lý các trạm thu phí thủ công trên đường cao tốc là một bài toán quan trọng và hiện hữu rất nhiều nơi trên thế giới Thông thường, các trạm thu phí sử dụng các công nghệ khác nhau để quản lý các trạm thu phí tự động Công nghệ ALPR cho phép nhà chức trách nhận biển
số xe để thanh toán phí qua đường bưu điện hoặc tự động thay vì dừng lại và thanh toán tại một trạm thu phí chạy thủ công Do đó, ALPR cho phép quản lý trạm thu phí hiệu quả, giảm thời gian hoạt động cần thiết và do đó tăng năng suất
Kết luận Chương 1
Chương 1 trình bày, giới thiệu về bài toán dò tìm và nhận dạng biển số
xe tự động ALPR hoặc ANPR ALPR đã được nghiên cứu và phát triển thành các sản phẩm thương mại và đưa vào ứng dụng trong thực tiễn Tuy nhiên, những tiến bộ gần đây của công nghệ mạng học sâu, mạng nhân chập đã đẩy
độ chính xác, tính bền vững của hệ thống ALPR lên một cấp độ mới Do vậy, các nghiên cứu hiện đại về bài toán ALPR hiện đang thu hút sự quan tâm của các nhà nghiên cứu Chương 1 cũng cung cấp tổng quan thông tin về các loại đặc trưng biển số xe tại Việt Nam và trên thế giới, cung cấp một số thông tin
về các hệ thống ALPR thương mại tại Việt Nam Trong phần tiếp theo, chúng tôi sẽ trình bày có hệ thống các giải pháp công nghệ và nghiên cứu liên quan trong lĩnh vực này, đặc biệt chú trọng đến những tiến bộ gần đây của công nghệ mạng học sâu (Deep Learning)
Trang 2412
Chương 2 TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU
2.1 Các phương pháp dò tìm đối tượng tổng quát
Dò tìm biển số xe là một trường hợp đặc biệt của bài toán dò tìm đối tượng (General Object Detection) Vì vậy, các thuật toán dò tìm đối tượng tổng quát có thể áp dụng Trong phần này chúng tôi trình bày, phân tích đánh giá một số hệ thống dò tìm đối tượng tổng quát dựa trên mạng nơ ron nhân chập CNN (Convolutional Neuron Network)
Ở bước 1, thuật toán tìm kiếm có chọn lọc (Selective Search [16]) được
áp dụng để sinh ra các vùng ứng viên Thuật toán này sử dụng nhiều đặc trưng mức thấp (màu sắc, texture,…) để phân cụm điểm ảnh thành các nhóm khác nhau và sau đó sử dụng một thuật toán gộp để hình thành các vùng ứng cử viên
Ở bước 2, các tác giả sử dụng một mạng CNN (AlexNet [17]) để trích chọn các vector đặc trưng CNN (có 4096 chiều) từ vùng ảnh đầu vào (được chuẩn hóa
về kích thước 227 × 227) Trong bước cuối, các tác giả huấn luyện bộ phân lớp SVM để phân loại nhãn của các đối tượng Kết quả thực nghiệm cho thấy R-CNN tạo ra độ chính xác dò tìm đối tượng khá tốt tại thời điểm giới thiệu nhưng nhược điểm chính của nó liên quan đến độ phức tạp tính toán khá cao
Trang 2513
Hình 2.1 Kiến trúc hệ thống R-CNN [13]
2.1.2 Thuật toán Fast R-CNN [14]
Để giảm độ phức tạp tính toán của R-CNN, các tác giả trong [14] đề xuất
hệ thống Fast R-CNN trong đó tập trung khai thác ý tưởng tính toán dùng chung (Hình 2.2) Fast R-CNN vẫn áp dụng thuật toán Selective Search để sinh ra các vùng ứng viên Tuy nhiên, các vùng ứng viên này sẽ không được đưa vào mạng CNN một cách độc lập để học các đặc trưng Thay vì vậy, quá trình trích chọn các đặc trưng chỉ được thực hiện một lần bằng cách cho ảnh đầu vào qua một mạng CNN (các tác giả sử dụng mạng VGG16 [18] thay cho AlexNet) Sau khi thu được ma trận đặc trưng từ mạng VGG16 trên ảnh đầu vào, các vùng ứng viên sẽ được ánh xạ vào ma trận đặc trưng để tự động nhận được vùng đặc trưng quan tâm RoI (Regions of Interest)
Các vùng RoI này được chuẩn hóa về kích thước cố định bằng tầng RoI Pooling Giả sử mỗi RoI có kích thước 𝑚𝑛, tầng RoI Pooling sẽ áp dụng phép toán Max Pooling để rút gọn kích thước không gian về các bản đồ đặc trưng có kích thước cố định là 77 Các bản đồ đặc trưng này sau đó được đưa vào một mạng CNN kết nối đầy đủ FC (Fully Connected) và có 2 nhánh đầu ra Một nhánh sử dụng hàm Softmax để dự đoán nhãn của đối tượng (có K + 1 nhãn cho K đối tượng và nền) Một nhánh sử dụng hàm mục tiêu hồi quy để nội suy tọa độ của đối tượng dưới dạng hình hộp chữ nhật (Bounding Box) Mặc dù kết quả thu được tốt hơn đáng kể so với R-CNN về thời gian xử lý, nhưng thời gian tính toán của Fast R-CNN vẫn khá cao do độ phức tạp của thuật toán tìm kiếm chọn lọc
Trang 2614
Hình 2.2 Kiến trúc hệ thống Fast R-CNN [14]
2.1.3 Thuật toán Faster R-CNN [15]
Các tác giả trong Faster R-CNN [15] tiếp tục cải tiến Fast R-CNN để rút gọn thời gian dò tìm đối tượng Cụ thể, Faster R-CNN loại bỏ hoàn toàn thuật toán Selective Search Thay vào đó, để sinh ra các vùng tiềm năng, Faster R-CNN đề xuất một kiến trúc mạng CNN mới có tên là Region Proposal Network (RPN)
Mạng RPN (Hình 2.3) được xây dựng từ một số tầng CNN (được kết hợp
để dùng chung/tích hợp với kiến trúc mạng dùng trong Fast R-CNN), nhận đầu vào ảnh đầu vào và tạo ra một bản đồ đặc trưng Tại mỗi ô trên bản đồ đặc trưng, các tác giả sẽ sử dụng một tập K hộp neo (anchor box) để sinh ra các vùng ứng viên Các anchor khác nhau về kích thước, tỉ lệ để mô phỏng các hình dạng khác nhau của đối tượng
Trang 2715
Hình 2.3 Kiến trúc mạng RPN [15]
Mỗi anchor được biểu diễn một hình chữ nhật và được mô tả bởi 4 tham số: top, left, right, bottom Các anchor được sinh ra tại các cell của feature maps Giả sử tại mỗi vị trí của bản đồ đặc trưng, chúng ta sử dụng K anchors, khi đó mạng RPN sẽ có hai nhánh đầu ra song song nhau, một nhánh dùng để nội suy tọa độ của đối tượng và có tổng 4K đầu ra (mỗi anchor sẽ có 4 giá trị top, left, right, bottom) Một nhánh còn lại sẽ có 2K đầu ra dự đoán nhãn của đối tượng
ở dạng: object or background (chỉ xem xét 2 nhãn là đối tượng hay nền) Trong bài báo, các tác giả chọn K=9 và sinh ra khoảng 2400 vùng ứng viên cho mỗi ảnh đầu vào
Các vùng ứng viên được sinh ra bởi mạng RPN tiếp tục được xử lý tương
tự như quy trình của Fast R-CNN để tiếp tục dự đoán nhãn chính xác của đối tượng và tiếp tục làm mịn tọa độ chính xác của đối tượng (Hình 2.4)
Trang 2816
Hình 2.4 Kiến trúc tổng thể của Faster R-CNN [15]
Chi tiết về các hàm mục tiêu được sử dụng trong Faster R-CNN, các tác giả áp dụng có 2 hàm loại hàm mục tiêu Một hàm dùng để điều khiển quá trình nội suy tọa độ của đối tượng được gọi là RegressionLoss Một hàm dùng
để dự đoán nhãn của đối tượng được gọi là Classification Lozss
- Các ký hiệu tên biến dùng trong hàm mục tiêu:
+ [x, y, w, h]: tọa độ của box dự đoán (bp)
+ [x∗, y∗, w∗, h∗]: tọa độ của box groundtruth (bg)
+ 𝑤𝑎, ℎ𝑎, (𝑥𝑎, 𝑦𝑎): tọa độ của anchor box (hộp neo)
+ tp, tg là các tọa độ sau khi chuyển đổi của bp và bg:
Trang 2917
𝐿𝑟𝑒𝑔(𝑡𝑔, 𝑡𝑝) = ∑ smooth𝐿1(𝑡𝑔𝑖, 𝑡𝑝𝑖)
𝑖∈𝐴𝑝𝑜𝑠
Trong đó: Smooth-L1 được định nghĩa như sau:
Như vậy, nếu tại mỗi ô (cell) của Feature Map (bản đồ đặc trưng), thuật toán sử dụng nhiều hơn một anchor box với các kích thước khác nhau, tỉ lệ khác nhau thì các tọa độ của bp cũng sẽ được biến đổi theo Mỗi hộp neo sẽ được dùng để nội suy ra một bp phù hợp với kích thước (size), tỉ lệ (scale ratio), và
vị trí của hộp neo đó Vai trò của các hộp neo chỉ ở sự chuyển đổi giữa bp, bgthành tp, tg Thông tin hữu ích nhất của hộp neo liên quan đến quá trình nội suy
vị trí là các chiều dài(width) và chiều cao (height) của nó (để đạt được mục tiêu bât biến với sự thay đổi về kích thước ảnh/đối tượng) Ngoài ra, do các hộp neo được sinh ra tại mỗi ô của Feature Map nên thuật toán cũng có tính chất bất biến với các thay đổi về vị trí của đối tượng
* Classification Loss: được tính trên hai tập hộp neo: positive (Apos) và negative (Aneg) Chú ý, có thể có các hộp neo không là positive và không là negative
Gọi Acls = Apos Aneg: của mọi ảnh trong một batch, hàm mục tiêu phân loại (𝐿𝑐𝑙𝑠) được đính nghĩa như sau (sử dụng hàm Cross Entropy):
Trang 30Nhận xét: từ công thức này, chúng ta thấy nếu số lượng các mẫu negative
nhiều quá sẽ lấn át các mẫu positive, dẫn đến việc học bị lệch Do vậy, việc áp dụng Hard negative mining là rất cần thiết để cân bằng hai phân bố dữ liệu học: positive và negative
Công thức tổng hợp hai hàm mục tiêu sẽ là:
𝐿(𝑐𝑔, 𝑐𝑝, 𝑡𝑔, 𝑡𝑝) = 𝑛0𝐿𝑐𝑙𝑠(𝑐𝑔, 𝑐𝑝) + 𝑛𝑁 1𝐿𝑟𝑒𝑔(𝑡𝑔, 𝑡𝑝)Trong đó:
+ 𝑛0, 𝑛1 là các trọng số gán cho mỗi loại hàm mục tiêu
+ 𝑡𝑝, 𝑡𝑔: tọa độ của box dự đoán và box groundtruth sau khi chuyển đổi tương đối so với các hộp neo (anchor box)
+ 𝑐𝑝, 𝑐𝑔: nhãn dự đoán và nhãn groundtruth
2.1.4 Thuật toán SSD [12]
Các thuật toán ở trên đều thuộc lớp 2-bước dò tìm đối tượng: sinh vùng ứng viên và xác thực vùng Một cách tiếp cận khác là lớp thuật toán 1-bước, tiêu biểu là SSD (Single Shot MultiBox Detector) [12] Kiến trúc mạng SSD (Hình 2.5) gồm các tầng CNN tiêu chuẩn (chẳng hạn sử dụng lại các tầng đầu của mạng VGG16), sau đó được bổ sung thêm các tầng nhân chập CNN khác
để tăng cường các bản đồ đặc trưng và cũng tạo ra nhiều bản đồ đặc trưng có kích thước khác nhau
Trang 3119
Hình 2.5 Kiến trúc mạng SSD [12]
SSD sẽ sử dụng các bản đồ đặc trưng có kích thước khác nhau này để dự đoán vị trí và nhãn của các đối tượng theo nguyên lý: các bản đồ đặc trưng có kích thước lớn (ở phía đầu mạng) sẽ được sử dụng để dự đoán các đối tượng có kích thước nhỏ, trong khi các bản đồ đặc trưng ở phía cuối mạng sẽ dùng để dự đoán các đối tượng có kích thước lớn Cụ thể, SSD sử dụng 6 bản đồ đặc trưng
có kích thước khác nhau để dự đoán các đối tượng (các tầng có mũi tên ngang trên Hình 2.5)
Như vậy, SSD không áp dụng bước sinh các vùng ứng viên Tuy nhiên, SSD vẫn áp dụng ý tưởng dùng hộp neo (anchor box) để dự đoán tọa độ vùng như trong Faster R-CNN Cụ thể, các anchor (Hình 2.6) sẽ được so sánh (matching) với các vị trí thật của đối tượng (groudtruth boxes) để điều khiển quá trình học của mạng Cụ thể, mỗi anchor sau khi matching sẽ được mô tả bởi hai tham số: nhãn của nó groundtruth-class và groundtruth-box tương ứng (tọa độ bounding box của đối tượng) Hai tham số trên được tạo ra bởi một thuật toán matching (match các anchors với các groudtruth boxes)
Trang 32*) Ý tưởng của thuật toán đối sánh như sau:
+ Bước 1: với mỗi groundtruth box, tìm anchor có IoU lớn nhất Như vậy, nếu
có N groundtruth boxes thì sẽ tương ứng có N anchors được đối sánh Chẳng hạn, trên Hình 2.6, sau bước 1 thì sẽ có 01 anchor (màu xanh – hình to bên ngoài) ở bản
đồ đặc trưng (FM) hình (b) được tìm ra, và 01 anchor box (đỏ) ở FM hình (c)
+ Bước 2: Xóa hai anchors đã được đối sánh ở bước 1 ra khỏi danh sách
+ Bước 3: Với mỗi anchor còn lại, tìm groundtruth box có IoU lớn nhất và IoU này phải lớn hơn một ngưỡng VD Nếu chọn threshold=0.5, trên FM ở hình (b),
sẽ có thêm 01 anchor box được đối sánh (màu xanh còn lại – hình nhỏ hơn); nhưng trên FM ở hình (c) sẽ không có thêm anchor nào được đối sánh vì chúng có IoU < 0.5
+ Nếu một anchor box được đối sánh với groundtruth-box thì nó được gọi là
PS (Positive Sample) và sẽ được dùng trong cả hai hàm mục tiêu: classification
Trang 3321
regresion Ngược lại, các anchors mà ko có đối sánh nào sẽ được xem là các NS (Negative Sample) và chúng sẽ được dùng trong một hàm mục tiêu classification mà thôi
+ Số lượng các NS thường rất nhiều so với số lượng PS Do vậy, nếu cứ dùng tất cả mẫu để huấn luyện thì sẽ có hiện tượng không cân bằng dữ liệu (unbalanced training samples) Để khắc phục hiện tượng này, kỹ thuật hay dùng
là Hard negative mining (được đề xuất đầu tiên trong SSD) Ý tưởng của HNM
đó là các tác giả sẽ sắp xếp các mẫu NS theo thứ tự giảm dần của độ tự tin (confidence loss scores) và chọn những mẫu NS ở đầu cho đến khi tỷ lệ giữa
NS và PS tối đa là 3:1 Kỹ thuật này sau đó được ứng dụng rất nhiều trong các
kỹ thuật dò tìm đối tượng
2.1.5 Thuật toán YOLO
YOLO (You only lool once) được đề xuất trong [20] với tên gọi YOLOv2 sau đó được cải tiến trong [19] với tên gọi YOLOv3, được cải tiến trong [4] với tên gọi YOLOv4, gần đây được phát triển thành YOLOv55 với nhiều tranh cãi về tính học thuật cũng như tài liệu mô tả chính thức Ý tưởng
cơ bản của mạng YOLO ban đầu [21] là chia ảnh thành lưới SS, sau đó tại mỗi ô (cell) của lưới dự đoán B hộp bao (bounding boxes) và bản đồ về độ tự tin (confidence map), và C giá trị biểu diễn xác suất xuất hiện của mỗi đối tượng Để sinh ra các hộp bao, các tác giả sử dụng kỹ thuật anchor box (có kích thước mặc định cho trước) với các tỉ lệ (scale) khác nhau nhằm có thể bao được đối tượng trong ô đang xem xét (Hình 2.7) Do vậy, đầu ra của YOLOv1 là một Tensor có kích thước: S × S × (B ∗ 5 + C) Trong YOLOv1, các tác giả sử dụng S = 7, B=2, còn C là số lượng lớp đối tượng
Để dự đoán vị trí và nhãn của các đối tượng, YOLO sử dụng nhiều kiến trúc mạng CNN khác nhau và được cải tiến theo từng phiên bản Với phiên bản tối ưu nhất (YOLOv4), kiến trúc mạng CSPDenseNet53 [22] làm mạng cơ sở
5 https://github.com/ultralytics/yolov5
Trang 3422
cùng với nhiều cải tiến khác (nhưng cải tiến các kỹ thuật tăng cường dữ liệu, hàm kích hoạt, hàm mục tiêu,…) Mạng YOLO (đặc biệt là YOLOv4 và YOLOv5) có khả năng dò tìm đối tượng với độ chính xác cao và tốc độ xử lý rất ấn tượng, vượt trội nhiều hệ thống dò tìm đối tượng thời gian thực khác và hiện là thuật toán mạnh nhất trong bài toán dò tìm đối tượng tổng quát
Hình 2.7 Minh họa ý tưởng chia lưới trong YOLO [21].5
2.2 Các mạng CNN dò tìm biển số xe
2.2.1 Kỹ thuật dựa trên YOLO
Các tác giả trong [23] áp dụng mạng FAST-YOLO [21] và YOLOv2 [20] để giải quyết bài toán dò tìm biển số xe trong ảnh Ý tưởng gồm 2 bước:
dò tìm phương tiện trong ảnh (ô tô, xe máy) và sau đó là dò tìm biển số từ vùng ảnh chứa phương tiện Cụ thể, các tác giả sử dụng B=5 anchor box cho mỗi vị trí trên bản đồ đặc trưng Nếu tập dữ liệu chỉ chứa một đối tượng (chẳng hạn mình ô tô) thì C=1, ngược lại nếu tập dữ liệu chứa cả hai đối tượng (chẳng hạn
ô tô và xe máy) thì C=2
Trang 35dữ liệu huấn luyện và kiểm thử (C=1, 2) Kết quả thử nghiệm được thực hiện trên hai tập dữ liệu là SSIG [24] cho thấy độ chính xác dò tìm khá cao (100%) với tốc độ xử lý khá ấn tượng, cụ thể như sau:
- Cấu hình máy tính: NVIDIA Titan XP GPU (3,840 CUDA cores and
12 GB of RAM)
Trang 3624
- Dò tìm phương tiện: Độ chính xác = 100%, thời gian xử lý: 245 FPS
- Dò tìm biển số xe: Độ chính xác = 100%, thời gian xử lý: 244 FPS Các tác giả tiếp tục cải tiến hệ thống dò tìm và nhận dạng biển số xe trong [6] trong phiên bản YOLOv2 được áp dụng để dò tìm các phương tiện xe trong ảnh và kích thước ảnh đầu vào được thay đổi từ 4164163 thành 448×2283 cho phù hợp với kích thước của ảnh trong tập dữ liệu huấn luyện Các tác giả sau đó cũng mở rộng hệ thống FAST-YOLO để dò tìm biển số xe của các nước khác nhau (có layout và hình dạng, bố cục khác nhau) Trong mạng này, kích thước ảnh vẫn ở dạng 4164163 Hình 2.9 minh họa kết quả dò tìm biển số xe và phân loại theo khu vực xuất xứ của biển số xe
Hình 2.9 Minh hoạt kết quả dò tìm và phân loại biển số xe theo khu vực/nước [6]
Các tác giả trong [25] cũng áp dụng mạng YOLOv2 để dò tìm các phương tiện trong ảnh nhưng sau đó đề xuất một mạng CNN có tên là WPOD-NET (Warped Planar Object Detection Network) để đồng thời vừa dò tìm biển
số xe từ vùng ảnh chứa phương tiện và hiệu chỉnh hình dạng biển số xe về trạng thái mà biển số xe được thu nhận một cách trực diện (frontal view) (Hình 2.10)