HÀ NỘI - NĂM 2023
Trang 3TOM TAT DE ÁN
Bai toan phat hién va nhan dang biển số xe có
ý nghĩa quan trọng trong các lĩnh vực giao thông
thông minh, bãi đỗ xe thông minh, giám sát vi phạm
an toàn giao thong, Trong những năm gan đây,
các nghiên cứu tập trung giải quyết vấn đề theo
hướng sử dụng mạng nơron học sâu với mục tiêu đạtđược độ chính xác cao Tuy nhiên, các nghiên cứu
nảy thường tập trung vào các bộ dữ liệu chuẩn do
các tác giả tự thu thập Một số nghiên cứu khác thì
chỉ tập trung chủ yếu vào độ chính xác, trong khi
nhu cầu của các hệ thống hiện nay đòi hỏi cả về tốcđộ xử lý Những điều đó khiến cho chúng khó có thêáp dụng được vào điều kiện thực tế như giao thông ở
Việt Nam Vì vậy, dé án này được thực hiện nhằm
đưa ra một giải pháp cho các vân đê nêu trên.
Trong đề án này, tác giả mong muốn pháttriển một hệ thống có thé phát hiện vả nhận dạngbiển số xe trong các ngữ cảnh đa dạng, đặc biệt cóthé áp dụng trong điều kiện giao thông ở Việt Nam.
Trang 4Cụ thể, đề án đề xuất các mô hình phát hiện và nhận
dạng biển số xe chỉ bao gồm các lớp tích chập và
truyền thăng, điều đó làm giảm đáng ké tốc độ suy
diễn so với các phương pháp có sử dụng mạng
nơron hồi quy Dé án đã làm thực nghiệm trên các
mô hình có kích thước khác nhau, sử dụng cả
phương pháp học chuyển đổi và phương pháp huanluyện mạng từ đầu bằng cách khởi tạo tham số ngẫu
nhiên cho mạng Từ đó, thực hiện so sánh cả về hiệu
suất và tốc độ giữa các mô hình, cùng với đó là đánh
giá khả năng triển khai thực tế.
Đề án sử dụng bộ dữ liệu UFPR-ALPR và
một tập dữ liệu biển số xe Việt Nam tự đánh
nhãn cho các thử nghiệm, bao gồm đa dạng các ngữcảnh và được ghi lại bởi nhiều loại thiết bị ghi hình.Sau quá trình huấn luyện, mô hình phát hiện biển sốxe đạt điểm mAP@95 là 0.82 và mAP(@50 là 0.993
với tốc độ suy diễn là 12.92 FPS đo trên card đồ
họa Nvidia GeForce RTX 3060 Trong khi đó, mô
hình nhận dạng biến số xe đạt độ chính xác là
Trang 597.12% Điều đó cho thấy tính khả thi của các môhình phát hiện và nhận dạng biển số xe cả về hiệusuất và tốc độ suy diễn trong các ngữ cảnh thực tếnhư điều kiện giao thông ở Việt Nam.
Nội dung đề án được chưa thành 4 chương,
cụ thê như sau:
Trang 6Chương 1: Tổng quan bài toán phát hiện và nhậndạng biến số xe
Chương 1 của đề án trình bày tổng quan bài toán
phát hiện và nhận dạng biên số xe Tác giả phân
tích đầu vào và đầu ra của bài toán, cũng như lợi
ích và những thách thức của bài toán trong việc
áp dụng thực tế.
Tiếp theo, chương | cũng trình bày sơ lược một
số giải pháp đã được sử dụng cho bài toán phát
hiện và nhận dạng biển số xe, bao gom caphương pháp truyền thống và hiện đại Cácphương pháp truyền thông trước đây bao gồm
việc sử dụng các cửa số trượt, các bộ lọc tĩnh hoặc các thuật toán như SIFT, HOG để trích rút đặc trưng và các thuật toán như KNN, SVM dé
phan loại đối tượng hoặc ký tự Trong khi đó,
phương pháp hiện đại được sử dụng phổ biến
nhât hiện nay là sử dụng mạng noron hoc sâu.
Trang 7Từ đó, tác giả so sánh hai phương pháp dé thay
rang phương pháp sử dụng mạng noron học sâuđang được ưa thích do khả năng vượt trội cả về
tốc độ và độ chính xác mà nó đem lại.
Cuối cùng, chương sơ lược một SỐ công trình
nghiên cứu nổi bat trong thời gian gan đây để
giải quyết bài toán phát hiện và nhận dạng biển số xe Từ đó, chỉ ra sự thành công và các mặt
hạn chế về độ chính xác cũng như tốc độ suy
diễn khi áp dụng các mô hình này trong điều
kiện thực tế như giao thông ở Việt Nam Từ
những hạn chế đó, tac giả lý giải tại sao dé án
này được thực hiện.
Chương 2: Tong quan về một số mang noron
Trong chương 2, tác giả làm rõ câu trúc, môhình toán học của các lớp mạng chính câu tạo lên
các mô hình mạng nơron học sâu được đê án sử
Trang 8dụng làm giải pháp để giải quyết bài toán phát hiệnvà nhận dạng biển số xe.
Trước đây, trong các mô hình học sâu có độ
chính xác cao, hầu hết trong số chúng đều có đủcác loại mạng tích chập, hồi quy và truyềnthăng Đặc biệt, trong các bai toán có yêu tố
ngôn ngữ, người ta thường sử dụng các lớp
mạng hoặc một số mô hình mạng học sâu có
kiến trúc hồi quy làm bộ giải mã ký tự như RNN, GRU, LSTM Bài toán nhận dạng biến số xe ở đây cũng không ngoại lệ Tuy nhiên,
kiến trúc hồi quy lại bộc lộ một điểm yếu đó làtốn nhiều thời gian xử lý, do tại mỗi bước cần có
thông tin của bước trước đó, khiến cho chúng
không thể tận dụng được hết năng lực xử lý của
các phần cứng hiện nay Ké từ sau sự thành công
của mô hình Transformer trong lĩnh vực xử lý
ngôn ngữ tự nhiên vào năm 2018, nó đã trởthành nguôn cảm hứng cho các nghiên cứu trong
Trang 9lĩnh vực thị giác máy tính Các mô hình mạng
mà đề án sử dụng được cầu tạo chủ yếu từ các
lớp mạng tích chập và lớp mạng truyén thang Vì
vậy, chương 2 sẽ tập trung làm rõ kiến trúc cũng
như mô hình toán học của từng loại mạng này.
Chương 3: Giải pháp đề xuất
Chương 3 của đề án làm rõ các kiến trúc mô hình
mạng noron học sâu được sử dụng trong bài toán
phát hiện biển số xe và nhận dạng biển số xe Cùng
với đó, tác giả cũng chỉ ra khó khăn của bài toán khi
phải đối mặt với các ngữ cảnh thực tế như biển số xe
bị nghiêng so với góc nhìn chính diện, làm giảm
hiệu suất của mô hình nhận dạng Từ đó, tác giả đềxuất một giải pháp biến đổi điểm nhìn (tiếng Anh:perspective transformation) để đưa biển số xe về góc
nhìn cân đôi, chính diện.
Trong chương này, tác gia đề xuất sử dụng YOLOv8làm giải pháp cho bài toán phát hiện biển số xe Xét
Trang 10về sự cân bằng giữa độ chính xác và tốc độ suy diễn,mô hình YOLOv§ đang là mô hình tốt nhất hiện nay
áp dung cho các bai toán phát hiện đối tượng Mangbao gồm ba thành phần chính, đó là Backbone, Neck
và Head Phần Backbone có nhiệm vụ trích rút đặctrưng, nó là phiên bản sửa đổi của CSPDarknet53,
trong đó các khối CSPResBlock được thay thế bởi module C2f giúp cho toàn bộ kiến trúc trở nên nhỏ gọn hơn Phần Neck sử dụng kiến trúc
SPPF, là phiên bản cải tiễn của SPP Trong thựcnghiệm, SPPF có tốc độ nhanh gấp hai lần so với
SPP Cuối cùng là phần Head sử dụng cau trúc
tach rời (tiếng Anh: decoupled head) thay vi cau
trúc hợp nhất như trong các phiên ban YOLO
trước đó.
Đối với bài toán nhận dạng biển số xe, tác giả dé
xuất sử dụng một kiến trúc có tên là SVTR Kiến
trúc SVTR gọn nhẹ, được lay cam hứng từ sự
thành công của máy biến đổi thị giác (tiếng Anh:
Trang 11visual transformer) Nó bao gôm các khôi trộn,
các toán tử hợp nhât và kêt hợp nhăm trích rút
các đặc trưng cục bộ như nét chữ và năm bắt sự
phụ thuộc giữa các thành phần ký tự.
Dé giải quyết van dé biển số xe bị nghiêng do góc chụp biển số bị lệch so với phương chính diện, tác giả đề xuất sử dụng hệ tọa độ đồng nhất và tim ma trận các phép biến đổi trong không
gian ba chiêu.
Cuôi cùng, chương trình bày các chỉ sô được sử
dụng đê đo hiệu suât của các mô hình phát hiện
biên sô xe (mAP metric) và nhận dạng biên sôxe (accuracy metric).
Chương 4: Thực nghiệm va đánh gia
Trong chương này, tác giả trình bày dữ liệu cùngvới phân cứng được sử dụng đê làm thực nghiệm
Trang 12với các mô hình được trình bày trong chương 3.
Về dit liệu, tác giả sử dụng hai tap dit liệu đó là
UFPR-ALPR và một tập dữ liệu biên số xe Việt
Nam Các tập dữ liệu này đa dạng, được chụp
bởi nhiều thiết bị, trong các điều kiện khác nhau.
Sau khi tổng hợp và lọc dữ liệu, số mẫu dé huấn
luyện mô hình phát hiện biển số xe là 14338
mẫu, số mẫu để đánh giá mô hình phát hiện biển số xe là 4365 mẫu Trong khi đó, số mau dé huấn luyện mô hình nhận dạng biển số xe là
7920 mẫu, số mẫu để đánh giá mô hình nhận dạng biên số xe là 2570 mẫu.
Phần cứng được sử dụng để huấn luyện các mô
hình là card đỗ hoa NVIDIA GeForce RTX
Sau quá trình huấn luyện, mô hình phát hiện
biển số xe đạt giá trị mAP@95 là 0.82,
Trang 13mAP@S0 là 0.993 Trong khi, mô hình nhận
dạng biển số xe đạt giá trị độ chính xác là
Cuối cùng, chương trình bay luồng hoàn chỉnh
của hệ thông phát hiện và nhận dạng biên sô xe.