(Luận văn thạc sĩ) nhận dạng biển số xe bằng kỹ thuật xử lý ảnh và học sâu ứng dụng trong quản lý giao thông

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ HUỲNH TẤN PHÁT NHẬN DẠNG BIỂN SỐ XE BẰNG KỸ THUẬT XỬ LÝ ẢNH VÀ HỌC SÂU ỨNG DỤNG TRONG QUẢN LÝ GIAO THÔNG NGÀNH: KHOA HỌC MÁY TÍNH SKC007966 Tp Hồ Chí Minh, tháng 04/2023 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ HUỲNH TẤN PHÁT NHẬN DẠNG BIỂN SỐ XE BẰNG KỸ THUẬT XỬ LÝ ẢNH VÀ HỌC SÂU ỨNG DỤNG TRONG QUẢN LÝ GIAO THƠNG NGÀNH: KHOA HỌC MÁY TÍNH - 8480101 Tp Hồ Chí Minh, tháng 04 năm 2023 Lý Lịch Khoa Học I LÝ LỊCH SƠ LƯỢC: Họ & tên: Huỳnh Tấn Phát Giới tính: Nam Ngày, tháng, năm sinh: 03/071995 Nơi sinh: Tiền Giang Quê quán: Tiền Giang Dân tộc: Kinh Chỗ riêng địa liên lạc: Số 20, đường tăng nhơn phú, P Phước long B, Tp Thủ đức, Tp Hồ Chí Minh Điện thoại quan: 0772954377 Điện thoại riêng: 0772954377 Fax: E-mail: phathuynh195@gmail.com II QUÁ TRÌNH ĐÀO TẠO: Trung học chuyên nghiệp: Hệ đào tạo: Thời gian đào tạo từ ……/…… đến ……/ …… Nơi học (trường, thành phố): Ngành học: Đại học: Hệ đào tạo: Chính quy Thời gian đào tạo từ 09/2017 đến 09/ 2019 Nơi học (trường, thành phố): Đại học công nghiệp thực phẩm Tp HCM Ngành học: Công nghệ thông tin Tên đồ án, luận án môn thi tốt nghiệp: “GIÁM SÁT HỆ THỐNG MẠNG DOANH NGHIỆP VỚI NAGIOS” Ngày & nơi bảo vệ đồ án, luận án thi tốt nghiệp: Đại học công nghiệp thực phẩm Tp HCM Người hướng dẫn: Ths Trần Đắc Tốt III Q TRÌNH CƠNG TÁC CHUN MƠN KỂ TỪ KHI TỐT NGHIỆP ĐẠI HỌC: Thời gian 2016 - 2019 Nơi công tác Công việc đảm nhiệm Công ty cổ phần công nghệ TMĐT Sagohano Lập trình viên 2019 - 2021 Cơng ty cổ phần Thế giới động Lập trình viên Từ 03/2021 Trường CĐ công thương Tp HCM Giảng viên [46] K K Kim, K Kim, J Kim, and H J Kim, “Learning-based approach for license plate recognition,” pp 614–623, Proceedings of the IEEE Signal Processing Society Workshop, Vol 2, 2000 [47] T Nukano and M Khalid, ““vehicle license plate character recognition by neural networks,” pp 771–775, in Proc Int Symp Intell Signal Process Commun Syst., 2004 [48] J Jiao, Q Ye, and Q Huang, “A configurable method for multi-style license plate recognition,” Pattern Recognition, vol 42, no 3, pp 358 – 369, 2009 [49] J Deng, W Dong, R Socher, L.-J Li, K Li, and L Fei-Fei, “ImageNet: A LargeScale Hierarchical Image Database,” in CVPR09, 2009 [50] C Szegedy, S Ioffe, and V Vanhoucke, “Inception-v4, inception-resnet and the impact of residual connections on learning,” CoRR, vol abs/1602.07261, 2016 [51] A Veit, M J Wilber, and S J Belongie, “Residual networks are exponential ensembles of relatively shallow networks,” CoRR, vol abs/1605.06431, 2016 [52] Q Liao and T A Poggio, “Bridging the gaps between residual learning, recurrent neural networks and visual cortex,” CoRR, vol abs/1604.03640, 2016 [53] M Everingham, S M A Eslami, L Van Gool, C K I Williams, J Winn, and A Zisserman, “The pascal visual object classes challenge: A retrospective,” International Journal of Computer Vision, vol 111, pp 98–136, Jan 2015 84 Bibliography [54] T B Dalal, N., “Histograms of oriented gradients for human detection,” pp 886– 893, 2005 [55] P F Felzenszwalb, R B Girshick, D McAllester, and D Ramanan, “Object detection with discriminatively trained part-based models,” IEEE Trans Pattern Anal Mach Intell., vol 32, pp 1627–1645, Sept 2010 [56] I Endres and D Hoiem, “Category independent object proposals,” in Proceedings of the 11th European Conference on Computer Vision: Part V, ECCV’10, (Berlin, Heidelberg), pp 575–588, Springer-Verlag, 2010 [57] D Hoiem, A A Efros, and M Hebert, “Recovering occlusion boundaries from an image,” Int J Comput Vision, vol 91, pp 328–346, Feb 2011 [58] R Girshick, “Fast R-CNN,” in International Conference on Computer Vision (ICCV), 2015 102 [59] K He, X Zhang, S Ren, and J Sun, “Spatial pyramid pooling in deep convolutional networks for visual recognition,” CoRR, vol abs/1406.4729, 2014 [60] J Redmon and A Farhadi, “Yolo9000: Better, faster, stronger,” arXiv preprint arXiv:1612.08242, 2016 [61] C Y Wang and R Cheng-Yue, “Traffic sign detection using You Only Look Once Framework,” (Stanford), 2016 [62] P Ringset, “Automatisk nummerskiltgjenkjenning for mobile enheter,” (NTNU), 2015 [63] J Yosinski, J Clune, Y Bengio, and H Lipson, “How transferable are features in deep neural networks?” CoRR, vol abs/1411.1792, 2014 [64] M Earl, “Using neural networks to build an automatic number plate recognition system.” https://github.com/matthewearl/deep-anpr, 2016 [65] G.-S Hsu, J.-C Chen, and Y.-Z Chung, “Application-oriented license plate recognition,” pp 552–561, IEEE Transactions on Vehicular Technology (Volume: 62, Issue: 2), 2012 [66] G Ning, Z Zhang, C Huang, Z He, X Ren, and H Wang, “Spatially supervised recurrent convolutional neural networks for visual object tracking,” arXiv preprint arXiv:1607.05781, 2016 103 NHẬN DẠNG BIỂN SỐ XE BẰNG KỸ THUẬT XỬ LÝ ẢNH VÀ HỌC SÂU ỨNG DỤNG TRONG QUẢN LÝ GIAO THÔNG Huỳnh Tấn Phát1 Trường Cao đẳng Cơng Thương TP.HCM TĨM TẮT Nhận dạng biển số xe tự động (ANPR) sử dụng nhiều mục đích, chẳng hạn bãi đậu xe, kiểm sốt phương tiện thu phí đường ô tô Tuy nhiên, việc gia tăng phương tiện giao thơng đường gây khó khăn cho việc quản lý giao thông hay bãi gởi xe Để giải vấn đề cần có phương pháp giúp cho trình thu nhận liệu từ thẻ nhanh chóng xác, địi hỏi phải có chương trình nhận dạng xử lý hình ảnh cách xác Trong báo nhóm đề xuất phương pháp sử dụng kỹ thuật học sâu giải nhiệm vụ ANPR có tốc độ xử lý độ xác cao Cụ thể nhóm ứng dụng mạng nơ-ron tích chập (Convolutional Neural Network-CNN) để nhận dạng ANPR Kết thực nghiệm cho thấy phương pháp nhóm đề xuất đạt độ xác cao vượt trội tất phương pháp khác xét tốc độ xử lý Từ khóa: Nhận dạng biển số xe tự động; mạng nơ-ron tính chập; Học sâu; Bãi giữ xe; Giao thông ABSTRACT Automatic Number Plate Recognition (ANPR) is used for various purposes, such as parking lots, vehicle control, and road tolls collection However, the increasing number of road vehicles makes parking lot management and road tolls collection for automobiles challenging To solve this problem, a method is needed to help quickly and accurately collect data from these plates, which requires a program capable of recognizing and processing images precisely In this paper, my team proposes a deep learning-based method for solving the ANPR task with high processing speed and accuracy Specifically, my team proposes applying two Convolutional Neural Networks (CNNs) for ANPR recognition Experimental results show that the proposed method achieves high accuracy and outperforms all other methods in terms of processing speed Keywords: Automatic License Plate Recognition; Convolutional Neural Networks; Deep learning; Parking lot management; Traffic 104 GIỚI THIỆU không, nhân viên phải nhập thủ công biển số Nhận dạng biển số tự động (ANPR) giúp xe để tra cứu sở liệu Mỗi mục xác định biển số xe cách hiệu nhập không vài giây, mà khơng cần nguồn nhân lực nhiệm vụ người phục vụ thực trở nên nhiều quan trọng hàng trăm lần ngày làm việc, năm gần Có số lý điều trở thành gánh nặng lớn Cũng tầm quan trọng chúng tăng lên Ngày có giới hạn cách nhiều xe mà có nhiều tơ đường tất chúng nhân viên đậu xe kiểm tra có biển số xe Sự phát triển nhanh chóng ngày làm việc Một hệ thống đề cơng nghệ xử lý hình ảnh kỹ thuật số xuất để giải vấn đề tăng hiệu giúp phát xác định gắn camera xe lái xe quanh biển số xe với tốc độ nhanh Toàn bãi đậu xe chụp ảnh quay phim biển trình thực 50 số xe tơ đậu Các nhiệm vụ hệ ms [13] Điều cho 20 khung hình thống ANPR nhận dạng biển số xe từ giây đủ để xử lý luồng video thời gian luồng hình ảnh video, tra cứu thực sở liệu xem vé đậu xe có hợp lệ Nhận dạng phương tiện hữu ích cho nhiều người điều khiển khác Nó sử dụng quan phủ để tìm tơ có liên quan đến tội phạm, tra cứu xem phí hàng năm có trả tiền xác định người vi phạm luật lệ giao thông Hoa Kỳ, Nhật Bản, Đức, Ý, Vương quốc Anh Pháp quốc gia áp dụng thành công ANPR lưu lượng truy cập để quản lý không Yêu cầu hệ thống ANPR độ xác cao đọc biển số xe thời gian xử lý nhanh hợp lý Nếu hệ thống không nhận dạng tất biển số xe, cung cấp báo mức độ chắn phân loại cụ thể để tránh dương tính giả Các phân loại độ không chắn cao nhân viên giữ xe kiểm tra tay sau giao thơng [14] Một số nhà khai thác tư Vì ANPR nhiệm vụ quan trọng cần nhân hưởng lợi từ hệ thống giải ba mươi năm qua, nên ANPR Hệ thống cho phép người dùng để số hệ thống ANPR tồn với mức độ đăng ký biển số xe tơ họ thơng qua xác tốc độ khác Các ứng dụng di động thông qua tin nhắn khảo sát lớn Du cộng [15] SMS với thời gian đậu xe mà họ muốn Patel cộng [16], xuất vào trả tiền Nếu người phục vụ đậu xe muốn năm 2013, cố gắng bao quát so sánh kiểm tra xem xe có phiếu đậu xe hợp lệ hay ấn phẩm gần lĩnh vực 105 Nhiều hệ thống bảo hiểm yêu cầu độ người lựa chọn để đại diện cho tính xác tổng thể 90% Tuy nhiên, độ hình ảnh Các kỹ thuật u xác tun bố hầu hết cầu mơ hình phức tạp người thiết trường hợp so sánh với kế để chuyển pixel đầu vào thơ thành các hệ thống khác thử nghiệm khác phản hồi nhận dạng hữu ích sử dụng không tồn thử Bài báo trình bày cách tiếp cận nghiệm phổ quát chấp nhận Sự phức thay cách sử dụng học sâu để tự tạp việc nhận dạng biển số xe động nhận dạng biển số xe Kỹ thuật học sâu kiểm tra khác tác động không sử dụng tính thiết kế đáng kể đến độ xác, làm cho so thủ cơng, tự động chọn tính sánh trực tiếp độ xác mà khơng coi Chúng thiết kế để học biểu diễn cấp độ phức tạp vô nghĩa Như thấp liệu cách sửa đổi tác giả [13], việc tuyên bố phương lọc đạt thành công pháp cho hiệu suất cao không phù nhiều lĩnh vực tầm nhìn máy tính, hợp thiếu cách thống để đánh giá chẳng hạn nhận dạng chữ viết tay [17] chúng So sánh hiệu suất tốc độ dễ dàng hơn, nhận dạng đối tượng trực quan [18] Các có yếu tố tác động đến nó, đặc phương pháp học sâu mạnh liên quan biệt độ phân giải pixel hình ảnh biển đến Mạng nơ-ron tích chập (CNN) Mạng số xe nơ-ron phân cấp CNN dựa kết Một hệ thống ANPR điển hình nối thưa thớt chia sẻ trọng lượng mang lại chia thành ba giai đoạn chính: cho chúng khả đại diện to lớn tiềm Phát biển số - phát biển số học tập cao Những thách thức lớn ảnh chụp CNN chi phí tính tốn cao nhu cầu Phân đoạn ký tự - trích xuất ký tự chữ số từ bảng số lượng lớn mẫu đào tạo Trong năm gần đây, CNN trở nên mạnh mẽ nhiều giải pháp thông Nhận dạng ký tự - nhận ký tự riêng minh để giảm chi phí tính tốn lượng mẫu lẻ đào tạo phát Vì chúng Mỗi giai đoạn thực cách công nghệ tiên tiến số sử dụng kỹ thuật học máy khác nhiệm vụ lĩnh vực nhận dạng hình ảnh, kỹ thuật trình bày kỹ nên người ta tin chúng phải Chương Các kỹ thuật học máy công cụ tiên tiến ANPR truyền thống sử dụng tính 106 Những đóng góp báo gồm phát nhận dạng biển số xe Tuy nhiên để tăng tỉ lệ xác nhận dạng có: • Bài báo xây dựng phương pháp biển số giải pháp đưa nhận dạng bao gồm đào tạo lại hai mạng nơ-ron phương tiện trước, sau từ phương tiện tích chập sâu ban đầu phát triển cho mục đích nhiệm vụ nhận dạng trực quan chung, để giải nhiệm vụ ANPR CNN phát biển số xe hình ảnh CNN thứ hai phát ký tự biển số xe Phương pháp khác với tất phương pháp khác trước sử dụng để giải nhiệm vụ ANPR • Phương pháp đề xuất sử dụng trung bình 33ms để nhận dạng biển số xe khơng phụ thuộc vào độ phân giải hình ảnh, tiếp tục nhận dạng biển số Mơ hình bỏ qua bước phân đoạn ký tự nhận diện trực tiếp chuỗi ký tự từ ảnh biển số từ đồ đặc trưng phần mạng phát Mô hình gồm hai mạng chính: mạng phát mạng nhận dạng Trong mạng phát sử dụng kiến trúc mạng Yolo5 với kích thước đầu vào 640x640 Mạng nhận diện sử dụng kiến trúc CRNN [1] Tùy theo thí nghiệm khác mà đề tài có thay đổi kiến trúc mạng phát nhận dạng Kiến trúc mơ hình đề xuất đề tài kiến trúc nhanh tất phương pháp khác tài liệu đủ nhanh để chạy luồng video thời gian thực, ghi lên đến 30 FPS mà không bị giảm khung hình Kiến trúc mơ tả theo hình Trình tự bước từ ảnh đầu vào kết đầu sau: • Bước 1: Đầu tiên ảnh đầu vào • Với tập hợp đào tạo nhỏ gồm 559 cho qua lớp mạng CNN để trích xuất hình ảnh, phương pháp đề xuất đạt đặc trưng Ảnh đầu vào ảnh màu độ xác dự đốn 95,8% (BGR) có kích thước Trước thử nghiệm tơ đỗ, tốt đưa vào lớp trích xuất đặc trưng ảnh đáng kể so với phương pháp khác đưa kích thước 640x640 Tại thử nghiệm trước tập đầu lớp này, ảnh biến đổi liệu thành đồ đặc trưng với kích MƠ HÌNH ĐỀ XUẤT thước 2.2 Tổng quan lần (80x80x128), lượt (160x160x64), (40x40x256), (20x20x512), (10x10x128), (5x5x256) Dựa ý tưởng cơng trình [5] [21], đề tài xây dựng mơ hình tích hợp • Bước 2: Các đồ đặc trưng từ bước 107 gồm kích thước khác đưa qua lớp mạng CNN Yolo5 [3] để phát vị trí phương tiện ảnh phát vị trí biển số xe phân loại biển số Chi tiết bước phát biển số xe kiến trúc mạng trình bày mục 4.2 • Bước 3: Tại bước vùng biển số xe cắt từ ảnh đầu vào Sau đồ đặc trưng cho vùng biển số Hình 1: Kiến trúc tống quan mơ hình đề xuất 2.3 Phát phương tiện biển số xe này, tùy vào loại biển số ngắn hay dài Để phát biển số xe đề tài dựa xử lý tương ứng đưa kích kiến trúc YOLO5 [3] Tuy nhiên, trước thước chung 32x100 Vùng biển số phát biển số đề tài bổ sung thêm bước sau xử lý đưa vào mạng nhận phát phương tiện trước phát diện phía sau Mục 4.3 trình bày chi biển số để tăng xác Ngồi ra, đề tài tiết cách trích xuất biển số xe có số thay đổi mạng nền, kích • Bước 4: Đây bước quan trọng thước đầu vào ảnh, số lần tích chập tỷ tồn hệ thống Vùng biển số lệ chuẩn Kích thước ảnh đầu vào sau trích xuất đưa qua lớp mạng Yolo5 gốc 640x640 Tuy nhiên với mạng nhận diện để chuỗi ký tự trực toán phát biển số xe, ảnh đầu vào tiếp mà không cần qua bước phân đoạn thường có độ phân giải lớn Do đề tài ký tự Mạng nhận diện mơ hình tích chọn kích thước ảnh đầu vào 1280x1280 hợp mạng CRNN [1] Chi tiết để đảm bảo biển số không bị thu nhỏ bước phát trình bày nhiều dẫn tối việc phất mục 4.4 Để đảm bảo vệc ô chuẩn (default box) • Bước 5: Bước cuối mơ hình trùng khớp tốt với hai dạng biển số bước tổng hợp kết từ hai lớp xe, đề tài thiết kế lại ô chuẩn mạng phát nhận diện kết cách thay đổi tỷ lệ chiều rộng chiều sau Tại bước vùng cao Đề tài đề xuất sử dụng tỷ lệ kích thước biển số lọc bớt dựa theo kết ô chuẩn sau: 1:1,1.55:0.8 1.02:0.99 việc nhận diện Ngồi trừ chuẩn có kích thước 1:1, để xác định tỷ lệ lại, đề tài dựa thống 108 kê tỷ lệ trung bình loại biển số hình ảnh thành văn số xe hố 2.4 Trích xuất vùng biển số xe Những ứng dụng OCR kể đến Với kiến trúc vùng biển số sau: cắt từ ảnh gốc Vùng biển số Nhận dạng biển số từ loại xe cắt dựa loại biển số ngắn hay dài Nhập liệu tự động từ tài liệu mà chia làm đôi Với biển số ngắn Đọc đồng hồ đo điện sau chia làm đôi ghép nối Đọc hộ chiếu chứng minh thư tiếp với theo chiều ngang Sau tất biển số đưa kích thước cố định Để nhận dạng chuỗi ký tự biển số, đề tài dựa kiến trúc mạng mà cơng trình [1] 32x100 Hình minh họa cho thao tác trích xuất vùng biển số xe Hình 2: Biển số sau cắt ghép lại đưa kích thước chưng Hình 3: Kiến trúc tổng quan mạng CRNN sử dụng mơ hình đề xuất Hai thao tác cắt vùng ảnh co giãn kích thước sử dụng lớp Các lớp tích chập sử dụng hàm kích mạng để thuận tiện cho thao tác huấn hoạt hàm ReLU Leaky ReLU Chú ý luyện kiểm thử sử dụng GPU Hai lớp bên cạnh lớp tích chập lấy mẫu xen kẽ mạng thích hợp cho thao tác để giảm kích thước đồ đặc trưng, Adaptive Max Pooling Roi Pooling [9] lớp lấy mẫu Pool_3 Pool_4 có 2.5 Nhận dạng ký tự biển số xe bước trượt phần chèn thêm khơng Sau trích xuất vùng biển số xe, bước nhận dạng ký tự vùng biển số Nhắc đến tài toán nhận dạng ký tự hay gọi Optical character recognition (OCR) phương pháp chuyển đổi tài liệu in, viết tay hay text theo hai chiều Đặc biệt lớp cuối lớp Conv_7 có bước trượt không chèn thêm Những thay đổi cho phép đồ đặc trưng sau có chiều cao cịn 1, cụ thể kích thước đồ đặc trưng 512x1x25 Ngoài việc thêm bước chuẩn hóa bó (batchnorm) vào lớp 109 Conv_3 Conv_5 giúp mạng ổn định thước định sẵn từ ma hận biến đổi hơn, tránh tượng giá trị đạo hàm rơi affine ±oo • Bilinear sampler: tạo đồ đặc Nhận thấy với liệu biển số biến trưng sau từ lưới đa tạo dùng đổi phối cảnh để dạng thẳng góc hình phép nội suy song tuyến (bilinear 4-6 giúp cải thiện độ xác việc nhận interpolation) diện Đề tài tìm cách cải thiện mơ hình Hình mơ tả cấu trúc lớp mạng STN: CRNN ban đầu theo hướng giúp mạng học phép biến đổi không gian cho ảnh đầu vào trước cho qua tiếp lớp mạng nhận diện sau Hình 4: Minh họa cho lớp tích chập sử đụng mạng CRNN Hình 8: Dữ liệu đầu vào sau khỉ qua 2.6 Nhận dạng ký tự phép biến đổi phối cảnh Sau nhận dạng ký tự Để làm điều đó, đề tài sử dụng lớp dạng hình ảnh từ biển số xe, giai đoạn tiếp mạng biến đổi không gian (Spatial Transfor- theo cần nhận dạng ký tự từ ảnh biển mation Network - STN) từ cơng trình [22] số chuyển chữ Để nhận dạng thêm vào trước lớp tích chập mạng ký tự có nhiều phương pháp nhận dạng, CRNN gốc hình KNN, SVM, CNN, CRNN, Ở luận văn sử dụng mạng neural tích chập nhận dạng ký tự số nguyên mạng neural tích chập có độ xác cao, hiệu tốc độ xử lý tính tốn nhanh Hình 9: Kiến trúc cải tiến mạng CRNN Mạng STN gồm phần chính: • Localization network: nhận vào đồ đặc trưng dự đoán ma hận biến mạng trước Mơ hình mạng neural tích chập xây dựng để nhận dạng ký tự sau: đổi affine • Grid generator: tạo lưới với kích 110 thực phép giảm số chiều ma trận đặc trưng (down Sampling – hay Pooling – hay subsampling) với hệ số tỷ lệ sử dụng hàm max Kết với 16 ma trận đặc trưng kích thước 10x10 tầng chập C3 Hình 5: Mơ hình mạng neural tích chập nhận dạng ký tự viết tay ta tạo 16 ma trận kích thước 5x5 tầng subsampling (S4) Tiếp tục sử dụng 120 ma Ảnh đầu vào ảnh thơ kích thước trận chập kích thước 5x5 chập với ma 64x64 pixel Luận văn sử dụng ma trận tích trận tầng S4 ta 120 ma trận ánh xạ chập kích thước 5x5 cho ma trận ảnh ặc đặc trưng kích thước 1x1 tầng chập C5 Do trưng sau chập lần ma trận đặc trưng tầng chập C5 điểm đặc ánh xạ đặc trưng tầng chập C1, ma trưng 1x1, ta không thực phép trận ánh xạ đặc trưng có kích thước tốn subsampling Tiếp theo ta sử dụng 28x28 Tức ảnh gốc ban đầu phân phép tốn max để giảm kích thước tầng tích theo chiều đặc trưng khác với ma chập C5 tầng C5 có tới 120 node đặc trận chập 5x5 trưng, ta dùng hàm max giảm xuống cịn 84 Do kích thước ảnh đặc trưng tầng chập node C1 có kích thước 28x28 lớn, tầng F6 Lưu ý khối bước thực phép giảm số chiều tầng từ đầu tới F6 ta sử dụng hàm kích ma trận đặc trưng (down Sampling – hay Pooling – hay subsampling) với hệ số tỷ lệ sử dụng hàm max: Ví dụ cạnh ma trận đặc trưng có giá trị 3,5 tạo thành ô ma trận đặc trưng subsamling là: max(3,5)=5 Như với ma trận đặc trưng kích thước 28x28 tầng chập C1 ta tạo ma trận kích thước 14x14 tầng subsampling (S2) Tiếp tục sử dụng 16 ma hoạt Sigmoid dạng: f (x)= y=1/(1+e-x) để tính tốn giá trị node mạng, tức y‟ = f(A*I) A ảnh chập, I ma trận chập, y‟ giá trị node ma trận ánh xạ đặc trưng Với 84 node tầng F6, sử dụng mơ hình mạng neural truyền thẳng với kết nối Fully Connection, với 10 outputs thiết kế sau: trận chập kích thước 5x5 chập với ma trận tầng S2 ta 16 ma trận ánh xạ đặc trưng kích thước 10x10 tầng chập C3 Do kích thước ảnh đặc trưng tầng chập C3 có kích thước 14x14 cịn lớn, bước 111 Hình 10: Minh họa Fully Connection biển số thông thường ô tô xe máy Nếu xét kích thước, biển số chia thành loại biển số ngắn biển số dài Xét tổng số lượng ký tự có biển số, biển số thơng thường có ký tự Tập liệu thực tế thu thập từ nguồn liệu bãi giữ xe Trường học bãi giữ xe chưng cư, nguồn liệu video lấy internet đường phố Đối Hình 6: Minh họa bước tích chập với liệu hình ảnh bãi giữ xe xe máy ôtô với gốc quay cố định phương tiện hình ảnh Với tập liệu video tự quay liệu với gốc quay khơng cố định có nhiều phương tiện lúc khung hình Tổng số lượng ảnh huấn luyện: 2176 ảnh Tổng số lượng ảnh để kiểm tra: 520 ảnh Số lượng biển số xe: 2180 Các ký tự biển số xe gồm: 0,1, 2, Hình 7: Một số mẫu chữ lỗi Quá trình thử nghiệm với 1000 chữ viết tay 3,4, 5, 6, 7, 8, 9, A, B, C, D, E, F, G, H, K, L, M, N, P, R, S, T, U, V, X, Y, Z Một biển số phát xác với phần mềm ta thấy kết xác với 96.6%, số kết sai viết không mạng biển số định nghĩa thể phân biệt biển số mà mạng ký tự phát tất THỰC NGHIỆM VÀ KẾT QUẢ 3.1 Các thông số thực nghiệm Dựa quy định Thông tư 15/2014/TT-BCA, tùy thuộc vào loại xe, tổ ký tự bên Điều có nghĩa bounding-box đặt sai chỗ, mạng ký tự phát ký tự xác, việc phát mảng tính dự đoán chức sở hữu, vùng lãnh thổ mà có quy định riêng kích thước, cách bố trí nội dung biển số khác Tuy nhiên để tài tập trung vào loại Một biển số dự đốn xác mạng ký tự định nghĩa biển số tất ký tự dự đốn xác với độ tin cậy giá trị ngưỡng 112 định Nếu độ tin cậy thấp ngưỡng, hai mạng 42 hình ảnh biển số xe bổ sung mạng lưới khơng đưa dự đốn để giảm bao gồm 32 biển số màu xanh cây, biển nguy dương tính giả Giá trị 70% ban đầu số kép, 10 lần xuất chữ A, lần chọn làm giá trị ngưỡng, dường xuất chữ R lần xuất hoạt động tốt với liệu không tạo chữ W nhiều dương tính giả dự đốn xác hầu hết ký tự Độ xác dự đốn tổng thể tính Bảng Tóm tắt kết thí nghiệm cho theo công thức sau: 𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = biển số 𝑇𝑃 𝑇𝑃 + 𝐹𝑃 + 𝐹𝑁 Bảng tóm tắt kết thí nghiệm cho mạng biển số Kết tốt đạt với TP true positives, FP mạng convolution đào tạo tập data dương tính giả FN âm tính giả Dương mở rộng bao gồm biển số màu trắng tính giả khơng tồn thử nghiệm biển số hai hàng với ngưỡng từ 70% đến hình ảnh chứa biển số xe 80% Mạng dự đoán biển số xe 3.2 Thực nghiệm hình ảnh với dương tính giả đạt độ Nhóm thực lần lặp Đối với phép lặp đầu tiên, đào tạo gồm 517 biển số xe sử dụng cho hai mạng xác tổng thể 95,8% Để tránh dương tính giả, cần đạt ngưỡng 90%, sau lỗi lại xuất Bảng Tóm tắt kết thí nghiệm cho Các biển số tìm thấy tập huấn biển sơ luyện biển số có sẵn giai đoạn đầu luận văn, tất từ tập thử nghiệm luận văn trước [62] Sau luận văn, liệu lớn biển số xe cung cấp Bộ thử nghiệm sử dụng phép lặp thứ hai chứa 410 biển số xe chọn ngẫu nhiên từ tập liệu lớn hơn, giữ phần lại để cải tiến thử nghiệm thêm Trong lần lặp thứ hai, 42 hình ảnh biển số bổ sung đưa vào liệu đào tạo, nâng tổng số hình ảnh đào tạo lên 559 cho Bảng tóm tắt kết thử nghiệm cho mạng ký tự Tập hợp data training mở rộng sử dụng với ngưỡng khoảng 60% cho độ xác tốt nhất, có số 410 biển số khơng dự đốn xác dẫn đến tỷ lệ dự đoán 95,8% Việc thêm liệu tạo làm giảm đáng kể độ xác Tổng độ xác dự đốn tốt 113 tồn hệ thống 95,6% Điều đạt frame video hiển thị với tập huấn luyện mở rộng mà khơng có Hình Như đề cập trước đó, chức liệu tạo thêm, giá trị ngưỡng 70-80% video bị giới hạn để phát biển mạng biển số 60% mạng số ký tự ký tự Đây cấu hình sử dụng cho hệ Các video xử lý với tốc độ xử lý thống cuối Hình 11 đưa ví dụ khoảng 45 FPS, chậm chút so với dự đoán biển số chụp bốn tốc độ hình ảnh xử lý, nhanh điều kiện khác thực hệ 29 FPS mà video chạy có nghĩa phút thống cuối video xử lý 45 giây trình khởi tạo mạng bị loại trừ Giá trị ngưỡng tin cậy đặt thành 70% Chức video thử nghiệm ba video Nhìn chung, mạng dường phát biển số gần tốt video có độ phân giải thấp thí nghiệm mơ tả phần trước với hình ảnh có độ phân giải cao Tất biển số quay ba video phát hiện, khung hình mà lẽ chúng phải Mạng phát biển số xe tất ký tự hiển thị, điều khơng thành vấn đề Hình 11: Kết thực nghiệm nhận dạng biển số 3.3 Nhận dạng với video Chức thử nghiệm video quay iPhone với 29 FPS kích thước video 568 × 320, thấp nhiều so với kích thước liệu huấn luyện gốc Các video ghi lại cách: nhân viên đậu xe ngang qua bãi đậu xe nhiều trường hợp mong muốn Sau thử nghiệm ban đầu, giá trị ngưỡng giảm xuống 30% Với giá trị ngưỡng hạ thấp, mạng cho kết tốt để phát phần biển số biển số xa Nói chung, hạn chế lớn việc giảm giá trị ngưỡng số lượng dương tính giả tăng lên Mặc dù khơng có vấn đề với dương tính giả video quay cho thử nghiệm này, mạng có nhiều ghi lại tất biển số xe Ảnh chụp nhanh 114 khả phát vật thể networks from overfitting,” J Mach Learn biển số có giá trị ngưỡng thấp, gây cố Res., vol 15, pp 1929–1958, Jan 2014 [2] Y LeCun, “Convolutional neural KẾT LUẬN Bài báo đề xuất phương pháp học sâu networks local receptive fields weight sharing pooling,” 1989 mạng nơ-ron tích chập sử dụng kiến túc [3] A Karpathy, “Cs231n convolutional YOLOv5 để nhận dạng phát biển số neural networks for visual recognition.,” xe Thuật toán đề xuất cho thấy khả (Standford University) dạng dạng tốt, tìm vùng biển số cách ly ký [4] Y LeCun, L Bottou, Y Bengio, and P tự với tỉ lệ thành công cao (ở biển số Haffner, “Gradient-based learning applied to thơng thường), tìm ảnh tự document recognition,” Proc IEEE, Nov nhiên, vùng biển số bị nghiêng Phương pháp 1998 đề xuất báo đạt độ xác [5] A Krizhevsky, I Sutskever, and G E 95% liệu mẫu Hinton, “Imagenet classification with deep convolutional neural networks,” in Advances TÀI LIỆU THAM KHẢO in Neural Information Processing Systems 25 [1] N Srivastava, G Hinton, A Krizhevsky, (F Pereira, C J C Burges, L Bottou, and I Sutskever, and R Salakhutdinov, K Q Weinberger, eds.), pp 1097–1105, “Dropout: A simple way to prevent neural Curran Associates, Inc., 2012 Tác giả chịu trách nhiệm viết: Họ tên: Huỳnh Tấn Phát Đơn vị: Trường CĐ Công Thương TP HCM Điện thoại: 0932610897 Email: phathuynh195@gmail.com 115

Định dạng
Số trang	117
Dung lượng	6,8 MB