1. Trang chủ
  2. » Luận Văn - Báo Cáo

N tên Đề tài ứng dụng mạng nơ ron tích chập cho bài toán nhận dạng biển số xe ô tô việ

35 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Ứng Dụng Mạng Nơ-Ron Tích Chập Cho Bài Toán Nhận Dạng Biển Số Xe Ô Tô Việt Nam
Tác giả Đỗ Minh Ngọc
Người hướng dẫn PGS.TS. Nguyễn Quang Hoan
Trường học Học viện Công nghệ Bưu chính Viễn thông
Chuyên ngành Hệ thống thông tin
Thể loại Đề tài
Năm xuất bản 2021
Thành phố Hà Nội
Định dạng
Số trang 35
Dung lượng 8,54 MB

Cấu trúc

  • CHƯƠNG 1: MẠNG NEURAL VÀ MẠNG NEURAL TÍCH CHẬP. 2 (8)
    • 1.1 Mạng neural (8)
      • 1.1.1 Định nghĩa (8)
      • 1.1.2. Mạng neural tích chập (10)
  • CHƯƠNG 2: TỔNG QUAN VỀ NHẬN DẠNG BIỂN SỐ XE (21)
    • 2.1 Khái niệm về hệ thống nhận dạng biển số xe (21)
      • 2.1.1 Khái niệm (21)
      • 2.1.2 Lịch sử và phát triển (21)
      • 2.1.3. Cách thức hoạt động của hệ thống nhận dạng biển số xe (21)
      • 2.1.4. Phân loại các ứng dụng nhận dạng biển số xe (22)
      • 2.1.5. Ứng dụng thực tiễn tại Việt Nam (23)
      • 2.1.6. Phân loại biển số xe (23)
    • 2.2. Phương pháp nhận dạng biển số xe từ ảnh chụp của camera (25)
      • 2.2.1. Phương pháp chuyển đổi Hough (26)
      • 2.2.2. Phương pháp hình thái học (26)
    • 2.3. Phương pháp nhận dạng ký tự trong biển số xe (27)
    • 2.4. Phạm vi nghiên cứu và hướng giải quyết (28)
  • CHƯƠNG 3: ÁP DỤNG MẠNG NEURAL TÍCH CHẬP TRONG NHẬN DẠNG KÝ TỰ (30)
    • 3.1. Xây dựng mô hình mạng (30)
    • 3.2. Kết quả nhận dạng ký tự viết tay (32)
    • 3.3. Kết quả thực nghiệm nhận dạng biển số xe với mạng Neural tích chập (33)
    • 3.4. Kết luận (33)
    • 3.5. Hướng phát triển của bài toán (34)

Nội dung

Deep Learning được ứng dụng trong nhận diện hình ảnh, nhận diện giọng nói, xử lý ngôn ngữ tự nhiên Hiện nay rất nhiều các bài toán nhận dạng sử dụng deep learning để giải quyết do deep l

MẠNG NEURAL VÀ MẠNG NEURAL TÍCH CHẬP 2

Mạng neural

Mạng nơron nhân tạo (Artificial Neural Network - ANN) là mô hình xử lý thông tin dựa trên cách thức hoạt động của các hệ nơron sinh học Nó bao gồm nhiều nơron kết nối qua các liên kết có trọng số, hoạt động như một thể thống nhất để giải quyết các vấn đề cụ thể Mạng nơron được cấu hình cho các ứng dụng như nhận dạng mẫu và phân loại dữ liệu thông qua quá trình học từ tập mẫu huấn luyện, trong đó việc học chính là điều chỉnh trọng số liên kết giữa các nơron.

Cấu trúc neural nhân tạo:

Hình 1.1 Cấu tạo một Neural Các thành phần cơ bản của một nơron nhân tạo bao gồm:

• Tập các đầu vào: Là các tín hiệu vào (input signals) của nơron, các tín hiệu này thường đuợc đưa vào dưới dạng một vector N chiều

Trong mạng nơ-ron, mỗi liên kết giữa tín hiệu vào thứ j và nơ-ron k được thể hiện bởi trọng số liên kết (synaptic weight) ký hiệu là wkj Những trọng số này thường được khởi tạo ngẫu nhiên khi mạng được thiết lập và được cập nhật liên tục trong quá trình học của mạng.

• Bộ tổng (Summing function): Thường dùng để tính tổng của tích các đầu vào với trọng số liên kết của nó

• Ngưỡng (còn gọi là một độ lệch - bias): Ngưỡng này thường được đưa vào như một thành phần của hàm truyền

Hàm truyền (Transfer function) là công cụ quan trọng trong mạng nơron, giúp xác định phạm vi đầu ra của mỗi nơron Hàm này nhận đầu vào từ kết quả của hàm tổng và ngưỡng, đảm bảo rằng đầu ra được giới hạn trong một khoảng nhất định.

• Đầu ra: Là tín hiệu đầu ra của một nơron, với mỗi nơron sẽ có tối đa là một đầu ra

Xét về mặt toán học, cấu trúc của một nơron k, được mô tả bằng cặp biểu thức sau:

Trong mạng nơron nhân tạo, các tín hiệu đầu vào x1, x2, , xp được xử lý thông qua các trọng số liên kết (wk1, wk2, , wkp) của nơron thứ k Hàm tổng uk sẽ tính tổng các tích giữa tín hiệu đầu vào và trọng số, sau đó kết quả được gửi đến hàm truyền f Cuối cùng, nơron sẽ tạo ra tín hiệu đầu ra yk, là kết quả của hàm truyền.

Bảng 1.1 Một số hàm truyền thông dụng

1.1.2 Mạng neural tích chập Định nghĩa mạng neural tích chập

Trong những năm gần đây, ngành Thị giác máy tính (Computer Vision) đã đạt được nhiều thành tựu nổi bật Các hệ thống xử lý ảnh lớn như Facebook, Google và Amazon đã tích hợp các chức năng thông minh vào sản phẩm của mình, bao gồm nhận diện khuôn mặt, phát triển xe hơi tự lái và drone giao hàng tự động.

Mạng nơ-ron tích chập (CNNs) là một trong những mô hình Deep Learning tiên tiến, cho phép xây dựng các hệ thống thông minh với độ chính xác cao Bài viết này sẽ trình bày về quá trình tích chập và khái niệm của mô hình CNNs, đặc biệt trong việc phân lớp chữ viết và ứng dụng trong nhận dạng biển số xe (Image Classification).

Tích chập, được áp dụng đầu tiên trong xử lý tín hiệu số, đã trở thành một kỹ thuật quan trọng trong xử lý ảnh và video nhờ vào nguyên lý biến đổi thông tin Để hình dung dễ dàng hơn, tích chập có thể được ví như một cửa sổ trượt áp dụng lên một ma trận, cho phép theo dõi cơ chế hoạt động của nó một cách trực quan.

Hình 1.2 Minh họa tích chập

Ma trận bên trái là một bức ảnh đen trắng, trong đó mỗi giá trị tương ứng với một điểm ảnh (pixel), với 0 là màu đen và 1 là màu trắng (trong ảnh grayscale, giá trị dao động từ 0 đến 255) Phương pháp Sliding window, còn gọi là kernel, filter hay feature detector, sử dụng ma trận filter 3×3 để nhân từng thành phần tương ứng với ma trận ảnh Giá trị đầu ra được tính bằng tổng tích của các thành phần này, tạo ra một ma trận (convolved feature) từ việc trượt ma trận filter và thực hiện tích chập trên toàn bộ ma trận ảnh Dưới đây là một số ví dụ về phép toán tích chập.

Ta có thể làm mờ bức ảnh ban đầu bằng cách lấy giá trị trung bình của các điểm ảnh xung quanh cho vị trí điểm ảnh trung tâm

Hình 1.3 Ảnh mờ sau khi chập Ngoài ra, ta có thể phát hiện biên cạnh bằng cách tính vi phân (độ dị biệt) giữa các điểm ảnh lân cận.

Hình 1.4 Ảnh được phát hiện biên sau khi chập

Mô hình mạng neural tích chập

CNNs, hay Mạng Nơ-ron Tích Chập, là một cấu trúc mạng bao gồm nhiều lớp convolution kết hợp với các hàm kích hoạt phi tuyến như ReLU hoặc tanh Sự kết hợp này giúp tạo ra thông tin trừu tượng và nâng cao cho các lớp tiếp theo trong quá trình xử lý dữ liệu.

In a Feedforward Neural Network, layers are directly connected through weighted vectors, known as weights These layers are often referred to as fully connected layers or affine layers, highlighting their comprehensive interconnectivity within the model.

CNN hoạt động khác biệt so với các mạng nơ-ron truyền thống, khi các lớp được kết nối thông qua cơ chế convolution Kết quả của mỗi lớp là sự kết hợp từ lớp trước, tạo ra các kết nối cục bộ Điều này có nghĩa là mỗi nơ-ron ở lớp tiếp theo được hình thành từ việc áp dụng filter lên một vùng ảnh cục bộ của nơ-ron ở lớp trước.

Mỗi lớp trong mạng neural được áp dụng nhiều bộ lọc khác nhau, thường từ vài trăm đến vài nghìn bộ lọc Ngoài ra, các lớp pooling hoặc subsampling giúp lọc ra thông tin hữu ích và loại bỏ nhiễu Tuy nhiên, bài viết này sẽ không đi sâu vào khái niệm chi tiết của các lớp này.

Trong quá trình huấn luyện, CNNs tự động điều chỉnh các thông số cho các bộ lọc, từ việc nhận diện pixel thô đến các đặc trưng cao cấp như hình dạng và khuôn mặt Mỗi lớp sẽ tìm ra các thông số tối ưu, với lớp cuối cùng đảm nhận nhiệm vụ phân loại ảnh.

Hình 1.5 Mô hình mạng neural tích chập

CNNs có tính bất biến và tính kết hợp cục bộ, cho phép chúng xử lý các đối tượng từ nhiều góc độ khác nhau mà không làm giảm độ chính xác Pooling layer giúp đạt được tính bất biến đối với phép dịch chuyển, phép quay và phép co giãn Tính kết hợp cục bộ cung cấp các cấp độ biểu diễn thông tin từ thấp đến cao và trừu tượng hơn thông qua quá trình convolution với các filter Điều này giải thích tại sao CNNs có độ chính xác cao, tương tự như cách con người nhận diện các vật thể trong tự nhiên, từ những đặc trưng cơ bản như số chân và đuôi đến những đặc điểm phức tạp hơn như dáng đi và màu sắc.

Xây dựng mạng neural tích chập

Mạng tích chập sâu (deep convolutional networks) là một trong những mạng sâu phổ biến, được áp dụng để phân loại chữ số viết tay từ tập dữ liệu MNIST Chúng ta sẽ bắt đầu với mạng truyền thống và dần dần phát triển một mạng hiệu quả hơn thông qua các kỹ thuật như tích chập, giảm số chiều, và sử dụng GPUs để huấn luyện với dữ liệu lớn hơn Bên cạnh đó, chúng ta sẽ áp dụng các phương pháp như mở rộng giải thuật huấn luyện để giảm quá khớp (overfitting) và sử dụng kỹ thuật dropout Kết quả đạt được là hệ thống có khả năng phân loại chính xác 9.967 trên 10.000 bức ảnh huấn luyện Phần còn lại của chương sẽ khám phá học sâu từ góc độ tổng quan và chi tiết, ứng dụng mạng nơron tích chập trong nhận dạng tiếng nói, xử lý ngôn ngữ tự nhiên và các lĩnh vực khác, đồng thời tìm hiểu về tương lai của mạng nơron và vai trò của học sâu trong trí tuệ nhân tạo, dựa trên các khái niệm như lan truyền ngược, regularization, và hàm softmax.

TỔNG QUAN VỀ NHẬN DẠNG BIỂN SỐ XE

Khái niệm về hệ thống nhận dạng biển số xe

Hệ thống nhận dạng biển số xe sử dụng công nghệ phân tích hình ảnh để xác định và nhận diện vùng chứa biển số trên xe thông qua video và thiết bị ghi hình.

2.1.2 Lịch sử và phát triển

Công nghệ nhận dạng biển số tự động (ALPR) được phát triển vào năm 1992 tại Đại học Cambridge, Vương quốc Anh, nhằm đối phó với chủ nghĩa khủng bố Đến năm 1996, ALPR đã được hoàn thiện và triển khai tại các cổng phía tây Vương quốc Anh để đọc biển số xe từ Ireland Từ đó, công nghệ này tiếp tục được nghiên cứu và phát triển Tính đến tháng 3 năm 2006, hầu hết các con đường, trung tâm thị trấn, cảng và trạm xăng ở London đã được lắp đặt camera sử dụng phần mềm ALPR.

Báo cáo này phân tích phương pháp nhận dạng biển số xe bằng cách kết hợp phép biến đổi Hough và thuật toán tìm Contour để nâng cao độ chính xác trong phát hiện Sau khi xác định vùng ứng viên, các khu vực này được quét theo dòng để đếm số đối tượng bị cắt và so sánh với ngưỡng đã định, từ đó xác định vùng ứng viên phù hợp Kết quả đạt được trong quá trình nhận dạng lên đến 98-99%.

Phần mềm nhận dạng biển số xe đã được triển khai tại các trạm cân, bãi gửi xe và hệ thống đèn giao thông để phát hiện các phương tiện vi phạm.

2.1.3 Cách thức hoạt động của hệ thống nhận dạng biển số xe

Hệ thống ALPR (Automatic License Plate Recognition) bao gồm phần cứng và phần mềm, trong đó phần cứng là camera thu nhận ảnh xe và phần mềm có nhiệm vụ nhận dạng biển số từ ảnh chụp Camera được lắp đặt tại vị trí cố định để quét hình ảnh xe rõ ràng và chụp lại biển số Ảnh sau đó được đưa vào phần mềm để trích xuất biển số chính xác, sử dụng thuật toán OCR (Optical Character Recognition) để nhận diện từng ký tự và chuyển đổi thành định dạng mà máy tính có thể hiểu Nhờ sự phát triển công nghệ, camera hiện nay có khả năng chụp rõ nét ngay cả khi xe di chuyển với tốc độ cao trên các đường cao tốc.

Hệ thống nhận diện biển số tự động (ALPR) không thể đạt độ chính xác 100% do nhiều yếu tố ảnh hưởng như thời tiết, độ sáng và góc chụp của camera Một số yếu tố cụ thể có thể làm giảm độ chính xác bao gồm độ phân giải hình ảnh kém, hình ảnh bị mờ, điều kiện ánh sáng yếu, phản chiếu hoặc bị che bóng.

Các đối tượng có dạng tương tự như biển số xe ở ngoại cảnh

Sự khác nhau về cấu trúc biển số xe của mỗi nước

2.1.4 Phân loại các ứng dụng nhận dạng biển số xe

Có nhiều phương pháp để phân loại các ứng dụng nhận dạng biển số xe, trong đó một cách đơn giản là dựa vào mục đích sử dụng Các ứng dụng này có thể được chia thành hai loại chính.

Loại 1: Giới hạn vùng nhìn Đầu vào: Ảnh thu trực tiếp từ các thiết bị ghi nhận ảnh kỹ thuật số Ảnh được ghi nhận thường chỉ giới hạn trong vùng có biển số xe

Nguyên lý hoạt động của hệ thống nhận dạng biển số xe yêu cầu các phương tiện giao thông di chuyển với tốc độ chậm để máy có thể ghi lại hình ảnh rõ nét Những ứng dụng này thường được sử dụng tại các trạm kiểm soát, trạm thu phí, bãi gửi xe tự động và các trạm gác cổng.

Loại 2: Không giới hạn vùng nhìn Đầu vào: Ảnh đầu vào thu được từ các thiết bị ghi hình tự động, không phụ thuộc vào góc độ, các đối tượng xung quanh, ảnh không cần bắt buộc chỉ chụp vùng chứa biển số xe, mà có thể ảnh tổng hợp như chứa thêm các đối tượng như người, cây đường phố , miễn là vùng biển số xe phải đủ rõ để có thể thực hiện nhận dạng được ký tự trong vùng đó

Nguyên lý hoạt động của hệ thống nhận dạng biển số xe dựa trên khả năng thu thập hình ảnh từ các thiết bị ghi hình như camera hay máy ảnh, cho phép xác định vùng biển số xe trong ảnh Quá trình này bao gồm việc dò tìm, tách vùng và nhận dạng biển số, sau đó kết quả có thể được lưu trữ hoặc truyền đi tùy thuộc vào nhu cầu của người dùng Ứng dụng của công nghệ này rất đa dạng, đặc biệt tại các khu vực điều tiết giao thông hoặc các điểm nhạy cảm như ngã ba, ngã tư, giúp kiểm soát và phát hiện các hành vi vi phạm an toàn giao thông.

2.1.5 Ứng dụng thực tiễn tại Việt Nam

Hệ thống nhận dạng biển số xe được phát triển để giám sát và kiểm soát phương tiện giao thông Dưới đây là một số ứng dụng phổ biến của hệ thống này trong việc quản lý và bảo đảm an toàn giao thông.

Thu phí giao thông: Lắp đặt hệ thống “Nhận dạng biển số xe” tại các trạm thu phí nhằm hỗ trợ hoặc tự động hóa công tác thu phí

Kiểm soát xe tại các đường biên giới là một phần quan trọng trong việc quản lý giao thông và bảo đảm an ninh quốc gia Mỗi quốc gia có quy định riêng về biển số xe để phát hiện các phương tiện vượt biên giới bất hợp pháp Việc lắp đặt hệ thống “Nhận dạng biển số xe” tại các trạm kiểm soát sẽ nâng cao hiệu quả trong công tác kiểm tra và bảo vệ an ninh.

2.1.6 Phân loại biển số xe

Quy định về màu sắc và các ký tự trên biển số

Biển trắng chữ đen dành cho dân sự

Màu trắng 2 chữ, 5 số là biển dành cho người nước ngoài

NG là xe ngoại giao

NN là xe của các tổ chức, cá nhân nước ngoài: Trong đó 3 số ở giữa là mã quốc gia, 2 số tiếp theo là số thứ tự

Biển số 80 NG xxx-yy được cấp cho các đại sứ quán, trong đó, nếu có gạch đỏ ở giữa và hai số cuối là 01, thì đó là biển số xe của tổng lãnh sự.

Biển đỏ chữ trắng là dành cho quân đội

Bảng 2.1 Quy định biển số cho quân đội.

Quy định về biển số cho các tỉnh thành

Bảng 2.2 Quy định biển số cho các tỉnh thành

Các xe mang biển A: Xe của Công An - Cảnh Sát tương ứng với các tỉnh.

Phương pháp nhận dạng biển số xe từ ảnh chụp của camera

Có nhiều phương pháp để giải quyết vấn đề này nhưng đều quy về các Phương pháp chính sau đây:

Phương pháp chuyển đổi Hough sử dụng đặc trưng cạnh biên để phát hiện các đường thẳng gần song song, từ đó xác định vùng chứa biển số xe Trong khi đó, phương pháp hình thái học dựa vào đặc trưng hình thái như màu sắc, độ sáng và sự đối xứng để trích xuất ảnh biển số.

2.2.1 Phương pháp chuyển đổi Hough

Dò đặc trưng biên ngang và dọc giúp làm nổi bật các viền bao của tất cả các đối tượng trong ảnh, bao gồm cả viền bao biển số Nghiên cứu này áp dụng bộ lọc Sobel để trích xuất các đặc trưng cạnh biên, và sau đó sử dụng chuyển đổi Hough để xác định các đoạn thẳng ngang và dọc dựa trên ảnh nhị phân biên cạnh thu được.

Tách các đoạn thẳng ngang, dọc có thể là cạnh của biển số

Trích ứng viên biển số là quá trình hình thành các hình chữ nhật từ các bộ 4 đoạn thẳng, được đánh giá dựa trên kích thước và tỷ lệ chiều rộng so với chiều cao theo một ngưỡng nhất định Phương pháp này mang lại độ chính xác cao và không bị ảnh hưởng bởi màu sắc của biển số xe.

Nhược điểm của phương pháp này là độ phức tạp trong tính toán khá cao, đặc biệt khi hình ảnh chứa nhiều đối tượng khác nhau Khối lượng tính toán sẽ tăng lên đáng kể vì cần xác định vùng con chứa biển số xe, điều này phụ thuộc lớn vào bước trích đặc trưng Kết quả là các đoạn thẳng ứng viên thường ngắn hơn nhiều so với chiều dọc và chiều ngang của biển số.

2.2.2 Phương pháp hình thái học

Nhóm tác giả Chirag N Paunwala, 2012 đại diện cho Phương pháp này, với kết quả nhận dạng rất tốt 99.5%

Phương pháp này dựa vào đặc điểm nổi bật của biển số xe máy, với độ sáng (mức xám) khác biệt so với các khu vực xung quanh trong bức ảnh Sự phân bố mức xám trên biển số cũng khá đồng đều, cho phép nhị phân hóa để xác định vùng biển số như một đối tượng có hình thái đặc trưng, dễ phân biệt với các vùng khác Các bước thực hiện sẽ được tiến hành dựa trên những đặc điểm này.

Xác định ngưỡng xám là một quá trình không có phương pháp cụ thể nào để chọn chính xác Thay vào đó, ngưỡng xám được quét trong một khoảng nhất định Qua lược đồ xám, chúng ta nhận thấy vùng biển số thường có độ sáng tương đối lớn (từ 130-200), do đó, ngưỡng xám cần chọn sẽ thuộc vùng này, giúp giảm thời gian tìm kiếm ngưỡng xám.

Nhị phân hoá ảnh xám đầu vào với ngưỡng xám đã xác định

Lọc các nhiễu gây ảnh hưởng xấu tới đối tượng biển số

Gắn nhãn cho các đối tượng trong ảnh nhị phân thu được

Trích xuất các ứng viên biển số xe dựa trên các tiêu chí cụ thể như chiều cao, chiều rộng, tỷ lệ các cạnh, diện tích, trọng tâm và số điểm cắt.

Phương pháp nhận dạng ký tự trong biển số xe

Phương pháp nhận dạng ký tự phổ biến nhất là sử dụng mạng nơ-ron hoặc các thuật toán như SVM, K-NN, tuy nhiên, do số lượng ký tự trên biển số không nhiều, phương pháp hình thái học có thể được áp dụng để tăng tốc độ xử lý Các ký tự có đặc điểm hình thái riêng biệt, như "0" có lỗ trống ở giữa, "8" có hai lỗ trống, và "X" đối xứng qua hai trục Việc xây dựng cây nhị phân tối ưu dựa trên các đặc điểm hình thái giúp đảm bảo tính khoa học và độ chính xác cao trong nhận dạng.

Quan sát chọn ra các đặc tính phân biệt ký tự để xây dựng ma trận đặc tính

Xây dựng cây nhị phân tối ưu từ ma trận đặc tính và tập ký tự thu được.

Quan sát cây nhị phân và kiểm tra các đặc tính cần thiết để xác định tính đúng đắn của nó Nếu thiếu hoặc thừa đặc tính, cần phải điều chỉnh bằng cách bổ sung hoặc loại bỏ và quay lại bước đầu tiên để đảm bảo tính chính xác.

Tiến hành nhận dạng các ký tự trên cơ sở cây nhị phân tối ưu tìm được.

Phạm vi nghiên cứu và hướng giải quyết

Trong tiểu luận này, chúng tôi tập trung vào việc phát hiện vùng chứa biển số xe và nhận dạng ký tự trên biển số Để giải quyết bài toán phát hiện vùng biển số cho các biển đăng ký xe tại Việt Nam, chúng tôi áp dụng phương pháp hình thái học Đối với nhận dạng ký tự, chúng tôi sử dụng mô hình mạng Neural tích chập nhằm đạt được hiệu quả cao trong quá trình nhận diện.

Biển số xe tại Việt Nam có những đặc điểm nhận dạng riêng, trong đó tiêu chuẩn về kích thước được quy định bởi Bộ Giao Thông Vận Tải Mỗi loại xe đều có tỷ lệ chiều dài và rộng đồng nhất, đảm bảo tính đồng đều trong việc nhận diện biển số Quy định này góp phần tạo sự thống nhất và dễ dàng trong việc quản lý phương tiện giao thông.

- Chiều cao: 110 mm Chiều rộng: 470 mm (biển dài)

- Chiều cao: 200 mm Chiều rộng: 280 mm (biển vuông).

Dựa vào các đặc điểm đã nêu, chúng ta có thể xác định vùng có khả năng là biển số dựa trên các ràng buộc về kích thước và tiêu chuẩn ký tự.

Theo khảo sát, kích thước của mỗi ký tự trên biển số xe được quy định rõ ràng, với chiều cao luôn nhỏ hơn 85% và lớn hơn 60% chiều cao của biển số đối với biển số một hàng Đối với biển số hai hàng, chiều cao mỗi ký tự không vượt quá 50% chiều cao biển số Chiều rộng của ký tự không lớn hơn 20% chiều cao của nó Mỗi ký tự được xem như một vùng liên thông hay contour con, cho phép đếm số contours con tương ứng Tại Việt Nam, số ký tự trên mỗi biển số xe thường dao động từ 6 đến 9 ký tự.

Từ những phân tích trên, có thể tóm tắt phương pháp thực hiện của chương trình nhận dạng như sau:

- Bước 1: Ảnh đầu vào là ảnh màu BGR, tiền xử lý bằng các thuật toán xử lý ảnh

- Bước 2: Tìm các contour trên ảnh xe (Mỗi contour là 1 vùng bao kín, do vùng biển số là 1 vùng bao kín nên sẽ tương ứng với một contour)

- Bước 3: Lọc các contour theo các tiêu chí như kích thước, góc, tỉ lệ, số kí tự,…

- Bước 4: Xử lý kết quả đầu ra để lấy vùng biển số

- Bước 5: Tách ký tự trên vùng biển số tìm được

- Bước 6: Đưa tập ký tự đã tách vào mạng Neural để nhận dạng

- Bước 7: Hiển thị kết quả lên giao diện chương trình

ÁP DỤNG MẠNG NEURAL TÍCH CHẬP TRONG NHẬN DẠNG KÝ TỰ

Xây dựng mô hình mạng

Sau khi tách các ký tự từ biển số xe dưới dạng ảnh, bước tiếp theo là nhận dạng các ký tự này thành văn bản Có nhiều phương pháp nhận dạng như K-NN, SVM, và mạng neural lan truyền ngược Tuy nhiên, trong bài viết này, chúng ta sẽ sử dụng mạng neural tích chập để nhận dạng ký tự số, vì mạng này có độ chính xác cao và tốc độ xử lý nhanh hơn các phương pháp trước đó.

Mô hình mạng neural tích chập được xây dựng để nhận dạng các ký tự như sau:

Mô hình mạng neural tích chập được sử dụng trong nhận dạng ký tự viết tay bắt đầu với ảnh đầu vào có kích thước 32x32 pixel Qua quá trình chập đầu tiên với 6 ma trận kích thước 5x5, chúng ta thu được 6 ma trận ảnh đặc trưng ở tầng chập C1, mỗi ma trận có kích thước 28x28 Điều này cho thấy ảnh gốc đã được phân tích theo 6 chiều đặc trưng khác nhau nhờ vào các ma trận chập.

Do kích thước các ảnh đặc trưng ở tầng chập C1 là 28x28, chúng ta sẽ thực hiện phép giảm số chiều ở ma trận đặc trưng thông qua phương pháp down sampling (hay còn gọi là pooling hoặc subsampling) với hệ số tỷ lệ 2, sử dụng hàm max.

Ví dụ 2 ô cạnh nhau trong ma trận đặc trưng có giá trị 3,5 tạo thành 1 ô trong ma trận đặc trưng subsamling là : max(3,5)=5

Hình 3.2 Minh họa Fully Connection

Với mỗi giá trị ra được tính như công thức trên

Ta có thể hình dung mô hình nhận dạng chữ viết được thực hiện như sau:

Hình 3.3 Minh họa các bước tích chập

Kết quả nhận dạng ký tự viết tay

Chúng tôi đã phát triển phần mềm nhận dạng biển số xe sử dụng mạng neural tích chập Phần nhận dạng ký tự được trình bày chi tiết, cho thấy kết quả thực nghiệm khả năng nhận diện chữ viết tay bằng công nghệ mạng neural tích chập.

Hình 3.4 Kết quả thực nghiệm CNN

Quá trình thử nghiệm với 1000 chữ viết tay cho thấy phần mềm đạt độ chính xác 99.6% Một số sai sót xuất phát từ những chữ viết không thể phân biệt rõ ràng.

Hình 3.5 Một số mẫu chữ lỗi [1]

Phần mềm nhận dạng chữ viết tay đạt độ chính xác gần như tuyệt đối, cho phép ứng dụng hiệu quả trong việc nhận diện biển số xe.

Kết quả thực nghiệm nhận dạng biển số xe với mạng Neural tích chập

Chạy ứng dụng nhận dạng biển số với 376 ảnh dữ liệu về xe để kiểm tra hiệu quả phát hiện biển số, tách ký tự và nhận dạng ký tự của chương trình, đồng thời ghi nhận kết quả đạt được.

Tỉ lệ biển nhận dạng đúng vùng biển số: 372/376 ~ 98%

Biển số bị tối,thiếu ánh sáng Hình 3.6 Biển không phát hiện được biển số

Tỉ lệ biển tách đúng và đầy đủ ký tự: 330/335 ~ 98%

Kết quả nhận dạng biển số từ ứng dụng cho thấy tỷ lệ thành công đạt khoảng 65%, do nhiều ảnh không đạt tiêu chuẩn như bị bóng mờ, quá bẩn hoặc nhòe Tuy nhiên, với những bức ảnh biển số rõ ràng, không có phụ kiện gắn kèm, tỷ lệ nhận dạng có thể tăng lên trên 70%.

Kết luận

Demo nhận dạng với phương pháp trình bày trong đồ án này đã đạt được một số điểm như:

Nắm được các vấn đề cơ bản của ảnh số và xử lý ảnh số

Sử dụng tương đối tốt thư viện EmguCV cho C# để xử lý ảnh.

Nắm được các đặc điểm của một bài toán nhận dạng nói chung và nhận dạng biển số xe nói riêng

Tìm hiểu được một số phương pháp nhận dạng biển số xe, nắm được ưu nhược điểm của từng Phương pháp

Demo và thử nghiệm đã đạt tỉ lệ nhận dạng chính xác 99% trên các bộ dữ liệu mẫu Thuật toán này có ưu điểm cài đặt nhanh, khả năng xác định vùng biển số và cách ly ký tự với tỉ lệ thành công cao, đặc biệt là với các biển số thông thường Hệ thống cũng có khả năng nhận diện biển số trong ảnh tự nhiên, ngay cả khi vùng biển số bị nghiêng.

Bên cạnh đó, còn tồn tại một số điểm hạn chế chưa giải quyết được như:

Tỉ lệ nhận dạng còn phụ thuộc nhiều vào điều kiện ánh sáng, phản chiếu hoặc che bóng

Biển số có đường viền phức tạp thường gây khó khăn trong việc nhận dạng Để đạt hiệu quả tốt nhất, ảnh chụp cần được giới hạn trong góc 40 độ; nếu góc chụp lớn hơn, khả năng nhận diện sẽ giảm Ngoài ra, việc chụp ảnh xe trong bóng tối hoặc ban đêm mà không sử dụng đèn flash cũng làm giảm khả năng nhận dạng do thiếu ánh sáng.

Hướng phát triển của bài toán

Để nâng cao hiệu quả chương trình nhận diện biển số, cần tách ly các ký tự trong trường hợp biển số bị nhiễu hoặc mất thông tin do điều kiện môi trường Việc tìm kiếm vùng biển số trong ảnh cũng trở nên quan trọng, đặc biệt khi độ tương phản giữa biển số và nền thấp, như đối với biển xe có nền màu đỏ và chữ trắng.

- Phát triển chương trình thành module phần cứng Có khả năng tương thích với các thiết bị quan sát như camera

Nghiên cứu tập trung vào việc phát triển ứng dụng cụ thể cho các lĩnh vực như giám sát phương tiện giao thông, xử lý vi phạm giao thông, quản lý xe tại các bãi giữ xe và quản lý kho vật tư Những ứng dụng này không chỉ giúp nâng cao hiệu quả quản lý giao thông mà còn góp phần giảm thiểu tình trạng vi phạm và tối ưu hóa việc sử dụng không gian lưu trữ.

Ngày đăng: 15/02/2025, 22:16

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN