(a) Ảnh phân vùng đầu vào; (b) Ảnh nhị phân
Vùng ảnh ngón trỏ trái, ngón trỏ phải: Xác định từ trên xuống từ trái sang
phải thì vùng này nằm bên trái dưới vùng mả vạch màu đen, chỉ chúa ảnh màu đen, không chứa ký tự.
Vùng đặt diểm nhận dạng: Nằm dưới vùng mã vạch từ trên xuống và trên
vùng Ngày cấp và Nơi cấp. Vùng này chứa thông tin vừa chữ vừa số vừa ký tự đặc biệt, vừa chữ thường vừa chữ hoa, có đặc điểm là chữ rất nhỏ thường viết dích liền một số ký tự, hay bị lem mực.
Vùng ngày cấp: Nằm dưới sau vùng đặc điểm nhận dạng chi chứa thông tin
đinh dạng ngày tháng năm.
Từ các vùng này, bước tiếp theo sẽ tách lấy các trường thơng tin cần tìm.
3.2.9.3. Tách trường thơng tin mặt sau
Việc tách cách trường thông tin ở mặt sau cũng tương tự như đối với mặt trước.
+Tách trường ảnh vây tay ngón trỏ trái, ngón trỏ phải + Tách trường đặc điểm nhận dạng
+ Tách trường ngày cấp CCCD
Phân thu được ở bước tiền xử lý và vị trí đã xác định ở bước trên, xác định cửa sổ “mặt nạ” của các dịng sau đó cố gắng lọc lấy các đối tượng (ký tự) thuộc mặt nạ dịng. Cụ thể, thuật tốn bao gồm các bước như thuật toán 3.9.
64
Thuật tốn 3.9. Tách thơng tin mặt sau Intput: Ảnh CCCD mặt sau Intput: Ảnh CCCD mặt sau
Output: Các vùng thông tin mặt sau CCCD đã được tách
Bước 1. Xác định biên cho ảnh ngón trỏ trái, phải , cắt lấy ảnh Bước 2. Tìm mặt nạ dịng. Xác định vị trí của các dịng.
Bước 3. Tách các đối tượng thuộc mỗi dịng, Phân tích các thành phần liên thơng để tìm các đối tượng thuộc mặt nạ dịng.
Bước 4. Xố phần tiêu đề và nhiễu, Loại bỏ phần tiêu đề của từng trường thông tin và các đối tượng là nhiễu, dịng khơng có ký tự.
Bước 5. Lấy lại các ký tự bị mất thuộc dịng nhưng khơng được xét thuộc mặt
nạ dòng.
Các thuật toán (3.4) và (3.5) và các thuật toán khác, tiền xử lý ảnh áp dụng mặt sau tương tự mặt trước.
3.3. Huấn luyện mạng nơron phân tích ảnh để nhận dạng ký tự
Sau khi tiền xử lý xong, qua các bước phân tích xác định các vùng thơng tin cần trích xuất, là q sử dụng deep learning, mạng nơ ron để huấn luyện nhận dạng các ký tự và hậu xử lý xuất ra tập tin văn bản.
Q trình phân tích ảnh để tìm ký tự, phương pháp nhận dạng
Thuật toán sử dụng để tách ký tự ra khỏi ảnh văn bản dựa trên đặc tính biên độ về độ sáng của các điểm ảnh. Phương pháp nhận dạng ký tự quang bằng mạng nơron[6] bao gồm các bước được mô tả như sau:
+Tiến hành phân tích ảnh để tìm ký tự +Tách dịng ký tự ra khỏi ảnh ký tự. +Tách từ riêng biệt ra khỏi dòng ký tự. +Tách riêng từng ký tự ra khỏi từ. +Mạng Neural nhận dạng ký tự +Hậu xử lý dữ liệu
65
Thuật tốn 3.10. Tách dịng:
Bước 1: Xác định giới hạn dưới của dòng:
Bước 2: Bắt đầu duyệt từ giới hạn trên (đỉnh) vừa tìm thấy của dòng (0,
top_line).
Bước 3: Tương tự như xác định giới hạn trên, chúng ta duyệt hết chiều
rộng của ảnh trên cùng một giá trị y.
− Nếu duyệt hết dịng mà khơng tìm thấy ký tự điểm đen nào thì ghi nhận y-1 là giới hạn dưới của dòng (bottom_line). Dừng duyệt. Tăng số dòng lên (lines++).
− Nếu chưa tìm thấy bottom_line, tiếp tục duyệt đến dịng tiếp theo (tăng y, reset x=0).
Bắt đầu từ giới hạn dưới y (bottom_line) vừa tìm thấy sau cùng, lặp lại các bước a,b để xác định các giới hạn của các dòng tiếp theo, cho đến khi duyệt hết chiều cao của ảnh thì dừng, quá trình xác định dịng ký tự hồn tất.
Sau khi tách dòng chúng tơi đề xuất thuật tốn 3.11 để tách ký tự, hình 3.7
Thuật tốn 3.11. Tách kí tự:
Bước 1: Bắt đầu từ kí tự đầu tiên của hàng trên cùng với giá trị x đầu tiên. Bước 2: Quét hết chiều rộng với một giá trị y
− Nếu phát hiện điểm đen đánh dấu y như là đỉnh của hàng đầu tiên − Nếu không xét điểm tiếp theo
Bước 3: Bắt đầu từ giới hạn trên của kí tự phát hiện được và giá trị x đầu
tiên. (0, giới hạn trên kí tự)
Bước 4: Quét đến giới hạn dưới của dòng, giữ nguyên x
− Nếu phát hiện điểm đen đánh dấu x là phía trái của kí tự − Nếu khơng xét điểm tiếp theo
66 − Nếu không thấy điểm đen nào tăng x và khởi động lại y để xét đường
thẳng đứng tiếp theo.
Bước 5: Bắt đầu từ phía trái của kí tự tìm thấy và đỉnh của dịng hiện thời,
(giới hạn trái kí tự, giới hạn trên dịng)
Bước 6: Quét hết chiều rộng của ảnh trên cùng một giá trị x
- Nếu khơng có điểm đen nào thì đánh dấu x-1 là bên phải của kí tự - Nếu phát hiện điểm đen tăng x và khởi động lại y để xét đường thẳng
đứng tiếp theo.