Tách các trường thông tin ở mặt sau

Một phần của tài liệu (Luận văn thạc sĩ) Hệ thống trích xuất tự động thông tin từ ảnh căn cước công dân (Trang 61 - 64)

Các trường thông tin cần tách ở mặt trước bao gồm: Ảnh ngón trỏ trái, Ảnh ngón trỏ phải, Đặc điểm nhận dạng, Ngày cấp. Các trường này được đặt tuần tự từ trên xuống, ở bên phải của CCCD, ngay dưới dòng vùng mã vạch màu đen, có đặc điểm được mô tả trong Bảng 3.1.hình 3.4

Bảng 3.1. Đặc trưng các trường thông tin ở mặt trước CCCD

Tên trường Số dòng Đặc trưng

Ảnh ngón trỏ trái 1 Ảnh màu đen

Ảnh ngón trỏ phải 1 Ảnh màu đen

Đặc điểm nhận dạng 2 Màu đen

Ngày cấp 1 Màu đen

Hình 3.4. Các vùng thông tin cần tách ở mặt sau

Mặt sau của CCCD có cấu trúc dạng bảng, các trường thông tin được phân bổ vào các ô của bảng: trường đặc điểm nhận dạng chiếm 2 dòng, trường Ngày cấp và Nơi cấp ở ô dưới cùng bên phải. Do vậy, để tách được các trường thông tin yêu cầu cần xác định được cấu trúc bảng sau đó mới tách các trường thông tin này, thuật toán gồm các bước: Tiền xử lý ảnh: Khử các thành phần nền của trong ảnh.

Tách các trường thông tin: Tách lấy các dòng thông tin và loại bỏ phần tiêu đề của mỗi dòng.

62

3.2.9.1 Tiền xử lý mặt sau

Mặt sau của CCCD là đơn giản hơn mặt trước chỉ có 3 trường thông tin Ngày cấp, đặc điểm nhận dạng và hình ảnh ngón trỏ trái, ngón trỏ phải. Mặt khác trong quá trình sử dụng ảnh cũng bị suy thoái chất lượng: bị ố, mốc… hay bị nghiêng giống như mặt trước. Do đó, cần các thao tác tiền xử lý ảnh để khử đi các thành phần nền, cũng như căn chỉnh độ nghiêng, cụ thể gồm các thao tác sau: Chuyển ảnh mầu về ảnh đa cấp xám, nhị phân hóa ảnh, hình 3.5, phân đoạn vùng dữ liệu cần tách:

+Tiền xử lý ảnh: Khử các thành phần nền của trong ảnh, đặc.

+Căn chỉnh độ nghiêng: Áp dụng phương pháp như đối với mặt trước.

+Tách các trường thông tin: Loại bỏ đi phần tiêu đề của các dòng.

(a) (b) (c)

Hình 3.5. Tiền xử lý mặt sau CCCD

(a) Ảnh đầu vào; (b) Ảnh đa cấp xám; (c) Ảnh nhị phân

3.2.9.2. Phân đoạn vùng thông tin mặt sau

Trong phần này sẽ tách lấy các vùng thông tin yêu cầu từ ảnh nhị phân thu được ở bước trước thông qua việc xác định cấu trúc của bảng, hình 3.6. Mặt khác, trong lúc dập/in thông tin và lăn tay, các ký tự hoặc dấu vân tay có thể chờm lên các đường kẻ, gây khó khăn cho việc xác định cấu trúc bảng.

Sau khi xác định được các vùng, tách lấy các vùng chứa các trường thông tin cần tìm từ ảnh.

63

(a) ` (b)

Hình 3.6. Xác định vùng thông tin mặt sau

(a) Ảnh phân vùng đầu vào; (b) Ảnh nhị phân

Vùng ảnh ngón trỏ trái, ngón trỏ phải: Xác định từ trên xuống từ trái sang

phải thì vùng này nằm bên trái dưới vùng mả vạch màu đen, chỉ chúa ảnh màu đen, không chứa ký tự.

Vùng đặt diểm nhận dạng: Nằm dưới vùng mã vạch từ trên xuống và trên

vùng Ngày cấp và Nơi cấp. Vùng này chứa thông tin vừa chữ vừa số vừa ký tự đặc biệt, vừa chữ thường vừa chữ hoa, có đặc điểm là chữ rất nhỏ thường viết dích liền một số ký tự, hay bị lem mực.

Vùng ngày cấp: Nằm dưới sau vùng đặc điểm nhận dạng chi chứa thông tin

đinh dạng ngày tháng năm.

Từ các vùng này, bước tiếp theo sẽ tách lấy các trường thông tin cần tìm.

3.2.9.3. Tách trường thông tin mặt sau

Việc tách cách trường thông tin ở mặt sau cũng tương tự như đối với mặt trước.

+Tách trường ảnh vây tay ngón trỏ trái, ngón trỏ phải + Tách trường đặc điểm nhận dạng

+ Tách trường ngày cấp CCCD

Phân thu được ở bước tiền xử lý và vị trí đã xác định ở bước trên, xác định cửa sổ “mặt nạ” của các dòng sau đó cố gắng lọc lấy các đối tượng (ký tự) thuộc mặt nạ dòng. Cụ thể, thuật toán bao gồm các bước như thuật toán 3.9.

64

Thuật toán 3.9. Tách thông tin mặt sau Intput: Ảnh CCCD mặt sau

Output: Các vùng thông tin mặt sau CCCD đã được tách

Bước 1. Xác định biên cho ảnh ngón trỏ trái, phải , cắt lấy ảnh

Bước 2. Tìm mặt nạ dòng. Xác định vị trí của các dòng.

Bước 3. Tách các đối tượng thuộc mỗi dòng, Phân tích các thành phần liên thông để tìm các đối tượng thuộc mặt nạ dòng.

Bước 4. Xoá phần tiêu đề và nhiễu, Loại bỏ phần tiêu đề của từng trường thông tin và các đối tượng là nhiễu, dòng không có ký tự.

Bước 5. Lấy lại các ký tự bị mất thuộc dòng nhưng không được xét thuộc mặt nạ dòng.

Các thuật toán (3.4) và (3.5) và các thuật toán khác, tiền xử lý ảnh áp dụng mặt sau tương tự mặt trước.

Một phần của tài liệu (Luận văn thạc sĩ) Hệ thống trích xuất tự động thông tin từ ảnh căn cước công dân (Trang 61 - 64)

Tải bản đầy đủ (PDF)

(82 trang)