Xây dựng bộ dữ liệu

Một phần của tài liệu Luận văn Thạc sĩ Công nghệ thông tin: Hệ thống trích xuất tự động thông tin từ ảnh căn cước công dân (Trang 70 - 73)

CHƯƠNG IV : KẾT QUẢ VÀ HƯỚNG PHÁT TRIỂN

4.1. Xây dựng bộ dữ liệu

Chúng tơi xây dựng tập dữ liệu A có 100 ảnh CCCD được chụp hoặc quét hai mặt trước sau với độ phân giải 1024 dpi, kiểu ảnh màu. Các mẫu CCCD được lấy từ nhiều tỉnh thành khác nhau.Trong tập dữ liệu 100 ảnh CCCD gồm có 29 ảnh thẻ CCCD là nữ, 71 ảnh thẻ CCCD là nam, số ảnh thẻ CCCD được chụp từ máy chụp ảnh là 15 ảnh, số ảnh thẻ CCCD chụp từ điện thoại di động là 20 ảnh, số ảnh thẻ CCCD được quét từ máy quét là 65 ảnh.

Trong tập dữ liệu A gồm có 100 ảnh thẻ CCCD được chia thành hai tâp dữ liệu nhỏ tập gồm có tập A1 là 74 ảnh chuẩn, chụp, hoặc quét đúng kích thước, dữ liệu trong các ảnh đầy đủ. Tập A2 gồm có 26 ảnh là những ảnh chụp, quét không đúng chuẩn, khơng đúng kích thước, bị lem mực, mất màu sắc, bị mờ...vv.

Trong tập dữ liệu A1 (74 ảnh) chúng tơi chia ra gồm có 10 ảnh chụp bằng

máy ảnh, 15 ảnh chụp bằng diện thoại di động, 49 ảnh quét bằng máy. Trong tập A1 chúng tôi tiếp tục phân ra làm hai tập dữ liệu nhỏ là tập dữ liệu ảnh CCCD nam là 50 ảnh và tập dữ liệu ảnh CCCD nữ là 24 ảnh. Trong 50 ảnh CCCD nam gồm có 10 ảnh chụp bằng máy ảnh, 15 ảnh chụp bằng diện thoại di động, 20 ảnh quét bằng máy, trong 24 ảnh nữ có có 4 ảnh chụp bằng máy ảnh, 5 ảnh chụp bằng diện thoại di động, 15 ảnh quét bằng máy.

Trong tập dữ liệu A2 (26 ảnh) chúng tôi tiếp tục phân ra làm hai tập dữ liệu

71 ảnh. Trong 21 ảnh CCCD nam gồm có 3 ảnh chụp bằng máy ảnh, 5 ảnh chụp bằng diện thoại di động, 13 ảnh quét bằng máy, trong 5 ảnh nữ có có 1 ảnh chụp bằng máy ảnh, 1 ảnh chụp bằng diện thoại di động, 3 ảnh quét bằng máy. Khi chụp bị mờ là 5 ảnh, số ảnh bị nhòe là 18 ảnh, số ảnh bị cong vênh là 1 ảnh , số ảnh bị biến dạng là 2 ảnh. Các trường thơng tin tập A2 có thể bị lệch so với dòng chuẩn hoặc đè lên phần tiêu đề đã được in trước.

+ Nét chữ không đều nhau giữa các CCCD, trong cùng một CCCD có thể có chữ quá đậm hoặc quá mờ.

+ CCCD có thể bị ố, mờ, gãy, cong, biến dạng…

+ Ở mặt trước CCCD, trong một số trường hợp hoa văn nền khá rõ nét trong khi nét chữ lại quá mờ, khó có thể phân biệt đâu là nét chữ đâu là hoa văn nền, các dòng số CCCD, họ và tên, nơi trường trú...vv bị in lệch dịng như hình 4.1.

Hình 4.1 Ảnh mặt trước CCCD bị nhịe

+ Ở mặt sau CCCD trong khá nhiều trường hợp đặc điểm nhận dạng chữ quá nhỏ, bị mờ, bị lem mực, chữ viết dính liền khơng có khoảng cách, chữ in các dịng khơng đều, phần Ngày cấp hay bị in lệnh dịng.như hình 4.2.

72

Hình 4.2. Ảnh mặt sau CCCD bị nhịe

Hình 4.2. ảnh CCCD chụp bị mờ, không rõ, mất màu, vùng đặt điểm nhận dạng in lệch dòng.

+ Trong vùng dữ liệu, tập dữ liệu A2 có các vùng dữ liệu khác nhau như :Vùng q qn có 23 ảnh chiếm hai dịng 3 ành chiếm một dòng. Nơi cư trú 26/26 ảnh chiếm hai dịng. Đặt điểm nhận dạng có 4 ảnh một dịng 22 ảnh hai dòng. Vùng số CCCD có 14/26 ảnh bị in lệnh dịng.Vùng Họ và tên có 13/26 ảnh bị in lệnh dịng. Vùng Ngày sinh có 6/26 ảnh bị in lệnh dịng. Vùng Giới tính có 5/26 ảnh bị in lệnh dịng. Vùng Quốc tịch có 3/26 ảnh bị in lệnh dịng. Vùng Quê quán có 9/26 ảnh bị in lệnh dịng. Vùng Nơi cư trú có 20/26 ảnh bị in lệnh dịng. Vùng Ngày hết hạn có 4/26 ảnh bị in lệnh dịng. Vùng Đặt điểm nhận dạng có 14/26 ảnh bị in lệnh dịng. Vùng ngày cấp có 3/26 ảnh thẻ có bị in lệnh dòng.

Mặc dù CCCD được in theo mẫu chung nhưng vẫn có sự khác nhau giữa các đơn vị cấp về kích thước kiểu chữ, vị trí tương đối giữa các trường thơng tin có sự khác nhau.

73

Một phần của tài liệu Luận văn Thạc sĩ Công nghệ thông tin: Hệ thống trích xuất tự động thông tin từ ảnh căn cước công dân (Trang 70 - 73)

Tải bản đầy đủ (PDF)

(82 trang)