Luận văn Thạc sĩ Công nghệ thông tin: Hệ thống trích xuất tự động thông tin từ ảnh căn cước công dânLuận văn Thạc sĩ Công nghệ thông tin: Hệ thống trích xuất tự động thông tin từ ảnh căn cước công dânLuận văn Thạc sĩ Công nghệ thông tin: Hệ thống trích xuất tự động thông tin từ ảnh căn cước công dânLuận văn Thạc sĩ Công nghệ thông tin: Hệ thống trích xuất tự động thông tin từ ảnh căn cước công dânLuận văn Thạc sĩ Công nghệ thông tin: Hệ thống trích xuất tự động thông tin từ ảnh căn cước công dânLuận văn Thạc sĩ Công nghệ thông tin: Hệ thống trích xuất tự động thông tin từ ảnh căn cước công dânLuận văn Thạc sĩ Công nghệ thông tin: Hệ thống trích xuất tự động thông tin từ ảnh căn cước công dânLuận văn Thạc sĩ Công nghệ thông tin: Hệ thống trích xuất tự động thông tin từ ảnh căn cước công dânLuận văn Thạc sĩ Công nghệ thông tin: Hệ thống trích xuất tự động thông tin từ ảnh căn cước công dânLuận văn Thạc sĩ Công nghệ thông tin: Hệ thống trích xuất tự động thông tin từ ảnh căn cước công dânLuận văn Thạc sĩ Công nghệ thông tin: Hệ thống trích xuất tự động thông tin từ ảnh căn cước công dânLuận văn Thạc sĩ Công nghệ thông tin: Hệ thống trích xuất tự động thông tin từ ảnh căn cước công dânLuận văn Thạc sĩ Công nghệ thông tin: Hệ thống trích xuất tự động thông tin từ ảnh căn cước công dânLuận văn Thạc sĩ Công nghệ thông tin: Hệ thống trích xuất tự động thông tin từ ảnh căn cước công dânLuận văn Thạc sĩ Công nghệ thông tin: Hệ thống trích xuất tự động thông tin từ ảnh căn cước công dân
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC NGOẠI NGỮ - TIN HỌC THÀNH PHỐ HỒ CHÍ MINH NGUYỄN XN DƯƠNG HỆ THỐNG TRÍCH XUẤT TỰ ĐỘNG THƠNG TIN TỪ ẢNH CĂN CƯỚC CÔNG DÂN LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN MÃ SỐ: 60480201 TP HỒ CHÍ MINH THÁNG NĂM 2019 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC NGOẠI NGỮ - TIN HỌC THÀNH PHỐ HỒ CHÍ MINH NGUYỄN XUÂN DƯƠNG HỆ THỐNG TRÍCH XUẤT TỰ ĐỘNG THƠNG TIN TỪ ẢNH CĂN CƯỚC CÔNG DÂN LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN MÃ SỐ: 60480201 HƯỚNG DẪN KHOA HỌC: PGS TS PHẠM THẾ BẢO TP HỒ CHÍ MINH THÁNG NĂM 2019 LỜI CAM ĐOAN Tôi Nguyễn Xuân Dương tác giả luận văn “Hệ thống trích xuất tự động thông tin từ ảnh cước công dân” Tôi xin cam đoan cơng trình nghiên cứu riêng tôi, hướng dẫn nghiên cứu khoa học PGS TS Phạm Thế Bảo Các thông tin sử dụng luận văn, trích dẫn tơi có ghi đầy đủ, rõ ràng tài liệu tham khảo Các số liệu, kết thực nghiệm nêu luận văn trung thực chưa công bố thời gian gần Học viên bảo vệ thành công luận văn ngày 04 /06/2019, Hội đồng đánh giá luận văn thạc sĩ thành lập theo Quyết định số 116 /QĐ-ĐNT ngày 29/05/2019 Hiệu trưởng Trường ĐH Ngoại ngữ-Tin học TP HCM, với tham gia của: Chủ tịch hội đồng: PGS.TS Trần Văn Lăng Phản biện 1: TS Nguyễn Đức Cường Phản biện 2: PGS.TS Nguyễn Thanh Bình Có thể tìm hiểu Luận văn Thư viện Trường ĐH Ngoại ngữ-Tin học TP HCM, cổng thông tin điện tử, website đơn vị quản lý sau đại học Trường Tơi xin hồn toàn chịu trách nhiệm với cam kết Tác giả luận văn Nguyễn Xuân Dương LỜI CẢM ƠN Trước tiên tơi xin tỏ lịng tri ân, gởi lời cảm ơn sâu sắc đến PGS TS Phạm Thế Bảo tận tình hướng dẫn, giúp đỡ tơi suốt thời gian học tập, nghiên cứu tài liệu, hướng dẫn thực nghiệm để tơi hồn thành cơng trình nghiên cứu Tơi xin cảm ơn thầy cô giáo Khoa Công Nghệ Thông Tin, ban sau đại học trường Đại học Ngoại Ngữ Tin học TP Hồ Chí Minh trang bị cho tơi kiến thức cần thiết bổ ích, tạo điều kiện giúp đỡ, hướng dẫn trong thời gian học tập, nghiên cứu làm luận văn tốt nghiệp Do thời gian có hạn kiến thức cịn hạn chế nên luận văn khơng tránh khỏi sai sót, tơi mong nhận đóng góp bổ sung quý thầy cô giáo bạn để cơng trình nghiên cứu tơi sớm ứng dụng vào thực tế Cuối xin chân thành cảm ơn tất bạn đồng nghiệp đóng góp ý kiến hỗ trợ tơi q trình thực thành luận văn TP Hồ Chí Minh, tháng năm 2019 Nguyễn Xuân Dương DANH MỤC CÁC TỪ VIẾT TẮT Từ viết tắt Anh ngữ Việt ngữ CCCD Căn cước công dân CMND Chứng minh nhân dân ĐĐ Đặc điểm UBND Ủy ban nhân dân ANN Artificial Neural Network Mạng nơron nhân tạo ML Machine Learning Học máy AI Artificial Intelligence Trí tuệ nhân tạo RRN Recurrent Neural Network Mạng nơron tái phát DL Deep Learning Máy học chuyên sâu DNN Deep Neural Network Mạng Nơ ron chuyên sâu OCR Optical Character Recognition Nhận dạng ký tự MLP Multi Layer Perceptron Mạng truyền thẳng nhiều lớp RGB Red Green Blue Mơ hình màu đỏ xanh lục NTSC National Teltevision System Hệ tiêu chuẩn video tương tự Committee DANH MỤC CÁC HÌNH ẢNH VÀ BẢNG BIỂU Hình 1.1 Mẫu “Căn cước công dân” 17 Hình 2.1 So sánh miền tầng số trước sau lọc băng thông thấp 25 Hình 2.2 Tầng số trước sau sử dụng lọc băng thông cao 26 Hình 2.3 Mơ hình mạng nơron 36 Hình 2.4 Đơn vị xử lý 37 Hình 2.5 Hàm đồng 38 Hình 2.6 Hàm bước nhị phân 39 Hình 2.7 Hàm Sigmoid 39 Hình 2.8 Hàm simoid lưỡng cực 40 Hình 2.9 Mạng nơron truyền thẳng nhiều lớp 41 Hình 2.10 Mạng nơron hồi quy nhiều lớp 42 Hình 2.11 Học có giám sát 43 Hình 2.12 Mạng nơron MPL tổng quát 47 Hình 3.1 Tiền xử lý ảnh mặt trước CCCD 50 Hình 3.2 Vùng thông tin cần tách mặt trước CCCD 53 Hình 3.3 Xác định vị trí thơng tin mặt trước thẻ CCCD 56 Hình 3.4 Các vùng thơng tin cần tách mặt sau 61 Hình 3.5 Tiền xử lý mặt sau CCCD 62 Hình 3.6 Xác định vùng thông tin mặt sau 63 Hình 3.7 Quá trình tách ký tự 66 Hình 3.8 Q trình tìm giới hạn kí tự 67 Hình 3.9 Q trình chia lưới kí tự 67 Hình 3.10 Quá trình ánh xạ từ ma trận điểm sang ma trận giá trị 68 Hình 4.1 Ảnh mặt trước CCCD bị nhòe 71 Hình 4.2 Ảnh mặt sau CCCD bị nhịe 72 Hình 4.3 Giao diện chương trình thực nghiệm 74 Hình 4.4 Trường hợp tách bị lỗi 78 Hình 4.5 Thẻ mặt sau CCCD chụp khơng chuẩn 79 Sơ đồ 1.1 Sơ đồ xử lý hệ thống xử lý 22 Bảng 3.1 Đặc trưng trường thông tin mặt trước CCCD 61 Bảng 4.1 Cấu hình máy tính 73 Bảng 4.2 Kết trích vùng ảnh CCCD 75 Bảng 4.3 Kết thực nghiệm tập liệu A1 76 Bảng 4.4 Kết thực nghiệm tập liệu A2 77 DANH MỤC CÁC THUẬT TỐN Thuật tốn 2.1 Lọc băng thông thấp Gauss 24 Thuật tốn 2.2 Lọc băng thơng cao Gauss 26 Thuật toán 2.3 Xoay ảnh 28 Thuật tốn 2.4 Xác định góc nghiêng dựa vào biến đổi Hough 29 Thuật tốn 2.5 Nhị phân hóa ảnh 30 Thuật toán 2.6 Phương pháp phân ngưỡng Niblack 32 Thuật toán 2.7 Phương pháp phân ngưỡng Otsu 33 Thuật tốn 2.8 Học có giám sát 44 Thuật toán 2.9 Thuận toán lan truyền ngược 45 Thuật toán 2.10 Xây dựng mạng nơ ron 47 Thuật tốn 3.1 Nhị phân hóa ảnh CCCD 50 Thuật toán 3.2 Hiệu chỉnh độ nghiêng ảnh tài liệu 51 Thuật toán 3.3 Phân đoạn vùng Số CCCD 54 Thuật tốn 3.4 Xác định vùng Trường Số CCCD 54 Thuật toán 3.5 Tìm tách trường Số CCCD 55 Thuật toán 3.6 Tách trường thông tin mặt trước thẻ CCCD 57 Thuật tốn 3.7 Tách ký tự thuộc dịng 58 Thuật toán 3.8 Xoá phần tiêu đề 60 Thuật tốn 3.9 Tách thơng tin mặt sau 64 Thuật tốn 3.10 Tách dịng: 65 Thuật toán 3.11 Tách kí tự: 65 Thuật tốn 3.12 Tìm giới hạn kí tự 66 Thuật toán 3.13 Ánh xạ vào ma trận 67 Thuật toán 3.14 Chuyển ma trận điểm ảnh sang ma trận giá trị 68 Thuật toán 3.15 Huấn luyện mạng nơ ron 68 Thuật tốn 3.16 Nhận dạng ảnh kí tự 69 MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN DANH MỤC CÁC TỪ VIẾT TẮT DANH MỤC CÁC HÌNH ẢNH VÀ BẢNG BIỂU DANH MỤC CÁC THUẬT TOÁN MỤC LỤC GIỚI THIỆU TỔNG QUAN 12 1.1 Lý chọn đề tài 12 1.2 Mục đích nghiên cứu luận văn 13 1.2.1 Về khoa học 13 1.2.2 Về thực tiễn 13 1.3 Các phương pháp nghiên cứu 13 1.3.1 Phương pháp nghiên cứu lý thuyết 13 1.3.2 Phương pháp nghiên cứu thực nghiệm 14 1.3.3 Đề tài nhằm thực mục tiêu sau 14 1.3.4 Đối tượng luận văn 14 CHƯƠNG I: GIỚI THIỆU TỔNG QUAN BÀI TỐN TRÍCH XUẤT THƠNG TIN TỰ ĐỘNG TỪ ẢNH THẺ CĂN CƯỚC CÔNG DÂN 16 1.1 Giới thiệu thẻ cước công dân 16 1.2 Bài tốn trích xuất thông tin tự động từ thẻ CCCD 18 1.3 Các hướng tiếp cận 18 1.4 Các khó khăn thách thức 19 1.5 Đề xuất hướng giải toán 20 1.5.1 Tiền xử lý ảnh 21 1.5.2 Phân đoạn tách vùng liệu 21 1.5.3 Nhận dạng ký tự xuất thông tin vùng liệu 21 1.5.4 Phương pháp thực 21 CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 22 2.1 Tiền xử lý 23 2.1.1 Bộ lọc thông thấp 23 2.1.2 Lọc băng thông cao 25 2.1.3 Bộ lọc High boost 27 2.2 Hiệu chỉnh độ nghiêng văn 27 2.2.1 Xác định góc nghiêng dựa biến đổi Hough 28 2.3 Nhị phân hóa ảnh 29 2.3.1 Phân loại phương pháp xác định ngưỡng T 31 2.3.2 Phương pháp xác định ngưỡng T theo Niblack 32 2.3.3 Phương pháp Otsu 33 2.3.4 Nhận xét 35 2.4 Tổng quan mạng nơron 35 2.4.1 Mạng nơron nhân tạo 35 2.4.2 Các đặc trưng mạng nơron 35 2.4.3 Các thành phần mạng nơron nhân tạo 36 2.4.4 Các cấu trúc mạng nơ ron 40 2.4.5 Mạng hồi quy 41 2.4.6 Huấn luyện mạng Nơron 42 2.4.7 Các phương pháp học 42 2.4.8 Mạng truyền thẳng 46 2.4.9 Kết luận chương 48 CHƯƠNG 3: XÂY DỰNG THUẬT TỐN PHÂN TÍCH 49 THẺ CĂN CƯỚC CÔNG DÂN 49 3.1 Tiền xử lý 49 3.1.1 Chuyển ảnh màu ảnh đa cấp xám 49 3.1.2 Làm trơn ảnh 50 3.1.3 Nhị phân hóa ảnh 50 10 Thuật toán 3.14 Chuyển ma trận điểm ảnh sang ma trận giá trị Bước 1: Bắt đầu từ phần tử (0,0) Bước 2: Tăng x giữ nguyên giá trị y chiều rộng ma trận − Ánh xạ phần tử tới phần tử mảng tuyến tính + Nếu điểm đen nhận giá trị + Ngược lại nhận giá trị − Nếu x = chiều rộng khởi động lại x tăng y Lặp lại (x,y)=( C_Rong, C_Cao) Hình 3.10 Quá trình ánh xạ từ ma trận điểm sang ma trận giá trị Sau chuyển ma trận điểm ảnh sang ma trận giá trị chúng tơi đề xuất thuật tốn 3.15 để huấn luyện mạng nơ ron Thuật toán 3.15 Huấn luyện mạng nơ ron Bước 1: Xây dựng mạng tương ứng với mơ hình tham số Bước 2: Khởi tạo giá trị trọng số với giá trị ngẫu nhiên Nạp file huấn luyện (cả ảnh đầu vào ảnh đầu mong muốn) Bước 3: Phân tích ảnh ánh xạ tất kí tự tìm thấy vào mảng chiều Bước 4: Đọc giá trị đầu mong muốn từ file chuyển đổi kí tự tới giá trị nhị phân Unicode lưu trữ riêng biệt Bước 5: Với kí tự: − Tính tốn giá trị đầu mạng Feed ForWard − So sánh với giá trị đầu mong muốn tương ứng với kí tự tính tốn lỗi − Truyền ngược giá trị từ đầu với liên kết điều chỉnh trọng số liên kết Bước 6: Chuyển sang kí tự lặp lại “6” hết kí tự 68 Bước 7: Tính tốn trung bình lỗi cho tất kí tự Bước 8: Lặp lại từ bước đến đạt số đưa vào số lần lặp tối đa − Với phạm vi lỗi đạt đến ngưỡng Nếu bỏ lặp lại − Ngược lại tiếp tục lặp lại Sau huấn luyên mạng nơ ron chúng tơi đề xuất thuật tốn 3.16 để nhận dạng ảnh ký tự Thuật tốn 3.16 Nhận dạng ảnh kí tự Bước 1: Nạp file ảnh Bước 2: Phân tích ảnh cho dịng kí tự Bước 3: Với dịng tách kí tự liên tiếp − Phân tích xử lý ảnh kí tự cho việc ánh xạ vào vectơ đầu vào − Đưa giá trị vector đầu vào cho mạng nơ ron tính tốn giá trị đầu − Chuyển đổi mã Unicode đầu từ nhị phân tới kí tự tương ứng trả dạng textbox vi lỗi đạt đến ngưỡng Hậu xử lý liệu Giai đoạn làm nhiệm vụ chuyển đổi giá trị Unicode sang dạng ký tự tương ứng Đây giai đoạn sau cùng, giai đoạn làm nhiệm vụ chuyển đổi giá trị sang dạng ký tự tương ứng xếp lại ký tự dạng văn theo dạng văn ban đầu 3.4 Kết luận chương Chương mô tả chi tiết phương pháp phân tích ảnh CCCD để tách trường thông tin yêu cầu Đối với mặt trước dựa vào việc tìm trường Số CCCD chứa số mầu đỏ, cịn mặt sau dựa vào phân tích cấu trúc bảng Sau tiền xử lý liệu đưa hệ thống mạng nơron huấn luyện tìm ký tự trích xuất thơng tin Trong chương mơ tả trình cài đặt đánh giá kết thực nghiệm giải pháp đưa tập ảnh CCCD thu thập 69 CHƯƠNG IV: KẾT QUẢ VÀ HƯỚNG PHÁT TRIỂN Trong chương mô tả cách chi tiết trình cài đặt thử nghiệm thuật toán, đánh giá kết đạt liệu khác Dựa nội dung chi tiết quy trình phương pháp, thuật tốn trình bày chương 1,2 chương tiến hành xây dựng, cài đặt chương trình thử nghiệm Sau thử nghiệm đưa nhận xét, so sánh đánh giá kết nhận dạng ký tự rút trích thơng tin từ động từ thẻ CCCD 4.1 Xây dựng liệu Chúng tơi xây dựng tập liệu A có 100 ảnh CCCD chụp quét hai mặt trước sau với độ phân giải 1024 dpi, kiểu ảnh màu Các mẫu CCCD lấy từ nhiều tỉnh thành khác nhau.Trong tập liệu 100 ảnh CCCD gồm có 29 ảnh thẻ CCCD nữ, 71 ảnh thẻ CCCD nam, số ảnh thẻ CCCD chụp từ máy chụp ảnh 15 ảnh, số ảnh thẻ CCCD chụp từ điện thoại di động 20 ảnh, số ảnh thẻ CCCD quét từ máy quét 65 ảnh Trong tập liệu A gồm có 100 ảnh thẻ CCCD chia thành hai tâp liệu nhỏ tập gồm có tập A1 74 ảnh chuẩn, chụp, quét kích thước, liệu ảnh đầy đủ Tập A2 gồm có 26 ảnh ảnh chụp, qt khơng chuẩn, khơng kích thước, bị lem mực, màu sắc, bị mờ vv Trong tập liệu A1 (74 ảnh) chúng tơi chia gồm có 10 ảnh chụp máy ảnh, 15 ảnh chụp diện thoại di động, 49 ảnh quét máy Trong tập A1 tiếp tục phân làm hai tập liệu nhỏ tập liệu ảnh CCCD nam 50 ảnh tập liệu ảnh CCCD nữ 24 ảnh Trong 50 ảnh CCCD nam gồm có 10 ảnh chụp máy ảnh, 15 ảnh chụp diện thoại di động, 20 ảnh quét máy, 24 ảnh nữ có có ảnh chụp máy ảnh, ảnh chụp diện thoại di động, 15 ảnh quét máy Trong tập liệu A2 (26 ảnh) tiếp tục phân làm hai tập liệu nhỏ tập liệu ảnh CCCD nam 21 ảnh tập liệu ảnh CCCD nữ ảnh Trong 21 ảnh CCCD nam gồm có ảnh chụp máy ảnh, ảnh chụp diện thoại di động, 13 ảnh quét máy, ảnh nữ có có ảnh chụp máy ảnh, ảnh chụp diện thoại di động, ảnh quét máy Khi chụp bị mờ ảnh, số ảnh bị nhòe 18 ảnh, số ảnh bị cong vênh ảnh , số ảnh bị biến dạng ảnh Các trường thông tin tập A2 bị lệch so với dịng chuẩn đè lên phần tiêu đề in trước + Nét chữ không CCCD, CCCD có chữ đậm mờ + CCCD bị ố, mờ, gãy, cong, biến dạng… + Ở mặt trước CCCD, số trường hợp hoa văn rõ nét nét chữ lại mờ, khó phân biệt đâu nét chữ đâu hoa văn nền, dòng số CCCD, họ tên, nơi trường trú vv bị in lệch dịng hình 4.1 Hình 4.1 Ảnh mặt trước CCCD bị nhòe + Ở mặt sau CCCD nhiều trường hợp đặc điểm nhận dạng chữ nhỏ, bị mờ, bị lem mực, chữ viết dính liền khơng có khoảng cách, chữ in dịng khơng đều, phần Ngày cấp hay bị in lệnh dịng.như hình 4.2 71 Hình 4.2 Ảnh mặt sau CCCD bị nhịe Hình 4.2 ảnh CCCD chụp bị mờ, khơng rõ, màu, vùng đặt điểm nhận dạng in lệch dòng + Trong vùng liệu, tập liệu A2 có vùng liệu khác :Vùng quê quán có 23 ảnh chiếm hai dòng ành chiếm dòng Nơi cư trú 26/26 ảnh chiếm hai dòng Đặt điểm nhận dạng có ảnh dịng 22 ảnh hai dịng Vùng số CCCD có 14/26 ảnh bị in lệnh dịng.Vùng Họ tên có 13/26 ảnh bị in lệnh dịng Vùng Ngày sinh có 6/26 ảnh bị in lệnh dịng Vùng Giới tính có 5/26 ảnh bị in lệnh dịng Vùng Quốc tịch có 3/26 ảnh bị in lệnh dịng Vùng Q qn có 9/26 ảnh bị in lệnh dịng Vùng Nơi cư trú có 20/26 ảnh bị in lệnh dịng Vùng Ngày hết hạn có 4/26 ảnh bị in lệnh dịng Vùng Đặt điểm nhận dạng có 14/26 ảnh bị in lệnh dịng Vùng ngày cấp có 3/26 ảnh thẻ có bị in lệnh dịng Mặc dù CCCD in theo mẫu chung có khác đơn vị cấp kích thước kiểu chữ, vị trí tương đối trường thơng tin có khác 72 4.2 Mơi trường thực nghiệm Sau xây dựng liệu tiến hành cài đặt thuật toán xây dựng chương Các thuật tốn cài đặt ngơn ngữ lập trình Python 3a 2016, máy có cấu bảng 4.1 Bảng 4.1 Cấu hình máy tính Thành phần Cấu hình Loại máy tính Lenovo Hệ điều hành Windows 10 Kiến trúc Hệ điều hành 64-bit Vi xử lý Intel core I3 RAM GB RAM Ổ cứng 256GB Graphics adapter Card đồ họa hỗ trợ xử lý ảnh 128-bit Chúng xây dựng ứng dụng để thử nghiệm tập liệu A (gồm 100 ảnh CCCD) chụp đầy đủ mặt trước CCCD mặt sau CCCD Mỗi liệu thử nghiệm 10 lần Giao diện chương trình thực nghiệm hình 4.3 73 Hình 4.3 Giao diện chương trình thực nghiệm Để chương trình đạt kết tốt chúng tơi u cầu liệu đầu vào định dạng + Kích thước ảnh dài 85,6mm dài 53,89mm độ phân dãy màu 1024 dpi + Ảnh chụp ảnh màu chụp thẳng, rõ, đầy đủ liệu, không mờ, không cong, vênh, móp, méo Tập tin đầu vào ảnh thẻ CCCD chụp quét máy hai mặt, mặt trước mặt sau Dữ liệu xuất tập tin ảnh tập tin văn + Tập tin ảnh gồm: Ảnh chân dung, ngón trỏ phải, ngón trỏ trái + Tập tin văn gồm có: số CCCD, Họ tên, ngày tháng năm sinh, giới tính, quốc tịch, quê quán, nơi thường trú, đặc điểm nhân dạng người cấp thẻ ngày, tháng, năm cấp thẻ CCCD, ngày hết hạn 74 4.3 Thời gian thực nghiệm Chương trình thực nghiệm 100 ảnh CCCD, ảnh CCCD thực nghiệm 10 lần Thời gian trung bình xử lý xong hai mặt trước sau ảnh CCCD 575mms/ảnh Thời gian trung bình xử lý ảnh mặt trước thẻ CCCD 325mms/ảnh, thời gian trung bình xử lý ảnh mặt sau thẻ CCCD 250mms/ảnh.Tốc độ thời gian xử lý nhanh hay chậm chương trình phụ thuộc vào cấu hình máy tính định dạng hình ảnh ban đẩu 4.4 Kết thực nghiệm Kết thực nghiệm chương trình tập liệu A 100 ảnh CCCD cho kết nhận diện vùng ảnh bảng 4.2 Bảng 4.2 Kết trích vùng ảnh CCCD STT Vùng liệu Số vùng ảnh trích Số vùng ảnh khơng trích Tỉ lệ Ảnh chân dung 100 100% Số CCCD 100 100% Họ Tên 100 100% Ngày sinh 100 100% Giới tính 100 100% Quốc tịch 100 100% Quê quán 100 100% Nơi cư trú 100 100% Thời hạn sử dụng 100 100% 10 Đặc điểm nhận dạng 100 100% 11 Ngón trỏ phải 100 100% 12 Ngón trỏ trái 100 100% 13 Ngày cấp thẻ 100 100% Trung bình 100% 75 4.4.1 Kết tập liệu A1 Trong tập liệu A1 (74 ảnh) chuẩn, chụp, quét kích thước, liệu ảnh đầy đủ Tất vùng liệu tập A1 kết đạt 100%, kết thực nghiệm bảng 4.3 Bảng 4.3 Kết thực nghiệm tập liệu A1 Số CCCD Kết vùng ảnh 100% Kết vùng ảnh sai Họ Tên 100% 100% Ngày sinh 100% 100% Giới tính 100% 100% Quốc tịch 100% 100% Quê quán 100% 100% Nơi cư trú 100% 100% Thời hạn S/D 100% 100% ĐĐnhận dạng 100% 100% 10 Ngày cấp thẻ 100% 100% STT Tên vùng Kết nhận Kết dạng liệu nhận dạng liệu sai 100% 4.4.2 Kết tập liệu A2 Tập liệu A2 có 26 ảnh chụp bị mờ (5 ảnh), số ảnh bị nhòe (18 ảnh), số ảnh bị cong vênh (1 ảnh) , số ảnh bị biến dạng (2 ảnh) Kết thực nghiệm trích xuất tin bảng 4.4 Trong tập liệu A2 nhận thấy 26 ảnh CCCD chụp không chuẩn phân tích có kết nhận đượcnhư sau: Dữ liệu ảnh CCCD chụp máy ảnh ảnh 100%, liệu ảnh CCCD chụp điện thoại di động ảnh 100%, liệu ảnh CCCD máy quét 16 ảnh 100%, liệu ảnh CCCD nam 21 ảnh 100%, liệu 76 ảnh CCCD nữ ảnh 100% Kết nhận diện vùng ảnh đạt 100% có 10/10 vùng nhận diện Kết nhận dạng liệu 9/10 đạt 100% có vủng nhận diện bị sai kí tự nhất, vùng đặt điểm nhận dạng ảnh chụp bị mờ, chữ viết bị dính liền hình 4.4 Bảng 4.4 Kết thực nghiệm tập liệu A2 STT Tên vùng Kết vùng ảnh Kết Kết nhận Kết nhận vùng ảnh dạng liệu dạng liệu sai sai 100% Số CCCD 100% Họ Tên 100% 100% Ngày sinh 100% 100% Giới tính 100% 100% Quốc tịch 100% 100% Quê quán 100% 100% Nơi cư trú 100% 100% Thời hạn SD 100% 100% ĐĐ nhận dạng 100% 99,8% 0,2% 10 Ngày cấp thẻ 100% 100% Kết xử lý liệu tính trung bình tập A 100 ảnh CCCD gồm có kết trung tập ảnh A1 kết trung bình tập ảnh A2 TB=(A1 + A2)/2 Dữ liệu đạt kết xác 99,9% 4.5 Đánh giá 4.5.1 Ưu điểm Phương pháp đề xuất luận văn có độ xác 99,9% Trong đó, trường xác 100% trường số CCCD, Họ tên, ngày tháng năm sinh, giới tính, quốc tịch, quê quán, nơi thường trú, ngày, tháng, năm cấp thẻ CCCD, ngày hết hạn Trường đặc điểm nhận dạng có độ xác thấp 77 (trên 99,8%) trường thường bị mờ, lem mực, chữ nhỏ số ký tự không rõ ràng Thời gian xử lý nhanh, thời gian trung bình xử lý hai mặt trước mặt sau 575mms/ ảnh CCCD 4.5.2 Khuyết điểm Trong 100 ảnh thực nghiệm có ảnh bị sai trường đặc điểm nhận dạng, sai ký tự chữ cm (om) (hình 4.4) (4.5) Lỗi khơng phải hệ thống chương trình mà lỗi in thẻ CCCD, ảnh chụp không chuẩn, bị lem mực chữ viết dích liền mắt thường khơng phân biệt kí tự rõ ràng chữ c chữ o Chương trình chưa tích hợp kiểm tra lỗi tả cho in thẻ CCCD Hình 4.4 Trường hợp tách bị lỗi 78 Hình 4.5 Thẻ mặt sau CCCD chụp không chuẩn 4.6 Hướng phát triển - Đề tài hướng phát triển ứng dụng vào thực tế cao sau hoàn thiện - Để tài áp dụng thực tiễn nhiều lĩnh vực có liên quan đến thẻ CCCD, có nhiều lợi ít, tiện lợi cải cách thủ tục hành chính, giảm giấy tờ, giảm thời gian, công sức, tiền bạc, hiệu công việc nâng cao, đặc biệt áp dụng cho phủ điện tử tương lai - Các lĩnh vực áp dụng như: sân bay, nhà ga, khách sạn, ngân hàng, bảo hiểm, bệnh viện, văn phịng cơng an, văn phòng UBND cấp, văn phòng sở ban ngành …vv Tiếp tục nghiên cứu hoàn thiện chương trình để áp dụng vào thực tế Mở rộng tính chương trình (như thêm phần nhận dạng, kiểm lỗi tả) để thành chương trình hồn chỉnh Khái qt hố thuật tốn để xử lý ảnh thẻ lái xe, thẻ đồn viên, thè cơng đồn , thẻ thành viên, siêu thị, câu lạc bộ, hộ chiếu đề tài hướng nghiên cứu mở rộng ứng dụng thiết bị điện thoại di động, vv 79 4.7 Kết luận Trong trình nghiên cứu thực luận văn, nhận đạt số kết sau: Nắm bắt bước hệ thống xử lý ảnh, hiểu khái niệm xử lý ảnh Thấy vai trò quan trọng xử lý ảnh hệ nhận dạng, bước tiền xử lý nhằm nâng cao chất lượng nhận dạng Tìm hiểu xây dựng số thuật toán xử lý ảnh hay dùng bước tiền xử lý hệ thống nhận dạng hồn chỉnh Đó phương pháp nhị phân ảnh, chỉnh độ nghiêng trang văn bản, máy học chuyên sâu, mạng nơnron Trên cở sở hiểu biết vận dụng vào tốn khác Tìm hiểu tổng qt hố phương pháp phân tích ảnh tài liệu, nắm ưu nhược điểm phương pháp Từ đưa giải pháp cho tốn đặt luận văn, áp dụng thành cơng kiến thức tìm hiểu vào cài đặt thử nghiệm chương trình phân tích ảnh CCCD Kết chương trình đạt tốt (99.9%) áp dụng vào thực tế Đây tốn khó, chưa có giải pháp khác đưa gia để giải tốn Đó đóng góp lớn luận văn Tuy nhiên, thời gian làm luận văn hạn chế, khối lượng cơng việc lớn nên cịn nhiều vấn đề tồn chưa giải quyết: +Chương trình dừng lại bước thử nghiệm, chưa phải chương trình hồn chỉnh, đầy đủ tính +Thuật tốn dừng lại việc phân tích ảnh CCCD, chưa khái q hố cho ảnh thẻ Chúng tơi mong đánh giá góp ý quý Thầy cơ, giúp tơi hồn thành luận văn này, để sớm đưa kết ứng dụng vào thực tế 80 TÀI LIỆU THAM KHẢO Việt ngữ Luật cước cơng dân ngày 20/11/2014 phủ nước Cộng hòa xã hội chủ nghĩa Việt nam Nghị định số 137/2015/NĐ-CP ngày 31 tháng 12 năm 2015 quy định chi tiết số điều biện pháp thi hành Luật cước công dân Thông tư 07/2016/TT-BCA quy định chi tiết số điều luật cước cơng dân GS TS Đỗ Hồng Tồn (2006), Giáo trình lý thuyết nhận dạng ứng dụng quản lý, NXB Khoa học Kỹ thuật Lê Đức Hiếu, Ứng dụng số kỹ thuật xử lý ảnh phân tích giấy chúng minh nhân dân, ĐH QG hà nội 2012 Trần Văn Nam, Nhận dạng ký tự mạng neural lan truyền ngược, Tạp chí khoa học công nghệ số 14 tháng 6/2014 Anh ngữ Anoop M Namboodiri and Anil Jain,“Document Structure and Layout Analysis”, in Digital Document Processing: Major Directions and Recent Advances B B Chaudhuri (ed.), Springer-Verlag, London, (ISBN:978-184628-501-1), Jan 2007 Chris Solomon, Toby Breckon (2011), Fundamentals of Digital Image Processing:Practical Approach with Examples in Matlab, Wiley Frank Y Shih (2010), Image processing and Pattern recognition: Fundamentals and Techniques, Wiley 10.K Kpalma and J Ronsin, “An Overview of Advances of Pattern Recognition Systems in Computer Vision”, 2007 11.Pierre Soille (2002), Morphological image analysis: principles and application 2nd, Springer 12.Michael A Nielsen (2013), Neural Networks And Deep Learning, Determination Press 81 13.Rafael C Gonzalez, Richard E Woods, Steven L Eddins (2008), Digital Image Processing using Matlab, Gatesmark 14.Wilhelm Burger, Mark J Burge (2009), Principles of igital Image Processing: Fundamental Techniques, Sprigner Satish Pawar and V K Banga, “Morphology Approach in Image Processing”, (ICICS'2012) Jan 7-8, 2012 Dubai 82 ... trích xuất tự động thông tin từ ảnh cước công dân? ?? Hệ thống xây dựng có chức tự động trích xuất thơng tin từ ảnh thẻ CCCD, sau quét thẻ hệ thống tự động xuất tập tin liệu, đầy đủ thông tin mặt trước... TRƯỜNG ĐẠI HỌC NGOẠI NGỮ - TIN HỌC THÀNH PHỐ HỒ CHÍ MINH NGUYỄN XN DƯƠNG HỆ THỐNG TRÍCH XUẤT TỰ ĐỘNG THƠNG TIN TỪ ẢNH CĂN CƯỚC CÔNG DÂN LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN MÃ SỐ: 60480201 HƯỚNG... nghiệm hệ thống trích xuất thông tin tự động từ thẻ cước công dân đánh giá kết kết luận, định hướng phát triển đề tài 15 CHƯƠNG I: GIỚI THIỆU TỔNG QUAN BÀI TỐN TRÍCH XUẤT THƠNG TIN TỰ ĐỘNG TỪ ẢNH