Bài giảng Ứng dụng nhận dạng tiếng Việt trong trích xuất thông tin từ căn cước công dân

Ứng Dụng Nhận Dạng Tiếng Việt Trong Trích Xuất Thơng Tin Từ Căn Cước Công Dân Trịnh Tấn Đạt Nội dung Giới thiệu Mơ hình đề xuất Thực nghiệm kết Sản phẩm Kết luận Giới thiệu ❖ Khó khăn thách thức: ▪ Hệ thống nhận dạng ký tự Việt ngữ hình ảnh hiệu suất chưa cao • • • • • Nhiễu Ảnh bị mờ Ảnh bị ảnh hưởng ánh sáng/bóng tối Độ phân giải thấp Mất mát thơng tin Mơ hình đề xuất Input image Cropper Text Detector Text Recognizer Results Số: 079060 Ngày, tháng, năm sinh: 26/04/1996 Giới tính: Nam Quốc tịch: Việt Nam … Mơ hình đề xuất ❖Cropper: Xác định vị trí CCCD ảnh đầu vào có chuẩn hóa ảnh CCCD góc nhìn phía trước (front-view hay top-down view) ▪ Mơ hình Mask R-CNN để phân đoạn ảnh CCCD tìm biên CCCD ▪ Dựa vào biên đối tượng, xác định đỉnh CCCD áp dụng Perspective Transform để chuẩn hóa CCCD góc nhìn trực diện Kết Mask-RCNN cho việc chuẩn hóa ảnh CCCD Mơ hình đề xuất ❖Text Detector: trích xuất vùng thông tin ảnh CCCD ▪ Hướng tiếp cận 1: dùng kỹ thuật xử lý ảnh ▪ Hướng tiếp cận 2: dùng EAST detector Mơ hình đề xuất Convert to grayscale image ❖Text Detector: trích xuất vùng thông tin ảnh CCCD Dùng kỹ thuật xử lý ảnh Gaussian smoothing Blackhata operator Magnitude of gradient by xdirection Closing operator Otsu thresholdin g Find connected components Extract text lines Using heuristic information Mơ hình đề xuất ❖Text Detector: trích xuất vùng thơng tin ảnh CCCD Dùng EAST detector Kết EAST detector Kết hậu xử lý Mơ hình đề xuất ❖ Text Recognition ▪ Mạng tích chập hồi quy (CRNN) kết hợp CTC ▪ Mạng CRNN kết hợp chế Attention ▪ Kết hợp mạng tích chập (CNN), mạng hồi quy (LSTM) chế Attention kết hợp CTC (CNN+LSTM+CTC+Attention) mơ hình đầu cuối (end-to-end) “Giới tính: Nam” Predicted sequence Transcription Layer Per-frame predictions (joint CTC-Attention) Recurrent Layers Deep bidirectional LSTM Feature sequence Convolutional Layers Convolutional feature maps Input (text lines) Mơ hình đề xuất Thực nghiệm kết ❖Dữ liệu ▪ 120 ảnh CCCD (ảnh thật) thu thập được dùng trình kiểm tra ▪ Để huấn luyện mơ hình đề xuất, sử dụng kỹ thuật tạo liệu giả (synthetic data augmentation data) ▪ 1150 ảnh CCCD với dùng để huấn luyện mơ hình MaskRCNN ▪ Các liệu ảnh CCCD giả chứa đựng 73090 dòng văn chứa đựng thông tin CCCD như: số CCCD, họ tên, ngày tháng năm sinh, quê quán o 70044 mẫu tập huấn luyện o 3046 mẫu dùng tập kiểm thử (valid data) o 1065 dịng thơng tin (từ ảnh thật) để đánh giá mơ hình nhận dạng Thực nghiệm kết Dữ liệu giả để huấn luyện mơ hình nhận dạng CRNN Kết ▪ Kết so sánh mô hình Cropper The Cropper Độ xác (%) Thời gian xử lý (giây) Mask-RCNN Resnet50 96.13% 0.50s Mask-RCNN Resnet101 95.92% 0.52s Mask-RCNN InceptionResnet V2 98.85% 0.59s Kết ▪ Ví dụ kết từ Cropper Ảnh đầu vào Kết Mask-RCNN CCCD chuẩn hóa Kết ▪ Kết so sánh mơ hình Text Detector Phương pháp Phương pháp dùng xử lý ảnh EAST detector Precision (%) Recall (%) F1-score (%) Thời gian xử lý (giây) 0.886 0.890 0.888 0.027s 0.946 0.945 0.945 0.402s Bảng 4.6: Kết trích xuất vùng thơng tin ảnh CCCD Các vùng thơng tin Độ xác (%) Phương pháp dùng xử lý ảnh EAST detector Số ID 97.57 99.39 Họ Tên 93.93 96.36 Ngày tháng năm sinh 96.96 96.96 Giới tính 96.36 98.18 Quốc tịch 95.57 98.18 Quê quán 80.39 96.96 Nới thường trú 84.24 87.87 Hạn sử dụng 86.67 93.93 a) Traditional approach b) EAST detector Kết ▪ Kết so sánh mơ hình Text Recognizer Phương pháp WER (%) CRNN+CTC 5.68 CRNN+Attention 6.77 CRNN+ joint CTC-Attention 4.28 Hiệu nhận dạng Việt ngữ cho vùng thông tin CCCD Các vùng thông tin WER (%) Số ID 4.66 Họ Tên 0.79 Ngày tháng năm sinh 0.00 Giới tính 0.22 Quê quán 6.22 Nơi thường trú 12.64 Hạn sử dụng 0.04 Kết trích xuất nhận dạng vùng thông tin ảnh CCCD Phương pháp WER (%) Thời gian xử lý EAST+CRNN+CTC+Attention 5.38 0.4239s Manual cropped + 4.28 0.0219s CRNN+CTC+Attention XIN CHÂN THÀNH CẢM ƠN

Tiêu đề	Ứng Dụng Nhận Dạng Tiếng Việt Trong Trích Xuất Thông Tin Từ Căn Cước Công Dân
Tác giả	Trịnh Tấn Đạt
Trường học	Trường Đại Học
Chuyên ngành	Công Nghệ Thông Tin
Thể loại	bài giảng

Định dạng
Số trang	21
Dung lượng	1,16 MB