1. Trang chủ
  2. » Luận Văn - Báo Cáo

Ứng dụng công nghệ OCR trích xuất thông tin trên giấy tờ tùy thân trong công tác tiếp dân

6 10 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Nội dung

Bài viết Ứng dụng công nghệ OCR trích xuất thông tin trên giấy tờ tùy thân trong công tác tiếp dân đề cập đến quy trình trích xuất thông tin trên giấy tờ nhằm cải thiện hiệu suất của phương thức cũ. Quy trình do nhóm nghiên cứu là sự phối hợp giữa kỹ thuật Tesseract OCR và những thuật toán trong lĩnh vực Thị giác máy tính liên quan để đảm bảo quy trình trích xuất nhanh, hiệu quả và mới mẻ.

ỨNG DỤNG CƠNG NGHỆ OCR TRÍCH XUẤT THƠNG TIN TRÊN GIẤY TỜ TÙY THÂN TRONG CÔNG TÁC TIẾP DÂN Nguyễn Minh Quân, Phạm Hồng Phúc, Nguyễn Trọng Nhân Khoa Công nghệ Thông tin, Trường Đại học Công Nghệ TP Hồ Chí Minh GVHD: ThS Võ Hồng Khang TĨM TẮT Hiện nay, công nghệ nhận dạng ký tự quang học (OCR - Optical Character Recognition) công nghệ chủ đạo, đóng vai trị quan trọng nghiệp vụ liên quan đến xử lý trích xuất thơng tin giấy tờ Tuy nhiên, vấn đề tích hợp cơng nghệ OCR vào việc giải toán liên quan đến cơng việc thủ tục hành cơng lại khơng trọng Vấn đề lý làm chậm q trình cơng nghệ hóa cơng tác giấy tờ nghiệp vụ hành cơng Trong báo này, nhóm đề cập đến quy trình trích xuất thông tin giấy tờ nhằm cải thiện hiệu suất phương thức cũ Quy trình nhóm nghiên cứu phối hợp kỹ thuật Tesseract OCR thuật tốn lĩnh vực Thị giác máy tính liên quan để đảm bảo quy trình trích xuất nhanh, hiệu mẻ Từ khóa: chuyển đổi số, computer vision, extract information, ocr, tesseract GIỚI THIỆU Ứng dụng cơng nghệ OCR trích xuất thơng tin giấy tờ tùy thân công tác tiếp dân ứng dụng chuyển đổi hình ảnh người dân cung cấp thành tập tin liệu chứa thông tin tương ứng giấy tờ mà máy tính đọc Nghiên cứu xây dựng dựa kỹ thuật, thuật tốn trích xuất phổ biến trước Trong q trình tìm hiểu, chúng tơi nhận thấy áp dụng mơ hình OCR truyền thống lên hình ảnh chưa đủ để nhận diện cách xác Vì thế, chúng tơi đề xuất trích xuất thơng tin theo quy trình sáu bước, quy trình đảm bảo tính chun mơn, đạt u cầu thực tế có khả mở rộng cao (tính qn) Chúng tơi ứng dụng tảng trích xuất thơng tin dự án mà nhóm xây dựng mang tên “Hệ thống tiếp dân thông minh - Hutech Smart Bot”, bước đầu có đánh giá khả quan giải nhu cầu thực tế mà nghiệp vụ hành cơng đặt MƠ TẢ QUY TRÌNH TRÍCH XUẤT: 2.1 Quy trình huấn luyện ảnh mẫu trích xuất ảnh giấy tờ liên quan: 2.1.1 Quy trình huấn luyện khoanh vùng thơng tin trích xuất: 89 Bước 1: Chuẩn bị ảnh mẫu (base image) để thực khoanh vùng thông tin cần trích xuất (ROI) song song với gán nhãn vùng Ảnh mẫu hình sở nhận dạng, trích xuất cho toàn đầu vào sau này, ảnh mẫu cần đạt số yêu cầu cụ thể sau: Hình ảnh rõ ràng, sắc nét; Hình khơng thực xử lý trước đó; Hình ảnh khơng che góc, thiếu ánh sáng; Hình ảnh chứa đầy tồn nội dung giấy tờ cần trích xuất, khơng dư nhiễu góc; Hình ảnh khơng để nghiêng, xéo… đảm bảo hình ảnh thẳng, tồn thơng tin cần trích xuất nằm khung hình Bước 2: Tiến hành xác định vùng quan tâm (ROI - Region of Interest) ROI vùng ảnh nhóm thực xử lý trích xuất Tại đây, ngồi vùng quan tâm, nhóm bỏ qua vùng ảnh cịn lại Việc nhóm thu hẹp vùng quan tâm từ toàn ảnh vùng ảnh có diện tích nhỏ trọng tâm phần thơng tin cần trích xuất tăng hiệu suất cho trình xử lý Cụ thể, sau lần bao đóng vùng quan tâm, biến ROI lưu lại tọa độ x, y điểm góc bên phải điểm góc bên trái khung bao chữ nhật Bước 3: Đóng gói thơng tin thu thập từ Bước thành đối tượng (Class) Các thuộc tính đối tượng biểu diễn thơng tin vị trí vùng thơng tin cần trích xuất Mỗi thơng tin lưu trữ dạng kiểu liệu list, gồm nhiều tuple vị trí ảnh liên quan đến trường thơng tin Các thơng tin vị trí lấy từ kết Bước - Khoanh vùng vùng quan tâm Bước 4: Tiền xử lý liệu ảnh Tại đây, vùng ảnh ROI sử dụng kỹ thuật bao gồm khử nhiễu, chuyển xám (grayscale), tăng độ tương phản (contrast enhancement) nhị phân hóa ảnh theo thuật tốn Otsu Tại đây, với thơng số ngưỡng tự động quy trình làm mờ ảnh kết hợp hai kernel bao gồm kernel = kernel = 51, kết hình ảnh gốc phân ngưỡng thành hệ ảnh nhị phân biến đổi hình thái học thành dạng ảnh xám Nhờ thế, đảm bảo tính hiệu cải thiện thời gian xử lý Bước 5: Trích xuất thơng tin vùng ảnh quan tâm kiểm tra chất lượng ảnh mẫu Hiện tại, nhóm ứng dụng mơ hình OCR huấn luyện sẵn (pretrain-model) mang tên Tesseract Google để trích xuất thông tin vùng ảnh quan tâm Đặc điểm hạn chế việc sử dụng mơ hình ảnh đầu vào cần phải đảm bảo tối thiểu độ nhiễu Ngồi ra, ứng dụng Tesseract mơ hình OCR Google cho tiếng Việt chưa tối ưu gặp số lỗi liệu huấn luyện hạn chế Chẳng hạn, ký tự khơng trích xuất, thay đổi nội dung, có ký tự đặc biệt, khuất góc khơng trích xuất vùng ảnh… Về vấn đề này, nhóm dự định huấn luyện riêng model nhận dạng chữ tiếng Việt tương lai để cải thiện nhược điểm 90 Hình – Quy trình trích xuất thông tin từ CCCD Bước 6: Đánh giá chất lượng độ hiệu sau xử lý trích xuất thơng tin ảnh mẫu Chất lượng ảnh: rõ nét, đảm bảo tính chất vật lý ảnh; Tiêu chuẩn tỉ lệ ảnh: Tỉ lệ chuẩn, loại giấy tờ, đủ thông tin thực tế Để đánh giá độ xác quy trình thơng tin trích xuất này, nhóm sử dụng hai tiêu đánh giá bao gồm: tỉ lệ lỗi ký tự (CER) tỉ lệ lỗi từ (WER) Sau trình thực trích xuất đánh giá, chúng tơi kết quả: CER ≈ 1.04% - độ xác tốt ≈ 98.96% WER ≈ 4.56% - độ xác (theo tỉ lệ lỗi từ) ≈ 95.44% Kết đánh giá tổng quan cho thấy ảnh mẫu đủ tiêu chuẩn để làm ảnh gốc cho thuật toán Homography kỹ thuật trích xuất ảnh khác loại giấy tờ 2.1.2 Quy trình trích xuất thơng tin ảnh (khác ảnh mẫu cấu trúc): Bước 1: Tiền xử lý ảnh cần trích xuất ảnh mẫu: giai đoạn thực kỹ thuật tiền xử lý vật lý ảnh grayscale, tăng độ tương phản, làm mượt ảnh, khử nhiễu… để đảm bảo tiến trình Alignment (tiến trình tham chiếu liệu hệ tọa độ gốc) xác đạt hiệu Bước 2: Detect Keypoints (phát điểm đặc trưng ảnh), giai đoạn sử dụng công cụ ORB (Oriented FAST and Rotated BRIEF) để xác định điểm đặc trưng ảnh Trước đó, ảnh grayscale nên thực lấy điểm đặc trưng đảm bảo tổng quát, đồng thời ta tiến hành lấy số lượng điểm đặc trưng tối đa để phù hợp với hình ảnh gốc Bước 3: Matching Feature Tại đây, ta thực ánh xạ điểm đặc trưng giống để tạo ma trận Homography cho Bước (ma trận chuyển đổi ảnh đầu vào giống cấu trúc với ảnh mẫu) Giai đoạn nối điểm đặc trưng hai tập keypoints ảnh source image target image sử dụng thuật toán Brute Force Matching (BFMatcher) - thuật toán matching sử dụng phương pháp tính tốn vét cạn Bước 4: Ta thực phép biến đổi hình học sử dụng kỹ thuật Homography để tính tốn ma trận biểu diễn điểm đặc trưng ảnh trích xuất tham chiếu từ Bước Việc nhóm xác định điểm (4 góc ảnh target image) nhằm thực tính tốn ma trận Homography dựa vào thuật toán Random Sample 91 Consensus - RANSAC Tại đây, sau xác định ma trận Homography, ta thực phép biến đổi ma trận cho ảnh cần trích xuất gần hệ tọa độ ảnh gốc Bước 5: Thực trích xuất thơng tin ảnh thực luồng xử lý tiếp theo, cách khoanh khung hình dựa ROI xác định ảnh mẫu Hình – Minh họa phép biến đổi Hormography kết trích xuất cuối THỰC NGHIỆM: 3.1 Triển khai ứng dụng trích xuất thơng tin hỗ trợ điền tờ khai tự động cho người dân cước công dân: Hình – Bước 1: người dân truy cập vào dịch vụ công, điền tờ khai thủ tục cần thiết upload hình ảnh CCCD cho người nam nữ 92 Hình – Bước 2: hệ thống trích xuất thơng tin từ hình điền tờ khai tự động cho người dân 3.2 Đánh giá kết thực nghiệm: Về tập liệu để đánh giá, nhóm sử dụng liệu gồm 16 ảnh cước công dân gắn chip thực trích xuất thơng tin liệu Có nhiều trường hợp thực tế vơ tình tạo nhiễu cho q trình xử lý cường độ ánh sáng, góc chụp… Đánh giá hệ thống cụ thể sau: Thời gian phản hồi hệ thống trung bình 5,004375 giây Qua bảng đánh giá độ xác số trường hợp trích xuất thơng tin cước cơng dân với quy trình OCR, nhóm đưa nhận định quy trình có đạt độ xác tốt trường hợp ảnh rõ nét, có tính chất vật lý gần với ảnh mẫu, có độ xác trung bình - cao trường hợp ảnh rõ thông tin ảnh bị ảnh hưởng nền, ảnh bị nghiêng, ảnh thiếu ánh sáng Vì thế, nhóm cần cải thiện độ xác thơng tin hình ảnh nằm trường hợp rủi ro ảnh nhỏ, mờ, nhiễu nền, không rõ nét Từ đó, nhóm đánh giá giai đoạn mấu chốt khoanh vùng điểm cần cải thiện, đồng thời đề xuất giải pháp cho vấn đề Bảng – Đánh giá kết thực nghiệm dựa tính chất ảnh STT Tiêu chí Hình ảnh rõ nét, khơng thiếu góc, kích thước ảnh gần ảnh gốc CER WER 97.95% 92.3% Hình ảnh rõ, xéo, góc bị nghiêng 87.92% 84.45% Hình ảnh nhỏ, ảnh mờ, nhiễu 69.5% 51% Hình nghiêng 180 độ, ảnh rõ 82.69% 79.46% KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Qua báo này, bước đầu xây dựng thành cơng quy trình trích xuất theo đánh giá, quy trình đạt yếu tố sau: tính nhanh tốc độ xử lý, tính xác kết trích xuất, 93 tính thực tế ứng dụng vào hệ thống tính mở rộng đạt quán quy trình Tuy nhiên, việc vận hành quy trình tảng cơng nghệ trích xuất với số lượng người dùng truy cập lớn khả trích xuất đa dạng văn vấn đề tiếp tục nghiên cứu phát triển Hiện tại, tập trung đề xuất quy trình tối ưu thời gian cải thiện độ xác với liệu tiếng Việt sử dụng Tesseract cơng nghệ nhận dạng cốt lõi, nghiên cứu chưa có so sánh đồng với cơng nghệ OCR khác Trong tương lai, nhóm mở rộng văn tiếng Việt viết tay, xây dựng phương án phân ngưỡng ảnh sử dụng thuật toán k-Mean để xử lý phân ngưỡng ảnh thành ảnh nhị phân, nghiên cứu quy trình góp phần tăng tính đa dạng cho thể loại văn trích xuất giảm thiểu rủi ro so với việc phân ngưỡng phương thức cũ Trong trình nghiên cứu ứng dụng, nhận thấy rõ nhu cầu việc ứng dụng nhận dạng ký tự quang học OCR lớn, đặc biệt trích xuất thơng tin lĩnh vực hành cơng nói riêng Đây đề án công nghệ tiềm cần phát triển mạnh mẽ để bước số hóa quy trình xử lý thủ tục hành Việt Nam TÀI LIỆU THAM KHẢO [1] Kenneth Leung (2021) Evaluate OCR Output Quality with Character Error Rate (CER) and Word Error Rate (WER), 24/06/2021, [2] Phạm Thị Hồng Anh (2019) Kỹ thuật Image Alignment sử dụng phương pháp feature based toán nhận diện ký tự OCR, 21/05/2019, [3] Reul, C; Christ, D; Hartelt, A; Balbach, N; Wehner, M; Springmann, U; Wick, C; Grundig, C; Büttner, A; Puppe, F (2019) An Open-Source Tool Providing a (Semi-) Automatic OCR Workflow for Historical Printings Applied Sciences Vol (22) PP 4853 https://doi.org/10.3390/app9224853 [4] R Smith, "An Overview of the Tesseract OCR Engine," Ninth IEEE Vol ISSN: 1520-5363 PP 629633 doi: 10.1109/ICDAR.2007.4376991 94 ... kết trích xuất cuối THỰC NGHIỆM: 3.1 Triển khai ứng dụng trích xuất thơng tin hỗ trợ điền tờ khai tự động cho người dân cước cơng dân: Hình – Bước 1: người dân truy cập vào dịch vụ công, điền tờ. .. loại giấy tờ, đủ thông tin thực tế Để đánh giá độ xác quy trình thơng tin trích xuất này, nhóm sử dụng hai tiêu đánh giá bao gồm: tỉ lệ lỗi ký tự (CER) tỉ lệ lỗi từ (WER) Sau q trình thực trích xuất. .. thuật tốn Homography kỹ thuật trích xuất ảnh khác loại giấy tờ 2.1.2 Quy trình trích xuất thông tin ảnh (khác ảnh mẫu cấu trúc): Bước 1: Tiền xử lý ảnh cần trích xuất ảnh mẫu: giai đoạn thực kỹ

Ngày đăng: 01/12/2022, 16:55

HÌNH ẢNH LIÊN QUAN

Hình 1– Quy trình trích xuất thông tin từ CCCD - Ứng dụng công nghệ OCR trích xuất thông tin trên giấy tờ tùy thân trong công tác tiếp dân
Hình 1 – Quy trình trích xuất thông tin từ CCCD (Trang 3)
Hình 3– Bước 1: người dân truy cập vào dịch vụ công, điền tờ khai thủ tục cần thiết và upload hình ảnh CCCD cho người nam và nữ  - Ứng dụng công nghệ OCR trích xuất thông tin trên giấy tờ tùy thân trong công tác tiếp dân
Hình 3 – Bước 1: người dân truy cập vào dịch vụ công, điền tờ khai thủ tục cần thiết và upload hình ảnh CCCD cho người nam và nữ (Trang 4)
Hình 2– Minh họa phép biến đổi Hormography và kết quả trích xuất cuối cùng - Ứng dụng công nghệ OCR trích xuất thông tin trên giấy tờ tùy thân trong công tác tiếp dân
Hình 2 – Minh họa phép biến đổi Hormography và kết quả trích xuất cuối cùng (Trang 4)
Hình 4– Bước 2: hệ thống trích xuất thơng tin từ hình và điền tờ khai tự động cho người dân - Ứng dụng công nghệ OCR trích xuất thông tin trên giấy tờ tùy thân trong công tác tiếp dân
Hình 4 – Bước 2: hệ thống trích xuất thơng tin từ hình và điền tờ khai tự động cho người dân (Trang 5)
Bảng 1– Đánh giá kết quả thực nghiệm dựa trên tính chất ảnh - Ứng dụng công nghệ OCR trích xuất thông tin trên giấy tờ tùy thân trong công tác tiếp dân
Bảng 1 – Đánh giá kết quả thực nghiệm dựa trên tính chất ảnh (Trang 5)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN