1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Nhận dạng ký tự quang cho văn bản có cấu trúc, ứng dụng trong đọc chứng minh thư nhân dân

55 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 55
Dung lượng 2,58 MB

Nội dung

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - NGUYỄN ĐÌNH MẬU NHẬN DẠNG KÝ TỰ QUANG CHO VĂN BẢN CÓ CẤU TRÚC, ỨNG DỤNG TRONG ĐỌC CHỨNG MINH THƯ NHÂN DÂN LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) HÀ NỘI - 2022 HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THƠNG - NGUYỄN ĐÌNH MẬU NHẬN DẠNG KÝ TỰ QUANG CHO VĂN BẢN CÓ CẤU TRÚC, ỨNG DỤNG TRONG ĐỌC CHỨNG MINH THƯ NHÂN DÂN Chuyên ngành: Hệ thống thông tin Mã số: 8.48.01.04 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) NGƯỜI HƯỚNG DẪN KHOA HỌC: TS NGUYỄN TRỌNG KHÁNH HÀ NỘI - 2022 BẢN CAM ĐOAN Tôi cam đoan thực kiểm tra mức độ tương đồng nội dung luận văn qua phần mềm DoIT cách trung thực đạt kết mức độ tương đồng là: 17% toàn nội dung luận văn Bản luận văn kiểm tra qua phần mềm cứng luận văn nộp để bảo vệ trước Hội đồng Nếu sai xin chịu hình thức kỷ luật theo quy định hành Học viện Hà Nội, ngày 09 tháng 02 năm 2022 HỌC VIÊN CAO HỌC (ký ghi rõ họ tên) Nguyễn Đình Mậu LỜI CẢM ƠN Trước tiên, xin bày tỏ lời cảm ơn sâu sắc đến thầy, cô giáo khoa sau Đại học nói riêng thầy giáo trường Học viện Cơng nghệ Bưu viễn thơng nói chung lời cảm ơn chân thành Đặc biệt, xin gửi lời cảm ơn sâu sắc tới TS Nguyễn Trọng Khánh người tận tình bảo, hướng dẫn tơi suốt q trình tìm hiểu, nghiên cứu để hồn thành luận văn tốt nghiệp Nếu khơng có hỗ trợ kiến thức chun mơn thầy chắn tơi khơng thể hồn thành thời hạn Đồng thời, tơi xin cảm ơn tới gia đình, người thân yêu bên cạnh, động viên, giúp đỡ tơi suốt q trình học tập Bên cạnh xin gửi lời cảm ơn đến thành viên lớp M19CQIS01-B chia sẻ kinh nghiệm, kiến thức q báu cho tơi q trình nghiên cứu thực luận văn Thời gian thực luận văn, kinh nghiệm lĩnh vực nghiên cứu thân hạn chế, luận văn thiếu sót, mong nhận ý kiến đóng góp Q thầy bạn để tơi hoàn thiện luận văn cách tốt nhất./ Hà Nội, ngày 09 tháng 02 năm 2022 Mục lục CHƯƠNG I : GIỚI THIỆU BÀI TOÁN 1.1 Tổng quan nhận dạng ký tự quang 1.2 Các bước bản nhận dạng ký tự quang học 10 CHƯƠNG 2: KỸ THUẬT HỌC SÂU TRONG PHÂN TÍCH CHỨNG MINH THƯ 12 2.1 Mơ tả tốn nhận dạng chứng minh nhân dân 12 2.2 Các phương pháp sử dụng để thực toán nhận dạng ký tự quang học 14 2.3 Xử lý ảnh 15 2.3.1 Phép biến đổi TPS 15 2.3.2 Sử dụng biến đổi Hough 17 2.3.3 Mơ hình mạng học sâu SSD-V2 18 2.4 Xác định vùng quan tâm dựa cấu trúc văn 22 2.4.1 Mơ hình CRAFT 22 2.4.2 Mạng nhớ dài - ngắn 26 2.4.3 Cơ chế Attention 30 2.5 Nhận diện ký tự 31 2.5.1 Nhược điểm mơ hình RNN 31 2.5.2 Phương pháp Transformer 32 2.6 Phương pháp đề xuất 34 2.6.1 Xác định góc chứng minh thư sử dụng mơ hình SSD 34 2.6.2 Xác định từ chứng minh thư dùng mơ hình CRAFT 37 2.6.3 Nhận diện ký tự sử dụng mơ hình vietOCR[18] 38 CHƯƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 42 3.1 Tập liệu 42 3.2 Thiết lập thực nghiệm 42 3.3 Phân tích kết quả: 49 KẾT LUẬN 50 DANH SÁCH TÀI LIỆU THAM KHẢO 51 Danh sách hình ảnh Hình 1: Văn có cấu trúc 10 Hình 2: Văn phi cấu trúc 10 Hình 3: Sơ đồ hệ thống OCR 11 Hình 4: Kết nhận diện hộp giới hạn sử dụng mơ hình xác định ký tự 11 Hình 5: Chứng minh thư mẫu cũ 12 Hình 6: Hộp giới hạn vùng chữ nhận diện 13 Hình 7: Kết nhận diện text với trường thông tin chứng minh thư 14 Hình 8: Pipeline hệ thống nhận diện ký tự quang học sử dụng mạng mạng thần kinh đồ thị 14 Hình 9: Minh họa phép biến đổi TPS 15 Hình 10: Minh hoạ q trình tính tốn điểm p’ 17 Hình 11: Sử dụng biến đổi Hough xử lý góc nghiêng 18 Hình 12: Mơ hình mạng SSD với tầng sở VGG-16 18 Hình 13: Kiến trúc trúc mạng thần kinh dự đốn đa kích thước mơ hình SSD 19 Hình 14: Đánh giá độ xác kết dự đốn hộp giới hạn 20 Hình 15: Ma trận đặc trưng tương ứng với nhiều kích thước đồ đặc trưng 22 Hình 16: Mơ hình mạng CRAFT 23 Hình 17: Ảnh đầu vào 24 Hình 18: Bản đồ vùng 24 Hình 19: Bản đồ tương quan 25 Hình 20: Hình giới hạn màu đỏ 25 Hình 21: Ảnh kết nhận diện bị nghiêng, méo 26 Hình 22: Sơ đồ mạng RNN 27 Hình 23: Sơ đồ mạng LSTM 27 Hình 24: Cổng “quên” mạng LSTM 28 Hình 25: Cổng “đầu vào” mạng LSTM 28 Hình 26: Cập nhật trạng thái cho tế bào LSTM 29 Hình 27: Cập nhật đầu cho tế bào LSTM 29 Hình 28: Mơ hình RNN LSTM 31 Hình 29: Mơ hình Transformer điển hình 33 Hình 30: Logic mơ hình transformer 34 Hình 31: Hình ảnh chứng minh thư đầu vào 35 Hình 32: Kết xác định góc chứng minh thư 36 Hình 33: Sơ đồ giải thuật tìm góc 36 Hình 34: Chứng minh thư sau cắt 37 Hình 35: Kết xác định ký tự mơ hình CRAFT 37 Hình 36: Kết sau sử dụng mơ hình biến đổi TPS 38 Hình 37: Minh họa mơ hình attention OCR 38 Hình 38: Phép biển đổi làm phẳng để tạo ma trận đặc trưng 39 Hình 39: Kiến trúc mạng Transformer OCR 40 Hình 40: So sánh mơ hình Transformer LSTM 41 Hình 41: Dữ liệu huấn luyện tự sinh 41 Hình 42: Hình ảnh cần nhận diện 41 Hình 43: Kết nhận diện thời gian xử lý 41 Danh mục từ viết tắt STT Ký hiệu chữ viết tắt Chữ viết đầy đủ OCR Optical Character Recognition LSTM Long-short term memory NLP Natural language processing CRAFT Character-region awareness for text detection CTC Connectionist Temporal Classification CRNN Convolutional Recurrent Neural Network ASTER Attentional Scene Text Recognizer MORAN Multi-object rectified attention network SSD Single shot multibox detector 10 VGG Visual Geometry Group 11 IoU Intersection of Union 12 TPS Thin plate spline 13 RNN Recurrent neural network 14 GRU Gated recurrent units CHƯƠNG I : GIỚI THIỆU BÀI TOÁN 1.1 Tổng quan nhận dạng ký tự quang Chúng ta sống thời đại tổ chức công ty mở rộng quy mô để phù hợp phải thay đổi cách họ nhìn vào cơng nghệ thích nghi với thay đổi nhanh chóng cơng nghệ Chúng ta biết Google số hóa sách cách Google Earth sử dụng NLP để xác định địa làm đọc văn tài liệu kỹ thuật số hóa đơn, giấy tờ pháp lý Đó tốn nhận dạng ký tự quang học (OCR) thực luận văn Nhận dạng ký tự quang học ứng dụng công nghệ chuyên dùng để đọc text file ảnh Được biết đến công cụ scan kỹ thuật số chuyên nhận dạng ký tự, chữ viết tay, hay chữ đánh máy, công nghệ chuyên dùng để truyền tải, nhập liệu liệu, nhận dạng ký tự quang học có khả số hóa nhiều tài liệu khác như: hóa đơn, hộ chiếu, danh thiết, tài liệu Bằng cách áp dụng nhận dạng ký tự quang học, quy trình số hóa tài liệu, tìm kiếm chỉnh sửa thực cách tự động, tiết kiệm không gian lưu trữ thuận tiện việc tra cứu thông tin Hiện ảnh chụp văn cần nhận dạng, ta chia làm loại : - Văn có cấu trúc: Văn tài liệu đánh máy thường xuất tảng tiêu chuẩn, có hàng lối, phông chữ tiêu chuẩn Các văn thường gặp giấy tờ tùy thân chứng minh thư nhân dân, giấy khai sinh, hộ chiếu trang sách Đối với loại liệu này, việc trích xuất đặc trưng, xác định vị trí ký tự nhận dạng ký tự khơng khó văn khơng bị mờ, nhịe điều kiện ánh sáng thiếu Văn phi cấu trúc: Văn vị trí ngẫu nhiên khung cảnh tự nhiên Văn thưa thớt, khơng có cấu trúc hàng thích hợp, phức tạp, vị trí ngẫu nhiên ảnh khơng có phơng chữ chuẩn Những văn biển hiệu quảng cáo, hóa đơn, biển số xe chữ viết tay Trong phạm vi luận văn, kí tự nằm sản phẩm gọi văn phi cấu trúc chúng có màu sắc, vị trí ngẫu nhiên ảnh 10 Hình 1: Văn có cấu trúc Hình SEQ Hình \* ARABIC 1: Văn có cấu trúc Hình SEQ Hình \* ARABIC 2: Văn phi cấu trúc Hình 2: Văn phi cấu trúc 1.2 Các bước bản nhận dạng ký tự quang học Trước có bùng nổ công nghệ học sâu vào năm 2012, nhận dạng ký tự quang học vấn đề thách thức đặc biệt hình ảnh văn chụp mơi trường khơng bị giới hạn Khi hình ảnh chứa phức tạp, nhiễu, phông chữ khác biến dạng hình học hình ảnh Điều thể rõ trường hợp hóa đơn khách hàng chụp gửi lại cho điều kiện xấu lóa (do giấy in hóa đơn bóng), bị nhàu nát, khơng đủ sáng, bị ướt Chính tình vậy, nhận dạng ký tự quang học kết hợp học sâu biện pháp tốt sử dụng để nhận dạng văn 41 Hình 40: So sánh mơ hình Transformer LSTM Hình 41: Dữ liệu huấn luyện tự sinh Hình 42: Hình ảnh cần nhận diện Hình 43: Kết nhận diện thời gian xử lý 42 CHƯƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 3.1 Tập liệu Trong phần thực nghiệm, tác giả thực thu thập liệu chứng minh thư nhóm Facebook đăng tin tìm kiếm, trả lại giấy tờ Tổng số mẫu ảnh thu 580 ảnh Phần engine nhận diện ký tự, luận văn sử dụng ký tự tự sinh với số lượng mẫu triệu ảnh 3.2 Thiết lập thực nghiệm Môi trường thực nghiệm chạy CPU Intel i7-10700F nhân, 16 luồng, RAM 32GB, card GTX 2070 8GB Thư viện sử dụng Pytorch 1.8 Thời gian huấn luyện mơ hình SSD-v2 xác định góc tiếng, với liệu 580 ảnh để xác định góc sử dụng, 300 ảnh sử dụng để huấn luyện, 280 ảnh sử dụng để kiểm tra Độ xác đạt được: F1 score: 97.3%, accuracy: 94.8% Positive Negative True 551 10 False 29 NA Những mẫu nhận sau thường bị tay cầm che góc Kết nhận diện vùng ROI chứa ký tự mạng CRAFT 43 44 45 Ảnh đầu vào Ảnh sau xử lý Kết { "id": "371656094", "name": "PHẠM PHƯỚC DƯƠNG", "birth": "27-03-1995", "home": "rú 69/11 Nguyễn Chí Thanh Tp Rạch Giá Kiên Giang", "add": "Tp Rạch Giá Kiên Giang" } 46 Ảnh đầu vào Ảnh sau xử lý Kết { "id": None, "name": "PHẠM THỊ MỸ PHƯƠNG", "birth": "05-06-1997", "home": "Tịnh Thọ Sơn Tịnh Quảng Ngãi", "add": "Tịnh Thọ Sơn Tịnh Quảng Ngãi" } 47 Ảnh đầu vào Ảnh sau xử lý Kết { "id": "0734979", "name": "ĐẶNG THỊ PHONG", "birth": "02-01-1997", "home": "Xã Võ Điểm Huyện Bắc Quang Hà Giang", "add": "Huyện Hàm Yên Tuyên Quang" } 48 Ảnh đầu vào Ảnh sau xử lý Kết { "id": "0701500715", "name": "HỒ VĂN HÒA", "birth": "10-10-1939", "home": "Trung Yên Sơn Dương Tuyên Quang", "add": "Xã Hưng Phú Huyện Hưng Nguyên Nghệ An" } 49 3.3 Phân tích kết quả: Trong luận văn, tác giả xây dựng cách tiếp cận hồn chỉnh giải toán nhận diện ký tự quang học cho chứng minh thư nhân dân Mơ hình nhận diện vùng chứng minh thư ảnh hoạt động tốt với ảnh đầu vào bị biến dạng: méo, xoay, góc Mơ hình xác định ký tự hoạt động tốt với liệu thực nghiệm, với ảnh mờ, lóa xác định ký tự ảnh Kết nhận diện hoạt động tốt liệu kiểm tra, mơ hình nhận diện huấn luyện với lượng liệu lớn, bao gồm liệu tự sinh, liệu thu thập từ nhiều nguồn văn khác Do thời gian thực có hạn, tác giả chưa thủ thập liệu đủ lớn Trong tương lai, để cải thiện kết phương pháp tại, tác giả đề xuất thu thập nhiều liệu Từ đó, tập liệu có độ phân bố rộng nhằm xác định trường hợp giới hạn giải thuật 50 KẾT LUẬN Nhận dạng mẫu ngành khoa học học máy (hay trí tuệ nhân tạo) nhằm phân loại liệu (các mẫu) vào số lớp Mẫu thực thể cần nhận ra, ví dụ: chữ in, chữ viết tay, vân tay, khn mặt, tiếng nói, hình dạng Ngày nay, phát triển khoa học kỹ thuật, ứng dụng nhận dạng mẫu mở rộng nhiều lĩnh vực, việc tự động hóa, nhận diện khơng cịn q xa lạ Chiếc điện thoại thơng minh tích hợp nhận diện khn mặt vân tay để mở khóa, thiết bị tự động khác khóa cửa sử dụng vân tay, hệ thống bảo mật trang bị khuôn mặt, võng mạc ngày khai thác tối đa, trở thành phần thiếu sống đại Nhận dạng mẫu ứng dụng phổ biến lĩnh vực phân tích nhận dạng ảnh tài liệu, có nguồn gốc từ hệ thống nhận dạng ký tự quang học, nhằm số hố tài liệu, thơng tin cá nhân Cho đến nay, tốn phân tích nhận dạng ảnh tài liệu giải gần trọn vẹn có sản phẩm thương mại Luận văn tập trung nghiên cứu nhận dạng văn cho ảnh có cấu trúc, ứng dụng nhận dạng chứng minh thư nhân dân dựa tập liệu thu thập Kết Luận văn gồm: - Nghiên cứu thuật toán học máy cho toán đọc ký tự quang học - Nghiên cứu phương pháp nâng cao độ xác cải thiện tốc độ xử lý toán - Thử nghiệm xây dựng ứng dụng hỗ trợ người dùng 51 DANH SÁCH TÀI LIỆU THAM KHẢO PGS.TS Nguyễn Quang Hoan (2014), “Giáo trình xử lý ảnh”, Học viện Cơng nghệ bưu viễn thơng Lê Đức Hiếu (2015), “Ứng dụng số kỹ thuật xử lý ảnh phân tích chứng minh nhân dân”, Luận văn thạc sĩ Công nghệ Thông tin, trường Đại học Công nghệ Hồ Đức Lĩnh (2017), “Xử lý hình thái học ảnh ứng dụng”, Khoa Công nghệ Thông tin - Đại học Đông Á Phan Thị Phượng (2017), “Nghiên cứu mơ hình học máy sâu mạng Neuron”, Luận văn thạc sĩ trường ĐH Công nghiệp Hà Nội Graph Convolutional Networks (GCN) & Pooling https://jonathanhui.medium.com/graph-convolutional-networks-gcn-pooling-839184205692 Using Graph Convolutional Neural Networks on Structured Documents for Information Extraction https://towardsdatascience.com/using-graph-convolutionalneural-networks-on-structured-documents-for-information-extraction-c1088dcd2b8f Character-Region Awareness For Text detection: https://github.com/clovaai/CRAFT-pytorch Belval/TextRecognitionDataGenerator https://github.com/Belval/TextRecognitionDataGenerator clovaai/deep-text-recognition-benchmark https://github.com/clovaai/deep-text-recognition-benchmark 10 Using Tesseract OCR with Python https://www.pyimagesearch.com/2017/07/10/using-tesseract-ocr-python/ 11 https://github.com/pbcquoc/vietocr 11 Bộ liệu huấn luyện: https://drive.google.com/drive/folders/1- 3bBT6fM4Ilo4zDTXGy1QAAclRTP6D2v?usp=sharing 12 Mark Sandler, Andrew Howard, Menglong Zhu, Andrey Zhmoginov, Liang-Chieh Chen : MobileNetV2: Inverted Residuals and Linear Bottlenecks: https://arxiv.org/pdf/1801.04381.pdf 52 13 Jian Ye, Zhe Chen, Juhua Liu, Bo Du: TextFuseNet: Scene Text Detection with Richer Fused Features 14 Youngmin Baek, Bado Lee, Dongyoon Han, Sangdoo Yun, and Hwalsuk Lee: Character Region Awareness for Text Detection 15 Z Tian, W Huang, T He, P He and Y Qiao: Detecting Text in Natural Image with Connectionist Text Proposal Network, ECCV, 2016 16 Xinyu Zhou, Cong Yao, He Wen, Yuzhi Wang, Shuchang Zhou, Weiran He, Jiajun Liang: EAST: An Efficient and Accurate Scene Text Detector 17 Minghui Liao, Zhaoyi Wan , Cong Yao,, Kai Chen, Xiang Bai: Real-time Scene Text Detection with Differentiable Binarization 18 Christian Szegedy, Scott Reed, Dumitru Erhan, Dragomir Anguelov, Sergey Ioffe, Scalable, High-Quality Object Detection 53 CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM BỘ THÔNG TIN VÀ TRUYỀN THƠNG HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Độc lập - Tự - Hạnh phúc BÁO CÁO GIẢI TRÌNH SỬA CHỮA, HỒN THIỆN LUẬN VĂN THẠC SĨ Họ tên học viên: Chuyên ngành: NGUYỄN ĐÌNH MẬU Hệ thống thơng tin Khóa: 2019 - 2021 Tên đề tài: Nhận dạng ký tự quang cho văn có cấu trúc, ứng dụng đọc chứng minh thư nhân dân Người hướng dẫn khoa học: TS Nguyễn Trọng Khánh Ngày bảo vệ: 15/01/2022 Các nội dung học viên sửa chữa, bổ sung luận văn theo ý kiến đóng góp Hội đồng chấm luận văn: TT Ý kiến hội đồng Sửa chữa học viên Chỉnh sửa Chương I Học viên chỉnh sửa mục 1.3 thành mục 2.1 Chương 2 Chỉnh sửa Chương II Học viên chỉnh sửa làm rõ quy trình thực Bổ sung, làm rõ thêm mục 2.3 Thêm trích dẫn tài Học viên hồn thiện thêm trích dẫn liệu tham khảo luận văn tài liệu tham khảo luận văn Chỉnh sửa lỗi tả Học viên rà sốt sửa lỗi tả Hà Nội, ngày 09 tháng 02 năm 2022 Ký xác nhận CHỦ TỊCH HỘI ĐỒNG CHẤM LUẬN VĂN THƯ KÝ HỘI ĐỒNG NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TS Trần Quang Anh TS Nguyễn Văn Thủy TS Nguyễn Trọng Khánh HỌC VIÊN Nguyễn Đình Mậu 54 Hình ảnh minh chứng kiểm tra kết trùng lặp liệu NGƯỜI HƯỚNG DẪN KHOA HỌC TÁC GIẢ TS Nguyễn Trọng Khánh Nguyễn Đình Mậu 55 ... MẬU NHẬN DẠNG KÝ TỰ QUANG CHO VĂN BẢN CÓ CẤU TRÚC, ỨNG DỤNG TRONG ĐỌC CHỨNG MINH THƯ NHÂN DÂN Chuyên ngành: Hệ thống thông tin Mã số: 8.48.01.04 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) ... Tổng quan nhận dạng ký tự quang 1.2 Các bước bản nhận dạng ký tự quang học 10 CHƯƠNG 2: KỸ THUẬT HỌC SÂU TRONG PHÂN TÍCH CHỨNG MINH THƯ 12 2.1 Mơ tả toán nhận dạng chứng minh nhân dân 12 2.2... định sử dụng mơ hình phục vụ cho toán Text Recognition cho chứng minh thư 2.1 Mơ tả tốn nhận dạng chứng minh nhân dân Hình 5: Chứng minh thư mẫu cũ 13 Với toán nhận diện ký tự quang học cho liệu

Ngày đăng: 15/04/2022, 10:51

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w