Rút trích thông tin trên các chứng chỉ nghiệp vụ

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG *** VÕ TRỌNG BÌNH RÚT TRÍCH THƠNG TIN TRÊN CÁC CHỨNG CHỈ NGHIỆP VỤ LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Đồng Nai, Năm 2019 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG *** VÕ TRỌNG BÌNH RÚT TRÍCH THƠNG TIN TRÊN CÁC CHỨNG CHỈ NGHIỆP VỤ Chuyên ngành: Công nghệ thông tin Mã số: 8480201 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS LÂM THÀNH HIỂN Đồng Nai - Năm 2019 i LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu riêng tơi, tài liệu kết nghiên cứu luận văn trung thực Mọi nội dung tham khảo từ tài liệu trích dẫn thích đầy đủ Tôi xin chịu trách nhiệm luận văn Học viên Võ Trọng Bình ii LỜI CẢM ƠN Lời đầu tiên, em xin chân thành cảm ơn Trường Đại học Lạc Hồng tổ chức khóa học này, để em có điều kiện học tập lĩnh hội kiến thức có thời gian để hoàn thành luận văn Em xin chân thành cảm ơn thầy, cô khoa Sau Đại Học thầy, khoa Cơng nghệ Thơng tin tận tình truyền đạt kiến thức kĩ cần thiết cho em suốt trình học tập Em xin chân thành cảm ơn thầy TS Lâm Thành Hiển hướng dẫn, góp ý tận tình tỉ mỉ tạo điều kiện để em hoàn thành luận văn Cuối cùng, em xin bày tỏ lòng biết ơn sâu sắc gia đình động viên hỗ trợ để em có kết ngày hơm Học viên Võ Trọng Bình iii TRƯỜNG ĐẠI HỌC LẠC HỒNG KHOA SAU ĐẠI HỌC TÓM TẮT LUẬN VĂN (Dùng cho học viên người hướng dẫn) Đề tài: Rút trích thơng tin chứng nghiệp vụ Ngành: Công nghệ thông tin Mã số: 8480201 Học viên: Võ Trọng Bình Người hướng dẫn: TS Lâm Thành Hiển NỘI DUNG TÓM TẮT Nội dung giao kết mong đợi người hướng dẫn  Thu thập liệu mẫu văn chứng  Nghiên cứu thuật tốn rút trích văn có hình ảnh  Đánh giá, lựa chọn, cải biến thuật toán để tối ưu việc rút trích  Cài đặt thuật toán thực nghiệm tập mẫu để kiểm tra tính xác  Xây dựng phần mềm hỗ trợ cho việc sử dụng tiện lợi, dễ dàng Cách thức giải vấn đề  Thu thập liệu số mẫu văn chứng mẫu định dạng văn chứng để xây dựng tập liệu huấn luyện nhận dạng  Nghiên cứu thuật toán đại nhận dạng đối tượng nhận dạng ký tự quang học OCR như: R-CNN, Fast R-CNN, Faster R-CNN, Tesseract áp dụng cho việc rút trích thơng tin chứng nghiệp vụ  Cài đặt thuật toán thử nghiệm với chứng trường Đại học Lạc Hồng Đánh giá mặt khoa học kết  Học viên có nghiên cứu khảo sát cơng trình liên quan trước áp dụng kỹ thuật vào luận văn  Dựa kết nghiên cứu, đề xuất giải pháp kết hợp nhận dạng đối tượng OCR để trích xuất thơng tin văn chứng  Xây dựng cài đặt thành công phần mềm hỗ trợ cơng việc rút trích thơng tin từ văn chứng dựa giải pháp đề xuất Những vấn đề tồn so với nội dung giao (nếu có) Ngày 01 tháng 11 năm 2019 NGƯỜI HƯỚNG DẪN HỌC VIÊN TS Lâm Thành Hiển Võ Trọng Bình iv MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii DANH MỤC HÌNH VẼ vi DANH MỤC TỪ VIẾT TẮT viii MỞ ĐẦU .1 Chương TỔNG QUAN BÀI TOÁN NHẬN DẠNG 1.1 Bài toán nhận dạng .3 1.2 Nhận dạng văn .4 1.3 Một số sản phẩm thương mại .6 1.4 Những vấn đề tồn Chương MỘT SỐ PHƯƠNG PHÁP NHẬN DẠNG .9 2.1 Nhận dạng đối tượng với kỹ thuật học sâu Deep learning: 2.1.1 Tiền xử lý .9 2.1.1.1 Nhị phân hóa ảnh văn 2.1.1.2 Cải thiện hình ảnh văn 11 2.1.1.3 Xác định góc nghiêng ảnh văn .12 2.1.1.4 Tách dòng văn bản, ký tự 13 2.1.2 Mạng nơ ron 15 2.1.3 Mạng nơ ron tích chập - CNN: 16 2.1.4 Phương pháp R-CNN 20 2.1.5 Phương pháp Fast R-CNN 21 2.1.6 Phương pháp Faster R-CNN 22 2.2 Nhận dạng văn tiếng Việt với Tesseract: .23 2.2.1 Phương pháp Tesseract 24 2.2.2 Kiến trúc Tesseract 25 2.2.3 Xác định dòng từ .26 2.3 Phương pháp rút trích thơng tin văn chứng chỉ: 28 2.3.1 Mơ tả tốn 28 2.3.2 Phương pháp đề xuất 30 v Chương THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 32 3.1 Chuẩn bị liệu 32 3.2 Cài đặt cấu hình mơi trường thử nghiệm .33 3.2.1 Cài đặt công cụ hỗ trợ nhận dạng Microsoft 33 3.2.2 Cài đặt CNTK từ PyPI 33 3.2.3 Tải mã nguồn cài đặt Faster R-CNN cho Python 34 3.3 Huấn luyện liệu nhận dạng đối tượng với Faster R-CNN .35 3.3.1 Chuẩn bị liệu huấn luyện với Faster R-CNN 35 3.3.2 Huấn luyện với mơ hình Faster R-CNN 36 3.4 Huấn luyện liệu nhận dạng văn với Tesseract 37 3.4.1 Tạo liệu huấn luyện 38 3.4.2 Thiết lập tệp cấu hình huấn luyện 41 3.4.3 Huấn luyện liệu 42 3.5 Kết thử nghiệm 43 3.5.1 Huấn luyện liệu nhận dạng loại văn .43 3.5.2 Huấn luyện liệu văn 44 3.5.1 Giao diện công cụ hỗ trợ Certificate OCR 45 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 46 TÀI LIỆU THAM KHẢO 47 vi DANH MỤC HÌNH VẼ Hình Sơ đồ tổng qt hệ thống nhận dạng .3 Hình Văn nghiêng 13 Hình Tách dòng sở 14 Hình Nơ ron thần kinh Perceptron mạng nơ ron nhân tạo .15 Hình Mạng nơ ron truyền thẳng 16 Hình Minh họa kiến trúc mạng nơron học sâu .17 Hình Minh họa tính tích chập để rút trích đặc trưng ảnh 17 Hình Hàm ReLU 18 Hình Max pooling 19 Hình 10 Minh họa phương pháp R-CNN 20 Hình 11 Minh họa phương pháp Fast R-CNN 21 Hình 12 So sánh tốc độ phương pháp R-CNN, Fast R-CNN 21 Hình 13 Minh họa phương pháp Faster R-CNN .22 Hình 14 Kiến trúc Tesseract .25 Hình 15 Ví dụ đường sở dạng cong .27 Hình 16 Ví dụ cắt ký tự bị dính 27 Hình 17 Quá trình nhận dạng từ 28 Hình 18 Chuẩn bị liệu gán nhãn ghi cho liệu huấn luyện 35 Hình 19 Kết xuất liệu gán nhãn huấn luyện tập mẫu 36 Hình 20 Dữ liệu gán nhãn chuẩn bị cho huấn luyện với Faster R-CNN 36 Hình 21 Các chức biên tập văn mẫu 38 Hình 22 Nhận dạng phác thảo ký tự 40 Hình 23 Kết huấn luyện liệu .43 Hình 24 Giao diện cơng cụ hỗ trợ rút trích thông tin văn 45 vii DANH MỤC BẢNG Bảng 3-1 Thống kê liệu thu thập luận văn 31 Bảng 3.2 Thuộc tính phơng chữ 40 Bảng 3-3: Kết nhận dạng đối tượng 43 Bảng 3-4 Kết thống kê tỉ lệ rút trích thơng tin ảnh văn 44 viii DANH MỤC TỪ VIẾT TẮT AED Attention-based Encoder-Decoder ANN Artificial Neural Network CNN Convolution Neural Network C-RNN Convolutional Recurrent Neural Network DIA Document Image Analysis HMM Hidden Markov Model OCR Optical Character Recognition SVM Support Vector Machine 34 3.2.3 Tải mã nguồn cài đặt Faster R-CNN cho Python Các tệp nhị phân biên dịch sẵn cho Faster R-CNN: Thư mục Examples\Image\Detection\utils\cython_modules chứa tệp nhị phân biên dịch trước yêu cầu để chạy Faster R-CNN Các phiên có kho lưu trữ Python 3.5 cho Windows Python 3.5, 3.6 cho Linux, tất 64 bit Nếu cần phiên khác tải mã nguồn Faster R-CNN: Tạo thư mục chứa mã nguồn với tên FRCN _ROOT thực lệnh git clone sau: # Make sure to clone with recursive git clone recursive https://github.com/rbgirshick/pyfaster-rcnn.git Biên dịch mã nguồn module Cython: cd $FRCN_ROOT/lib make Biên dịch mã nguồn Caffe pycaffe: cd $FRCN_ROOT/caffe-fast-rcnn # Now follow the Caffe installation instructions here: # http://caffe.berkeleyvision.org/installation.html # If you're experienced with Caffe and have all of the requirements installed # and your Makefile.config in place, then simply do: make -j8 && make pycaffe Tải detector pre-computed: cd $FRCN_ROOT /data/scripts/fetch_faster_rcnn_models.sh Chạy thử demo: với tập liệu PASCAL VOC 2007 huấn luyện mơ hình mạng VGG16 cd $FRCN_ROOT /tools/demo.py 35 3.3 Huấn luyện liệu nhận dạng đối tượng với Faster R-CNN 3.3.1 Chuẩn bị liệu huấn luyện với Faster R-CNN Từ liệu thử nghiệm mẫu văn chứng chỉ, tiến hành sử dụng công cụ Visual Object Tagging Tool (VOTT) để thực tạo ghi gán nhãn cho mẫu liệu huấn luyện sau: Hình 18 Chuẩn bị liệu gán nhãn ghi cho liệu huấn luyện Ở bước tiến hành tạo nhãn liệu ứng với vùng thơng tin cần trích xuất văn chứng gồm: loại chứng chỉ, module, họ tên, ngày sinh, nơi sinh, nơi cấp, ngày cấp, số hiệu số vào sổ cấp chứng Ứng với nhãn xác định vùng chữ nhật chứa thông tin tương ứng ảnh huấn luyện đặt màu sắc khác để phân biệt Sau thực xong việc gán nhãn cho toàn tập liệu huấn luyện thực export liệu cho q trình huấn luyện thuật tốn Faster R-CNN Dữ liệu export chứa mẫu gán nhãn kèm tọa độ nhãn mẫu, định dạng tập tin kết xuất dạng: CSV, CNTK, Tensorflow JSON 36 Hình 19 Kết xuất liệu gán nhãn huấn luyện tập mẫu Hình 20 Dữ liệu gán nhãn chuẩn bị cho huấn luyện với Faster R-CNN 3.3.2 Huấn luyện với mơ hình Faster R-CNN Từ liệu thử nghiệm mẫu văn chứng kết xuất bước gán nhãn, tiến hành chạy lệnh: 37 python Examples/Image/Detection/utils/annotations/annotations_helper.py Sau đó, tạo MyDataSet_config.py thư mục utils\configs theo tập liệu có, đoạn mã sau: # data set config C.DATA.DATASET = "CertificateDataSet" C.DATA.MAP_FILE_PATH = " / /DataSets/CertificateDataSet" C.DATA.CLASS_MAP_FILE = "class_map.txt" C.DATA.TRAIN_MAP_FILE = "train_img_file.txt" C.DATA.TRAIN_ROI_FILE = "train_roi_file.txt" C.DATA.TEST_MAP_FILE = "test_img_file.txt" C.DATA.TEST_ROI_FILE = "test_roi_file.txt" C.DATA.NUM_TRAIN_IMAGES = 500 C.DATA.NUM_TEST_IMAGES = 200 C.DATA.PROPOSAL_LAYER_SCALES = [8, 16, 32] Để tiến hành huấn luyện đánh giá Faster R-CNN liệu mẫu tạo, thực thay đổi dataset_cfg hàm get_configuration() tập tin run_faster_rcnn.py from utils.configs.MyDataSet_config import cfg as dataset_cfg Cuối chạy lệnh python run_faster_rcnn.py 3.4 Huấn luyện liệu nhận dạng văn với Tesseract Để sử dụng Tesseract engine nhận dạng cho văn viết ngơn ngữ đó, ta cần đào tạo từ điển cho ngôn ngữ Ngày nay, gần liệu nhận dạng cho ngôn ngữ phổ thông kể tiếng Việt tải xuống từ trang dự án Google Code phần mềm Tuy nhiên, Tesseract cung cấp danh sách hàm thủ tục để lập trình viên xây dựng từ điển nhận dạng 38 Hơn nữa, chuyên gia tin học hoàn thiện thư viện mã nguồn mở viết C/C++ Mặc dù vậy, người sử dụng không bắt buộc phải hiểu chi tiết lập trình thủ tục thực công tác xây dựng từ điển thư việnTesseract biên dịch chúng thành chương trình thi hành dạng tệp *.exe mftraining, cntraining, shapeclustering có tham số đầu vào đầu Tuy vậy, với mục đích hỗ trợ tối đa cho người dùng khơng chun gia lập trình cách cung cấp giao diện thân thiện giảm bớt dịng lệnh nhập mơi trường đồ họa Các chức sơ đồ 2.7 mô tả trực quan bước theo giao diện huấn luyện với jTessBoxEditor sau 3.4.1 Tạo liệu huấn luyện Chạy biên tập để sinh ảnh văn bản, giao diện chương trình hiển thị sau: Hình 21 Các chức biên tập văn mẫu Muốn tạo hình ảnh huấn luyện ta phải có văn huấn luyện, ngơn ngữ đào tạo khơng có giới hạn lựa chọn tiếng Anh tiếng Việt Phông chữ soạn thảo cho ngôn ngữ sử dụng phơng unicode dùng loại phơng chữ khác tạo lỗi nhận 39 dạng mã ký tự chuẩn UTF-8 sau Cỡ chữ Tesseract đề nghị nhỏ 15, với phông chữ nhỏ chất lượng nhận dạng Do cần chọn cỡ chữ lớn để tương đương với kích cỡ chữ qua máy quét văn Nếu nhận dạng văn in ấn có chất lượng tốt khơng cần để ý tới tham số letter tracking, với văn nhận dạng có chất lượng để tránh tình trạng dính chập ký tự phải thay đổi tham số letter tracking Tùy chọn alti-aliasing giúp giảm tối thiểu tình trạng cưa đường biên ký tự tùy chọn noise cho phép ta làm nhiễu ảnh phù hợp với việc nhận diện văn nhiễu nhỏ khơng thể loại bỏ Ví dụ sau cho ta thấy bước thực tạo tệp ảnh nhận dạng Tiến hành tạo ảnh chứa chữ in Việt cần huấn luyện:  Văn bản: a A À ả Ả ã Ã Á Ạ ă Ă ằ Ằ ẳ Ẳ ẵ Ẵ ắ Ắ ặ Ặ â Â ầ Ầ ẩ Ẩ ẫẪấẤậẬbBcCdDđĐeÈẻẺẽẼéÉẹẸêÊềỀểỂễỄếẾ ệỆfFgGhHiIìÌỉỈĩĨíÍịỊjJkKlLmMnNoỊỏỎõÕó ĨọỌơƠồỒổỔỗỖốỐộỘơƠờỜởỞỡỠớỚợỢpPqQrRs StTuÙủỦũŨúÚụỤưƯừỪửỬữỮứỨựỰvVwWxX yYỳỲỷỶỹỸýÝỵỴzZ1234567890  Ngôn ngữ: tiếng Việt  Phông chữ: Times New Roman, chữ nghiêng, cỡ chữ 35  Khử cưa: Khơng  Có nhiễu: Khơng  Có chồng lẫn ký tự: Không  Độ rộng: 1024 điểm ảnh  Độ cao: 400 điểm ảnh Ta nhận thông báo cho biết tệp tiff box tạo lưu trữ đường dẫn thông báo thao tác Generate với tùy chỉnh cần thiết Tìm đến đường dẫn thơng báo thấy có tệp vie.timesnewromani.exp0.tif vie.timesnewromani.exp0.box, tệp 40 liệu sử dụng bước sau trình huấn luyện Mỗi tệp box huấn luyện cho loại phơng kiểu cỡ chữ, mặt khác kích thước ảnh bị giới hạn giới hạn nhớ khả lưu trữ định dạng tệp ảnh Do cần chia văn huấn luyện nhiều trang ảnh số, phân trang thực cách thay đổi số thứ tự tên tệp như: vie timesnewromani.exp1.box, vie timesnewromani.exp2.box, vie timesnewromani.exp1.tif, vie timesnewromani.exp2.tif … Đối với văn chữ tiếng Anh tệp có tiền tố eng.* Xem hình ảnh vừa tạo: Hình 22 Nhận dạng phác thảo ký tự Nếu thấy chưa thỏa đáng, trình biên tập cho phép nhóm (merge) hay chia (split) ký tự, thêm (insert) hay xóa (delete) ký tự liệu nhận dạng ảnh Sau hoàn thành việc chỉnh sửa nhấn Save để cập nhật tệp box Hộp biên (Bounding box) chứa tọa độ ký tự hình trên, tọa độ trái trên, độ rộng, độ cao tương ứng ảnh văn bản, liệu học từ điển 41 Từ liệu hộp biên, biên tập gọi chương trình unicharset_extractor sinh mã unicode ký tự lưu tệp vie.unicharset thuộc tính ký tự chữ cái, chữ số, hoa, thường, ký tự ngăn cách câu từ… lưu tệp vie*.tr Muốn nhận dạng văn xác, Tesseract đề nghị nên sinh nhiều phông, kiểu chữ khác Số lượng từ đa dạng huấn luyện với nhiều phông chữ khác cho kết nhận dạng cải thiện tăng thích ứng với nhiều văn Tesseract khơng đòi hỏi tạo văn với nhiều cỡ chữ khác mẫu liệu nhận dạng khác kích thước với mẫu có điều chỉnh qua phép co giãn Cuối cùng, chép toàn tệp liệu tạo vào thư mục chứa tạo để tiến hành bước 3.4.2 Thiết lập tệp cấu hình huấn luyện Cần tối thiểu tệp cấu hình vie.font_properties, vie.words_list vie.frequent_words_list, chúng biên soạn trình notepad Tệp vie.font_properties: Tệp khai báo kiểu phông chữ sử dụng cho liệu cần đào tạo tệp tiff tạo trước Tệp chứa nhiều dịng dịng chứa thơng tin phơng chữ: Bảng 3.2 Thuộc tính phơng chữ name giá trị italic Không chứa dấu cách trống bold fixed serif fraktur 0: khơng 1: có 0: khơng 1: có 0: khơng 1: có 0: khơng 1: có Phơng chữ courier new có thuộc tính fixed quy ước 1, khai báo: couriernewi 1 0 Trong phơng chữ timesnewroman ln có thuộc tính serif, khai báo: timesnewromanb 1 42 Tệp vie.frequent_words_list: Tệp khai báo danh sách từ thường gặp ngôn ngữ mà ta muốn nhận dạng, thông thường việc địi hỏi thống kê quy mơ lớn với tài liệu có số lượng trang nhiều Cấu trúc tệp bao gồm nhiều dòng dòng chứa từ Tệp vie.words_list: Tệp khai báo danh sách toàn từ, nên sử dụng liệu từ điển để đưa danh sách Cũng giống frequent_word_list, words_list lưu liệu theo dịng, dịng có từ mã hóa theo định dạng UTF-8 3.4.3 Huấn luyện liệu Sau chuẩn bị xong tệp liệu trên, ta tiếp tục quy trình huấn luyện liệu Trước tiên, biên tập gọi chương trình shapeclustering, tiếp nhận liệu từ tệp *.tr huấn luyện cụm cách tạo tệp vie.shapetable Sau đó, chương trình mftraining sinh tệp vie.inttemp vie.pffmtable Những tệp chứa mẫu hình dạng ký tự đào tạo bảng số lượng đặc trưng kỳ vọng ký tự Tương tự chương trình cntraining tạo tệp vie.normproto chứa mẫu ký tự chuẩn hóa 43 Hình 23 Kết huấn luyện liệu Trên sở tệp liệu này, biên tập tiếp nhận danh sách từ khóa vie.frequent_words_list vie.words_list danh sách mã unicode để chương trình wordlist2dawg sinh tệp vie.freq-dawg vie.word-dawg Ngoài biên tập sinh số tệp nháp khác như: vie.config, vie.punc-dawg, vie.bigramdawg… Chương trình cuối combine_tessdata kết nối tệp vie.* trở thành tệp vie.traineddata tệp từ điển cho nhận dạng văn chữ in Việt Mặc dù vậy, toàn chức thực tự động với thao tác chọn nút Run cửa sổ ứng dụng jTessBoxEditor 3.5 Kết thử nghiệm 3.5.1 Huấn luyện liệu nhận dạng loại văn Bảng 3.3 thể kết đạt huấn luyện kiểm nghiệm độ xác với kiến trúc mơ hình CNN nêu trên: 44 - Mạng CNN cho độ xác 79% huấn luyện 40 lần (Epochs=40) (độ xác tăng lên xấp xỉ 80% tăng số lần huấn luyện) Khi sử dụng CPU kết hợp GPU tối ưu thời gian huấn luyện lên đến 3-4 lần (tùy thuộc vào cấu trúc phần cứng sử dụng) so với việc sử dụng CPU Khi số lần huấn luyện tăng lên nhiều thời gian huấn luyện sử dụng CPU kết hợp GPU tăng lên không nhiều, tăng không đáng kể dùng CPU - Khi số lần huấn luyện tăng lên 50, 60,…,100 độ xác không cải thiện thêm mà dao động quanh 80% tượng khớp Hiện tượng xảy mạng có lực lớn để hạn chế bớt lực mạng ta hạn chế số nút ẩn; ngăn không cho mạng sử dụng trọng số lớn; giới hạn số bước luyện Bảng 3-3: Kết nhận dạng đối tượng Huấn luyện CNN Epochs=10 Batch_size=32 CNN Epochs=20 Batch_size=64 CNN Epochs=30 Batch_size=128 CNN Epochs=40 Batch_size=256 Thời gian Thời gian huấn luyện huấn luyện sử dụng sử dụng CPU-GPU CPU (s) (s) Thời gian chạy kiểm tra sử dụng CPU (s) Thời gian chạy kiểm tra sử dụng CPU-GPU (s) Độ xác mơ hình (%) 216 107 1,8 0,8 62 510 166 2,1 1,1 67 920 279 2,3 1,3 74 1.014 301 2,3 1,4 79 3.5.2 Huấn luyện liệu văn Bảng thể kết đạt huấn luyện kiểm nghiệm độ xác với phương pháp Tesseract nêu cho tập 100 mẫu ảnh văn chứng chỉ: 45 Bảng 3-4 Kết thơng kê tỉ lệ rút trích thơng tin ảnh văn Thơng tin rút trích Loại chứng Họ tên Ngày sinh Nơi sinh Nơi cấp Ngày cấp Số hiệu Số vào sổ Trung bình 3.5.1 Google Docs 98 84.92 98.8 80.8 91 62 58 87 82.565 ABBYY FineReader 99 80.64 97.6 80 93 70 61 84 83.155 Certificate OCR 95 79.2 97 76 88 72 50 85 80.275 Giao diện công cụ hỗ trợ Certificate OCR Giao diện hỗ trợ cơng tác rút trích thơng tin văn chứng thiết kế hình với chức chính: 1) Load file ảnh scan ảnh từ máy scan 2) Điều chỉnh thơng tin thuộc tính ảnh 3) Thiết lập thông số nhận dạng 4) Rút trích thơng tin văn 5) Kết xuất thơng tin rút trích file excel Hình 24 Giao diện cơng cụ hỗ trợ rút trích thơng tin văn 46 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết đạt được: - Luận văn hệ thống hoá lý thuyết liên quan tới toán nhận dạng đối tượng, đặc biệt trình bày chi tiết thuật tốn máy học cho toán - Luận văn nghiên cứu kỹ thuật nhận dạng văn với thuật tốn Tesseract ứng dụng cho tốn rút trích thông tin văn tiếng Việt thiết kế ứng dụng hỗ trợ rút trích thơng tin giúp chuyển thông tin văn chứng thành nội dung văn chỉnh sửa máy tính cách nhanh chóng để có liệu mong muốn - Luận văn nghiên cứu cài đặt thử nghiệm rút trích thơng tin văn tiếng Việt văn chứng với hai liệu Training Testing có lớp lớp có 150 file dùng để Training 50 file dùng để Testing - Bộ công cụ dùng để rút trích văn tiếng Việt văn chứng cho kết tốt với độ xác tương đối 80% theo mục tiêu mà tác giả muốn hướng tới trình nghiên cứu Hạn chế hướng phát triển: - Các kết huấn luyện chạy thử nghiệm chưa ổn định, tỉ lệ nhận sai cịn mức ảnh hưởng đến kết rút trích thơng tin mà nguyên nhân phần nhiều văn chứng sử dụng nhiều loại phông chữ khác tỷ lệ kích cỡ chữ khác công đoạn tiền xử lý chưa tốt - Do thời gian thực luận văn có hạn lý bảo mật nên tập liệu huấn luyện thu thập chưa đủ lớn đủ tốt để tạo độ xác cao huấn luyện nhận dạng Trong tương lai để sử dụng thực tế cần phải bổ sung thêm liệu huấn luyện mẫu đa dạng có chất lượng tốt TÀI LIỆU THAM KHẢO [1] Satti, D.A., 2013, Offline Urdu Nastaliq OCR for Printed Text using Analytical Approach MS thesis report Quaid-i-Azam University: Islamabad, Pakistan p 141 [2] Mahmoud, S.A., & Al-Badr, B., 1995, Survey and bibliography of Arabic optical text recognition Signal processing, 41(1), 49-77 [3] Kirill Safronov: Optical Character Recognition Using Optimisation Algorithms Institute for Process Control and Robotics (IPR) University of Karlsruhe Karlsruhe, Germany (2007) [4] Vinutha MH, Sweatha KN and Sreepriya Kurup: Optical Character Recognition Based Auto Navigation of Robot (2013) [5] Ali Ahmadi, Yoshinori Shirakawa, Md.Anwarul Abedin, Kazuhiro Takemura, Kazuhiro Kamimura, Hans Jürgen Mattausch, and Tetsushi Koide: Real-time Character Reconition System Using Associative Memory Base Hardware, Japan [6] Priya Sharm, Randhir Singh: Performance of English Character Recognition with and without Noise, India (2013) [7] R Smith et al, “Adapting the Tesseract OpenSource OCR Engine for Multilingual OCR”, 2011 [8] A Graves et al, “Connectionist Temporal Classification: Labelling Unsegmented Sequence Data with Recurrent Neural Networks”, ICML, 2006 [9] J Chung et al, “Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling”, 2014 [10] A Iqbal, B M Musa, A Tahsin, A Sattar, M Islam, and K Murase, “A Novel Algorithm for Translation, Rotation and Scale Invariant Character Recognition,” in Proceedings of SCIS & ISIS Nagoya, Japan, 2008, pp 1367–1372 [11] A J Jadhav, “Text Extraction from Images: A Survey,” International Journal of Advanced Research in Computer Science and Software Engineering, vol 3, no.3, pp 333– 337, 2013 [12] A Gupta, et al, "Synthetic Data for Text Localisation in Natural Images", CVPR 2016 [13] Amr Adel Helmy, Yasser M.K Omar, Rania Hodhod, An Innovative Word Encoding Method For Text Classification Using Convolutional Neural Network, 2018 14th International Computer Engineering Conference (ICENCO), 2018 [14] Ray Smith, "An Overview of the Tesseract OCR Engine" (PDF) Retrieved May 23, 2013 [15] Ray Smith, Daria Antonova, Dar-Shyang Lee, “Adapting the Tesseract open source OCR engine for multilingual OCR”, Google Inc., 2015 [16] Zitnick, C Lawrence, and P Dollar "Edge boxes: Locating object proposals from edges." Computer Vision-ECCV Springer International Publishing Pages 391-4050 2014 [17] Girshick, R., J Donahue, T Darrell, and J Malik "Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation." CVPR '14 Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition Pages 580-587 2014 [18] Girshick, Ross "Fast r-cnn." Proceedings of the IEEE International Conference on Computer Vision 2015 [19] Ren, Shaoqing, Kaiming He, Ross Girshick, and Jian Sun "Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks." Advances in Neural Information Processing Systems Vol 28, 2015 ... HỌC LẠC HỒNG *** VÕ TRỌNG BÌNH RÚT TRÍCH THƠNG TIN TRÊN CÁC CHỨNG CHỈ NGHIỆP VỤ Chuyên ngành: Công nghệ thông tin Mã số: 8480201 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC:... loại văn chứng Xác định vùng chứa văn cần trích xuất nội dung Nhận dạng văn vùng trích xuất nội dung Điền nội dung văn trích xuất vào vị trí phù hợp mẫu cơng văn Qt hình ảnh văn chứng chỉ: Các văn. .. Phân loại văn chứng chỉ: công đoạn thực phân loại văn chứng để từ xác định vùng văn cần trích xuất nội dung tuỳ theo mẫu văn chứng nhận diện Để thực việc nhận dạng nhanh mẫu văn chứng chỉ, đề xuất

Định dạng
Số trang	58
Dung lượng	2,61 MB