1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu phát triển thuật toán nhận dạng trích xuất thông tin trong văn bản tiếng việt

110 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ Nghiên cứu phát triển thuật tốn nhận dạng, trích xuất thơng tin văn tiếng Việt LÊ BÍCH HẠNH hanh.lb202777M@sis.hust.edu.vn Ngành Kỹ thuật Điện tử Giảng viên hướng dẫn: TS Nguyễn Vũ Thắng Trường: Điện- Điện tử HÀ NỘI, 2022 CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ Họ tên tác giả Đề tài luận văn Chuyên ngành : LÊ BÍCH HẠNH : Nghiên cứu phát triển thuật tốn nhận dạng, trích xuất thơng tin văn tiếng Việt : Kỷ thuật Điện tử : 20202777M Mã số HV Tác giả, Ngƣời hƣớng dẫn khoa học Hội đồng chấm luận văn xác nhận sửa chữa, bổ sung luận văn theo biên họp Hội đồng ngày 07/10/2022 với nội dung sau:  Đánh số thứ tự cơng thức phƣơng trình: Đánh số theo quy định mẫu luận văn (ví dụ PT 1.1)  Chỉnh sửa cơng thức tốn format: Chỉnh sửa format phƣơng trình PT 4.1, PT 4.2, PT 4.4, PT 4.5  Bổ sung tài liệu tham khảo: Bổ sung tài liệu tham khảo [6], [36],[37], [38], [39], [40], [41], [42], [43], [44], [45], [46], [47], [48], [49], [50], [51]  Bổ sung Kết luận chƣơng: Bổ sung kết luận chƣơng trang 61, kết luận chƣơng trang 76, kết luận chƣơng trang 90  Chỉnh sửa lại phần Kết luận chi tiết, hợp lý hơn: Đã chỉnh sửa phần Kết luận trang 92  Làm rõ phạm vi, đối tƣợng luận văn: Bổ sung trang  Việt hóa sơ đồ xử lý: Sử dụng văn phong tiếng Việt thay thế, chỉnh sửa Hình 1.2  Chỉnh sửa lại lỗi tả: Sửa lỗi tả đánh máy đƣợc hội đồng nhận xét  Chỉnh sửa lỗi chế bản, tính từ sở hữu: Chỉnh sửa đại từ xƣng hô luận văn từ “em” đƣợc thay “tác giả” Ngày 27 tháng 10 năm 2022 Giảng viên hƣớng dẫn Tác giả luận văn CHỦ TỊCH HỘI ĐỒNG LỜI MỞ ĐẦU Bài tốn trích xuất thơng tin văn (Information extraction) đƣợc khởi xƣớng từ năm 70s (DeJong‟s FRUMP program) Sau thành lập Message Understanding Conferences – MUC vào năm 90s Tuy toán xuất sớm nhƣng nhiều thách thức xuất nhiều mẫu văn khác trình chuyển đổi từ văn từ định dạng scan sang định dạng text Bài tốn trích xuất thơng tin văn kèm với công việc xử lý ngơn ngữ tự nhiên, xử lý ngơn ngữ tự nhiên bao gồm nhận dạng chữ viết nhận dạng giọng Nhận dạng chữ viết mang nhiều thách thức có 7000 ngơn ngữ khác đặc biệt khó khăn chữ viết tay Các cơng trình nghiên cứu nhận dạng chữ viết, trích xuất thông tin văn dừng lại nhiều ngơn ngữ Tiếng Anh, tiếng Việt cịn chƣa đƣợc khai phá nhiều Ứng dụng vào tốn trích xuất thông tin văn tiếng Việt, đề tài tập trung nghiên cứu, xây dựng hệ thống hoàn chỉnh từ phân tách, nhận diện chữ viết văn định dạng ảnh hay scan đến trích xuất tự động thông tin quan trọng văn Cụ thể nghiên cứu ứng dụng hóa đơn tốn tiếng Việt, bao gồm hóa đơn chữ in hóa đơn chữ viết tay Để trích xuất đƣợc thơng tin văn u cầu cần làm tìm đƣợc chữ viết văn định dạng ảnh, bƣớc cần nhận diện chữ viết để biết đƣợc nội dung văn cuối chọn lọc phân loại để tìm thông tin theo yêu cầu Với phát triển thị giác máy tính học sâu (deep learning), nghiên cứu sử dụng mơ hình deep learning khác để giải lần lƣợt vấn đề Cuối chức đƣợc tổng hợp để hoàn thành hệ thống hoàn chỉnh Để hoàn thành tốt nghiên cứu luận văn “Nghiên cứu phát triển thuật tốn nhận dạng, trích xuất thơng tin văn tiếng Việt”, em xin chân thành cảm ơn TS Nguyễn Vũ Thắng tận tình giúp đỡ suốt trình làm nghiên cứu viết luận văn TÓM TẮT LUẬN VĂN Luận văn nghiên cứu, thử nghiệm nhận dạng trích xuất thơng tin văn tiếng Việt cụ thể hóa đơn tốn tiếng Việt với 16 trƣờng thơng tin khác với đầu vào ảnh chụp hóa đơn scan tác động hay chỉnh sửa Hệ thống đƣợc thử nghiệm với nhiều mẫu hóa đơn khác bao gồm chữ in chữ viết tay Tiến hành thu thập liệu hóa đơn toán internet thu đƣợc 240 ảnh, với 48 mẫu hóa đơn khác tự xây dựng thêm hóa đơn sử dụng chữ viết tay, số lƣợng bao gồm 144 ảnh, với 48 mẫu khác nhau, thu thập chữ viết 20 ngƣời bao gồm nhiều lứa tuổi giới tính khác Về thuật tốn nhận dạng, trích xuất thơng tin, nghiên cứu chia làm ba bƣớc tƣơng ứng với ba toán nhỏ, ba bƣớc lần lƣợt là: nhận dạng chữ viết, nhận dạng ký tự quang học sau trích xuất thơng tin Với ba tốn trên, nghiên cứu tập chung tìm giải pháp ứng dụng deep learning để giải Bài toán nhận dạng chữ viết, nghiên cứu thử nghiệm so sánh ba mơ hình Faster R-CNN, cascade R-CNN, YoLov4 Bài toán nhận dạng ký tự quang học, nghiên cứu thử nghiệm so sánh hai mơ hình AttentionOCR TransformerOCR cịn tốn cịn lại nghiên cứu tập chung thử nghiệm mơ hình Graph Convolutional Network (GCN) Chƣơng trình nhận dạng, trích xuất thơng tin đƣợc triển khai viết ngơn ngữ Python, thực huấn luyện mơ hình mạng sử dụng thƣ viện pytorch Luận văn nghiên cứu hoàn thành hệ thống từ đầu đến cuối từ nhận dạng chữ viết đến trích xuất thơng tin quan trọng hóa đơn tiếng Việt, tiến hành nghiên cứu, thử nghiệm để tìm giải pháp tốt cho cơng đoạn, kết cho độ xác 92% cho hóa đơn chữ in 78% cho chữ viết tay Cuối trang web đơn giản đƣợc xây dựng để ngƣời dùng thử nghiệm quan sát trực quan kết HỌC VIÊN MỤC LỤC DANH MỤC KÝ HIỆU VÀ CHỮ VIẾT TẮT i DANH MỤC HÌNH VẼ ii DANH MỤC BẢNG BIỂU v CHƢƠNG ĐẶT VẤN ĐỀ CHƢƠNG CƠ SỞ LÝ THUYẾT 2.1 Cơ sở lý thuyết cho toán phát chữ viết 2.1.1 Bài toán phát đối tượng .7 2.1.2 Thuật toán faster R-CNN phát đối tượng 10 2.1.3 Thuật toán cascade R-CNN phát đối tượng 16 2.1.4 Thuật toán YoLo phát đối tượng 21 2.2 Cơ sở lý thuyết cho toán nhận dạng ký tự tiếng Việt 33 2.2.1 Nhận dạng ký tự quang học 33 2.2.2 AttentionOCR 34 2.2.3 TransformerOCR 43 2.3 Cơ sở lý thuyết cho tốn trích xuất thơng tin văn từ ảnh 49 2.3.1 Bài tốn trích xuất thông tin văn từ ảnh 49 2.3.2 Một số lý thuyết đồ thị 51 2.3.3 Một số toán sử dụng Graph Convolutional Network 53 2.3.4 Graph Convolutional Network tốn trích xuất thơng tin hóa đơn 55 2.4 Kết luận chƣơng 61 CHƢƠNG 3: THỬ NGHIỆM TRÍCH XUẤT THƠNG TIN TRONG HÓA ĐƠN TIẾNG VIỆT 62 3.1 Thử nghiệm phát chữ viết viết với thuật toán Faster R-CNN, Cascade R-CNN YoLov4 62 3.1.1 Thiết lập thơng số cho mơ hình Faster R-CNN Cascade R-CNN 62 3.1.2 Thiết lập thông số cho mơ hình YoLov4 .65 3.1.3 Xử lý liệu cho toán phát chữ viết 66 3.2 Thử nghiệm nhận dạng ký tự quang học với mơ hình AttentionOCR TransformerOCR 69 3.2.1 Thiết lập thơng số cho mơ hình AttentionOCR TransformerOCR .69 3.2.2 Xử lý liệu cho toán nhận dạng ký tự quang học 70 3.3 Thử nghiệm trích xuất thơng tin hóa đơn tiếng Việt sử dụng mơ hình Graph Convolutional Network 72 3.3.1 Thiết lập thơng số cho mơ hình Graph Convolutional Network .72 3.3.2 Xử lý liệu cho toán trích xuất thơng tin 74 3.4 Kết luận chƣơng 76 CHƢƠNG 4: KẾT QUẢ THỬ NGHIỆM VÀ ĐÁNH GIÁ 77 4.1 Kết thử nghiệm đánh giá cho toán phát chữ viết 77 4.1.1 Các tham số sử dụng để đánh giá mơ hình 77 4.1.2 Kết đánh giá kết 79 4.2 Kết thử nghiệm đánh giá cho toán nhận dạng ký tự 83 4.2.1 Các tham số sử dụng để đánh giá mơ hình 83 4.2.2 Kết đánh giá kết 84 4.3 Kết thử nghiệm đánh giá cho toán nhận trích xuất thơng tin cho hệ thống 85 4.3.1 Các tham số sử dụng để đánh giá mơ hình 86 4.3.2 Kết đánh giá kết 86 4.4 Kết luận chƣơng 90 KẾT LUẬN 91 TÀI LIỆU THAM KHẢO 92 DANH MỤC KÝ HIỆU VÀ CHỮ VIẾT TẮT SVM: Support Vector Machine CNN: Convolutional Neural Network OCR: Optical Character Recognition GCN: Graph convolutional network IoU: Intersection over Union YoLo: You Only Look Once AUC: Area Under the Curve ROI: Region of Interest RPN: Region Proposal Network NMS: Non-maximal suppression SSE: Sum-squared error CSP: Cross-Stage-Partial connections) DenseNet: Dense connected convolutional network LSTM: Long Short Term Memory i DANH MỤC HÌNH VẼ Hình 1.1 Các bƣớc xử lý hệ thống .2 Hình 1.2 Sơ đồ khối xử lý .6 Hình 2.1 Sơ đồ mối liên hệ tác vụ computer vision .8 Hình 2.2 So sánh đầu toán classification với localization detection [46] Hình 2.3 Phân biết tốn classification, object localization, object detection [46] .9 Hình 2.4 Sơ đồ pipeline xử lý mơ hình mạng R-CNN [17] 10 Hình 2.5 Đầu sau thực Graph Based Image Segmentation Hình 2.6 Kiến trúc single model Fast R-CNN [18] 11 [19] 12 Hình 2.7 Thực ROI pooling 13 Hình 2.8 So sánh thời train test R-CNN Fast R-CNN[20] 14 Hình 2.9 Kiến trúc Faster R-CNN [21] 14 Hình 2.10 Xác định anchor box[22] 15 Hình 2.11 So sánh thời testing Fast R-CNN Faster R-CNN [47] .16 Hình 2.12 a, Kiến trúc mơ hình Faster R-CNN b, Kiến trúc mơ hình Cascade RCNN[23] 17 Hình 2.13 Biểu đồ IoU mẫu đầu tạo[23] 18 Hình 2.14 Hiệu suất giai đoạn khác nhau[23] 19 Hình 2.15 Hiệu suất sử dụng bốn giai đoạn 20 Hình 2.16 a, Hiệu suất sử dụng BBox b, Hiệu suất sử dụng tích phân [23] 20 Hình 2.17 Kết mơ hình đơn[23] 20 Hình 2.18 Mơ hình cascade R-CNN với mơ hình hỗ trợ khác [23] .21 Hình 2.19 Cấu trúc YoLov1[25] 22 Hình 2.20 Minh họa Grid cell[48] 22 Hình 2.21 Trọng tâm vật thể[25] 23 Hình 2.22 Giá trị số classes[25] 23 Hình 2.23 Minh họa NMS[25] 24 Hình 2.24 Hình ảnh minh họa 1% số lƣợng Anchor box mạng RetinaNet[25] 26 Hình 2.25 Cấu trúc Darknet19[26] 27 ii

Ngày đăng: 04/06/2023, 11:37

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w