Nghiên cứu phát triển thuật toán nhận dạng, trích xuất thông tin trong văn bản tiếng việt

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ Nghiên cứu phát triển thuật tốn nhận dạng, trích xuất thơng tin văn tiếng Việt LÊ BÍCH HẠNH hanh.lb202777M@sis.hust.edu.vn Ngành Kỹ thuật Điện tử Giảng viên hướng dẫn: TS Nguyễn Vũ Thắng Trường: Điện- Điện tử HÀ NỘI, 2022 CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ Họ tên tác giả : LÊ BÍCH HẠNH Đề tài luận văn : Nghiên cứu phát triển thuật tốn nhận dạng, trích xuất thông tin văn tiếng Việt Chuyên ngành : Kỷ thuật Điện tử Mã số HV : 20202777M Tác giả, Ngƣời hƣớng dẫn khoa học Hội đồng chấm luận văn xác nhận sửa chữa, bổ sung luận văn theo biên họp Hội đồng ngày 07/10/2022 với nội dung sau:  Đánh số thứ tự cơng thức phƣơng trình: Đánh số theo quy định mẫu luận văn (ví dụ PT 1.1)  Chỉnh sửa cơng thức tốn format: Chỉnh sửa format phƣơng trình PT 4.1, PT 4.2, PT 4.4, PT 4.5  Bổ sung tài liệu tham khảo: Bổ sung tài liệu tham khảo [6], [36],[37], [38], [39], [40], [41], [42], [43], [44], [45], [46], [47], [48], [49], [50], [51]  Bổ sung Kết luận chƣơng: Bổ sung kết luận chƣơng trang 61, kết luận chƣơng trang 76, kết luận chƣơng trang 90  Chỉnh sửa lại phần Kết luận chi tiết, hợp lý hơn: Đã chỉnh sửa phần Kết luận trang 92  Làm rõ phạm vi, đối tƣợng luận văn: Bổ sung trang  Việt hóa sơ đồ xử lý: Sử dụng văn phong tiếng Việt thay thế, chỉnh sửa Hình 1.2  Chỉnh sửa lại lỗi tả: Sửa lỗi tả đánh máy đƣợc hội đồng nhận xét  Chỉnh sửa lỗi chế bản, tính từ sở hữu: Chỉnh sửa đại từ xƣng hô luận văn từ “em” đƣợc thay “tác giả” Ngày 27 tháng 10 năm 2022 Giảng viên hƣớng dẫn Tác giả luận văn CHỦ TỊCH HỘI ĐỒNG LỜI MỞ ĐẦU Bài tốn trích xuất thơng tin văn (Information extraction) đƣợc khởi xƣớng từ năm 70s (DeJong‟s FRUMP program) Sau thành lập Message Understanding Conferences – MUC vào năm 90s Tuy toán xuất sớm nhƣng nhiều thách thức xuất nhiều mẫu văn khác trình chuyển đổi từ văn từ định dạng scan sang định dạng text Bài tốn trích xuất thơng tin văn kèm với công việc xử lý ngơn ngữ tự nhiên, xử lý ngơn ngữ tự nhiên bao gồm nhận dạng chữ viết nhận dạng giọng Nhận dạng chữ viết mang nhiều thách thức có 7000 ngơn ngữ khác đặc biệt khó khăn chữ viết tay Các cơng trình nghiên cứu nhận dạng chữ viết, trích xuất thông tin văn dừng lại nhiều ngơn ngữ Tiếng Anh, tiếng Việt cịn chƣa đƣợc khai phá nhiều Ứng dụng vào tốn trích xuất thông tin văn tiếng Việt, đề tài tập trung nghiên cứu, xây dựng hệ thống hoàn chỉnh từ phân tách, nhận diện chữ viết văn định dạng ảnh hay scan đến trích xuất tự động thông tin quan trọng văn Cụ thể nghiên cứu ứng dụng hóa đơn tốn tiếng Việt, bao gồm hóa đơn chữ in hóa đơn chữ viết tay Để trích xuất đƣợc thơng tin văn u cầu cần làm tìm đƣợc chữ viết văn định dạng ảnh, bƣớc cần nhận diện chữ viết để biết đƣợc nội dung văn cuối chọn lọc phân loại để tìm thông tin theo yêu cầu Với phát triển thị giác máy tính học sâu (deep learning), nghiên cứu sử dụng mơ hình deep learning khác để giải lần lƣợt vấn đề Cuối chức đƣợc tổng hợp để hoàn thành hệ thống hoàn chỉnh Để hoàn thành tốt nghiên cứu luận văn “Nghiên cứu phát triển thuật tốn nhận dạng, trích xuất thơng tin văn tiếng Việt”, em xin chân thành cảm ơn TS Nguyễn Vũ Thắng tận tình giúp đỡ suốt trình làm nghiên cứu viết luận văn TÓM TẮT LUẬN VĂN Luận văn nghiên cứu, thử nghiệm nhận dạng trích xuất thơng tin văn tiếng Việt cụ thể hóa đơn tốn tiếng Việt với 16 trƣờng thơng tin khác với đầu vào ảnh chụp hóa đơn scan tác động hay chỉnh sửa Hệ thống đƣợc thử nghiệm với nhiều mẫu hóa đơn khác bao gồm chữ in chữ viết tay Tiến hành thu thập liệu hóa đơn toán internet thu đƣợc 240 ảnh, với 48 mẫu hóa đơn khác tự xây dựng thêm hóa đơn sử dụng chữ viết tay, số lƣợng bao gồm 144 ảnh, với 48 mẫu khác nhau, thu thập chữ viết 20 ngƣời bao gồm nhiều lứa tuổi giới tính khác Về thuật tốn nhận dạng, trích xuất thơng tin, nghiên cứu chia làm ba bƣớc tƣơng ứng với ba toán nhỏ, ba bƣớc lần lƣợt là: nhận dạng chữ viết, nhận dạng ký tự quang học sau trích xuất thơng tin Với ba tốn trên, nghiên cứu tập chung tìm giải pháp ứng dụng deep learning để giải Bài toán nhận dạng chữ viết, nghiên cứu thử nghiệm so sánh ba mơ hình Faster R-CNN, cascade R-CNN, YoLov4 Bài toán nhận dạng ký tự quang học, nghiên cứu thử nghiệm so sánh hai mơ hình AttentionOCR TransformerOCR cịn tốn cịn lại nghiên cứu tập chung thử nghiệm mơ hình Graph Convolutional Network (GCN) Chƣơng trình nhận dạng, trích xuất thơng tin đƣợc triển khai viết ngơn ngữ Python, thực huấn luyện mơ hình mạng sử dụng thƣ viện pytorch Luận văn nghiên cứu hoàn thành hệ thống từ đầu đến cuối từ nhận dạng chữ viết đến trích xuất thơng tin quan trọng hóa đơn tiếng Việt, tiến hành nghiên cứu, thử nghiệm để tìm giải pháp tốt cho cơng đoạn, kết cho độ xác 92% cho hóa đơn chữ in 78% cho chữ viết tay Cuối trang web đơn giản đƣợc xây dựng để ngƣời dùng thử nghiệm quan sát trực quan kết HỌC VIÊN MỤC LỤC DANH MỤC KÝ HIỆU VÀ CHỮ VIẾT TẮT i DANH MỤC HÌNH VẼ ii DANH MỤC BẢNG BIỂU v CHƢƠNG ĐẶT VẤN ĐỀ CHƢƠNG CƠ SỞ LÝ THUYẾT 2.1 Cơ sở lý thuyết cho toán phát chữ viết 2.1.1 Bài toán phát đối tượng 2.1.2 Thuật toán faster R-CNN phát đối tượng 10 2.1.3 Thuật toán cascade R-CNN phát đối tượng 16 2.1.4 Thuật toán YoLo phát đối tượng 21 2.2 Cơ sở lý thuyết cho toán nhận dạng ký tự tiếng Việt 33 2.2.1 Nhận dạng ký tự quang học 33 2.2.2 AttentionOCR 34 2.2.3 TransformerOCR 43 2.3 Cơ sở lý thuyết cho tốn trích xuất thông tin văn từ ảnh 49 2.3.1 Bài tốn trích xuất thơng tin văn từ ảnh 49 2.3.2 Một số lý thuyết đồ thị 51 2.3.3 Một số toán sử dụng Graph Convolutional Network 53 2.3.4 Graph Convolutional Network tốn trích xuất thơng tin hóa đơn 55 2.4 Kết luận chƣơng 61 CHƢƠNG 3: THỬ NGHIỆM TRÍCH XUẤT THƠNG TIN TRONG HĨA ĐƠN TIẾNG VIỆT 62 3.1 Thử nghiệm phát chữ viết viết với thuật toán Faster R-CNN, Cascade R-CNN YoLov4 62 3.1.1 Thiết lập thông số cho mơ hình Faster R-CNN Cascade R-CNN 62 3.1.2 Thiết lập thơng số cho mơ hình YoLov4 65 3.1.3 Xử lý liệu cho toán phát chữ viết 66 3.2 Thử nghiệm nhận dạng ký tự quang học với mơ hình AttentionOCR TransformerOCR 69 3.2.1 Thiết lập thông số cho mô hình AttentionOCR TransformerOCR 69 3.2.2 Xử lý liệu cho toán nhận dạng ký tự quang học 70 3.3 Thử nghiệm trích xuất thơng tin hóa đơn tiếng Việt sử dụng mơ hình Graph Convolutional Network 72 3.3.1 Thiết lập thông số cho mô hình Graph Convolutional Network 72 3.3.2 Xử lý liệu cho tốn trích xuất thơng tin 74 3.4 Kết luận chƣơng 76 CHƢƠNG 4: KẾT QUẢ THỬ NGHIỆM VÀ ĐÁNH GIÁ 77 4.1 Kết thử nghiệm đánh giá cho toán phát chữ viết 77 4.1.1 Các tham số sử dụng để đánh giá mơ hình 77 4.1.2 Kết đánh giá kết 79 4.2 Kết thử nghiệm đánh giá cho toán nhận dạng ký tự 83 4.2.1 Các tham số sử dụng để đánh giá mơ hình 83 4.2.2 Kết đánh giá kết 84 4.3 Kết thử nghiệm đánh giá cho tốn nhận trích xuất thơng tin cho hệ thống 85 4.3.1 Các tham số sử dụng để đánh giá mô hình 86 4.3.2 Kết đánh giá kết 86 4.4 Kết luận chƣơng 90 KẾT LUẬN 91 TÀI LIỆU THAM KHẢO 92 DANH MỤC KÝ HIỆU VÀ CHỮ VIẾT TẮT SVM: Support Vector Machine CNN: Convolutional Neural Network OCR: Optical Character Recognition GCN: Graph convolutional network IoU: Intersection over Union YoLo: You Only Look Once AUC: Area Under the Curve ROI: Region of Interest RPN: Region Proposal Network NMS: Non-maximal suppression SSE: Sum-squared error CSP: Cross-Stage-Partial connections) DenseNet: Dense connected convolutional network LSTM: Long Short Term Memory i DANH MỤC HÌNH VẼ Hình 1.1 Các bƣớc xử lý hệ thống Hình 1.2 Sơ đồ khối xử lý Hình 2.1 Sơ đồ mối liên hệ tác vụ computer vision Hình 2.2 So sánh đầu tốn classification với localization detection[46] Hình 2.3 Phân biết toán classification, object localization, object detection[46] Hình 2.4 Sơ đồ pipeline xử lý mơ hình mạng R-CNN [17] 10 Hình 2.5 Đầu sau thực Graph Based Image Segmentation [18] 11 Hình 2.6 Kiến trúc single model Fast R-CNN [19] 12 Hình 2.7 Thực ROI pooling 13 Hình 2.8 So sánh thời train test R-CNN Fast R-CNN[20] 14 Hình 2.9 Kiến trúc Faster R-CNN [21] 14 Hình 2.10 Xác định anchor box[22] 15 Hình 2.11 So sánh thời testing Fast R-CNN Faster R-CNN[47] 16 Hình 2.12 a, Kiến trúc mơ hình Faster R-CNN b, Kiến trúc mơ hình Cascade RCNN[23] 17 Hình 2.13 Biểu đồ IoU mẫu đầu tạo[23] 18 Hình 2.14 Hiệu suất giai đoạn khác nhau[23] 19 Hình 2.15 Hiệu suất sử dụng bốn giai đoạn 20 Hình 2.16 a, Hiệu suất sử dụng BBox b, Hiệu suất sử dụng tích phân[23] 20 Hình 2.17 Kết mơ hình đơn[23] 20 Hình 2.18 Mơ hình cascade R-CNN với mơ hình hỗ trợ khác nhau[23] 21 Hình 2.19 Cấu trúc YoLov1[25] 22 Hình 2.20 Minh họa Grid cell[48] 22 Hình 2.21 Trọng tâm vật thể[25] 23 Hình 2.22 Giá trị số classes[25] 23 Hình 2.23 Minh họa NMS[25] 24 Hình 2.24 Hình ảnh minh họa 1% số lƣợng Anchor box mạng RetinaNet[25] 26 Hình 2.25 Cấu trúc Darknet19[26] 27 ii Hình 4.4 Kết nhận diện với hóa đơn chữ viết tay 82 Các trƣờng hợp chữ in bị nhận sai nhƣ hình bên dƣới, lý do: chữ câu viết rời nên bị nhận diện thành hai box, dòng chữ viết liền bị nhận diện thành chung box, số trƣờng hợp đặc biệt khác Hình 4.5 Một số trƣờng hợp nhận diện sai với hóa đơn chữ in Các trƣờng hợp chữ viết tay bị nhận sai bounding box không bao trƣờng hợp chữ viết không thẳng, box thiết dấu câu, điều ảnh hƣởng đến kết nhận diện ký tự sau Hình 4.6 Trƣờng hợp nhận diện sai với hóa đơn chữ viết tay 4.2 Kết thử nghiệm đánh giá cho toán nhận dạng ký tự 4.2.1 Các tham số sử dụng để đánh giá mơ hình ● Độ xác ký tự PT 4.4 Ký tự bao gồm: 'aÀảẢãÃáÁạẠăĂằẰẳẲẵẴắẮặẶâÂầẦẩẨẫẪấẤậẬbBcCdDđĐeÈẻẺẽẼéÉẹẸêÊềỀể ỂễỄếẾệỆfFgGhHiIìÌỉỈĩĨíÍịỊjJkKlLmMnNoÕỏỎõÕóĨọỌơƠồỒổỔỗỖốỐộỘơƠờỜởỞ ỡỠớỚợỢpPqQrRsStTuÙủỦũŨúƯụỤƣƢừỪửỬữỮứỨựỰvVwWxXyYỳỲỵỴỷỶýÝỳ 83 ỲzZ0123456789!"#$%&''()*+,-./:;?@[\]^_`{|}~ ' có bao gồm khoảng trắng (dấu cách chữ) ● Độ xác chuỗi PT 4.5 Mỗi ảnh coi câu, câu có nhiều ký tự hay ký tự, câu coi câu câu có kết tất ký tự câu 4.2.2 Kết đánh giá kết Kết thông số độ xác đƣợc thể bảng dƣới đây, đánh giá lần lƣợt chữ in chữ viết tay Bảng 4.4 Kết kiểm thử mơ hình AttentionOCR Thơng số Accuracy sequence (%) Accuracy char (%) Chữ in 92.77 98.75 Chữ viết tay 65.36 78.28 Tổng 85.72 93.48 Bảng 4.5 Kết kiểm thử mơ hình TransformerOCR Thơng số Accuracy sequence (%) Accuracy char (%) Chữ in 93.14 98.85 Chữ viết tay 67.19 78.84 Tổng 86.46 93.70 Nhận xét: Kết cao với tập kiểm thử, đặc biệt với hóa đơn chữ in, với hóa đơn chữ viết tay kết kiểm thử thấp nhiều Lý chữ in có kiểu chữ viết tay đa dạng nhiều Để cải tiến đƣợc kết chữ viết tay cần có liệu đủ lớn để huấn luyện, việc gắn nhãn liệu nhiều thời gian, nên việc cải tiến đƣợc tiếp tục thực sau 84 Các hóa đơn chữ in rõ ràng, ảnh sắc nét, chữ dịng khơng bị chồng nên Với ảnh chữ viết tay ảnh bị mờ (do trình tạo liệu, tự chụp liệu điện thoại di động) Accuracy char ln cao Accuracy sequence câu thƣờng có nhiều ký tự, mà sai ký tự coi sai câu Các trƣờng hợp chữ in bị nhận sai thƣờng bị nhầm chữ in hoa chữ in thƣờng Khi mà ảnh chữ in hoa in thƣờng giống nhau, ví dụ “S” “s”, “O” “o”, “U” “u”, “V” “v”, … Về kết thử nghiệm hai mơ hình AttentionOCR TransformerOCR mơ hình TransformerOCR cho kết tốt nhƣng khơng đáng kể nhiều, lý ảnh thử nghiệm rõ ràng, sắc nét Với mơ hình AttentionOCR hoạt động tốt đầu vào ký tự nhƣng điều bất khả thi việc cắt ảnh để lấy ký tự hay việc nhận dạng box ký tự vơ khó khăn Nếu với ảnh dịng chữ mơ hình TransformerOCR hoạt động tốt Nghiên cứu sử dụng kết mơ hình TransformerOCR cho bƣớc Các trƣờng hợp chữ viết tay bị nhận sai ảnh bị dấu câu, chữ viết tay dòng liền nên qua mơ hình nhận diện chữ, box ảnh bị chữ, đặc biệt chữ “g”, kéo xuống thấp, với chữ in thƣờng thƣờng viết không đƣợc thẳng hàng Dấu câu chữ viết tay thƣờng khơng đƣợc viết rõ ràng nên khó để nhận Hình 4.7 Trƣờng hợp nhận diện sai với hóa đơn chữ viết tay 4.3 Kết thử nghiệm đánh giá cho tốn nhận trích xuất thơng tin cho hệ thống Với kết toán thứ ba đƣợc coi kết nghiên cứu Bài toán thứ ba lấy đầu hai toán trƣớc nên kết đánh giá đƣợc trình bày dƣới phụ thuộc vào kết hai toán trƣớc Vậy nên kết nghiên 85 cứu phụ thuộc vào ba toán (giai đoạn) nên cần cải tiến ba cho kết tốt cho nghiên cứu 4.3.1 Các tham số sử dụng để đánh giá mơ hình Có nhiều phƣơng pháp để đánh giá mơ hình phân loại hoạt động tốt hay khơng, ví dụ nhƣ: sử dụng thơng số “độ xác” (accuracy), mát (loss)… Bản chất tốn trích xuất thơng tin tốn phân loại nút đồ thị (node classification) nên nghiên cứu sử dụng thơng số độ xác để đánh giá hoạt động ba mơ hình Độ xác đƣợc xác định theo cơng thức sau: PT 4.6 Accuracy = Trong đó: n số mẫu (sample) dự đoán N tổng số mẫu (sample) đƣa vào dự đốn Từ cơng thức tính độ xác trên, tạm hiểu mơ hình mạng có độ xác cao tốt Các mẫu tốn thứ ba trích xuất textbox Cần nhận diện nhãn textbox Để đánh giá hệ thống, nghiên cứu sử dụng thông số độ xác nhƣ trên, nhƣng mẫu đƣợc gọi đoán mẫu nhãn tồn ký tự bên trƣờng thơng tin (phải xác ba tốn trƣớc đó) 4.3.2 Kết đánh giá kết a Kết mơ hình trích xuất thơng tin Kết thơng số độ xác mơ hình trích xuất thông tin sử dụng GCN đƣợc thể bảng dƣới đây, đánh giá lần lƣợt chữ in chữ viết tay Bảng 4.6 Kết kiểm thử mơ hình trích xuất thơng tin Thông số 86 Accuracy (%) Chữ in 99.45 Chữ viết tay 98.06 Tổng 98.93 Nhận xét: Mơ hình trích xuất thơng tin cho độ xác cao lên đến 99%, tỉ lệ độ xác chữ in chữ viết tay khơng q chênh lệch, liệu huấn luyện văn chữ biết tay có lẫn chữ in Từ kết ta thấy nội dung textbox định không nhiều bị trí textbox mà chữ viết tay có độ xác nhận diện ký tự (OCR) khơng cao nhƣng kết chung phân loại, gắn nhãn cho textbox cho độ xác cao Các lỗi sai thƣờng gặp trƣờng thông tin tổng số tiền, mà tổng số tiền thƣờng đƣợc viết hai vị trí, cuối bảng, hai sau cột thuế, nên có nhầm lẫn Lỗi sai khác nhầm lẫn trƣờng mã form số serial Vì hai trƣờng có tính chất giống nằm cạnh hóa đơn b Kết hệ thống trích xuất thơng tin hóa đơn tiếng Việt Kết thơng số độ xác hệ thống trích xuất thơng tin đƣợc thể bảng dƣới đây, đánh giá lần lƣợt chữ in chữ viết tay Kết đánh giá hệ thống từ đầu đến cuối, nên bị ảnh hƣởng bở ba toán Bảng 4.7 Kết kiểm thử hệ thống trích xuất thơng tin hóa đơn tiếng Việt Thông số Accuracy (%) Chữ in 92.07 Chữ viết tay 78.26 Tổng 86.90 Nhận xét: Từ kết cho thấy độ xác hệ thống với chữ viết tay thấp, điều đến từ việc nhận dạng ký tự (OCR) chƣa đƣợc xác Để nâng cao độ xác mơ hình cần cải thiện vào bƣớc nhận dạng ký tự Để tăng độ xác mơ hình nhận diện ký tự cần có thêm nhiều liệu để huấn luyện, mà nhƣ phần trƣớc trình bày, việc gắn nhãn nhiều thời gian, nên nghiên cứu có phát triển trang web đơn giản để tải ảnh hóa đơn lên, sau trích xuất thơng tin, sai tiến hành chỉnh sửa thủ cơng lấy liệu tiếp tục huấn luyện cho mơ hình, để mơ hình tăng độ xác 87 Trang web giúp ngƣời dùng có nhìn trực quan hệ thống Trang web đƣợc minh họa nhƣ hình dƣới Hình 4.8 Trang web trích xuất thơng tin Ngƣời dùng truy cập vào trang web theo đƣờng link http://172.16.85.115:3000/, hình truy cập thành cơng đƣợc hiển thị nhƣ Hình 4.8 Để tải ảnh hóa đơn tiếng Việt, ngƣời dùng chọn vào button [chọn file], tiến hành chọn file ảnh có định dạng jpg hay png file định dạng pdf Nếu file đƣợc chọn khác định dạng nêu trên, hệ thống thông báo yêu cầu chọn lại file Hệ thống tiến hành trích xuất thơng tin trả kết nhƣ hình bên dƣới Hình 4.9 Kết trả sau trích xuất thông tin 88 Kết bao gồm hai phần, phần bên trái hình ảnh hóa đơn với trƣờng thông tin đƣợc phát đƣợc bao quanh màu xanh, với số id nhãn màu đỏ nằm bên trái textbox Phần bên phải bảng giá trị trƣờng thông tin, trƣờng thông khơng tìm đƣợc để trống Ngƣời dùng tải hình ảnh kết trích xuất cách chọn vào button [Tải hình ảnh] [Tải file kết quả] Với file kết tải dƣới dạng json để dễ dàng chỉnh sửa sử dụng kết chỉnh sửa làm liệu huấn luyện sau Hình 4.10 Kết file json 89 4.4 Kết luận chƣơng Chƣơng trình bày kết thu đƣợc sau q trình thử nghiệm mơ hình học sâu để giải tốn Các tham số để đánh giá độ hiệu mô hình đƣợc đƣa Các kết đƣợc nêu kèm theo đánh giá để lựa chọn mơ hình phù hợp cho hệ thống nhƣ hƣớng cải tiến Tại chƣơng này, tác giả đƣa thiết kế trang web cho phép ngƣời dùng trực quan theo dõi kết trích xuất thơng tin hóa đơn 90 KẾT LUẬN Luận văn nghiên cứu, tìm hiểu thử nghiệm thiết kế hệ thống trích xuất thơng tin quan trọng hóa đơn tiếng Việt Hệ thống đƣợc chia làm ba toán nhỏ, ứng với ba tốn đó, nghiên cứu tiến hành tìm hiểu lý thuyết, thử nghiệm phƣơng pháp, mơ hình khác để tìm phƣơng pháp thích hợp Các kết mà luận văn đạt đƣợc, tƣơng ứng với mục tiêu đề ban đầu nhƣ sau: - Thiết kế hệ thống hoàn chỉnh cho nhiệm vụ trích xuất thơng tin quan trọng văn tiếng Việt - Tìm hiểu, nghiên cứu phƣơng pháp để nhận diện, phát đối tƣợng, đặc biệt thuật toán nhận diện Faster R-CNN, cascade R-CNN, YoLov4 lựa chọn mơ hình phù hợp với tốn phát chữ viết hóa đơn tiếng Việt - Tìm hiểu, nghiên cứu phƣơng pháp để nhận diện ký tự tiếng Việt đặc biệt thuật toán nhận diện ký tự quang học OCR lựa chọn mô hình phù hợp với đầu vào textbox nhận diện đƣợc hóa đơn, đặc biệt hóa đơn chữ viết tay - Nghiên cứu, xây dựng mơ hình đồ thị, thiết kế, định nghĩa đặc trƣng nút cạnh mơ hình GCN - Xây dựng liệu gồm 384 ảnh, có 240 ảnh chữ in đƣợc thu thập internet 144 ảnh chữ viết tay tự xây dựng - Thực thử nghiệm thuật toán đánh giá kết cho toán cho hệ thống Luận văn nghiên cứu hoàn thành hệ thống từ đầu đến cuối từ nhận dạng chữ viết đến trích xuất thơng tin quan trọng hóa đơn tiếng Việt, tiến hành nghiên cứu, thử nghiệm để tìm giải pháp tốt cho công đoạn, kết cho độ xác 92% cho hóa đơn chữ in 78% cho chữ viết tay, số trƣờng hợp nhận diện sai cần tiếp tục nghiên cứu để tối ƣu Cuối trang web đơn giản đƣợc xây dựng để ngƣời dùng thử nghiệm quan sát trực quan kết Nghiên cứu tiếp tục phát triển tối ƣu thuật tốn để trích xuất nhanh hơn, xác hơn, thu thập, thử nghiệm thêm nhiều mẫu liệu khác xây dựng trang web đa dạng, tiện ích 91 TÀI LIỆU THAM KHẢO [1] S M Lucas, A Panaretos, L Sosa, A Tang, S Wong and R Young, "ICDAR 2003 robust reading competitions," Seventh International Conference on Document Analysis and Recognition, 2003 Proceedings., 2003, pp 682-687, doi: 10.1109/ICDAR.2003.1227749 [2] T E de Campos, B R Babu and M Varma Character recognition in natural images In Proceedings of the International Conference on Computer Vision Theory and Applications (VISAPP), Lisbon, Portugal, February 2009 [3] http://www.iapr-tc11.org/mediawiki/index.php/The_Street_View_Text_Dataset [4] http://www.iapr-tc11.org/mediawiki/index.php/KAIST_Scene_Text_Database [5] https://doi.org/10.5281/zenodo.3250123 [6] Robert Nagy, Anders Dicker & Klaus Meyer-Wegener, “NEOCR: A Configurable Dataset for Natural Image Text Recognition”, 2011 DOI: 10.1007/978-3-642-29364-1_1 [7] A Ray, A Shah and S Chaudhury, "Recognition based text localization from natural scene images," 2016 23rd International Conference on Pattern Recognition (ICPR), 2016, pp 1177-1182, doi: 10.1109/ICPR.2016.7899796 [8] E Grosicki and H El-Abed, "ICDAR 2011 - French Handwriting Recognition Competition," 2011 International Conference on Document Analysis and Recognition, 2011, pp 1459-1463, doi: 10.1109/ICDAR.2011.290 [9] X -C Yin, W -Y Pei, J Zhang and H -W Hao, "Multi-Orientation Scene Text Detection with Adaptive Clustering," in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol 37, no 9, pp 1930-1937, Sept 2015, doi: 10.1109/TPAMI.2014.2388210 [10] H Pham-Van, H T Nguyen and S -J Wu, "Vietnamese handwriting recognition for automatic data entry in enrollment forms," Proceedings of 2nd International Conference on Information Technology and Electronic Commerce, 2014, pp 141-145, doi: 10.1109/ICITEC.2014.7105589 [11] T T Van, P N Huu and T Hoang, "Isolated vietnamese handwriting recognition embedded system applied combined feature extraction method," 2015 92 International Conference on Advanced Technologies for Communications (ATC), 2015, pp 479-483, doi: 10.1109/ATC.2015.7388375 [12] H T Nguyen, C T Nguyen, P T Bao and M Nakagawa, "Preparation of an Unconstrained Vietnamese Online Handwriting Database and Recognition Experiments by Recurrent Neural Networks," 2016 15th International Conference on Frontiers in Handwriting Recognition (ICFHR), 2016, pp 144149, doi: 10.1109/ICFHR.2016.0038 [13] H T Nguyen, C T Nguyen and M Nakagawa, "ICFHR 2018 – Competition on Vietnamese Online Handwritten Text Recognition using HANDS-VNOnDB (VOHTR2018)," 2018 16th International Conference on Frontiers in Handwriting Recognition (ICFHR), 2018, pp 494-499, doi: 10.1109/ICFHR- 2018.2018.00092 [14] H T Viet, Q Hieu Dang and T A Vu, "A Robust End-To-End Information Extraction System for Vietnamese Identity Cards," 2019 6th NAFOSTED Conference on Information and Computer Science (NICS), 2019, pp 483-488, doi: 10.1109/NICS48868.2019.9023853 [15] http://host.robots.ox.ac.uk/pascal/VOC/voc2012/, truy cập lần cuối 30/08/2022 [16] https://image-net.org/challenges/LSVRC/2013/index, truy cập lần cuối 30/08/2022 [17] https://arxiv.org/pdf/1504.08083.pdf, truy cập lần cuối 30/08/2022 [18] https://www.learnopencv.com/selective-search-for-object-detection-cpp-python/, truy cập lần cuối 30/08/2022 [19] https://arxiv.org/pdf/1504.08083.pdf, truy cập lần cuối 30/08/2022 [20] https://towardsdatascience.com/r-cnn-fast-r-cnn-faster-r-cnn-YoLo-objectdetection-algorithms-36d53571365e, truy cập lần cuối 30/08/2022 [21] https://arxiv.org/pdf/1506.01497.pdf, truy cập lần cuối 30/08/2022 [22] deep learning for computer vision, rajalingappaa shanmugamani, 2018 [23] Z Cai and N Vasconcelos, "Cascade R-CNN: Delving Into High Quality Object Detection," 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018, pp 6154-6162, doi: 10.1109/CVPR.2018.00644 [24] https://cocodataset.org/ , truy cập lần cuối 31/08/2022 93 [25] A K Shetty, I Saha, R M Sanghvi, S A Save and Y J Patel, "A Review: Object Detection Models," 2021 6th International Conference for Convergence in Technology (I2CT), 2021, pp 1-8, doi: 10.1109/I2CT51068.2021.9417895 [26] J Redmon and A Farhadi, "YoLo9000: Better, Faster, Stronger," 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017, pp 6517-6525, doi: 10.1109/CVPR.2017.690 [27] C Gao, Q Cai and S Ming, "YoLov4 Object Detection Algorithm with Efficient Channel Attention Mechanism," 2020 5th International Conference on Mechanical, Control and Computer Engineering (ICMCCE), 2020, pp 17641770, doi: 10.1109/ICMCCE51767.2020.00387 [28] cs231n.github.io/convolutional-networks/ [29] M Kaur and A Mohta, "A Review of Deep Learning with Recurrent Neural Network," 2019 International Conference on Smart Systems and Inventive Technology (ICSSIT), 2019, pp 460-465, doi: 10.1109/ICSSIT46314.2019.8987837 [30] http://jalammar.github.io/illustrated-transformer/, truy cập lần cuối 03/09/2022 [31] https://tkipf.github.io/graph-convolutional-networks/, truy cập lần cuối 03/09/2022 [32] http://mccormickml.com/2016/04/19/word2vec-tutorial-the-skip-gram-model/, truy cập lần cuối 10:30:00 03/09/2022 [33] http://web.stanford.edu/class/cs224w/slides/08-GNN.pdf, truy cập lần cuối 03/09/20222 [34] N Zakaria, F Mohamed, R Abdelghani and K Sundaraj, "VGG16, ResNet-50, and GoogLeNet Deep Learning Architecture for Breathing Sound Classification: A Comparative Study," 2021 International Conference on Artificial Intelligence for Cyber Security Systems and Privacy (AI-CSP), 2021, pp 1-6, doi: 10.1109/AI-CSP52968.2021.9671124 [35] "Neurohive - VGG16," [Online] Available: https://neurohive.io/en/popularnetworks/vgg16/ [Accessed 03 06 2020] [36] J Gao and J Yang, "An adaptive algorithm for text detection from natural scenes," in Computer Society Conference on Computer Vision and Pattern Recognition, Kauai, HI, USA, 2001 94 [37] X Chen and A L Yuille, "Detecting and Reading Text in Natural Scenes," in Proceedings of the 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, Washington, DC, USA, 2004 [38] B Epshtein, E Ofek and Y Wexler, "Detecting Text in Natural Scenes with Stroke Width Transform," Proc IEEE Int‟l Conf Computer Vision and Pattern Recognition, pp 2963-2970, 2010 [39] A Coates, B Carpenter, C Case, S Satheesh, B Suresh, T Wang, D Wu and A Ng, "Text Detection and Character Recognition in Scene Images with Unsupervised Feature Learning," in International Conference on Document Analysis and Recognition, Beijing, China, 2011 [40] T Wang, D Wu, A Coates and A Y Ng, "End-to-end text recognition with convolutional neural network," ICPR, 2012 [41] M Anthimopoulos, B Gatos, and I Pratikakis, "Detection of artificial and scene text in images and video frames," Pattern Analysis and Applications, vol 16, no 3, pp 431-446, 2013 [42] Lin Li, S Yu, L Zhong and X Li, "Multilingual Text Detection with Nonlinear Neural Network," in Mathematical Problems in Engineering, 2015 [43] L Li and S Yu, "Text Detection with Deep Neural Network," Springer RealTime Intelligent Systems, Advances in Intelligent Systems and Computin, vol 613, pp 301-311, 2018 [44] J Yang, P Ren and X Kong, "Handwriting Text Recognition Based on Faster RCNN," 2019 Chinese Automation Congress (CAC), 2019, pp 2450-2454, doi: 10.1109/CAC48633.2019.8997382 [45] H Wang and Z Zhang, "Text Detection Algorithm based on Improved YOLOv3," 2019 IEEE 9th International Conference on Electronics Information and Emergency Communication (ICEIEC), 2019, pp 147-150, doi: 10.1109/ICEIEC.2019.8784576 [46] http://tutorials.aiclub.cs.uit.edu.vn/wp-content/plugins/vcaptcha/vcaptcha-middlepage.php?goto=https://tutorials.aiclub.cs.uit.edu.vn/index.php/2020/04/28/phanbiet-bai-toan-trong-cv/ truy cập lần cuối 17/10/2022 [47] https://towardsdatascience.com/r-cnn-fast-r-cnn-faster-r-cnn-yolo-objectdetection-algorithms-36d53571365e truy cập lần cuối 17/10/2022 95 [48] https://junha1125.github.io/blog/artificial-intelligence/2020-08-18-YOLO/, truy cập lần cuối 17/10/2022 [49] https://pbcquoc.github.io/transformer/, truy cập lần cuối 17/10/2022 [50] https://viblo.asia/p/deep-learning-graph-neural-network-a-literature-review-andapplications-6J3ZgP0qlmB, truy cập lần cuối 17/10/2022 [51] https://learnopencv.com/intersection-over-union-iou-in-object-detection-andsegmentation/, truy cập lần cuối 17/10/2022 96 ... tốt nghiên cứu luận văn ? ?Nghiên cứu phát triển thuật tốn nhận dạng, trích xuất thơng tin văn tiếng Việt? ??, em xin chân thành cảm ơn TS Nguyễn Vũ Thắng tận tình giúp đỡ suốt trình làm nghiên cứu. .. VIỆT NAM Độc lập – Tự – Hạnh phúc BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ Họ tên tác giả : LÊ BÍCH HẠNH Đề tài luận văn : Nghiên cứu phát triển thuật tốn nhận dạng, trích xuất thơng tin văn tiếng. .. nghiên cứu viết luận văn TĨM TẮT LUẬN VĂN Luận văn nghiên cứu, thử nghiệm nhận dạng trích xuất thơng tin văn tiếng Việt cụ thể hóa đơn tốn tiếng Việt với 16 trƣờng thông tin khác với đầu vào

Định dạng
Số trang	110
Dung lượng	2,77 MB