(LUẬN văn THẠC sĩ) ứng dụng xử lý ảnh trong việc nhận dạng và trích xuất thông tin, dữ liệu trong các tờ hóa đơn bán hàng

97 9 0
(LUẬN văn THẠC sĩ) ứng dụng xử lý ảnh trong việc nhận dạng và trích xuất thông tin, dữ liệu trong các tờ hóa đơn bán hàng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ THÂN ĐỨC TRƯỜNG ỨNG DỤNG XỬ LÝ ẢNH TRONG VIỆC NHẬN DẠNG VÀ TRÍCH XUẤT THƠNG TIN, DỮ LIỆU TRONG CÁC TỜ HÓA ĐƠN BÁN HÀNG NGÀNH: KỸ THUẬT ĐIỆN TỬ - 60520203 SKC007523 Tp Hồ Chí Minh, tháng 09/2017 TIEU LUAN MOI download : skknchat123@gmail.com BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ THÂN ĐỨC TRƯỜNG ỨNG DỤNG XỬ LÝ ẢNH TRONG VIỆC NHẬN DẠNG VÀ TRÍCH XUẤT THƠNG TIN, DỮ LIỆU TRONG CÁC TỜ HÓA ĐƠN BÁN HÀNG NGÀNH: KỸ THUẬT ĐIỆN TỬ - 60520203 Hướng dẫn khoa học: TS NGUYỄN VĂN THÁI Tp Hồ Chí Minh, tháng 9/2017 TIEU LUAN MOI download : skknchat123@gmail.com TIEU LUAN MOI download : skknchat123@gmail.com TIEU LUAN MOI download : skknchat123@gmail.com TIEU LUAN MOI download : skknchat123@gmail.com TIEU LUAN MOI download : skknchat123@gmail.com TIEU LUAN MOI download : skknchat123@gmail.com TIEU LUAN MOI download : skknchat123@gmail.com TIEU LUAN MOI download : skknchat123@gmail.com LÝ LỊCH KHOA HỌC I LÝ LỊCH SƠ LƯỢC Họ & tên: Thân Đức Trường Giới tính: Nam Ngày, tháng, năm sinh: 10/04/1990 Nơi sinh: Lạng Sơn Quê quán: Bắc Giang Dân tộc: Kinh Địa chỉ: 264/18/14 Phạm Ngũ Lão – Hiệp Thành – Thủ Dầu Một – Bình Dương Điện thoại quan: Điện thoại: 0978001967 E-mail: thanductruong@gmail.com Fax: II QUÁ TRÌNH ĐÀO TẠO Đại học Hệ đào tạo: Đại học quy Thời gian đào tạo từ 9/2009 đến 3/2014 Nơi học (trường, thành phố): Trường Đại Học Sư Phạm Kỹ Thuật TPHCM Ngành học:Sư phạm Kỹ thuật Điện Điện Tử Tên đồ án, luận án môn thi tốt nghiệp: “THIẾT KẾ, THI CƠNG VÀ ĐIỀU KHIỂN MƠ HÌNH XỬ LÝ NỒNG ĐỘ PH” Ngày & nơi bảo vệ đồ án, luận án thi tốt nghiệp: Tháng 02/2014 trường Đại học Sư phạm Kỹ thuật, Thành phố Hồ Chí Minh Người hướng dẫn: Ths Tạ Văn Phương Sau đại học Hệ đào tạo: Sau đại học (Thạc Sĩ) Thời gian đào tạo từ 9/2014 đến 10/2017 Nơi học (trường, thành phố): Trường Đại Học Sư Phạm Kỹ Thuật TPHCM Ngành học:Kỹ thuật Điện Điện Tử Tên đồ án, luận án môn thi tốt nghiệp: “ỨNG DỤNG XỬ LÝ ẢNH TRONG VIỆC NHẬN DẠNG VÀ TRÍCH XUẤT THƠNG TIN, DỮ LIỆU TRONG CÁC TỜ HÓA ĐƠN BÁN HÀNG” Ngày & nơi bảo vệ đồ án, luận án thi tốt nghiệp: Ngày 23/10/2017 trường Đại học Sư phạm Kỹ thuật, Thành phố Hồ Chí Minh Người hướng dẫn: TS Nguyễn Văn Thái Trang i TIEU LUAN MOI download : skknchat123@gmail.com Hình 5.23: Giao diện hệ thống mở file Exel 63 TIEU LUAN MOI download : Trang skknchat123@gmail.com Chương 6: KẾT QUẢ VÀ HƯỚNG PHÁT TRIỂN 6.1 Kết Đề tài thực hoàn thành nhiệm vụ đề nhận dạng trích xuất thơng tin có tờ hóa đơn lưu trữ lại dạng file Exel để dễ quản lý Hình 6.1: Giao diện chương trình 64 TIEU LUAN MOI download : Trang skknchat123@gmail.com Hình 6.2: Kết lưu trữ thông tin thu Tuy nhiên, Kết thu có độ xác chưa cao số nhiễu chưa loại bỏ hết Hiệu suất training với 100 mẫu hóa đơn đưa vào: Đối với số lượng mẫu 12 mẫu/ký tự: Độ xác nhận dạng vào khoảng 25% với ký tự 40% với số học Đối với số lượng mẫu 25 mẫu/ký tự: Độ xác nhận dạng vào khoảng 40% với ký tự 70% với số học Đối với số lượng mẫu 50 mẫu/ký tự: Độ xác nhận dạng vào khoảng 70% với ký tự 80% với số học 6.2 Hướng phát triển Đề tài hoàn thiện nhiệm vụ đưa ra, số khuyết điểm: Chưa loại bỏ hết nhiễu trắng nên kết số điểm nhận dạng sai: 65 TIEU LUAN MOI download : Trang skknchat123@gmail.com Hình 6.3: Sai số tồn nhiễu trắng Một số ký tự chưa tách rời hết nên nhận dạng kết sai: Hình 6.4: Nhận dạng sai chưa tách hoàn toàn ký tự 66 TIEU LUAN MOI download : Trang skknchat123@gmail.com Như mẫu nhận dạng vị trí số 444 ta chưa tách rời ký tự nên kết nhận dạng chưa xác (nhận dạng 444  A) Hướng khắc phục xây dựng phương pháp tách ký tự hiệu Một số ký tự sai font nên kết nhận dạng sai: Ví dụ mẫu sau chữ số bị sai font (Calibri) nên kết nhận dạng sai không nhận dạng Hướng khắc phục xây dựng tập mẫu huấn luyện lớn để nhận dạng nhiều font chữ Hình 6.5: Nhận dạng sai sai font Hình 6.6: Thử nghiệm với việc thêm số mẫu 67 TIEU LUAN MOI download : Trang skknchat123@gmail.com Ngoài ra, chưa lưu liệu vào mong muốn file exel: Hình 6.7: Một số liệu khơng vị trí Từ tồn người nghiên cứu đưa hướng phát triển sau: - Xây dựng phương pháp xử lý, lọc nhiễu hiệu tách ký tự triệt để để nâng cao độ xác - Xây dựng tập mẫu huấn luyện lớn để đảm bảo độ xác cao - Xây dựng tập mẫu với đa dạng kiểu chữ để nhận dạng nhiều font chữ Mang lại tính ứng dụng cao thực tiễn - Nhận dạng hóa đơn với nhiều kiểu mẫu định dạng - Xây dựng từ điển để hiệu chỉnh lại kết cho từ tiếng việt tả xác định thuật toán để đưa nội dung liệu vào vị trí Exel - Có thể mở rộng ứng dụng nhiều lĩnh vực như: Nhập điểm cho học sinh sinh viên sở đào tạo, ứng dụng quản lý thuốc hiệu thuốc công ty dược - Xây dựng ứng dụng sử dụng nhiều hệ điều hành sử dụng điện thoại di động Chương trình đề tài dừng lại hệ điều hành Linux 68 TIEU LUAN MOI download : Trang skknchat123@gmail.com Tài liệu tham khảo [1] Adam Coates, Blake Carpenter, Carl Case, Sanjeev Satheesh, Bipin Suresh, Tao Wang, David J Wu, Andrew Y Ng Text Detection and Character Recognition in Scene Images with Unsupervised Feature Learning ICDAR, 2011 [2] Parthasarathi Giri Text Information Extraction And Analysis From Images Using Digital Image Processing Techniques Special Issue of International Journal on Advanced Computer Theory and Engineering (IJACTE), ISSN (Print) : 2319 – 2526, Volume-2, Issue-1, 2013, pp 66-71 [3] Chiang, Yao-Yi, and Craig A Knoblock Automatic Text Recognition from Raster Maps 2010 [4] Arwa AL-Khatatneh, Sakinah Ali Pitchay and Musab Al-qudah An Arabic Baseline Estimation Method Based on Feature Points Extraction In: Proceedings of the World Congress on Engineering 2017 [5] L Ramesh, E Dinesh Text Extraction and Recognition from Mixed Images Journal of Chemical and Pharmaceutical Sciences ISSN, 974: 2115 [6] Phan Thị Thanh Nga, Nguyễn Thị Huyền Trang, Nguyễn Văn Phúc, Thái Duy Quý, Võ Phương Bình Nhận Dạng Bìa Sách Tiếng Việt Cho Ứng Dụng Quản Lý Sách Tạp chí Khoa học Đại học Đà Lạt, 2017, 7.2: 142152 [7] Nguyễn Thanh Hải Giáo Trình Xử Lý Ảnh NXB Đại học Quốc gia, 2013 [8] Simon Tong and Daphne Koller Support vector machine active learning with applications to text classification Journal of machine learning research 2.Nov (2001): 45-66 TIEU LUAN MOI download : skknchat123@gmail.com [9] Terrence S Furey, Nello Cristianini, Nigel Duffy, David W Bednarski Michèl Schummer, David Haussler Support vector machine classification and validation of cancer tissue samples using microarray expression data Bioinformatics 16.10 (2000): 906-914 [10] Ray Rischpater Application development with qt creator Packt Publishing Ltd, 2013 [11] https://en.wikipedia.org/wiki/OpenCV [12] https://docs.opencv.org [13] https://en.wikipedia.org/wiki/Support_vector_machine [14] https://en.wikipedia.org/wiki/Tikhonov_regularization TIEU LUAN MOI download : skknchat123@gmail.com TẠP CHÍ KHOA HỌC GIÁO DỤC KỸTHUẬT ỨNG DỤNG XỬ LÝ ẢNH TRONG VIỆC NHẬN DẠNG VÀ TRÍCH XUẤT THƠNG TIN, DỮ LIỆU TRONG CÁC TỜ HĨA ĐƠN BÁN HÀNG CHARACTER RECOGNITION AND DATA EXTRACTION FROM BILLS USING DIGITAL IMAGE PROCESSING TECHNIQUES Thân Đức Trường Trường Đại học Kinh tế Kỹ thuật Bình Dương TĨM TẮT Nhận dạng ký tự quang học công nghệ thuộc lĩnh vực thị giác máy sử dụng để chuyển hình ảnh chứa ký tự thành văn tài liệu.Nhận dạng ký tự quang học giúp ta tiết kiệm nhiều thời gian công sức việc nhập liệu Cụ thể công việc kế tốn nhập thơng tin sản xuất kinh doanh qua tờ hóa đơn quan trọng Nên đề tài trình bày phương pháp để nhận dạng trích xuất thơng tin chứa tờ hóa đơn bán hàng lưu dạng các văn tài liệu để tiện việc theo dõi chỉnh sửa Nhiệm vụ cần thực đề tài là: Xác định dòng tách ký tự sử dụng mã nguồn mở thị giác máy (OpenCv) phần mềm Qt Creator, huấn luyện nhận dạng sử dụng giải thuật SVM, lưu trữ Từ khóa: Nhận dạng ký tự quang học, thị giác máy, OpenCV, Qt Creator, SVM ABSTRACT Optical Character Recognition is a technology of machine vision used to convert character images into text documents Optical character recognition saves a lot of time as well as effort in data entry In fact, it is very important to enter the production and business information through the invoice sheets In fact, it is very important for the accountant to import the production and business information contained in the sales bills Therefore, this project describes how to identify and extract information in sales bills and save them as documents for easy tracking and editing The tasks performed on the topic are: Defining lines and split characters using open source computer vision (OpenCV) and Qt Creator software, training and identification using SVM algorithm, store Key words: Optical Character Recognition, machine vision, OpenCV, Qt Creator, SVM I GIỚI THIỆU Tổng quan đề tài Nhằm mục đích giải phóng sức lao động giúp người kế tốn nhanh chóng dễ dàng nắm bắt thông tin vật tư sản phẩm công ty, tiết kiệm thời gian nhập liệu từ tờ hóa đơn giúp cơng việc tiến hành trôi chảy thuận lợi Nên việc xây dựng chương trình nhận dạng trích xuất thơng tin hóa đơn cần thiết TIEU LUAN MOI download : skknchat123@gmail.com Nhiệm vụ đặt để thực đề tài tiến hành theo sơ đồ khối: Để thực nhiệm vụ đề ra, đề tài có tham khảo cơng trình tài liệu nghiên cứu trước như: Mã nguồn mở Tesseract tài trợ google Phương pháp học không giám sát để phát nhận dạng ký tự [1]; Phương pháp cạnh sở liên kết thành phần sở trích xuất thơng tin văn [2]; Nhận dạng ký tự sử dụng đồ Raster [3]; Phương pháp điểm đặc trưng nhận dạng ký tự [4]; Phương pháp phân vùng màu sắc nhận dạng ký tự ngoại cảnh [5]; Ứng dụng mã nguồn mở Tesseract nhận dạng bìa sách [6] II GIẢI THUẬT Xác định dòng tách ký tự Để xác định dòng tách ký tự ta sử dụng phân lớp chương trình Qt Creator [9] mã nguồn mở thị giác máy (OpenCV) [10] Để bắt đầu thực ta nhập hình ảnh chứa hóa đơn cần nhận dạng sau ta thực số phép xử lý sau: - Chuyển đổi không gian màu ta chuyển đổi ảnh sang không gian màu xám để thuận tiện cho việc phân đoạn ảnh - Phân đoạn ảnh ta thực việc chuyển ảnh từ không gian màu xám sang ảnh nhị phân để đơn giản việc nhận dạng Ở ta sử dụng phương pháp lấy ngưỡng Otsu với nhị phân hóa thuận - Sau ta tiến hành loại bỏ bớt nhiễu ảnh sử dụng lọc Gaussian ❖ Xóa đường kẻ Các tờ hóa đơn thường thiết kế dạng bảng biểu nên tồn dịng kẻ khơng chứa thơng tin cần trích xuất, đó, ta tiến hành loại bỏ dịng kẻ cách tìm đường bao với hàm findcontours Sau ta tiến hành lọc đường bao cách xóa bỏ đường bao có kích thước nhỏ pixel lớn 100 pixel ❖ Tách dòng ký tự Sau loại bỏ đường kẻ ta tiến hành tách dòng ký tự Đầu tiên ta tiến hành xác định vị trí trí dòng chứa ký tự cách sử dụng phương pháp biến đổi hình thái Ta tiến hành xói mòn (Erosion) để loại bỏ bớt số nhiễu trắng sử dụng hàm enrode [11] Sau ta tiến hành giãn nở (Dilation) hình ảnh dùng hàm dilated vùng trắng liền kề liên kết với ta đánh dấu dịng có chứa ký tự Sau ta nối ký tự dịng ta tiến hành tìm đường bao Sau dùng lớp QRect QT Creator để vẽ hình chữ nhật bao quanh dịng chứa ký tự Vị trí kích thước hình chữ nhật lưu lớp QList Và để tách dịng ta tiến hành trích xuất hình ảnh theo vị trí kích thước đường bao hình chữ nhật lưu QList Việc tách ký tự, cách thức tiến hành ta tiến hành gần giống việc tách dòng Đầu tiên ta tiến hành xói mịn để tách ký tự dính hình Sau ta tiến hành tìm TIEU LUAN MOI download : skknchat123@gmail.com đường bao hình Kế tiếp ta tiến hành kẻ đường kẻ dọc có chiều cao chiều cao đường bao ký tự theo cột hình từ trái sang phải vị trí cột mà khơng có điểm trắng đường kẻ không vẽ ta tiến hành vẽ kết thúc khung hình Sau đánh dấu vị trí ký tự ta tiến hành xác lại đường bao lưu lại địa ký tự QList trích xuất ký tự thành ký tự riêng lẻ thay đổi kích thước hình thành 80x80 pixel để thuận tiện cho việc huấn luyện Sau hoàn thành việc tách ký tự frame hiển thị ảnh có đánh dấu dịng (Hình chữ nhật xanh) ký tự (Hình chữ nhật đỏ) Hình Xác định dịng ký tự Huấn luyện ❖ Tạo tập mẫu huấn luyện Chuẩn bị số mẫu ký tự in sẵn chứa ký tự cần thiết để huấn luyện Sau đó, sử dụng chương trình tách ký tự hoàn thành tiến hành tách riêng ký tự sau lưu ký tự vào thư mục riêng với tên thư mục tương ứng mã Unicode ký tự Tất thư mục chứa ký tự lưu thư mục training Lưu ý, ký tự phải có số lượng mẫu Yêu cầu tập mẫu: Ngõ vào gồm 135 ngõ gồm 93 ký tự, 10 chữ số 32 ký hiệu ký tự đặc biệt Và mẫu tách chương trình tách ký tự ❖ Huấn luyện tạo thư viện nhận dạng Ta dùng giải thuật SVM (Support Vector Machines)[7][8] để huấn luyện mẫu tạo thư viện nhận dạng Đầu tiên ta xác định số đặc trưng mẫu Với mẫu huấn luyện đưa vào ảnh 80x80 pixel Ta chia ảnh thành 64 phần phần ảnh nhỏ có kích thước 10x10 Sau ta tính tỷ lệ điểm trắng điểm đen ảnh nhỏ so với ảnh gốc kết lưu vào vector với chiều chứa kết tỷ lệ tính Ta tạo nhiều đặc trưng khác theo hàng, cột, đường chéo số quy luật ngẫu nhiên khác Sau có đặc trưng ta tiến hành huấn luyện Ta tiến hành chọn thông số huấn luyện: Params.svm_type: Với thông số ta chọn dạng SVM Trong đề tài người nghiên cứu lựa chọn dạng SVC (Support Vector Clustering) dạng SVM xây dựng dựa hàm Kernel phù hợp với việc học không giám sát Params.kernel_type: Với thông số ta chọn hàm Kernel Chọn hàm sở radial (RBF - Radial TIEU LUAN MOI download : skknchat123@gmail.com Basis Function) Params.gamma params.C: Là thông số SVM phi tuyến hết hợp với hàm kernel RBF xác định thông qua hàm RandomizedSearchCV() với phân bố mẫu cho trước Sau thiết lập thông số ta nhập số lượng ngõ vào số mẫu huấn luyện cho ngõ vào Lưu ý với số lượng mẫu huấn luyện cho ngõ vào phải Sau ta tiến hành huấn luyện cách sử dụng hàm: svm.train_auto() Sau huấn luyện xong liệu lưu lại sử dụng thư viện nhận dạng Ta cần nhập thông tin cần thiết như: Số lượng ký tự ngõ vào (Num Characters), số lượng mẫu ngõ vào (Num Samples), chọn thư mục chứa tập huấn luyện (Folder to learning), vị trí lưu thư viện huấn luyện (Path name lib) ❖ Nhận dạng lưu trữ Ta truy xuất hình ảnh chứa ký tự tách trước theo số nội dung lưu lớp Qlist Sau ta tiến hành lấy ký tự nhận dạng Để nhận dạng ký tự việc ta tính tốn lại đặc trưng ảnh chứa ký tự cần nhận dạng theo cách tính đặc trưng mẫu huấn luyện Sau sử dụng hàm svm.predict() để kiểm chứng tương đồng ký tự cần nhận dạng Hàm svm.predict() truy nhập tới folder “Training” chứa mẫu huấn luyện tiến hành so sánh tương đồng ký tự với mẫu huấn luyện ta chuẩn bị sẵn Từng mẫu huấn luyện lưu riêng từ folder phụ với tên bắt đầu mã Unicode ký tự mẫu Ví dụ: với mẫu huấn luyện cho ký tự “A” lưu folder có tên “65_A” đó, “65” mã unicode ký tự “A” Tương tự cho mẫu huấn luyện khác Hình 2: Thư mục chứa tập mẫu Sau xác định ký tự cần nhận dạng có độ tương đồng cao với mẫu hàm svm.predict() trả kết tên folder chứa mẫu huấn luyện Việc ta tiến hành tách phần số tên folder ta có mã Unicode ký tự nhận dạng Khi có mã Unicode ta tiến hành việc chuyển đổi từ Unicode sang ký tự lưu lại dạng text file có tên “Ocr.txt” Để lưu trữ thơng tin tờ hóa đơn vào file Exel Đầu tiên chương trình mở workbook với số lượng hàng cột để lưu trữ thơng tin Sau đó, ta tiến hành lưu ký tự từ file text thu sau q trình nhận dạng vào TIEU LUAN MOI download : skknchat123@gmail.com workbook Sau lưu hoàn tất ta lưu workbook theo định dạng Exel (*.xls) đóng workbook kết thúc chương trình Khi mở file Exel lần hệ thống xuất hộp thoại để ta lụa chọn số thông tin hiển thị ký tự file Ở đây, ta cần lưu ý tới hai mục : Character set: định dạng ký tự ngõ vào Do liệu ta xử lý theo dạng Unicode (UTF8) nên ta chọn thẻ Character set Unicode (UTF-8) Separated by: Ở cho phép ta lựa chọn phương thức tách đoạn văn Ta chọn Tab để đoạn văn đặt ô III KẾT QUẢ Đề tài thực hoàn thành nhiệm vụ đề xây dựng chương trình có khả nhận dạng trích xuất thơng tin có tờ hóa đơn lưu trữ lại dạng file Exel để dễ quản lý Tuy nhiên, Kết thu có độ xác chưa cao số nhiễu chưa loại bỏ hết Hiệu suất training với 100 mẫu hóa đơn đưa vào: Đối với số lượng mẫu 12 mẫu/ký tự: Độ xác nhận dạng vào khoảng 25% với ký tự 40% với số học Đối với số lượng mẫu 25 mẫu/ký tự: Độ xác nhận dạng vào khoảng 40% với ký tự 70% với số học Đối với số lượng mẫu 50 mẫu/ký tự: Độ xác nhận dạng vào khoảng 70% với ký tự 80% với số học IV THẢO LUẬN Đề tài hoàn thiện nhiệm vụ đưa ra, số khuyết điểm: - Chưa loại bỏ hết nhiễu trắng nên kết số điểm nhận dạng sai - Một số ký tự chưa tách rời hết nên nhận dạng kết sai - Một số ký tự sai font nên kết nhận dạng sai: Ví dụ mẫu sau chữ số bị sai font (Calibri) nên kết nhận dạng sai không nhận dạng Hướng khắc phục xây dựng tập mẫu huấn luyện lớn để nhận dạng nhiều font chữ - Ngoài ra, chưa lưu liệu vào ô mong muốn file exel Từ tồn người nghiên cứu đưa hướng phát triển sau: - Xây dựng phương pháp xử lý, lọc nhiễu hiệu tách ký tự triệt để để nâng cao độ xác - Xây dựng tập mẫu huấn luyện lớn để đảm bảo độ xác cao - Xây dựng tập mẫu với đa dạng kiểu chữ để nhận dạng nhiều font chữ Mang lại tính ứng dụng cao thực tiễn - Nhận dạng hóa đơn với nhiều kiểu mẫu định dạng - Xây dựng từ điển để hiệu chỉnh lại kết cho từ tiếng việt tả xác định thuật toán để đưa nội dung liệu vào vị trí Exel - Có thể mở rộng ứng dụng nhiều lĩnh vực như: Nhập điểm cho học sinh sinh viên sở đào tạo, ứng dụng quản lý thuốc hiệu thuốc công ty dược - Xây dựng ứng dụng sử dụng nhiều hệ điều hành sử dụng điện thoại di động Chương trình đề tài dừng lại hệ điều hành Linux TIEU LUAN MOI download : skknchat123@gmail.com TÀI LIỆU THAM KHẢO [1] Adam Coates, Blake Carpenter, Carl Case, Sanjeev Satheesh, Bipin Suresh, Tao Wang, David J Wu, Andrew Y Ng Text Detection and Character Recognition in Scene Images with Unsupervised Feature Learning ICDAR, 2011 [2] Parthasarathi Giri Text Information Extraction And Analysis From Images Using Digital Image Processing Techniques Special Issue of International Journal on Advanced Computer Theory and Engineering (IJACTE), ISSN (Print) : 2319 – 2526, Volume-2, Issue-1, 2013, pp 66-71 [3] Chiang, Yao-Yi, and Craig A Knoblock Automatic Text Recognition from Raster Maps 2010 [4] Arwa AL-Khatatneh, Sakinah Ali Pitchay and Musab Al-qudah An Arabic Baseline Estimation Method Based on Feature Points Extraction In: Proceedings of the World Congress on Engineering 2017 [5] L Ramesh, E Dinesh Text Extraction and Recognition from Mixed Images Journal of Chemical and Pharmaceutical Sciences ISSN, 974: 2115 [6] Phan Thị Thanh Nga, Nguyễn Thị Huyền Trang, Nguyễn Văn Phúc, Thái Duy Quý, Võ Phương Bình Nhận Dạng Bìa Sách Tiếng Việt Cho Ứng Dụng Quản Lý Sách Tạp chí Khoa học Đại học Đà Lạt, 2017, 7.2: 142-152 [7] Simon Tong and Daphne Koller Support vector machine active learning with applications to text classification Journal of machine learning research 2.Nov (2001): 45-66 [8] Terrence S Furey, Nello Cristianini, Nigel Duffy, David W Bednarski Michèl Schummer, David Haussler Support vector machine classification and validation of cancer tissue samples using microarray expression data Bioinformatics 16.10 (2000): 906-914 [9] Ray Rischpater Application development with qt creator Packt Publishing Ltd, 2013 [10] https://en.wikipedia.org/wiki/OpenCV [11] https://docs.opencv.org Thơng tin liên hệ tác giả chính: Họ tên: Thân Đức Trường Đơn Vị: Trường Đại học Kinh tế Kỹ thuật Bình Dương Điện thoại: 0978001967 Email:Thanductruong@gmail.com TIEU LUAN MOI download : skknchat123@gmail.com S K L 0 TIEU LUAN MOI download : skknchat123@gmail.com ... DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH LUẬN VĂN THẠC SĨ THÂN ĐỨC TRƯỜNG ỨNG DỤNG XỬ LÝ ẢNH TRONG VIỆC NHẬN DẠNG VÀ TRÍCH XUẤT THƠNG TIN, DỮ LIỆU TRONG CÁC TỜ HÓA ĐƠN... người nghiên cứu lựa chọn đề tài ? ?ỨNG DỤNG XỬ LÝ ẢNH TRONG VIỆC NHẬN DẠNG VÀ TRÍCH XUẤT THƠNG TIN, DỮ LIỆU TRONG CÁC TỜ HÓA ĐƠN BÁN HÀNG” làm đề tài tốt nghiệp thạc sĩ chuyên ngành Kỹ thuật Điện... Điện Tử Tên đồ án, luận án môn thi tốt nghiệp: ? ?ỨNG DỤNG XỬ LÝ ẢNH TRONG VIỆC NHẬN DẠNG VÀ TRÍCH XUẤT THƠNG TIN, DỮ LIỆU TRONG CÁC TỜ HĨA ĐƠN BÁN HÀNG” Ngày & nơi bảo vệ đồ án, luận án thi tốt nghiệp:

Ngày đăng: 19/09/2022, 17:43

Hình ảnh liên quan

Hàm contains() cho biết liệu một điểm nhất định nằm bên trong hình chữ nhật hay không, và hàm intersects() trả về kết quả TRUE nếu hình chữ nhật này cắt với  một  hình  chữ  nhật  cho  trước - (LUẬN văn THẠC sĩ) ứng dụng xử lý ảnh trong việc nhận dạng và trích xuất thông tin, dữ liệu trong các tờ hóa đơn bán hàng

m.

contains() cho biết liệu một điểm nhất định nằm bên trong hình chữ nhật hay không, và hàm intersects() trả về kết quả TRUE nếu hình chữ nhật này cắt với một hình chữ nhật cho trước Xem tại trang 46 của tài liệu.
Hình 3.3: Kết quả trả về khi sử dụng các hàm tọa độ - (LUẬN văn THẠC sĩ) ứng dụng xử lý ảnh trong việc nhận dạng và trích xuất thông tin, dữ liệu trong các tờ hóa đơn bán hàng

Hình 3.3.

Kết quả trả về khi sử dụng các hàm tọa độ Xem tại trang 47 của tài liệu.
Hình 3.4: Giao diện chương trình Qt Creator - (LUẬN văn THẠC sĩ) ứng dụng xử lý ảnh trong việc nhận dạng và trích xuất thông tin, dữ liệu trong các tờ hóa đơn bán hàng

Hình 3.4.

Giao diện chương trình Qt Creator Xem tại trang 49 của tài liệu.
Hình 3.5: Lựa chọn chức năng lập trình với GUI - (LUẬN văn THẠC sĩ) ứng dụng xử lý ảnh trong việc nhận dạng và trích xuất thông tin, dữ liệu trong các tờ hóa đơn bán hàng

Hình 3.5.

Lựa chọn chức năng lập trình với GUI Xem tại trang 49 của tài liệu.
Hình 3.7: Giao diện thiết kế form - (LUẬN văn THẠC sĩ) ứng dụng xử lý ảnh trong việc nhận dạng và trích xuất thông tin, dữ liệu trong các tờ hóa đơn bán hàng

Hình 3.7.

Giao diện thiết kế form Xem tại trang 50 của tài liệu.
Hình 3.9: Bảng các sự kiện các đối tượng - (LUẬN văn THẠC sĩ) ứng dụng xử lý ảnh trong việc nhận dạng và trích xuất thông tin, dữ liệu trong các tờ hóa đơn bán hàng

Hình 3.9.

Bảng các sự kiện các đối tượng Xem tại trang 51 của tài liệu.
Hình 3.8: Form thiết kế hoàn chỉnh - (LUẬN văn THẠC sĩ) ứng dụng xử lý ảnh trong việc nhận dạng và trích xuất thông tin, dữ liệu trong các tờ hóa đơn bán hàng

Hình 3.8.

Form thiết kế hoàn chỉnh Xem tại trang 51 của tài liệu.
Hình 3.10: Sơ đồ liên kết Objects, Signals và Slots - (LUẬN văn THẠC sĩ) ứng dụng xử lý ảnh trong việc nhận dạng và trích xuất thông tin, dữ liệu trong các tờ hóa đơn bán hàng

Hình 3.10.

Sơ đồ liên kết Objects, Signals và Slots Xem tại trang 52 của tài liệu.
Hình 4.1: Siêu phẳng với biên cực đại - (LUẬN văn THẠC sĩ) ứng dụng xử lý ảnh trong việc nhận dạng và trích xuất thông tin, dữ liệu trong các tờ hóa đơn bán hàng

Hình 4.1.

Siêu phẳng với biên cực đại Xem tại trang 55 của tài liệu.
Hình 4.2: Thủ thuật Kernel - (LUẬN văn THẠC sĩ) ứng dụng xử lý ảnh trong việc nhận dạng và trích xuất thông tin, dữ liệu trong các tờ hóa đơn bán hàng

Hình 4.2.

Thủ thuật Kernel Xem tại trang 57 của tài liệu.
Hình 5.1: Lưu đồ giải thuật tổng quát - (LUẬN văn THẠC sĩ) ứng dụng xử lý ảnh trong việc nhận dạng và trích xuất thông tin, dữ liệu trong các tờ hóa đơn bán hàng

Hình 5.1.

Lưu đồ giải thuật tổng quát Xem tại trang 64 của tài liệu.
Hình 5.2: Lưu đồ giải thuật chương trình tách ký tự - (LUẬN văn THẠC sĩ) ứng dụng xử lý ảnh trong việc nhận dạng và trích xuất thông tin, dữ liệu trong các tờ hóa đơn bán hàng

Hình 5.2.

Lưu đồ giải thuật chương trình tách ký tự Xem tại trang 65 của tài liệu.
Hình 5.3: Lưu đồ giải thuật chương trình huấn luyện - (LUẬN văn THẠC sĩ) ứng dụng xử lý ảnh trong việc nhận dạng và trích xuất thông tin, dữ liệu trong các tờ hóa đơn bán hàng

Hình 5.3.

Lưu đồ giải thuật chương trình huấn luyện Xem tại trang 66 của tài liệu.
Hình 5.4: Lưu đồ giải thuật chương trình tách ký tự - (LUẬN văn THẠC sĩ) ứng dụng xử lý ảnh trong việc nhận dạng và trích xuất thông tin, dữ liệu trong các tờ hóa đơn bán hàng

Hình 5.4.

Lưu đồ giải thuật chương trình tách ký tự Xem tại trang 67 của tài liệu.
Hình 5.7: Hình ảnh trước khi xóa đường kẻ - (LUẬN văn THẠC sĩ) ứng dụng xử lý ảnh trong việc nhận dạng và trích xuất thông tin, dữ liệu trong các tờ hóa đơn bán hàng

Hình 5.7.

Hình ảnh trước khi xóa đường kẻ Xem tại trang 70 của tài liệu.
Hình 5.8: Hình ảnh sau khi xóa đường kẻ - (LUẬN văn THẠC sĩ) ứng dụng xử lý ảnh trong việc nhận dạng và trích xuất thông tin, dữ liệu trong các tờ hóa đơn bán hàng

Hình 5.8.

Hình ảnh sau khi xóa đường kẻ Xem tại trang 71 của tài liệu.
Hình 5.9: Xác định dịng - (LUẬN văn THẠC sĩ) ứng dụng xử lý ảnh trong việc nhận dạng và trích xuất thông tin, dữ liệu trong các tờ hóa đơn bán hàng

Hình 5.9.

Xác định dịng Xem tại trang 72 của tài liệu.
Hình 5.13: Giao diện chương trình tách ký tự - (LUẬN văn THẠC sĩ) ứng dụng xử lý ảnh trong việc nhận dạng và trích xuất thông tin, dữ liệu trong các tờ hóa đơn bán hàng

Hình 5.13.

Giao diện chương trình tách ký tự Xem tại trang 74 của tài liệu.
Hình 5.14: Hình ảnh mẫu để tạo tập huấn luyện - (LUẬN văn THẠC sĩ) ứng dụng xử lý ảnh trong việc nhận dạng và trích xuất thông tin, dữ liệu trong các tờ hóa đơn bán hàng

Hình 5.14.

Hình ảnh mẫu để tạo tập huấn luyện Xem tại trang 75 của tài liệu.
Hình 5.18: Giao diện huấn luyện tạo thư viện - (LUẬN văn THẠC sĩ) ứng dụng xử lý ảnh trong việc nhận dạng và trích xuất thông tin, dữ liệu trong các tờ hóa đơn bán hàng

Hình 5.18.

Giao diện huấn luyện tạo thư viện Xem tại trang 78 của tài liệu.
Hình 5.17: Giao diện huấn luyện tạo thư viện - (LUẬN văn THẠC sĩ) ứng dụng xử lý ảnh trong việc nhận dạng và trích xuất thông tin, dữ liệu trong các tờ hóa đơn bán hàng

Hình 5.17.

Giao diện huấn luyện tạo thư viện Xem tại trang 78 của tài liệu.
Hình 5.20: Giao diện chương trình nhận dạng ký tự - (LUẬN văn THẠC sĩ) ứng dụng xử lý ảnh trong việc nhận dạng và trích xuất thông tin, dữ liệu trong các tờ hóa đơn bán hàng

Hình 5.20.

Giao diện chương trình nhận dạng ký tự Xem tại trang 80 của tài liệu.
Hình 5.21: Giao diện chương trình lưu trữ dữ liệu - (LUẬN văn THẠC sĩ) ứng dụng xử lý ảnh trong việc nhận dạng và trích xuất thông tin, dữ liệu trong các tờ hóa đơn bán hàng

Hình 5.21.

Giao diện chương trình lưu trữ dữ liệu Xem tại trang 81 của tài liệu.
Hình 5.22: Lựa chọn vị trí lưu trữ dữ liệu - (LUẬN văn THẠC sĩ) ứng dụng xử lý ảnh trong việc nhận dạng và trích xuất thông tin, dữ liệu trong các tờ hóa đơn bán hàng

Hình 5.22.

Lựa chọn vị trí lưu trữ dữ liệu Xem tại trang 82 của tài liệu.
Hình 5.23: Giao diện hệ thống khi mở file Exel - (LUẬN văn THẠC sĩ) ứng dụng xử lý ảnh trong việc nhận dạng và trích xuất thông tin, dữ liệu trong các tờ hóa đơn bán hàng

Hình 5.23.

Giao diện hệ thống khi mở file Exel Xem tại trang 83 của tài liệu.
Hình 6.2: Kết quả lưu trữ thơng tin thu được - (LUẬN văn THẠC sĩ) ứng dụng xử lý ảnh trong việc nhận dạng và trích xuất thông tin, dữ liệu trong các tờ hóa đơn bán hàng

Hình 6.2.

Kết quả lưu trữ thơng tin thu được Xem tại trang 85 của tài liệu.
Hình 6.4: Nhận dạng sai do chưa tách hoàn toàn ký tự - (LUẬN văn THẠC sĩ) ứng dụng xử lý ảnh trong việc nhận dạng và trích xuất thông tin, dữ liệu trong các tờ hóa đơn bán hàng

Hình 6.4.

Nhận dạng sai do chưa tách hoàn toàn ký tự Xem tại trang 86 của tài liệu.
Hình 6.3: Sai số khi tồn tại nhiễu trắng - (LUẬN văn THẠC sĩ) ứng dụng xử lý ảnh trong việc nhận dạng và trích xuất thông tin, dữ liệu trong các tờ hóa đơn bán hàng

Hình 6.3.

Sai số khi tồn tại nhiễu trắng Xem tại trang 86 của tài liệu.
Hình 6.6: Thử nghiệm với việc thêm một số mẫu mới - (LUẬN văn THẠC sĩ) ứng dụng xử lý ảnh trong việc nhận dạng và trích xuất thông tin, dữ liệu trong các tờ hóa đơn bán hàng

Hình 6.6.

Thử nghiệm với việc thêm một số mẫu mới Xem tại trang 87 của tài liệu.
Hình 6.7: Một số dữ liệu khơng đúng vị trí - (LUẬN văn THẠC sĩ) ứng dụng xử lý ảnh trong việc nhận dạng và trích xuất thông tin, dữ liệu trong các tờ hóa đơn bán hàng

Hình 6.7.

Một số dữ liệu khơng đúng vị trí Xem tại trang 88 của tài liệu.

Tài liệu cùng người dùng

Tài liệu liên quan