Lương Văn Nghĩa đã tận tâm hướng dẫn tôiqua những buổi trao đổi chuyên môn, học thuật và suốt thời gian được học tập vàthực hành dưới sự hướng dẫn của Thầy, tôi đã thu được rất nhiều kiế
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC DUY TÂN TRẦN NGUYỄN MINH BẢO NGHIÊN CỨU PHƯƠNG PHÁP NHẬN DẠNG VĂN BẢN TỪ ẢNH VÀ ỨNG DỤNG TRONG PHÂN LOẠI VĂN BẢN LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH ĐÀ NẴNG, 2024 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC DUY TÂN TRẦN NGUYỄN MINH BẢO NGHIÊN CỨU PHƯƠNG PHÁP NHẬN DẠNG VĂN BẢN TỪ ẢNH VÀ ỨNG DỤNG TRONG PHÂN LOẠI VĂN BẢN Chuyên ngành: Khoa học máy tính Mã số: 8480101 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Người hướng dẫn khoa học: TS LƯƠNG VĂN NGHĨA ĐÀ NẴNG, 2024 i LỜI CẢM ƠN Tôi xin gửi đến Thầy Cô Khoa Công nghệ thông tin – Trường Khoa Học Máy Tính, Đại Học Duy Tân, Đà Nẵng và Khoa Công Nghệ Thông Tin – Trường Đại Học Phạm Văn Đồng, Quảng Ngãi lời biết ơn sâu sắc nhất, những người đã cùng với tri thức và tâm huyết của mình để truyền đạt vốn kiến thức quý báu cho tôi trong thời gian học tập tại trường Tôi xin chân thành cảm ơn TS Lương Văn Nghĩa đã tận tâm hướng dẫn tôi qua những buổi trao đổi chuyên môn, học thuật và suốt thời gian được học tập và thực hành dưới sự hướng dẫn của Thầy, tôi đã thu được rất nhiều kiến thức bổ ích trong nghiên cứu Xin gửi lời cảm ơn chân thành đến gia đình, bè bạn, đã luôn là nguồn động viên to lớn, giúp tôi vượt qua những khó khăn trong suốt quá trình học tập và thực hiện luận văn Mặc dù đã rất cố gắng hoàn thiện luận văn với tất cả sự nỗ lực, tuy nhiên, do bước đầu đi vào thực tế, tìm hiểu và xây dựng luận văn trong thời gian có hạn, và kiến thức còn gặp nhiều bỡ ngỡ, nên luận văn “NGHIÊN CỨU PHƯƠNG PHÁP NHẬN DẠNG VĂN BẢN TỪ ẢNH VÀ ỨNG DỤNG TRONG PHÂN LOẠI VĂN BẢN” chắc chắn sẽ không thể tránh khỏi những thiếu sót Tôi rất mong nhận được sự quan tâm, thông cảm và những đóng góp quý báu của các Thầy Cô và các bạn để luận văn này ngày càng hoàn thiện hơn Sau cùng, tôi xin kính chúc các Thầy Cô dồi dào sức khỏe, niềm tin để tiếp tục thực hiện sứ mệnh cao đẹp của mình là truyền đạt kiến thức cho thế hệ mai sau Trân trọng! HỌC VIÊN TRẦN NGUYỄN MINH BẢO ii LỜI CAM ĐOAN Tôi xin cam đoan luận văn “NGHIÊN CỨU PHƯƠNG PHÁP NHẬN DẠNG VĂN BẢN TỪ ẢNH VÀ ỨNG DỤNG TRONG PHÂN LOẠI VĂN BẢN” là công trình nghiên cứu của riêng tôi, thực hiện dưới sự hướng dẫn của giảng viên hướng dẫn khoa học Các số liệu và kết quả nghiên cứu trong luận văn này là trung thực và không trùng lặp với các luận văn khác HỌC VIÊN TRẦN NGUYỄN MINH BẢO iii MỤC LỤC LỜI CẢM ƠN i LỜI CAM ĐOAN ii DANH MỤC CÁC HÌNH ẢNH v MỞ ĐẦU 1 1.Lý do chọn đề tài 1 2.Mục tiêu nghiên cứu 2 3.Đối tượng và phạm vi nghiên cứu 2 4.Phương pháp nghiên cứu 2 Chương 1: TỔNG QUAN VỀ VĂN BẢN VÀ LÝ THUYẾT NHẬN DẠNG VĂN BẢN 3 1.1 LỊCH SỬ HÌNH THÀNH VĂN BẢN 3 1.1.1 Khái niệm văn bản 3 1.1.2 Phát minh ra văn bản .3 1.1.3 Các loại hình văn bản qua các thời kỳ 4 1.2 TỔNG QUAN LÝ THUYẾT NHẬN DẠNG VĂN BẢN 9 1.2.1 Giới thiệu 9 1.2.2 Mô hình tổng quát của một hệ thống nhận dạng văn bản .12 1.2.3 Các phương pháp nhận dạng văn bản .21 1.3 KẾT LUẬN CHƯƠNG 1 31 Chương 2 MỘT SỐ PHƯƠNG PHÁP NHẬN DẠNG VĂN BẢN THEO TRÍCH CHỌN ĐẶC TRƯNG 32 2.1 TỔNG QUAN VỀ TRÍCH CHỌN ĐẶC TRƯNG 32 2.1.1 Khái niệm chung 32 2.1.2 Đặc trưng bất biến .36 2.1.3 Khả năng khôi phục .36 2.2 MỘT SỐ PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG CHO NHẬN DẠNG VĂN BẢN 37 iv 2.2.1 Trích chọn đặc trưng từ ảnh đa cấp xám 37 2.2.2 Trích chọn đặc trưng từ ảnh nhị phân .38 2.2.3 Trích chọn đặc trưng từ biên ảnh .40 2.2.4 Trích chọn đặc trưng từ biểu diễn véc tơ 41 2.3 KẾT LUẬN CHƯƠNG 2 43 Chương 3 CHƯƠNG TRÌNH THỬ NGHIỆM ỨNG DỤNG TRONG PHÂN LOẠI VĂN BẢN 44 3.1 PHÁT BIỂU BÀI TOÁN PHÂN LOẠI VĂN BẢN 44 3.2 CHƯƠNG TRÌNH THỬ NGHIỆM 44 3.2.1 khai báo các thư viện 44 3.2.2 Xử lý dữ liệu đầu vào từ ảnh 45 3.2.3 nhận dạng văn bản từ ảnh và kết quả, phân loại văn bản .48 3.2.4 Đề xuất sau thử nghiệm 57 3.3 KẾT LUẬN CHƯƠNG 3 62 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 63 1 Kết luận .63 2 Hạn chế 63 3 Hướng phát triển 63 DANH MỤC TÀI LIỆU THAM KHẢO QUYẾT ĐỊNH GIAO ĐỀ TÀI (Bản sao) v DANH MỤC CÁC HÌNH ẢNH Hình 1.1: Mẫu văn bản khoảng năm 2.400 TCN (Lá thư tìm thấy ở Telloh, thành Lagash, Lưỡng Hà) 3 Hình 1.2: Mẫu văn bản hình nêm viết trên đất sét 5 Hình 1.3: Mẫu văn bản khắc trên tường đá Ai cập cổ đại 6 Hình 1.4: Mẫu văn bản Trung hoa cổ đại được tìm thấy trên xương động vật, mai rùa,… 6 Hình 1.5: Mẫu văn bản Ấn độ cổ đại khắc trên đá 7 Hình 1.6: Mẫu văn bản Hy Lạp cổ đại .8 Hình 1.8: Ảnh gốc và ành sau khi đã được nhị phân hóa .13 Hình 1.9: Nhiễu đốm và nhiễu vệt 14 Hình 1.10: Chuẩn hóa kích thước ảnh các ký tự “A” và “P” 16 Hình 1.11: Ảnh gốc và ảnh sau khi làm trơn biên 17 Hình 1.12: Ảnh gốc và ảnh sau khi làm mảnh chữ 18 Hình 1.13: Hiệu chỉnh độ nghiêng của văn bản .18 Hình 1.14: Tách dòng chữ dựa trên histogram theo chiều ngang của khối chữ .19 Hình 1.15: Xác định khoảng cách giữa hai ký tự và giữa hai từ dựa trên histogram theo chiều thẳng dứng của dòng chữ .20 Hình 1.16: Mô hình nhận dạng văn bản rời rạc .29 Hình 3.1: Ảnh 1 .46 Hình 3.2: Ảnh 2 .47 Hình 3.3: Ảnh 3 .48 Hình 3.4: “Ảnh 3” sau khi thực hiện kỹ thuật Nhị phân hóa ảnh 58 Hình 3.5: Ảnh 3 sau khi sử dụng KERAS .61 Hình 3.6: “Ảnh 3” khi thực hiện nhận dạng văn bản .62 1 MỞ ĐẦU 1 Lý do chọn đề tài Công nghệ thông tin ngày càng phát triển và có vai trò hết sức quan trọng không thể thiếu trong cuộc sống hiện đại Con người ngày càng tạo ra những cỗ máy thông minh có khả năng tự nhận biết và xử lí được các công việc một cách tự động, phục vụ cho lợi ích của con người Trong những năm gần đây, một trong những bài toán nhận được nhiều sự quan tâm và tốn nhiều công sức nhất của lĩnh vực công nghệ thông tin, đó chính là bài toán nhận dạng Tuy mới xuất hiện chưa lâu nhưng nó đã rất được quan tâm vì tính ứng dụng thực tế của bài toán cũng như sự phức tạp của nó Nhận dạng văn bản là một lĩnh vực đã được quan tâm nghiên cứu và ứng dụng từ nhiều năm nay theo hai hướng chính: - Nhận dạng văn bản chữ in: phục vụ cho công việc tự động hóa đọc tài liệu, tăng tốc độ và hiệu quả nhập thông tin vào máy tính trực tiếp từ các nguồn tài liệu -Nhận dạng văn bản chữ viết tay: với những mức độ ràng buộc khác nhau về cách viết, kiểu chữ phục vụ cho các ứng dụng đọc và xử lý chứng từ, hóa đơn, phiếu ghi, bản thảo viết tay Nhận dạng văn bản viết tay được tách thành hai hướng phát triển: nhận dạng văn bản viết tay trực tuyến (on-line) và nhận dạng văn bản viết tay ngoại tuyến (off-line) Đến thời điểm này, bài toán nhận dạng văn bản chữ in vẫn còn là vấn đề thách thức lớn đối với các nhà nghiên cứu Phương pháp trích chọn đặc trưng trong nhận dạng văn bản là việc tìm và chọn ra các đặc trưng đặc thù của mỗi văn bản, qua đó là đầu vào cho quá trình nhận dạng Bên cạnh việc lựa chọn một thuật toán nhận dạng phù hợp thì việc tìm ra phương pháp trích chọn đặc trưng thích hợp sẽ nâng cao độ chính xác và giảm thời gian nhận dạng cho toàn bộ hệ thống Với sự hấp dẫn của bài toán và những thách thức còn đang ở phía trước, niềm đam mê công nghệ hiện đại và những ứng dụng thực tế tuyệt với của nó cùng khát khao khám phá và chinh phục những tri thức mới mẻ, tôi đã chọn đề tài: “NGHIÊN CỨU PHƯƠNG PHÁP NHẬN DẠNG VĂN BẢN TỪ ẢNH VÀ ỨNG DỤNG 2 TRONG PHÂN LOẠI VĂN BẢN” làm đề tài nghiên cứu và bảo vệ luận văn tốt nghiệp thạc sĩ của mình 2 Mục tiêu nghiên cứu Mục tiêu tổng quát: Đề tài luận văn tập trung cho bài toán nhận dạng văn bản chữ in từ phương pháp trích chọn đặc trưng trong nhận dạng văn bản từ ảnh, sau đó phân loại văn bản theo chất lượng nhận dạng với các loại sau: tốt, xấu và bị lỗi Mục tiêu cụ thể: Đề tài luận văn tập trung cho việc lựa chọn một số mẫu ảnh để tiến hành nhận dạng từ ảnh sang một văn bản, sau đó tiến hành phân loại văn bản theo các mức độ tốt, xấu hay bị lỗi từ kết quả nhận dạng Đề xuất giải pháp khắc phục sau khi nhận dạng từ một mẫu ảnh bị lỗi 3 Đối tượng và phạm vi nghiên cứu Đối tượng nghiên cứu: - Nghiên cứu các phương pháp phân loại văn bản, nhận dạng văn bản từ ảnh, các phương pháp trích chọn đặc trưng trong nhận dạng văn bản từ ảnh - Chọn bộ dữ liệu đầu vào cho bài toán nhận dạng là các văn bản dạng ảnh (các hoá đơn (bill) bán hàng) Phạm vi nghiên cứu: thực hiện nhận dạng văn bản từ ảnh, từ đó tiến hành thử nghiệm phân loại văn bản sau nhận dạng 4 Phương pháp nghiên cứu - Phương pháp phân tích và tổng hợp: phân tích đối tượng nghiên cứu để xây dựng mô hình và tổng hợp các yếu tố cấu thành trong nhận dạng văn bản - Phương pháp thực nghiệm: thực hiện việc chạy thử nghiệm trên đoạn mã Python Sau đó thu thập kết quả nhận dạng văn bản từ 3 loại mẫu ảnh, tiến hành phân loại, đánh giá các kết quả sau nhận dạng từ ảnh 3 Chương 1: TỔNG QUAN VỀ VĂN BẢN VÀ LÝ THUYẾT NHẬN DẠNG VĂN BẢN 1.1 LỊCH SỬ HÌNH THÀNH VĂN BẢN 1.1.1 Khái niệm văn bản Văn bản là thông tin thành văn được truyền đạt bằng ngôn ngữ hoặc ký hiệu, hình thành trong hoạt động của các cơ quan, tổ chức và được trình bày đúng thể thức, kỹ thuật theo quy định 1.1.2 Phát minh ra văn bản Những dạng cổ xưa nhất của văn bản mang những yếu tố như ký tự viết tắt dựa trên những yếu tố tượng hình và tượng ý Đa phần các hệ thống văn bản có thể chia làm ba loại: tượng ý, tượng thanh và chia đoạn Tuy vậy, cả ba loại này đều tìm thấy ở bất kỳ hệ thống văn bản nào với mức độ cấu thành khác nhau và khiến việc xếp loại mỗi hệ văn bản trở nên khó khăn và nhiều mâu thuẫn Hình 1.1: Mẫu văn bản khoảng năm 2.400 TCN (Lá thư tìm thấy ở Telloh, thành Lagash, Lưỡng Hà)