Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 76 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
76
Dung lượng
3,03 MB
Nội dung
Trang - i- ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN&TRUYỀN THÔNG - NGÔ MINH HIẾU TÌM HIỂU PHƯƠNG PHÁP ĐÁNH GIÁ ĐỘ CHÍNH XÁC CỦA CÁC HỆ THỐNG NHẬN DẠNG CHỮ VIỆT LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Thái Nguyên 2015 Trang - ii- ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN&TRUYỀN THÔNG =================== NGÔ MINH HIẾU TÌM HIỂU PHƯƠNG PHÁP ĐÁNH GIÁ ĐỘ CHÍNH XÁC CỦA CÁC HỆ THỐNG NHẬN DẠNG CHỮ VIỆT Chuyên ngành: Khoa học máy tính Mã số: 60 48 01 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC TS NGUYỄN THỊ THANH TÂN Thái Nguyên 2015 Trang - 1- LỜI CAM ĐOAN Tôi xin cam đoan luận văn tự thân nghiên cứu hoàn thành hướng dẫn khoa học TS Nguyễn Thị Thanh Tân Nếu có vi phạm xin hoàn toàn chịu trách nhiệm Thái Nguyên, ngày tháng năm 2015 Ngô Minh Hiếu Trang - 2- LỜI CẢM ƠN Lời xin gửi lời cảm ơn chân thành lòng biết ơn sâu sắc tới TS Nguyễn Thị Thanh Tân, người bảo hướng dẫn tận tình cho đóng góp ý kiến quý báu suốt trình học tập, nghiên cứu thực luận văn Tôi xin trân trọng cảm ơn Ban giám hiệu Trường Đại học Công nghệ Thông tin Truyền thông, Đại học Thái Nguyên, khoa CNTT giúp đỡ tạo điều kiện cho học tập làm khóa luận cách thuận lợi Và cuối xin gửi lời cảm ơn đến gia đình, người thân bạn bè, người bên chỗ dựa giúp cho vượt qua khó khăn Họ động viên khuyến khích giúp đỡ sống công việc cho tâm hoàn thành luận văn Tuy nhiên thời gian có hạn, nỗ lực cố gắng luận văn khó tránh khỏi thiếu sót Rất mong bảo, góp ý tận tình quý Thầy Cô bạn Tôi xin chân thành cảm ơn! Thái Nguyên, ngày tháng năm 2015 Ngô Minh Hiếu Trang - 3- MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC HÌNH VẼ BẢNG DANH MỤC CÁC TỪ VIÊT TẮT MỞ ĐẦU CHƯƠNG - TỔNG QUAN VỀ NHẬN DẠNG CHỮ 12 1.1.Qui trình chung hệ nhận dạng chữ 12 1.1.1.Phân lớp mẫu 12 1.1.2.Nhận dạng văn 13 1.2.Tìm hiểu số phần mềm nhận dạng chữ 16 1.2.1.VnDOCR 16 1.2.2.FineReader 18 1.2.3.OmniPage 20 1.2.4 VietOCR 20 1.3 Những vấn đề ảnh hưởng tới chất lượng phần mềm nhận dạng 22 1.3.1.Chữ bị dính, nhòe 23 1.3.2.Văn bị đứt nét 24 1.3.3.Văn bị nhiễu 25 1.3.4.Văn in với kiểu font chữ đặc biệt 26 1.3.5.Cỡ chữ lớn nhỏ 26 1.4 Kết luận 27 CHƯƠNG - PHƯƠNG PHÁP ĐÁNH GIÁ HIỆU QUẢ CỦA CÁC THUẬT TOÁN NHẬN DẠNG CHỮ VIỆT 28 2.1 Một số khái niệm 28 2.2 Bài toán hiệu chỉnh chuỗi ký tự (string editing) 29 2.3 Thuật toán Ukkonen 34 Trang - 4- 2.4 Đánh giá độ xác mức ký tự 40 2.5 Đánh giá độ xác mức ký tự theo lớp mẫu 45 2.6 Hiệu ký tự đánh dấu 45 2.7 Độ xác mức từ 47 CHƯƠNG :THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 52 3.1.Phân tích, cài đặt chương trình 52 3.1.1.Quy trình thực 52 3.1.2.Các cấu trúc liệu 53 3.1.3.Danh sách từ dừng tiếng Việt 55 3.1.4 Danh sách ký tự đặc biệt 56 3.1.5.Module đánh giá độ xác mức ký tự 57 3.1.6.Module đánh giá độ xác mức từ 59 3.2.Đánh giá thực nghiệm 66 3.2.1Dữ liệu thực nghiệm 66 3.2.2 Kết thực nghiệm 69 3.3.Kết luận chương 71 KẾT LUẬN 72 DANH MỤC TÀI LIỆU THAM KHẢO 73 Trang - 5- HÌNH VẼ Hình 1.1: Qui trình chung hệ thống nhận dạng chữ 15 Hình 1.2 Màn hình làm việc VnDOCR 17 Hình 1.3 Màn hình kết phân tích nhận dạng ảnh hình 1.7 18 Hình 1.4 Màn hình làm việc OmniPage 20 Hình 1.5 Màn hình làm việc VietOCR 21 Hình 1.6 Trường hợp văn in đậm 23 Hình 1.7: Một số hình ảnh bị biến dạng ký tự 23 Hình 1.8 Hình ảnh ký tự tiếng Việt bị nhập nhằng phần dấu 24 Hình 1.9 Trường hợp văn bị đứt nét 24 Hình 1.10 Hình ảnh ký tự bị biến dạng lỗi đứt nét 24 Hình 1.11 Một số dạng nhiễu thường gặp văn 25 Hình 1.12 Văn bị nhiễu đánh dấu 25 Hình 1.13 Văn bị nhiễu bị chồng chữ ký/con dấu 26 Hình 1.14 Văn in với kiểu font chữ đặc biệt 26 Hình 2.1: Đồ thị G(A,B), với A = zxy B = xyxz 32 Hình 2.2: Các đường đồ thị G(A, B) 33 Hình 2.3: Sự tương ứng chuỗi văn nhận dạng văn mẫu 42 Hình 2.4: Độ xác mức từ 49 Hình 3.1 Quy trình thực chương trình 52 Hình 3.2: Kết đánh giá độ xác mức ký tự văn tiếng Anh 62 Hình 3.3: Đánh giá độ xác mức từ file văn tiếng Anh 66 Trang - 6- BẢNG Bảng 2.1: Giải thuật cho toán chỉnh sửa chuỗi 34 Bảng 2.2: Độ xác mức ký tự 44 Bảng 3.1 Bảng danh sách từ dùng tiếng Việt 56 Bảng 3.2 Thông tin thao tác hiệu chỉnh 58 Bảng 3.3 Thông tin đánh giá độ xác mức ký tự 58 Bảng 3.4: Các tập liệu tiếng Anh 67 Bảng 3.5: Các tập liệu Tiếng Việt 68 Bảng 3.6: Độ xác mức ký tự tập liệu tiếng Anh 69 Bảng 3.7: Độ xác mức ký tự tập liệu tiếng Việt 70 Bảng 3.8: Độ xác mức từ trêntập liệu tiếng Anh 70 Bảng 3.9: Độ xác mức từ tập liệu tiếng Việt 70 Trang - 7- DANH MỤC CÁC TỪ VIÊT TẮT STT Từ viết tắt NLP LCS OCR Ý nghĩa Natural Language Processing Longest common subsequence Optical Character Recognition Nội dung Xử lý ngôn ngữ tự nhiên Dãy chung dài Nhận dạng ký tự quang học Trang - 8- MỞ ĐẦU Tính cấp thiết luận văn Nhận dạng mẫu ngành khoa học mà vai trò phân lớp đối tượng thành số loại số lớp riêng biệt Tuỳ thuộc vào lĩnh vực ứng dụng, đối tượng dạng ảnh, dạng tín hiệu sóng kiểu liệu mà cần phải phân lớp Những đối tượng gọi thuật ngữ chung “mẫu” (pattern) Nhận dạng mẫu biết đến từ lâu, trước năm 1960 kết nghiên cứu mặt lý thuyết lĩnh vực thống kê Tuy nhiên, với phát triển không ngừng khoa học kỹ thuật phần cứng phần mềm, yêu cầu mặt ứng dụng thực tế lĩnh vực nhận dạng mẫu ngày tăng lên nhận dạng mẫu sử dụng nhiều lĩnh vực y học, tự động hoá số qui trình sản xuất công nghiệp, dự báo thời tiết, dự báo cháy rừng,v.v Ngoài nhận dạng mẫu thành phần quan trọng hầu hết hệ thống máy tính thông minh xây dựng để thực việc định Cùng với phát triển nhận dạng mẫu, nhận dạng chữ ngày trở thành ứng dụng thiếu đời sống xã hội người Nhận dạng chữ trình chuyển đổi từ dạng hình ảnh hay nhiều trang ảnh chứa thông tin văn thành tệp văn thực soạn thảo máy tính Ngoài ứng dụng số hóa trang văn bản, tài liệu, nhận dạng chữ ứng dụng rộng rãi hoạt động giao dịch hàng ngày qui trình tự động hóa công việc văn phòng, chẳng hạn nhập liệu tự động phiếu chấm thi trắc nghiệm, phiếu điều tra, nhận dạng dòng địa phong bì thư, nhận dạng nhãn sản phẩm, nhận dạng thông tin cá nhân chứng minh nhân, hộ chiếu, card visit,v.v Trang - 60- 31 87.10 ASCII Special Symbols 66.67 ASCII Digits 24 95.83 ASCII Uppercase Letters 578 22 96.19 ASCII Lowercase Letters 756 29 96.16 Total Errors Marked Correct-Generated {fl}-{n} 3 {w}-{~-.} 2 {r}-{I.} 2 {r}-{l-} 2 {sy}-{~v} 2 {te}-{~s} 2 {w}-{~.} {,}-{.} {a}-{,r} {e}-{c} {e}-{tr} {g}-{ji} 1 {f}-{~} 1 {s}-{~} 1 {}-{.} {/}-{I} {2}-{3} {8}-{6} {I}-{i} {]}-{1} {e}-{s} {f}-{i} {t}-{i} {}-{-} Count Missed %Right 20 100.00 {} Trang - 61- 97 100.00 { } 100.00 {(} 100.00 {)} 60.00 {,} 100.00 {-} 100.00 {.} 50.00 {/} 100.00 {0} 50.00 {2} 100.00 {7} 1 0.00 {8} 100.00 {A} 100.00 {C} 100.00 {D} 100.00 {F} 100.00 {H} 1 0.00 {I} 100.00 {L} 100.00 {M} 100.00 {O} 100.00 {P} 100.00 {S} 100.00 {T} 100.00 {V} 100.00 {W} 100.00 {[} 1 0.00 {]} 56 98.21 {a} 100.00 {b} 26 100.00 {c} 27 100.00 {d} 88 94.32 {e} Trang - 62- 14 71.43 {f} 16 93.75 {g} 20 100.00 {h} 37 100.00 {i} 21 90.48 {l} 13 100.00 {m} 44 100.00 {n} 28 100.00 {o} 100.00 {p} 100.00 {q} 45 95.56 {r} 312 93.55 {s} 51 96.08 {t} 20 100.00 {u} 100.00 {v} 10 80.00 {w} 100.00 {x} 85.71 {y} 100.00 {z} Hình 3.2: Kết đánh giá độ xác mức ký tự văn 3.1.6 Module đánh giá độ xác mức từ Độ xác mức từ tính toán module WordAccuracy Module tiến hành đối sánh nội dung văn mẫu với văn sinh phần mềm nhận dạng để tính toán đưa thông tin đánh giá, cụ thể sau: Tổng số từ (Words) Tổng số từ không nhận dạng (Misrecognized) Độ xác (Accuracy) Đánh giá độ xác trường hợp tính từ dừng: Trang - 63- Các thông số đánh giá thống kê theo độ dài từ, bao gồm số từ (Count), số từ không nhận dạng (Missed), tỷ lệ nhận dạng (%Right), độ dài từ (length), cụ thể sau: Count Missed %Right Length N11 N 12 N 31 N 12 N 22 N 32 … … … … … … … … … … … … n … … … Total Đánh giá độ xác trường hợp không kể từ dừng (Nonstopwords): Các thông số đánh giá tương tự Đánh giá độ xác đoạn văn bản: Các thông số đánh giá tương tự Ngoài ra, để hỗ trợ nhà phát triển phần mềm có thông tin đánh giá xác trực quan hơn, đưa thông số đánh giá chi tiết cho từ xuất văn Xét tiếp với ví dụ trên: 43928 Words 2211 Misrecognized 94.97% Accuracy Stopwords Count Missed %Right Length 810 46 94.32 6069 128 97.89 6065 92 98.48 2438 61 97.50 Trang - 64- 949 27 97.15 204 10 95.10 232 97.84 100.00 16768 369 97.80 Total Non-stopwords Count Missed %Right Length 2275 250 89.01 1050 249 76.29 1425 169 88.14 3025 160 94.71 3705 186 94.98 3327 172 94.83 3216 139 95.68 3132 166 94.70 2345 125 94.67 1560 96 93.85 10 1032 57 94.48 11 599 38 93.66 12 260 17 93.46 13 118 95.76 14 58 11 81.03 15 23 91.30 16 100.00 17 100.00 18 100.00 19 27160 1842 93.22 Total Distinct Non-stopwords Count Missed %Right Occurs Trang - 65- 11889 808 93.201 2437 54 97.78 868 15 98.27 431 98.38 241 99.59 155 97.42 107 96.26 69 98.55 62 98.39 35 100.00 10 112 99.11 >10 94.54 Total 16406 896 Phrases Count Missed %Right Length 43928 2211 94.97 43753 3927 91.02 43578 5446 87.50 43403 6812 84.31 43228 8082 81.30 43053 9249 78.52 42878 10334 75.90 42704 11351 73.42 Stopwords Count Missed %Right 723 32 95.57 a 69 98.55 about 32 96.88 after 88.89 again 10 100.00 against Non-stopwords Trang - 66- Count Missed %Right 2 0.00 ab 100.00 abbreviations 100.00 abernethy 100.00 ability 100.00 able Hình 3.4: Đánh giá độ xác mức từ file văn tiếng Việt 3.2 Đánh giá thực nghiệm 3.2.1 Dữ liệu thực nghiệm Chương trình thử nghiệm liệu tiếng Anh tiếng Việt Trong liệu tiếng Anh liệu chuẩn, cung cấp viện nghiên cứu khoa học thông tin ISRI (Information Science Research Institute) Hoa Kỳ Bộ liệu bao gồm tổng 7844 trang ảnh văn bản, chia thành tập liệu, cụ thể sau: Tập liệu Business Letter (BUS): Chứa tập trang văn dạng thư tín tổ chức, cá nhân doanh nghiệp tặng cho ISRI Tập liệu Corporate Annual Report (REP): Bao gồm trang văn lựa chọn từ báo cáo thường niên doanh nghiệp tổ chức tài Tập liệu DOE (Department of Energy): Là tập liệu mẫu lớn số tập liệu thử nghiệm, lựa chọn cách ngẫu nhiên từ tập văn khoa học kỹ thuật Tập liệu English Newspaper Sample (NEWS): Chứa trang báo lựa chọn cách ngẫu nhiên từ 50 tạp chí thịnh hành Tập liệu Legal Document (LEGAL): Chứa trang lựa chọn từ tập văn luật, thu thập từ văn phòng luật tòa án địa phương Trang - 67- Tập liệu Magazine (ZSET): Bao gồm trang báo lựa chọn cách ngẫu nhiên từ 100 tạp chí có số lượng phát hành lớn Thông tin chi tiết tập liệu thể Bảng 3.4: Các tập liệu tiếng Anh Tập liệu Số trang Số khối Tổng số Số ký tự từ Business Letter (BUS) 800 5676 205840 1279024 Corporate Annual Report 1200 6826 12488028 3569064 DOE (Department of Energy) 1844 9120 854208 5854048 English Newspaper Sample 800 3124 336104 2460400 Legal Document (LEGAL) 1200 3388 58699 1488392 Magazine (ZSET) 800 9328 826592 4976684 Tổng số: 7844 37462 (REP) (NEWS) 14769471 19627612 Mỗi trang văn số hóa lần máy quét Fujitsu M3096G đế sinh ảnh nhị phân ảnh 8-bit grey scale Các ảnh nhị phân tạo với độ phân giải 200, 300 400dpi (dots per inch) Ảnh gray scale quét độ phân giải 300dpi Mỗi file ảnh kèm với file văn mẫu file thông tin (ground truth) xác định tọa độ thứ tự đọc khối văn ảnh đầu vào Đối với liệu tiếng Việt, chưa có sở liệu mẫu chuẩn công bố để phục vụ cho việc thử nghiệm, đánh giá thuật toán nhận dạng Để đánh giá hiệu thuật toán nhận dạng văn tiếng Việt, luận án thu thập xây dựng ba tập liệu sau phục vụ cho việc thử nghiệm Trang - 68- Tập liệu Vie Official Documen, bao gồm trang văn bản, công văn, thư từ, fax tiếng Việt lưu hành Viện Công Nghệ Thông Tin Tập liệu Vie Magazine, bao gồm tập văn thu thập từ báo, tạp chí thịnh hành Việt nam: báo Phụ Nữ, báo Thanh Niên, báo Tiền Phong, báo Công An Nhân Dân, báo Gia Đình Xã Hội, tạp chí Sinh Học, tạp chí Bưu Chính Viễn Thông, tạp chí PC Word, tạp chí Sức Khỏe Đời Sống, v.v Tập liệu VieTypical Book chứa trang văn có chất lượng khác lựa chọn ngẫu nhiên từ số loại sách, truyện, giáo trình, kỷ yếu hội thảo, v.v Thông tin tập liệu thể cụ thể [Bảng 3.5] Bảng 3.5: Các tập liệu Tiếng Việt Tập liệu Số trang Số vùng Tổng số từ Số ký tự Vie Magazine 140 766 114358 419561 VieOfficial Document 265 722 87087 312964 Vie Typical Book 300 678 141609 525599 Tổng số: 705 2166 343054 1258124 Mỗi trang văn quét lần máy quét HP C7716A chế độ ảnh nhị phân (B & W) với ngưỡng độ phân giải 200 dpi, 300 dpi 400 dpi Mỗi file ảnh kèm với file văn mẫu file ground truth định nghĩa tọa độ khối văn cần nhận dạng theo thứ tự xác định (thông thường theo thứ tự từ xuống dưới, từ trái sang phải) Trang - 69- 3.2.2 Kết thực nghiệm Từ tập liệu mẫu thu thập được, trình thử nghiệm bao gồm công đoạn bản: - Bước 1: Tiến hành nhận dạng toàn file ảnh mẫu phần mềm nhận dạng (VnDOCR, FineReader, OmniPage, VietOCR) Kết nhận dạng file ảnh đầu vào lưu vào file văn (*.txt), định dạng font chữ UTF8 - Bước 2: Từ file văn nhận dạng file văn mẫu tương ứng ảnh văn đầu vào, chương trình gọi đến module số module liệt kê để đưa độ đo đánh giá mức độ xác phần mềm nhận dạng toàn tập liệu thử nghiệm Phần sau trình bày kết thực nghiệm đánh giá độ xác phần mềm nhận dạng tập liệu thử nghiệm Độ xác mức ký tự Các kết đánh giá độ xác mức ký tự trung bình với tập liệu tiếng Anh tổng kết cụ thể Bảng 3.6: Bảng 3.6: Độ xác mức ký tự tập liệu tiếng Anh Phần mềm nhận dạng Các tập liệu thử nghiệm BUS REP DOE NEWS LEGAL ZSET VnDOCR 97.15% 94.45% 95.26% 95.46% 97.27% 94.64% FineReader 98.25% 95.7% 98.57% 96.37% Omnipage 97.86% 94.67% 95.78% 96.88% 98.2% 96.05% VietOCR 85.05% 74.2% 82.56% 75.52% 96.89% 97.08% 77.32% 77.43% Kết đánh giá độ xác mức ký tự trung bình tập liệu tiếng Việt thể cụ thể Bảng 3.7: Trang - 70- Bảng 3.7: Độ xác mức ký tự tập liệu tiếng Việt Phần mềm nhận dạng Các tập liệu thử nghiệm Vie Magazine VieOfficial Document Vie Typical Book VnDOCR 94.4% 92.48% 96.23% FineReader 95.72% 94.03% 98.16% - - - 46.05% 52.17% Omnipage VietOCR 50% Độ xác mức từ Độ xác mức từ trung bình toàn tập liệu tiếng Anh trường hợp kể từ dừng (STW) không kể từ dừng (NSTW) thể cụ thể Bảng 3.8 Bảng 3.8: Độ xác mức từ tập liệu tiếng Anh Phần mềm BUS nhận dạng STW/ NSTW VnDOCR 96.25% 96.66% FineReade 97.48% r 97.83% Omnipage 97.37% 97.56% VietOCR 83.28% 83.55% Các tập liệu thử nghiệm REP DOES NEWS LEGAL TW/ STW/ STW/ STW/ NSTW NSTW NSTW NSTW 93.3% 93.58% 94.52% 96.22% 93.52% 93.7% 94.66% 96.38% 94.17% 95.02% 96.12% 98.03% 94.46% 95.28% 96.32% 98.21% 93.63% 94.14% 95.2% 96.42% 93.8% 94.38% 95.31% 96.6% 70.11% 70.29% 71.26% 74.12% 70.26% 70.33% 71.33% 74.32% ZSET STW/ NSTW 94.06% 94.22% 95.49% 95.58% 94.15% 94.29% 72.16% 72.27% Độ xác mức từ trung bình tập liệu tiếng Việt thể cụ thể Bảng 3.9 Bảng 3.9: Độ xác mức từ tập liệu tiếng Việt Phần mềm nhận dạng Vie Magazine (%) STW/ Các tập liệu thử nghiệm VieOfficial Document Vie Typical Book (%) (%) STW/ STW/ Trang - 71- VnDOCR FineReader Omnipage VietOCR NSTW 92.23% 92.46% 95.07% 95.28% 48.02% 48.23% NSTW 91.12% 91.28% 93.68% 93.89% 45.29% 45.48% NSTW 95.14% 95.27% 97.53% 97.67% 50.27% 50.38% 3.2 Kết luận chương Trong chương này, luận văn mô tả cụ thể quy trình bước xây dựng chương trình thử nghiệm đánh giá độ xác phần mềm/thuật toán nhận dạng văn Trong đó, tập trung vào độ đo bản: Độ xác mức ký tự (character accuracy) độ xác mức từ (word accuracy) Trong đó, độ xác mức ký tự đánh giá trường hợp tổng quát (trên toàn lớp ký tự), lớp ký tự trường hợp có sử dụng ký tự đặc biệt, ký tự đánh dấu Độ xác mức từ đánh giá trường hợp xét toàn từ văn (kể từ dừng) trường hợp không sử dụng từ dừng Hiệu chương trình đánh giá kiểm nghiệm tập liệu tiếng Anh tiếng Việt (đủ lớn, đa dạng chất lượng) Thực nghiệm cho thấy chương trình đánh giá độ xác phần mềm thuật toán nhận dạng mang lại cho nhà phát triển phần mềm nhận dạng chữ thông tin đánh giá chi tiết, xác trực quan Trang - 72- KẾT LUẬN Luận văn tìm hiểu số vấn đề nhận dạng chữ viết sau: Xây dựng công cụ đánh giá hiệu cho engine nhận dạng chữ Việt Xây dựng sở liệu mẫu chuẩn, phục vụ cho việc nghiên cứu, đánh giá thử nghiệm thuật toán nhằm nâng cao chất lượng nhận dạng Phần thực nghiệm, luận văn tiến hành đánh giá so sánh phần mềm nhận dạng chữ Việt có FineReader, VnDOCR, Omnipage, VietOCR Tuy nhiên luận văn số vấn đề chưa giải là: Luận văn đánh giá phần mềm nhận dạng tiêu chí mức ký tự mức từ Từ việc đánh giá kết nhận dạng chưa cải thiện chất lượng nhận dạng cho phần mềm nhận dạng chữ Hướng phát triển luận văn xây dựng thêm công cụ đánh giá khác dựa kết đánh giá góp phần để nhà sản xuất phần mềm đánh giá chất lượng sản phẩm phần mềm từ đưa hướng phát triển nâng cấp phần mềm Trang - 73- DANH MỤC TÀI LIỆU THAM KHẢO Tài liệu tham khảo tiếng Việt [1] Nguyễn Thị Thanh Tân, (2013), “Nghiên cứu phương pháp nâng cao độ xác nhận dạng chữ in đứt, dính chữ viết tay hạn chế tiếng Việt”, Luận án tiến sĩ toán học, Viện Công nghệ Thông tin, Viện Hàn lâm Khoa học Công nghệ Việt Nam, 2013 Tài liệu tham khảo tiếng Anh [2] Aho, A V., Hirschberg, D S., & Ullman, J D (1976) Bounds on the complexity of the longest common subsequence problem Journal of the ACM, 23(1), 1-12 [3] Apostolico, A., Browne, S., & Guerra, C (1992) Fast linear-space computations of longest common subsequences Theoretical Computer Science, 92, 3-17 [4] Eppstein, D., Galil, Z., Giancarlo, R., & Italiano, G F (1992) Sparse dynamic programming I: Linear cost functions Journal of the ACM, 39(3), 519-545 [5] Fickett, J W (1984) Fast optimal alignment Nucleic Acids Research, 12(1), 175-179 [6] Hsu, W J., & Du, M W (1984) New algorithms for the LCS problem Journal of Computer and System Sciences, 29, 133-152 [7] Hirschberg, D S (1978) An information-theoretic lower bound for the longest common subsequence problem Information Processing Letters, 7(1), 40-41 [8] Hunt, J W.,& Szymanski, T G (1977) A fast algorithm for computing longest common subsequences Communications of the ACM, 20(5), 350-353 Trang - 74- [9] Masek, W J., & Paterson, M S (1980) A faster algorithm computing string edit distances Journal of Computer and System Sciences, 20(1), 18-31 [10] Mukhopadhyay, A (1980) A fast algorithm for the longestcommonsubsequence problem Information Sciences, 20, 69-82 [11] Myers, E W (1986) An O(ND) difference algorithm and its variations Algorithmica, 1, 251-266 [12] Nakatsu, N., Kambayashi, Y., & Yajima, S (1982) A longest common subsequence algorithm suitable for similar text strings Acta Informatica, 18, 171-179 [13] Ukkonen, E (1985) Algorithms for approximate string matching Information and Control, 64, 100-118 [14] Wagner, R A., & Fischer, M J (1974) The string-to-string correction problem Journal of the ACM, 21(1), 168-173 [15] Wong, C K., & Chandra, A K (1976) Bounds for the string editing problem Journal of the ACM, 23(1), 13-16 [16] Wu, S., Manber, U., Myers, G.,& Miller, W (1990) An O(NP) sequence comparison algorithm Information Processing Letters, 35(6), 317-323 [17] http://www.expervision.com/testimonial-world-leading-and-championocr/annual-test-of-ocr-accuracy-by-us-department-of-energy-doeuniversity-of-nevada-las-vegas-unlv [18] [19] [20] [21] http://vndocr.com http://www.abbyy.com/finereader http://www.nuance.com http://vietocr.sourceforge.net Thái Nguyên, ngày .tháng năm 2015 [...]... Bố cục của luận văn Các nội dung trình bày trong luận văn được chia thành 3 chương: Chương I: Tổng quan về nhận dạng chữ Chương này trình bày tổng quan về bài toán nhận dạng chữ, những yếu tố ảnh hưởng tới độ chính xác của các phần mềm nhận dạng chữ Chương II: Phương pháp đánh giá hiệu quả của các phần mềm nhận dạng chữ Việt Chương này trình bày cơ sở lý thuyết của các độ đo và phương pháp đánh giá chất... đầu, chỉnh lỗi chính tả,… Hạn chế của phần mềm: Độ chính xác nhận dạng không cao, các module phân trang văn bản chưa tốt Trang - 22- 1.3 Những vấn đề ảnh hưởng tới chất lượng của một phần mềm nhận dạng Chất lượng của ảnh đầu vào là yếu tố quyết định tới độ chính xác của một hệ thống nhận dạng Hầu hết các hệ thống nhận dạng chữ hiện đang được thương mại hóa trên thị trường đều cho độ chính xác cao trên... mềm FineReader của hãng ABBYY, phần mềm OmniPage của hãng Nuance và phần mềm VietOCR, được xây dựng từ thư viện mã nguồn mở Tesseract của Google Ngoài ra, phần cuối của chương cũng đã tìm hiểu và hệ thống lại những vấn đề ảnh hưởng tới chất lượng của một hệ thống nhận dạng Trang - 28- CHƯƠNG 2 - PHƯƠNG PHÁP ĐÁNH GIÁ HIỆU QUẢ CỦA CÁC PHẦN MỀM NHẬN DẠNG CHỮ VIỆT Một hệ thống nhận dạng chữ có thể được... nghiên cứu của luận văn hướng tới 2 mục tiêu chính: Xây dựng bộ công cụ đánh giá độ chính xác của các phần mềm nhận dạng chữ Việt Xây dựng cơ sở dữ liệu mẫu chuẩn, phục vụ cho việc nghiên cứu, đánh giá và thử nghiệm các thuật toán nhằm nâng cao chất lượng nhận dạng Phần thực nghiệm, luận văn sẽ tiến hành đánh giá độ chính xác của một số phần mềm nhận dạng chữ hiện đang được thương mại hóa hoặc công... Các hệ thống nhận dạng thường được huấn luyện để nhận dạng các ký tự của các kiểu font chữ thông thường chẳng hạn đối với tiếng Việt có các font chữ Unicode thường dùng như Arial, Courier, Tahoma, Times New Roman và Verdana Do các ký tự của font chữ VnTime không khác biệt nhiều so với các ký tự của font chữ Times, một hệ thống OCR có khả năng nhận dạng các ký tự của font chữ VnTime một cách dễ dàng... toán nhận dạng cũng như các yếu tố ảnh hưởng đến chất lượng của một hệ thống nhận dạng 1.1 Qui trình chung của một hệ nhận dạng chữ Qui trình chung của một hệ thống nhận dạng chữ thường gồm hai giai đoạn là: Phân lớp mẫu và nhận dạng văn bản 1.1.1 Phân lớp mẫu Phân lớp (sắp lớp) mẫu là giai đoạn quyết định trong quá trình nhận dạng Hai kiểu phân lớp điển hình thường được sử dụng là: phân lớp có giám... nghĩa một cách hình thức là một hệ thống máy tính có khả năng chuyển đổi có khả năng chuyển đổi các văn bản in trên giấy thành các văn bản điện tử có khả năng soạn thảo, hiệu chỉnh và tìm kiếm,v.v Trong chương này, luận văn trình bày cơ sở lý thuyết của các độ đo và phương pháp đánh giá chất lượng (độ chính xác) của các hệ thống nhận dạng dựa trên ý tưởng tìm kiếm một ánh xạ (sự tương ứng) giữa các ký... dạng chính xác được Khi đó việc học thêm những mẫu này sẽ góp phần làm tăng chất lượng của hệ thống nhận dạng 6 Hậu xử lý: Đây là một trong những công đoạn cuối cùng của quá trình nhận dạng Trong nhận dạng chữ, có thể hiểu hậu xử lý là bước ghép nối các ký tự đã nhận dạng được thành các từ, các câu, các đoạn văn nhằm tái Trang - 16- hiện lại văn bản đồng thời phát hiện ra các lỗi nhận dạng bằng cách kiểm... nâng cao độ chính xác của các thuật toán nhận dạng chữ Việt là một vấn đề thực sự cần thiết, có cả ý nghĩa khoa học lẫn thực tiễn Vấn đề lớn nhất mà hiện nay các nhóm nghiên cứu về nhận dạng chữ Việt đang phải đối mặt là chưa có được một bộ công cụ cũng như cơ sở dữ liệu mẫu chuẩn, phục vụ cho việc thử nghiệm và đánh giá các thuật toán nhận dạng 2 Mục tiêu của luận văn Nội dung nghiên cứu của luận... phân giải 200, 300 và 400 dpi với các mức độ đậm, nhạt khác nhau Ngoài ra, để đánh giá hiệu quả của các thuật toán nhận dạng chữ viết tay còn có các bộ dữ liệu chuẩn như đối với nhận dạng chữ viết tay còn có các bộ dữ liệu chuẩn như MNIST, USPS, v.v Cùng với xu thế phát triển của thế giới, bài toán nhận dạng chữ Việt cũng đã thu được những kết quả ứng dụng đáng kể, với các sản phẩm thương mại hóa điển