Tìm hiểu phương pháp đánh giá độ chính xác của các hệ thống nhận dạng chữ việt

77 5 0
Tìm hiểu phương pháp đánh giá độ chính xác của các hệ thống nhận dạng chữ việt

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Trang - i- ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN&TRUYỀN THÔNG - NGƠ MINH HIẾU TÌM HIỂU PHƯƠNG PHÁP ĐÁNH GIÁ ĐỘ CHÍNH XÁC CỦA CÁC HỆ THỐNG NHẬN DẠNG CHỮ VIỆT LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Thái Nguyên 2015 Trang - ii- ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN&TRUYỀN THÔNG =================== NGƠ MINH HIẾU TÌM HIỂU PHƯƠNG PHÁP ĐÁNH GIÁ ĐỘ CHÍNH XÁC CỦA CÁC HỆ THỐNG NHẬN DẠNG CHỮ VIỆT Chuyên ngành: Khoa học máy tính Mã số: 60 48 01 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC TS NGUYỄN THỊ THANH TÂN Thái Nguyên 2015 Trang - 1- LỜI CAM ĐOAN Tôi xin cam đoan luận văn tự thân nghiên cứu hoàn thành hướng dẫn khoa học TS Nguyễn Thị Thanh Tân Nếu có vi phạm tơi xin hồn tồn chịu trách nhiệm Thái Nguyên, ngày tháng năm 2015 Ngô Minh Hiếu Trang - 2- LỜI CẢM ƠN Lời xin gửi lời cảm ơn chân thành lòng biết ơn sâu sắc tới TS Nguyễn Thị Thanh Tân, người bảo hướng dẫn tận tình cho tơi đóng góp ý kiến q báu suốt q trình học tập, nghiên cứu thực luận văn Tôi xin trân trọng cảm ơn Ban giám hiệu Trường Đại học Công nghệ Thông tin Truyền thông, Đại học Thái Nguyên, khoa CNTT giúp đỡ tạo điều kiện cho học tập làm khóa luận cách thuận lợi Và cuối tơi xin gửi lời cảm ơn đến gia đình, người thân bạn bè, người bên chỗ dựa giúp cho tơi vượt qua khó khăn Họ ln động viên tơi khuyến khích giúp đỡ sống công việc cho tơi tâm hồn thành luận văn Tuy nhiên thời gian có hạn, nỗ lực cố gắng luận văn khó tránh khỏi thiếu sót Rất mong bảo, góp ý tận tình q Thầy Cơ bạn Tôi xin chân thành cảm ơn! Thái Nguyên, ngày tháng năm 2015 Ngô Minh Hiếu Trang - 3- MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC HÌNH VẼ BẢNG DANH MỤC CÁC TỪ VIÊT TẮT MỞ ĐẦU CHƯƠNG - TỔNG QUAN VỀ NHẬN DẠNG CHỮ 12 1.1.Qui trình chung hệ nhận dạng chữ 12 1.1.1.Phân lớp mẫu 12 1.1.2.Nhận dạng văn 13 1.2.Tìm hiểu số phần mềm nhận dạng chữ 16 1.2.1.VnDOCR 16 1.2.2.FineReader 18 1.2.3.OmniPage 20 1.2.4 VietOCR 20 1.3 Những vấn đề ảnh hưởng tới chất lượng phần mềm nhận dạng 22 1.3.1.Chữ bị dính, nhịe 23 1.3.2.Văn bị đứt nét 24 1.3.3.Văn bị nhiễu 25 1.3.4.Văn in với kiểu font chữ đặc biệt 26 1.3.5.Cỡ chữ lớn nhỏ 26 1.4 Kết luận 27 CHƯƠNG - PHƯƠNG PHÁP ĐÁNH GIÁ HIỆU QUẢ CỦA CÁC THUẬT TOÁN NHẬN DẠNG CHỮ VIỆT 28 2.1 Một số khái niệm 28 2.2 Bài toán hiệu chỉnh chuỗi ký tự (string editing) 29 2.3 Thuật toán Ukkonen 34 Trang - 4- 2.4 Đánh giá độ xác mức ký tự 40 2.5 Đánh giá độ xác mức ký tự theo lớp mẫu 45 2.6 Hiệu ký tự đánh dấu 45 2.7 Độ xác mức từ 47 CHƯƠNG :THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 52 3.1.Phân tích, cài đặt chương trình 52 3.1.1.Quy trình thực 52 3.1.2.Các cấu trúc liệu 53 3.1.3.Danh sách từ dừng tiếng Việt 55 3.1.4 Danh sách ký tự đặc biệt 56 3.1.5.Module đánh giá độ xác mức ký tự 57 3.1.6.Module đánh giá độ xác mức từ 59 3.2.Đánh giá thực nghiệm 66 3.2.1Dữ liệu thực nghiệm 66 3.2.2 Kết thực nghiệm 69 3.3.Kết luận chương 71 KẾT LUẬN 72 DANH MỤC TÀI LIỆU THAM KHẢO 73 Trang - 5- HÌNH VẼ Hình 1.1: Qui trình chung hệ thống nhận dạng chữ 15 Hình 1.2 Màn hình làm việc VnDOCR 17 Hình 1.3 Màn hình kết phân tích nhận dạng ảnh hình 1.7 18 Hình 1.4 Màn hình làm việc OmniPage 20 Hình 1.5 Màn hình làm việc VietOCR 21 Hình 1.6 Trường hợp văn in đậm 23 Hình 1.7: Một số hình ảnh bị biến dạng ký tự 23 Hình 1.8 Hình ảnh ký tự tiếng Việt bị nhập nhằng phần dấu 24 Hình 1.9 Trường hợp văn bị đứt nét 24 Hình 1.10 Hình ảnh ký tự bị biến dạng lỗi đứt nét 24 Hình 1.11 Một số dạng nhiễu thường gặp văn 25 Hình 1.12 Văn bị nhiễu đánh dấu 25 Hình 1.13 Văn bị nhiễu bị chồng chữ ký/con dấu 26 Hình 1.14 Văn in với kiểu font chữ đặc biệt 26 Hình 2.1: Đồ thị G(A,B), với A = zxy B = xyxz 32 Hình 2.2: Các đường đồ thị G(A, B) 33 Hình 2.3: Sự tương ứng chuỗi văn nhận dạng văn mẫu 42 Hình 2.4: Độ xác mức từ 49 Hình 3.1 Quy trình thực chương trình 52 Hình 3.2: Kết đánh giá độ xác mức ký tự văn tiếng Anh 62 Hình 3.3: Đánh giá độ xác mức từ file văn tiếng Anh 66 Trang - 6- BẢNG Bảng 2.1: Giải thuật cho toán chỉnh sửa chuỗi 34 Bảng 2.2: Độ xác mức ký tự 44 Bảng 3.1 Bảng danh sách từ dùng tiếng Việt 56 Bảng 3.2 Thông tin thao tác hiệu chỉnh 58 Bảng 3.3 Thông tin đánh giá độ xác mức ký tự 58 Bảng 3.4: Các tập liệu tiếng Anh 67 Bảng 3.5: Các tập liệu Tiếng Việt 68 Bảng 3.6: Độ xác mức ký tự tập liệu tiếng Anh 69 Bảng 3.7: Độ xác mức ký tự tập liệu tiếng Việt 70 Bảng 3.8: Độ xác mức từ trêntập liệu tiếng Anh 70 Bảng 3.9: Độ xác mức từ tập liệu tiếng Việt 70 Trang - 7- DANH MỤC CÁC TỪ VIÊT TẮT STT Từ viết tắt NLP LCS OCR Ý nghĩa Natural Language Processing Longest common subsequence Optical Character Recognition Nội dung Xử lý ngôn ngữ tự nhiên Dãy chung dài Nhận dạng ký tự quang học Trang - 8- MỞ ĐẦU Tính cấp thiết luận văn Nhận dạng mẫu ngành khoa học mà vai trị phân lớp đối tượng thành số loại số lớp riêng biệt Tuỳ thuộc vào lĩnh vực ứng dụng, đối tượng dạng ảnh, dạng tín hiệu sóng kiểu liệu mà cần phải phân lớp Những đối tượng gọi thuật ngữ chung “mẫu” (pattern) Nhận dạng mẫu biết đến từ lâu, trước năm 1960 kết nghiên cứu mặt lý thuyết lĩnh vực thống kê Tuy nhiên, với phát triển không ngừng khoa học kỹ thuật phần cứng phần mềm, yêu cầu mặt ứng dụng thực tế lĩnh vực nhận dạng mẫu ngày tăng lên nhận dạng mẫu sử dụng nhiều lĩnh vực y học, tự động hố số qui trình sản xuất công nghiệp, dự báo thời tiết, dự báo cháy rừng,v.v Ngồi nhận dạng mẫu cịn thành phần quan trọng hầu hết hệ thống máy tính thơng minh xây dựng để thực việc định Cùng với phát triển nhận dạng mẫu, nhận dạng chữ ngày trở thành ứng dụng thiếu đời sống xã hội người Nhận dạng chữ trình chuyển đổi từ dạng hình ảnh hay nhiều trang ảnh chứa thông tin văn thành tệp văn thực soạn thảo máy tính Ngồi ứng dụng số hóa trang văn bản, tài liệu, nhận dạng chữ ứng dụng rộng rãi hoạt động giao dịch hàng ngày qui trình tự động hóa cơng việc văn phịng, chẳng hạn nhập liệu tự động phiếu chấm thi trắc nghiệm, phiếu điều tra, nhận dạng dịng địa phong bì thư, nhận dạng nhãn sản phẩm, nhận dạng thông tin cá nhân chứng minh nhân, hộ chiếu, card visit,v.v Trang - 61- 97 100.00 { } 100.00 {(} 100.00 {)} 60.00 {,} 100.00 {-} 100.00 {.} 50.00 {/} 100.00 {0} 50.00 {2} 100.00 {7} 1 0.00 {8} 100.00 {A} 100.00 {C} 100.00 {D} 100.00 {F} 100.00 {H} 1 0.00 {I} 100.00 {L} 100.00 {M} 100.00 {O} 100.00 {P} 100.00 {S} 100.00 {T} 100.00 {V} 100.00 {W} 100.00 {[} 1 0.00 {]} 56 98.21 {a} 100.00 {b} 26 100.00 {c} 27 100.00 {d} 88 94.32 {e} Trang - 62- 14 71.43 {f} 16 93.75 {g} 20 100.00 {h} 37 100.00 {i} 21 90.48 {l} 13 100.00 {m} 44 100.00 {n} 28 100.00 {o} 100.00 {p} 100.00 {q} 45 95.56 {r} 312 93.55 {s} 51 96.08 {t} 20 100.00 {u} 100.00 {v} 10 80.00 {w} 100.00 {x} 85.71 {y} 100.00 {z} Hình 3.2: Kết đánh giá độ xác mức ký tự văn 3.1.6 Module đánh giá độ xác mức từ Độ xác mức từ tính tốn module WordAccuracy Module tiến hành đối sánh nội dung văn mẫu với văn sinh phần mềm nhận dạng để tính tốn đưa thơng tin đánh giá, cụ thể sau:  Tổng số từ (Words)  Tổng số từ không nhận dạng (Misrecognized)  Độ xác (Accuracy)  Đánh giá độ xác trường hợp tính từ dừng: Trang - 63- Các thông số đánh giá thống kê theo độ dài từ, bao gồm số từ (Count), số từ không nhận dạng (Missed), tỷ lệ nhận dạng (%Right), độ dài từ (length), cụ thể sau: Count Missed %Right Length N11 N 12 N 31 N 12 N 22 N 32 … … … … … … … … … … … … n … … … Total  Đánh giá độ xác trường hợp khơng kể từ dừng (Nonstopwords): Các thông số đánh giá tương tự  Đánh giá độ xác đoạn văn bản: Các thông số đánh giá tương tự Ngoài ra, để hỗ trợ nhà phát triển phần mềm có thơng tin đánh giá xác trực quan hơn, đưa thông số đánh giá chi tiết cho từ xuất văn Xét tiếp với ví dụ trên: 43928 Words 2211 Misrecognized 94.97% Accuracy Stopwords Count Missed %Right Length 810 46 94.32 6069 128 97.89 6065 92 98.48 2438 61 97.50 Trang - 64- 949 27 97.15 204 10 95.10 232 97.84 100.00 16768 369 97.80 Total Non-stopwords Count Missed %Right Length 2275 250 89.01 1050 249 76.29 1425 169 88.14 3025 160 94.71 3705 186 94.98 3327 172 94.83 3216 139 95.68 3132 166 94.70 2345 125 94.67 1560 96 93.85 10 1032 57 94.48 11 599 38 93.66 12 260 17 93.46 13 118 95.76 14 58 11 81.03 15 23 91.30 16 100.00 17 100.00 18 100.00 19 27160 1842 93.22 Total Distinct Non-stopwords Count Missed %Right Occurs Trang - 65- 11889 808 93.201 2437 54 97.78 868 15 98.27 431 98.38 241 99.59 155 97.42 107 96.26 69 98.55 62 98.39 35 100.00 10 112 99.11 >10 94.54 Total 16406 896 Phrases Count Missed %Right Length 43928 2211 94.97 43753 3927 91.02 43578 5446 87.50 43403 6812 84.31 43228 8082 81.30 43053 9249 78.52 42878 10334 75.90 42704 11351 73.42 Stopwords Count Missed %Right 723 32 95.57 a 69 98.55 about 32 96.88 after 88.89 again 10 100.00 against Non-stopwords Trang - 66- Count Missed %Right 2 0.00 ab 100.00 abbreviations 100.00 abernethy 100.00 ability 100.00 able Hình 3.4: Đánh giá độ xác mức từ file văn tiếng Việt 3.2 Đánh giá thực nghiệm 3.2.1 Dữ liệu thực nghiệm Chương trình thử nghiệm liệu tiếng Anh tiếng Việt Trong liệu tiếng Anh liệu chuẩn, cung cấp viện nghiên cứu khoa học thông tin ISRI (Information Science Research Institute) Hoa Kỳ Bộ liệu bao gồm tổng 7844 trang ảnh văn bản, chia thành tập liệu, cụ thể sau:  Tập liệu Business Letter (BUS): Chứa tập trang văn dạng thư tín tổ chức, cá nhân doanh nghiệp tặng cho ISRI  Tập liệu Corporate Annual Report (REP): Bao gồm trang văn lựa chọn từ báo cáo thường niên doanh nghiệp tổ chức tài  Tập liệu DOE (Department of Energy): Là tập liệu mẫu lớn số tập liệu thử nghiệm, lựa chọn cách ngẫu nhiên từ tập văn khoa học kỹ thuật  Tập liệu English Newspaper Sample (NEWS): Chứa trang báo lựa chọn cách ngẫu nhiên từ 50 tạp chí thịnh hành  Tập liệu Legal Document (LEGAL): Chứa trang lựa chọn từ tập văn luật, thu thập từ văn phòng luật tòa án địa phương Trang - 67-  Tập liệu Magazine (ZSET): Bao gồm trang báo lựa chọn cách ngẫu nhiên từ 100 tạp chí có số lượng phát hành lớn Thơng tin chi tiết tập liệu thể Bảng 3.4: Các tập liệu tiếng Anh Tập liệu Số trang Số khối Tổng số Số ký tự từ Business Letter (BUS) 800 5676 205840 1279024 Corporate Annual Report 1200 6826 12488028 3569064 DOE (Department of Energy) 1844 9120 854208 5854048 English Newspaper Sample 800 3124 336104 2460400 Legal Document (LEGAL) 1200 3388 58699 1488392 Magazine (ZSET) 800 9328 826592 4976684 Tổng số: 7844 37462 (REP) (NEWS) 14769471 19627612 Mỗi trang văn số hóa lần máy quét Fujitsu M3096G đế sinh ảnh nhị phân ảnh 8-bit grey scale Các ảnh nhị phân tạo với độ phân giải 200, 300 400dpi (dots per inch) Ảnh gray scale quét độ phân giải 300dpi Mỗi file ảnh kèm với file văn mẫu file thông tin (ground truth) xác định tọa độ thứ tự đọc khối văn ảnh đầu vào Đối với liệu tiếng Việt, chưa có sở liệu mẫu chuẩn công bố để phục vụ cho việc thử nghiệm, đánh giá thuật toán nhận dạng Để đánh giá hiệu thuật toán nhận dạng văn tiếng Việt, luận án thu thập xây dựng ba tập liệu sau phục vụ cho việc thử nghiệm Trang - 68-  Tập liệu Vie Official Documen, bao gồm trang văn bản, công văn, thư từ, fax tiếng Việt lưu hành Viện Công Nghệ Thông Tin  Tập liệu Vie Magazine, bao gồm tập văn thu thập từ báo, tạp chí thịnh hành Việt nam: báo Phụ Nữ, báo Thanh Niên, báo Tiền Phong, báo Cơng An Nhân Dân, báo Gia Đình Xã Hội, tạp chí Sinh Học, tạp chí Bưu Chính Viễn Thơng, tạp chí PC Word, tạp chí Sức Khỏe Đời Sống, v.v  Tập liệu VieTypical Book chứa trang văn có chất lượng khác lựa chọn ngẫu nhiên từ số loại sách, truyện, giáo trình, kỷ yếu hội thảo, v.v Thơng tin tập liệu thể cụ thể [Bảng 3.5] Bảng 3.5: Các tập liệu Tiếng Việt Tập liệu Số trang Số vùng Tổng số từ Số ký tự Vie Magazine 140 766 114358 419561 VieOfficial Document 265 722 87087 312964 Vie Typical Book 300 678 141609 525599 Tổng số: 705 2166 343054 1258124 Mỗi trang văn quét lần máy quét HP C7716A chế độ ảnh nhị phân (B & W) với ngưỡng độ phân giải 200 dpi, 300 dpi 400 dpi Mỗi file ảnh kèm với file văn mẫu file ground truth định nghĩa tọa độ khối văn cần nhận dạng theo thứ tự xác định (thông thường theo thứ tự từ xuống dưới, từ trái sang phải) Trang - 69- 3.2.2 Kết thực nghiệm Từ tập liệu mẫu thu thập được, trình thử nghiệm bao gồm cơng đoạn bản: - Bước 1: Tiến hành nhận dạng toàn file ảnh mẫu phần mềm nhận dạng (VnDOCR, FineReader, OmniPage, VietOCR) Kết nhận dạng file ảnh đầu vào lưu vào file văn (*.txt), định dạng font chữ UTF8 - Bước 2: Từ file văn nhận dạng file văn mẫu tương ứng ảnh văn đầu vào, chương trình gọi đến module số module liệt kê để đưa độ đo đánh giá mức độ xác phần mềm nhận dạng toàn tập liệu thử nghiệm Phần sau trình bày kết thực nghiệm đánh giá độ xác phần mềm nhận dạng tập liệu thử nghiệm  Độ xác mức ký tự Các kết đánh giá độ xác mức ký tự trung bình với tập liệu tiếng Anh tổng kết cụ thể Bảng 3.6: Bảng 3.6: Độ xác mức ký tự tập liệu tiếng Anh Phần mềm nhận dạng Các tập liệu thử nghiệm BUS REP DOE NEWS LEGAL ZSET VnDOCR 97.15% 94.45% 95.26% 95.46% 97.27% 94.64% FineReader 98.25% 95.7% 98.57% 96.37% Omnipage 97.86% 94.67% 95.78% 96.88% 98.2% 96.05% VietOCR 85.05% 74.2% 82.56% 75.52% 96.89% 97.08% 77.32% 77.43% Kết đánh giá độ xác mức ký tự trung bình tập liệu tiếng Việt thể cụ thể Bảng 3.7: Trang - 70- Bảng 3.7: Độ xác mức ký tự tập liệu tiếng Việt Phần mềm nhận dạng Các tập liệu thử nghiệm Vie Magazine VieOfficial Document Vie Typical Book VnDOCR 94.4% 92.48% 96.23% FineReader 95.72% 94.03% 98.16% - - - 46.05% 52.17% Omnipage VietOCR 50%  Độ xác mức từ Độ xác mức từ trung bình tồn tập liệu tiếng Anh trường hợp kể từ dừng (STW) không kể từ dừng (NSTW) thể cụ thể Bảng 3.8 Bảng 3.8: Độ xác mức từ tập liệu tiếng Anh Phần mềm BUS nhận dạng STW/ NSTW VnDOCR 96.25% 96.66% FineReade 97.48% r 97.83% Omnipage 97.37% 97.56% VietOCR 83.28% 83.55% Các tập liệu thử nghiệm REP DOES NEWS LEGAL TW/ STW/ STW/ STW/ NSTW NSTW NSTW NSTW 93.3% 93.58% 94.52% 96.22% 93.52% 93.7% 94.66% 96.38% 94.17% 95.02% 96.12% 98.03% 94.46% 95.28% 96.32% 98.21% 93.63% 94.14% 95.2% 96.42% 93.8% 94.38% 95.31% 96.6% 70.11% 70.29% 71.26% 74.12% 70.26% 70.33% 71.33% 74.32% ZSET STW/ NSTW 94.06% 94.22% 95.49% 95.58% 94.15% 94.29% 72.16% 72.27% Độ xác mức từ trung bình tập liệu tiếng Việt thể cụ thể Bảng 3.9 Bảng 3.9: Độ xác mức từ tập liệu tiếng Việt Phần mềm nhận dạng Vie Magazine (%) STW/ Các tập liệu thử nghiệm VieOfficial Document Vie Typical Book (%) (%) STW/ STW/ Trang - 71- VnDOCR FineReader Omnipage VietOCR NSTW 92.23% 92.46% 95.07% 95.28% 48.02% 48.23% NSTW 91.12% 91.28% 93.68% 93.89% 45.29% 45.48% NSTW 95.14% 95.27% 97.53% 97.67% 50.27% 50.38% 3.2 Kết luận chương Trong chương này, luận văn mô tả cụ thể quy trình bước xây dựng chương trình thử nghiệm đánh giá độ xác phần mềm/thuật tốn nhận dạng văn Trong đó, tập trung vào độ đo bản: Độ xác mức ký tự (character accuracy) độ xác mức từ (word accuracy) Trong đó, độ xác mức ký tự đánh giá trường hợp tổng quát (trên toàn lớp ký tự), lớp ký tự trường hợp có sử dụng ký tự đặc biệt, ký tự đánh dấu Độ xác mức từ đánh giá trường hợp xét toàn từ văn (kể từ dừng) trường hợp không sử dụng từ dừng Hiệu chương trình đánh giá kiểm nghiệm tập liệu tiếng Anh tiếng Việt (đủ lớn, đa dạng chất lượng) Thực nghiệm cho thấy chương trình đánh giá độ xác phần mềm thuật tốn nhận dạng mang lại cho nhà phát triển phần mềm nhận dạng chữ thơng tin đánh giá chi tiết, xác trực quan Trang - 72- KẾT LUẬN Luận văn tìm hiểu số vấn đề nhận dạng chữ viết sau:  Xây dựng công cụ đánh giá hiệu cho engine nhận dạng chữ Việt  Xây dựng sở liệu mẫu chuẩn, phục vụ cho việc nghiên cứu, đánh giá thử nghiệm thuật toán nhằm nâng cao chất lượng nhận dạng Phần thực nghiệm, luận văn tiến hành đánh giá so sánh phần mềm nhận dạng chữ Việt có FineReader, VnDOCR, Omnipage, VietOCR Tuy nhiên luận văn số vấn đề chưa giải là:  Luận văn đánh giá phần mềm nhận dạng tiêu chí mức ký tự mức từ  Từ việc đánh giá kết nhận dạng chưa cải thiện chất lượng nhận dạng cho phần mềm nhận dạng chữ Hướng phát triển luận văn xây dựng thêm công cụ đánh giá khác dựa kết đánh giá góp phần để nhà sản xuất phần mềm đánh giá chất lượng sản phẩm phần mềm từ đưa hướng phát triển nâng cấp phần mềm Trang - 73- DANH MỤC TÀI LIỆU THAM KHẢO Tài liệu tham khảo tiếng Việt [1] Nguyễn Thị Thanh Tân, (2013), “Nghiên cứu phương pháp nâng cao độ xác nhận dạng chữ in đứt, dính chữ viết tay hạn chế tiếng Việt”, Luận án tiến sĩ toán học, Viện Công nghệ Thông tin, Viện Hàn lâm Khoa học Công nghệ Việt Nam, 2013 Tài liệu tham khảo tiếng Anh [2] Aho, A V., Hirschberg, D S., & Ullman, J D (1976) Bounds on the complexity of the longest common subsequence problem Journal of the ACM, 23(1), 1-12 [3] Apostolico, A., Browne, S., & Guerra, C (1992) Fast linear-space computations of longest common subsequences Theoretical Computer Science, 92, 3-17 [4] Eppstein, D., Galil, Z., Giancarlo, R., & Italiano, G F (1992) Sparse dynamic programming I: Linear cost functions Journal of the ACM, 39(3), 519-545 [5] Fickett, J W (1984) Fast optimal alignment Nucleic Acids Research, 12(1), 175-179 [6] Hsu, W J., & Du, M W (1984) New algorithms for the LCS problem Journal of Computer and System Sciences, 29, 133-152 [7] Hirschberg, D S (1978) An information-theoretic lower bound for the longest common subsequence problem Information Processing Letters, 7(1), 40-41 [8] Hunt, J W.,& Szymanski, T G (1977) A fast algorithm for computing longest common subsequences Communications of the ACM, 20(5), 350-353 Trang - 74- [9] Masek, W J., & Paterson, M S (1980) A faster algorithm computing string edit distances Journal of Computer and System Sciences, 20(1), 18-31 [10] Mukhopadhyay, A (1980) A fast algorithm for the longestcommonsubsequence problem Information Sciences, 20, 69-82 [11] Myers, E W (1986) An O(ND) difference algorithm and its variations Algorithmica, 1, 251-266 [12] Nakatsu, N., Kambayashi, Y., & Yajima, S (1982) A longest common subsequence algorithm suitable for similar text strings Acta Informatica, 18, 171-179 [13] Ukkonen, E (1985) Algorithms for approximate string matching Information and Control, 64, 100-118 [14] Wagner, R A., & Fischer, M J (1974) The string-to-string correction problem Journal of the ACM, 21(1), 168-173 [15] Wong, C K., & Chandra, A K (1976) Bounds for the string editing problem Journal of the ACM, 23(1), 13-16 [16] Wu, S., Manber, U., Myers, G.,& Miller, W (1990) An O(NP) sequence comparison algorithm Information Processing Letters, 35(6), 317-323 [17] http://www.expervision.com/testimonial-world-leading-and-championocr/annual-test-of-ocr-accuracy-by-us-department-of-energy-doeuniversity-of-nevada-las-vegas-unlv [18] [19] [20] [21] http://vndocr.com http://www.abbyy.com/finereader http://www.nuance.com http://vietocr.sourceforge.net Thái Nguyên, ngày .tháng năm 2015 ... chương tìm hiểu hệ thống lại vấn đề ảnh hưởng tới chất lượng hệ thống nhận dạng Trang - 28- CHƯƠNG - PHƯƠNG PHÁP ĐÁNH GIÁ HIỆU QUẢ CỦA CÁC PHẦN MỀM NHẬN DẠNG CHỮ VIỆT Một hệ thống nhận dạng chữ. .. nhận dạng chữ Chương II: Phương pháp đánh giá hiệu phần mềm nhận dạng chữ Việt Chương trình bày sở lý thuyết độ đo phương pháp đánh giá chất lượng (độ xác) hệ thống nhận dạng đề xuất Trang - 11-... 2.4 Độ xác mức ký tự 2.4.1 Đánh giá độ xác mức ký tự Mục tiêu hệ thống OCR nhận dạng xác ký tự trang ảnh đầu vào Có thể nói, độ xác thước đo Trang - 41- để đánh giá hiệu hệ thống OCR Độ xác thường

Ngày đăng: 16/03/2023, 11:34

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan