Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 77 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
77
Dung lượng
3,38 MB
Nội dung
Trang - ii- ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CƠNG NGHỆ THƠNG TIN&TRUYỀN THƠNG =================== NGƠ MINH HIẾUTÌMHIỂUPHƯƠNGPHÁPĐÁNHGIÁĐỘCHÍNHXÁCCỦACÁCHỆTHỐNGNHẬNDẠNGCHỮVIỆT Chuyên ngành: Khoa học máy tính Mã số:60 48 01 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC TS NGUYỄN THỊ THANH TÂN Thái Nguyên 2015 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn Trang - - LỜI CAM ĐOAN Tôi xin cam đoan luận văn tự thân nghiên cứu hoàn thành hướng dẫn khoa học TS Nguyễn Thị Thanh Tân Nếu có vi phạm tơi xin hoàn toàn chịu trách nhiệm Thái Nguyên, ngày tháng năm 2015 Ngơ Minh Hiếu Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn Trang - - LỜI CẢM ƠN Lời xin gửi lời cảm ơn chân thành lòng biết ơn sâu sắc tới TS Nguyễn Thị Thanh Tân, người bảo hướng dẫn tận tình cho tơi đóng góp ý kiến quý báu suốt trình học tập, nghiên cứu thực luận văn Tôi xin trân trọng cảm ơn Ban giám hiệu Trường Đại học Công nghệ Thông tin Truyền thông, Đại học Thái Nguyên, khoa CNTT giúp đỡ tạo điều kiện cho chúng tơi học tập làm khóa luận cách thuận lợi Và cuối xin gửi lời cảm ơn đến gia đình, người thân bạn bè, người bên chỗ dựa giúp cho tơi vượt qua khó khăn Họ ln động viên tơi khuyến khích giúp đỡ tơi sống công việc cho tâm hoàn thành luận văn Tuy nhiên thời gian có hạn, nỗ lực cố gắng luận văn khó tránh khỏi thiếu sót Rất mong bảo, góp ý tận tình q Thầy Cơ bạn Tơi xin chân thành cảm ơn! Thái Nguyên, ngày tháng năm 2015 Ngơ Minh Hiếu Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn Trang - - MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC HÌNH VẼ BẢNG DANH MỤC CÁC TỪ VIÊT TẮT MỞ ĐẦU CHƯƠNG - TỔNG QUAN VỀ NHẬNDẠNGCHỮ 12 1.1.Qui trình chung hệnhậndạngchữ 12 1.1.1.Phân lớp mẫu 12 1.1.2.Nhận dạng văn 13 1.2.Tìm hiểu số phần mềm nhậndạngchữ 16 1.2.1.VnDOCR 16 1.2.2.FineReader 18 1.2.3.OmniPage 20 1.2.4 VietOCR 20 1.3 Những vấn đề ảnh hưởng tới chất lượng phần mềm nhậndạng 22 1.3.1.Chữ bị dính, nhòe 23 1.3.2.Văn bị đứt nét 24 1.3.3.Văn bị nhiễu 25 1.3.4.Văn in với kiểu font chữ đặc biệt 26 1.3.5.Cỡ chữ lớn nhỏ 26 1.4.Kết luận 27 CHƯƠNG - PHƯƠNGPHÁPĐÁNHGIÁHIỆU QUẢ CỦACÁC THUẬT TOÁN NHẬNDẠNGCHỮVIỆT 28 2.1 Một số khái niệm 28 2.2 Bài toán hiệuchỉnh chuỗi ký tự (string editing) 29 2.3 Thuật toán Ukkonen 34 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn Trang - - 2.4 Đánhgiáđộxác mức ký tự 40 2.5 Đánhgiáđộxác mức ký tự theo lớp mẫu 44 2.6 Hiệu ký tự đánh dấu 44 2.7 Độxác mức từ 46 CHƯƠNG :THỰC NGHIỆM VÀ ĐÁNHGIÁ KẾT QUẢ 51 3.1.Phân tích, cài đặt chương trình 51 3.1.1.Quy trình thực 51 3.1.2.Các cấu trúc liệu 52 3.1.3.Danh sách từ dừng tiếng Việt 54 3.1.4 Danh sách ký tự đặc biệt 55 3.1.5.Module đánhgiáđộxác mức ký tự 56 3.1.6.Module đánhgiáđộxác mức từ 58 3.2.Đánh giá thực nghiệm 65 3.2.1Dữ liệu thực nghiệm 65 3.2.2 Kết thực nghiệm 68 3.3.Kết luận chương 70 KẾT LUẬN 71 DANH MỤC TÀI LIỆU THAM KHẢO 72 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn Trang - - HÌNH VẼ Hình 1.1: Qui trình chung hệthốngnhậndạngchữ 15 Hình 1.2 Màn hình làm việc VnDOCR 17 Hình 1.3 Màn hình kết phân tích nhậndạng ảnh hình 1.7 18 Hình 1.4 Màn hình làm việc OmniPage 20 Hình 1.5 Màn hình làm việc VietOCR 21 Hình 1.6 Trường hợp văn in đậm 23 Hình 1.7: Một số hình ảnh bị biến dạng ký tự 23 Hình 1.8 Hình ảnh ký tự tiếng Việt bị nhập nhằng phần dấu 24 Hình 1.9 Trường hợp văn bị đứt nét 24 Hình 1.10 Hình ảnh ký tự bị biến dạng lỗi đứt nét 24 Hình 1.11 Một số dạng nhiễu thường gặp văn 25 Hình 1.12 Văn bị nhiễu đánh dấu 25 Hình 1.13 Văn bị nhiễu bị chồng chữ ký/con dấu 26 Hình 1.14 Văn in với kiểu font chữ đặc biệt 26 Hình 2.1: Đồ thị G(A,B), với A = zxy B = xyxz 32 Hình 2.2: Các đường đồ thị G(A, B) 33 Hình 2.3: Sự tương ứng chuỗi văn nhậndạng văn mẫu 42 Hình 2.4: Độxác mức từ 48 Hình 3.1 Quy trình thực chương trình 52 Hình 3.2: Kết đánhgiáđộxác mức ký tự văn tiếng Anh 61 Hình 3.3: Đánhgiáđộxác mức từ file văn tiếng Anh 65 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn Trang - - BẢNG Bảng 2.1: Giải thuật cho toán chỉnh sửa chuỗi 33 Bảng 2.2: Độxác mức ký tự 43 Bảng 3.1 Bảng danh sách từ dùng tiếng Việt 55 Bảng 3.2 Thông tin thao tác hiệuchỉnh 57 Bảng 3.3 Thông tin đánhgiáđộxác mức ký tự 57 Bảng 3.4: Các tập liệu tiếng Anh 66 Bảng 3.5: Các tập liệu Tiếng Việt 67 Bảng 3.6: Độxác mức ký tự tập liệu tiếng Anh 68 Bảng 3.7: Độxác mức ký tự tập liệu tiếng Việt 69 Bảng 3.8: Độxác mức từ trêntập liệu tiếng Anh 69 Bảng 3.9: Độxác mức từ tập liệu tiếng Việt 69 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn Trang - - DANH MỤC CÁC TỪ VIÊT TẮT STT Từ viết tắt Ý nghĩa Nội dung NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên LCS Longest common subsequence Dãy chung dài OCR Optical Character Nhậndạng ký tự Recognition quang học Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn Trang - - MỞ ĐẦU Tính cấp thiết luận văn Nhận dạngmẫu ngành khoa học mà vai trò phân lớp đối tượng thành số loại số lớp riêng biệt.Tuỳ thuộc vào lĩnh vực ứng dụng, đối tượng dạng ảnh, dạng tín hiệu sóng kiểu liệu mà cần phải phân lớp Những đối tượng gọi thuật ngữ chung “mẫu” (pattern) Nhậndạng mẫu biết đến từ lâu, trước năm 1960 kết nghiên cứu mặt lý thuyết lĩnh vực thống kê Tuy nhiên, với phát triển không ngừng khoa học kỹ thuật phần cứng phần mềm, yêu cầu mặt ứng dụng thực tế lĩnh vực nhậndạng mẫu ngày tăng lên nhậndạng mẫu sử dụng nhiều lĩnh vực y học, tự động hố số qui trình sản xuất công nghiệp, dự báo thời tiết, dự báo cháy rừng,v.v Ngồi nhậndạng mẫu thành phần quan trọng hầu hết hệthống máy tính thơng minh xây dựng để thực việc định Cùng với phát triển nhậndạng mẫu, nhậndạngchữ ngày trở thành ứng dụng thiếu đời sống xã hội người.Nhận dạngchữ trình chuyển đổi từ dạng hình ảnh hay nhiều trang ảnh chứa thông tin văn bảnthành tệp văn thực soạn thảo máy tính Ngồi ứng dụng số hóa trang văn bản, tài liệu, nhậndạngchữ ứng dụng rộng rãi hoạt động giao dịch hàng ngày qui trình tự động hóa cơng việc văn phòng, chẳng hạn nhập liệu tự động phiếu chấm thi trắc nghiệm, phiếu điều tra, nhậndạng dòng địa phong bì thư, nhậndạngnhãn sản phẩm, nhậndạngthông tin cá nhân chứng minh nhân, hộ chiếu, card visit,v.v Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn Trên giới, toán nhậndạngchữ đầu tư nghiên cứu từ năm 50 kỷ trước Những sản phẩm nhậndạngchữ thương mại hóa rộng rãi thị trường, điển ABBYY FineReader 11 (có khả nhậndạng 189 ngơn ngữ khác nhau, kể tiếng Việt).Bên cạnh đó, có dòng sản phẩm tích hợp với phần cứng máy tính OmniPage, Omniform, Scanshell, v.v Với lợi có cộng đồng nghiên cứu rộng lớn, từ năm 1996, Viện nghiên cứu khoa học thông tin (The Information Science Research Institute – ISRI), thuộc trường Đại học Nevada, Las Vegas kết hợp với nhóm nghiên cứu Mỹ Anh để xây dựng một công cụ đánhgiáhiệu engine nhậndạng (OCRtk) sở liệu văn mẫu lớn (gồm 2229 trang văn bản), đa dạng chủng loại (sách , báo, tạp chí, fax, thư tín, báo cáo tài doanh nghiệp, tài liệu khoa học kỹ thuật, văn luật, v.v.) chất lượng Mỗi trang văn quét với với ngưỡng độ phân giải 200, 300 400 dpi với mức độ đậm, nhạt khác Ngoài ra, để đánhgiáhiệu thuật tốn nhậndạngchữviết tay có liệu chuẩn nhậndạngchữviết tay có liệu chuẩn MNIST, USPS, v.v Cùng với xu phát triển giới, toán nhậndạngchữViệt thu kết ứng dụng đáng kể, với sản phẩm thương mại hóa điển sản phẩm VnDOCR (đã ứng dụng hầu hết quan, đơn vị toàn quốc), sản phẩm FineReader 11 (đã ứng dụng để số hóa tài liệu dự án phủ điện tử) Tuy nhiên, thực đầu tư nghiên cứu khoảng chục năm trở lại nên sản phẩm nhậndạngchữViệt chưa thể đáp ứng hết yêu cầu người sử dụng, chẳng hạn độxácnhậndạng khơng cao chữviết tay văn đầu vào chất lượng, làm việc với ảnh đa cấp xám ảnh nhị phân có đồng nhất, [1] Vì lý nêu trên, việc đầu tư nghiên 97 100.00 { } 100.00 {(} 100.00 {)} 60.00 {,} 100.00 {-} 100.00 {.} 50.00 {/} 100.00 {0} 50.00 {2} 100.00 {7} 1 0.00 {8} 100.00 {A} 100.00 {C} 100.00 {D} 100.00 {F} 100.00 {H} 1 0.00 {I} 100.00 {L} 100.00 {M} 100.00 {O} 100.00 {P} 100.00 {S} 30 100.00 {T} 100.00 {V} 100.00 {W} 100.00 {[} 1 0.00 {]} 56 98.21 {a} 100.00 {b} 26 100.00 {c} 27 100.00 {d} 88 94.32 {e} 14 71.43 {f} 16 93.75 {g} 20 100.00 {h} 37 100.00 {i} 21 90.48 {l} 13 100.00 {m} 44 100.00 {n} 28 100.00 {o} 100.00 {p} 100.00 {q} 45 95.56 {r} 312 93.55 {s} 51 96.08 {t} 20 100.00 {u} 100.00 {v} 10 80.00 {w} 100.00 {x} 85.71 {y} 100.00 {z} Hình 3.2: Kết đánhgiáđộxác mức ký tự văn 3.1.6 Module đánhgiáđộxác mức từ Độxác mức từ tính tốn module WordAccuracy Module tiến hành đối sánh nội dung văn mẫu với văn sinh phần mềm nhậndạng để tính tốn đưa thông tin đánh giá, cụ thể sau: Tổng số từ (Words) Tổng số từ không nhậndạng (Misrecognized) Độxác (Accuracy) Đánhgiáđộxác trường hợp tính từ dừng: Cácthông số đánhgiáthống kê theo độ dài từ, bao gồm số từ (Count), số từ không nhậndạng (Missed), tỷ lệ nhậndạng (%Right), độ dài từ (length), cụ thể sau: Count Missed %Right Length N11 N2 N3 1 N 12 N2 N3 2 … … … … … … … … … … … … n … … … Total Đánhgiáđộxác trường hợp khơng kể từ dừng (Non- stopwords): Cácthông số đánhgiá tương tự Đánhgiáđộxác đoạn văn bản: Cácthông số đánhgiá tương tự Ngoài ra, để hỗ trợ nhà phát triển phần mềm có thơng tin đánhgiáxác trực quan hơn, đưa thông số đánhgiá chi tiết cho từ xuất văn Xét tiếp với ví dụ trên: 43928 Words 2211 Misrecognized 94.97% Accuracy Stopwords Count Missed %Right Length 810 46 94.32 6069 128 97.89 6065 92 98.48 2438 61 97.50 949 27 97.15 204 10 95.10 232 97.84 10 100.00 16768 369 97.80 Total Non-stopwords Count Missed %Right Length 2275 250 89.01 1050 249 76.29 1425 169 88.14 3025 160 94.71 3705 186 94.98 3327 172 94.83 3216 139 95.68 3132166 94.70 2345 125 94.67 1560 96 93.85 10 1032 57 94.48 11 599 38 93.66 12 260 17 93.46 13 118 95.76 14 58 11 81.03 15 23 91.30 16 100.00 17 100.00 18 0100.00 19 27160 1842 93.22 Total Distinct Nonstopwords Count Missed %Right Occurs 11889 808 93.201 2437 54 97.782 868 15 98.27 431 98.38 241 99.59 155 97.42 107 496.26 69 98.55 621 98.39 35 100.00 10 112 99.11 >10 16406 896 94.54 Total Phrases Count Missed %Right Length 43928 2211 94.97 43753 3927 91.022 43578 5446 87.50 43403 6812 84.31 43228 8082 81.30 43053 9249 78.52 42878 10334 75.90 42704 11351 73.42 Stopwords Count Missed %Right 723 32 95.57 a 69 98.55 about 32 96.88 after 88.89 again 10 100.00 against Non-stopwords Count Missed %Right 2 0.00 ab 100.00 abbreviations 100.00 abernethy 100.00 ability 100.00 able Hình 3.4: Đánhgiáđộxác mức từ file văn tiếng Việt 3.2.Đánh giá thực nghiệm 3.2.1 Dữ liệu thực nghiệm Chương trình thử nghiệm liệu tiếng Anh tiếng Việt Trong liệu tiếng Anh liệu chuẩn, cung cấp viện nghiên cứu khoa học thông tin ISRI (Information Science Research Institute) Hoa Kỳ Bộ liệunày bao gồm tổng 7844 trang ảnh văn bản, chia thành tập liệu, cụ thể sau: Tập liệu Business Letter (BUS): Chứa tập trang văn dạng thư tín tổ chức, cá nhân doanh nghiệp tặng cho ISRI Tập liệu Corporate Annual Report (REP): Bao gồm trang văn lựa chọn từ báo cáo thường niên doanh nghiệp tổ chức tài Tập liệu DOE (Department of Energy): Là tập liệu mẫu lớn số tập liệu thử nghiệm, lựa chọn cách ngẫu nhiên từ tập văn khoa học kỹ thuật Tập liệu English Newspaper Sample (NEWS): Chứa trang báo lựa chọn cách ngẫu nhiên từ 50 tạp chí thịnh hành Tập liệu Legal Document (LEGAL): Chứa trang lựa chọn từ tập văn luật, thu thập từ văn phòng luật tòa án địa phương Tập liệu Magazine (ZSET): Bao gồm trang báo lựa chọn cách ngẫu nhiên từ 100 tạp chí có số lượng phát hành lớn Thơng tin chi tiết tập liệu thể Bảng 3.4: Các tập liệu tiếng Anh Tập liệu Số trang Số khối Tổng số Số ký tự từ Business Letter (BUS) Corporate Annual Report 800 5676 205840 1279024 1200 6826 12488028 3569064 1844 9120 854208 5854048 800 3124 336104 2460400 1200 3388 58699 1488392 800 9328 826592 4976684 7844 37462 14769471 19627612 (REP) DOE (Department of Energy) English Newspaper Sample (NEWS) Legal Document (LEGAL) Magazine (ZSET) Tổng số: Mỗi trang văn số hóa lần máy quét Fujitsu M3096G đế sinh ảnh nhị phân ảnh 8-bit grey scale Các ảnh nhị phân tạo với độ phân giải 200, 300 400dpi (dots per inch) Ảnh gray scale quét độ phân giải 300dpi Mỗi file ảnh kèm với file văn mẫu file thông tin (ground truth) xác định tọa độ thứ tự đọc khối văn ảnh đầu vào Đối với liệu tiếng Việt, chưa có sở liệu mẫu chuẩn công bố để phục vụ cho việc thử nghiệm, đánhgiá thuật toán nhậndạng Để đánhgiáhiệu thuật toán nhậndạng văn tiếng Việt, luận án thu thập xây dựng ba tập liệu sau phục vụ cho việc thử nghiệm Tập liệu Vie Official Documen, bao gồm trang văn bản, công văn, thư từ, fax tiếng Việt lưu hành Viện Công Nghệ Thông Tin Tập liệu Vie Magazine, bao gồm tập văn thu thập từ báo, tạp chí thịnh hành Việt nam: báo Phụ Nữ, báo Thanh Niên, báo Tiền Phong, báo Công An Nhân Dân, báo Gia Đình Xã Hội, tạp chí Sinh Học, tạp chí Bưu Chính Viễn Thơng, tạp chí PC Word, tạp chí Sức Khỏe Đời Sống, v.v Tập liệu VieTypical Book chứa trang văn có chất lượng khác lựa chọn ngẫu nhiên từ số loại sách, truyện, giáo trình, kỷ yếu hội thảo, v.v Thơng tin tập liệu thể cụ thể [Bảng 3.5] Bảng 3.5: Các tập liệu Tiếng Việt Tập liệu Số trang Số vùng Tổng số từ Số ký tự Vie Magazine 140 766 114358 419561 VieOfficial Document 265 722 87087 312964 Vie Typical Book 300 678 141609 525599 Tổng số: 705 2166 343054 1258124 Mỗi trang văn quét lần máy quét HP C7716A chế độ ảnh nhị phân (B & W) với ngưỡng độ phân giải 200 dpi, 300 dpi 400 dpi Mỗi file ảnh kèm với file văn mẫu file ground truth định nghĩa tọa độ khối văn cần nhậndạng theo thứ tự xác định (thông thường theo thứ tự từ xuống dưới, từ trái sang phải) 3.2.2.Kết thực nghiệm Từ tập liệu mẫu thu thập được, trình thử nghiệm bao gồm công đoạn bản: - Bước 1: Tiến hành nhậndạng toàn file ảnh mẫu phần mềm nhậndạng (VnDOCR, FineReader, OmniPage, VietOCR) Kết nhậndạng file ảnh đầu vào lưu vào file văn (*.txt), định dạng font chữ UTF8 - Bước 2: Từ file văn nhậndạng file văn mẫu tương ứng ảnh văn đầu vào, chương trình gọi đến module số module liệt kê để đưa độđođánhgiá mức độxác phần mềm nhậndạng toàn tập liệu thử nghiệm Phần sau trình bày kết thực nghiệm đánhgiáđộxác phần mềm nhậndạng tập liệu thử nghiệm Độxác mức ký tự Các kết đánhgiáđộxác mức ký tự trung bình với tập liệu tiếng Anh tổng kết cụ thể Bảng 3.6: Bảng 3.6: Độxác mức ký tự tập liệu tiếng Anh Phần mềm nhậndạngCác tập liệu thử nghiệm BUS REP DOE NEWS LEGAL ZSET VnDOCR 97.15% 94.45% 95.26% 95.46% 97.27% 94.64% FineReader 98.25% 95.7% 96.89% 97.08% 98.57% 96.37% Omnipage 97.86% 94.67% 95.78% 96.88% 98.2% 96.05% VietOCR 85.05% 74.2% 77.32% 77.43% 82.56% 75.52% Kết đánhgiáđộxác mức ký tự trung bình tập liệu tiếng Việt thể cụ thể trênBảng 3.7: Bảng 3.7: Độxác mức ký tự tập liệu tiếng ViệtCác tập liệu thử nghiệm Phần mềm nhậndạng Vie Magazine VieOfcial Document Vie Typical Book VnDOCR 94.4% 92.48% 96.23% FineReader 95.72% 94.03% 98.16% Omnipage - - - VietOCR 50% 46.05% 52.17% Độxác mức từ Độxác mức từ trung bình tồn tập liệu tiếng Anh trường hợp kể từ dừng (STW) không kể từ dừng (NSTW)được thể cụ thể Bảng 3.8 Bảng 3.8: Độxác mức từ trêntập liệu tiếng Anh Các tập liệu thử nghiệm BUS REP DOES TW/ NSTW NEWSST W/ NSTW LEGALST W/ NSTW ZSET STW/ STW/ STW/ NSTW NSTW VnDOCR 96.25% 96.66% 93.3% 93.52% 93.58% 93.7% 94.52% 94.66% 96.22% 96.38% 94.06% 94.22% FineReade r 97.48% 97.83% 94.17% 94.46% 95.02% 95.28% 96.12% 96.32% 98.03% 98.21% 95.49% 95.58% Omnipage 97.37% 97.56% 93.63% 93.8% 94.14% 94.38% 95.2% 95.31% 96.42% 96.6% 94.15% 94.29% VietOCR 83.28% 83.55% 70.11% 70.26% 70.29% 70.33% 71.26% 71.33% 74.12% 74.32% 72.16% 72.27% Phần mềm nhậndạng NSTW Độxác mức từtrung bình tập liệu tiếng Việt thể cụ thể trênBảng 3.9 Bảng 3.9: Độxác mức từ tập liệu tiếng Việt Phần mềm nhậndạng Vie Magazine (%) STW/ Các tập liệu thử nghiệm VieOfcial Document (%) STW/ Vie Typical Book (%) STW/ VnDOCR FineReader Omnipage VietOCR NSTW 92.23% 92.46% 95.07% 95.28% 48.02% 48.23% NSTW NSTW 91.12% 91.28% 93.68% 93.89% 45.29% 45.48% 95.14% 95.27% 97.53% 97.67% 50.27% 50.38% 3.2 Kết luận chương Trong chương này, luận văn mô tả cụ thể quy trình bước xây dựng chương trình thử nghiệm đánhgiáđộxác phần mềm/thuật tốn nhậndạng văn bản.Trong đó, tập trung vào2 độđo bản: Độxác mức ký tự (character accuracy) độxác mức từ (word accuracy) Trong đó, độxác mức ký tự đánhgiá trường hợp tổng quát (trên toàn lớp ký tự), lớp ký tự trường hợp có sử dụng ký tự đặc biệt, ký tự đánh dấu.Độ xác mức từ đánhgiá trường hợp xét toàn từ văn (kể từ dừng) trường hợp không sử dụng từ dừng Hiệu chương trình đánhgiá kiểm nghiệm tập liệu tiếng Anh tiếng Việt (đủ lớn,đa dạng chất lượng).Thực nghiệm cho thấy chương trình đánhgiáđộxác phần mềm thuật tốn nhậndạng mang lại cho nhà phát triển phần mềm nhậndạngchữthông tin đánhgiá chi tiết, xác trực quan KẾT LUẬN Luận văn tìmhiểu số vấn đề nhậndạngchữviết sau: Xây dựng công cụ đánhgiáhiệu cho engine nhậndạngchữViệt Xâydựng sở liệu mẫu chuẩn, phục vụ cho việc nghiên cứu, đánhgiá thử nghiệm thuật toán nhằm nâng cao chất lượng nhậndạng Phần thực nghiệm, luận văn tiến hành đánhgiá so sánh phần mềm nhậndạngchữViệt có FineReader,VnDOCR, Omnipage, VietOCR Tuy nhiên luận văn số vấn đề chưa giải là: Luận văn đánhgiá phần mềm nhậndạng tiêu chí mức ký tự mức từ Từ việc đánhgiá kết nhậndạng chưa cải thiện chất lượng nhậndạng cho phần mềm nhậndạngchữ Hướng phát triển luận văn xây dựng thêm công cụ đánhgiá khácvà dựa kết đánhgiá góp phần để nhà sản xuất phần mềm đánhgiá chất lượng sản phẩm phần mềm từ đưa hướng phát triển nâng cấp phần mềm DANH MỤC TÀI LIỆU THAM KHẢO Tài liệu tham khảo tiếng Việt [1] Nguyễn Thị Thanh Tân, (2013), “Nghiên cứu phươngpháp nâng cao độxácnhậndạngchữ in đứt, dính chữviết tay hạn chế tiếng Việt”, Luận án tiến sĩ tốn học, Viện Cơng nghệ Thơng tin, Viện Hàn lâm Khoa học Công nghệ Việt Nam, 2013 Tài liệu tham khảo tiếng Anh [2] Aho, A V., Hirschberg, D S., & Ullman, J D (1976) Bounds on the complexity of the longest common subsequence problem Journal of the ACM, 23(1), 1-12 [3] Apostolico, A., Browne, S., & Guerra, C (1992) Fast linear-space computationsof longest common subsequences Theoretical ComputerScience, 92, 3-17 [4] Eppstein, D., Galil, Z., Giancarlo, R., & Italiano, G F (1992) Sparse dynamic programming I: Linear cost functions Journal of the ACM,39(3), 519-545 [5] Fickett, J W (1984) Fast optimal alignment Nucleic Acids Research,12(1), 175-179 [6] Hsu, W J., & Du, M W (1984) New algorithms for the LCS problem.Journal of Computer and System Sciences, 29, 133-152 [7] Hirschberg, D S (1978) An information-theoretic lower bound for the longest common subsequence problem Information Processing Letters, 7(1), 40-41 [8] Hunt, J W.,& Szymanski, T G (1977) A fast algorithm for computing longest common subsequences Communications of the ACM, 20(5), 350353 [9] Masek, W J., & Paterson, M S (1980) A faster algorithm computing string edit distances Journal of Computer and System Sciences, 20(1), 1831 [10] Mukhopadhyay, A (1980) A fast algorithm for the longestcommonsubsequence problem Information Sciences, 20, 69-82 [11] Myers, E W (1986) An O(ND) difference algorithm and its variations Algorithmica, 1, 251-266 [12] Nakatsu, N., Kambayashi, commonsubsequence Y., algorithm & Yajima, suitable for S (1982) similar text A longest strings Acta Informatica,18, 171-179 [13] Ukkonen, E (1985) Algorithms for approximate string matching Informationand Control, 64, 100-118 [14] Wagner, R A., & Fischer, M J (1974) The string-to-string correctionproblem Journal of the ACM, 21(1), 168-173 [15] Wong, C K., & Chandra, A K (1976) Bounds for the string editing problem Journal of the ACM, 23(1), 13-16 [16] Wu, S., Manber, U., Myers, G.,& Miller, W (1990) An O(NP) sequence comparison algorithm Information Processing Letters, 35(6), 317-323 [17] http://www.expervis ion.com/testimonial-world-leading-and-championocr/annual-test-of-ocr-accuracy-by-us-department-of-energy-doe- university-ofnevada-las-vegas-unlv [18] http://vndocr.com [19] http://www.abbyy.com/finereader [20] http://www.nuance.com [21] http://vietocr.sourceforge.net Thái Nguyên, ngày .tháng năm 2015 ... chương tìm hiểu hệ thống lại vấn đề ảnh hưởng tới chất lượng hệ thống nhận dạng CHƯƠNG - PHƯƠNG PHÁP ĐÁNH GIÁ HIỆU QUẢ CỦA CÁC PHẦN MỀM NHẬN DẠNG CHỮ VIỆT Một hệ thống nhận dạng chữ định nghĩa cách... nhận dạng chữ Chương II: Phương pháp đánh giá hiệu phần mềm nhận dạng chữ Việt Chương trình bày sở lý thuyết độ đo phương pháp ánh giá chất lượng (độ xác) hệ thống nhận dạng đề xuất sở toán đối... toán nhận dạng yếu tố ảnh hưởng đến chất lượng hệ thống nhận dạng 1.1 Qui trình chung hệ nhận dạng chữ Qui trình chung hệ thống nhận dạng chữ thường gồm hai giai đoạn là: Phân lớp mẫu nhận dạng