Tìm hiểu phương pháp đánh giá độ chính xác của các hệ thống nhận dạng chữ việt

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	77
Dung lượng	3,38 MB

Nội dung

Trang - ii- ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CƠNG NGHỆ THƠNG TIN&TRUYỀN THƠNG =================== NGƠ MINH HIẾU TÌM HIỂU PHƯƠNG PHÁP ĐÁNH GIÁ ĐỘ CHÍNH XÁC CỦA CÁC HỆ THỐNG NHẬN DẠNG CHỮ VIỆT Chuyên ngành: Khoa học máy tính Mã số:60 48 01 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC TS NGUYỄN THỊ THANH TÂN Thái Nguyên 2015 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn Trang - - LỜI CAM ĐOAN Tôi xin cam đoan luận văn tự thân nghiên cứu hoàn thành hướng dẫn khoa học TS Nguyễn Thị Thanh Tân Nếu có vi phạm tơi xin hoàn toàn chịu trách nhiệm Thái Nguyên, ngày tháng năm 2015 Ngơ Minh Hiếu Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn Trang - - LỜI CẢM ƠN Lời xin gửi lời cảm ơn chân thành lòng biết ơn sâu sắc tới TS Nguyễn Thị Thanh Tân, người bảo hướng dẫn tận tình cho tơi đóng góp ý kiến quý báu suốt trình học tập, nghiên cứu thực luận văn Tôi xin trân trọng cảm ơn Ban giám hiệu Trường Đại học Công nghệ Thông tin Truyền thông, Đại học Thái Nguyên, khoa CNTT giúp đỡ tạo điều kiện cho chúng tơi học tập làm khóa luận cách thuận lợi Và cuối xin gửi lời cảm ơn đến gia đình, người thân bạn bè, người bên chỗ dựa giúp cho tơi vượt qua khó khăn Họ ln động viên tơi khuyến khích giúp đỡ tơi sống công việc cho tâm hoàn thành luận văn Tuy nhiên thời gian có hạn, nỗ lực cố gắng luận văn khó tránh khỏi thiếu sót Rất mong bảo, góp ý tận tình q Thầy Cơ bạn Tơi xin chân thành cảm ơn! Thái Nguyên, ngày tháng năm 2015 Ngơ Minh Hiếu Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn Trang - - MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC HÌNH VẼ BẢNG DANH MỤC CÁC TỪ VIÊT TẮT MỞ ĐẦU CHƯƠNG - TỔNG QUAN VỀ NHẬN DẠNG CHỮ 12 1.1.Qui trình chung hệ nhận dạng chữ 12 1.1.1.Phân lớp mẫu 12 1.1.2.Nhận dạng văn 13 1.2.Tìm hiểu số phần mềm nhận dạng chữ 16 1.2.1.VnDOCR 16 1.2.2.FineReader 18 1.2.3.OmniPage 20 1.2.4 VietOCR 20 1.3 Những vấn đề ảnh hưởng tới chất lượng phần mềm nhận dạng 22 1.3.1.Chữ bị dính, nhòe 23 1.3.2.Văn bị đứt nét 24 1.3.3.Văn bị nhiễu 25 1.3.4.Văn in với kiểu font chữ đặc biệt 26 1.3.5.Cỡ chữ lớn nhỏ 26 1.4.Kết luận 27 CHƯƠNG - PHƯƠNG PHÁP ĐÁNH GIÁ HIỆU QUẢ CỦA CÁC THUẬT TOÁN NHẬN DẠNG CHỮ VIỆT 28 2.1 Một số khái niệm 28 2.2 Bài toán hiệu chỉnh chuỗi ký tự (string editing) 29 2.3 Thuật toán Ukkonen 34 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn Trang - - 2.4 Đánh giá độ xác mức ký tự 40 2.5 Đánh giá độ xác mức ký tự theo lớp mẫu 44 2.6 Hiệu ký tự đánh dấu 44 2.7 Độ xác mức từ 46 CHƯƠNG :THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 51 3.1.Phân tích, cài đặt chương trình 51 3.1.1.Quy trình thực 51 3.1.2.Các cấu trúc liệu 52 3.1.3.Danh sách từ dừng tiếng Việt 54 3.1.4 Danh sách ký tự đặc biệt 55 3.1.5.Module đánh giá độ xác mức ký tự 56 3.1.6.Module đánh giá độ xác mức từ 58 3.2.Đánh giá thực nghiệm 65 3.2.1Dữ liệu thực nghiệm 65 3.2.2 Kết thực nghiệm 68 3.3.Kết luận chương 70 KẾT LUẬN 71 DANH MỤC TÀI LIỆU THAM KHẢO 72 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn Trang - - HÌNH VẼ Hình 1.1: Qui trình chung hệ thống nhận dạng chữ 15 Hình 1.2 Màn hình làm việc VnDOCR 17 Hình 1.3 Màn hình kết phân tích nhận dạng ảnh hình 1.7 18 Hình 1.4 Màn hình làm việc OmniPage 20 Hình 1.5 Màn hình làm việc VietOCR 21 Hình 1.6 Trường hợp văn in đậm 23 Hình 1.7: Một số hình ảnh bị biến dạng ký tự 23 Hình 1.8 Hình ảnh ký tự tiếng Việt bị nhập nhằng phần dấu 24 Hình 1.9 Trường hợp văn bị đứt nét 24 Hình 1.10 Hình ảnh ký tự bị biến dạng lỗi đứt nét 24 Hình 1.11 Một số dạng nhiễu thường gặp văn 25 Hình 1.12 Văn bị nhiễu đánh dấu 25 Hình 1.13 Văn bị nhiễu bị chồng chữ ký/con dấu 26 Hình 1.14 Văn in với kiểu font chữ đặc biệt 26 Hình 2.1: Đồ thị G(A,B), với A = zxy B = xyxz 32 Hình 2.2: Các đường đồ thị G(A, B) 33 Hình 2.3: Sự tương ứng chuỗi văn nhận dạng văn mẫu 42 Hình 2.4: Độ xác mức từ 48 Hình 3.1 Quy trình thực chương trình 52 Hình 3.2: Kết đánh giá độ xác mức ký tự văn tiếng Anh 61 Hình 3.3: Đánh giá độ xác mức từ file văn tiếng Anh 65 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn Trang - - BẢNG Bảng 2.1: Giải thuật cho toán chỉnh sửa chuỗi 33 Bảng 2.2: Độ xác mức ký tự 43 Bảng 3.1 Bảng danh sách từ dùng tiếng Việt 55 Bảng 3.2 Thông tin thao tác hiệu chỉnh 57 Bảng 3.3 Thông tin đánh giá độ xác mức ký tự 57 Bảng 3.4: Các tập liệu tiếng Anh 66 Bảng 3.5: Các tập liệu Tiếng Việt 67 Bảng 3.6: Độ xác mức ký tự tập liệu tiếng Anh 68 Bảng 3.7: Độ xác mức ký tự tập liệu tiếng Việt 69 Bảng 3.8: Độ xác mức từ trêntập liệu tiếng Anh 69 Bảng 3.9: Độ xác mức từ tập liệu tiếng Việt 69 Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn Trang - - DANH MỤC CÁC TỪ VIÊT TẮT STT Từ viết tắt Ý nghĩa Nội dung NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên LCS Longest common subsequence Dãy chung dài OCR Optical Character Nhận dạng ký tự Recognition quang học Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn Trang - - MỞ ĐẦU Tính cấp thiết luận văn Nhận dạngmẫu ngành khoa học mà vai trò phân lớp đối tượng thành số loại số lớp riêng biệt.Tuỳ thuộc vào lĩnh vực ứng dụng, đối tượng dạng ảnh, dạng tín hiệu sóng kiểu liệu mà cần phải phân lớp Những đối tượng gọi thuật ngữ chung “mẫu” (pattern) Nhận dạng mẫu biết đến từ lâu, trước năm 1960 kết nghiên cứu mặt lý thuyết lĩnh vực thống kê Tuy nhiên, với phát triển không ngừng khoa học kỹ thuật phần cứng phần mềm, yêu cầu mặt ứng dụng thực tế lĩnh vực nhận dạng mẫu ngày tăng lên nhận dạng mẫu sử dụng nhiều lĩnh vực y học, tự động hố số qui trình sản xuất công nghiệp, dự báo thời tiết, dự báo cháy rừng,v.v Ngồi nhận dạng mẫu thành phần quan trọng hầu hết hệ thống máy tính thơng minh xây dựng để thực việc định Cùng với phát triển nhận dạng mẫu, nhận dạng chữ ngày trở thành ứng dụng thiếu đời sống xã hội người.Nhận dạng chữ trình chuyển đổi từ dạng hình ảnh hay nhiều trang ảnh chứa thông tin văn bảnthành tệp văn thực soạn thảo máy tính Ngồi ứng dụng số hóa trang văn bản, tài liệu, nhận dạng chữ ứng dụng rộng rãi hoạt động giao dịch hàng ngày qui trình tự động hóa cơng việc văn phòng, chẳng hạn nhập liệu tự động phiếu chấm thi trắc nghiệm, phiếu điều tra, nhận dạng dòng địa phong bì thư, nhận dạng nhãn sản phẩm, nhận dạng thông tin cá nhân chứng minh nhân, hộ chiếu, card visit,v.v Số hóa Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn Trên giới, toán nhận dạng chữ đầu tư nghiên cứu từ năm 50 kỷ trước Những sản phẩm nhận dạng chữ thương mại hóa rộng rãi thị trường, điển ABBYY FineReader 11 (có khả nhận dạng 189 ngơn ngữ khác nhau, kể tiếng Việt).Bên cạnh đó, có dòng sản phẩm tích hợp với phần cứng máy tính OmniPage, Omniform, Scanshell, v.v Với lợi có cộng đồng nghiên cứu rộng lớn, từ năm 1996, Viện nghiên cứu khoa học thông tin (The Information Science Research Institute – ISRI), thuộc trường Đại học Nevada, Las Vegas kết hợp với nhóm nghiên cứu Mỹ Anh để xây dựng một công cụ đánh giá hiệu engine nhận dạng (OCRtk) sở liệu văn mẫu lớn (gồm 2229 trang văn bản), đa dạng chủng loại (sách , báo, tạp chí, fax, thư tín, báo cáo tài doanh nghiệp, tài liệu khoa học kỹ thuật, văn luật, v.v.) chất lượng Mỗi trang văn quét với với ngưỡng độ phân giải 200, 300 400 dpi với mức độ đậm, nhạt khác Ngoài ra, để đánh giá hiệu thuật tốn nhận dạng chữ viết tay có liệu chuẩn nhận dạng chữ viết tay có liệu chuẩn MNIST, USPS, v.v Cùng với xu phát triển giới, toán nhận dạng chữ Việt thu kết ứng dụng đáng kể, với sản phẩm thương mại hóa điển sản phẩm VnDOCR (đã ứng dụng hầu hết quan, đơn vị toàn quốc), sản phẩm FineReader 11 (đã ứng dụng để số hóa tài liệu dự án phủ điện tử) Tuy nhiên, thực đầu tư nghiên cứu khoảng chục năm trở lại nên sản phẩm nhận dạng chữ Việt chưa thể đáp ứng hết yêu cầu người sử dụng, chẳng hạn độ xác nhận dạng khơng cao chữ viết tay văn đầu vào chất lượng, làm việc với ảnh đa cấp xám ảnh nhị phân có đồng nhất, [1] Vì lý nêu trên, việc đầu tư nghiên 97 100.00 { } 100.00 {(} 100.00 {)} 60.00 {,} 100.00 {-} 100.00 {.} 50.00 {/} 100.00 {0} 50.00 {2} 100.00 {7} 1 0.00 {8} 100.00 {A} 100.00 {C} 100.00 {D} 100.00 {F} 100.00 {H} 1 0.00 {I} 100.00 {L} 100.00 {M} 100.00 {O} 100.00 {P} 100.00 {S} 30 100.00 {T} 100.00 {V} 100.00 {W} 100.00 {[} 1 0.00 {]} 56 98.21 {a} 100.00 {b} 26 100.00 {c} 27 100.00 {d} 88 94.32 {e} 14 71.43 {f} 16 93.75 {g} 20 100.00 {h} 37 100.00 {i} 21 90.48 {l} 13 100.00 {m} 44 100.00 {n} 28 100.00 {o} 100.00 {p} 100.00 {q} 45 95.56 {r} 312 93.55 {s} 51 96.08 {t} 20 100.00 {u} 100.00 {v} 10 80.00 {w} 100.00 {x} 85.71 {y} 100.00 {z} Hình 3.2: Kết đánh giá độ xác mức ký tự văn 3.1.6 Module đánh giá độ xác mức từ Độ xác mức từ tính tốn module WordAccuracy Module tiến hành đối sánh nội dung văn mẫu với văn sinh phần mềm nhận dạng để tính tốn đưa thông tin đánh giá, cụ thể sau:  Tổng số từ (Words)  Tổng số từ không nhận dạng (Misrecognized)  Độ xác (Accuracy)  Đánh giá độ xác trường hợp tính từ dừng: Các thông số đánh giá thống kê theo độ dài từ, bao gồm số từ (Count), số từ không nhận dạng (Missed), tỷ lệ nhận dạng (%Right), độ dài từ (length), cụ thể sau: Count Missed %Right Length N11 N2 N3 1 N 12 N2 N3 2 … … … … … … … … … … … … n … … … Total  Đánh giá độ xác trường hợp khơng kể từ dừng (Non- stopwords): Các thông số đánh giá tương tự  Đánh giá độ xác đoạn văn bản: Các thông số đánh giá tương tự Ngoài ra, để hỗ trợ nhà phát triển phần mềm có thơng tin đánh giá xác trực quan hơn, đưa thông số đánh giá chi tiết cho từ xuất văn Xét tiếp với ví dụ trên: 43928 Words 2211 Misrecognized 94.97% Accuracy Stopwords Count Missed %Right Length 810 46 94.32 6069 128 97.89 6065 92 98.48 2438 61 97.50 949 27 97.15 204 10 95.10 232 97.84 10 100.00 16768 369 97.80 Total Non-stopwords Count Missed %Right Length 2275 250 89.01 1050 249 76.29 1425 169 88.14 3025 160 94.71 3705 186 94.98 3327 172 94.83 3216 139 95.68 3132166 94.70 2345 125 94.67 1560 96 93.85 10 1032 57 94.48 11 599 38 93.66 12 260 17 93.46 13 118 95.76 14 58 11 81.03 15 23 91.30 16 100.00 17 100.00 18 0100.00 19 27160 1842 93.22 Total Distinct Nonstopwords Count Missed %Right Occurs 11889 808 93.201 2437 54 97.782 868 15 98.27 431 98.38 241 99.59 155 97.42 107 496.26 69 98.55 621 98.39 35 100.00 10 112 99.11 >10 16406 896 94.54 Total Phrases Count Missed %Right Length 43928 2211 94.97 43753 3927 91.022 43578 5446 87.50 43403 6812 84.31 43228 8082 81.30 43053 9249 78.52 42878 10334 75.90 42704 11351 73.42 Stopwords Count Missed %Right 723 32 95.57 a 69 98.55 about 32 96.88 after 88.89 again 10 100.00 against Non-stopwords Count Missed %Right 2 0.00 ab 100.00 abbreviations 100.00 abernethy 100.00 ability 100.00 able Hình 3.4: Đánh giá độ xác mức từ file văn tiếng Việt 3.2.Đánh giá thực nghiệm 3.2.1 Dữ liệu thực nghiệm Chương trình thử nghiệm liệu tiếng Anh tiếng Việt Trong liệu tiếng Anh liệu chuẩn, cung cấp viện nghiên cứu khoa học thông tin ISRI (Information Science Research Institute) Hoa Kỳ Bộ liệunày bao gồm tổng 7844 trang ảnh văn bản, chia thành tập liệu, cụ thể sau:  Tập liệu Business Letter (BUS): Chứa tập trang văn dạng thư tín tổ chức, cá nhân doanh nghiệp tặng cho ISRI  Tập liệu Corporate Annual Report (REP): Bao gồm trang văn lựa chọn từ báo cáo thường niên doanh nghiệp tổ chức tài  Tập liệu DOE (Department of Energy): Là tập liệu mẫu lớn số tập liệu thử nghiệm, lựa chọn cách ngẫu nhiên từ tập văn khoa học kỹ thuật  Tập liệu English Newspaper Sample (NEWS): Chứa trang báo lựa chọn cách ngẫu nhiên từ 50 tạp chí thịnh hành  Tập liệu Legal Document (LEGAL): Chứa trang lựa chọn từ tập văn luật, thu thập từ văn phòng luật tòa án địa phương  Tập liệu Magazine (ZSET): Bao gồm trang báo lựa chọn cách ngẫu nhiên từ 100 tạp chí có số lượng phát hành lớn Thơng tin chi tiết tập liệu thể Bảng 3.4: Các tập liệu tiếng Anh Tập liệu Số trang Số khối Tổng số Số ký tự từ Business Letter (BUS) Corporate Annual Report 800 5676 205840 1279024 1200 6826 12488028 3569064 1844 9120 854208 5854048 800 3124 336104 2460400 1200 3388 58699 1488392 800 9328 826592 4976684 7844 37462 14769471 19627612 (REP) DOE (Department of Energy) English Newspaper Sample (NEWS) Legal Document (LEGAL) Magazine (ZSET) Tổng số: Mỗi trang văn số hóa lần máy quét Fujitsu M3096G đế sinh ảnh nhị phân ảnh 8-bit grey scale Các ảnh nhị phân tạo với độ phân giải 200, 300 400dpi (dots per inch) Ảnh gray scale quét độ phân giải 300dpi Mỗi file ảnh kèm với file văn mẫu file thông tin (ground truth) xác định tọa độ thứ tự đọc khối văn ảnh đầu vào Đối với liệu tiếng Việt, chưa có sở liệu mẫu chuẩn công bố để phục vụ cho việc thử nghiệm, đánh giá thuật toán nhận dạng Để đánh giá hiệu thuật toán nhận dạng văn tiếng Việt, luận án thu thập xây dựng ba tập liệu sau phục vụ cho việc thử nghiệm  Tập liệu Vie Official Documen, bao gồm trang văn bản, công văn, thư từ, fax tiếng Việt lưu hành Viện Công Nghệ Thông Tin  Tập liệu Vie Magazine, bao gồm tập văn thu thập từ báo, tạp chí thịnh hành Việt nam: báo Phụ Nữ, báo Thanh Niên, báo Tiền Phong, báo Công An Nhân Dân, báo Gia Đình Xã Hội, tạp chí Sinh Học, tạp chí Bưu Chính Viễn Thơng, tạp chí PC Word, tạp chí Sức Khỏe Đời Sống, v.v  Tập liệu VieTypical Book chứa trang văn có chất lượng khác lựa chọn ngẫu nhiên từ số loại sách, truyện, giáo trình, kỷ yếu hội thảo, v.v Thơng tin tập liệu thể cụ thể [Bảng 3.5] Bảng 3.5: Các tập liệu Tiếng Việt Tập liệu Số trang Số vùng Tổng số từ Số ký tự Vie Magazine 140 766 114358 419561 VieOfficial Document 265 722 87087 312964 Vie Typical Book 300 678 141609 525599 Tổng số: 705 2166 343054 1258124 Mỗi trang văn quét lần máy quét HP C7716A chế độ ảnh nhị phân (B & W) với ngưỡng độ phân giải 200 dpi, 300 dpi 400 dpi Mỗi file ảnh kèm với file văn mẫu file ground truth định nghĩa tọa độ khối văn cần nhận dạng theo thứ tự xác định (thông thường theo thứ tự từ xuống dưới, từ trái sang phải) 3.2.2.Kết thực nghiệm Từ tập liệu mẫu thu thập được, trình thử nghiệm bao gồm công đoạn bản: - Bước 1: Tiến hành nhận dạng toàn file ảnh mẫu phần mềm nhận dạng (VnDOCR, FineReader, OmniPage, VietOCR) Kết nhận dạng file ảnh đầu vào lưu vào file văn (*.txt), định dạng font chữ UTF8 - Bước 2: Từ file văn nhận dạng file văn mẫu tương ứng ảnh văn đầu vào, chương trình gọi đến module số module liệt kê để đưa độ đo đánh giá mức độ xác phần mềm nhận dạng toàn tập liệu thử nghiệm Phần sau trình bày kết thực nghiệm đánh giá độ xác phần mềm nhận dạng tập liệu thử nghiệm  Độ xác mức ký tự Các kết đánh giá độ xác mức ký tự trung bình với tập liệu tiếng Anh tổng kết cụ thể Bảng 3.6: Bảng 3.6: Độ xác mức ký tự tập liệu tiếng Anh Phần mềm nhận dạng Các tập liệu thử nghiệm BUS REP DOE NEWS LEGAL ZSET VnDOCR 97.15% 94.45% 95.26% 95.46% 97.27% 94.64% FineReader 98.25% 95.7% 96.89% 97.08% 98.57% 96.37% Omnipage 97.86% 94.67% 95.78% 96.88% 98.2% 96.05% VietOCR 85.05% 74.2% 77.32% 77.43% 82.56% 75.52% Kết đánh giá độ xác mức ký tự trung bình tập liệu tiếng Việt thể cụ thể trênBảng 3.7: Bảng 3.7: Độ xác mức ký tự tập liệu tiếng Việt Các tập liệu thử nghiệm Phần mềm nhận dạng Vie Magazine VieOfcial Document Vie Typical Book VnDOCR 94.4% 92.48% 96.23% FineReader 95.72% 94.03% 98.16% Omnipage - - - VietOCR 50% 46.05% 52.17%  Độ xác mức từ Độ xác mức từ trung bình tồn tập liệu tiếng Anh trường hợp kể từ dừng (STW) không kể từ dừng (NSTW)được thể cụ thể Bảng 3.8 Bảng 3.8: Độ xác mức từ trêntập liệu tiếng Anh Các tập liệu thử nghiệm BUS REP DOES TW/ NSTW NEWSST W/ NSTW LEGALST W/ NSTW ZSET STW/ STW/ STW/ NSTW NSTW VnDOCR 96.25% 96.66% 93.3% 93.52% 93.58% 93.7% 94.52% 94.66% 96.22% 96.38% 94.06% 94.22% FineReade r 97.48% 97.83% 94.17% 94.46% 95.02% 95.28% 96.12% 96.32% 98.03% 98.21% 95.49% 95.58% Omnipage 97.37% 97.56% 93.63% 93.8% 94.14% 94.38% 95.2% 95.31% 96.42% 96.6% 94.15% 94.29% VietOCR 83.28% 83.55% 70.11% 70.26% 70.29% 70.33% 71.26% 71.33% 74.12% 74.32% 72.16% 72.27% Phần mềm nhận dạng NSTW Độ xác mức từtrung bình tập liệu tiếng Việt thể cụ thể trênBảng 3.9 Bảng 3.9: Độ xác mức từ tập liệu tiếng Việt Phần mềm nhận dạng Vie Magazine (%) STW/ Các tập liệu thử nghiệm VieOfcial Document (%) STW/ Vie Typical Book (%) STW/ VnDOCR FineReader Omnipage VietOCR NSTW 92.23% 92.46% 95.07% 95.28% 48.02% 48.23% NSTW NSTW 91.12% 91.28% 93.68% 93.89% 45.29% 45.48% 95.14% 95.27% 97.53% 97.67% 50.27% 50.38% 3.2 Kết luận chương Trong chương này, luận văn mô tả cụ thể quy trình bước xây dựng chương trình thử nghiệm đánh giá độ xác phần mềm/thuật tốn nhận dạng văn bản.Trong đó, tập trung vào2 độ đo bản: Độ xác mức ký tự (character accuracy) độ xác mức từ (word accuracy) Trong đó, độ xác mức ký tự đánh giá trường hợp tổng quát (trên toàn lớp ký tự), lớp ký tự trường hợp có sử dụng ký tự đặc biệt, ký tự đánh dấu.Độ xác mức từ đánh giá trường hợp xét toàn từ văn (kể từ dừng) trường hợp không sử dụng từ dừng Hiệu chương trình đánh giá kiểm nghiệm tập liệu tiếng Anh tiếng Việt (đủ lớn,đa dạng chất lượng).Thực nghiệm cho thấy chương trình đánh giá độ xác phần mềm thuật tốn nhận dạng mang lại cho nhà phát triển phần mềm nhận dạng chữ thông tin đánh giá chi tiết, xác trực quan KẾT LUẬN Luận văn tìm hiểu số vấn đề nhận dạng chữ viết sau: Xây dựng công cụ đánh giá hiệu cho engine nhận dạng chữ Việt Xâydựng sở liệu mẫu chuẩn, phục vụ cho việc nghiên cứu, đánh giá thử nghiệm thuật toán nhằm nâng cao chất lượng nhận dạng Phần thực nghiệm, luận văn tiến hành đánh giá so sánh phần mềm nhận dạng chữ Việt có FineReader,VnDOCR, Omnipage, VietOCR Tuy nhiên luận văn số vấn đề chưa giải là: Luận văn đánh giá phần mềm nhận dạng tiêu chí mức ký tự mức từ Từ việc đánh giá kết nhận dạng chưa cải thiện chất lượng nhận dạng cho phần mềm nhận dạng chữ Hướng phát triển luận văn xây dựng thêm công cụ đánh giá khácvà dựa kết đánh giá góp phần để nhà sản xuất phần mềm đánh giá chất lượng sản phẩm phần mềm từ đưa hướng phát triển nâng cấp phần mềm DANH MỤC TÀI LIỆU THAM KHẢO Tài liệu tham khảo tiếng Việt [1] Nguyễn Thị Thanh Tân, (2013), “Nghiên cứu phương pháp nâng cao độ xác nhận dạng chữ in đứt, dính chữ viết tay hạn chế tiếng Việt”, Luận án tiến sĩ tốn học, Viện Cơng nghệ Thơng tin, Viện Hàn lâm Khoa học Công nghệ Việt Nam, 2013 Tài liệu tham khảo tiếng Anh [2] Aho, A V., Hirschberg, D S., & Ullman, J D (1976) Bounds on the complexity of the longest common subsequence problem Journal of the ACM, 23(1), 1-12 [3] Apostolico, A., Browne, S., & Guerra, C (1992) Fast linear-space computationsof longest common subsequences Theoretical ComputerScience, 92, 3-17 [4] Eppstein, D., Galil, Z., Giancarlo, R., & Italiano, G F (1992) Sparse dynamic programming I: Linear cost functions Journal of the ACM,39(3), 519-545 [5] Fickett, J W (1984) Fast optimal alignment Nucleic Acids Research,12(1), 175-179 [6] Hsu, W J., & Du, M W (1984) New algorithms for the LCS problem.Journal of Computer and System Sciences, 29, 133-152 [7] Hirschberg, D S (1978) An information-theoretic lower bound for the longest common subsequence problem Information Processing Letters, 7(1), 40-41 [8] Hunt, J W.,& Szymanski, T G (1977) A fast algorithm for computing longest common subsequences Communications of the ACM, 20(5), 350353 [9] Masek, W J., & Paterson, M S (1980) A faster algorithm computing string edit distances Journal of Computer and System Sciences, 20(1), 1831 [10] Mukhopadhyay, A (1980) A fast algorithm for the longestcommonsubsequence problem Information Sciences, 20, 69-82 [11] Myers, E W (1986) An O(ND) difference algorithm and its variations Algorithmica, 1, 251-266 [12] Nakatsu, N., Kambayashi, commonsubsequence Y., algorithm & Yajima, suitable for S (1982) similar text A longest strings Acta Informatica,18, 171-179 [13] Ukkonen, E (1985) Algorithms for approximate string matching Informationand Control, 64, 100-118 [14] Wagner, R A., & Fischer, M J (1974) The string-to-string correctionproblem Journal of the ACM, 21(1), 168-173 [15] Wong, C K., & Chandra, A K (1976) Bounds for the string editing problem Journal of the ACM, 23(1), 13-16 [16] Wu, S., Manber, U., Myers, G.,& Miller, W (1990) An O(NP) sequence comparison algorithm Information Processing Letters, 35(6), 317-323 [17] http://www.expervis ion.com/testimonial-world-leading-and-championocr/annual-test-of-ocr-accuracy-by-us-department-of-energy-doe- university-ofnevada-las-vegas-unlv [18] http://vndocr.com [19] http://www.abbyy.com/finereader [20] http://www.nuance.com [21] http://vietocr.sourceforge.net Thái Nguyên, ngày .tháng năm 2015 ... chương tìm hiểu hệ thống lại vấn đề ảnh hưởng tới chất lượng hệ thống nhận dạng CHƯƠNG - PHƯƠNG PHÁP ĐÁNH GIÁ HIỆU QUẢ CỦA CÁC PHẦN MỀM NHẬN DẠNG CHỮ VIỆT Một hệ thống nhận dạng chữ định nghĩa cách... nhận dạng chữ Chương II: Phương pháp đánh giá hiệu phần mềm nhận dạng chữ Việt Chương trình bày sở lý thuyết độ đo phương pháp ánh giá chất lượng (độ xác) hệ thống nhận dạng đề xuất sở toán đối... toán nhận dạng yếu tố ảnh hưởng đến chất lượng hệ thống nhận dạng 1.1 Qui trình chung hệ nhận dạng chữ Qui trình chung hệ thống nhận dạng chữ thường gồm hai giai đoạn là: Phân lớp mẫu nhận dạng

Ngày đăng: 14/06/2018, 12:28