Bảng 4 1 Danh sách các class chính trong chương trình
Tên class Nhiệm vụ
GUI Giao diện chương trình
Img Quản lý cấu trúc của một file ảnh
ImgIO Điều khiển nhập/ xuất
Thresholder Phân ngưỡng động
Deskew Chỉnh nghiêng
Block Tách khối
Row Tách dịng
WordSeg Tách từ
CharCut Cắt kí tự
FixSpace Điều chỉnh khoảng trắng sau khi phân
tách
Feature Trích chọn đặc trưng
Neuron Xây dựng cấu trúc một Neural
NeuralNet Xây dựng cấu trúc mạng Neural
43
Chương 5
THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 5 1 Thử nghiệm
Cấu hình thử nghiệm: Máy PC sử dụng CPU Intel Pentium(R) Core i5 2.3GHz,
bộ nhớ RAM: 4GB
Mơi trường thử nghiệm: Windows 7 Professional
Dữ liệu huấn luyện: Các file hình ảnh cĩ chứa đầy đủ kí tự của một bộ font. Chương trình đã thực hiện huấn luyện thành cơng với các font: Arial, Times New Roman, VNI-Helve, VNI-Times. Ảnh các kí tự sẽ được chuẩn hĩa kích thước, sau đĩ đặt trong khung bao. Tiếp theo các ảnh này sẽ được rút trích các đặc trưng. Các đặc trưng này sẽ được sử dụng để làm đầu vào cho mạng neural.
Một số kết quả tiêu biểu:
Hình 5.1 Ảnh văn bản đầu vào đơn cột, kiểu font: Arial, Cambria, Tahoma, Times New Roman, cỡ font: 16 cho kết quả nhận dạng chính xác 100%
44
Hình 5.2 Chương trình cho phép lựa chọn vùng ảnh cần nhận dạng
45
Thực hiện thử nghiệm đối với văn bản scan chất lượng trung bình, khổ giấy A4. Số lượng từ của văn bản là 1500 từ, cho phép tạo một khơng gian mẫu đủ lớn để đảm bảo sự chính xác của quá trình thử nghiệm.
Các font dùng để kiểm tra là các font đã được huấn luyện: Times New Roman, Arial
Font Times New Roman: Tỉ lệ nhận dạng chính xác trung bình: 87.55 %
Bảng 5 1 Thử nghiệm chương trình với font Times New Roman
Định dạng Cỡ font Số lượng từ nhận dạng chính xác Tỉ lệ nhận dạng đúng Chuẩn 18 1495 99.68 % 16 1404 93.60 % 14 1286 85.73 % 12 1144 76.27 % Đậm (Bold) 18 1472 98.13 % 16 1421 94.73 % 14 1268 84.53 % 12 1173 78.20 % Nghiêng (Italic) 18 1381 92.07 % 16 1349 89.93 % 14 1203 80.20 % 12 1157 77.13 % Hỗn hợp (Chuẩn, đậm, nghiêng) 18 1436 95.73 % 16 1368 91.20 % 14 1294 86.27 % 12 1158 77.27 %
46
Font Arial: Tỉ lệ nhận dạng chính xác trung bình: 88.13 %
Bảng 5 2 Thử nghiệm chương trình với font Arial
Định dạng Cỡ font Số lượng từ nhận dạng chính xác Tỉ lệ nhận dạng đúng Chuẩn 18 1427 95.13 % 16 1396 93.06 % 14 1255 83.67 % 12 1192 79.47 % Đậm (Bold) 18 1472 98.13 % 16 1439 95.93 % 14 1320 88.00 % 12 1179 78.60 % Nghiêng (Italic) 18 1398 93.20 % 16 1351 90.07 % 14 1232 82.13 % 12 1203 80.02 % Hỗn hợp (Chuẩn, đậm, nghiêng) 18 1441 96.06 % 16 1368 91.20 % 14 1309 87.27 % 12 1171 78.07 % 5 2 Đánh giá kết quả
Chương trình đã xử lý tốt các bước tiền xử lý như lọc nhiễu, chỉnh nghiêng. Quá trình phân đoạn được tiến hành chính xác khi văn bản đầu vào cĩ bố cục khơng quá phức tạp.
Kết quả cho thấy cỡ font chữ càng lớn thì chương trình thực hiện nhận dạng càng chính xác, do số đặc trưng thu nhận được càng nhiều.
Mức độ chính xác của quá trình nhận dạng phụ thuộc vào định dạng font (chuẩn, nghiêng, đậm) khơng đáng kể.
Với khoảng cỡ font từ 14 – 18 thì tỉ lệ nhận dạng chính xác rất cao, trên 90%. Trong khoảng cỡ font thường dùng (từ 12 đến 14) thì tỉ lệ nhận dạng chính xác tương đối khả quan, khoảng 80%.
Khi ảnh văn bản đầu vào cĩ bố cục đơn giản và cĩ cỡ font chữ đủ lớn thì mức độ chính xác của các chương trình này khơng chênh lệch đáng kể.
47
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Kết luận
Dựa vào các nghiên cứu gần đây trong bài tốn nhận dạng văn bản in tiếng Việt từ hình ảnh, Đề tài đã nghiên cứu, chọn lọc cũng như phát triển một số vấn đề và đã đạt được những kết quả ban đầu như sau:
Nghiên cứu về lý thuyết phân đoạn ảnh và lý thuyết nhận dạng. Qua đĩ trình bày được một quy trình để giải quyết bài tốn nhận dạng văn bản in tiếng Việt từ hình ảnh.
Xây dựng được chương trình thử nghiệm cĩ độ chính xác và tốc độ nhận dạng cao. Tuy vẫn cịn một số hạn chế như việc xử lý nhiễu và hậu xử lý chưa thật tốt, tỉ lệ nhận dạng chính xác vẫn cịn thấp đối với các cỡ font chữ nhỏ nhưng nĩi chung chương trình đã đáp ứng tốt được phần lớn các bước trong quy trình nhận dạng văn bản.
Hướng phát triển
Tăng độ chính xác của quá trình huấn luyện bằng cách mở rộng tập mẫu, đồng thời áp dụng các phương pháp nhận dạng tiên tiến như sử dụng Mơ hình Markov ẩn hoặc Máy vector hỗ trợ.
Phát triển để chương trình cĩ thể nhận dạng được các kí hiệu tốn học đơn giản. Tối ưu hĩa mã nguồn chương trình để cĩ thể cài đặt lên các nền tảng di động thơng
48
DANH MỤC TÀI LIỆU THAM KHẢO
Tiếng Việt:
[1]. Mạng Nơron - phương pháp và ứng dụng, Nguyễn Đình Thúc, Nhà xuất bản Giáo Dục, 2000.
[2]. Một số phương pháp tiếp cận mới để giải quyết các bài tốn trong nhận dạng tiếng Việt, Nguyễn Tri Tuấn, Đại học Khoa học Tự nhiên, Đại học Quốc gia TP. Hồ Chí Minh, 1998.
[3]. Nghiên cứu ứng dụng kỹ thuật nhận dạng chữ viết phục vụ việc đọc phiếu xuất nhập cảnh,Đào Minh Sơn, Đại học Khoa học Tự nhiên, Đại học Quốc gia TP. Hồ Chí Minh, 2000.
[4]. Nghiên cứu một số phương pháp phát hiện biên, Nguyễn Quang Sơn, Đại học Thái Nguyên, 2008.
[5]. Nhập mơn xử lý ảnh số, Lương Mạnh Bá, Nguyễn Thanh Thủy, Nhà xuất bản Khoa học và Kỹ thuật, 2006.
[6]. Nhận dạng chữ và các hướng nghiên cứu, Phạm Anh Phương, Đại học Duy Tân, 2011.
[7]. Ứng dụng mơ hình mạng Nơron trong nhận dạng chữ viết tay rời rạc hạn chế trực tuyến trên Tablet PC, Ngơ Xuân Bách, Đại học Cơng nghệ, Đại học Quốc gia Hà Nội, 2006.
Tiếng Anh:
[8]. Adapting the Tesseract open source OCR engine for multilingual OCR, Ray Smith, Daria Antonova, Dar-Shyang Lee, Google, 2009.
[9]. Block Segmentation and Text Area Extraction of Vertically – Horizontally Written Document, N.Amamoto, S.Torigoe, Y.Hirogaki, 2nd ICDAR, Tsukuba.
[10]. Document Layout Analysis Using Recursive Morphological Transforms, S.Chen,
University of Washington, 1995.
[11]. Estimation of Skew Angle in Binary Document Images Using Hough Transform,
Nandini, Srikanta Murthy, Hemantha Kuma, Indian Institute of Technology, Madras, 2008.
[12]. Feature extraction methods for character recognition - A survey, Divind Due
49
[13]. Hierarchical Representation of Optically Scanned Documents, G.Nagy, S.Seth,
Proc. of the 7th Int. Conf. on Pattern Recognition
[14]. Image Segmentation by shape-directed covers, H.Baird, S.Jones, S.Fortune, Proc 10th International Conference On Pattern Recognition, pp. 820-825
[15]. Page Segmentation and Classification using fast feature extraction and
connectivity analysis, Jakko Sauvola, Matti Pietikainen, Dept. of Electrical Engineering, University of Oulu, Finland.
[16]. Page Segmentation by White Streams, T.Pavlidis, J.Zhou, 1st ICDAR, Saint-Malo.
[17]. Recursive X-Y Cut using Bounding Boxes of Connected Components, Jaekyu Ha, Robert M.Haralick, Ihsin T.Phillips, Dept. of Electrical Engineering, University of Washington, Seattle.