Khả năng phát triển của ứng dụng

Mức độ chính xác hiện tại của ứng dụng có thể xem là ở mức chấp nhận được (trên 80%). Song với các yếu tố và khả năng hiện tại thì ứng dụng cần phải được cải tiến nhiều hơn, nghiên cứu nhiều hơn về tất cả các khía cạnh như xử lý nhiễu, mô hình huấn luyện SVM,… nhằm nâng cao độ chính xác. Thời gian xử lý trên một bảng điểm nhìn chung thấp hơn 1 phút/bảng điểm. Do vậy, nói chung khả năng phát triển của ứng dụng là rất lớn.

CHƯƠNG 6

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 6.1.Kết luận của đề tài

Tính thời điểm hiện nay, bài toán nhận dạng chữ viết tay nói riêng và bài toán nhận dạng chữ viết nói chung đã và đang trở thành một trong những chủ đề nghiên cứu và thảo luận hết sức sôi nổi. Số lượng các nghiên cứu về lý thuyết và ứng dụng trong lĩnh vực này này càng tăng ở cả trong và ngoài nước.

Nhìn chung các vấn đề trọng tâm cần được triển khai trong đồ án đã được trình bày và phân tích một cách khá đầy đủ. Tuy nhiên, sai sót trong quá trình thực hiện đồ án là điều không thể tránh khỏi. Sau đây là một số ưu điểm đã đạt được cũng như các nhược điểm còn mắc phải trong việc thực hiện đồ án này:

 Về ưu điểm:

Trình bày được quy trình làm việc chung của một bài toán nhận dạng chữ viết tay rời rạc, bao gồm việc đề cập và giải thích các thuật toán áp dụng trong các giai đoạn tiền xử lý, rút trích đặc trưng, huấn luyện, nhận dạng và hậu xử lý dữ liệu.

Trình bày và tiến hành nhiều thí nghiệm trên các kỹ thuật rút trích đặc trưng được đề cập ở phần lý thuyết, từ đó rút ra nhiều đặc điểm quan trọng cần thiết khi áp dụng các kỹ thuật này trong các nghiên cứu về sau.

Khái quát được bản chất toán học của mô hình nhận dạng SVM và áp dụng vào việc sử dụng bộ công cụ CSharp-2.6 phục vụ cho quá trình nghiên cứu nhận dạng và cài đặt ứng dụng.

Đề xuất được một kỹ thuật rút trích đặc trưng mới là Dense Distribution mang lại hiệu quả cao khi thử nghiệm trên bộ dữ liệu chuẩn quốc tế MNIST (cụ thể là 97.11%). Đồng thời với đó là nâng cao hiệu quả nhận dạng của kỹ thuật Diagonal based cũng như kết hợp hai kỹ thuật Diagonal based và Dense Distribution, đạt được kết quả là 98.2% trên bộ dữ liệu MNIST.

Việc nghiên cứu nhận dạng đã thực hiện có kết quả trên cả ký tự chữ cái viết thường, chữ cái viết hoa và chữ số.

Cài đặt được ứng dụng đọc bảng điểm sinh viên, áp dụng bài toán nhận dạng chữ việt tay rời rạc. Ứng dụng này bước đầu đã đạt được mức độ chính xác chấp nhận được là khoảng 82.79%, thời gian xử lý trung bình dưới 1 phút/bảng điểm và vẫn còn có khả năng phát triển lớn.

 Về nhược điểm:

Các thí nghiệm được thực hiện trong điều kiện còn hạn chế có thể các kết quả không được thống nhất với báo cáo trước đây của các nhà nghiên cứu.

Mã nguồn cài đặt chương trình thí nghiệm cũng như ứng dụng chưa thật sự thỏa mãn tối ưu tài nguyên hệ thống (công suất bộ vi xử lý, dung lượng bộ nhớ trong,…) cũng như về mặt thời gian.

Ứng dụng đọc bảng điểm sinh viên vẫn còn nhiều sai số, nếu xét việc triển khai thực tế thì cần đòi hỏi thêm nhiều điều kiện.

6.2.Hướng phát triển của đề tài

Trong tương lai, các thí nghiệm về nâng cao hiệu quả nhận dạng chữ viết tay rời rạc bằng việc cải tiến kỹ thuật rút trích đặc trưng cũng như ứng dụng đọc bảng điểm sinh viên vẫn còn nhiều điều kiện để tiếp tục phát triển. Một số định hướng có thể được đưa ra như sau:

 Khai thác thêm các ưu điểm của các kỹ thuật rút trích đặc trưng cũng như tìm thêm một số kỹ thuật mới nhằm nâng cao hiệu quả nhận dạng.

 Đối với các thí nghiệm thì mở rộng thêm điều kiện thực hiện như bộ dữ liệu (thay đổi tập ký tự, tăng thêm số lượng mẫu huấn luyện,…), cải thiện mã nguồn để tiết kiệm tài nguyên hệ thống.

 Đối với ứng dụng đọc bảng điểm thì cần cải thiện việc tách nhiễu từ khung, xử lý được các trường hợp điểm số lọt sang ô khác. Ngoài ra, nhất thiết phải

mở rộng bộ dữ liệu huấn luyện cho ứng dụng, chẳng hạn như xây dựng bộ dữ liệu chữ số viết tay cho tất cả các giảng viên trong trường.

Tóm lại, bên cạnh một vài khuyết điểm còn tồn tại thì với những ưu điểm đạt được, đồ án này chắc chắn sẽ là một tài liệu nghiên cứu hữu ích, có khả năng mở rộng và có tính chất làm bước đệm cho những nghiên cứu về sau, nhằm đóng góp phần nào cho việc phát triển bài toán nhận dạng chữ viết tay rời rạc.

TÀI LIỆU THAM KHẢO Tiếng Việt:

1. Nguyễn Đình Cường (2011), Xử lý ảnh, khoa Công nghệ thông tin, trường Đại học Nha Trang, Nha Trang.

2. Lê Thành Long (2009), Phát hiện và hiệu chỉnh góc nghiêng trong văn bản, Đồ án tốt nghiệp đại học, trường Đại học dân lập Hải Phòng, Hải Phòng.

3. Phạm Anh Phương (2009), “Một số phương pháp trích chọn đặc trưng hiệu quả cho bài toán nhận dạng chữ viết tay rời rạc”, Tạp chí khoa học Đại học Huế, số 53. 4. Wikipedia tiếng Việt: http://vi.wikipedia.org/wiki/XML.

Tiếng Anh:

5. Ali J. and Verma R. (2012), A Survey of Feature Extraction and Classification Techniques in OCR Systems, International Journal of Computer Applications and Information Technology, 1(3), pp. 1-3, India.

6. Arora S., Basu D. K., Bhattacharjee D., Kundu M. and Nasipuri M. (2008) Combining Multiple Feature Extraction Techniques for Handwritten Devnagari Character Recognition, pp. 1-6, India.

7. Brener N. E., Deng W., Iyengar S.S. (2000), A Fast Parallel Thinning Algorithm for the Binary Image Skeletonization, International Journal of High Performance Computing Applications, 14(1), pp. 65-81, the United States of America.

8. Budhiraja S. and Singh P. (2011), Feature Extraction and Classification Techniques in O.C.R. Systems for Handwritten Gurmukhi Script – A Survey, International Journal of Engineering Research and Applications, 1(4), pp. 1736- 1739, India.

9. Burges C.J.C, Cortes C. and LeCun Y, The MNIST Database for handwritten digits, http://yann.lecun.com/exdb/mnist/

10.Cavalcanti G.D.C., Cruz R.M.O. and Ren T.I. (2010), Handwritten Digit Recognition Using Multiple Feature Extraction Techniques and Classifier Ensemble, International Conference on Systems, Signals and Image Processing, pp. 215-218, Brazil.

11.Das S.K., Kundu S., Paul N. and Saha S. (2013), Optical Character Recognition using 40-point Feature Extraction and Artificial Neural Network, International Journal of Advanced Research in Computer Science and Software Engineering, 3(4), pp. 495-502, India.

12.Dhir R., Jangid M., Rani R. and Siddharth K.S. (2011), Handwritten Gurmukhi Character Recognition Using Statistical and Background Directional Distributional Features, International Journal on Computer Science and Engineering, 3(6), pp. 2332-2345, India.

13.Dubey P. and Sinthupinyo W. (2010), New Approach on Structural Feature Extraction for Character Recognition, pp. 946-949, Thailand.

14.Dutta M., Singh D. and Singh S.Kr. (2010), Hand Written Character Recognition Using Twelve Directional Feature Input and Neural Network, International Journal of Computer Applications, 1(3), pp. 82-85, India.

15.Fletcher T. (2009), Support Vector Machines Explained, the United Kingdom. 16.Garcia E.K., Gupta M.R. and Jacobson N.P. (2007), OCR binarization and image pre-processing for searching historical documents, Pattern Recognition, pp. 389-391, The Netherlands.

17.Hallale S.B. and Salunke G.D. (2013), Twelve Directional Feature Extraction for Handwritten English Character Recognition, International Journal of Recent Technology and Engineering, 2(2), pp. 39-42, India.

18.Himavathi S., Pradeep J. and Srinivasan E. (2011), Diagonal based Feature Extraction for Handwritten Alphabets Recognition System using Neural network, International Journal of Computer Science and Information Technology, 3(1), pp. 27-38, India.

19.High-Pass_Filtering (Sharpening):

http://www.cyanogen.com/help/maximdl/High-Pass_Filtering.htm. 20.Low-Pass_Filtering (Blurring):

http://www.cyanogen.com/help/maximdl/Low-Pass_Filtering.htm.

21.Kishan A.C. and Sharan V. (2009) Skew Detection and Correction in Scanned Document Images, pp. 8-15, India.

22.Otsu N. (1979), A Threshold Selection Method from Gray-Level Histograms, pp. 62-66, The United States of American.

23.Schomaker L., Surinta O. and Wiering M. (2012), Handwritten Character Classification using the Hotspot Feature Extraction Technique, The Netherlands.

Kỹ thuật Background Directional Distribution

Nhận xét về mô hình SVM