4.2.3. Nhận xét
Kết quả thống kê cũng cho thấy khả năng của nhiều hệ thống OCR thực hiện trên ngôn ngữ tiếng Anh có phần tốt hơn so với tiếng Việt. Cũng qua kết quả thực nghiệm ở trên cho thấy Tesseract là một engine OCR hiệu quả. Với sự đóng góp liên tục của cộng đồng quan tâm đến lĩnh vực nhận dạng mã nguồn mở, Tesseract tiềm năng sẽ là một công cụ nhận dạng tuyệt vời trong tương lai gần, có thể sánh ngang với các sản phẩm OCR thương mại nổi tiếng. Hệ thống Android OCR đã kế thừa khả năng của Tesseract engine, kết hợp với các bước tiền xử lý và hậu xử lý OCR, giúp hệ thống Android OCR có một khả năng nhận dạng tốt.
KẾT LUẬN
Hiện nay lĩnh vực OCR, với mục đích chính là rút trích các ký tự trong ảnh và lưu thành dạng text, được ứng dụng một cách rộng rãi trong nhiều lĩnh đời sống. Nhiều hệ thống OCR được xây dựng và đưa ra dưới dạng sản phẩm thương mại hoặc miễn phí, thậm chí dưới dạng mã nguồn mở. Với mong muốn tìm hiểu lĩnh vực OCR và góp phần trong việc bổ sung vào kho ứng dụng OCR một sản phẩm mới, luận văn đã đi vào nghiên cứu “Xây dựng hệ thống nhận dạng và dịch trên thiết bị di động” sử dụng công nghệ OCR mã nguồn mở tiên tiến Tesseract OCR.
Qua quá trình làm luận văn, ngoài việc tạo ra được một sản phẩm OCR thực tế, bản thân đã có cơ hội tìm tòi và hiểu biết nhiều hơn, rộng hơn về lĩnh vực OCR và lập trình ứng dụng. Bản thân đã hiểu biết được nguyên lý hoạt động của một hệ thống OCR cơ bản; biết tổng quan về các phương pháp, các thuật toán được sử dụng để nhị phân hóa ảnh, dò hướng và chỉnh độ nghiêng của ảnh, phân tích bố cục trang ảnh, phương pháp nhận dạng ký tự...; hiểu biết về công nghệ Tesseract OCR, công nghệ dịch máy Google Translate, công nghệ Android. Ngoài ra, bản thân được nâng cao về kỹ năng lập trình trên điện thoại di động, cách thức xây dựng ứng dụng client/server, xây dựng ứng dụng từ mã nguồn mở.
Trong khuôn khổ của luận văn, tôi trình bày một cách tổng quan về lĩnh vực OCR cũng như một số vấn đề liên quan. Do mục đích của luận văn là nghiên cứu xây dựng hệ thống nhận dạng và dịch sử dụng mã nguồn mở cũng như một số công nghệ tiên tiến hiện có nên không đi sâu vào lý thuyết từng phương pháp, từng thuật toán cụ thể được sử dụng trong các bước của một hệ thống OCR. Tuy nhiên luận văn tập trung vào nghiên cứu công nghệ nguồn mở Tesseract, công nghệ Android và một số công nghệ khác như công nghệ dịch của Google, phương pháp sửa lỗi chỉnh tả tự động, phương pháp tiền xử lý ảnh.
Giải pháp xây dựng hệ thống nhận dạng và dịch trên thiết bị di động đã giải quyết một số vấn đề về nhu cầu nhận dạng và dịch thông qua điện thoại. Ưu điểm của hệ thống này là có thể sử dụng điện thoại hệ điều hành Android có internet để chụp ảnh, yêu cầu nhận dạng và dịch với nhiều ngôn ngữ khác nhau. Đối với một số ngôn ngữ mà bộ chữ cái lớn (ví dụ chữ Trung Quốc), thời gian nhận dạng tăng lên rất nhiều lần so với các ngôn ngữ có bộ chữ cái bé (ví dụ ngôn ngữ Latinh). Do đó hệ thống đã tận dụng được sức mạnh tính toán của server (được sử dụng trong mô hình client/server) để giải quyết vấn đề tốc độ xử
lý, trong khi với tốc độ tính toán của bộ vi xử lý trên hầu hết điện thoại hệ điều hành Androi hiện nay chưa cho phép thực hiện điều này.
Tuy nhiên hệ thống vẫn còn một số điểm chưa thực sự hiệu quả. Khi điện thoại không kết nối được với server (có thể do không kết nối được với internet, dịch vụ ocr trên server trục trặc) thì hệ thống không thể hoạt động được. Ngoài ra do hạn chế về mặt thời gian, luận văn chưa có điều kiện nghiên cứu tích hợp một số kỹ thuật và công nghệ tiên tiến khác vào hệ thống như công nghệ OCR mã nguồn mở OCRopus.
Hƣớng phát triển:
Trong thời gian tới, hệ thống cần phát triển hơn nữa theo hướng đưa dần việc OCR đối với một số ngôn ngữ có bộ chữ cái nhỏ trực tiếp xử lý trên điện thoại. Nghiên cứu các kỹ thuật sửa lỗi hậu OCR phù hợp trên nhiều ngôn ngữ khác nhau, đồng thời tích hợp nhiều hơn các kỹ thuật nâng cao chất lượng ảnh vào hệ thống, kết hợp mã nguồn mở OCRopus với Tesseract để cho ra một công nghệ OCR mạnh mẽ hơn.
TÀI LIỆU THAM KHẢO Tiếng Việt
[1] Đinh Điền (2005), Xử lý ngôn ngữ tự nhiên, Giáo trình, NXB ĐHQG TPHCM.
[2] Nguyễn Quang Hoan (2006), Xử lý ảnh, Giáo trình , Học viện Công nghệ Bưu chính Viễn thông .
[3] Nguyễn Văn Huy (2009), Tìm hiểu phương pháp phân tích trang tài liệu, Luận văn Thạc sĩ, Đại học Thái Nguyên.
[4] Đỗ Năng Toàn, Phạm Việt Bình (2007), Xử lý ảnh, Giáo trình, Đại học Thái Nguyên.
Tiếng Anh
[5] Huang Xuguang, “An Introduction to Android”, Database Lab, Inha University, November 2009.
[6] Hui-Fuang Ng*, “Automatic thresholding for defect detection”, February 2006.
[7] K. M. Mohiuddlin, Jianchang Mao, “Optical Character Recognition”, 27 Dec 1999.
[8] J. van Beusekom, F. Shafait, T. M. Breuel, “Combined orientation and skew detection using geometric text-line modeling”, International Journal on Document Analysis and Recognition, Vol. 13, No. 2. (1 June 2010), pp. 79-92. [9] F. Shafait, T. M. Breuel, “A simple and effective approach for border noise removal from document images”, in 13th IEEE Int. Multi-topic Conference, Islamabad, Pakistan, Dec 2009.
[10] R. Smith, “A simple and efficient skew detection algorithm via text row accumulation”, Proc. 3rd Int. Conf. on Document Analysis and Recognition, 1995, pp1145-1148.
[11] R. Smith, “An overview of the Tesseract OCR Engine”, Proc 9th Int. Conf. on Document Analysis and Recognition, 2007, pp629-633.
[12] R. Smith, D. Antonova, D. Lee, “Adapting the Tesseract open source OCR engine for multilingual OCR”, in Proceedings of the International Workshop on Multilingual OCR, 2009.
[13] R. Smith, “Hybrid Page Layout Analysis via Tab-Stop Detection, Document Analysis and Recognition” Proc 10th Int. Conf. on Document Analysis and Recognition, 2009.
Trang web [14] http://code.google.com/p/tesseract-ocr. [15] http://code.google.com/p/tesseractdotnet. [16] http://developer.android.com. [17] http://en.wikipedia.org [18] http://niitquangtrung.vn [19] http://translate.google.com/support [20] http://vi.wikipedia.org [21] http://www.scannermart.vn [22] http://www.vn-zoom.com.
PDF Merger
Thank you for evaluating AnyBizSoft PDF Merger! To remove this page, please
register your program!
Go to Purchase Now>>
Merge multiple PDF files into one
Select page range of PDF to merge
Select specific page(s) to merge
Extract page(s) from different PDF