Với mong muốn tìm hiểu về lĩnh vực và một số công nghệ OCR tiên tiến, đồng thời mong muốn góp phần vào kho ứng dụng OCR hiện có một sản phẩm nguồn mở mới: một hệ thống trên thiết bị di[r]
(1)Xây dựng hệ thống nhận dạng dịch thiết bị di động
Phạm Phi Hiệu Trường Đại học Công nghệ
Luận văn Thạc sĩ ngành: Công nghệ Phần mềm; Mã số: 60 48 10 Người hướng dẫn: TS Kiều Văn Hưng
Năm bảo vệ: 2011
Abstract: Trình bày kiến thức tổng quan lĩnh vực OCR (Optical Character
Recognition) - Lĩnh vực nhận dạng ký tự quang học Tìm hiểu nội dung cơng nghệ mã nguồn mở Tesseract OCR, công nghệ Android, mô hình client/server, cơng nghệ dịch Google Translate Các cơng nghệ, mơ hình sử dụng để xây dựng hệ thống Giới thiệu kiến trúc thành phần hệ thống nhận dạng dịch thiết bị di động xây dựng Trình bày kết thực nghiệm chức rút trích thơng tin từ ảnh hệ thống so sánh sách tương đối kết OCR với số hệ thống khác
Keywords: Công nghệ mã nguồn mở; Dịch; Hệ thống nhận dạng; Ký tự quang học;
Thiết bị di động
Content
MỞ ĐẦU Đặt vấn đề
Từ lâu người quen với việc sử dụng máy tính để lưu trữ tài liệu cần thiết, xuất phát từ tiện ích to lớn máy tính mang lại: lưu trữ khối liệu lớn, bị hư hỏng, dễ quản lí, dễ tìm kiếm, dễ chỉnh sửa Tuy nhiên giấy vật liệu quan trọng đã, sử dụng để lưu trữ tài liệu cần thiết sống hàng ngày (ví dụ sách, báo ) Một nhu cầu tất yếu, người muốn đưa tài liệu lưu trữ giấy (cũng số vật liệu khác) lên máy tính để làm việc với chúng hiệu Một cách thông thường, người đánh máy trực tiếp tài liệu lên máy tính Đối với số lượng nhỏ tài liệu, việc hồn tồn bình thường Song khối lượng tài liệu khổng lồ (ví dụ kho sách), vấn đề nan giải; với việc đánh máy độ xác cao lại tốn nhiều thời gian, với cơng nghệ có cho phép ta giải vấn đề này: chụp ảnh tài liệu nhận dạng ký tự ảnh
(2)chỉnh sửa tìm kiếm Lĩnh vực OCR nhánh ngành khoa học xử lý ảnh, mẻ so với nhiều lĩnh vực khoa học khác nhanh chóng đạt nhiều bước tiến quan trọng Xuất phát từ nhu cầu thực tế đưa tài liệu lưu trữ giấy vào máy tính mà đánh máy, nhiều công nghệ OCR đời (phát hành dạng sản phẩm thương mại, miễn phí nguồn mở) ứng dụng rộng rãi lĩnh vực liên quan đến việc nhận dạng Với đầu tư mạnh mẽ nghiên cứu liên tục cá nhân tổ chức, kết nhận dạng lĩnh vực OCR ngày cải thiện, đặc biệt nhận dạng ký tự Latinh đánh máy tiến tới tỉ lệ xác 100% Ngồi cơng nghệ nhận dạng ký tự quang học OCR cịn có thêm nhiều chế nhận dạng tiêu biểu khác ứng dụng vào thực tế như: nhận dạng ký tự thông minh (Intelligent Character Recognition, viết tắt
ICR), nhận dạng vùng đánh dấu (Optical Mark Recognition, viết tắt OMR), nhận dạng chữ
mực từ (Magnetic Ink Character Recognition, viết tắt MICR), nhận dạng mã vạch (Barcode
Regconition)
Chúng ta thường thực cơng việc nhận dạng trực tiếp máy tính: dùng thiết bị thu ảnh để scan, chụp ảnh tài liệu đưa ảnh lên máy tính chạy ứng dụng nhận dạng cài đặt Điều thực làm việc nhà, quan với máy tính bên cạnh Tuy nhiên nhu cầu OCR xuất lúc nơi, ví dụ muốn lưu nhanh thơng tin name card mà người bạn đưa cho vào điện thoại mà nhập tay Song lúc mang bên máy scan, máy ảnh máy tính để hỗ trợ cho việc OCR Chưa kể muốn dịch nhanh bảng dẫn tiếng nước ngồi mà khơng có từ điển bên cạnh Một khó khăn ứng dụng OCR hiệu cho công việc lại đa phần tung dạng thương mại, muốn sử dụng phí khơng nhỏ Chính bất tiện thực tế trên, vấn đề đặt phải có hệ thống phần cứng-phần mềm nhỏ gọn, di động thực cách linh hoạt hiệu chức chụp ảnh tài liệu, OCR ảnh chụp dịch kết ngôn ngữ khác
Hiện cơng nghệ mạng internet phát triển mạnh mẽ, internet có mặt hầu hết khắp nơi giới Công nghệ di động phát triển vượt bậc, việc sử dụng điện thoại bùng nổ, điện thoại di động trở thành mặt hàng bình dân mà sở hữu Nhiều công nghệ OCR tiên tiến đưa dạng mã nguồn mở công ty, tổ chức lớn tài trợ phát triển Với tảng cơng nghệ có tạo nhiều giải pháp để xây dựng nhiều hệ thống có khả đáp ứng cao với vấn đề đặt
Mục tiêu nghiên cứu
(3)động chọn điện thoại di động chạy hệ điều hành nguồn mở Android Và từ luận văn lựa chọn đề tài nghiên cứu “Xây dựng hệ thống nhận dạng dịch thiết bị di động”
Nội dung nghiên cứu Về mặt lý thuyết:
- Nghiên cứu tổng quan lĩnh vực OCR, thành phần hệ thống OCR
- Nghiên cứu công nghệ mã nguồn mở Tesseract
- Nghiên cứu công nghệ mã nguồn mở Android - Nghiên cứu mơ hình client/server
- Nghiên cứu công nghệ dịch Google Translate
- Nghiên cứu phương pháp sửa lỗi tả tự động
Về mặt thực hành:
- Nghiên cứu xây dựng ứng dụng web service chạy server : sử dụng nguồn mở Tesseract để tạo module có chức OCR ảnh; sử dụng hàm API Google cung cấp để tạo module có chức dịch văn sang ngơn ngữ tùy chọn Web service cịn hỗ trợ chức hậu xử lý kết OCR tự động sửa lỗi tả ngơn ngữ tiếng Anh
- Nghiên cứu xây dựng ứng dụng client: sử dụng Android SDK để tạo
ứng dụng chạy điện thoại Android có chức chụp ảnh; gửi ảnh server nhận kết xử lý từ server trả về; quản lý nội dung thông tin rút trích từ ảnh
Bố cục luận văn
Ngoài phần mở đầu giới thiệu mục tiêu, ý nghĩa, tình hình nghiên cứu liên quan phần kết luận tóm tắt kết đạt đưa nhận xét; bố cục luận văn gồm chương chính:
Chương 1: Trình bày kiến thức tổng quan lĩnh vực OCR làm tảng cho nghiên cứu sau
Chương 2: Trình bày nội dung tìm hiểu cơng nghệ mã nguồn mở Tesseract OCR,
công nghệ Android, mô hình client/server, cơng nghệ dịch Google Translate Các cơng nghệ, mơ hình sử dụng để xây dựng hệ thống
(4)Chương 4: Trình bày kết thực nghiệm chức rút trích thơng tin từ ảnh hệ thống so sánh sách tương đối kết OCR với số hệ thống khác
References Tiếng Việt
[1] Đinh Điền (2005), Xử lý ngơn ngữ tự nhiên, Giáo trình, NXB ĐHQG TPHCM
[2] Nguyễn Quang Hoan (2006), Xử lý ảnh, Giáo trình, Học viện Cơng nghệ Bưu Viễn thơng
[3] Nguyễn Văn Huy (2009), Tìm hiểu phương pháp phân tích trang tài liệu, Luận văn Thạc sĩ, Đại học Thái Nguyên
[4] Đỗ Năng Tồn, Phạm Việt Bình (2007), Xử lý ảnh, Giáo trình, Đại học Thái Nguyên
Tiếng Anh
[5] Huang Xuguang, “An Introduction to Android”, Database Lab, Inha University, November 2009
[6] Hui-Fuang Ng*, “Automatic thresholding for defect detection”, February 2006 [7] K M Mohiuddlin, Jianchang Mao, “Optical Character Recognition”, 27 Dec 1999
[8] J van Beusekom, F Shafait, T M Breuel, “Combined orientation and skew detection using geometric text-line modeling”, International Journal on Document Analysis and Recognition, Vol 13, No (1 June 2010), pp 79-92
[9] F Shafait, T M Breuel, “A simple and effective approach for border noise removal from document images”, in 13th IEEE Int Multi-topic Conference, Islamabad, Pakistan, Dec 2009 [10] R Smith, “A simple and efficient skew detection algorithm via text row accumulation”,
Proc 3rd Int Conf on Document Analysis and Recognition, 1995, pp1145-1148
[11] R Smith, “An overview of the Tesseract OCR Engine”, Proc 9th Int Conf on Document Analysis and Recognition, 2007, pp629-633
[12] R Smith, D Antonova, D Lee, “Adapting the Tesseract open source OCR engine for multilingual OCR”, in Proceedings of the International Workshop on Multilingual OCR, 2009
[13] R Smith, “Hybrid Page Layout Analysis via Tab-Stop Detection, Document Analysis and Recognition” Proc 10th Int Conf on Document Analysis and Recognition, 2009
(5)[16] http://developer.android.com [17] http://en.wikipedia.org [18] http://niitquangtrung.vn
[19] http://translate.google.com/support [20] http://vi.wikipedia.org
ư: nhận dạng ký tự thông minh ] http://developer.android.com. ] http://niitquangtrung.vn ] http://www.vn-zoom.com.