Nâng cao chất lượng hệ thống nhập dữ liệu tự động theo FORM

Nâng cao chất lượng hệ thống nhập dữ liệu tự động theo FORM Nguyễn Quang Trường Đại học Công nghệ Luận văn ThS. Chuyên ngành: Công nghệ thông tin; Mã số: 60 48 05 Người hướng dẫn: PGS.TS. Đỗ Năng Toàn Năm bảo vệ: 2010 Abstract: Trình bày tổng quan về xử lý ảnh, các phương pháp biểu diễn ảnh, biểu diễn Form tài liệu. Trình bày một số kỹ thuật phát hiện và hiệu chỉnh góc nghiêng ảnh văn bản, độ dịch chuyển, khử nhiễu, … Cài đặt chương trình thử nghiệm phát hiện góc nghiêng văn bản và chỉnh lại văn bản nhờ các kỹ thuật tìm hiểu được, qua đó giúp nâng cao chất lượng ảnh form dữ liệu đầu vào cho các hệ thống nhận dạng Form mẫu Keywords: Công nghệ thông tin; Xử lý ảnh; Dữ liệu; Xử lý văn bản Content: PHẦN MỞ ĐẦU Ngày nay, với sự thịnh hành của máy tính và sự phát triển của xã hội, số lượng những tài liệu lưu trữ trên giấy đã tăng lên đáng kể. Hàng tỷ tỷ những trang giấy được tạo ra mỗi năm dưới nhiều hình thức khác nhau như sách báo, tạp chí, bản tin, văn bản, thư từ, biểu mẫu, bảng ghi nhớ, … trên khắp thế giới, và việc sử dụng giấy để lưu trữ tài liệu trong một số mục đích vẫn không thể thay thế được (như sách báo, công văn, văn bản pháp luật…). Trong số những tài liệu này, có rất nhiều thông tin cần phải được lưu trữ vào máy tính để xử lý, chẳng hạn như các phiếu điều tra của các nhà sản xuất muốn điều tra thị hiếu và mức tiêu thụ sản phẩm, các nhà hoạch định chính sách muốn có những cuộc điều tra để xây dựng những chính sách phù hợp với thực tế, các k thi trắc nghiệm trên giấy, hoặc các tờ kê khai thuế mà doanh nghiệp phải nộp cho cơ quan thuế, hải quan, và rất nhiều lý do khác. Các tài liệu giấy có thể được số hoá và lưu trữ trong máy tính bằng máy quét, máy fax, nhưng làm thế nào để chuyển từ tài liệu giấy thành dạng máy có thể hiểu và xử lý được? Câu hỏi đó đã khiến các chuyên gia trong lĩnh vực Công nghệ thông tin phải đầu tư, nghiên cứu. Cách thủ công nhất đó là nhập lại nội dung của văn bản thông qua bàn phím và tất nhiên, đó là công việc đòi hỏi tốn rất nhiều công sức, thời gian và nhân lực, thậm chí không thể thực hiện được với một số lượng cực lớn những tài liệu giấy. Hiện nay chúng ta đã có các máy Scan với tốc độ cao, công nghệ xử lý của máy tính ngày càng siêu việt với tốc độ tính toán cao, vậy tại sao chúng ta không quét toàn bộ các trang tài liệu vào và chuyển chúng thành văn bản một cách tự động? Vấn đề ở đây là khi quét vào máy tính chúng ta không thu được ngay các dòng văn bản từ các trang tài liệu kia để có thể soạn thảo, sửa chữa và tìm kiếm như làm trên Office. Tất cả những gì thu được chỉ là các tấm ảnh của các trang văn bản, máy tính lại đối xử công bằng như nhau với mọi điểm ảnh, máy tính không có “mắt” như chúng ta để biết đâu là điểm ảnh của chữ, đâu là điểm ảnh của đối tượng đồ họa. Một giải pháp có thể đáp ứng được những yêu cầu đó là xây dựng một hệ thống nhận dạng quang học (OCR - Optical Character Recognition system), ở đó, mỗi văn bản sẽ được scan bằng máy scaner thành một file ảnh, hệ thống OCR sẽ phân tích file ảnh đó để nhận biết nội dung của tài liệu đó là gì (xem hình 0.1): Hình 0.1: Hệ thống OCR Một cách tổng quát thì cách thức làm việc của một hệ thống nhận dạng chữ như sau: 1. Chụp ảnh, scan các trang tài liệu trên giấy và lưu lại trong máy tính dưới dạng hình ảnh. 2. Sử dụng một chương trình xử lý ảnh để phân tích hình ảnh sau khi quét, đọc được ký tự trên hình ảnh đó và ghi lại vào máy tính theo cách mà máy tính quản lý được thông tin đó. a. Bước 1 là phân tích cấu trúc của ảnh tài liệu, từ đó xác định đâu là phần chứa chữ, đâu là phần chứa cả ảnh lẫn ký tự và đâu chỉ chứa hình ảnh. Bước này thực sự quan trọng cho bước nhận dạng. Bởi nó định vị chính xác cho việc áp dụng các thuật toán nhận dạng lên vùng đã xác định tính chất. b. Bước 2 nhận dạng ký tự dựa vào các tính chất của ký tự, ví dụ như sắp xếp theo dòng, khoảng cách giữa 2 từ lớn hơn khoảng cách giữa 2 ký tự, dùng trí tuệ nhân tạo để dự đoán các ký tự kề nhau phải như thế nào, các từ trong câu phải như thế nào để câu có nghĩa. Từ đó có nội dung đúng để lưu trữ, quản lý…. Hệ thống nhập liệu tự động OCR là bài toán ngày càng thu hút nhiều sự chú ý vì khả năng áp dụng rộng rãi vào thực tế và những hiệu quả mà nó mang lại, có thể kể đến một số ứng dụng như: - Sắp xếp thư tín, dựa vào việc nhận dạng mã bưu chính (Zipcode) hay địa chỉ gửi tới. - Tự động thu thập dữ liệu từ các mẫu đơn/báo biểu hay từ các hồ sơ lao động. - Hệ thống tự động kiểm tra trong ngân hàng (tự động xác nhận chữ ký) - Tự động xử lý các hóa đơn hay các yêu cầu thanh toán - Hệ thống tự động đọc và kiểm tra passport - Tự động phục hồi và copy tài liệu từ các ảnh quét. - Máy đọc cho những người khiếm thính - Các ứng dụng Datamining - … Kỹ thuật nhập liệu tự động liên quan chặt chẽ với đồ hoạ, nhận dạng và thuật xử lý ảnh. Sự phát triển nhanh chóng của công nghệ thông tin trên cả hai lĩnh vực phần cứng và phần mềm đã cho phép kỹ thuật nhập liệu tự động phát triển theo nhiều phương hướng khác nhau và đã đạt được những thành công nhất định. Tuy vậy trong thực tế, việc hiện thực một hệ thống OCR để có thể đưa ra được những kết quả chính xác một cách tự động, không cần bất cứ một sự chỉnh sửa nào là một vấn đề vô cùng khó khăn. Những vấn đề thường gặp phải trong quá trình thu nhận đó là: nhiễu, độ lệch, độ dịch chuyển, xoay, biến dạng v.v của phiếu điều tra, cũng như vấn đề tách được các đối tượng hình học được dùng để đánh dấu trong phiếu. Xuất phát từ thực tế đó, luận văn nhằm nghiên cứu một số kỹ thuật xử lý ảnh giúp nâng cao chất lượng ảnh Form đầu vào nhằm nâng cao chất lượng các hệ thống nhận dạng Form mẫu. Đây là một việc làm có ý nghĩa khoa học và ý nghĩa thực tiễn trong hoàn cảnh của Việt Nam. Luận văn được trình bày 3 chương như sau: Chương 1 trình bày tổng quan về xử lý ảnh, các phương pháp biểu diễn ảnh, biểu diễn Form tài liệu. Chương 2 trình bày một số kỹ thuật phát hiện và hiệu chỉnh góc nghiêng ảnh văn bản, độ dịch chuyển, khử nhiễu, … Chương 3 cài đặt chương trình thử nghiệm phát hiện góc nghiêng văn bản và chỉnh lại văn bản nhờ các kỹ thuật tìm hiểu được, qua đó giúp nâng cao chất lượng ảnh form dữ liệu đầu vào cho các hệ thống nhận dạng Form mẫu TÀI LIỆU THAM KHẢO [1]. Junichi Kanai, Andrew D. Bagdanov. Projection profile based skew estimation algorithm for JBIG compressed images. Information Science Research Institute, University of Nevada, Las Vegas, USA, 1997 [2]. JONATHAN J. HULL. Document image skew detection: survey and annotated bibliography. Ricoh California Research Center, 2882 Sand Hill Road, Suite 115, Menlo Park, CA 94025 [3]. Yue Lu *, Chew Lin Tan, A nearest neighbor chain based approach to skew estimation in document images. Department of Computer Science, School of Computing, National University of Singapore, 2003. [4]. H F.Jiang, C C.Han, and K C.Fan. A fast approach to the detection and correction of skew documents. Pattern Recognition Letters, Vol.18, No.7, pp.675-686, 1997. [5]. Pal, U., Chaudhuri, B.B. An improved document skew angle estimation technique. Pattern Reconigtion Letters 17:8, 899-904 (1996). [6]. Sauvola, J., Pietikäinen, M. Skew angle detection using texual diection analysis. In: Proc 9th Scandinavian Conf, on Image Analysis, Sweden, 1995. [7]. Pal, U and B.B Chudhiri. An Improved document skew angle estimation techique, Pattern Reconigtion Letters 17 Computer Vision and Pattern Reconigtion Units, Indian Statistical Institue, Kolkatta, Indian, 1996, pp 899-904. [8]. Huiyma and Zhenwei Yu. An Enhanced Skew Angle Estimation Techique for Binary Document Image, Bejjing Grauate School of China University of Mining and Technology, Beijjing China, 1999. [9]. X, Jaing, H, Bunke, D, Widmer-Kljajo. Skew detection of document image by focused nearest-neighbour-clustering. Proc. Of the 5th International Conference on Document Analysis and Recognition, Bangalore. Pp. 629-632,1999. [10]. N. Liolios, N. Fakotkis and G. Kokkinakis. Improved Document Dkew Detection based on text line connection component clustering. Proc of International Conference on Image Processing, Thessaloniki, vol.1, pp 1098-1101, 2001. [11]. H. F Jiang, C.C Han, C.K Fan. A fast Aproach to the Detecion and Correction of Skew Document . Pattern Reconigtion Letter, vol.18, pp675-686,1997. [12]. A.K. Das, B.Chada. A fast algorithm for skew detection of document images using morphological. Proc of International Journal on Document Analysis and Recognition, vol.4, No.2 pp109-114, 2001. . Nâng cao chất lượng hệ thống nhập dữ liệu tự động theo FORM Nguyễn Quang Trường Đại học Công nghệ Luận văn ThS. Chuyên ngành: Công nghệ thông tin; Mã số: 60 48. thuật tìm hiểu được, qua đó giúp nâng cao chất lượng ảnh form dữ liệu đầu vào cho các hệ thống nhận dạng Form mẫu Keywords: Công nghệ thông tin; Xử lý ảnh; Dữ liệu; Xử lý văn bản Content: PHẦN. địa chỉ gửi tới. - Tự động thu thập dữ liệu từ các mẫu đơn/báo biểu hay từ các hồ sơ lao động. - Hệ thống tự động kiểm tra trong ngân hàng (tự động xác nhận chữ ký) - Tự động xử lý các hóa

Định dạng
Số trang	5
Dung lượng	238,26 KB