DSpace at VNU: Nhận dạng chữ viết tay tiếng Việt trên các thiết bị cầm tay

17 184 0
DSpace at VNU: Nhận dạng chữ viết tay tiếng Việt trên các thiết bị cầm tay

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Lê Hùng NHẬN DẠNG CHỮ VIẾT TAY TIẾNG VIỆT TRÊN CÁC THIẾT BỊ CẦM TAY LUẬN VĂN THẠC SỸ Hà Nội - 2007 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ oo0oo Nguyễn Lê Hùng NHẬN DẠNG CHỮ VIẾT TAY TIẾNG VIỆT TRÊN CÁC THIẾT BỊ CẦM TAY Ngành: Công nghệ thông tin Mã số: 1.01.10 LUẬN VĂN THẠC SỸ NGƯỜI HƯỚNG DẪN KHOA HỌC TS Bùi Thế Duy : Hà Nội - 2007 BẢNG CÁC TỪ VIẾT TẮT Ký hiệu PDM OCR DTW DFT DCT Từ tiếng Anh Point Distribution Model Optical Character Recognition Dynamic Time Warping Discrete Fourier Transform Discrete Cosine Transform Giải thích Mơ hình phân bố điểm Nhận dạng ký tự quang học Warping thời gian động Biến đổi Fourier rời rạc Biến đổi Cosine rời rạc DANH MỤC CÁC HÌNH VẼ Hình 1.1 Mơ hình nhận dạng chữ viết tay trực tuyến 1 Hình 1.2 Thiết bị cầm tay Hình 1.3 Minh họa ký tự thu nhận người dùng viết nhanh Hình 1.4 Các cách viết khác cho ký tự N 2 Hình 1.5 A) Thòng lọng, B) Thòng lọng bị thu nhỏ, C) Thòng lọng chuyển thành đỉnh 2 Hình 1.6 Thay đổi cấu trúc ký tự thành dạng có thòng lọng 2 Hình 1.7 Ví dụ minh họa ký tự bao phủ ký tự khác Hình 2.1 Xóa ký tự trễ Hình 2.2 Các bước thực để lấy mẫu Hình 2.3 Minh họa bước lấy mẫu cho ký tự “a” (a) Ký tự gốc, (b) Sau chuẩn hóa kích thước giữa, (c) Sau lần lẫy mẫu thứ nhất, (d) Sau áp dụng lọc Gaussian (e) sau lần lấy mẫu cuối Hình 2.4 Ví dụ sửa lỗi “Xóa” Hình 2.5 Ví dụ sửa lỗi “Viết đè” Hình 2.6 Ví dụ loại lỗi “hồn thành” “chèn” Hình 2.7 Sơ đồ xử lý hiệu chỉnh tổng quát Hình 2.8 Chữ “Clintor” sau làm trơn Hình 2.9 ma trận khôi phục x ký hiệu cho bít có giá trị Hình 2.10 Minh họa cho thuật toán làm mảnh Hình 2.11 Ánh xạ điểm Hình 2.12 Chuẩn hóa kích thước ký tự Hình 2.13 Nội suy điểm bị dựa vào đường cong Bezier Hình 2.14 Xác định trọng tâm hai thành phần Hình 2.15 Từ “chat “ sau quay góc  Hình 2.16 Hiệu chỉnh góc nghiêng từ “about” Hình 2.17 Các ký tự có độ nghiêng khác Hình 2.18 Xác định đường thẳng hiệu chỉnh 4 Hình 2.19.Minh họa tính góc nghiêng trung bình Hình 2.20 Histogram thay đổi góc quay Hình 3.1 Tính khoảng cách hai thành phần Hình 3.2 Dòng văn trước sau phân tách Hình 3.3 Minh họa bước thuật toán cắt từ Hình 3.4 Hình chữ nhật nhỏ chứa dấu cụm ký tự Hình 3.5 Biểu diễn mối liên kết cụm ký tự dấu Hình 3.6 Minh họa từ “Chúng” cấu tạo từ cụm từ Hình 3.7 Các bước thực thuật toán cắt từ 5 Hình 3.8 Minh họa đường baseline Hình 3.9: Các điểm cắt ứng viên thay đổi áp dụng quy tắc Hình 3.10 Các điểm cắt thay đổi sau áp dụng quy tắc Hình 3.11 Dấu chấm giúp căt hai từ xác Hình 3.12 Sơ đồ kết hợp tách từ nhận dạng Hình 3.13 Xác định hướng viết Hình 3.14 Độ cong điểm (x(t),y(t)) Hình 3.15 Các điểm trội ký tự giá trị FI thay đổi Hình 4.1 Các bước thực thuật toán đối sánh mẫu nhị phân Hình 4.2 Ma trận điểm ảnh chia thành khối kích thước 2x2 Hình 4.3 Các kỹ thuật đối sánh đường cong Hình 4.4 Minh họa sau thực thuật toán lấy mẫu 6 Hình 4.5 Hướng viết biểu diễn tương ứng với giá trị nguyên Hình 4.6 Minh họa chuỗi biểu diễn ký tự A Hình 4.7 Các cách viết ký tự “A” Hình 4.8 Chuỗi biểu diễn tương ứng với cách viết ký tự “A” Hình 4.9 Biểu diễn đối tượng điểm Hình 4.10 Mơ hình PDM khúc xương Hình 4.11 Biểu đồ hình khối mức đỉnh hệ thống nhận dạng sử dụng Fourier Descriptors Hình 4.12 Biểu đồ khối chi tiết hệ thống nhận dạng sử dụng DFT 7 Hình 4.13 Các điểm biểu diễn đường cong Hình 4.14 Đường cong sau làm trơn Hình 4.15 Đường cong biểu diễn 64 điểm Hình 4.16: Đường cong xấp xỉ có xu hướng trở hình dạng cũ Hình 4.17 Đường cong xấp xỉ sau lần lặp Hình 4.18 Đường cong xấp xỉ thu sau lần lặp thứ Hình 4.19 Hình minh họa đường cong khơng đóng Hình 5.1 Các bước cài đặt chương trình Hình 5.2 Các nét bút thuộc dòng khác phân loại Hình 5.3 Chữ “nhanh” trước sau hiệu chỉnh góc nghiêng Hình 5.4 Xác định điểm cắt tiềm Hình 5.5 Từ “ngay” chia thành khối Hình 5.6 Minh họa phần lưu trữ nhớ Hình 5.7 Hiển thị kết nhận dạng hình MỞ ĐẦU Viết chữ cách tự nhiên để thu thập, lưu trữ truyền thông tin khơng người với mà người máy móc Các nỗ lực nghiên cứu lĩnh vực nhận dạng không cung cấp cách giao tiếp người máy giống viết giấy, mà cung cấp chương trình hiệu tự động xử lý lượng lớn tài liệu giấy để chuyển vào máy dạng tài liệu số hóa, nhận dạng hóa đơn chuyển tiền.v.v Từ phát minh máy vi tính, nhà nghiên cứu tập trung nghiên cứu cho máy tính bắt chước đọc giống người Trong suốt 40 năm nghiên cứu nhận dạng chữ viết nhà khoa học toàn giới, nhiều phương pháp nhận dạng đề xuất chưa có phương pháp cho tỉ lệ nhận dạng xác hồn tồn Ngày nay, thiết bị hỗ trợ cá nhân (PDA) ngày trở nên phổ biến, cung cấp nhiều ứng dụng hữu ích cho người dùng lịch làm việc, tìm kiếm, soạn thư điện tử v.v Các ứng dụng thu nhận liệu từ bàn phím qua hình cảm ứng Bàn phím thiết bị PDA thường nhỏ nên thu thập liệu qua bàn phím chậm khơng tự nhiên việc thu thập liệu qua việc sử dụng bút viết lên hình cảm ứng Dữ liệu thu nhận thơng qua hình cảm ứng tọa độ di chuyển bút viết với thông tin động khác tốc độ viết, góc bút viết sức ép bút, thứ tự nét viết hướng nét bút… Hệ thống nhận dạng trực tuyến nhận dạng hình ảnh tạo đường bút viết thành dạng văn để ứng dụng xử lý văn hiểu Các thơng tin động q trình viết sử dụng để nâng cao độ xác nhận dạng Đây khác biệt so với nhận dạng chữ không trực tuyến (off-line) Trong luận văn này, nghiên cứu đặc trưng tiếng Việt, số thuật toán sử dụng giai đoạn tiền xử lý, cắt chữ, nhận dạng để xây dựng hệ thống nhận dạng chữ viết tay tiếng Việt, quy tắc để kiểm tra từ tiếng Việt có hợp lệ hay không giai đoạn hậu xử lý Giai đoạn tách chữ ln giai đoạn khó việc xây dựng hệ thống nhận dạng ký tự, giải quyến vấn đề cách áp dụng thuật toán tách chữ off-line kết hợp với thông tin động thu trình viết chữ online để tăng độ xác việc tìm điểm cắt tiềm Các điểm cắt tiềm tổ hợp nhận dạng giai đoạn nhận dạng kết hợp với quy tắc giai đoạn hậu xử lý để tìm kết phù hợp Bố cục luận văn bao gồm phần mở đầu, phần kết luận chương nội dung tổ chức sau: Chương 1: Tổng quan hệ thống nhận dạng Chương trình bầy số khái niệm liên quan đến nhận dạng Các cách để phân loại hệ thống nhận dạng Chương 2: Tiền xử lý Trình bày số thuật toán sử dụng giai đoạn tiền xử lý bao gồm hiệu chỉnh lỗi viết tay, nội suy điểm mất, hiệu chỉnh góc nghiêng số vấn đề liên quan khác Chương 3: Cắt chữ trích chọn đặc trưng Trình bày số thuật toán dùng để cắt chữ off-line bao gồm cắt từ khỏi dòng văn bản, cắt ký tự, cách kết hợp cắt chữ nhận dạng để tăng độ xác Chương trình bày số cách trích chọn đặc trưng để dùng giai đoạn nhận dạng Chương 4: Một số phương pháp nhận dạng Trình bầy số phương pháp nhận dạng, cách phương pháp chủ yếu dựa điểm thu nhận trình viết Chương 5: Xây dựng chương trình nhận dạng chữ viết tay tiếng Việt on-line Trình bầy đánh giá thuật tốn sử dụng chương trình Demo kèm theo số kết cài đặt TỔNG QUAN VỀ HỆ THỐNG NHẬN DẠNG CHỮ VIẾT Giới thiệu Thông thường hệ thống nhận dạng chữ viết thực qua bước sau[11]: Tiền xử lý Phân loại Phân mảnh Gắn nhãn Trích chọn đặc trưng Tìm kiếm Hậu xử lý Ngơn ngữ mơ hình Giai đoạn tiền xử lý bao gồm bước hiệu chỉnh liệu vào, làm trơn, hiệu chỉnh góc nghiêng theo chiều ngang hay chiều thẳng đứng, chuẩn hóa kích thước, trích chọn đặc trưng Hình 1.1 hìnhcác nhận viếttiên tay trực tuyếncác từ khỏi Giai đoạn phân mảnh baoMô gồm dạng bước,chữ đầu tách dòng văn bản, sau tách riêng ký tự khỏi từ Thứ tự điểm ký tự tách giữ nguyên giống viết từ Giai đoạn trích chọn đặc trưng chọn đặc trưng ký tự để chuyển sang bước phân loại Đặc trưng trích chọn bước gồm nhiều loại phụ thuộc vào thuật tốn nhận dạng điểm trội, mã Free man, hướng di chuyển Ngơn ngữ mơ hình giảm thiểu q trình tìm kiếm Ngơn ngữ mơ hình gồm số loại sau:  Mơ hình dự đốn: Thường sử dụng nhận dạng âm Dựa bảng thống kê ký tự thường theo sau ký tự khác với xác suất Mơ hình dự đốn chủ yếu sử dụng kết hợp với phân tích ngữ cảnh hay sử dụng mơ hình Markov ẩn  Mơ hình mẫu: Tất mẫu ký tự lưu trữ sở liệu Mỗi ký tự có nhiều biến thể khác Kỹ thuật tìm kiếm tìm kiếm đường dẫn gần tất mẫu tự Một số kỹ thuật tìm kiếm thơng dụng lập trình động, tìm kiếm từ trái qua phải hay tìm kiếm Hậu xử lý bao gồm việc kiểm tra lại lần cuối kết nhận dạng trước hiển thị kết lên hình Lịch sử nhận dạng Cho đến nay, hệ thống nhận dạng phát triển từ nhiều năm, đến thập kỷ gần phát triển mạnh mẽ Người ta chia lịch sử phát triển hệ thống nhận dạng làm thời kỳ:[12] Thời ký thứ từ năm 1900 – 1980: Đây thời kỳ sơ khai Nhận dạng ký tự năm 1900 nhà khoa học người Nga nghiên cứu phát triển hệ thống trợ giúp cho người khuyết tật Hệ thống nhận dạng xuất vào năm 1940 với phát triển máy vi tính Trong thời kỳ này, hệ thống nhận dạng chủ yếu tập trung vào nhận dạng chữ in tập nhỏ ký tự viết tay Trong thời kỳ này, hệ thống nhận dạng chữ in chủ yếu sử dụng phương pháp đối sánh mẫu, ảnh cần nhận dạng đem so sánh với ảnh thư viện ảnh mẫu Với chữ viết tay, kỹ thuật xử lý ảnh mức thấp sử dụng để trích chọn vector đặc trưng sau phân loại Các thuật toán nhận dạng chủ yếu tập trung vào ký tự Latin số, có số nghiên cứu tập trung vào nhận dạng ký tự Japanese, Chinese, Hebrew, Indian, Cyrillic, Greek ký tự Arabic Các hệ thống nhận dạng thương mại xuất vào năm 1950 thiết bị điện tử có hình cảm ứng thu nhận tọa độ di chuyển bút cảm ứng xuất Các thiết bị giúp nhà nghiên cứu làm việc với vấn đề liên quan đến chữ viết tay trực tuyến 1980 –1990 Thời kỳ phát triển: Các nghiên cứu trước năm 1980 gặp nhiều khó khăn thiếu thiết bị máy tính có tốc độ cao thiết bị thu nhận liệu Từ năm 1980 trở đi, với bùng nổ công nghệ thông tin, thiết bị phần cứng có có tốc độ cao giúp cài đặt thuật tốn có độ phức tạp cao từ thời kỳ trước Từ năm 1990 đến – Thời kỳ tiến Đây thời kỳ phát triển mạnh mẽ lĩnh vực nhận dạng nhận dạng chữ in nhận dạng chữ viết tay, phần thiết bị phần cứng phát triển( máy tính có tốc độ cao, thiết bị thu nhận liệu máy quét, camara, thiết bị cảm ứng thu nhận kết xác hơn), phần lại có nhiều thuật tốn nhận dạng tốt tận dụng tốt đa các phương pháp mạng Neural, mơ hình Markov ẩn, v.v Tổng quan thiết bị cầm tay Trong phần này, đề cập đến thiết bị hỗ trợ thu nhận chữ viết tay, đặc trưng hệ điều hành thường dùng loại thiết bị Nhận dạng chữ viết tay trực tuyến việc chuyển tự động nét bút viết thiết bị số hóa PDA thành dạng văn bản.Các cảm ứng thiết bị thu thâp tọa độ di chuyển bút viết Các tính hiệu thu chuyển thành dạng mã ký tự để xử lý chương trình xử lý văn Các thành phần hệ thống nhận dạng chữ viết tay trực tuyến gồm:  Một bút cảm ứng để người viết viết lên hình cảm ứng  Một hình cảm ứng, nơi người viết viết văn hiển thị kết  Một ứng dụng dịch cử động người viết thành ký tự Nhận dạng chữ viết tay sử dụng rộng rãi để thu thập liệu cho thiết bị PDA thiết bị PDA thường khơng có bàn phím Thiết bị PDA hỗ trợ nhận dạng chữ viết tay Apple Newton Tuy nhiên thiết bị không thương mại hóa rộng khả nhận dạng Phiên Apple Newton Newton OS 2.0 Trong phiên này, độ xác cải thiện đáng kể bao gồm việc hiệu chỉnh lỗi trình viết Các thiết bị đời cố gắng tăng độ xác q trình nhận dạng, bao gồm: Go’ tablet computer sản xuất NCR, IBM sử dụng hệ điều hành Go’s Penpoint, IBM’s Thinkpad tablet computer sử dụng hệ điều hành Penpoint hệ thống nhận dạng sau Microsoft Windows for Pen IBM’s Pen for OS/2 Tuy nhiên chưa có hệ thống thương mại hóa rộng rãi Mãi đến có xuất máy Palm dựa hệ thống nhận dạng Graffiti@, hệ thống nhận dạng dựa việc định nghĩa tập nét bút cho ký tự Các hệ thống nhận dạng sau có độ xác cao tích hợp vào hệ điều hành Microsoft’s version of windows XP operating system for Tablet PCs Windows Mobile OS for PDAs Thiết bị cầm tay PDA(Personal Digital Assistant) thiết bị có kích thước nhỏ, có cấu trúc gần giống máy tính cá nhân Các thiết bị PDA cung TÀI LIỆU THAM KHẢO [1] Wolfgang Hurst, Jie Yang and Alex Waibel Error Repair in Human Handwriting – An Intelligent User Interface for Automatic On-Line Handwriting Recognition [2] R O Duda and P E Hart Use of the Hough transformation to detect lines and curves in pictures Communications of the ACM, 15(1): 11-15, 1972 [3] S Jaeger, S Manke, J Reichert and A Waibel Online handwriting recognition: the Npen++ recognizer [4] Niranjan Joshi, G Sita, A G Ramakrishnan and Srriganesh Madhvanath Comparison of elastic matching algorithms for on-line Tamil handwriting recognition [5] M Blumenstein, C K Cheng and X.Y Liu New preprocessing techniques for handwritten word recognition [6] Eiji Taira, Siichi Uchida and Hiroaki Sakoe Nonuniform Slant Correction for Handwriting word Recognition [7] B Gatos, I Pratikakis,A.L Kesidits, S.J Perantoniss Efficient Off-Line Cursive handwriting Word Recognition [8] U.-V Marti and H Bunke Text line segmentation and word recognition in a system for general writer independent handwriting recognition In Proc 6th Int Conference on Document Analysis and Recognition, pages 159–163, 2001 [9] Marcus Liwicki, Mathias Scherz and Horst Bunke Word Extraction from On-Line Handwritten Text Lines [10] Lei Huang, Genxun Wan, Changping Liu An Improved Parallel Thinning Algorithm [11] Jean R_ Ward and Thedore Kuklinski_ A Model for Variability E_ects in Handwriting Character Recognition Systems in IEEE Trans Sys Man Cybernetics Vol: 18, No3, pp: 438 – 451, 1988 _ [12] Nafir arica An off_line character recognition for free style handwring [13] Susan A Dey Adding Feedback to Improve segmentation and Recognition of Handwriting Numerals [14] M Morita, R Sabourin, F Bortolozzi and C Y Suen A Recognition and Verification Strategy for Handwriten Word Recognition [15] Ernesto Tapia and Raúl Rojas Recognition of On-line Handwriten Mathematical Formulas in the E-Chalk System [16] Nafiz Arica An Off-line Character recognition system for free style Handwriting [17] Ralph NIELS and Louis VUURPIJL Using Dynamic Time Warping for Intuitive Handwriting Recognition [18] Scott Connell A Comparison of Hidden Markov Model Features for the Recognition of Cursive Handwriting [19] Ming-Yen Tsai and Leu-Shing Lan Online Recognition of Chinese handwriting characters based on the point distribution model [20] Sung-Hyuk Cha, Yong-Chul Shin, Sargur N Srihari Approximate Stroke Sequence String Matching Algorithm for Character Recognition and Analysis [21] Vladislav G Polyakov, Mikhail A Ryleev And Boris E Gorbatov United States Patent Method And Apparatus For Pattern Recoginition And Representation Using Fourier Descriptors And Iterative Transforrmation Reparametrization [22] M Blumenstein And B Verma An Artificial Neural Network Based Segmentation Algorithm for Off-line Handwriting Recognition [23] L.R.B Schomaker, “User-Inerface Aspects in Recognizing Connected-Cursive Handwriting”, Proceedings of the IEE Colloquium on Handwriting and Pen-based input, 1994 ... lĩnh vực nhận dạng nhận dạng chữ in nhận dạng chữ viết tay, phần thiết bị phần cứng phát triển( máy tính có tốc độ cao, thiết bị thu nhận liệu máy quét, camara, thiết bị cảm ứng thu nhận kết... dùng loại thiết bị Nhận dạng chữ viết tay trực tuyến việc chuyển tự động nét bút viết thiết bị số hóa PDA thành dạng văn bản .Các cảm ứng thiết bị thu thâp tọa độ di chuyển bút viết Các tính hiệu... Hùng NHẬN DẠNG CHỮ VIẾT TAY TIẾNG VIỆT TRÊN CÁC THIẾT BỊ CẦM TAY Ngành: Công nghệ thông tin Mã số: 1.01.10 LUẬN VĂN THẠC SỸ NGƯỜI HƯỚNG DẪN KHOA HỌC TS Bùi Thế Duy : Hà Nội - 2007 BẢNG CÁC TỪ VIẾT

Ngày đăng: 18/12/2017, 06:02

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan