1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Luận văn thạc sĩ VNU UET nhận dạng chữ viết tay tiếng việt trên các thiết bị cầm tay luận văn ths công nghệ thông tin 1 01 10

100 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nhận dạng chữ viết tay tiếng việt trên các thiết bị cầm tay
Tác giả Nguyễn Lê Hùng
Người hướng dẫn TS. Bùi Thế Duy
Trường học Đại học quốc gia Hà Nội
Chuyên ngành Công nghệ thông tin
Thể loại luận văn thạc sĩ
Năm xuất bản 2007
Thành phố Hà Nội
Định dạng
Số trang 100
Dung lượng 1,86 MB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Lê Hùng NHẬN DẠNG CHỮ VIẾT TAY TIẾNG VIỆT TRÊN CÁC THIẾT BỊ CẦM TAY LUẬN VĂN THẠC SỸ Hà Nội - 2007 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ oo0oo Nguyễn Lê Hùng NHẬN DẠNG CHỮ VIẾT TAY TIẾNG VIỆT TRÊN CÁC THIẾT BỊ CẦM TAY Ngành: Công nghệ thông tin Mã số: 1.01.10 LUẬN VĂN THẠC SỸ NGƯỜI HƯỚNG DẪN KHOA HỌC TS Bùi Thế Duy : Hà Nội - 2007 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com BẢNG CÁC TỪ VIẾT TẮT DANH MỤC CÁC HÌNH VẼ MỞ ĐẦU CHƯƠNG TỔNG QUAN VỀ HỆ THỐNG NHẬN DẠNG CHỮ VIẾT 11 1.1 Giới thiệu 11 1.2 Lịch sử nhận dạng 12 1.3 Tổng quan thiết bị cầm tay 13 1.4 Hệ thống nhận dạng ký tự tự động(ACR) 16 1.4.1 Phận loại hệ thống dựa thiết bị thu nhận liệu 16 1.4.2 Phân loại hệ thống dựa vào kiểu văn 18 CHƯƠNG TIỀN XỬ LÝ 24 2.1 Phát nét bút trễ 24 2.2 Lấy mẫu 24 2.3 Hiệu chỉnh lỗi trình viết chữ 27 2.3.1 Các lỗi thường gặp trình viết .27 2.3.2 Các lỗi hệ thống nhận dạng chữ viết tay trực tuyến 27 2.3.3 Hiệu chỉnh lỗi viết tay on-line 28 2.4 Làm trơn 32 2.5 Thuật toán làm mảnh 33 2.6 Chuẩn hóa kích thước 35 2.7 Nội suy điểm bị 36 2.7.1 Sử dụng đường cong Bezier 36 2.7.2 Thuật toán vẽ đường thằng Bresenham .38 2.8 Hiệu chỉnh góc nghiêng 40 2.8.1 Hiệu chỉnh góc nghiêng theo phương nằm ngang .40 2.8.2 Hiệu chỉnh góc nghiêng theo phương thẳng đứng .43 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com CHƯƠNG CẮT CHỮ VÀ TRÍCH CHỌN ĐẶC TRƯNG 48 3.1 Cắt từ khỏi dòng văn 48 3.1.1 Cắt dựa vào trọng lực 48 3.1.2 Cải tiến thuật toán cắt từ 50 3.1.3 Biểu diễn cụm ký tự dấu 51 3.2 Cắt ký tự khỏi từ 52 3.2.1 Ước lượng chiều rộng cao ký tự .52 3.2.2 Cắt thuật toán mẹo .53 3.2.3 Cắt tập quy tắc 55 3.2.4 Sử dụng thông tin phụ để tăng độ xác 57 3.2.5 Kết hợp cắt từ nhận dạng 59 3.3 Trích chọn đặc trưng 60 3.3.1 Hướng viết 60 3.3.2 Xác định độ cong 61 3.4 Pen-up/pen-down 61 3.5 Lượng tử hóa độ nghiêng 61 3.6 Xác định điểm trội 62 CHƯƠNG MỘT SỐ PHƯƠNG PHÁP NHẬN DẠNG 63 4.1 Đối sánh nhị phân 63 4.2 Warping thời gian động 65 4.3 Đối sánh chuỗi 66 4.3.1 Trích chọn chuỗi nét bút liền kề(stroke sequence strings) 67 4.3.2 Đối sánh chuỗi nét bút liền kề 67 4.4 Nhận dạng dựa vào mơ hình phân bố điểm(PDM) 71 4.4.1 Căn thẳng hàng tập huấn luyện 71 4.4.2 Phân tích thành phần 73 4.4.3 Nhận dạng sử dụng PDM .75 4.5 Sử dụng Fourier Descriptor(FD) 75 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com CHƯƠNG XÂY DỰNG CHƯƠNG TRÌNH NHẬN DẠNG TIẾNG VIỆT ONLINE 86 5.1 Mô tả 86 5.2 Tiền xử lý 87 5.2.1 Tìm điểm bị .87 5.2.2 Tách dòng văn 87 5.2.3 Tách từ khỏi dòng văn 87 5.2.4 Bỏ dấu tiếng việt ước lượng chiều rộng ký tự 88 5.2.5 Hiệu chỉnh góc nghiêng .89 5.2.6 Xác định điểm cắt tiềm 89 5.3 Nhận dạng ký tự 92 5.4 Hậu xử lý 92 5.5 Kết luận 94 KẾT LUẬN 95 TÀI LIỆU THAM KHẢO 96 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com BẢNG CÁC TỪ VIẾT TẮT Ký hiệu Từ tiếng Anh Giải thích PDM Point Distribution Model Mơ hình phân bố điểm OCR Optical Character Recognition Nhận dạng ký tự quang học DTW Dynamic Time Warping Warping thời gian động DFT Discrete Fourier Transform Biến đổi Fourier rời rạc DCT Discrete Cosine Transform Biến đổi Cosine rời rạc LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com DANH MỤC CÁC HÌNH VẼ Hình 1.1 Mơ hình nhận dạng chữ viết tay trực tuyến 11 Hình 1.2 Thiết bị cầm tay 15 Hình 1.3 Minh họa ký tự thu nhận người dùng viết nhanh 18 Hình 1.4 Các cách viết khác cho ký tự N 22 Hình 1.5 A) Thịng lọng, B) Thịng lọng bị thu nhỏ, C) Thòng lọng chuyển thành đỉnh 22 Hình 1.6 Thay đổi cấu trúc ký tự thành dạng có thịng lọng 22 Hình 1.7 Ví dụ minh họa ký tự bao phủ ký tự khác 23 Hình 2.1 Xóa ký tự trễ 24 Hình 2.2 Các bước thực để lấy mẫu 25 Hình 2.3 Minh họa bước lấy mẫu cho ký tự “a” (a) Ký tự gốc, (b) Sau chuẩn hóa kích thước giữa, (c) Sau lần lẫy mẫu thứ nhất, (d) Sau áp dụng lọc Gaussian (e) sau lần lấy mẫu cuối 26 Hình 2.4 Ví dụ sửa lỗi “Xóa” 28 Hình 2.5 Ví dụ sửa lỗi “Viết đè” 28 Hình 2.6 Ví dụ loại lỗi “hồn thành” “chèn” 28 Hình 2.7 Sơ đồ xử lý hiệu chỉnh tổng quát 30 Hình 2.8 Chữ “Clintor” sau làm trơn 32 Hình 2.9 ma trận khơi phục x ký hiệu cho bít có giá trị 35 Hình 2.10 Minh họa cho thuật tốn làm mảnh 35 Hình 2.11 Ánh xạ điểm 35 Hình 2.12 Chuẩn hóa kích thước ký tự 36 Hình 2.13 Nội suy điểm bị dựa vào đường cong Bezier 37 Hình 2.14 Xác định trọng tâm hai thành phần 41 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Hình 2.15 Từ “chat “ sau quay góc  41 Hình 2.16 Hiệu chỉnh góc nghiêng từ “about” 42 Hình 2.17 Các ký tự có độ nghiêng khác 43 Hình 2.18 Xác định đường thẳng hiệu chỉnh 44 Hình 2.19.Minh họa tính góc nghiêng trung bình 45 Hình 2.20 Histogram thay đổi góc quay 47 Hình 3.1 Tính khoảng cách hai thành phần 48 Hình 3.2 Dịng văn trước sau phân tách 49 Hình 3.3 Minh họa bước thuật toán cắt từ 50 Hình 3.4 Hình chữ nhật nhỏ chứa dấu cụm ký tự 52 Hình 3.5 Biểu diễn mối liên kết cụm ký tự dấu 52 Hình 3.6 Minh họa từ “Chúng” cấu tạo từ cụm từ 53 Hình 3.7 Các bước thực thuật toán cắt từ 55 Hình 3.8 Minh họa đường baseline 56 Hình 3.9: Các điểm cắt ứng viên thay đổi áp dụng quy tắc 56 Hình 3.10 Các điểm cắt thay đổi sau áp dụng quy tắc 57 Hình 3.11 Dấu chấm giúp căt hai từ xác 58 Hình 3.12 Sơ đồ kết hợp tách từ nhận dạng 59 Hình 3.13 Xác định hướng viết 60 Hình 3.14 Độ cong điểm (x(t),y(t)) 61 Hình 3.15 Các điểm trội ký tự giá trị FI thay đổi 62 Hình 4.1 Các bước thực thuật tốn đối sánh mẫu nhị phân 63 Hình 4.2 Ma trận điểm ảnh chia thành khối kích thước 2x2 64 Hình 4.3 Các kỹ thuật đối sánh đường cong 65 Hình 4.4 Minh họa sau thực thuật tốn lấy mẫu 66 Hình 4.5 Hướng viết biểu diễn tương ứng với giá trị nguyên 67 Hình 4.6 Minh họa chuỗi biểu diễn ký tự A 67 Hình 4.7 Các cách viết ký tự “A” 69 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Hình 4.8 Chuỗi biểu diễn tương ứng với cách viết ký tự “A” 69 Hình 4.9 Biểu diễn đối tượng điểm 71 Hình 4.10 Mơ hình PDM khúc xương 74 Hình 4.11 Biểu đồ hình khối mức đỉnh hệ thống nhận dạng sử dụng Fourier Descriptors 76 Hình 4.12 Biểu đồ khối chi tiết hệ thống nhận dạng sử dụng DFT 77 Hình 4.13 Các điểm biểu diễn đường cong 78 Hình 4.14 Đường cong sau làm trơn 79 Hình 4.15 Đường cong biểu diễn 64 điểm 79 Hình 4.16: Đường cong xấp xỉ có xu hướng trở hình dạng cũ 81 Hình 4.17 Đường cong xấp xỉ sau lần lặp 82 Hình 4.18 Đường cong xấp xỉ thu sau lần lặp thứ 83 Hình 4.19 Hình minh họa đường cong khơng đóng 83 Hình 5.1 Các bước cài đặt chương trình 86 Hình 5.2 Các nét bút thuộc dịng khác phân loại 87 Hình 5.3 Chữ “nhanh” trước sau hiệu chỉnh góc nghiêng 89 Hình 5.4 Xác định điểm cắt tiềm 90 Hình 5.5 Từ “ngay” chia thành khối 91 Hình 5.6 Minh họa phần lưu trữ nhớ 91 Hình 5.7 Hiển thị kết nhận dạng hình 94 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com MỞ ĐẦU Viết chữ cách tự nhiên để thu thập, lưu trữ truyền thông tin không người với mà người máy móc Các nỗ lực nghiên cứu lĩnh vực nhận dạng không cung cấp cách giao tiếp người máy giống viết giấy, mà cịn cung cấp chương trình hiệu tự động xử lý lượng lớn tài liệu giấy để chuyển vào máy dạng tài liệu số hóa, nhận dạng hóa đơn chuyển tiền.v.v Từ phát minh máy vi tính, nhà nghiên cứu tập trung nghiên cứu cho máy tính bắt chước đọc giống người Trong suốt 40 năm nghiên cứu nhận dạng chữ viết nhà khoa học toàn giới, nhiều phương pháp nhận dạng đề xuất chưa có phương pháp cho tỉ lệ nhận dạng xác hồn tồn Ngày nay, thiết bị hỗ trợ cá nhân (PDA) ngày trở nên phổ biến, cung cấp nhiều ứng dụng hữu ích cho người dùng lịch làm việc, tìm kiếm, soạn thư điện tử v.v Các ứng dụng thu nhận liệu từ bàn phím qua hình cảm ứng Bàn phím thiết bị PDA thường nhỏ nên thu thập liệu qua bàn phím chậm khơng tự nhiên việc thu thập liệu qua việc sử dụng bút viết lên hình cảm ứng Dữ liệu thu nhận thơng qua hình cảm ứng tọa độ di chuyển bút viết với thông tin động khác tốc độ viết, góc bút viết sức ép bút, thứ tự nét viết hướng nét bút… Hệ thống nhận dạng trực tuyến nhận dạng hình ảnh tạo đường bút viết thành dạng văn để ứng dụng xử lý văn hiểu Các thơng tin động trình viết sử dụng để nâng cao độ xác nhận dạng Đây khác biệt so với nhận dạng chữ không trực tuyến (off-line) LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Tập hệ số tạo độ cosin {Fk, Gk} tính theo cơng thức F0  1 / N  xn  , n Fk  2 / N  xn cosktn  , n G0  1 / N   y n  , n Gk  2 / N   y n cosktn  n tn = (n+1)/2)/N, n = 0, , N-1, k = 0, , P-1 Biến đổi Cosin rời rạc ngược thu N điểm theo công thức: xn   Fk cosktn  n y n   Gk cosktn  n tn = (n+1)/2)/N, n = 0, , N-1, k = 0, , P-1 Tập huấn luyện lưu trữ vector OCD đánh nhãn tương ứng với ký tự số nét bút tạo thành ký tự Khi có ký tự cần đối sánh, vector OCD {F‟k, G‟k} tính đối sánh với vector {Fk,Gk} tập huấn luyện phương pháp hàng xóm gần Nếu Vector OCD tập mẫu có khoảng cách Euclidian d nhỏ với vector cần đối sánh nhãn vector ký tự cần nhận dạng[21]   d  SQRT  Fk  Fk'  G k  Gk'  k      Trong trình học mẫu, ta sử dụng tỉ lệ r để kiểm soát việc học 84 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Nếu r lớn ngưỡng R < 1(Bằng thực nghiệm R =0.7[21]) ký tự nhận dạng cần phải bổ sung vào tập mẫu 85 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com CHƢƠNG XÂY DỰNG CHƢƠNG TRÌNH NHẬN DẠNG TIẾNG VIỆT ONLINE 5.1 Mô tả Hệ thống nhận dạng chữ viết tay trực tuyến thiết bị cầm tay xây dựng hệ thống xử lý văn thu nhận liệu qua bàn phím nét bút viết hình cảm ứng Khi người sử dụng viết lên hình cảm ứng, sau khoảng thời gian định(Khoảng 1- giây) kể từ lần chạm bút cuối vào hình, module nhận dạng nhận dạng nét bút chuyển kết vào module xử lý văn Hệ thống nhận dạng tiếng Việt demo sử dụng chuột thay cho bút cảm ứng, ngơn ngữ lập trình C# mơi trường lập trình Microsoft Visual Studio 2003, tổng nhớ sử dụng 10 MB Các bước cài đặt chương trình thực theo sơ đồ sau: Tọa độ di chuyển Tìm điểm bút viết bị Cắt ký tự Hiệu chỉnh góc Tách dịng Tách từ nghiêng Nhận dạng Hậu xử lý Hiển thị kết Hình 5.1 Các bước cài đặt chương trình 86 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 5.2 Tiền xử lý 5.2.1 Tìm điểm bị Tốc độ xử lý thiết bị cầm tay ngày cho phép thu nhận tọa độ bút viết với hiệu cao trường hợp người viết viết nhanh, điểm cịn thiếu hai điểm nét bút tính cách sử dụng thuật tốn vẽ đường thẳng Bresenham trình bày mục 2.7.2 5.2.2 Tách dòng văn Người viết viết từ nhiều dịng khác khoảng cách dịng khơng cố định Các dịng văn tách cách tính hình chữ nhật nhỏ bao quanh nét bút, nét bút có hình chữ nhật nhỏ bao quanh chồng lên theo phương nằm ngang lớn ngưỡng(khoảng 1/4 chiều cao hình chữ nhật bao quanh nét bút thứ 2) coi thuộc dòng Ví dụ nét bút tạo thành chữ “Chiều trời” đưa vào dòng “Chiều nay” “trời” Hình 5.2 Các nét bút thuộc dịng khác phân loại 5.2.3 Tách từ khỏi dịng văn Các từ viết hình cảm ứng bị thụt lên xuống không khơng có dịng kẻ để đánh dấu dịng Do ta khơng thể áp dụng tính góc nghiêng cho dịng giống nhận dạng chữ viết tay off-line mà phải tách dòng văn thành từ tính góc nghiêng cho từ 87 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Ngưỡng để phân tách từ tính cách áp dụng thuật tốn trình bày mục 3.1.1 với giá trì  1.1 Bằng thực nghiệm cho thấy thuật toán cho kết phân tách tốt(100%) trường hợp khoảng trắng từ xa Nếu khoảng cách từ nhỏ giá trị ngưỡng không đáng kể, ta đánh giấu điểm lại Sau nhận dạng xong ta thử tách từ nhận dạng thành hai từ vị trí đánh dấu kiểm tra theo quy tắc đề cập phần hậu xử lý để kiểm tra xem việc tách có phù hợp hay khơng Nếu phù hợp hệ thống tất kết lên cho người dùng chọn lựa kết 5.2.4 Bỏ dấu tiếng việt ƣớc lƣợng chiều rộng ký tự Sau hiệu chỉnh góc nghiêng từ, đường baseline từ tính cách tìm điểm có Histogram theo phương thẳng đứng lớn gần với điểm cuối từ Sau tính đường baseline ta đánh dấu nét bút nằm đường baseline có khả dấu Các dấu phía từ dấu sau (“?”,””,”\”,”-”,/”) Dấu phía từ dấu “.” Dấu xác định dựa vào số lượng điểm chiều rộng dài hình chữ nhật nhỏ bao quanh dấu Các nét bút gán nhãn có tiềm dấu kiểm tra lại lần để kiểm tra xem có dấu hay khơng cách kiểm tra xem nét bút có cắt nét bút chắn dấu hay không diện tích cắt có nhiều hay khơng Sau loại bỏ nét bút có khả dấu ta tính đường baseline Chiều rộng ký tự nằm khoảng từ ½(baseline – baseline trên) tới khoảng (baseline – baseline trên)*2.5 88 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 5.2.5 Hiệu chỉnh góc nghiêng Góc nghiêng theo phương thẳng đứng theo phương nằm ngang ký tự tính dựa thuật toán đề cập mục 2.8.1.2 2.8.2.2 Góc nghiêng theo phương nằm ngang tính cho ký tự một, nhiên góc nghiêng theo phương thẳng đứng áp dụng cho tất ký người viết thường giữ nguyên góc nghiêng cho tất từ Hình 5.3 Chữ “nhanh” trước sau hiệu chỉnh góc nghiêng 5.2.6 Xác định điểm cắt tiềm Để xác định điểm cắt tiềm năng, sử dụng thuật tốn cắt chữ offline trình bày mục [4.2.3] đồng thời đưa vào thông tin động để làm tăng độ xác việc xác định điểm cắt tiềm Thuật toán cắt ký tự online trình bày sau:  Đánh dấu điểm cuối nét bút điểm cắt tiềm Trong hầu hết trường hợp điểm cuối nét bút điểm cuối ký tự 89 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com  Xây dựng ma trận đặc trưng MT biểu diễn đặt trưng theo cột ma trận nhị phân từ Các đặt trưng bao gồm: Cột đen(Số điểm đen cột lớn lần số điểm đên trung bình tất cột), vịng lặp,  Đi từ trái qua phải ma trận MT thực theo quy tắc sau: Nếu gặp cột đen vịng lặp, tiếp tục tiếp khơng cịn gặp cột đen cột có vịng lặp Sau tiếp tục di chuyển tiếp gặp cột đen vòng lặp Đánh dấu điểm dừng lại kiểm tra Nếu điểm dừng gần so với điểm cắt xác định cuối nét bút bỏ qua điểm thực tiếp bước Ngược lại đánh dấu điểm điểm cắt Nếu khoảng cách trung bình ký tự đánh dấu điểm cắt vi trí lên xuống nét bút Hình 5.4 Xác định điểm cắt tiềm Đường thẳng đứng biểu điễn điểm cắt tiềm Đường thẳng ngang biểu diễn đường baseline trên, 90 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Các điểm cắt chia từ “ngay” thành khối sau: Hình 5.5 Từ “ngay” chia thành khối Sau thu vị trí cắt, ta ghép vị trí lại với Để tránh việc nhận dạng lại khối, ta biểu diễn kết nhận dạng ghép khối lại dạng cây.Các vị trí ghép với khoảng cách chúng nhỏ khích thước ước lượng ký tự Nếu nhánh có tỉ lệ nhận dạng q thấp khơng mở rộng nhánh Ở ví dụ trên, lưu giữ thể sau:  v i n  Hình 5.6 Minh họa phần lưu trữ nhớ 91 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Sau cắt kết hợp nhận dạng ta kết “vigoiiy”, “ngoiiy”, “ngouy”, “ngay” 5.3 Nhận dạng ký tự Trong hệ thống nhận dạng demo này, sử dụng hai phương pháp nhận dạng đối sánh mẫu đối sánh chuỗi đề cập mục 4.1 4.3 Lý chọn hai phương pháp phương pháp thứ hai dùng để kiểm tra lại kết phương pháp thứ liệu mẫu cho hai phương pháp đơn giản, dễ thực Chiều rộng chiều cao ký tự mẫu lấy cố định 40 x 40, với kích thước ký bị nhầm lẫn Như mẫu phương pháp đối sánh nhị phân biểu diễn 100 bit Sau nhận dạng ký tự phương pháp đối sánh mẫu nhị phân, ký tự có khả năng(tỉ lệ sai mẫu thấp) kết nhận dạng lưu lại sử dụng phương pháp đối sánh chuỗi để đối sánh mẫu lưu trữ ký tự có khả kết với mẫu cần nhận dạng Tổng hợp hai phương pháp cho kết cuối Ví dụ với ký tự “e” ký tự “o” người viết viết xấu hai ký tự tương đối giống nhau, phương pháp đối sánh bít hai ký tự tương đối giống phương pháp đối sánh chuỗi hai ký tự lại khác Mỗi lần nhận dạng ta lưu lại kết ký tự cho độ xác cao Các kết kiểm tra bước hậu xử lý để chọn kết mặt cú pháp tiếng Việt 5.4 Hậu xử lý Tiếng Việt phong phú đa dạng, khó có để biểu diễn ngữ cảnh tất từ Trong hệ thống này, sử dụng quy tắc đứng trước sau ký tự tiếng Việt để kiểm tra xem từ có hợp lệ hay khơng Bảng 92 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com sau thống kê xem sau ký tự có ký tự khơng dấu đứng sau Ký tự Các ký tự đứng sau a n,i,o,u,y,t,c,n,m b i,o,a,e,u c a, e, i, o, u d a, o, e, i, u e o, n,m,u g a, e, i, h, u,o h a, o, i, e, u,y i u,n,m k h,a,i,y,o,e,u l a,e,i,o,u,y m a,e,i,o,u,y n a,e,i,o,u,y,g,h o a,i,e,m,n,o,u,c,t p a,e,i,o,u,h,y q u r a,i,u,y,o s a,i,o,u,y,e t a,o,i,e,u,y,h u u,n,y,a,i,e,t,n,m,c v a,e,i,u,y y e Ở ví dụ trên, kết “vigoiiy”, “ngoiiy”, “ngouy” bị loại bỏ, có kết “ngay” chấp nhận Sau thu kết “ngay” ta ghép dấu sắc nhận dạng riêng để thu chữ hoàn chỉnh “ngày” 93 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Hình 5.7 Hiển thị kết nhận dạng hình 5.5 Kết luận Việc xác định đồng thời nhiều vị trí cắt thời điểm sử dụng quy tắc thứ tự từ tiếng Việt qua trình nhận dạng đảm bảo cho thuật tốn ln chọn vị trí cắt xác tương ứng với kết nhận dạng tốt Trong trường hợp người dùng viết chữ đều, rõ ràng, tỉ lệ xác định xác điểm cắt cao Tuy nhiên số trường hợp người sử dụng viết dấu xa, gần với ký tự dấu viết to nhiều so với tỉ lệ ký tự, đường baseline bị tính sai dẫn tới việc cắt ký tự bị sai 94 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com KẾT LUẬN Hệ thống nhận dạng chữ viết tay tiếng Việt Online thiết bị cầm tay cung cấp cho người sử dụng thêm cách giao tiếp với thiết bị, làm cho thiết bị cầm tay thuận tiện Với cách giao tiếp này, thiết bị cầm tay giống tờ giấy để viết chữ Hệ thống nhận dạng Online xây dựng thành chương trình thường trú hay chương trình nhúng, tất ứng dụng liên quan đến việc xử lý văn sử dụng chương trình để thu thập liệu đầu vào Nhận dạng chữ viết tay trực tuyến khác so với nhận dạng chữ viết tay không trực tuyến (offline) thông tin động viết tốc độ viết, góc bút viết sức ép bút, thứ tự nét viết hướng nét bút… Trong luận văn sử dụng thuật toán nhận dạng chữ viết tay off-line kết hợp với thuật toán nhận dạng chữ viết tay on-line để xây dựng hệ thống nhận dạng chữ tiếng Việt on-line Cụ thể luận văn đạt số kết sau: - Trình bày số khái niệm nhận dạng - Trình bày số phương pháp dùng gian đoạn tiền xử lý - Trình bày số thuật tốn nhận dạng - Xây dựng hệ thống nhận dạng chữ tiếng Việt on-line Hướng nghiên cứu - Nghiên cứu phương pháp nhận dạng sử dụng mạng Nơ ron, Mơ hình Markov ẩn 95 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com TÀI LIỆU THAM KHẢO [1] Wolfgang Hurst, Jie Yang and Alex Waibel Error Repair in Human Handwriting – An Intelligent User Interface for Automatic On-Line Handwriting Recognition [2] R O Duda and P E Hart Use of the Hough transformation to detect lines and curves in pictures Communications of the ACM, 15(1): 11-15, 1972 [3] S Jaeger, S Manke, J Reichert and A Waibel Online handwriting recognition: the Npen++ recognizer [4] Niranjan Joshi, G Sita, A G Ramakrishnan and Srriganesh Madhvanath Comparison of elastic matching algorithms for on-line Tamil handwriting recognition [5] M Blumenstein, C K Cheng and X.Y Liu New preprocessing techniques for handwritten word recognition [6] Eiji Taira, Siichi Uchida and Hiroaki Sakoe Nonuniform Slant Correction for Handwriting word Recognition [7] B Gatos, I Pratikakis,A.L Kesidits, S.J Perantoniss Efficient Off-Line Cursive handwriting Word Recognition [8] U.-V Marti and H Bunke Text line segmentation and word recognition in a system for general writer independent handwriting recognition In Proc 6th Int Conference on Document Analysis and Recognition, pages 159–163, 2001 [9] Marcus Liwicki, Mathias Scherz and Horst Bunke Word Extraction from On-Line Handwritten Text Lines [10] Lei Huang, Genxun Wan, Changping Liu An Improved Parallel Thinning Algorithm 96 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com [11] Jean R_ Ward and Thedore Kuklinski_ A Model for Variability E_ects in Handwriting Character Recognition Systems in IEEE Trans Sys Man Cybernetics Vol: 18, No3, pp: 438 – 451, 1988 [12] Nafir arica An off_line character recognition for free style handwring [13] Susan A Dey Adding Feedback to Improve segmentation and Recognition of Handwriting Numerals _ [14] M Morita, R Sabourin, F Bortolozzi and C Y Suen A Recognition and Verification Strategy for Handwriten Word Recognition [15] Ernesto Tapia and Raúl Rojas Recognition of On-line Handwriten Mathematical Formulas in the E-Chalk System [16] Nafiz Arica An Off-line Character recognition system for free style Handwriting [17] Ralph NIELS and Louis VUURPIJL Using Dynamic Time Warping for Intuitive Handwriting Recognition [18] Scott Connell A Comparison of Hidden Markov Model Features for the Recognition of Cursive Handwriting [19] Ming-Yen Tsai and Leu-Shing Lan Online Recognition of Chinese handwriting characters based on the point distribution model [20] Sung-Hyuk Cha, Yong-Chul Shin, Sargur N Srihari Approximate Stroke Sequence String Matching Algorithm for Character Recognition and Analysis [21] Vladislav G Polyakov, Mikhail A Ryleev And Boris E Gorbatov United States Patent Method And Apparatus For Pattern Recoginition And Representation Using Fourier Descriptors And Iterative Transforrmation Reparametrization [22] M Blumenstein And B Verma An Artificial Neural Network Based Segmentation Algorithm for Off-line Handwriting Recognition [23] L.R.B Schomaker, “User-Inerface Aspects in Recognizing ConnectedCursive Handwriting”, Proceedings of the IEE Colloquium on Handwriting and Pen-based input, 1994 97 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Thank you for evaluating AnyBizSoft PDF Merger! To remove this page, please register your program! Go to Purchase Now>> AnyBizSoft PDF Merger  Merge multiple PDF files into one  Select page range of PDF to merge  Select specific page(s) to merge  Extract page(s) from different PDF files download and merge into one AN VAN CHAT LUONG : add luanvanchat@agmail.c ... HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ oo0oo Nguyễn Lê Hùng NHẬN DẠNG CHỮ VIẾT TAY TIẾNG VIỆT TRÊN CÁC THIẾT BỊ CẦM TAY Ngành: Công nghệ thông tin Mã số: 1. 01. 10 LUẬN VĂN THẠC SỸ NGƯỜI HƯỚNG DẪN... MỤC CÁC HÌNH VẼ Hình 1. 1 Mơ hình nhận dạng chữ viết tay trực tuyến 11 Hình 1. 2 Thiết bị cầm tay 15 Hình 1. 3 Minh họa ký tự thu nhận người dùng viết nhanh 18 Hình 1. 4 Các cách viết. .. 12 1. 3 Tổng quan thiết bị cầm tay 13 1. 4 Hệ thống nhận dạng ký tự tự động(ACR) 16 1. 4 .1 Phận loại hệ thống dựa thiết bị thu nhận liệu 16 1. 4.2 Phân loại hệ thống dựa vào kiểu văn

Ngày đăng: 05/12/2022, 17:29

HÌNH ẢNH LIÊN QUAN

BẢNG CÁC TỪ VIẾT TẮT - Luận văn thạc sĩ VNU UET nhận dạng chữ viết tay tiếng việt trên các thiết bị cầm tay  luận văn ths  công nghệ thông tin 1 01 10
BẢNG CÁC TỪ VIẾT TẮT (Trang 6)
Hình 1.1. Mơ hình nhận dạng chữ viết tay trực tuyến - Luận văn thạc sĩ VNU UET nhận dạng chữ viết tay tiếng việt trên các thiết bị cầm tay  luận văn ths  công nghệ thông tin 1 01 10
Hình 1.1. Mơ hình nhận dạng chữ viết tay trực tuyến (Trang 13)
Hình 1.5. A) Thòng lọng, B) Thòng lọng bị thu nhỏ, C) Thòng lọng chuyển thành đỉnh  - Luận văn thạc sĩ VNU UET nhận dạng chữ viết tay tiếng việt trên các thiết bị cầm tay  luận văn ths  công nghệ thông tin 1 01 10
Hình 1.5. A) Thòng lọng, B) Thòng lọng bị thu nhỏ, C) Thòng lọng chuyển thành đỉnh (Trang 24)
Hình 2.2: Các bước thực hiện để lấy mẫu bằng nhau - Luận văn thạc sĩ VNU UET nhận dạng chữ viết tay tiếng việt trên các thiết bị cầm tay  luận văn ths  công nghệ thông tin 1 01 10
Hình 2.2 Các bước thực hiện để lấy mẫu bằng nhau (Trang 27)
Hình sau đây minh họa ký tự “a” sau mỗi bước xử lý - Luận văn thạc sĩ VNU UET nhận dạng chữ viết tay tiếng việt trên các thiết bị cầm tay  luận văn ths  công nghệ thông tin 1 01 10
Hình sau đây minh họa ký tự “a” sau mỗi bước xử lý (Trang 28)
Hình 2.7. Sơ đồ xử lý hiệu chỉnh tổng quát - Luận văn thạc sĩ VNU UET nhận dạng chữ viết tay tiếng việt trên các thiết bị cầm tay  luận văn ths  công nghệ thông tin 1 01 10
Hình 2.7. Sơ đồ xử lý hiệu chỉnh tổng quát (Trang 32)
Bƣớc 1: Tạo một bảng tìm kiếm gồm các ma trận 3*3 như sau: - Luận văn thạc sĩ VNU UET nhận dạng chữ viết tay tiếng việt trên các thiết bị cầm tay  luận văn ths  công nghệ thông tin 1 01 10
c 1: Tạo một bảng tìm kiếm gồm các ma trận 3*3 như sau: (Trang 35)
Hình 2.12. Chuẩn hóa kích thước của ký tự khi chuyển thành dạng nhị phân - Luận văn thạc sĩ VNU UET nhận dạng chữ viết tay tiếng việt trên các thiết bị cầm tay  luận văn ths  công nghệ thông tin 1 01 10
Hình 2.12. Chuẩn hóa kích thước của ký tự khi chuyển thành dạng nhị phân (Trang 38)
i+1) là điểm thuộc đoạn thẳng (xem hình trên). Ta có y:= m(x - Luận văn thạc sĩ VNU UET nhận dạng chữ viết tay tiếng việt trên các thiết bị cầm tay  luận văn ths  công nghệ thông tin 1 01 10
i +1) là điểm thuộc đoạn thẳng (xem hình trên). Ta có y:= m(x (Trang 40)
Hình 2.16. Hiệu chỉnh góc nghiêng của từ “about”. (a). Sau khi thực hiện phép chiếu theo ngang; (b) - Luận văn thạc sĩ VNU UET nhận dạng chữ viết tay tiếng việt trên các thiết bị cầm tay  luận văn ths  công nghệ thông tin 1 01 10
Hình 2.16. Hiệu chỉnh góc nghiêng của từ “about”. (a). Sau khi thực hiện phép chiếu theo ngang; (b) (Trang 44)
Hình 2.19.Minh họa tính góc nghiêng trung bình - Luận văn thạc sĩ VNU UET nhận dạng chữ viết tay tiếng việt trên các thiết bị cầm tay  luận văn ths  công nghệ thông tin 1 01 10
Hình 2.19. Minh họa tính góc nghiêng trung bình (Trang 47)
Hình 2.20. Histogram khi thay đổi góc quay - Luận văn thạc sĩ VNU UET nhận dạng chữ viết tay tiếng việt trên các thiết bị cầm tay  luận văn ths  công nghệ thông tin 1 01 10
Hình 2.20. Histogram khi thay đổi góc quay (Trang 49)
Trong đó (xd1,yd1),(xd2,yd2) là hai điểm biểu diễn hình chữ nhất nhỏ nhất chứa đấu. (xh11,yh11),( xh12,yh12) là hai điểm biểu diễn hình chữ nhật chứa cụm  ký tự - Luận văn thạc sĩ VNU UET nhận dạng chữ viết tay tiếng việt trên các thiết bị cầm tay  luận văn ths  công nghệ thông tin 1 01 10
rong đó (xd1,yd1),(xd2,yd2) là hai điểm biểu diễn hình chữ nhất nhỏ nhất chứa đấu. (xh11,yh11),( xh12,yh12) là hai điểm biểu diễn hình chữ nhật chứa cụm ký tự (Trang 54)
Hình 3.6. Minh họa từ “Chúng” được cấu tạo từ 3 cụm từ - Luận văn thạc sĩ VNU UET nhận dạng chữ viết tay tiếng việt trên các thiết bị cầm tay  luận văn ths  công nghệ thông tin 1 01 10
Hình 3.6. Minh họa từ “Chúng” được cấu tạo từ 3 cụm từ (Trang 55)
Hình 3.9. Các điểm cắt ứng viên thay đổi khi áp dụng quy tắ c1Hình 3.8. Minh họa các đường baseline  - Luận văn thạc sĩ VNU UET nhận dạng chữ viết tay tiếng việt trên các thiết bị cầm tay  luận văn ths  công nghệ thông tin 1 01 10
Hình 3.9. Các điểm cắt ứng viên thay đổi khi áp dụng quy tắ c1Hình 3.8. Minh họa các đường baseline (Trang 58)
Hình 3.11. Dấu chấm giúp căt hai từ chính xác - Luận văn thạc sĩ VNU UET nhận dạng chữ viết tay tiếng việt trên các thiết bị cầm tay  luận văn ths  công nghệ thông tin 1 01 10
Hình 3.11. Dấu chấm giúp căt hai từ chính xác (Trang 60)
Hình 3.12. Sơ đồ kết hợp giữa tách từ và nhận dạng - Luận văn thạc sĩ VNU UET nhận dạng chữ viết tay tiếng việt trên các thiết bị cầm tay  luận văn ths  công nghệ thông tin 1 01 10
Hình 3.12. Sơ đồ kết hợp giữa tách từ và nhận dạng (Trang 61)
Hình 3.14. Độ cong tại điểm (x(t),y(t)) - Luận văn thạc sĩ VNU UET nhận dạng chữ viết tay tiếng việt trên các thiết bị cầm tay  luận văn ths  công nghệ thông tin 1 01 10
Hình 3.14. Độ cong tại điểm (x(t),y(t)) (Trang 63)
Hình 4.1. Các bước thực hiện thuật toán đối sánh mẫu nhị phân - Luận văn thạc sĩ VNU UET nhận dạng chữ viết tay tiếng việt trên các thiết bị cầm tay  luận văn ths  công nghệ thông tin 1 01 10
Hình 4.1. Các bước thực hiện thuật toán đối sánh mẫu nhị phân (Trang 65)
Hình 4.3. Các kỹ thuật đối sánh đường cong. Các đường cong (a) và (b) được đối sánh với nhau sử dụng (c) Đối sánh tuyến tính(Tất cả các điểm i của  đường cong a được đối sánh với điểm i của đường cong b) (d) Đối sánh hoàn  toàn(tất cả các điểm của đường c - Luận văn thạc sĩ VNU UET nhận dạng chữ viết tay tiếng việt trên các thiết bị cầm tay  luận văn ths  công nghệ thông tin 1 01 10
Hình 4.3. Các kỹ thuật đối sánh đường cong. Các đường cong (a) và (b) được đối sánh với nhau sử dụng (c) Đối sánh tuyến tính(Tất cả các điểm i của đường cong a được đối sánh với điểm i của đường cong b) (d) Đối sánh hoàn toàn(tất cả các điểm của đường c (Trang 67)
Hình 4.4. Minh họa sau khi thực hiện thuật toán lấy mẫu - Luận văn thạc sĩ VNU UET nhận dạng chữ viết tay tiếng việt trên các thiết bị cầm tay  luận văn ths  công nghệ thông tin 1 01 10
Hình 4.4. Minh họa sau khi thực hiện thuật toán lấy mẫu (Trang 68)
Hình 4.8. Chuỗi biểu diễn tương ứng với các cách viết ký tự “A” - Luận văn thạc sĩ VNU UET nhận dạng chữ viết tay tiếng việt trên các thiết bị cầm tay  luận văn ths  công nghệ thông tin 1 01 10
Hình 4.8. Chuỗi biểu diễn tương ứng với các cách viết ký tự “A” (Trang 71)
Hình 4.10. Mơ hình PDM của một khúc xương. Các dấu chấm chỉ vị trí ranh giới của đốt xương, hình được tạo bởi đường thẳng là hình trung bình  - Luận văn thạc sĩ VNU UET nhận dạng chữ viết tay tiếng việt trên các thiết bị cầm tay  luận văn ths  công nghệ thông tin 1 01 10
Hình 4.10. Mơ hình PDM của một khúc xương. Các dấu chấm chỉ vị trí ranh giới của đốt xương, hình được tạo bởi đường thẳng là hình trung bình (Trang 76)
Bắt giữ hình ảnhBiểu diễn tham số rời rạc khởi  - Luận văn thạc sĩ VNU UET nhận dạng chữ viết tay tiếng việt trên các thiết bị cầm tay  luận văn ths  công nghệ thông tin 1 01 10
t giữ hình ảnhBiểu diễn tham số rời rạc khởi (Trang 79)
Hình 4.16: Đường cong xấp xỉ có xu hướng trở về hình dạng cũ khi bước lặp tăng lên  - Luận văn thạc sĩ VNU UET nhận dạng chữ viết tay tiếng việt trên các thiết bị cầm tay  luận văn ths  công nghệ thông tin 1 01 10
Hình 4.16 Đường cong xấp xỉ có xu hướng trở về hình dạng cũ khi bước lặp tăng lên (Trang 83)
Hình 5.1. Các bước cài đặt chương trình - Luận văn thạc sĩ VNU UET nhận dạng chữ viết tay tiếng việt trên các thiết bị cầm tay  luận văn ths  công nghệ thông tin 1 01 10
Hình 5.1. Các bước cài đặt chương trình (Trang 88)
Hình 5.3. Chữ “nhanh” trước và sau khi hiệu chỉnh góc nghiêng - Luận văn thạc sĩ VNU UET nhận dạng chữ viết tay tiếng việt trên các thiết bị cầm tay  luận văn ths  công nghệ thông tin 1 01 10
Hình 5.3. Chữ “nhanh” trước và sau khi hiệu chỉnh góc nghiêng (Trang 91)
Hình 5.6. Minh họa một phần cây lưu trữ trong bộ nhớ - Luận văn thạc sĩ VNU UET nhận dạng chữ viết tay tiếng việt trên các thiết bị cầm tay  luận văn ths  công nghệ thông tin 1 01 10
Hình 5.6. Minh họa một phần cây lưu trữ trong bộ nhớ (Trang 93)
Hình 5.7. Hiển thị kết quả nhận dạng ra màn hình - Luận văn thạc sĩ VNU UET nhận dạng chữ viết tay tiếng việt trên các thiết bị cầm tay  luận văn ths  công nghệ thông tin 1 01 10
Hình 5.7. Hiển thị kết quả nhận dạng ra màn hình (Trang 96)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w