CHƯƠNG 2: TỔNG QUAN VỀ NHẬN DẠNG NÓI CHUNG
2.2. Giới thiệu về nhận dạng chữ viết tay
Trong vài thập kỷ qua, với sự tiến bộ của công nghệ, các máy tính tương tác nhiều hơn, hiệu quả hơn với con người và thế giới tự nhiên, ví dụ như: nhận diện giọng nói, chữ viết tay, cử chỉ,… Tuy nhiên, con người vượt trội so với máy móc trong nhận dạng mẫu. Một số nhiệm vụ nói chung là dễ dàng với con người chẳng hạn như nhận dạng giọng nói ở tần số cao, tốc dộ cao, nhận diện mùi hương của hoa, xác định ký tự,….Nhưng những bài toán cảm nhận này lại rất khó cho máy tính bởi vì dữ liệu hỗn hợp lớn và thông tin ẩn trong mỗi loại mô hình.
22 Nhận dạng chữ viết tay là một phân vùng trong nhận dạng mẫu, cho phép máy có thể phân tích và xác định ký tự. Trong sự tò mò để hiểu và khám phá bí mật về cách con người có thể nhận ra các mẫu hình, nhiều nỗ lực cố gắng trong lĩnh vực này để bắt chước hành vi của con người. Nhận dạng ký tự viết tay là một ví dụ, ở đó chữ viết tay được sử dụng để tạo ra thông tin giao tiếp qua các biểu tượng trên một bề mặt nào đó. Kể từ rất lâu rồi, giấy đã được sử dụng là bề mặt phổ biến để viết.
Trước sự tiến bộ của công nghệ, hiện nay một bề mặt mới được tạo ra. Đó là màn hình cảm ứng cảm nhận độ nhạy áp lực lên bề mặt. Trên cơ sở bề mặt được sử dụng, công nghệ nhận dạng chữ viết tay được chia làm hai loại: trực tuyến và ngoại tuyến.
Quá trình chuyển đổi trong lĩnh vực máy tính cá nhân từ máy để bàn cho đến thiết bị cầm tay, nó đòi hỏi một sự thay đổi trong cách thức nhập phù hợp với một tay hơn là bàn phím. Nhận dạng chữ viết tay trực tuyến cho phép các phương thức đầu vào như vậy. Trong nhận diện chữ viết tay trực tuyến, các từ được viết trên mộ bề mặt cảm ứng, cho thông tin thời gian thực, chẳng hạn như thứ tự của nét chữ của người viết được thu nhận và lưu trữ dưới dạng tọa độ hai chiều của các điểm liên tiếp nhau. Máy tính có thể lưu trữ một lượng rất lớn thông tin chỉ trong một con chip nhỏ, do đó giảm thiểu không gian lưu trữ. Tuy nhiên, dữ liệu lớn trên thế giới vẫn tồn tại trên giấy, như những tài liệu lịch sử quan trọng, sách, hồ sơ,… Việc chuyển đổi yêu cầu chuyển thông tin văn bản trên giấy sang lưu trữ dưới dạng điện tử. Quá trình này gọi là số hóa. Lợi ích của số hóa bao gồm giảm không gian lưu trũ, dễ dàng sửa đổi, tìm kiếm nhanh, truy xuất nhanh hơn, suy luận các thông tin mới từ dữ liệu hiện có.
Có hai cách thông thường cho việc số hóa: một là nhập liệu dữ liệu có sẵn trên giấy một cách thủ công bằng sức người, hai là sử dụng các thiết bị điện tử như máy quét. Trong cách tiếp cận cũ, nơi con người tiến hành số hóa, nó đòi hỏi rất nhiều công sức từ con người, chi phí cho việc nhập liệu bằng tay là rất lớn. Trong khi đó, sử dụng máy móc trong quá trình số hóa sẽ chuyển đổi một mảnh giấy sang
23 một định dạng điện tử-ảnh. So sánh hai cách tiếp cận này, cách một có lợi thế khi dữ liệu có thể được cập nhật dễ dàng trong quá trình nhập nếu có thay đổi nhưng hạn chế về thời gian, công sức. Cách hai có lợi thế khi lưu trữ dưới dạng ảnh, có thể chuyển đổi sang dạng văn bản chỉnh sửa được, qua đó dễ dàng trong việc tìm kiếm, xóa bỏ, cập nhật thông tin.
Chuyển đổi hình ảnh thành dạng văn bản chỉnh sửa được đòi hỏi phải định danh các ký tự từ ảnh đầu vào có được sau khi số hóa thông tin từ giấy, chúng ta gọi là nhận dạng ký tự ngoại tuyến. Chữ có sẵn trên giấy có thể là viết tay hoặc in máy.
Trong nhận dạng chữ viết tay ngoại tuyến, thông tin là tĩnh. Nhận dạng chữ viết tay ngoại tuyến là quá trình tìm kiếm các chữ cái, từ ngữ trong ảnh. Khả năng nhận dạng chữ viết tay là một thách thức nghiên cứu vì sự biến đổi của một loạt các tham số. Các thuật toán nhận dạng ký tự khác nhau bởi vì thực tế rằng, mặc dù tài liệu được viết với chỉ một bộ ngôn ngữ nhưng có rất nhiều yếu tố ảnh hưởng đến việc nhận dạng. Có thể kể ra như sau: bộ tiêu chuẩn các chữ cái (tiếng Anh, tiếng Việt,…), quy định về hướng viết (từ trái qua phải, từ phải qua trái, từ trên xuống dưới,…), hay kịch bản viết (cẩu thả, nghiêng, cách điệu,…)[8].
Đặc trưng bản thảo ngôn ngữ
Tính chất của kich bản viết
Hướng viết
Tập chữ cái Tiếng Anh (A-Z, a-z) Ả rập
Từ trái qua phải theo phương ngang Từ phải qua trái theo
phương ngang Từ trên xuống, trái qua
phải
Từ trên xuống, phải qua trái
Viết cong, không cong, ký tự sửa đổi, tiêu đề dòng
Hình 2-3: Các đặc trưng của kịch bản ngôn ngữ [11]
24 Để chi tiết hơn về sự khác nhau giữa nhận dạng chữ in và chữ viết tay, phần dưới đây sẽ nói về hai loại này.
Hình 2-4: Các phân vùng của nhận dạng chữ [15]
2.2.1. Nhận dạng chữ in
Nếu một tài liệu chữ in được quét và chuyển đổi thành dạng ảnh, việc tìm kiếm thông tin từ đó là không thể. Do đó việc chuyển đổi sang dạng chỉnh sửa được là vấn đề cần nghiên cứu.
Các công cụ nhận dạng chữ in sẽ chuyển đổi ảnh sang văn bản định dạng Unicode hoặc ASCII. Nhận dạng chữ in là dễ dàng hơn so với chữ viết tay, vì tất cả mỗi ký tự đều giống nhau xuyên suốt văn bản từ hình dạng, kiểu cách, kích thước.
Tuy nhiên, vấn đề đặt ra là sẽ phải có hai bộ nhận dạng cho hai loại văn bản chữ in sử dụng một phông chữ, hoặc nhiều phông chữ.
Văn bản sử dụng một phông chữ sẽ rất dễ dàng cho việc nhận dạng vì mỗi ký tự đều giống nhau trong toàn bộ văn bản.
25 Văn bản sử dụng nhiều phông chữ sẽ có một chút thách thức khi không biết trước có bao nhiêu phông chữ được sử dụng. Một vài phông nhìn gần giống nhau nhưng khi phóng to lên sẽ có sự khác biệt về độ đậm nhạt, độ cong, kích thước,…
2.2.2. Nhận dạng chữ viết tay
Trong kỷ nguyên số hóa, các thiết bị điện tử thực sự trở nên thông minh hơn, đòi hỏi một giao tiếp đơn giản giữa máy tính và con người. Nhận dạng chữ viết tay tự động là một trong những lĩnh vực có ứng dụng rộng rãi. Lĩnh vực này thu hút nghiên cứu nhưng cũng đầy thách thức. Chữ viết của người này khác nhười khác, đôi khi nó cũng là đặc trưng để xác định chữ của người nào. Hay có những lúc mà chúng ta cũng không thể hiểu nội dung được viết bởi một người khác. Đây đúng là một lĩnh vực hấp dẫn cho các nhà nghiên cứu để tìm ra cách giải quyết với độ chính xác cao. Chúng ta xét hai hướng của nhận dạng chữ viết tay[12].
2.2.2.1. Hệ thống nhận dạng chữ viết tay trực tuyến
Ở hệ thống này, người dùng được cho phép sử dụng chiếc bút điện tử hoặc đầu ngón tay để tạo ra chữ viết, nó tạo ra sự tiện lợi và tự nhiên để nhập liệu khi sử dụng các thiết bị cầm tay. Trong nhận dạng trực tuyết, thông tin về hướng và các đặc trưng của ký tự sẽ được thu thập. Việc nhập liệu trực tuyến là rất tiện lợi cho con người khi chúng ta không cần quan tâm đến khía cạnh kỹ thuật, công nghệ của thiết bị, chỉ đơn giản là sử dụng các thiết bị hỗ trợ hay đầu ngón tay để nhập liệu theo phong cách riêng của mình.
Trong văn bản viết tay trực tuyến, các điểm của đầu bút sẽ được thu thập theo các khoảng thời gian bằng nhau bằng cách bắt các cặp tọa độ (x,y) của đầu bút, việc nâng bút lên, hạ bút xuống sẽ làm cho nét chữ bị đứt quãng, trở nên khó khăn trong nhận dạng.
Các thuộc tính cần yêu cầu trong nhận dạng kiểu này là:
Các điểm bắt đầu (đặt bút) và kết thúc (nhấc bút) khi viết một ký tự
26
Hướng viết: từ trái qua phải, từ phải qua trái, từ trên xuống dưới, từ dưới lên trên.
Xác định các thuộc tính hình học: phát hiện viền, phát hiện dòng sử dụng hướng viết và tọa độ.
Khi người dùng viết trên thiết bị cảm ứng, các thông tin thời gian thực được lưu trữ như tọa độ, lực viết (đại diện cho độ đậm nhạt của nét chữ) sẽ được thu thập.
Bằng sự phụ thuộc vào người viết, chúng ta có thể chia thành hai loại: phụ thuộc người viết, không phụ thuộc người viết. Hệ thông phụ thuộc người viết, đầu tiên người dùng cung cấp các thông tin đầu vào cấu trúc cho công cụ nhận dạng, qua đó công cụ sẽ được dạy và có khả năng để xác định chữ viết của người đó. Hệ thống này cần người dùng đầu tư thời gian để dạy. Ở phía đối lập, hệ thống không phụ thuộc người viết, người dùng có thể bắt đầu hệ thống mà không phải quan tâm đến công cụ phía trong.
2.2.2.2. Hệ thống nhận dạng chữ viết tay ngoại tuyến
Ở hệ thống nhận dạng ngoại tuyến sử dụng bút, người dùng viết lên giấy, sau đó trang giấy sẽ được quét để số hóa và lưu trữ dưới dạng ảnh. Xem xét một kịch bản khi một người gửi một thư điện tử đính kèm một bản copy số hóa của chữ viết tay cho một người khác. Nếu người nhận muốn sửa đổi tài liệu này để phục vụ mục đích khác thì sẽ không thể thực hiện được. Định dạng ảnh không cung cấp cho chúng ta các phép tìm kiếm, sửa đổi,… Qua đó, hệ thống nhận dạng chữ viết tay ngoại tuyến sẽ giúp chuyển đổi định dang ảnh sang định dạng văn bản cho phép các thao tác thêm, sửa, xóa tùy vào mục đích khác nhau.
Hệ thống nhận dạng chữ viết tay ngoại tuyến thực sự không yêu cầu người dùng có kiến thức về hoạt động của thiết bị. Một cách tự nhiên nhất, người dùng chỉ cần viết lên một tờ giấy. Đầu vào của hệ thống này có thể là các ký tự riêng biệt hay nhóm các dòng, các từ, các ký tự.
27
Nhận diện ký tự riêng biệt
Trong trường hợp này ảnh sau khi số hóa chỉ chứa một ký tự riêng biệt. Hệ thống sẽ không cần đến các công đoạn phân tách câu chữ.
Nhận diện văn bản
Văn bản có thể chưa nhiều trang, mỗi trang có thể có nhiều dòng, nhiều chữ, hay nói chung là nhiều ký tự. Công cụ nhận diện văn bản ngoại tuyến yêu cầu phân tách thành các ký tự riêng rẽ sau đó các công đoạn trích xuất đặc trưng hay phân loại sẽ được thực hiện. Tương tự chữ in, công cụ nhận diện chữ viết tay cũng phải đối mặt với vấn đề văn bản đầu vào được viết dưới nhiều bộ chữ, ngôn ngữ. Điều này gây ra thách thức khi bộ nhận dạng phải tìm kiếm và so sánh các bộ chữ khi hoạt động.