Tổng quan về bài toán nhận dạng

Một phần của tài liệu Nhận dạng chữ viết tay tiếng Việt sử dụng mạng nơron (Trang 46 - 49)

Bài toán nhận dạng tuy ra đời từ thập niên 60 của thế kỷ trƣớc nhƣng nó vẫn luôn nhận đƣợc sự quan tâm, nghiên cứu của nhiều nhà khoa học trên thế giới. Đặc biệt là trong những thập kỷ gần đây, cùng với quá trình đẩy mạnh tin học hóa trong mọi lĩnh vực đời sống xã hội, nhận dạng không chỉ còn là lĩnh vực nghiên cứu lý thuyết nữa mà đã đƣợc ứng dụng rộng rãi trong thực tế cuộc sống. Nhận dạng là quá trình phân loại các đối tƣợng đƣợc biểu diễn theo một mô hình nào đó và gán cho chúng vào một lớp dựa theo các quy luật và các mẫu chuẩn. Quá trình nhận dạng dựa vào các mẫu học biết trƣớc gọi là học có giám sát, hoặc không có mẫu thì gọi là học không có giám sát (tự học).

Các bài toán nhận dạng tiêu biểu đƣợc nghiên cứu nhiều nhất hiện nay bao gồm:

- Nhận dạng các mẫu hình học (vân tay, mặt ngƣời, hình khối,…. ).

- Nhận dạng chữ viết (optical character recognition – OCR): từ một văn bản in hoặc viết tay trên giấy, nhận biết từng ký tự và chuyển chúng thành một tệp văn bản trên máy tính.

- Nhận dạng tiếng nói (speech recognition): từ sóng tiếng nói, nhận biết và chuyển chúng thành dữ liệu văn bản tƣơng ứng.

- Dịch tự động (machine translation): từ một tệp dữ liệu văn bản trong một ngôn ngữ (ví dụ nhƣ tiếng Anh), máy tính dịch và chuyển thành một tệp văn bản trong một ngôn ngữ khác.

- Tóm tắt văn bản (text summarization): từ một văn bản dài (gồm nhiều trang chang han), máy tính tóm tắt thành một văn bản ngắn hơn với những nội dung cơ bản.

- Tìm kiếm thông tin (information retrieval): từ một nguồn gồm rất nhiều tệp văn bản hay tiếng nói, tìm ra những tệp có nội dung liên quan đến một vấn đề (một câu hỏi) ta cần biết (hay cần trả lời). Điển hình của công nghệ này là Google, một hệ tìm kiếm thông tin trên Web, mà hầu hết chúng ta đều sử dụng thƣờng xuyên. Cần nói thêm rằng mặc dù hữu hiệu hàng đầu nhƣ vậy, Google mới chỉ có khả năng cho chúng ta tìm kiếm câu hỏi dƣới dạng các từ khóa (keywords) và luôn “tìm” cho chúng ta rất nhiều tài liệu không liên quan, ngƣợc lại, có rất nhiều tài liệu liên quan tồn tại thì Google lại tìm không ra.

- Trích chọn thông tin (information extraction): từ một nguồn rất nhiều tệp văn bản hay tiếng nói, tìm ra những đoạn bên trong, là một số tệp liên quan đến một vấn đề (câu hỏi) ta cần biết (hay cần trả lời). Một hệ trích chọn thông tin có thể “lần” vào từng trang Web liên quan, phân tích bên trong và trích ra các thông tin cần thiết.

- Phát hiện tri thức và khai phá dữ liệu văn bản (knowledge discovery and text data mining): từ những nguồn rất nhiều văn bản thậm chí hầu nhƣ không có quan hệ với nhau, tìm ra đƣợc những tri thức trƣớc đó chƣa ai biết. Đây là một vấn đề rất phức tạp và đang ở giai đoạn đầu của các nghiên cứu trên thế giới.

Ngoài ra, còn nhiều bài toán và công nghệ xử lý ngôn ngữ khác, nhƣ giao diện ngƣời máy bằng ngôn ngữ tự nhiên, các hệ hỏi đáp, các hệ sinh ra ngôn ngữ ... [1]. Chúng đƣợc áp dụng vào nhiều lĩnh vực nhƣ y học, dƣợc học, xây dựng, quản lý giao thông, dự báo cháy rừng, tự động hóa điều khiển robot, điều khiển các thiết bị bằng giọng nói, …. Một số sản phẩm đƣợc nghiên cứu và đã đƣợc ứng dụng trên thế giới và ở Việt Nam nhƣ: xe đẩy thuốc thông minh tại các bệnh viện ở Anh sử dụng công nghệ nhận dạng mã vạch trên tay các bệnh nhân để phát thuốc và theo dõi sức khỏe cho bệnh nhân tránh những sự nhầm lẫn không đáng có. Tại Việt Nam, các kỹ sƣ của công ty TOSY [8]đã nghiên cứu và sáng tạo ra 1 con robot đánh bóng bàn (có tên là Topio) tại International Robot Exhibition 2007 - triển lãm robot lớn nhất thế giới khai mạc ngày 29/11, tại Tokyo. Trong đó có sử dụng công nghệ nhận dạng bóng để di chuyển và lập chiến thuật đánh trả…

Bên cạnh sự phát triển và ứng dụng rộng rãi đó là các phƣơng pháp nhận dạng đã đƣợc sử dụng, dƣới đây là các phƣơng pháp nhận dạng cơ bản:

- RFID (Radio Frequency Identification) là kỹ thuật nhận dạng bằng sóng vô tuyến từ xa, là hệ thống không dây cho phép tự động nhậ n dạng thu nhập dƣ̃ liệu kể cả dƣ̃ liệu không tiếp xúc đọc hoặc tài liệu viết tay . RFID ƣu điểm là: RFID xử lý tự động, tiết kiệm năng lƣợng …và nhƣợc điểm là: RFID có giá thành cao nên không thể ứng dụng rộng rãi, chƣa có chuẩn chung, chƣa có các giải pháp hiệu quả ).

- SVM (Support Vector Machines) là một phƣơng pháp máy học tiên tiến đã có nhiều thành công không chỉ trong các lĩnh vực khai phá dữ liệu mà còn trong lĩnh vực nhận dạng. Trong những thập niên gần đây, SVM đã đƣợc đánh

giá là một trong những phƣơng pháp phân lớp có độ chính xác rất cao và cũng đã đƣợc áp dụng nhiều trong các bài toán nhận dạng chữ viết tay.

- Dynamic programming: là phƣơng pháp dùng để giải quyết các bài toán tối ƣu, bắt đầu từ việc giải quyết các bài toán nhỏ nhất đến bài toán hoàn chỉnh.Tận dụng kết quả tính toán trƣớc đó để tránh lặp lại việc đã hoàn tất. Dynamic programming có những ƣu điểm: không phải tính lại các bài toán con nếu trƣớc đó đã tính rồi, tốc độ tính toán nhanh hơn các phƣơng pháp thông thƣờng, độ phức tạp tính toán thƣờng là các đa thức. Và có những nhƣợc điểm: Không phải bài toán tối ƣu nào cũng dùng đƣợc phƣơng pháp này, không có phƣơng pháp tổng quát, thƣờng phức tạp và mang nhiều tính thủ thuật.

- HMM (Hiden Markov Model): ƣu điểm là thiết kế và coding đơn giản, không dùng nhiều bộ nhớ. Nhƣợc điểm là rất khó phân lớp dữ liệu….

Một phần của tài liệu Nhận dạng chữ viết tay tiếng Việt sử dụng mạng nơron (Trang 46 - 49)