Các bài toán nhận dạng tiêu biểu được nghiên cứu nhiều nhất hiện nay bao gồm:
- Nhận dạng các mẫu hình học (vân tay, mặt người, hình khối, ….).
- Nhận dạng chữ viết (optical character recognition – OCR)
- Nhận dạng tiếng nói (speech recognition)
- Dịch tự động (machine translation)
- Tóm tắt văn bản (text summarization)
- Tìm kiếm thông tin (information retrieval)
- Trích chọn thông tin (information extraction)
- Phát hiện tri thức và khai phá dữ liệu văn bản (knowledge discovery and
text data mining)
Ngoài ra, còn nhiều bài toán và công nghệ xử lý ngôn ngữ khác, như giao diện người máy bằng ngôn ngữ tự nhiên, các hệ hỏi đáp, các hệ sinh ra ngôn
ngữ .... Chúng được áp dụng vào nhiều lĩnh vực như y học, dược học, xây dựng, quản lý giao thông, dự báo cháy rừng, tự động hóa điều khiển robot, điều khiển các thiết bị bằng giọng nói, …. Một số sản phẩm được nghiên cứu và đã được ứng dụng trên thế giới và ở Việt Nam như: xe đẩy thuốc thông minh tại các bệnh viện ở Anh sử dụng công nghệ nhận dạng mã vạch trên tay các bệnh nhân để phát thuốc và theo dõi sức khỏe cho bệnh nhân tránh những sự nhầm lẫn không đáng có. Tại Việt Nam, các kỹ sư của công ty TOSY [8] đã nghiên cứu và sáng tạo ra 1 con robot đánh bóng bàn (có tên là Topio) tại International
Robot Exhibition 2007 - triển lãm robot lớn nhất thế giới khai mạc ngày 29/11,
tại Tokyo. Trong đó có sử dụng công nghệ nhận dạng bóng để di chuyển và lập chiến thuật đánh trả…
Bên cạnh sự phát triển và ứng dụng rộng rãi đó là các phương pháp nhận dạng đã được sử dụng, dưới đây là các phương pháp nhận dạng cơ bản:
- RFID (Radio Frequency Identification) là kỹ thuật nhận dạng bằng sóng vô tuyến từ xa
- SVM (Support Vector Machines) là một phương pháp máy học tiên tiến đã có nhiều thành công không chỉ trong các lĩnh vực khai phá dữ liệu mà còn trong lĩnh vực nhận dạng.
- Dynamic programming: là phương pháp dùng để giải quyết các bài toán tối ưu, bắt đầu từ việc giải quyết các bài toán nhỏ nhất đến bài toán hoàn chỉnh.
- HMM (Hiden Markov Model): ưu điểm là thiết kế và coding đơn giản, không dùng nhiều bộ nhớ. Nhược điểm là rất khó phân lớp dữ liệu….