.Quá trình nhận dạng tiếng nói

2.2 .Tổng quan về nhận dạng tiếng nói

2.2.3 .Quá trình nhận dạng tiếng nói

Hình 2.2là cấu trúc nguyên lý của một hệ thống nhận dạng tiếng nói. Tín hiệu tiếng nói trước hết được xử lý khử nhiễu, trích chọn đặc trưng, đối sánh.

Tiền xử lý Input tiếng nói

Trích chọn đặc trưng

Học mẫu Ghi đặc trưng vào

cơ sở dữ liệu

Đối sánh đặc trưng với các đặc trưng trong cơ sở dữ

liệu

Đánh giá kết quả đối sánh

Ra quyết định Stop Đúng

Sai Begin

Hình 2.1: Cấu trúc tổng quát của một hệ thống nhận dạng tiếng nói

Trong quá trình huấn luyện hệ thống học mẫu ta sử dụng các vector đặc trưng để đánh giá trước khi ra quyết định

Trong quá trình nhận dạng, dãy các vector đặc trưng đuợc đem so sánh với các vector đặc trưng của mẫu. Sau đó, hệ thống tính toán độ tương đồng (likelihood - độ giống nhau) của dãy vector đặc trưng và mẫu tham khảo hoặc chuỗi mẫu tham khảo.

Trong luận văn này các đặc trưng được xử dụng là dãy {xi,yi} i=1, 𝑛; xi là độ dài đoạn không điểm; yi là vị trí đạt max trên đoạn không điểm xi.

2.2.4. Một số hệ thống nhận dạng tiếng nói trên thị trường

Nhận dạng và điều khiển bằng giọng nói hay các câu lệnh đang là xu thế của các điện thoại tương lai.

Trên điện thoại di dộng, hầu hết các nền tảng hiện nay đều hỗ trợ công nghệ nhận dạng giọng nói cho riêng mình. Ngay cả những hãng vốn chậm đổi mới như BlackBerry cũng bắt đầu áp dụng nó vào BlackBerry OS 7. Tuy vẫn còn sơ khai nhưng điện thoại sử dụng BlackBerry OS 7có thể ra lệnh cho máy gọi cho ai đó, kiểm tra tình trạng sóng, tình trạng mạng...

Đối với Android OS, hệ điều hành được sử dụng nhiều nhất trên thị trường. Kể từ phiên bản Android 2.2, hệ điều hành này được bổ sung thêm tính năng voice command cho phép gửi tin nhắn, điều khiển nhạc, dẫn đường, truy cập một website nào đó. Hiện tại thì ở Android 4.1 Jelly Bean, Google đã giới thiệu một tính năng mới với tên gọi Google Now với tham vọng hơn rất nhiều, thay vì là trợ lý cá nhân hỏi gì đáp nấy như Siri, Google Now sẽ tự dự đoán bạn đang làm gì, ở đâu và cho các tùy chọn tương ứng. Ví dụ, khi bạn đang ở ga tàu nó sẽ báo mấy giờ tàu chạy...

Trên thực tế, không chỉ như vậy mà các tính năng khác của Google Now cũng được cải thiện triệt để, nhanh hơn rất nhiều so với Siri. Tuy vậy, Siri của Apple vẫn thông minh hơn, có “trí khôn” hơn là sản phẩm được lập trình kiểu Google Now. Chính nhờ Siri mà ngành công nghiệp nhận dạng giọng nói phát triển hơn. Trên iOS 5 cho iPad, Apple cũng cho ra mắt tính năng Voice Dictation giúp nhập liệu những đoạn văn bản lớn nhanh chóng. Giải pháp của Apple sẽ hoàn thiện hơn nếu bạn là người bản xứ vì Apple tối ưu từng khu vực một, cho kết quả tốt nhất ở quốc gia được hỗ trợ. Trong khi đó, các hệ điều hành còn lại dùng chung cho toàn thế giới, mức độ sai có thể lớn hơn nhưng chắc chắn sẽ tiện hơn với người Việt.

Trong khi đó, phiên bản Windows Phone 7.5 của hãng Microsoft cũng có thể ra lệnh bằng giọng nói với tên gọi Speech. Speech tương đương với tính năng trên Android 2.2 nhưng cao cấp và nhiều tính năng hơn một chút, không chỉ ngoài màn hình chủ mà khi thực hiện cuộc gọi nó cũng cho phép người dùng điều khiển, giữ cuộc gọi, mở loa ngoài hay đơn giản là nhấn phím nào đó...

Hiện nay, đa số các phần mềm nhận dạng tiếng nói được các hãng lớn trên thế giới phát triển đều chưa hỗ trợ ngôn ngữ tiếng Việt một cách đầy đủ. Do đó phần mềm nhận dạng tiếng Việt mới chỉ có một số do các cá nhân, tổ chức tự phát triển như:

 ViSearch chạy trên BlackBerry OS,phần mềm này có chức năng nhận dạng giọng Tiếng Việt và Tiếng Anh cùng một lúc, sau đó trả kết quả thành dạng văn bản và thực hiện tìm kiếm trên một số dịch vụ như: Google, YouTube, Wikipedia, ...

 Viet Voice chạy trên Windows Phone OS. Phần mềm nhận dạng giọng nói tiếng Việt gồm các chức năng chính: Tìm kiếm thông tin trên một số website thông dụng và tra cứu từ điển dùng giọng nói tiếng Việt.

 Dragon Dictation và Dragon Search dành cho thiết bị chạy iOS giúp người dùng soạn văn bản bằng giọng nói tiếng Việt, cũng như gửi email, tin nhắn văn bản, và tìm kiếm thông tin.Hai ứng dụng được Tập đoàn Công nghệ Nuance Communications phát triển.

Với khả năng nhận diện giọng nói bằng tiếng Việt, Dragon Dictation có thể chuyển nội dung lời nói của người dùng sang dạng văn bản, kết hợp với một thanh công cụ để truy cập và chuyển nội dung sang email, tin nhắn SMS, cập nhật trạng thái trên Facebook và Twitter hoặc chép vào bộ nhớ. Dragon Dictation còn được trang bị chức năng lưu tự động, giúp máy nhớ đoạn văn bản đã được chuyển từ giọng nói khi có cuộc gọi đến làm gián đoạn.

Với tính năng tìm kiếm bằng giọng nói tiếng Việt, Dragon Search sẽ giúp người dùng iOS có thể ra lệnh thiết bị tìm kiếm thông tin mong muốn dễ dàng. Phương thức này được giới thiệu là nhanh gấp 5 lần so với việc gõ trên bàn phím. Dragon Search hỗ trợ tìm kiếm từ các công cụ Google, Yahoo, Twitter, iTunes, Wikipedia và YouTube với tốc độ khá nhanh. Ngoài ra, người dùng có thể dễ dàng chuyển sang các ngôn ngữ cần nhận diện khác ngoài tiếng Việt - hiện tại Nuance hỗ trợ đến 38 ngôn ngữ trên thế giới.

Nguyên lý số hóa âm thanh

Giao diện chính của chương trình