Nhiệm của các khối chức năng trong hệ thống nhận dạng:

Một phần của tài liệu Nghiên cứu công nghệ nhận dạng tiếng nói tiếng việt và ứng dụng (Trang 78 - 80)

1. Mô hình ngữ âm : Đây là mô hình Markov ẩn hợp Guass (GHMM), bao gồm các mẫu tiếng nói đã được rút trích đặc trưng và đã được huấn luyện GHMM, cơ sở dữ liệu tiếng nói trong mô hình là những dữ liệu mẫu, dữ liệu có trước. Thông qua dữ liệu trên mô hình mà có thể xác định được dữ liệu tiếng nói mới cần nhận dạng.

2. Mô hình ngôn ngữ : mô tả thứ tự từ ngữ theo qui luật nhất định, từ đó có thể cho kết quả nhận dạng chính xác hơn, mô hình lớn thường xác định theo mô hình xác suất thống kê, với mô hình nhỏ, ứng dụng cho tập từ vựng hữu hạng

nhỏ thì có thể sử dụng mô hình chuyển trạng thái, hay mô hình cú pháp grammar.

3. Phân hệ nhận dạng tiếng nói: Đây là thành phần chính của hệ thống nhận dạng tiếng nói, tiếng nói mới(tiếng nói cần nhận dạng) sau khi tiếp nhận và rút trích đặc trưng sẽ được hệ thống so sánh với dữ liệu đã huấn luyện để tìm kiếm mẫu dữ liệu gần giống nhất sau đó kết hợp với mô hình ngôn ngữ để đưa ra kết quả cuối cùng dạng văn bản(text).

4. Tiếp nhận tiếng nói : Tiếng nói được chuyển đi trên đường truyền mạng viễn thông đã được mã hóa, sau khi đến bộ phận tiếp nhận sẽ thực hiện giải mã tái tạo thành tiếng nói dạng âm thanh để chuẩn bị đưa đến phần rút trích đặc trưng.

5. Rút trích đặt trưng: Tiếng nói dạng âm thanh sẽ thực hiện rút trích đặt trưng theo phương pháp MFCC, phương pháp rút trích đặt trưng này đảm bảm tốt nhất so với các phương pháp khác là hoạt động tốt trong môi trường không ổn định có nhiễu xung quanh, giữ lại các đặc trưng tiếng nói khác biệt giữa tiếng nói người này với tiếng nói của người khác.

6. Nhận kết quả : Nhận kết quả dạng dữ liệu text của tiếng nói mới từ phân hệ nhận dạng tiếng nói.

7. Xử lý kết quả dạng văn bản: Theo từng bài toán sẽ có cách xử lý kết quả khác nhau, riêng bài toán nhận dạng chữ số tiếng nói tiếng việt trên mạng viễn thông thì thực hiện tìm kiếm các bài hát tương ứng với dữ liệu văn bản text nhận dạng được là các chữ số từ 0 đến 9.

8. Kết quả dạng tiếng nói: Người gọi điện thoại đến tổng đài để tra cứu thông tin được xuất phát từ đầu cuối điện thoại, do đó kết quả trả về phải dạng âm thanh. Kết quả sau khi xử lý sẽ được chuyển thành dạng âm thanh gửi về phía người sử dụng, có hai cách thực hiện điều đó, thứ nhất các tập tin âm thanh có được nhờ vào hệ thống tổng hợp tiếng nói text – to – speech, hoặc các tập

Một phần của tài liệu Nghiên cứu công nghệ nhận dạng tiếng nói tiếng việt và ứng dụng (Trang 78 - 80)

Tải bản đầy đủ (DOC)

(119 trang)
w