Một hệ nhận dạng tiếng nói sẽ làm việc với dữ liệu vào là tiếng nói được số
hoá. Hiện nay, hầu hết các hê nhận dạng tiếng nói đều được xây dựng dựa trên hai giả thiết cơ bản sau:
Dạng mang thông tin trực tiếp của tín hiệu tiếng nói được thể hiện trong các biến đổi thời gian của phổ biên độ tức thời. Ngoài ra một phần thông tin được truyền ở khoảng thời gian giữa các tiếng nói là các dấu hiệu khác như cao độ, cường độ âm thanh…
Dựa vào kết quả nghiên cứu của Miller, tiếng nói được tổ chức theo thứ bậc, sao cho các đơn nguyên đơn giản của một bậc theo một qui tắc nhất định sẽ liên kết thành các đơn nguyên phức tạp hơn của bậc sau. Theo quan điểm của lý thuyết thông tin, các cấu trúc như vậy sẽ
làm cho mã ổn định so với lỗi gây ra bởi người nói và tạp âm xung quanh.
1. N hận dạng từ liên tục và nhận dạng từ cách biệt
Tất cả các hệ nhận dạng tiếng nói được chia làm 2 loại: nhận dạng từ liên tục và nhận dạng từ cách biệt. Nhận dạng từ liên tục tức là nhận biết được các thông tin cần truyền đạt trong một dãy các từ được phát âm liên tục, như một câu nói tự
nhiên, bình thường. Các hệ thống loại này rất phức tạp vì khó tách được biên giới giữa các từ, các hệ nhận dạng từ liên tục gặp phải vấn đề đầu tiên là tách từ, hướng tiếp cận việc xử lý tốt công đoạn tách từ ảnh hưởng nhiều đến kết quả nhận dạng. Trái lại, đối với mô hình nhận dạng từ tách biệt, mỗi từ cần nhận dạng được phát âm một cách rời rạc, có các khoảng nghỉ trước và sau khi phát âm một từ. Mô hình loại này đơn giản hơn mô hình nhận dạng từ liên tục, đồng thời cũng có những ứng dụng thực tiễn như trong các hệ thống điều khiển bằng lời nói, nhận dạng các chữ số qua
điện thoại …, với độ chính xác khá cao, tuy nhiên khó áp dụng rộng rãiđối với mô hình trên.
Nhận dạng từ liên tục khó hơn rất nhiều so với nhận dạng từ tách biệt vì những lý do sau đây:
Khi nói liên tục, thì các âm cuối của từ phía trước gây ảnh hưởng đến các âm đầu của từ phía sau, và đôi khi làm biến âm các âm vị lân cận Ngữ cảnh, tình cảm khi nói cũng làm thay đổi nhiều đến cách phát âm một từ.
Do đó rất khó xác định biên giới ngăn cách giữa các từ khi phát âm liên tục. Về mặt tín hiệu, các vùng này đôi khi không có sự thay đổi đáng kể về năng lượng.
2. N hận dạng phụ thuộc người nói và độc lập người nói:
Một trong những trở ngại chính ảnh hưởng đến độ chính xác cũng như sự
phát triển của các hệ nhận dạng tiếng nói, là sự khác biệt rất lớn giữa các người nói khác nhau. Sự khác biệt này làm cho việc thiết kế một mô hình nhận dạng tiếng nói cho tất cả mọi giọng nói rất khó khăn, và hầu như chưa thực hiện được tốt. Do đó một cách giải quyết trên thực tế là giả độc lập người nói. Phương pháp này thực
hiện bằng cách thu mẫu một số giọng nói có độ cao khác nhau (giả sử chia làm 5 bậc: nữ cao, nữ trầm, trung, nam cao, nam trầm). Khi nhận dạng, ta sẽ kiểm tra độ
cao tiếng thu được, rồi lấy bộ mẫu có độ cao tươngứng để nhận dạng.
Nhận dạng độc lập người nói khó hơn rất nhiều so với nhận dạng phụ thuộc người nói. Vì cùng một từ ta phát âm nhiều lần vẫn khác nhau, dù có điều chỉnh cho giống lần phát âm trước. Đối với con người thì chúng ta có thể hiểu nhau do ngữ
cảnh. Nhưng đối với máy tính thì rất khó xây dựng được một mô hình giải quyết cho tất cả các trường hợp. Điều này thường được giải quyết bằng cách cho máy học mẫu và lưu trữ nhiều bộ mẫu khác nhau của từng người nói. Nhưng, với một số
lượng từ lớn, đôi khi tốn rất nhiều thời gian học mẫu và thường phải dùng đến máy mainframe.
Khi xây dựng một hệ thống nhận dạng tiếng nói, người ta thường theo một trong ba cách tiếp cận chính sau:
Tiếp cận theo âm học và ngữ âm học. Tiếp cận theo nhận dạng mẫu thống kê. Tiếp cận theo trí tuệ nhân tạo.
Một hệ thống nhận dạng tiếng nói thường có các mô đun sau:
Phần xử lý âm: Quá trình tríchđặc trưng của chuỗi âm thanh cho ra các vector đặc trưng. Phần này giải quyết 2 bài toán: phát hiện chu kỳ
tiếng nói và khử nhiễu.
Phần định nhóm nhanh: Phần này giúp tăng tốc độ nhận dạng trên một từ điển lớn. Ứng với một chuỗi quan sát, quá trình định nhóm nhanh sẽđưa ra một nhóm nhỏ các mẫu gần với chuỗi quan sát đó.
Phần ngữ pháp: Thực chất đây là phần suy luận theo luật. Các luật ở đây là các qui tắc ngữ pháp ứng với một ngôn ngữ cụ thể, do đó, phần này dùng trong nhận dạng nguyên câu. Quá trình này sẽ giới hạn số từ
có khả năng xảy ra căn cứ vào các từđã nhận dạng được.
Phần nhận dạng chi tiết:Quá trình này sẽ xác định một hay một vài từ tương ứng với chuỗi quan sát trên một nhóm nhỏ các mẫu đã được lọc ra từ các quá trình trên.
Phần giải mã: Quá trình này sẽ căn cứ vào ngữ cảnh cụ thể để chính xác từ cần nhận dạng. Phần này làm cho hệ nhận dạng mang tính hệ
chuyên gia.