ˆm w mm
5.6. GIỚI THIỆU MỘT SỐ PHƢƠNG PHÁP NHẬN DẠNG TIẾNG NÓ
Trong phần này, ta sẽ tìm hiểu sơ lƣợc một số phƣơng pháp sử dụng trong các hệ thống nhận dạng tín hiệu tiếng nói. Ngoài phần sơ lƣợc về nguyên lý ta cũng sẽ xem xét đến các điểm mạnh và điểm yếu của mỗi phƣơng pháp.
Một cách khái quát, có ba hƣớng chính đƣợc sử dụng trong các hệ thống nhận dạng tiếng nói. Đó là: phƣơng pháp âm thanh - âm vị (acoustic-phonetic); phƣơng pháp nhận dạng mẫu (pattern recognition) và phƣơng pháp sử dụng trí tuệ nhân tạo.
Phân tích cepstral Giảm nhiễu
Tín hiệu
tiếng nói Cân bằng blind
Các đặc trƣng
CHƢƠNG 5. NHẬN DẠNG TIẾNG NÓI
Phƣơng pháp acoustic-phonetic là phƣơng pháp dựa trên cơ sở lý thuyết âm vị trong đó giả thiết rằng ngôn ngữ tiếng nói tồn tại một số đơn vị âm vị phân biệt và hữu hạn, và rằng các đơn vị âm tiết (phonetic) đƣợc đặc tả một cách đầy đủ bởi một tập các tính chất phù hợp với tín hiệu tiếng nói, hoặc phổ của chúng. Mặc dù các đặc tính âm học của các đơn vị âm tiết thay đổi rất lớn đối với cả ngƣời nói (speaker) và với các đơn vị âm tiết lân cận (còn gọi là co-articulation of sound), ta giả thiết rằng những quy luật quản lý sự thay đổi trên có thể suy ra một cách dễ dàng, có thể học và áp dụng vào các tính huống thực tế. Và do đó, bƣớc đầu tiên trong việc sử dụng phƣơng pháp acoustic- phonetic vào việc nhận dạng tín hiệu tiếng nói là việc phân đoạn (segmentation) và gán nhãn. Quá trình này nhằm phân đoạn tín hiệu tiếng nói thành các vùng rời rạc (theo thời gian) trong đó các đặc tính âm học của tín hiệu là đại diện của một (hoặc vài) đơn vị âm tiết (hoặc các lớp). Sau đó gắn một hoặc nhiều nhãn âm tiết với mỗi đoạn tùy theo các tính chất âm học của đoạn đó. Bƣớc tiếp theo trong quá trình nhận dạng là việc cố gắng quyết định một từ hợp lệ (hoặc một chuỗi từ) từ một dãy các nhãn âm tiết đƣợc tạo ra từ bƣớc đầu tiên.
Phƣơng pháp nhận dạng mẫu trong nhận dạng tiếng nói là phƣơng pháp trong đó các mẫu tiếng nói đƣợc sử dụng trực tiếp mà không cần phải xác định rõ ràng đặc trƣng (theo nghĩa đặc trƣng âm học) và không cần quá trình phân đoạn. Cũng giống nhƣ mọi phƣơng pháp nhận dạng mẫu khác, phƣơng pháp này gồm hai bƣớc: huấn luyện các mẫu tín hiệu tiếng nói; nhận dạng các mẫu thông qua việc so sánh các mẫu. Thông tin (hiểu biết - knowledge) về tín hiệu tiếng nói đƣợc đƣa vào hệ thống trong quá trình huấn luyện hệ thống. Nguyên lý của việc này là nếu có đủ các phiên bản của một mẫu cần nhận dạng (mẫu của âm, của từ, hoặc của một cụm từ ...) trong tập dùng để huấn luyện, thì quá trình huấn luyện sẽ có thể đặc tả một cách chính xác các đặc tính âm học của mẫu (mà không cần quan sát hoặc thông tin của bất cứ mẫu nào khác trong quá trình huấn luyện). Quá trình so sánh mẫu thực hiện việc so sánh trực tiếp tín hiệu tiếng nói chƣa biết (tín hiệu tiếng nói cần nhận dạng) với mỗi một mẫu học đƣợc trong quá trình huấn luyện và phân loại tín hiệu tiếng nói chƣa biết theo độ tƣơng hợp với mẫu. Phƣơng pháp nhận dạng mẫu có các ƣu điểm:
- Sử dụng đơn giản.
- Nhất quán và không thay đổi với các bộ từ vựng, ngƣời sử dụng, tập các đặc trƣng khác nhau. Điều này cho phép thuật toán có thể áp dụng một cách rộng rãi với các loại đơn vị tín hiệu tiếng nói (từ các đơn vị phonemelike, từ, cụm từ hoặc câu), các bộ từ vựng, số đông ngƣời nói, các môi trƣờng nền khác nhau...
- Có chất lƣợng tốt. Ngƣời ta đã chỉ ra rằng việc sử dụng phƣơng pháp nhận dạng mẫu trong nhận dạng tiếng nói luôn cho phép hệ thống hoạt động tốt đối với bất kỳ nhiệm vụ nào với yêu cầu công nghệ vừa phải.
Phƣơng pháp sử dụng trí tuệ nhân tạo trong nhận dạng tín hiệu tiếng nói là phƣơng pháp lai ghép giữa hai phƣơng pháp kể trên. Phƣơng pháp này cố gắng cơ chế hóa thủ tục nhận dạng tƣơng tự nhƣ cách thức con ngƣời áp dụng trí tuệ vào việc quan sát (visualizing), phân tích và cuối cùng là ra quyết định trên các đặc tính âm học đo lƣờng đƣợc. Đặc biệt một trong các kỹ thuật đƣợc sử dụng cho các phƣơng pháp thuộc lớp phƣơng pháp này là việc sử dụng hệ chuyên gia để phân đoạn và gán nhãn. Bằng cách này, bƣớc khó khăn nhất và quan trọng nhất trong quá trình nhận dạng có thể đƣợc thực hiện không chỉ với các thông tin âm học nhƣ trong các phƣơng acoustic-phonetic thuần túy; học và thích ứng theo thời gian; sử dụng mạng nơ-ron cho việc học các mối quan hệ giữa các âm tiết và tất cả các đầu vào đã biết cũng nhƣ cho việc phân biệt sự giống nhau giữa các lớp âm.
Việc sử dụng mạng nơ-ron có thể tạo ra một phƣơng pháp cấu trúc riêng rẽ cho việc nhận dạng tín hiệu tiếng nói hoặc có thể đƣợc coi nhƣ một cấu trúc có thể thực thi đƣợc, cấu trúc mà có thể tích hợp vào một trong các phƣơng pháp vừa kể.