Phƣơng pháp acoustic-phonetic

ˆm w mm

5.6.1 Phƣơng pháp acoustic-phonetic

Hình 5.8 miêu tả sơ đồ khối của một hệ thống nhận dạng tín hiệu tiếng nói sử dụng phƣơng pháp acoustic-phonetic.

Hình 5.8 Sơ đồ khối một hệ thống nhận dạng tiếng nói theo phƣơng pháp acoustic-phonetic

Hệ thống phân tích tiếng nói s(n) Tiếng nói đã đƣợc nhận dạng Bộ phát hiện đặc trƣng Q Bộ phát hiện đặc trƣng 1 Phân đoạn và gán nhãn Phƣơng pháp điều khiển Dãy mạch lọc LPC Các formant Pitch

Vô thanh/ Hữu thanh Năng lƣợng

Âm mũi …

Lƣới âm vị Lƣới phân đoạn

Nhãn xác suất Các cây quyết định

Các phƣơng pháp phân tích từ loại

CHƢƠNG 5. NHẬN DẠNG TIẾNG NÓI

Bƣớc đầu tiên trong quá trình xử lý, cũng giống nhƣ trong tất cả các phƣơng pháp nhận dạng tín hiệu tiếng nói khác, đó là việc phân tích tín hiệu tiếng nói. Việc phân tích tín hiệu tiếng nói (còn đƣợc gọi là phƣơng pháp đo lƣờng các đặc trƣng của tín hiệu) đƣa ra một biểu diễn phổ phù hợp nhất đối với các đặc trƣng của tín hiệu tiếng nói thay đổi theo thời gian. Nhƣ đã đề cập, các phƣơng pháp phổ biến nhất trong việc phân tích phổ tín hiệu tiếng nói trong một hệ thống nhận dạng tín hiệu tiếng nói là phƣơng pháp phân tích LPC. Nói một cách tổng quát, việc phân tích phổ tín hiệu tiếng nói có nhiệm vụ đƣa ra đƣợc các biểu diễn phổ thích hợp của tín hiệu tiếng nói theo thời gian.

Bƣớc tiếp theo trong quá trình xử lý là giai đoạn phát hiện các đặc trƣng. Ý tƣởng ở đây là chuyển đổi các đo lƣờng phổ thành một tập các đặc trƣng sao cho có thể mô tả một cách bao trùm các tính chất âm học của các đơn vị âm tiết khác nhau. Trong các đặc trƣng sử dụng cho việc nhận dạng tín hiệu tiếng nói phải kể đến âm mũi (nasality) tức là sự có mặt hoặc không của cộng hƣởng khoang mũi, âm xát (frication) tức là sự có mặt hoặc không của nguồn kích thích ngẫu nhiên trong tín hiệu, vị trí các tần số cộng hƣởng bộ máy phát thanh (formant) tức là các tần số của ba đỉnh cộng hƣởng đầu tiên, tín hiệu hữu thanh hay vô thanh tức là nguồn kích thích là tuần hoàn hay không tuần hoàn, và tỉ lệ giữa năng lƣợng của tần cao và tần thấp. Một số đặc trƣng bản chất là nhị phân (binary) chẳng hạn nhƣ âm mũi, âm tắc, âm hữu thanh-âm vô thanh, tuy nhiên một số khác là liên tục chẳng hạn nhƣ vị trí các formant, tỷ số năng lƣợng. Tầng phát hiện các đặc trƣng thƣờng bao gồm một tập các bộ phát hiện (detector) hoạt động song song và sử dụng phép xử lý thích hợp và lô-gic để đƣa ra quyết định về sự có mặt hoặc không, hoặc giá trị, của một đặc trƣng. Các thuật toán dùng cho việc phát biện các đặc trƣng riêng biệt thƣờng là rất phức tạp và chúng thƣờng thực hiện rất nhiều phép biến đổi tín hiệu, trong một số trƣờng hợp chúng có thể là các thủ tục ƣớc lƣợng thông thƣờng (trivial).

Bƣớc thứ ba trong quá trình là việc phân đoạn và gán nhãn. Hệ thống cố gằng tìm ra vùng ổn định, vùng mà các đặc trƣng thay đổi rất nhỏ, sau đó gán nhãn cho các vùng vừa đƣợc phân ra tƣơng ứng sao cho các đặc trƣng trong vùng này tƣơng đồng tốt với các đặc trƣng tƣơng ứng của các đơn vị âm tiết riêng rẽ. Giai đoạn này là giai đoạn trung tâm của quá trình nhận dạng tín hiệu tiếng nói theo phƣơng pháp acoustic-phonetic và nó cũng là một giai đoạn khó khăn nhất để có thể triển khai một cách tin cậy. Vì lý do đó, nhiều chiến thuật (strategy) điều khiển đã đƣợc sử dụng để hạn chế khoảng của các điểm phân đoạn cũng nhƣ các khả năng gán nhãn. Chẳng hạn, đối với việc nhận dạng các từ riêng rẽ, các giới hạn chẳng hạn nhƣ một từ có chứa ít nhất hai đơn vị âm tiết và không thể nhiều hơn sáu đơn vị âm tiết cho phép chiến lƣợc điều khiển chỉ cần quan tâm đến các kết quả với khoảng giữa một và năm khoảng điểm phân đoạn. Hơn nữa, chiến thuật

gán nhãn có thể tận dụng các giới hạn về từ vựng (lexical) của các từ để chỉ cần xem xét các từ với n đơn vị âm tiết, trong đó việc phân đoạn cho ta n-1 điểm phân đoạn. Những điều kiện hạn chế vừa nêu có vai trò quan trọng cho phép ta giảm nhỏ không gian tìm kiếm và tăng đáng kể chất lƣợng hoạt động của hệ thống.

Kết quả của giai đoạn phân đoạn và gán nhãn thƣờng là một lƣới phoneme (phoneme lattice). Lƣới này đƣợc sử dụng để thực hiện thủ tục truy xuất từ vựng (a lexical access procedure) nhằm xác định đƣợc một từ hoặc một dãy từ tƣơng đồng nhất. Ngoài các kiểu lƣới phoneme, ngƣời ta còn có thể xây dựng lƣới từ hoặc syllable bằng cách kết hợp các điều kiện giới hạn từ vựng và cú pháp vào chiến thuật điều khiển vừa đƣợc đề cập ở trên. Chất lƣợng của việc so sánh tƣơng đồng của các đặc trƣng với các đơn vị âm tiết trong một phân đoạn có thể đƣợc sử dụng để gán xác suất cho các nhãn và các nhãn này sau đó có thể đƣợc sử dụng trong thủ tục truy xuất từ vựng thống kê (a probabilistic lexical access procedure). Đầu ra của hệ thống nhận dạng là một từ hoặc một dãy từ mà tƣơng đồng nhất theo một khía cạnh định trƣớc với dãy các đơn vị âm tiết trong lƣới phoneme.

Phân tích MFCC trong nhận dạng tiếng nó

Bộ phân loại các âm vị nguyên âm