Phương pháp acoustic-phonetic

Một phần của tài liệu BÀI GIẢNG XỬ LÝ TIẾNG NÓI (Trang 79 - 83)

Hình 5.8 miêu tả sơ ñồ khối của một hệ thống nhận dạng tín hiệu tiếng nói sử dụng phương pháp acoustic-phonetic. Bước ñầu tiên trong quá trình xử lý, cũng giống như trong tất cả các phương pháp nhận dạng tín hiệu tiếng nói khác, ñó là việc phân tích tín hiệu tiếng nói. Việc phân tích tín hiệu tiếng nói (còn ñược gọi là phương pháp ño lường các ñặc trưng của tín hiệu) ñưa ra một biểu diễn phổ phù hợp nhất ñối với các ñặc trưng của tín hiệu tiếng nói thay ñổi theo thời gian. Nhưñã ñề cập, các phương pháp phổ biến nhất trong việc phân tích phổ tín hiệu tiếng nói trong một hệ thống nhận dạng tín hiệu tiếng nói là phương pháp phân tích LPC. Nói một cách tổng quát, việc phân tích phổ tín hiệu tiếng nói có nhiệm vụ ñưa ra ñược các biểu diễn phổ thích hợp của tín hiệu tiếng nói theo thời gian.

Hình 5.8 Sơñồ khối một hệ thống nhận dạng tiếng nói theo phương pháp acoustic-phonetic

Bước tiếp theo trong quá trình xử lý là giai ñoạn phát hiện các ñặc trưng. Ý tưởng ởñây là chuyển ñổi các ño lường phổ thành một tập các ñặc trưng sao cho có thể mô tả một cách bao trùm các tính chất âm học của các ñơn vị âm tiết khác nhau. Trong các ñặc trưng sử dụng cho việc nhận dạng tín hiệu tiếng nói phải kể ñến âm mũi (nasality) tức là sự có mặt hoặc không của cộng hưởng khoang mũi, âm căng (frication) tức là sự có mặt hoặc không của nguồn kích thích ngẫu nhiên trong tín hiệu, vị trí các tần số cộng hưởng bộ máy phát thanh (formant) tức là các tần số của ba ñỉnh cộng hưởng ñầu tiên, tín hiệu hữu thanh hay vô thanh tức là nguồn kích thích là tuần hoàn hay không tuần hoàn, và tỉ lệ giữa năng lượng của tần cao và tần thấp. Một sốñặc trưng bản chất là nhị phân (binary) chẳng hạn như âm mũi, âm căng, âm hữu thanh-âm vô thanh, tuy nhiên một số khác là liên tục chẳng hạn như vị trí các formant, tỷ số năng lượng. Tầng phát hiện các ñặc trưng thường bao gồm một tập các bộ phát hiện (detector) hoạt ñộng song song và xử dụng phép xử lý thích hợp và lô-gic ñể ñưa ra quyết ñịnh về sự có mặt hoặc không, hoặc giá trị, của một ñặc trưng. Các thuật toán dùng cho việc phát biện các ñặc trưng riêng biệt thường là rất phức tạp và chúng thường thực hiện rất nhiều

Chương 5: Nhận dạng tiếng nói

phép biến ñổi tín hiệu, trong một số trường hợp chúng có thể là các thủ tục ước lượng tầm thường (thông thường - trivial).

Bước thứ ba trong quá trình là việc phân ñoạn và gán nhãn. Hệ thống cố gằng tìm ra vùng ổn ñịnh, vùng mà các ñặc trưng thay ñổi rất nhỏ, và sau ñó gán nhãn cho các vùng vừa ñược phân ra tương ứng sao cho các ñặc trưng trong vùng này tương ñồng tốt với các ñặc trưng tương ứng của các ñơn vị âm tiết riêng rẽ. Giai ñoạn này là giai ñoạn trung tâm của quá trình nhận dạng tín hiệu tiếng nói theo phương pháp acoustic-phonetic và nó cũng là một giai ñoạn khó khăn nhất ñể có thể triển khai một cách tin cậy. Vì lý do ñó, nhiều chiến thuật (strategy) ñiều khiển ñã ñược sử dụng ñể hạn chế khoảng của các ñiểm phân ñoạn cũng như các khả năng gán nhãn. Chẳng hạn, ñối với việc nhận dạng các từ riêng rẽ, các giới hạn chẳng hạn như một từ có chứa ít nhất hai ñơn vị âm tiết và không thể nhiều hơn sáu ñơn vị âm tiết cho phép chiến lược ñiều khiển chỉ cần quan tâm ñến các kết quả với khoảng giữa một và năm khoảng ñiểm phân ñoạn. Hơn nữa, chiến thuật gán nhãn có thể tận dụng các giới hạn về từ vựng (lexical) của các từñể chỉ cần xem xét các từ với n ñơn vị âm tiết, trong ñó việc phân ñoạn cho ta n-1 ñiểm phân ñoạn. Những ñiều kiện hạn chế vừa nêu có vai trò quan trọng cho phép chúng ta giảm nhỏ không gian tìm kiếm và tăng ñáng kể chất lượng hoạt ñộng của hệ thống.

Kết quả của giai ñoạn phân ñoạn và gán nhãn thương là một lưới phoneme (phoneme lattice). Lưới này ñược sử dụng ñể thực hiện thủ tục truy xuất từ vựng (a lexical access procedure) nhằm xác ñịnh ñược một từ hoặc một dãy từ tương ñồng nhất. Ngoài các kiểu lưới phoneme, người ta còn có thể xây dựng lưới từ hoặc syllable bằng cách kết hợp các ñiều kiện giới hạn từ vựng và cú pháp vào chiến thuật ñiều khiển vừa ñược ñề cập ở trên. Chất lượng của việc so sánh tương ñồng của các ñặc trưng với các ñơn vị âm tiết trong một phân ñoạn có thể ñược sử dụng ñể gán xác suất cho các nhãn và các nhãn này sau ñó có thểñược sử dụng trong thủ tục truy xuất từ vựng thống kê (a probabilistic lexical access procedure). ðầu ra của hệ thống nhận dạng là một từ hoặc một dãy từ mà tương ñồng nhất theo một khía cạnh ñịnh trước với dãy các ñơn vị âm tiết trong lưới phoneme.

a)Bộ phân loại các âm vị nguyên âm

Chúng ta cùng xem xét thủ tục gán nhãn trên một phân ñoạn ñược phân loại như một nguyên âm. Sơ ñồ hình 5.9 mô tả lưu ñồ phân loại nguyên âm theo phương pháp acoustic- phonetic. Chúng ta giả sử rằng có ba ñặc trưng ñã ñược phát hiện trong phân ñoạn là formant thứ nhất F1, formant thứ hai F2 và chiều dài của phân ñoạn D. Thêm nữa chúng ta chỉ xem xét tập các nguyên âm ổn ñịnh (steady), tức là loại bỏ các nguyên âm kép (diphthongs). ðể phân loại một phân ñoạn nguyên âm trong 10 nguyên âm ổn ñịnh, một số phép thử cần phải thực hiện ñể phân tách các nhóm nguyên âm. Như trình bày trong hình 5.9, phép thửñầu tiên tách các nguyên âm có tần số F1 thấp (còn gọi là các nguyên âm khuếch tán (diffuse) chẳng hạn như /i/, /i/, /u/, ...) với các nguyên âm có tần số cao (còn gọi là các nguyên âm gọn (compact) bao gồm /a/, ...). Mỗi tập con này lại ñược phân tách thêm dựa vào tần số F2, trong ñó các nguyên âm acute (âm sắc) có tần số F2 cao và các nguyên âm grave (âm huyền) có tần số F2

thấp. Phép kiểm tra thứ ba dựa trên khoảng thời gian của phân ñoạn sẽ phân tách các nguyên âm căng (tense vowel), tức là các nguyên âm có giá trị D lớn với các nguyên âm lax (thả lỏng), tức là các nguyên âm có giá trị D nhỏ. Cuối cùng, một phép kiểm tra mịn hơn (finer) ñối với các giá trị formant ñể phân tách các nguyên âm chưa phân tách còn lại tạo ra lớp các nguyên

âm bằng (flat) tức là các nguyên âm có F1+F2 lớn hơn một ngưỡng T nào ñó và các nguyên âm ñơn giản (plain) ( các nguyên âm có F1+F2 nằm dưới một ngưỡng T nào ñó)

Hình 5.9 Một phương pháp ñơn giản phân loại nguyên âm tiếng Anh

Cần chú ý rằng, có một số mức ngưỡng ñược sử dụng trong bộ phân loại nguyên âm. Các mức ngưỡng này thường ñược xác ñịnh bằng thực nghiệm sao cho có thể tăng tối ña tính chính xác của phép phân loại trên một tập tín hiệu tiếng nói cho trước.

b) Phân loại âm thanh tiếng nói

Việc phân loại nguyên âm chỉ là một phần nhỏ trong quá trình gán nhãn âm tiết của phương pháp nhận dạng tín hiệu tiếng nói acoustic-phonetic. Về mặt lý thuyết, chúng ta cần phải có một phương pháp phân loại một phân ñoạn bất kỳ nào ñó thành một hoặc nhiều hơn một trong số hơn 40 ñơn vị âm tiết ñược thảo luận trước ñây. Trong phần này chúng ta xem xét một bài toán phân loại ñơn giản hơn nhằm phân loại một phân ñoạn tiếng nói thành một hoặc một số lớp tín hiệu tiếng nói, chẳng hạn như các âm vô thanh ngắt (unvoiced stop), âm hữu thanh ngắt (voiced stop), âm vô thanh xát (unvoiced fricative). Chúng ta biết rằng không tồn tại một thủ tục ñơn giản hoặc tổng quát ñược chấp nhận rộng rãi ñể thực hiện tác vụ này, tuy vậy, hình 5.10 mô tả một phương pháp ñơn giản trực giác ñể hoàn thành việc phân loại như vậy.

Phương pháp này sử dụng một cây nhị phân ñể ra quyết ñịnh các lớp tín hiệu khác nhau. Quyết ñịnh ñầu tiên là phân chia lớp âm thanh/yên lặng (sound/silence). Ở quyết ñịnh này các ñặc trưng tín hiệu tiếng nói (về cơ bản là năng lượng trong trường hợp này) ñược so sánh với

Chương 5: Nhận dạng tiếng nói

một ngưỡng ñã ñược lựa chọn, các tín hiệu yên lặng ñược tách ra nếu như phép thử là âm ñối với âm thanh tiếng nói. Quyết ñịnh thứ hai là việc phân lớp các âm hữu thanh và vô thanh (cơ sở dựa trên việc xuất hiện tính tuần hoàn của tín hiệu trong phân ñoạn ñang xét). Kết quả của quyết ñịnh này là các âm vô thanh ñược tách khỏi các âm hữu thanh. Bước tiếp theo là thực hiện một phép thử ñể phân tách các phụ âm vô thanh ngắt (unvoiced stop consonants) khỏi các phụ âm vô thanh xát (unvoiced fricatives). Bằng phép thử tần số cao thấp/tần số thấp (năng lượng), chúng ta có thể phân tách các âm hữu thanh xát (voiced fricatives) khỏi các âm hữu thanh. Các âm hữu thanh ngắt (voiced stop) có thể ñược phân tách bằng cách kiểm tra xem âm vị trước ñó có phải là yên lặng (hoặc gần giống yên lặng). Cuối cùng một phép kiểm tra phổ nguyên âm/phụ âm ñược tiến hành (tìm kiếm khe phổ) nhằm tách các nguyên âm khỏi các phụ âm.

Hình 5.10 Phương pháp phân loại âm thanh tiếng nói dựa vào cây nhị phân

Thủ tục phân tách nguyên âm ñược trình bày trong hình 5.9 có thể ñược sử dụng thêm như một phép phân loại mịnh các nguyên âm.

Chú ý là thủ tục phân loại ñề cập trên và minh hoạ trong hình 5.10 chỉ mang tính minh họa sơ lược và có nhiều lỗi. Chẳng hạn, một số âm hữu thanh ngắt không phải bắt ñầu bằng khoảng lặng hoặc âm giống khoảng lặng. Một vấn ñề nữa là không ñưa ra ñược một cách nào có thể phân biệt các âm kép (diphthongs) từ các nguyên âm.

c)Một số tồn tại trong phương pháp nhận dạng acoustic-phonetic

Có rất nhiều vấn ñề tồn tại trong phương pháp nhận dạng tín hiệu tiếng nói acoustic- phonetic. Những vấn ñề này làm cho phương pháp thiếu sự thành công trong các hệ thống nhận dạng tín hiệu tiếng nói thực tế. Trong các tồn tại phải kểñến là:

1. Phương pháp này yêu cầu một khối lượng thông tin lớn (extensive) về các tính chất âm học của các ñơn vị âm tiết. Những thông tin này thường là không ñầy ñủ và không sẵn sàng ngoại trừ những trường hợp ñơn giản.

2. Việc chọn các ñặc trưng ñược thực hiện chủ yếu dựa trên các xem xét ad hoc. Với hầu hết các hệ thống, việc chọn các ñặc trưng dựa trên các nhận thức chứ không phải tối ưu theo một tiêu chí ñịnh sẵn và có nghĩa (a well-defined and meaningful sense)

3. Thiết kế các bộ phân loại âm thanh cũng không phải là các thiết kế tối ưu. Phương pháp ad hoc thường ñược sử dụng ñể xây dựng các cây nhị phân quyết ñịnh. Gần ñây, các phương pháp cây hồi quy (regression) và phân loại (CART) ñược sử dụng thay thế ñể cho phép các cây quyết ñịnh nhất quán hơn. Tuy vậy, vì việc lựa chọn các ñặc trưng chủ yếu là cận tối ưu, các thực thi tối ưu của CART thường ít khi ñạt ñược.

4. Không tồn tại một thủ tục ñịnh sẵn và tựñộng nào cho việc ñiều chỉnh phương pháp (chẳng hạn như chỉnh các ngưỡng quyết ñịnh, ...) trên các tín hiệu ñược gán nhãn thực. Thực tế, thậm chí còn không có một phương pháp lý tưởng của việc gán nhãn tín hiệu tiếng nói huấn luyện một cách nhất quán và ñược sựñồng ý rộng rãi của các chuyên gia ngôn ngữ học.

Do các tồn tại nêu trên, mặc dù phương pháp nhận dạng acoustic-phonetic là một ý tưởng khá thú vị nhưng cần có nhiều nghiên cứu hiểu biết hơn nữa ñể có thể thực hiện thành công các hệ thống nhận dạng thực tế dựa trên phương pháp này.

Một phần của tài liệu BÀI GIẢNG XỬ LÝ TIẾNG NÓI (Trang 79 - 83)