Sử dụng phân tích Cepstral

Trong phân tích cepstral ngƣời ta quan sát thấy rằng, với tín hiệu âm hữu thanh, có một đỉnh nhọn tại chu kỳ cơ bản của tín hiệu. Tuy nhiên với tín hiệu âm vô thanh thì đỉnh nhọn này không xuất hiện. Do đó, phân tích cepstral có thể đƣợc sử dụng nhƣ một công cụ cơ bản dùng để xác định xem một đoạn tín hiệu tiếng nói là tín hiệu âm vô thanh hay hữu thanh, và để xác định chu kỳ cơ bản của tín hiệu âm hữu thanh. Phƣơng pháp sử dụng phân tích cepstral để ƣớc lƣợng tần số cơ bản khá đơn giản. Trƣớc hết các cepstrum đƣợc tính toán và tìm kiếm đỉnh nhọn trong một khoảng lân cận của chu kỳ phỏng đoán. Nếu đỉnh cepstrum tại đó lớn hơn một ngƣỡng định trƣớc thì tín hiệu tiếng nói đƣa vào có khả năng lớn là tín hiệu âm hữu thanh và vị trí đỉnh đó là một ƣớc lƣợng chu kỳ tín hiệu cơ bản (cũng tức là xác định đƣợc tần số cơ bản).

Hình 2.13 minh họa việc sử dụng phƣơng pháp phân tích cepstral để xác định tín hiệu âm vô thanh và hữu thanh cùng với xác định tần số cơ bản của âm hữu thanh. Phía bên trái là dãy các lô-ga phổ ngắn hạn (các đƣờng thay đổi rất nhanh theo thời gian), phía bên phải là các dãy cepstra tƣơng ứng đƣợc tính toán từ các lô-ga phổ phía bên tai trái. Các dãy lô-ga phổ và cepstra tƣơng ứng là các đoạn liên tiếp chiều dài 50ms thu đƣợc từ hàm cửa sổ dịch 12,5ms mỗi bƣớc (nghĩa là dịch khoảng 100 mẫu ở tần số lấy mẫu 800mẫu/giây). Từ hình vẽ, ta thấy các dãy 1-5, cửa sổ tín hiệu chỉ bao gồm tín hiệu âm vô thanh (không xuất hiện đỉnh, sự thay đổi phổ rất nhanh và xảy ra ngẫu nhiên không có cấu trúc chu kỳ) trong khi các dãy 6 và 7 bao gồm cả tín hiệu âm vô thanh và hữu thanh. Các dãy 8-15 chỉ bao gồm tín hiệu âm hữu thanh. Dễ dàng thấy đỉnh cepstrum tại tần số ứng với 11-12ms tín hiệu âm hữu thanh. Và nhƣ vậy, tần số của đỉnh là một ƣớc lƣợng chính xác tần số cơ bản trong khoảng tín hiệu hữu thanh.

Hình 2.13 Lô-ga-rít các thành phần hài trong phổ tín hiệu

2.8. CÂU HỎI VÀ BÀI TẬP CUỐI CHƢƠNG

1. Mục đích của việc Xử lý tiếng nói? Liệt kê một số phép xử lý phân tích tiếng nói cơ bản

2. Các phƣơng pháp phân tích tiếng nói trong miền thời gian? Ứng dụng của các phƣơng pháp này?

3. Phƣơng pháp phân tích phổ tín hiệu tiếng nói?

4. Tại sao với tiếng nói phải thực hiện phân tích ngắn hạn?

5. Có thể dùng những tham số nào để xác định điểm đầu cuối trong một đoạn âm thanh?

7. Phân tích cepstral: nguyên lý, công thức tính, áp dụng?

8. Xét một phân đoạn tín hiệu tiếng nói sau {0 0.6442 0.9854 0.8632 0.3350 -0.3508 -0.8716 -0.9825 -0.6313}. Biết đây là mẫu của một phân đoạn tín hiệu tiếng nói đƣợc lấy mẫu với tần số lấy mẫu là 8000Hz. Hãy xác định các thông số cơ bản cho phân đoạn tín hiệu bằng phân tích trong miền thời gian. Giả sử cửa sổ phân tích là cửa sổ chữ nhật có chiều rộng N=4 điểm mẫu.

9. (Matlab) Sử dụng máy tính cá nhân và phần mềm Matlab (hoặc các ngôn ngữ lập trình khác) cùng công cụ chỉnh sửa âm thanh Audicity (hoặc công cụ khác) thực hiện các công việc sau:

i. Với cùng một nội dung thông tin, các thành viên trong nhóm lần lƣợt phát âm (đọc/nói) và ghi âm phát âm của các nguyên âm tiếng Việt. Lƣu tệp ở định dạng *.wav

ii. Sử dụng phần mềm Matlab (hoặc các bộ công cụ, ngôn ngữ lập trình khác) và kiến thức đã học trong chƣơng này:

1. Xác định tần số cơ bản của phát âm tƣơng ứng của mỗi thành viên

2. Xác định formant đầu tiên (F1) trong phát âm của mỗi thành viên. Từ kết quả đó, lập bản đồ phân bố tần số formant của các nguyên âm tiếng Việt của các thành viên trong nhóm

10.(Matlab) Sử dụng máy tính cá nhân và phần mềm Matlab (hoặc công cụ thích hợp):

i. Ghi một file tín hiệu tiếng nói của cụm từ “Xin chào các bạn”, ghi file dƣới dạng *.wav

ii. Sử dụng thƣ viện của Matlab (hoặc các công cụ thích hợp) thực hiện phân tích LPC của đoạn tín hiệu tiếng nói trên

iii. Sử dụng thƣ viện của Matlab (hoặc các công cụ thích hợp) thực hiện phân tích LPC của đoạn tín hiệu tiếng nói trên

CHƢƠNG 3: MÃ HÓA TIẾNG NÓI

Biểu diễn phổ tín hiệu tiếng nói

CÂU HỎI VÀ BÀI TẬP CUỐI CHƢƠNG