CHƢƠNG 2 PHÂN TÍCH TÍN HIỆU TIẾNG NÓI
2.7. ÁP DỤNG MỘT SỐ PHÉP PHÂN TÍCH ĐỂ XÁC ĐỊNH CÁC THAM
2.7.9 Sử dụng phân tích Cepstral
Trong phân tích cepstral ngƣời ta quan sát thấy rằng, với tín hiệu âm hữu thanh, có một đỉnh nhọn tại chu kỳ cơ bản của tín hiệu. Tuy nhiên với tín hiệu âm vơ thanh thì đỉnh nhọn này khơng xuất hiện. Do đó, phân tích cepstral có thể đƣợc sử dụng nhƣ một công cụ cơ bản dùng để xác định xem một đoạn tín hiệu tiếng nói là tín hiệu âm vơ thanh hay hữu thanh, và để xác định chu kỳ cơ bản của tín hiệu âm hữu thanh. Phƣơng pháp sử dụng phân tích cepstral để ƣớc lƣợng tần số cơ bản khá đơn giản. Trƣớc hết các cepstrum đƣợc tính tốn và tìm kiếm đỉnh nhọn trong một khoảng lân cận của chu kỳ phỏng đoán. Nếu đỉnh cepstrum tại đó lớn hơn một ngƣỡng định trƣớc thì tín hiệu tiếng nói đƣa vào có khả năng lớn là tín hiệu âm hữu thanh và vị trí đỉnh đó là một ƣớc lƣợng chu kỳ tín hiệu cơ bản (cũng tức là xác định đƣợc tần số cơ bản).
Hình 2.13 minh họa việc sử dụng phƣơng pháp phân tích cepstral để xác định tín hiệu âm vô thanh và hữu thanh cùng với xác định tần số cơ bản của âm hữu thanh. Phía bên trái là dãy các lô-ga phổ ngắn hạn (các đƣờng thay đổi rất nhanh theo thời gian), phía bên phải là các dãy cepstra tƣơng ứng đƣợc tính tốn từ các lơ-ga phổ phía bên tai trái. Các dãy lơ-ga phổ và cepstra tƣơng ứng là các đoạn liên tiếp chiều dài 50ms thu đƣợc từ hàm cửa sổ dịch 12,5ms mỗi bƣớc (nghĩa là dịch khoảng 100 mẫu ở tần số lấy mẫu 800mẫu/giây). Từ hình vẽ, ta thấy các dãy 1-5, cửa sổ tín hiệu chỉ bao gồm tín hiệu âm vơ thanh (không xuất hiện đỉnh, sự thay đổi phổ rất nhanh và xảy ra ngẫu nhiên khơng có cấu trúc chu kỳ) trong khi các dãy 6 và 7 bao gồm cả tín hiệu âm vơ thanh và hữu thanh. Các dãy 8-15 chỉ bao gồm tín hiệu âm hữu thanh. Dễ dàng thấy đỉnh cepstrum tại tần số ứng với 11-12ms tín hiệu âm hữu thanh. Và nhƣ vậy, tần số của đỉnh là một ƣớc lƣợng chính xác tần số cơ bản trong khoảng tín hiệu hữu thanh.
CHƢƠNG 2. PHÂN TÍCH TÍN HIỆU TIẾNG NĨI
63 Hình 2.13 Lơ-ga-rít các thành phần hài trong phổ tín hiệu
2.8. CÂU HỎI VÀ BÀI TẬP CUỐI CHƢƠNG
1. Mục đích của việc Xử lý tiếng nói? Liệt kê một số phép xử lý phân tích tiếng nói cơ bản
2. Các phƣơng pháp phân tích tiếng nói trong miền thời gian? Ứng dụng của các phƣơng pháp này?
3. Phƣơng pháp phân tích phổ tín hiệu tiếng nói?
4. Tại sao với tiếng nói phải thực hiện phân tích ngắn hạn?
5. Có thể dùng những tham số nào để xác định điểm đầu cuối trong một đoạn âm thanh?
CHƢƠNG 2. PHÂN TÍCH TÍN HIỆU TIẾNG NĨI
7. Phân tích cepstral: ngun lý, cơng thức tính, áp dụng?
8. Xét một phân đoạn tín hiệu tiếng nói sau {0 0.6442 0.9854 0.8632 0.3350 -0.3508 -0.8716 -0.9825 -0.6313}. Biết đây là mẫu của một phân đoạn tín hiệu tiếng nói đƣợc lấy mẫu với tần số lấy mẫu là 8000Hz. Hãy xác định các thông số cơ bản cho phân đoạn tín hiệu bằng phân tích trong miền thời gian. Giả sử cửa sổ phân tích là cửa sổ chữ nhật có chiều rộng N=4 điểm mẫu.
9. (Matlab) Sử dụng máy tính cá nhân và phần mềm Matlab (hoặc các ngơn ngữ lập trình khác) cùng cơng cụ chỉnh sửa âm thanh Audicity (hoặc công cụ khác) thực hiện các công việc sau:
i. Với cùng một nội dung thơng tin, các thành viên trong nhóm lần lƣợt phát âm (đọc/nói) và ghi âm phát âm của các nguyên âm tiếng Việt. Lƣu tệp ở định dạng *.wav
ii. Sử dụng phần mềm Matlab (hoặc các bộ công cụ, ngơn ngữ lập trình khác) và kiến thức đã học trong chƣơng này:
1. Xác định tần số cơ bản của phát âm tƣơng ứng của mỗi thành viên
2. Xác định formant đầu tiên (F1) trong phát âm của mỗi thành viên. Từ kết quả đó, lập bản đồ phân bố tần số formant của các nguyên âm tiếng Việt của các thành viên trong nhóm
10.(Matlab) Sử dụng máy tính cá nhân và phần mềm Matlab (hoặc cơng cụ thích hợp):
i. Ghi một file tín hiệu tiếng nói của cụm từ “Xin chào các bạn”, ghi file dƣới dạng *.wav
ii. Sử dụng thƣ viện của Matlab (hoặc các cơng cụ thích hợp) thực hiện phân tích LPC của đoạn tín hiệu tiếng nói trên
iii. Sử dụng thƣ viện của Matlab (hoặc các công cụ thích hợp) thực hiện phân tích LPC của đoạn tín hiệu tiếng nói trên