Nghiên cứu mô hình thuật toán phân tích tổng hợp tiếng nói MELP

63 41 0
Nghiên cứu mô hình thuật toán phân tích tổng hợp tiếng nói MELP

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

i ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ ĐINH VĂN NGỌC NGHIÊN CỨU MƠ HÌNH THUẬT TỐN PHÂN TÍCH VÀ TỔNG HỢP TIẾNG NĨI MELP LUẬN VĂN THẠC SĨ CÔNG NGHỆ ĐIỆN TỬ - VIỄN THÔNG Hà Nội – 2014 ii ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐINH VĂN NGỌC NGHIÊN CỨU MƠ HÌNH THUẬT TỐN PHÂN TÍCH VÀ TỔNG HỢP TIẾNG NĨI MELP Ngành: Cơng nghệ Điện tử - Viễn thông Chuyên ngành: Kỹ thuật Điện tử Mã số: 60 52 02 03 LUẬN VĂN THẠC SĨ CÔNG NGHỆ ĐIỆN TỬ - VIỄN THÔNG NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS TRẦN ĐỨC TÂN Hà Nội – 2014 iii LỜI CAM ĐOAN Tơi xin cam đoan cơng trình nghiên cứu riêng Các số liệu, kết nêu luận văn trung thực chƣa đƣợc cơng bố cơng trình khác Tác giả Đinh Văn Ngọc iv MỤC LỤC MỤC LỤC iv DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT vi DANH MỤC BẢNG viii DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ viii MỞ ĐẦU Chƣơng - TỔNG QUAN MÃ HÓA TIẾNG NÓI 1.1 Giới thiệu chung 1.2 Phân loại mã hóa tiếng nói 1.2.1 Phân loại theo tốc độ bít 1.2.2 Phân loại theo kỹ thuật mã hóa 1.3 Ứng dụng mã hóa tiếng nói 1.4 Tiếng nói mơ hình hóa 1.5 Mơ hình hóa hệ thống tạo tiếng nói .9 Chƣơng - MƠ HÌNH THUẬT TỐN MELP 10 2.1 Mơ hình tạo tiếng nói MELP .10 2.1.1 Mơ hình tạo tiếng nói LPC 10 2.1.2 Mơ hình tạo tiếng nói MELP 11 2.1.3 Mơ hình thuật tốn phân tích tổng hợp tiếng nói MELP 13 2.2 Các thuật tốn phân tích tiếng nói MELP 17 2.2.1 Tính tốn Pitch: pitch ngun, pitch thập phân, pitch cuối 17 2.2.2 Phân tích Bandpass voicing 20 2.2.3 Xác định cờ Aperiodic 21 2.2.4 Phân tích LP 22 2.2.5 Tính tốn Peakness 27 2.2.6 Tính tốn Gain 28 v 2.2.7 Tính tốn đại lƣợng Fourier 29 2.2.8 Lƣợng tử tham số: LPC, Pitch, Gain, Bandpass voicing, đại lƣợng Fourier 31 2.3 Các thuật toán tổng hợp tiếng nói MELP 34 2.3.1 Giải mã nội suy tham số 34 2.3.2 Tạo tính hiệu Mixed excitation 35 2.3.3 Cải thiện phổ thích nghi .38 2.3.4 Tổng hợp LP 39 2.3.5 Thay đổi Gain 39 2.3.6 Phân tán xung 39 Chƣơng - THỰC THI MƠ HÌNH THUẬT TỐN MELP TRÊN MATLAB 41 3.1 Thực thi MELP Matlab 41 3.2 Cấu trúc tệp 43 3.3 Đánh giá kết 45 Chƣơng - PHÂN TÍCH VÀ ĐỀ XUẤT .51 KẾT LUẬN 53 DANH MỤC CƠNG TRÌNH KHOA HỌC 54 TÀI LIỆU THAM KHẢO 54 vi DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Từ viết tắt Tiếng Anh đầy đủ Nghĩa tiếng Việt Dự án đối tác thứ 3GPP The 3rd Generation Partnership Project ACELP Algebraic code-excited linear prediction Dự đốn tuyến tính mã kích thích mã đại số ACR Absolute category rating Tỉ lệ phân loại tuyệt đối ADPCM Adaptive differential pulse code modulation Điều chế mã xung sai phân thích nghi APCM Adaptive pulse code modulation Điều chế mã xung thích nghi AR Autoregressive Tự hồi quy ARMA Autoregressive moving average Trung bình dịch chuyển tự hồi quy CCR Comparison category rating Tỉ lệ phân loại so sánh CELP Code-excited linear prediction Dự đoán tuyến tính mã kích thích CS-ACELP Conjugate structure algebraic code-excited linear prediction Dự đốn tuyến tính mã kích thích đại số cấu trúc liên hợp DC Direct current Dòng chiều DFT Discrete Fourier transform Biến đổi Fourier rời rạc Điều chế mã xung sai phân DPCM Differential pulse code modulation Xử lý tín hiệu số DSP Digital signal processing/processor DTFT Discrete time Fourier transform Biến đổi Fourier thời gian rời rạc FFT Fast Fourier transform Biến đổi Fourier nhanh FIR Finite impulse response Đáp ứng xung hữu hạn FM Frequency modulation Điều tần FS 1015 Federal Standard 1015 Chuẩn liên bang 1015 Biến đổi Fourier rời rạc nghịch đảo IDFT Inverse discrete Fourier transform IIR Infinite impulse response Đáp ứng xung vơ hạn LD-CELP Low-delay code-excited linear prediction Dự đốn tuyến tính mã kích thích trễ thấp LMS Least mean square Bình phƣơng trung bình tối thiểu vii LP Linear prediction Dự đốn tuyến tính Mã hóa dự đốn tuyến tính LPC Linear prediction coding/coefficient MSE Mean square error Sai số bình phƣơng trung bình MSVQ Multistage vector quantization Lƣợng tử hóa vector đa lớp PCM Pulse code modulation Điều chế mã xung PESQ Perceptual evaluation of speech quality Đánh giá cảm nhận chất lƣợng thoại PG Prediction gain Độ lợi dự đoán Đo đạc chất lƣợng thoại PSQM Perceptual speech quality measure PVQ Predictive vector quantization Lƣợng tử hóa vec-tơ dự đốn QCELP Qualcomm code-excited linear prediction Dự đốn tuyến tính kích thích mã Qualcomm RC Reflection coefficient Hệ số phản xạ RV Random variable Biến ngẫu nhiên RF Radio frequency Tần số ô SD Spectral distortion Sự biến dạng phổ SNR Signal to noise ratio Tỉ lệ tín hiệu nhiễu UMTS Universal Mobile Telecommunications Service Hệ thống viễn thơng di động tồn cầu VSCELP Vector sum excited linear prediction Dự đốn tuyến tính kích thích tổng véc tơ VoIP Voice over internet protocol Truyền âm qua giao thức internet VQ Vector quantization Lƣợng tử hóa véc-tơ viii DANH MỤC BẢNG Bảng 1-1 Phân loại mã hóa tiếng nói theo tốc độ bit Bảng 2-1 Cấp phát bit mã hóa MELP .16 Bảng 2-2 Thứ tự bit khung truyền liệu MELP 16 Bảng 2-3 Mã hóa/Giải mã pitch voicing strength tần thấp .31 Bảng 2-4 Các hệ số lọc cho dải thông 37 Bảng 2-5 Hệ số lọc phân tán xung 40 Bảng 3-1 Các mẫu âm dùng đề đánh giá MELP 46 Bảng 3-2 Kết đánh giá công cụ PESQ 46 Bảng 3-3 Các tệp mẫu âm có nhiễu .49 Bảng 3-4 Kết đánh giá công cụ PESQ 49 Bảng 4-1 Kết sau đề xuất thay đổi 52 DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1-1 Hệ thống mã hóa tiếng nói .3 Hình 1-2 Bộ mã hóa tiếng nói Hình 1-3 Hệ thống tạo tiếng nói ngƣời .7 Hình 1-4 Tiếng nói khơng phải tiếng nói Hình 1-5 Cấu trúc tạo tiếng nói đƣợc đơn giản Hình 2-1 Mơ hình tạo tiếng nói LPC .10 Hình 2-2 Mơ hình tạo tiếng nói MELP 12 Hình 2-3 Cấu trúc chung mã hóa tiếng nói 13 Hình 2-4 Bộ mã hóa MELP 14 Hình 2-5 Bộ giải mã MELP 15 Hình 2-6 Tính chu kỳ pitch 18 Hình 2-7 Tính tốn Voicing strengths 21 Hình 2-8 Một số tín hiệu peakness 28 ix Hình 2-9 Tính tốn đại lƣợng Fourier .29 Hình 2-10 Quá trình tạo kích thích xung .35 Hình 2-11 Bộ lọc tạo hình 37 Hình 3-1 Mơ hình thực thi MELP Matlab 41 Hình 3-2 Lƣu đồ thực thi mã hóa MELP 42 Hình 3-3 Lƣu đồ thực thi giải mã MELP 42 Hình 3-4 Tín hiệu tiếng nói tệp Nam03.wav, trên: tín hiệu ngun gốc, dƣới: tín hiệu xử lý MELP 47 Hình 3-5 Mật độ phổ cơng suất chuẩn hóa tệp Nam03.wav, trên: phổ nguyên gốc, dƣới: phổ xử lý MELP 47 Hình 3-6 Tín hiệu tiếng nói tệp Nu03.wav, trên:tín hiệu nguyên gốc, dƣới: tín hiệu xử lý MELP 48 Hình 3-7 Mật độ phổ cơng suất chuẩn hóa tệp Nu03.wav, trên:phổ nguyên gốc, dƣới: phổ xử lý MELP .48 Hình 3-8 Tín hiệu tiếng nói tệp Nam01_Noise30.wav, trên:tín hiệu nguyên gốc, dƣới: tín hiệu xử lý MELP 50 Hình 3-9 Mật độ phổ cơng suất chuẩn hóa tệp Nam01_Noise30.wav, trên:phổ nguyên gốc, dƣới: phổ xử lý MELP 50 MỞ ĐẦU Lý chọn đề tài Ngày nay, với phát triển khoa học kỹ thuật có nhiều ứng dụng lĩnh vực xử lý tiếng nói Trong khơng thể khơng nhắc tới mã hóa tiếng nói, tiếng anh nguyên gốc Speech coding Mã hóa tiếng nói đƣợc ứng dụng rộng rãi thông tin di động, Voice IP, truyền tiếng nói qua sóng vơ tuyến Mã hóa tiếng nói biểu diễn lại tín hiệu tiếng nói đƣợc số hóa sử dụng số bít với chất lƣợng âm chấp nhận Mã hóa tiếng nói gọi nén tiếng nói (speech compression) Hƣớng nghiên cứu luận văn tập trung vào mơ hình thuật tốn phân tích tổng hợp tiếng nói MELP, mơ hình mã hóa tiếng nói Mơ hình đƣợc sử dụng phổ biến thiết bị thông tin liên lạc vô tuyến quân Nghiên cứu làm chủ mô hình MELP quan trọng phục vụ sản xuất thiết bị thông tin liên lạc vô tuyến Quân sự, giúp giảm tốc độ truyền tiếng nói xuống 2400bps, truyền đƣợc mơi trƣờng có nhiễu cao Xuất phát từ lý mà chọn đề tài: “Nghiên cứu mơ hình thuật tốn phân tích tổng hợp tiếng nói MELP” Mục tiêu nhiệm vụ nghiên cứu Mục tiêu luận văn tập trung vào nghiên cứu mơ hình phân tích tổng hợp tiếng nói MELP đƣợc dùng nhiều thiết bị thông tin liên lạc quân Mỹ có tiêu chuẩn liên quan đến MELP MIL-STD-3005, Nato có tiêu chuẩn liên quan STANAG 4591: Phân tích tổng quan mã hóa tiếng nói Mơ hình mã hóa tiếng nói MELP Phân tích, xây dựng, triển khai thực thi thuật tốn MELP Matlab Phân tích, đánh giá kết Đối tượng phạm vi nghiên cứu + Đối tƣợng nghiên cứu Tìm hiểu tổng quan mã hóa tiếng nói MELP + Phạm vi nghiên cứu Các vấn đề mã hóa tiếng nói Thực thi thuật tốn MELP Matlab 40 Bảng 2-5 Hệ số lọc phân tán xung Hệ số 1-13 Hệ số 14-26 Hệ số 27-39 Hệ số 40-52 Hệ số 53-65 -0.17304259 0.24325127 0.07343483 0.02968464 0.00019707 -0.01405709 -0.01767043 -0.00518645 -0.01247640 -0.02825247 0.01224406 -0.00018612 0.01298488 0.01854666 0.01720989 0.11364226 0.05869485 0.02928440 0.00076184 -0.06004292 0.00198199 -0.00327456 -0.01989405 -0.07749640 -0.07076744 0.00000658 0.00607395 0.01216758 0.01244697 0.00914347 0.04529633 0.02753924 0.01180979 -0.02721777 0.06082730 -0.00092027 -0.03351673 -0.38924775 0.07266098 0.01805528 -0.00103078 0.00602189 0.00720325 0.00472008 -0.00318634 0.02552787 0.01436539 -0.01154561 0.03526439 0.03444110 -0.06339257 0.82854582 0.08426287 0.02674603 0.00026302 -0.00122031 0.00033165 -0.00355720 -0.00744038 -0.01053809 0.01412525 -0.00360180 0.02151233 0.02582623 0.02165922 Bộ lọc phân tán xung dùng để cải thiện lọc tổng hợp băng thông tiếng nói tự nhiên dạng sóng vùng khơng có cộng hƣởng đỉnh, mà tiếng tự nhiên qua lọc băng thơng có tỉ lệ đỉnh-trũng nhỏ so với tiếng tổng hợp Ta nghĩ chức lọc “khuấy” phổ đầu lọc tổng hợp để cải thiện tính tự nhiên; điều hay kích thích hỗn hợp đƣợc hình thành cách trộn nhiễu xung thông qua băng lọc với băng thông cố định 41 Chương - THỰC THI MƠ HÌNH THUẬT TOÁN MELP TRÊN MATLAB Dựa kết nghiên cứu lý thuyết mơ hình thuật tốn phân tích tổng hợp tiếng nói MELP, chƣơng tiến hành thực thi thuật toán MELP 2400bps Matlab Thực thi nhằm nghiên cứu đắn thuật tốn, từ hiểu sâu thuật tốn MELP Đánh giá sơ kết đầu tệp liệu tiếng nói tiếng Việt đƣa đề xuất thay đổi thuật tốn Mơ hình thuật tốn thực thi Matlab đƣợc đánh giá chất lƣợng tiếng nói thơng qua pháp nghe trực tiếp phƣơng pháp đánh giá khách quan ITU P.862 PESQ Thực thi Matlab bỏ qua đánh giá kênh truyền thực mà tập trung vào thuật toán phân tích tổng hợp 3.1 Thực thi MELP Matlab Mơ hình thực thi thuật tốn MELP Matlab đƣợc mơ tả hình 4-1 bên dƣới Tệp âm đầu vào wav Mã hóa MELP Giải mã MELP Tệp âm đầu wav Hình 3-1 Mơ hình thực thi MELP Matlab Tệp âm tín hiệu âm đƣợc lấy mẫu PCM 8000Hz, lƣợng tử 16-bit mẫu Tín hiệu âm qua mã hóa MELP, đƣợc phân tích thành khung liệu 180 mẫu, tiến hành phân tích thành tham số (LPCs, Pitch, Voicing strengths, Gain, đại lƣợng Fourier, cờ Aperiodic) Các tham số đƣợc lƣu thành mảng có cấu trúc đầu Mảng liệu đầu vào giải mã MELP Kết đầu giải mã đƣợc ghi thành tệp âm với tần số lấy mẫu 8000Hz, lƣợng tử 16-bit mẫu Tệp âm đầu vào tệp âm đầu đƣợc đƣa vào công cụ đánh giá PESQ Trong khuôn khổ luận văn tiến hành thử nghiệm với tệp tiếng nói Tiếng Việt, Thực thi mã hóa MELP Matlab tuân theo luồng tuần tự, thuật toán thực lần lƣợt 42 Tệp wav Phân chia frame (Frame Segmentation) Loại bỏ thành phần chiều (DC remove) Tính phần thập phân Pitch (Get fractal pitch ) Tính giá trị Peakness (Peakness calculation) Tính giá trị Voicing strength (Voicing strength calculation) Lƣợng tử Gain (Gain quantization) Tính tốn Fourier Mag lƣợng tử (Fourier magnitudes) Tính tốn Pitch lần cuối (Final Pitch calculation) Tính tốn pitch ngun (Integer pitch calculation) Quyết định cờ Aperiodic (Aperiodic flag decision) Tính tốn Gain (Gain computation) Phân tích Bandpass (Bandpass analyse) Phân tích LP (LP analyse) Lƣợng tử LPC (LPC quantization) Dữ liệu Hình 3-2 Lưu đồ thực thi mã hóa MELP Thực thi giải mã MELP: Dữ liệu Đọc bit liệu (Bit unpacking) Giảm nhiễu (Noise attenuation) Nội suy tham số (Parameter intepolation) Bộ tạo tín hiệu trộn kích thích (Mixed excitation generation) Cải thiện phổ thích nghi (Adaptive spectal enhancement) Tổng hợp dự đốn tuyến tính (Linear prediction synthesis) Thay đổi độ lợi (Gain adjustment) Phân tán xung (Pulse dispersion) Điều khiển vòng lặp tổng hợp (Synthesis loop control) Tiếng nói tệp wav Hình 3-3 Lưu đồ thực thi giải mã MELP 43 3.2 Cấu trúc tệp Cấu trúc tệp thư mục mã hóa (encode) \encode\codebook_fmcq1.m Dữ liệu codebook dùng lƣợng tử Fouier Magnitudes \encode\codebook_fmcq2.m Dữ liệu codebook dùng lƣợng tử Fouier Magnitudes \encode\coeff.m Dữ liệu hệ số lọc \encode\dc_rmv.m Hàm loại bỏ thành phần chiều \encode\double_ck.m Hàm double check cho tính pitch \encode\double_ver.m Hàm phục vụ double check \encode\d_lsf.m Hàm xác định véc tơ lƣợng tử LSF \encode\find_harm.m Hàm tìm kiếm hài \encode\FPR.m Hàm tìm kiếm fractional pitch \encode\intpitch.m Hàm tìm kiếm integer pitch \encode\lpc_residual.m Hàm tính phần dƣ LPC \encode\lsfcomp.m Hàm so sánh LSFs \encode\lsf_clmp.m Hàm thay đổi khoảng cách LSF \encode\melp_5b.m Hàm tách đƣờng bao cho band \encode\melp_APU.m Hàm tính lại Pitch trung bình \encode\melp_bandpass.m Dữ liệu hệ số lọc bandpass \encode\melp_bpva.m Hàm tính hệ số voicing strengths \encode\melp_encode.m Hàm thuật tốn MELP \encode\melp_FMCQ.m Hàm lƣợng tử 10 giá trị Fourier magnitudes \encode\melp_gain.m Hàm tính Gain \encode\melp_iir.m Bộ lọc IIR \encode\melp_init.m Khởi tạo tham số, biến cho thuật tốn MELP \encode\melp_lpc.m Hàm phân tích LPC \encode\melp_lpc2lsf.m Hàm biến đổi LPC sang LSF \encode\melp_lsf2lpc.m Hàm biến đổi LSF sang LPC 44 \encode\melp_msvq.m Hàm lƣợng tử hóa LPC \encode\melp_Qgain.m Hàm lƣợng tử Gain \encode\melp_wf.m Hàm khởi tạo Wf \encode\pitch2.m Hàm tính tốn pitch lần đầu \encode\pitch3.m Hàm tính toán pitch lần cuối \encode\stage.m Dữ liệu codebook cho lƣợng tử LPC Cấu trúc tệp thư mục giải mã (decode) \decode\codebook_fmcq1.m Dữ liệu codebook dùng lƣợng tử Fouier Magnitudes \decode\codebook_fmcq2.m Dữ liệu codebook dùng lƣợng tử Fouier Magnitudes \decode\coeff.m Dữ liệu hệ số lọc \decode\d_ase.m Hàm lọc cải thiện phổ \decode\d_disp.m Hàm lọc phân tán xung \decode\d_ga.m Hàm thay đổi gain cho tín hiệu tổng hợp \decode\d_gains.m Hàm nội suy gain \decode\d_init.m Hàm khởi tạo biến, tham số cho giải mã MELP \decode\d_k1.m Hàm tính tốn hệ số phản xạ thứ \decode\d_lps.m Hàm thực lọc tổng hợp \decode\d_lsf.m Hàm xác định véc tơ LSF \decode\d_mix.m Hàm tạo tín hiệu mixed excitation \decode\d_pdfs.m Khởi tạo tham số cho lọc phân tán xung \decode\melp_bandpass.m Dữ liệu hệ số lọc bandpass \decode\melp_decoder.m Hàm thuật toán giải mã MELP \decode\melp_lsf2lpc.m Hàm biến đổi từ LSF thành LPC \decode\noise_est.m Hàm ƣớc lƣợng nhiễu \decode\noise_sup.m Hàm chặn nhiễu \decode\stage.m Dữ liệu codebook cho lƣợng tử LPC 45 Các bước tiến hành chạy thực thi Matlab: Bƣớc 1: Copy tệp wav (tần số lấy mẫu 8kHz, lƣợng tử 16-bit) vào thƣ mục encode Bƣớc 2: Mở tệp melp_encode.m nhập tên tệp wav vào biến wavfilename dòng 6, tệp melp_encode.m Bƣớc 3: Lƣu tệp melp_encode.m tiến hành chạy tệp Kết đạt đƣợc sau mã hóa chứa mảng cấu trúc c, có độ dài số khung liệu Bƣớc 4: Chuyển sang thƣ mục decode, mở tệp melp_decoder.m Bƣớc 5: Tiến hành chạy tệp melp_decoder.m Bƣớc 6: Kết đầu tệp âm wav trùng tên với tệp đầu vào đƣợc chứa thƣ mục decode 3.3 Đánh giá kết Hai phƣơng pháp đánh giá đƣợc sử dụng để đánh giá chất lƣợng âm phƣơng pháp đánh giá khách quan phƣơng pháp đánh giá chủ quan Phƣơng pháp đánh giá khách quan có tham gia trực tiếp ngƣời, dùng số ngƣời nghe đƣợc huấn luyện để nghe đánh giá khách quan tiếng nói đầu Một số phƣơng pháp khách quan hay dùng MOS (Mean Opinion Score), DAM (Diagnostic Acceptability Measure)… Phƣơng pháp đánh giá chủ quan không sử dụng ngƣời vào việc đánh giá, ví dụ nhƣ PESQ (Perceptual Evaluation of Speech Quality) Mặc dù phƣơng pháp đo chủ quan đáng tin cậy nhƣng chúng tốn nhiều thời gian cần thính giả phải đƣợc huấn luyện Vì thế, ngƣời ta thƣờng dụng phƣơng pháp khách quan Một điểm hạn chế phép đo khách quan có cần phải có tiếng nói rõ ban đầu để làm tham chiếu so sánh, hạn chế việc hiểu biết cảm nhận âm ngƣời, đặc biệt điều kiện có nhiễu Trong khn khổ luận văn dùng phƣơng pháp đánh giá chủ quan PESQ để đánh giá chất lƣợng tiếng nói PESQ phƣơng pháp đánh giá chất lƣợng tiếng nói từ đầu cuối tới đầu cuối cho mạng điện thoại băng hẹp mã hóa tiếng nói PESQ đƣợc ITU (hiệp hội điện tử viễn thông quốc tế) chấp thuận năm 2001 với tên mã P.682, PESQ đƣợc chỉnh sửa lần năm 2003 với mã P.682.1, lần vào năm 2005 với mã P.682.2 Kết PESQ chấm từ đến 4.5, với điểm cao tốt 46 Do mẫu thử nghiệm để đánh giá MELP khó để có đƣợc cơng khai, thời gian hạn chế, nên khuân khổ luận văn dùng số đoạn âm tiếng Việt từ tin VOV để thử nghiệm đánh giá Đến thời điểm chƣa có sở liệu âm tiếng Việt để đánh giá thuật toán mã hóa tiếng nói, có sở liệu tiếng Anh khác đƣợc tiêu chuẩn hóa, đủ lớn sử dụng rộng rãi nhƣ AURORA, TIMIT, ITU P50 Các tệp âm đƣợc trích hai tin vov.vn: Bản tin thời chiều ngày 25/9: http://vov.vn/media/audio/viet-nam-thuc-hienmoi-bien-phap-can-thiet-de-bao-ve-ngu-dan-354097.vov Bản tin thời sáng ngày 29/9: http://vov.vn/media/audio/tq-ngang-nguoc-lenke-hoach-dua-tau-ca-200000-tan-vao-truong-sa-354725.vov Bảng 3-1 Các mẫu âm dùng đề đánh giá MELP Thứ tự Tên tệp Nam/Nữ Nam01.wav Nam Nam02.wav Nam Nam03.wav Nam Nu01.wav Nữ Nu02.wav Nữ Nu03.wav Nữ Kết sau thực thi phân tích tổng hợp MELP tệp liệu đầu vào Bảng 3-2 Kết đánh giá công cụ PESQ Thứ tự Tên tệp Nam/Nữ Điểm PESQ Nam01.wav Nam 2.756 Nam02.wav Nam 2.672 Nam03.wav Nam 2.693 Nu01.wav Nữ 2.595 Nu02.wav Nữ 2.615 Nu03.wav Nữ 2.385 Các tệp kết sau phân tích tổng hợp MELP đƣợc nghe lại cho kết rõ từ, không mát nhiễu từ với Kết với tiếng Việt điểm chấp nhận đƣợc với MELP 2.4kbps 47 Hình dƣới biểu diễn lại tín hiệu đầu vào đầu theo thời gian mật độ phổ công suất tần số 0.5 -0.5 10 x 10 0.5 -0.5 10 x 10 Power/frequency (dB/rad/sample) Power/frequency (dB/rad/sample) Hình 3-4 Tín hiệu tiếng nói tệp Nam03.wav, trên: tín hiệu ngun gốc, dưới: tín hiệu xử lý MELP Periodogram Power Spectral Density Estimate -50 -100 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 Normalized Frequency ( rad/sample) Periodogram Power Spectral Density Estimate 0.1 0.2 0.9 0.9 -50 -100 0.3 0.4 0.5 0.6 0.7 Normalized Frequency ( rad/sample) 0.8 Hình 3-5 Mật độ phổ cơng suất chuẩn hóa tệp Nam03.wav, trên: phổ nguyên gốc, dưới: phổ xử lý MELP 48 0.5 -0.5 10 x 10 0.5 -0.5 10 x 10 Power/frequency (dB/rad/sample) Power/frequency (dB/rad/sample) Hình 3-6 Tín hiệu tiếng nói tệp Nu03.wav, trên:tín hiệu nguyên gốc, dưới: tín hiệu xử lý MELP Periodogram Power Spectral Density Estimate -50 -100 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 Normalized Frequency ( rad/sample) Periodogram Power Spectral Density Estimate 0.1 0.2 0.9 0.9 -50 -100 0.3 0.4 0.5 0.6 0.7 Normalized Frequency ( rad/sample) 0.8 Hình 3-7 Mật độ phổ cơng suất chuẩn hóa tệp Nu03.wav, trên:phổ ngun gốc, dưới: phổ xử lý MELP Quan sát tín hiệu âm vào ta thấy tín hiệu âm có biên độ nhỏ vào, biến đổi biên độ tƣơng đối giống Mật độ phổ cơng suất tiếng nói đầu vào ta thấy tƣơng đồng Kết nghe lại thực tế cho tiếng nói rõ ràng, khơng bị từ 49 Để tiếp tục đánh giá thuật toán MELP ta đƣa đầu vào tệp có thêm nhiễu trắng dải rộng, với tỉ lệ khác Ở ta dùng tệp Nam01.wav để thêm nhiễu trắng Bảng 3-3 Các tệp mẫu âm có nhiễu Thứ tự Tên tệp Nam01.wav SNR (dB) Nhiễu trắng Nam01_Noise10.wav 10 10% Nam01_Noise30.wav 5.2 30% Nam01_Noise50.wav 3.0 50% Nam01_Noise70.wav 1.55 70% Kết sau thực thi phân tích tổng hợp MELP tệp liệu đầu vào: Bảng 3-4 Kết đánh giá công cụ PESQ Thứ tự Tên tệp Nam01.wav Nam01_Noise10.wav 10 2.654 Nam01_Noise30.wav 5.2 2.538 Nam01_Noise50.wav 3.0 2.482 Nam01_Noise70.wav 1.55 2.251 SNR (dB) PESQ 2.756 Kết cho thấy với mức nhiễu cao chất lƣợng tiếng nói tổng hợp thấp, nhƣng nhìn chung tệp mẫu đƣợc đánh giá điểm tốt với MELP 2.4kbps Một số hình ảnh tín hiệu vào tệp có nhiễu 50 0.5 -0.5 10 x 10 0.5 -0.5 10 x 10 Power/frequency (dB/rad/sample) Power/frequency (dB/rad/sample) Hình 3-8 Tín hiệu tiếng nói tệp Nam01_Noise30.wav, trên:tín hiệu ngun gốc, dưới: tín hiệu xử lý MELP Periodogram Power Spectral Density Estimate -50 -100 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 Normalized Frequency ( rad/sample) Periodogram Power Spectral Density Estimate 0.1 0.2 0.9 0.9 -50 -100 0.3 0.4 0.5 0.6 0.7 Normalized Frequency ( rad/sample) 0.8 Hình 3-9 Mật độ phổ cơng suất chuẩn hóa tệp Nam01_Noise30.wav, trên:phổ nguyên gốc, dưới: phổ xử lý MELP 51 Chương - PHÂN TÍCH VÀ ĐỀ XUẤT Trong q trình nghiên cứu mơ hình thuật tốn phân tích tổng hợp tiếng nói MELP, thuật toán ƣớc lƣợng chu kỳ pitch quan trọng mơ hình Pitch đƣợc tìm kiếm qua ba bƣớc, đƣợc xác hóa sau giai đoạn Bƣớc tiến hành tìm kiếm giá trị nguyên pitch, P1, sau giá trị P1 đƣợc dùng để tìm kiếm P2 có giá trị phần thập phân pitch, cuối pitch lại đƣợc tìm kiếm lại lần dùng tín hiệu lỗi dự đốn mang so sánh kết hiệu chỉnh với P2 để đƣợc kết pitch cuối P3 Pitch tìm đƣợc sau bƣớc một, P1, gọi pitch nguyên Đây giá trị quan trọng để tìm kiếm P2, giá trị P2 đƣợc sử dụng cho số thuật toán ƣớc lƣợng tham số khác Các thuật tốn dùng pitch để ƣớc lƣợng kể đến nhƣ tìm voicing strengths, tìm đại lƣợng Fourier Pitch sau đƣợc đƣa sang giải mã tham số quan trọng trình tổng hợp lại tiếng nói Khi tìm sai pitch dẫn đến ảnh hƣởng đến chất lƣợng tiếng nói tổng hợp Tiếng nói ngƣời thơng thƣờng có pitch nhỏ 1000Hz, tiếng nói giọng nam thƣờng có pitch từ 50Hz đến 250Hz, giọng nữ thƣờng 120Hz đến 500Hz Quay lại thuật tốn tìm pitch ngun Thuật tốn tìm kiếm pitch dựa vào việc tính tốn so sánh giá trị tự tƣơng quan chuẩn hóa, pitch nhận đƣợc có giá trị tự tƣơng quan chuẩn hóa lớn Cơng thức tính giá trị tự tƣơng quan chuẩn hóa cho công thức 2.1 2.2 r[l ]  c[0, l , l ] c[0,0, l ]c[l , l , l ] c[l , m, k ]  Với  k /2 79  s[n  l ]s[n  m] n  k /2 80 Thuật tốn tìm pitch nguyên tìm kiếm từ 40 đến 160 mẫu Tƣơng đƣơng tìm kiếm pitch dải từ 50Hz tới 200Hz Fmax = 8000/40 = 200 Hz Fmin = 8000/160 = 50Hz Do giá trị pitch ngun tìm đƣợc khoảng 50Hz đến 200Hz, giá trị bao trùm gần nhƣ hết dải pitch tiếng nói giọng nam, giọng nữ bao trùm 52 nửa dải Điều cho thấy giọng nam thƣờng cho chất lƣợng tốt giọng nữ dùng MELP Nhận định tác giả luận văn: MELP tiêu chuẩn quân Mỹ nên tập trung chất lƣợng cho giọng nam chính, phải cắt bớt chất lƣợng giọng nữ hạn chế tốc độ xử lý thời điểm đó, đảm bảo tốc độ truyền số bít lƣợng tử Tác giả luận văn đề xuất thay đổi ngƣỡng tìm kiếm pitch nguyên thành 20 đến 160 mẫu, tƣơng đƣơng tìm kiếm tần số pitch khoảng 50Hz đến 400Hz Chi tiết kết đƣợc trình bày bên dƣới Bảng 4-1 Kết sau đề xuất thay đổi Thứ tự Tên tệp Nam/Nữ Điểm PESQ Điểm PESQ đề xuất Nam01.wav Nam 2.756 2.749 Nam02.wav Nam 2.672 2.656 Nam03.wav Nam 2.693 2.737 Nu01.wav Nữ 2.595 2.637 Nu02.wav Nữ 2.615 2.699 Nu03.wav Nữ 2.385 2.581 Quá trình thử nghiệm với số mẫu tiếng nói giọng nữ kết cho thấy chất lƣợng điểm PESQ có cải thiện khoảng ~0.1 điểm, với giọng nam có thay đổi tăng giảm nhƣng khơng đáng kể Đề xuất làm tăng chất lƣợng tiếng nói đầu vào có pitch cao, chủ yếu giọng nữ nhƣng làm tăng số phép toán dẫn đến xử lý thực thi phải xử lý nhiều phép toán Cụ thể, đề xuất tăng thêm 1/6 số phép tốn thuật tốn tìm kiếm pitch nguyên, khoảng ~10000 phép tính nhân Xét lực xử lý thay đổi nhỏ, nên đề xuất tính khả thi hoàn toàn khả thi 53 KẾT LUẬN Kết đạt luận văn Luận văn sâu vào nghiên cứu mơ hình thuật tốn phân tích tổng hợp tiếng nói MELP, thuật tốn đƣợc sâu nghiên cứu nắm vững nguyên lý hoạt động thuật tốn, từ xây dựng thực thi mơ hình thuật tốn MELP Matlab nhằm kiểm tra hoạt động hiểu rõ thuật toán Luận văn thử nghiệm số mẫu tệp tiếng nói với mơ hình MELP thực thi Matlab, đánh giá kết đầu Với mẫu tiếng Việt, nam nữ, kết đầu tiếng nói nghe rõ ràng, khơng bị từ, điểm đánh giá dùng PESQ chấp nhận đƣợc với mơ hình MELP tốc độ 2.4kps Tiếp theo đƣa đề xuất nhằm cải thiện chất lƣợng cho âm có tần số pitch cao 200Hz, phần lớn giọng nữ Đã thử nghiệm đánh giá chất lƣợng có cải thiện với giọng nữ Đề xuất hướng nghiên cứu Kết đạt đƣợc luận văn tiền đề cho việc nghiên cứu mơ hình thuật tốn MELP, nhiều vấn đề cần tiếp tục nghiên cứu phát triển với mơ hình Thứ nhất, mơ hình MELP hay vocoder nói chung chƣa có sở liệu tiếng Việt đủ lớn để thử nghiệm, đánh giá khả đáp ứng với ngơn ngữ tiếng Việt Việc đòi hỏi cơng sức thời gian lâu dài Thứ hai, thực thi MELP xuống tảng phần cứng chuyên dụng nhƣ DSP, FPGA, máy tính chuyên dụng Đánh giá khả thực thi thời gian thực, khả tùy biến với yêu cầu đặc thù nhƣ mã hóa liệu Thứ ba, mở rộng nghiên cứu thuật toán cải thiện chất lƣợng cho MELP, nhƣ chuẩn dựa MELP nhƣ MELPe hay MELPe-plus Các mơ hình sau nhƣ MELPe (tiêu chuẩn NATO STANAG-4591, năm 2008) cải tiến đƣa tốc độ xuống 1200bps 600bps 54 DANH MỤC CƠNG TRÌNH KHOA HỌC Phạm Văn Hậu, Đinh Văn Ngọc, Nguyễn Anh Đức, Thái Trung Kiên, Realtime Implemetation of MELP vocoder on TI fixed-point TMS320C55X DSP, Tạp chí Nghiên cứu KH & CN Quân sự, 02-2014, p7-15 TÀI LIỆU THAM KHẢO Tiếng Anh Arkadiy Prodeus, PESQ MATLAB Driver, MATLAB Central - File Exchange, 2014 Jacob Benesty, M Mohan Sondhi, Yiteng Huang (2008), Springer handbook of speech processing, Springer Publication, chapter 16, pp 331-347 NATO OTAN, STANAG 4591 Ed 1, NATO Standardization Agency, 2008 US DoD, MIL-STD-3005, Department of Defense Telecommunications Systems Standard, 1999 Wai C Chu (2003), Speech coding algorithms – Foundation and evolution of standardized coders, A JOHN WILEY & SONS, INC., PUBLICATION, chapter 1,9,17, pp 1-32, 264-268, 454-485 ... đề tài: Nghiên cứu mơ hình thuật tốn phân tích tổng hợp tiếng nói MELP Mục tiêu nhiệm vụ nghiên cứu Mục tiêu luận văn tập trung vào nghiên cứu mơ hình phân tích tổng hợp tiếng nói MELP đƣợc... hóa tiếng nói MELP 10 Chương - MƠ HÌNH THUẬT TỐN MELP 2.1 Mơ hình tạo tiếng nói MELP 2.1.1 Mơ hình tạo tiếng nói LPC Trƣớc vào nghiên cứu mơ hình tạo tiếng nói MELP tìm hiểu mơ hình tạo tiếng nói. .. nhận Mã hóa tiếng nói gọi nén tiếng nói (speech compression) Hƣớng nghiên cứu luận văn tập trung vào mơ hình thuật tốn phân tích tổng hợp tiếng nói MELP, mơ hình mã hóa tiếng nói Mơ hình đƣợc sử

Ngày đăng: 08/04/2020, 20:27

Mục lục

    DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT

    DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ

    Chương 1 - TỔNG QUAN MÃ HÓA TIẾNG NÓI

    1.2 Phân loại các bộ mã hóa tiếng nói

    1.2.1 Phân loại theo tốc độ bít

    1.2.2 Phân loại theo kỹ thuật mã hóa

    1.3 Ứng dụng của các bộ mã hóa tiếng nói

    1.4 Tiếng nói và mô hình hóa

    1.5 Mô hình hóa hệ thống tạo tiếng nói

    Chương 2 - MÔ HÌNH THUẬT TOÁN MELP

Tài liệu cùng người dùng

Tài liệu liên quan