1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Nghiên cứu mô hình thuật toán phân tích tổng hợp tiếng nói MELP

75 24 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 75
Dung lượng 628,41 KB

Nội dung

i ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ ĐINH VĂN NGỌC NGHIÊN CỨU MƠ HÌNH THUẬT TỐN PHÂN TÍCH VÀ TỔNG HỢP TIẾNG NĨI MELP LUẬN VĂN THẠC SĨ CÔNG NGHỆ ĐIỆN TỬ - VIỄN THÔNG Hà Nội – 2014 ii ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐINH VĂN NGỌC NGHIÊN CỨU MƠ HÌNH THUẬT TỐN PHÂN TÍCH VÀ TỔNG HỢP TIẾNG NĨI MELP Ngành: Cơng nghệ Điện tử - Viễn thông Chuyên ngành: Kỹ thuật Điện tử Mã số: 60 52 02 03 LUẬN VĂN THẠC SĨ CÔNG NGHỆ ĐIỆN TỬ - VIỄN THÔNG NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS TRẦN ĐỨC TÂN Hà Nội – 2014 iii LỜI CAM ĐOAN Tơi xin cam đoan cơng trình nghiên cứu riêng Các số liệu, kết nêu luận văn trung thực chƣa đƣợc cơng bố cơng trình khác Tác giả Đinh Văn Ngọc iv MỤC LỤC MỤC LỤC DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT DANH MỤC BẢNG DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ MỞ ĐẦU Chƣơng - TỔNG QUAN MÃ HÓA 1.1Giới thiệu chung 1.2Phân loại mã hóa tiếng nói 1.2.1Phân loại theo tốc độ bít 1.2.2Phân loại theo kỹ thuật m 1.3Ứng dụng mã hóa tiếng nói 1.4Tiếng nói mơ hình hóa 1.5Mơ hình hóa hệ thống tạo tiếng nói Chƣơng - MƠ HÌNH THUẬT TO 2.1Mơ hình tạo tiếng nói MELP 2.1.1Mơ hình tạo tiếng nói LP 2.1.2Mơ hình tạo tiếng nói ME 2.1.3Mơ hình thuật tốn phân 2.2Các thuật tốn phân tích tiếng nói MELP 2.2.1Tính tốn Pitch: pitch ngu 2.2.2Phân tích Bandpass voici 2.2.3Xác định cờ Aperiodic 2.2.4Phân tích LP 2.2.5Tính tốn Peakness 2.2.6Tính tốn Gain v 2.2.7Tính tốn đại lƣợng 2.2.8Lƣợng tử tham số: Fourier 2.3Các thuật toán tổng hợp tiếng nói MELP 2.3.1Giải mã nội suy 2.3.2Tạo tính hiệu Mixed ex 2.3.3Cải thiện phổ thích ngh 2.3.4Tổng hợp LP 2.3.5Thay đổi Gain 2.3.6Phân tán xung Chƣơng 3- THỰC THI MƠ HÌNH 3.1Thực thi MELP Matlab 3.2Cấu trúc tệp 3.3Đánh giá kết Chƣơng 4- PHÂN TÍCH VÀ ĐỀ KẾT LUẬN DANH MỤC CƠNG TRÌNH KHOA HỌC TÀI LIỆU THAM KHẢO vi DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Từ viết tắt 3GPP ACELP ACR ADPCM APCM AR ARMA CCR CELP CS-ACELP DC DFT DPCM DSP DTFT FFT FIR FM FS 1015 IDFT IIR LD-CELP LMS vii LP LPC MSE MSVQ PCM PESQ PG PSQM PVQ QCELP RC RV RF SD SNR UMTS VSCELP VoIP VQ viii DANH MỤC BẢNG Bảng 1-1 Phân loại mã hóa tiếng nói theo tốc độ bit Bảng 2-1 Cấp phát bit mã hóa MELP 16 Bảng 2-2 Thứ tự bit khung truyền liệu MELP 16 Bảng 2-3 Mã hóa/Giải mã pitch voicing strength tần thấp 31 Bảng 2-4 Các hệ số lọc cho dải thông 37 Bảng 2-5 Hệ số lọc phân tán xung 40 Bảng 3-1 Các mẫu âm dùng đề đánh giá MELP 46 Bảng 3-2 Kết đánh giá công cụ PESQ 46 Bảng 3-3 Các tệp mẫu âm có nhiễu 49 Bảng 3-4 Kết đánh giá công cụ PESQ 49 Bảng 4-1 Kết sau đề xuất thay đổi 52 DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1-1 Hệ thống mã hóa tiếng nói Hình 1-2 Bộ mã hóa tiếng nói Hình 1-3 Hệ thống tạo tiếng nói ngƣời Hình 1-4 Tiếng nói khơng phải tiếng nói Hình 1-5 Cấu trúc tạo tiếng nói đƣợc đơn giản Hình 2-1 Mơ hình tạo tiếng nói LPC 10 Hình 2-2 Mơ hình tạo tiếng nói MELP 12 Hình 2-3 Cấu trúc chung mã hóa tiếng nói 13 Hình 2-4 Bộ mã hóa MELP 14 Hình 2-5 Bộ giải mã MELP 15 Hình 2-6 Tính chu kỳ pitch 18 Hình 2-7 Tính tốn Voicing strengths 21 Hình 2-8 Một số tín hiệu peakness 28 ix Hình 2-9 Tính tốn đại lƣợng Fourier 29 Hình 2-10 Q trình tạo kích thích xung 35 Hình 2-11 Bộ lọc tạo hình 37 Hình 3-1 Mơ hình thực thi MELP Matlab 41 Hình 3-2 Lƣu đồ thực thi mã hóa MELP 42 Hình 3-3 Lƣu đồ thực thi giải mã MELP 42 Hình 3-4 Tín hiệu tiếng nói tệp Nam03.wav, trên: tín hiệu nguyên gốc, dƣới: tín hiệu xử lý MELP 47 Hình 3-5 Mật độ phổ cơng suất chuẩn hóa tệp Nam03.wav, trên: phổ nguyên gốc, dƣới: phổ xử lý MELP 47 Hình 3-6 Tín hiệu tiếng nói tệp Nu03.wav, trên:tín hiệu ngun gốc, dƣới: tín hiệu xử lý MELP 48 Hình 3-7 Mật độ phổ cơng suất chuẩn hóa tệp Nu03.wav, trên:phổ nguyên gốc, dƣới: phổ xử lý MELP 48 Hình 3-8 Tín hiệu tiếng nói tệp Nam01_Noise30.wav, trên:tín hiệu ngun gốc, dƣới: tín hiệu xử lý MELP 50 Hình 3-9 Mật độ phổ cơng suất chuẩn hóa tệp Nam01_Noise30.wav, trên:phổ nguyên gốc, dƣới: phổ xử lý MELP 50 MỞ ĐẦU Lý chọn đề tài Ngày nay, với phát triển khoa học kỹ thuật có nhiều ứng dụng lĩnh vực xử lý tiếng nói Trong khơng thể khơng nhắc tới mã hóa tiếng nói, tiếng anh nguyên gốc Speech coding Mã hóa tiếng nói đƣợc ứng dụng rộng rãi thơng tin di động, Voice IP, truyền tiếng nói qua sóng vơ tuyến Mã hóa tiếng nói biểu diễn lại tín hiệu tiếng nói đƣợc số hóa sử dụng số bít với chất lƣợng âm chấp nhận Mã hóa tiếng nói gọi nén tiếng nói (speech compression) Hƣớng nghiên cứu luận văn tập trung vào mơ hình thuật tốn phân tích tổng hợp tiếng nói MELP, mơ hình mã hóa tiếng nói Mơ hình đƣợc sử dụng phổ biến thiết bị thông tin liên lạc vô tuyến quân Nghiên cứu làm chủ mơ hình MELP quan trọng phục vụ sản xuất thiết bị thông tin liên lạc vô tuyến Quân sự, giúp giảm tốc độ truyền tiếng nói xuống 2400bps, truyền đƣợc mơi trƣờng có nhiễu cao Xuất phát từ lý mà chọn đề tài: “Nghiên cứu mơ hình thuật tốn phân tích tổng hợp tiếng nói MELP” Mục tiêu nhiệm vụ nghiên cứu Mục tiêu luận văn tập trung vào nghiên cứu mơ hình phân tích tổng hợp tiếng nói MELP đƣợc dùng nhiều thiết bị thơng tin liên lạc qn Mỹ có tiêu chuẩn liên quan đến MELP MIL-STD-3005, Nato có tiêu chuẩn liên quan STANAG 4591: Phân tích tổng quan mã hóa tiếng nói Mơ hình mã hóa tiếng nói MELP Phân tích, xây dựng, triển khai thực thi thuật tốn MELP Matlab Phân tích, đánh giá kết Đối tượng phạm vi nghiên cứu + Đối tƣợng nghiên cứu Tìm hiểu tổng quan mã hóa tiếng nói MELP + Phạm vi nghiên cứu Các vấn đề mã hóa tiếng nói Thực thi thuật toán MELP Matlab 41 Chương - THỰC THI MƠ HÌNH THUẬT TỐN MELP TRÊN MATLAB Dựa kết nghiên cứu lý thuyết mơ hình thuật tốn phân tích tổng hợp tiếng nói MELP, chƣơng tiến hành thực thi thuật toán MELP 2400bps Matlab Thực thi nhằm nghiên cứu đắn thuật tốn, từ hiểu sâu thuật toán MELP Đánh giá sơ kết đầu tệp liệu tiếng nói tiếng Việt đƣa đề xuất thay đổi thuật tốn Mơ hình thuật tốn thực thi Matlab đƣợc đánh giá chất lƣợng tiếng nói thơng qua pháp nghe trực tiếp phƣơng pháp đánh giá khách quan ITU P.862 PESQ Thực thi Matlab bỏ qua đánh giá kênh truyền thực mà tập trung vào thuật tốn phân tích tổng hợp 3.1 Thực thi MELP Matlab Mơ hình thực thi thuật tốn MELP Matlab đƣợc mơ tả hình 4-1 bên dƣới Tệp âm đầu vào wav Hình 3-1 Mơ hình thực thi MELP Matlab Tệp âm tín hiệu âm đƣợc lấy mẫu PCM 8000Hz, lƣợng tử 16-bit mẫu Tín hiệu âm qua mã hóa MELP, đƣợc phân tích thành khung liệu 180 mẫu, tiến hành phân tích thành tham số (LPCs, Pitch, Voicing strengths, Gain, đại lƣợng Fourier, cờ Aperiodic) Các tham số đƣợc lƣu thành mảng có cấu trúc đầu Mảng liệu đầu vào giải mã MELP Kết đầu giải mã đƣợc ghi thành tệp âm với tần số lấy mẫu 8000Hz, lƣợng tử 16-bit mẫu Tệp âm đầu vào tệp âm đầu đƣợc đƣa vào công cụ đánh giá PESQ Trong khuôn khổ luận văn tiến hành thử nghiệm với tệp tiếng nói Tiếng Việt, Thực thi mã hóa MELP Matlab tuân theo luồng tuần tự, thuật toán thực lần lƣợt 42 Tệp wav Phân chia frame (Frame Segmentation) Tính phần thập phân Pitch (Get fractal pitch Loại bỏ thành phần chiều (DC remove) Tính giá trị Voicing strength (Voicing strength calculation) Tính giá trị Peakness (Peakness calculation) Tính tốn Pitch lần cuối (Final Pitch calculation) Lƣợng tử Gain (Gain quantization) Tính tốn Fourier Mag lƣợng tử (Fourier Tính tốn Gain (Gain computation) Lƣợng tử LPC (LPC quantization) Dữ liệu Hình 3-2 Lưu đồ thực thi mã hóa MELP Thực thi giải mã MELP: Dữ liệu Đọc bit liệu (Bit unpacking) Giảm nhiễu (Noise attenuation) Cải thiện phổ thích nghi (Adaptive spectal enhancement) Tổng hợp dự đốn tuyến tính (Linear prediction synthesis) Điều khiển vịng lặp tổng hợp (Synthesis loop control) Tiếng nói tệp wav Hình 3-3 Lưu đồ thực thi giải mã MELP 43 3.2 Cấu trúc tệp Cấu trúc tệp thư mục mã hóa (encode) \encode\codebook_fmcq1.m Dữ liệu codebook dùng lƣợng tử Fouier Magnitudes \encode\codebook_fmcq2.m Dữ liệu codebook dùng lƣợng tử Fouier Magnitudes \encode\coeff.m Dữ liệu hệ số lọc \encode\dc_rmv.m Hàm loại bỏ thành phần chiều \encode\double_ck.m Hàm double check cho tính pitch \encode\double_ver.m Hàm phục vụ double check \encode\d_lsf.m Hàm xác định véc tơ lƣợng tử LSF \encode\find_harm.m Hàm tìm kiếm hài \encode\FPR.m Hàm tìm kiếm fractional pitch \encode\intpitch.m Hàm tìm kiếm integer pitch \encode\lpc_residual.m Hàm tính phần dƣ LPC \encode\lsfcomp.m Hàm so sánh LSFs \encode\lsf_clmp.m Hàm thay đổi khoảng cách LSF \encode\melp_5b.m Hàm tách đƣờng bao cho band \encode\melp_APU.m Hàm tính lại Pitch trung bình \encode\melp_bandpass.m Dữ liệu hệ số lọc bandpass \encode\melp_bpva.m Hàm tính hệ số voicing strengths \encode\melp_encode.m Hàm thuật toán MELP \encode\melp_FMCQ.m Hàm lƣợng tử 10 giá trị Fourier magnitudes \encode\melp_gain.m Hàm tính Gain \encode\melp_iir.m Bộ lọc IIR \encode\melp_init.m Khởi tạo tham số, biến cho thuật toán MELP \encode\melp_lpc.m Hàm phân tích LPC \encode\melp_lpc2lsf.m Hàm biến đổi LPC sang LSF \encode\melp_lsf2lpc.m Hàm biến đổi LSF sang LPC 44 \encode\melp_msvq.m Hàm lƣợng tử hóa LPC \encode\melp_Qgain.m Hàm lƣợng tử Gain \encode\melp_wf.m Hàm khởi tạo Wf \encode\pitch2.m Hàm tính tốn pitch lần đầu \encode\pitch3.m Hàm tính tốn pitch lần cuối \encode\stage.m Dữ liệu codebook cho lƣợng tử LPC Cấu trúc tệp thư mục giải mã (decode) \decode\codebook_fmcq1.m Dữ liệu codebook dùng lƣợng tử Fouier Magnitudes \decode\codebook_fmcq2.m Dữ liệu codebook dùng lƣợng tử Fouier Magnitudes \decode\coeff.m Dữ liệu hệ số lọc \decode\d_ase.m Hàm lọc cải thiện phổ \decode\d_disp.m Hàm lọc phân tán xung \decode\d_ga.m Hàm thay đổi gain cho tín hiệu tổng hợp \decode\d_gains.m Hàm nội suy gain \decode\d_init.m Hàm khởi tạo biến, tham số cho giải mã MELP \decode\d_k1.m Hàm tính tốn hệ số phản xạ thứ \decode\d_lps.m Hàm thực lọc tổng hợp \decode\d_lsf.m Hàm xác định véc tơ LSF \decode\d_mix.m Hàm tạo tín hiệu mixed excitation \decode\d_pdfs.m Khởi tạo tham số cho lọc phân tán xung \decode\melp_bandpass.m Dữ liệu hệ số lọc bandpass \decode\melp_decoder.m Hàm thuật tốn giải mã MELP \decode\melp_lsf2lpc.m Hàm biến đổi từ LSF thành LPC \decode\noise_est.m Hàm ƣớc lƣợng nhiễu \decode\noise_sup.m Hàm chặn nhiễu \decode\stage.m Dữ liệu codebook cho lƣợng tử LPC 45 Các bước tiến hành chạy thực thi Matlab: Bƣớc 1: Copy tệp wav (tần số lấy mẫu 8kHz, lƣợng tử 16-bit) vào thƣ mục encode Bƣớc 2: Mở tệp melp_encode.m nhập tên tệp wav vào biến wavfilename dòng 6, tệp melp_encode.m Bƣớc 3: Lƣu tệp melp_encode.m tiến hành chạy tệp Kết đạt đƣợc sau mã hóa chứa mảng cấu trúc c, có độ dài số khung liệu Bƣớc 4: Chuyển sang thƣ mục decode, mở tệp melp_decoder.m Bƣớc 5: Tiến hành chạy tệp melp_decoder.m Bƣớc 6: Kết đầu tệp âm wav trùng tên với tệp đầu vào đƣợc chứa thƣ mục decode 3.3 Đánh giá kết Hai phƣơng pháp đánh giá đƣợc sử dụng để đánh giá chất lƣợng âm phƣơng pháp đánh giá khách quan phƣơng pháp đánh giá chủ quan Phƣơng pháp đánh giá khách quan có tham gia trực tiếp ngƣời, dùng số ngƣời nghe đƣợc huấn luyện để nghe đánh giá khách quan tiếng nói đầu Một số phƣơng pháp khách quan hay dùng MOS (Mean Opinion Score), DAM (Diagnostic Acceptability Measure)… Phƣơng pháp đánh giá chủ quan không sử dụng ngƣời vào việc đánh giá, ví dụ nhƣ PESQ (Perceptual Evaluation of Speech Quality) Mặc dù phƣơng pháp đo chủ quan đáng tin cậy nhƣng chúng tốn nhiều thời gian cần thính giả phải đƣợc huấn luyện Vì thế, ngƣời ta thƣờng dụng phƣơng pháp khách quan Một điểm hạn chế phép đo khách quan có cần phải có tiếng nói rõ ban đầu để làm tham chiếu so sánh, hạn chế việc hiểu biết cảm nhận âm ngƣời, đặc biệt điều kiện có nhiễu Trong khuôn khổ luận văn dùng phƣơng pháp đánh giá chủ quan PESQ để đánh giá chất lƣợng tiếng nói PESQ phƣơng pháp đánh giá chất lƣợng tiếng nói từ đầu cuối tới đầu cuối cho mạng điện thoại băng hẹp mã hóa tiếng nói PESQ đƣợc ITU (hiệp hội điện tử viễn thông quốc tế) chấp thuận năm 2001 với tên mã P.682, PESQ đƣợc chỉnh sửa lần năm 2003 với mã P.682.1, lần vào năm 2005 với mã P.682.2 Kết PESQ chấm từ đến 4.5, với điểm cao tốt 46 Do mẫu thử nghiệm để đánh giá MELP khó để có đƣợc công khai, thời gian hạn chế, nên khuân khổ luận văn dùng số đoạn âm tiếng Việt từ tin VOV để thử nghiệm đánh giá Đến thời điểm chƣa có sở liệu âm tiếng Việt để đánh giá thuật tốn mã hóa tiếng nói, có sở liệu tiếng Anh khác đƣợc tiêu chuẩn hóa, đủ lớn sử dụng rộng rãi nhƣ AURORA, TIMIT, ITU P50 Các tệp âm đƣợc trích hai tin vov.vn: Bản tin thời chiều ngày 25/9: http://vov.vn/media/audio/viet-nam-thuc-hienmoi-bien-phap-can-thiet-de-bao-ve-ngu-dan-354097.vov Bản tin thời sáng ngày 29/9: http://vov.vn/media/audio/tq-ngang-nguoc-lenke-hoach-dua-tau-ca-200000-tan-vao-truong-sa-354725.vov Bảng 3-1 Các mẫu âm dùng đề đánh giá MELP Thứ tự Kết sau thực thi phân tích tổng hợp MELP tệp liệu đầu vào Bảng 3-2 Kết đánh giá công cụ PESQ Thứ tự Tên tệp Nam01.wa Nam02.wa Nam03.wa Nu01.wav Nu02.wav Nu03.wav Các tệp kết sau phân tích tổng hợp MELP đƣợc nghe lại cho kết rõ từ, không mát nhiễu từ với Kết với tiếng Việt điểm chấp nhận đƣợc với MELP 2.4kbps Hình dƣới biểu diễn lại tín hiệu đầu vào đầu theo thời gian mật độ phổ 0.5 -0.5 0.5 -0.5 Power/frequency (dB/rad/sample) Power/frequency (dB/rad/sample) Hình 3-4 Tín hiệu tiếng nói tệp Nam03.wav, trên: tín hiệu nguyên gốc, dưới: tín hiệu -50 -100 0 -50 -100 Hình 3-5 Mật độ phổ cơng suất chuẩn hóa tệp Nam03.wav, trên: phổ ngun gốc, 0.5 -0.5 0.5 -0.5 Power/frequency (dB/rad/sample) Power/frequency (dB/rad/sample) Hình 3-6 Tín hiệu tiếng nói tệp Nu03.wav, trên:tín hiệu nguyên gốc, dưới: tín hiệu xử lý MELP -50 -100 0 -50 -100 Hình 3-7 Mật độ phổ cơng suất chuẩn hóa tệp Nu03.wav, trên:phổ nguyên gốc, dưới: phổ xử lý MELP Quan sát tín hiệu âm vào ta thấy tín hiệu âm có biên độ nhỏ vào, biến đổi biên độ tƣơng đối giống Mật độ phổ cơng suất tiếng nói đầu vào ta thấy tƣơng đồng Kết nghe lại thực tế cho tiếng nói rõ ràng, khơng bị từ 49 Để tiếp tục đánh giá thuật toán MELP ta đƣa đầu vào tệp có thêm nhiễu trắng dải rộng, với tỉ lệ khác Ở ta dùng tệp Nam01.wav để thêm nhiễu trắng Bảng 3-3 Các tệp mẫu âm có nhiễu Thứ tự Tên tệp Nam01 Nam01 Nam01 Nam01 Nam01 Kết sau thực thi phân tích tổng hợp MELP tệp liệu đầu vào: Bảng 3-4 Kết đánh giá công cụ PESQ Thứ tự Tên tệp Nam01 Nam01 Nam01 Nam01 Nam01 Kết cho thấy với mức nhiễu cao chất lƣợng tiếng nói tổng hợp thấp, nhƣng nhìn chung tệp mẫu đƣợc đánh giá điểm tốt với MELP 2.4kbps Một số hình ảnh tín hiệu vào tệp có nhiễu 0.5 -0.5 0.5 -0.5 Power/frequency (dB/rad/sample) Power/frequency (dB/rad/sample) Hình 3-8 Tín hiệu tiếng nói tệp Nam01_Noise30.wav, trên:tín hiệu ngun gốc, dưới: tín hiệu xử lý MELP -50 -100 0 -50 -100 Hình 3-9 Mật độ phổ cơng suất chuẩn hóa tệp Nam01_Noise30.wav, trên:phổ ngun gốc, dưới: phổ xử lý MELP 51 Chương - PHÂN TÍCH VÀ ĐỀ XUẤT Trong q trình nghiên cứu mơ hình thuật tốn phân tích tổng hợp tiếng nói MELP, thuật tốn ƣớc lƣợng chu kỳ pitch quan trọng mơ hình Pitch đƣợc tìm kiếm qua ba bƣớc, đƣợc xác hóa sau giai đoạn Bƣớc tiến hành tìm kiếm giá trị nguyên pitch, P1, sau giá trị P1 đƣợc dùng để tìm kiếm P2 có giá trị phần thập phân pitch, cuối pitch lại đƣợc tìm kiếm lại lần dùng tín hiệu lỗi dự đoán mang so sánh kết hiệu chỉnh với P2 để đƣợc kết pitch cuối P3 Pitch tìm đƣợc sau bƣớc một, P1, gọi pitch nguyên Đây giá trị quan trọng để tìm kiếm P2, giá trị P2 đƣợc sử dụng cho số thuật toán ƣớc lƣợng tham số khác Các thuật tốn dùng pitch để ƣớc lƣợng kể đến nhƣ tìm voicing strengths, tìm đại lƣợng Fourier Pitch sau đƣợc đƣa sang giải mã tham số quan trọng trình tổng hợp lại tiếng nói Khi tìm sai pitch dẫn đến ảnh hƣởng đến chất lƣợng tiếng nói tổng hợp Tiếng nói ngƣời thơng thƣờng có pitch nhỏ 1000Hz, tiếng nói giọng nam thƣờng có pitch từ 50Hz đến 250Hz, giọng nữ thƣờng 120Hz đến 500Hz Quay lại thuật tốn tìm pitch ngun Thuật tốn tìm kiếm pitch dựa vào việc tính tốn so sánh giá trị tự tƣơng quan chuẩn hóa, pitch nhận đƣợc có giá trị tự tƣơng quan chuẩn hóa lớn Cơng thức tính giá trị tự tƣơng quan chuẩn hóa cho cơng thức 2.1 2.2 r[l] = c[l , m, k ] = Với Thuật toán tìm pitch nguyên tìm kiếm từ 40 đến 160 mẫu Tƣơng đƣơng tìm kiếm pitch dải từ 50Hz tới 200Hz Fmax = 8000/40 = 200 Hz Fmin = 8000/160 = 50Hz Do giá trị pitch ngun tìm đƣợc khoảng 50Hz đến 200Hz, giá trị bao trùm gần nhƣ hết dải pitch tiếng nói giọng nam, giọng nữ bao trùm 52 nửa dải Điều cho thấy giọng nam thƣờng cho chất lƣợng tốt giọng nữ dùng MELP Nhận định tác giả luận văn: MELP tiêu chuẩn quân Mỹ nên tập trung chất lƣợng cho giọng nam chính, phải cắt bớt chất lƣợng giọng nữ hạn chế tốc độ xử lý thời điểm đó, đảm bảo tốc độ truyền số bít lƣợng tử Tác giả luận văn đề xuất thay đổi ngƣỡng tìm kiếm pitch nguyên thành 20 đến 160 mẫu, tƣơng đƣơng tìm kiếm tần số pitch khoảng 50Hz đến 400Hz Chi tiết kết đƣợc trình bày bên dƣới Bảng 4-1 Kết sau đề xuất thay đổi Thứ tự Tên tệp Nam01.wav Nam02.wav Nam03.wav Nu01.wav Nu02.wav Nu03.wav Quá trình thử nghiệm với số mẫu tiếng nói giọng nữ kết cho thấy chất lƣợng điểm PESQ có cải thiện khoảng ~0.1 điểm, với giọng nam có thay đổi tăng giảm nhƣng không đáng kể Đề xuất làm tăng chất lƣợng tiếng nói đầu vào có pitch cao, chủ yếu giọng nữ nhƣng làm tăng số phép toán dẫn đến xử lý thực thi phải xử lý nhiều phép toán Cụ thể, đề xuất tăng thêm 1/6 số phép tốn thuật tốn tìm kiếm pitch ngun, khoảng ~10000 phép tính nhân Xét lực xử lý thay đổi nhỏ, nên đề xuất tính khả thi hoàn toàn khả thi 53 KẾT LUẬN Kết đạt luận văn Luận văn sâu vào nghiên cứu mơ hình thuật tốn phân tích tổng hợp tiếng nói MELP, thuật tốn đƣợc sâu nghiên cứu nắm vững nguyên lý hoạt động thuật tốn, từ xây dựng thực thi mơ hình thuật tốn MELP Matlab nhằm kiểm tra hoạt động hiểu rõ thuật toán Luận văn thử nghiệm số mẫu tệp tiếng nói với mơ hình MELP thực thi Matlab, đánh giá kết đầu Với mẫu tiếng Việt, nam nữ, kết đầu tiếng nói nghe rõ ràng, không bị từ, điểm đánh giá dùng PESQ chấp nhận đƣợc với mơ hình MELP tốc độ 2.4kps Tiếp theo đƣa đề xuất nhằm cải thiện chất lƣợng cho âm có tần số pitch cao 200Hz, phần lớn giọng nữ Đã thử nghiệm đánh giá chất lƣợng có cải thiện với giọng nữ Đề xuất hướng nghiên cứu Kết đạt đƣợc luận văn tiền đề cho việc nghiên cứu mơ hình thuật tốn MELP, cịn nhiều vấn đề cần tiếp tục nghiên cứu phát triển với mơ hình Thứ nhất, mơ hình MELP hay vocoder nói chung chƣa có sở liệu tiếng Việt đủ lớn để thử nghiệm, đánh giá khả đáp ứng với ngôn ngữ tiếng Việt Việc địi hỏi cơng sức thời gian lâu dài Thứ hai, thực thi MELP xuống tảng phần cứng chuyên dụng nhƣ DSP, FPGA, máy tính chuyên dụng Đánh giá khả thực thi thời gian thực, khả tùy biến với yêu cầu đặc thù nhƣ mã hóa liệu Thứ ba, mở rộng nghiên cứu thuật toán cải thiện chất lƣợng cho MELP, nhƣ chuẩn dựa MELP nhƣ MELPe hay MELPe-plus Các mơ hình sau nhƣ MELPe (tiêu chuẩn NATO STANAG-4591, năm 2008) cải tiến đƣa tốc độ xuống 1200bps 600bps 54 DANH MỤC CƠNG TRÌNH KHOA HỌC Phạm Văn Hậu, Đinh Văn Ngọc, Nguyễn Anh Đức, Thái Trung Kiên, Real-time Implemetation of MELP vocoder on TI fixed-point TMS320C55X DSP, Tạp chí Nghiên cứu KH & CN Quân sự, 02-2014, p7-15 TÀI LIỆU THAM KHẢO Tiếng Anh Arkadiy Prodeus, PESQ MATLAB Driver, MATLAB Central - File Exchange, 2014 Jacob Benesty, M Mohan Sondhi, Yiteng Huang (2008), Springer handbook of speech processing, Springer Publication, chapter 16, pp 331-347 NATO OTAN, STANAG 4591 Ed 1, NATO Standardization Agency, 2008 US DoD, MIL-STD-3005, Department of Defense Telecommunications Systems Standard, 1999 Wai C Chu (2003), Speech coding algorithms – Foundation and evolution of standardized coders, A JOHN WILEY & SONS, INC., PUBLICATION, chapter 1,9,17, pp 1-32, 264-268, 454-485 ... đề tài: ? ?Nghiên cứu mơ hình thuật tốn phân tích tổng hợp tiếng nói MELP? ?? Mục tiêu nhiệm vụ nghiên cứu Mục tiêu luận văn tập trung vào nghiên cứu mơ hình phân tích tổng hợp tiếng nói MELP đƣợc... hóa tiếng nói MELP 10 Chương - MƠ HÌNH THUẬT TỐN MELP 2.1 Mơ hình tạo tiếng nói MELP 2.1.1 Mơ hình tạo tiếng nói LPC Trƣớc vào nghiên cứu mơ hình tạo tiếng nói MELP tìm hiểu mơ hình tạo tiếng nói. .. nhận Mã hóa tiếng nói gọi nén tiếng nói (speech compression) Hƣớng nghiên cứu luận văn tập trung vào mơ hình thuật tốn phân tích tổng hợp tiếng nói MELP, mơ hình mã hóa tiếng nói Mơ hình đƣợc sử

Ngày đăng: 11/11/2020, 21:59

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w