Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 24 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
24
Dung lượng
294,42 KB
Nội dung
MỤC LỤC – XỬ LÝ TIẾNG NÓI PHOTO HUYỀN TRANG 1.Tóm tắt phát âm người Gồm hai quan trực tiếp gián tiếp tạo âm thanh, chia thành hai phận: + Những phận không trực tiếp phát âm thanh, mà cung cấp hơi, hay lượng Phổi, khí quản, (Cơ quan hô hấp ) + Nhưng quan phát âm, Được cấu tạo từ khoang có liên quan với hình ồng: Thanh quản, yết hầu, miệng mũi Trong quản, dây (Thanh đới phận quan trọng nhât) mà dao động tạo tiếng tang cường qua khoang cộng hưởng phía theo phương thức vị trí định để hình thành nên âm ngôn ng Ở miệng lưỡi phận linh hoạt để tạo âm khác người 2.Tóm tắt thu âm người Hệ thống thính giác ngoại vi chịu trách nhiệm trình sinh lý thính giác Đây trình cho phép tiếp nhận âm chuyển đổi thành xung điện gửi đến não qu dây thần kinh thính giác Thính giác ngoại vi người tai, gồm thành phần + tai kênh lượng âm + tai chuyển đổi lượng âm thành lượng học truyền khuyeech đại đến tai PHOTO HUYỀN TRANG + Tai thực công việc cuối chuyển đổi lượng học thành xung điện Thính giác trung tâm, Hệ thống thính giác trung tâm bao gồm 30.000 tế bào, tạo thành dây thần kinh thính giác, truyền xung điện để nao xử lý, vũng não xử lý tín hiệu điện Thông qua dây thần kinh thính giác, não nhận kiểu mẫu đặc trưng âm so sánh với khác biệt lưu trữ sẵn có nhớ để nhận dạng chúng Mặc dù thông tin nhận được, không giống với thông tin lưu trữ nhớ, não cố gắng để thích ứng với mô hình tương tự thông tin nhận được, não có hại cho lựa chọn, từ chối lưu trữ Nếu lưu trữ, tạo mô hình dùng để so sánh 3.Tần số bản,cách xác định tần số Tần số tốc độ rung dây thanh, gọi F0 Người nói điều khiển mức độ căng hai dây để khoảng hai dây đóng lại hoàn toàn, tạo thành khe hẹp hay mở rộng Khoảng không gọi môn Khi môn hẹp, không khí qua tạo âm điều hòa Thuật ngữ cao độ (pitch) dùng để tần số mà người nghe nhận thức Nói chung, F0 pitch coi Bằng cách thay đổi độ căng dây thanh, người nói điều chỉnh tần số Bình thường, tần số giọng nam thay đổi từ 80 Hz đến 250 Hz, giọng nữ 120 Hz đến 400 Hz Các phương pháp xác định tần số Fo: Sử dụng phương pháp STFT – nguyên lí phương pháp xác định tần số Dựa vào tương quan tín hiệu ứng với điểm cực đại PHOTO HUYỀN TRANG Dựa vào vi sai độ lớn biên độ trung bình AMDF: +Sử dụng tốc độ trở không Zn = +Sử dụng phân tích Cepstral C2: Dựa vào hàm tự tương quan Dựa vào hàm vi sai biên độ trung bình Dùng lọc đảo hàm tự tương quan Xử lý đồng hình 4.Khái niệm tần số Formant,cách xác định tần số Formant Những tần số cộng hưởng tuyến âm gọi tần số Formant, tần số phụ thuộc vào kích thước dạng tuyến âm Do dạng tuyến âm đặc trưng tổ hợp tần số Formant PHOTO HUYỀN TRANG B-Bài tập: function chay(n) [a0,Fs]= wavread('0.wav'); [a1,Fs]= wavread('1.wav'); [a2,Fs]= wavread('2.wav'); [a3,Fs]= wavread('3.wav'); PHOTO HUYỀN TRANG [a4,Fs]= wavread('4.wav'); [a5,Fs]= wavread('5.wav'); [a6,Fs]= wavread('6.wav'); [a7,Fs]= wavread('7.wav'); [a8,Fs]= wavread('8.wav'); [a9,Fs]= wavread('9.wav'); for i=1:length(n) if n(i) == sound(a0,Fs); elseif n(i) == sound(a1,Fs); else sound(a9,Fs); end end Câu 2: Trình bày tóm tắt phương pháp tổng hợp tiếng nói? Ưu nhược điểm phương pháp? 1.Phương pháp tổng hợp trực tiếp PHOTO HUYỀN TRANG Một phương pháp đơn giản thực tổng hợp tin phương pháp tổng hợp trực tiếp phần tin chắp nối phần đơn vị tiếng nói người Phương pháp tổng hợp trực tiếp đơn giản -Phương pháp đơn giản để tạo tin tiếng nói ghi lưu trữ tiếng nói người theo đơn vị từ riêng lử khác sau chọn phát lại từ theo thứ tự mong muốn đó.Bộ tổng hợp làm nhiệm vụ kết nối đơn vị yêu cầu cấu thành tin lại với theo thứ tự mà ko phải thay đổi hay biến đổi thành phần riêng rẽ -Ưu điểm đơn giản,hiệu tin có dạng danh sách dãy số bản… -Nhược điểm: +Việc chắp nối trực tiếp đơn vị tiếng nói gặp khó khăn việc diễn tả ảnh hưởng tự nhiên từ ngữ điệu nhịp điệu câu + Kích thước cho nhớ lớn số lượng tin lớn Phương pháp tổng hợp trực tiếp từ phân đoạn dạng sóng -Hai phân đoạn tín hiệu đc chắp nối theo kiểu đồng pitch,phương pháp phổ biến thực việc phương pháp TD-PSOLA TD-PSOLA thực việc đánh dấu vị trí tương ứng với đóng lại dây dạng sóng tín hiệu tiếng nói.Các vị trí đánh dấu đc sử dụng để tạo phân đoạn cửa sổ dạng sóng tín hiệu PHOTO HUYỀN TRANG cho chu kì,hàm cửa sổ phải đc chỉnh trùng với trung tâm vùng có biên độ tín hiệu cực đại hình dạng cửa sổ chọn phải thích hợp -Ưu điểm :giải đc vấn đề hạn chế việc khôi phục tốc độ tính tự nhiên tin đc tổng hợp,có thể tái tạo xác tin theo ý mong muốn -Nhược điểm : phức tạp 2.Tổng hợp tiếng nói theo Formant -Sử dụng phương pháp mô-đun,dựa mô hình ,mối quan hệ âm âm tiết để giải toán tổng hợp tiếng nói -Có kĩ thuật tổng hợp Formant phương pháp tổng hợp nối tiếp song song -Ưu điểm :đơn giản thường mang lại tín hiệu âm rõ PHOTO HUYỀN TRANG -Nhược :khó đạt tính tự nhiên tín hiệu tiếng nói 3.Tổng hợp tiếng nói theo phương pháp mô máy phát âm -Ngày máy phát âm đc nâng cao ,các tổng hợp sử dụng nguyên lý mô máy phát âm ngày phức tạp hoàn thiện hơn.Các hình dạng ống phức tạp đc xấp xỉ loạt ống đơn giản nhỏ -Ưu: cho phép tạo cách tự nhiên để tạo tiếng nói -Nhược :+khó khăn việc định làm để có đc tham số điều khiển từ yêu cầu tín hiệu cần tổng hợp +khó khăn việc cân việc xây dựng 1mô hình mô xác cao giống với máy phát âm sinh học người 1mô hình thực tiễn dễ thiết kế thực Câu 4: Trình bày tóm tắt phương pháp xác định tần số tiếng nói? Tần số F0 tần số dao động dây thanh.Một số phương pháp xác định tần số :phương pháp sử dụng hàm tự tương quan, phương pháp sử dụng hàm vi sai biên độ trung bình, phương pháp sử dụng hàm -Phương pháp sử dụng hàm tự tương quan :hàm tự tương quan F n(k) đạt giá trị cực tương ứng điểm bội chu kỳ tín hiệu.Khi tần số tần số xuất đỉnh Fn(k) - Pháp sử dụng hàm vi sai biên độ trung bình (AMDF):xác định điểm cực tiểu gần từ xác định đc chu kỳ dãy từ suy tần số PHOTO HUYỀN TRANG -Sử dụng tốc độ trở không-zero crossing rate :với tín hiệu rời rạc lần qua điểm ko tín hiệu xảy mẫu cạnh có dấu khác nhau.Do tốc độ qua điểm không tín hiệu đo lường đơn giản tần số tín hiệu -Phương pháp sử dụng STFT : xét biểu thức phổ hài sau Pn = Lấy logarit biểu thức ta đc () = Hàm () tổng K phổ nén tần số ,với tín hiệu âm hữu việc nán tần số hệ số nguyên làm hài tần số trùng với tần số -Sử dụng phân tích Cepstral :trước hết cepstrum tính toán tìm kiếm đỉnh nhọn khoảng lân cận chu kỳ đoán,nếu đỉnh lớn ngưỡng định trước tín hiệu tiếng nói đưa vào khả tín hiệu âm hữu vị trí đỉnh ước lượng chu kỳ bản(cũng tức xác định tần số bản) Câu 5: Điều chế xung mã vi sai DPCM, Delta ( Vẽ sơ đồ, nguyên lý ) Điều chế xung mã vi sai DPCM -Đây phương pháp dựa tính chất tương quan tín hiệu tiếng nói,chỉ truyền chênh lệch mẫu cạnh en =xn - x’n với xn xung lấy mẫu tương tự, x’n đầu dự đoán Đây giá trị dùng đẻ lượng tử hóa truyền ,ở phái thu phục hồi lại tín hiệu sai số PHOTO HUYỀN TRANG 10 Điều chế Delta (DM) -Là loại điều chế DPCM từ mã có bít nhị phân.Độ chênh lệch xn x’n lượng tử hóa thành giá trị -∆,+∆.Tại phía thu giá trị -∆,+∆ đc cộng với giá trị dự đoán tức thời để khôi phục lại tiếng nói ban đầu PHOTO HUYỀN TRANG 11 PHOTO HUYỀN TRANG 12 Câu 6: Cấu trúc tổng quát hệ thống nhận dạng tiếng nói PHOTO HUYỀN TRANG 13 -Tín hiệu tiếng nói trước hết xử lý cách áp dụng phương pháp phân tích phổ ngắn hạn trình trích chọn đặc trưng hay trình tiền xử lý.Kết thu tập hợp đặc trưng âm học tạo thành véc-tơ.Việc so sánh trước hết thực cách huấn luyện xây dựng đặc trưng ,sau sử dụng để so sánh với tham số đầu vào để thực việc nhận dạng Phần Câu Các phương pháp xác định tần số Fo? - Sử dụng phương pháp STFT – nguyên lí phương pháp xác định tần số - Dựa vào tương quan tín hiệu ứng với điểm cực đại - Dựa vào vi sai độ lớn biên độ trung bình AMDF - Sử dụng tốc độ trở không Zn = Sử dụng phân tích Cepstral Câu Khái niệm tần số Formant anti Formant ? ý nghĩa? - Các dao động dây (dao động bản) tăng cường qua tuyến âm ta gọi tần số Formant PHOTO HUYỀN TRANG 14 với âm khác tồn từ F1 -> F6… Formant Tuy nhiên Formant bậc thấp có tính chất định đến đặc trưng âm Với công cụ tổng hợp cần quan tâm đến Fs Chú ý : với người âm Formant thay đổi Nếu quan tâm đến giá trị không đủ để biểu diễn đặc trưng âm mà cần quan tâm đến vị trí tương đối Formant Anti Formant Tuyến âm hốc cộng hưởng mắc song song nên làm suy giảm tần số tần số bị suy giảm gọi anti Formant Phần I Bài tập 1) Cho tín hiệu lấy mẫu tiếng nói : S(n) = { 1,66 ; 2,75 ; 8,96 ; -11,57} | S |max = 16 a) Mã hóa tín hiệu, tính SNR N = ( chiều dài bit mã hóa) ∆ = = 32 / 26 = 0,5 S^(n) = PHOTO HUYỀN TRANG 15 II Code a) Đọc tín hiệu âm Text to speech function ReadNumber = Read(String) Silence = wavread('Imlang.wav'); Zero = wavread('Khong.wav'); One = wavread('Mot.wav'); Two = wavread('Hai.wav'); Three = wavread('Ba.wav'); Four = wavread('Bon.wav'); Five = wavread('Nam.wav'); Six = wavread('Sau.wav'); Seven = wavread('Bay.wav'); Eight = wavread('Tam.wav'); Nine = wavread('Chin.wav'); Length = length(String); S = Silence; for i = 1:Length switch String(i) case'0' S = [S;Zero]; S = [S;Silence]; case'1' S = [S;One]; PHOTO HUYỀN TRANG 16 S = [S;Silence]; case'2' S = [S;Two]; S = [S;Silence]; case'3' S = [S;Three]; S = [S;Silence]; case'4' S = [S;Four]; S = [S;Silence]; case'5' S = [S;Five]; S = [S;Silence]; case'6' S = [S;Six]; S = [S;Silence]; case'7' S = [S;Seven]; S = [S;Silence]; case'8' S = [S;Eight]; S = [S;Silence]; case'9' PHOTO HUYỀN TRANG 17 S = [S;Nine]; S = [S;Silence]; otherwise S = [S;Silence]; end end sound(S,44100); wavwrite(S,44100,16,'Output.wav'); end b) Tính lượng %signal processing with matlab [q w] =uigetfile; [y, fs, nb] =wavread(strcat(w,q)); dframe = 2000; % chia khung -chieu rong khung N = length(y); %so mau y fullFrames = floor(N/dframe); % tat ca ca khung y energy = zeros(1,fullFrames); % tao bien nang luong ,ban dau bang startSample = zeros(1,fullFrames); % khoi tao chi so bat dau cua khung endSample = zeros(1,fullFrames); % khoi tao chi so cuoi cua khung for frame = 1:fullFrames startSample(frame) = (frame-1)*dframe+1; %bat dau tu chi so cua khung PHOTO HUYỀN TRANG 18 endSample(frame) = frame*dframe; %ket thuc chi so cua khung frameIndex = startSample(frame):endSample(frame); % chi so cua khung mau energy(frame) = sum(y(frameIndex).^2); % tinh nang luong end c) Ghép âm ghi file %joining sound [y1, fs, nb] =wavread('0.wav'); [y2, fs, nb] =wavread('1.wav'); y3 = [y1; y2]; % hear - đọc file sound (y3, fs); % save file – ghi file wavwrite (y3, fs, nb, 'file01.wav'); d) speech to text %create library n0= wavread('0.wav'); n1= wavread('1.wav'); n2= wavread('2.wav'); n3= wavread('3.wav'); n4= wavread('4.wav'); PHOTO HUYỀN TRANG 19 n5= wavread('5.wav'); n6= wavread('6.wav'); n7= wavread('7.wav'); n8= wavread('8.wav'); x1= fir1(10,1/8,'low');%loc thong thap x2= fir1(10,[1/8 2/8],'bandpass');%dai thong x3= fir1(10,[2/8 3/8],'bandpass'); x4= fir1(10,[3/8 4/8],'bandpass'); x5= fir1(10,[4/8 5/8],'bandpass'); x6= fir1(10,[5/8 6/8],'bandpass'); x7= fir1(10,[6/8 7/8],'bandpass'); x8= fir1(10,7/8 ,'high');%loc thong cao %tinh nang luong y0=[ sum((conv(n0(:,1),x1).^2)) sum((conv(n0(:,1),x3).^2)) sum((conv(n0(:,1),x4).^2)) sum((conv(n0(:,1),x2).^2)) sum((conv(n0(:,1),x5).^2)) sum((conv(n0(:,1),x6).^2)) sum((conv(n0(:,1),x7).^2)) sum((conv(n0(:,1),x8).^2))]; PHOTO HUYỀN TRANG 20 y1=[ sum((conv(n1(:,1),x1).^2)) sum((conv(n1(:,1),x3).^2)) sum((conv(n1(:,1),x4).^2)) sum((conv(n1(:,1),x2).^2)) sum((conv(n1(:,1),x5).^2)) sum((conv(n1(:,1),x6).^2)) sum((conv(n1(:,1),x7).^2)) sum((conv(n1(:,1),x8).^2))]; y2=[ sum((conv(n2(:,1),x1).^2)) sum((conv(n2(:,1),x3).^2)) sum((conv(n2(:,1),x4).^2)) sum((conv(n2(:,1),x2).^2)) sum((conv(n2(:,1),x5).^2)) sum((conv(n2(:,1),x6).^2)) sum((conv(n2(:,1),x7).^2)) sum((conv(n2(:,1),x8).^2))]; y3=[ sum((conv(n3(:,1),x1).^2)) sum((conv(n3(:,1),x3).^2)) sum((conv(n3(:,1),x4).^2)) sum((conv(n3(:,1),x2).^2)) sum((conv(n3(:,1),x5).^2)) sum((conv(n3(:,1),x6).^2)) sum((conv(n3(:,1),x7).^2)) sum((conv(n3(:,1),x8).^2))]; y4=[ sum((conv(n4(:,1),x1).^2)) sum((conv(n4(:,1),x3).^2)) sum((conv(n4(:,1),x4).^2)) sum((conv(n4(:,1),x2).^2)) sum((conv(n4(:,1),x5).^2)) sum((conv(n4(:,1),x6).^2)) sum((conv(n4(:,1),x7).^2)) sum((conv(n4(:,1),x8).^2))]; y5=[ sum((conv(n5(:,1),x1).^2)) sum((conv(n5(:,1),x3).^2)) sum((conv(n5(:,1),x4).^2)) sum((conv(n5(:,1),x2).^2)) sum((conv(n5(:,1),x5).^2)) sum((conv(n5(:,1),x6).^2)) sum((conv(n5(:,1),x7).^2)) sum((conv(n5(:,1),x8).^2))]; y6=[ sum((conv(n6(:,1),x1).^2)) sum((conv(n6(:,1),x3).^2)) sum((conv(n6(:,1),x4).^2)) sum((conv(n6(:,1),x2).^2)) sum((conv(n6(:,1),x5).^2)) sum((conv(n6(:,1),x6).^2)) sum((conv(n6(:,1),x7).^2)) sum((conv(n6(:,1),x8).^2))]; y7=[ sum((conv(n7(:,1),x1).^2)) sum((conv(n7(:,1),x3).^2)) sum((conv(n7(:,1),x4).^2)) sum((conv(n7(:,1),x2).^2)) sum((conv(n7(:,1),x5).^2)) sum((conv(n7(:,1),x6).^2)) sum((conv(n7(:,1),x7).^2)) sum((conv(n7(:,1),x8).^2))]; PHOTO HUYỀN TRANG 21 y8=[ sum((conv(n8(:,1),x1).^2)) sum((conv(n8(:,1),x3).^2)) sum((conv(n8(:,1),x4).^2)) sum((conv(n8(:,1),x2).^2)) sum((conv(n8(:,1),x5).^2)) sum((conv(n8(:,1),x6).^2)) sum((conv(n8(:,1),x7).^2)) sum((conv(n8(:,1),x8).^2))]; %input [q, w] =uigetfile('*.wav', 'Pick a wav file.'); %doc file vua input vao e= wavread(strcat(w,q)); %thong bao doc file xong disp(strcat('Da doc file:"',q,'", Tien hanh xu ly ')); %tinh nang luong file input yx=[ sum((conv(e(:,1),x1).^2)) sum((conv(e(:,1),x2).^2)) sum((conv(e(:,1),x3).^2)) sum((conv(e(:,1),x4).^2)) sum((conv(e(:,1),x5).^2)) sum((conv(e(:,1),x6).^2)) sum((conv(e(:,1),x7).^2)) sum((conv(e(:,1),x8).^2))]; %so sanh nang luong cua file nhap vao voi cac file library yx0 = sum ((yx - y0).^2); yx1 = sum ((yx - y1).^2); yx2 = sum ((yx - y2).^2); yx3 = sum ((yx - y3).^2); PHOTO HUYỀN TRANG 22 yx4 = sum ((yx - y4).^2); yx5 = sum ((yx - y5).^2); yx6 = sum ((yx - y6).^2); yx7 = sum ((yx - y7).^2); yx8 = sum ((yx - y8).^2); %lay gia tri nho nhat minx = [ yx0 yx1 yx2 yx3 yx4 yx5 yx6 yx7 yx8]; %dua vaogia tri nho nhat de doc file am phu hop minm = min(reshape(minx,1,9)); if minm == minx(1) disp('Number : 0'); elseif minm == minx(2) disp('Number : 1'); elseif minm == minx(3) disp('Number : 2'); elseif minm == minx(4) disp('Number : 3'); elseif minm == minx(5) disp('Number : 4'); elseif minm == minx(6) disp('Number : 5'); elseif minm == minx(7) disp('Number : 6'); PHOTO HUYỀN TRANG 23 elseif minm == minx(8) disp('Number : 7'); elseif minm == minx(9) disp('Number : 8'); end PHOTO HUYỀN TRANG 24