HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG CƠ SỞ TẠI THÀNH PHỐ HỒ CHÍ MINH KHOA KỸ THUẬT ĐIỆN TỬ II BÁO CÁO MÔN HỌC XỬ LÝ TIẾNG NÓI NIÊN KHÓA 2017 – 2022 GV Hướng Dẫn ThS Hồ Nhựt Minh I MỞ ĐẦU Tiếng nó.
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG CƠ SỞ TẠI THÀNH PHỐ HỒ CHÍ MINH KHOA KỸ THUẬT ĐIỆN TỬ II BÁO CÁO MƠN HỌC XỬ LÝ TIẾNG NĨI NIÊN KHÓA: 2017 – 2022 GV Hướng Dẫn : ThS Hồ Nhựt Minh I MỞ ĐẦU Tiếng nói phương tiện trao đổi thơng tin tiện ích vốn có người.Tiếng nói thường xuất nhiều hình thức mà ta gọi đàm thoại, việc đàm thoại thể kinh nghiệm người đàm thoại q trình gồm nhiều người, có hiểu biết chung nghi thức luân phiên nói Những người có điều kiện thể chất tinh thần bình thường dễ diễn đạt tiếng nói mình, tiếng nói phương tiện giao tiếp lúc đàm thoại Tiếng nói có nhiều yếu tố khác hỗ trợ nhằm giúp người nghe hiểu ý cần diễn đạt biểu gương mặt, cử chỉ, điệu Vì có đặc tính tác động qua lại, nên tiếng nói sử dụng nhu cầu giao tiếp nhanh chóng Sự biểu đạt tiếng nói hỗ trợ mạnh mẽ cho việc đời hệ thống máy tính có sử dụng tiếng nói, ví dụ lưu trữ tiếng nói loại liệu, hay dùng tiếng nói làm phương tiện giao tiếp qua lại.Ngồi sử dụng tiếng nói việc thay thao tác tay để thực cơng việc Nhờ có ngơn ngữ tiếng nói mà loài người sống phát triển xã hội tiến bộ, có văn hóa, văn minh ngày II TỔNG QUAN VỀ XỬ LÝ TIẾNG NĨI - Tiếng nói phương tiện giao tiếp người nhằm trao đổi thông tin ngôn ngữ tình cảm người nói - Xử lý tiếng nói nghiên cứu tiếng nói người dạng tín hiệu, phương pháp xử lý tín hiệu Tín hiệu tiếng nói thường thể dạng số, tức “số hóa”, đó, xử lý tiếng nói coi giao “xử lý tín hiệu số” “xử lý ngôn ngữ tự nhiên” Lĩnh vực xử lý tiếng nói rộng lớn, ví dụ như: + Nhận dạng tiếng nói: chuyển nội dung nói thành tín hiệu đầu vào máy tính, giúp cho máy tính xử lý tương tác với người nói + Nhận dạng người nói: xác minh người nói dựa tiếng nói liệu lưu trữ máy tính + Tăng chất lượng tiếng nói: nhằm tăng cảm nhận người nghe chất lượng tiếng nói + Mã hóa tiếng nói: dạng nén liệu, có vai trị quan trọng lĩnh vực viễn thơng Ví dụ thể thức truyền tiếng nói qua internet (voIP), việc nén liệu tiếng nói điều bắt buộc để giảm băng thơng đường truyền + Phân tích giọng nói:được ứng dụng chủ yếu y học, nhằm phát khuyết tật hay vấn đề dây âm, quản, v.v… + Định vị nguồn âm thanh: xử lý tín hiệu tiếng nói để xác định vị trí nguồn phát âm Nó ứng dụng hội nghị hình thoại (videoconference), vị trí người nói hội nghị xác định, máy ghi hình lập trình tự động quay đến vị trí gửi hình ảnh Ngồi định vị nguồn âm cịn có ứng dụng kỹ thuật tăng chất lượng tiếng nói, theo dõi an ninh, v.v… + Tổng hợp tiếng nói: tạo tiếng nói nhân tạo máy tính Tổng hợp tiếng nói có vai trị quan lĩnh vực giao tiếp người máy III: THỰC HIỆN MÔ PHỎNG PROJECT BẰNG PHẦN MỀM MATLAB 1.Đọc file tiếng nói lọc tín hiệu tiếng nói với băng tần 5.5kHz, kHz 3.2 kHz (Tự thiết kế lọc số với tốc độ lấy mẫu xác để thực việc này) Lắng nghe file tiếng nói sau lọc mơ tả ảnh hưởng việc lọc thông thấp chất lượng tính dễ hiểu tiếng nói [x,Fs]=audioread('Nhom1.wav'); % load file am X=fft(x); %bien doi Fourier khong nam o trung tam N=length(x); %Xac dinh kich thuoc cua x a = 3200; %tan so cat w1 = (-N/2+1:(N/2)); % Vector tan so trung tam w = w1.*Fs/N; % LAY MOT TAN SO MAU H = a./(a + 1i*w); %H nam o trung tam Hshift = fftshift(H); %H khong nam o trung tam Y = X *Hshift' ; % loc tin hieu y = real(ifft(Y)); sound(x,Fs); % am goc sound(y,Fs); % am sau qua bo loc thong thap subplot(2,1,1); plot(w,abs(fftshift(X))) % abs lay bien cua so phuc, dich tan so ve trung tam title('Tin hieu ban dau'); subplot(2,1,2); plot(w,abs(fftshift(Y))) title('Tin hieu loc'); Với nội dung thơng tin, thành viên nhóm phát âm tin ngắn ghi âm Lưu kết dạng *.wav Xác định tần số bản, tần số Formant thành viên Lập đồ phân bố nguyên âm tiếng Việt clear clc [x, fs] = audioread('hihi.wav'); [y, fs] = audioread('Nhom1.wav'); % load mtlb; % x = mtlb; % fs = Fs; x = x(:,1); y = y(:,1); %Khoang thoi gian lay mau dt = 1/fs; %lay tu 0.95-1.1s I0 = round(1.05/dt); Iend = round(1.15/dt); x = x(I0:Iend); y = y(I0:Iend); %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% c = cceps(x); c1 = cceps(y); %chia khoang thoi gian 0.95-1.1s theo dài cua x t = 0:dt:length(x)*dt-dt; t1 = 0:dt:length(y)*dt-dt; %lay giá tri thoa mãn dieu kien ngoac timerange = t(t>=2e-3 & t=2e-3 & t=2e-3 & t=2e-3 & t=0); rts1 = rts1(imag(rts1)>=0); %atan theo bang angz = atan2(imag(rts),real(rts)); angz1 = atan2(imag(rts1),real(rts1)); %frqs chua cac gia tri sau duoc sap xep %indices chua cac idx [frqs,indices] = sort(angz.*(fs/(2*pi))); bw = -1/2*(fs/(2*pi))*log(abs(rts(indices))); nn = 1; [frqs1,indices1] = sort(angz1.*(fs/(2*pi))); bw1 = -1/2*(fs/(2*pi))*log(abs(rts1(indices1))); nn1 = 1; for kk = 1:length(frqs) if (frqs(kk) > 90 && bw(kk) 90 && bw1(kk)