PHÂN ĐOẠN TÍN HIỆU THÀNH TIẾNG NÓI VÀ KHOẢNG LẶNG DÙNGSHORT‐TIME ENERGY VÀ ZERO CROSSING RATEPhân đoạn tín hiệu thành tiếng nói và khoảng lặng là một bài toán cần thiếttrong cuộc sống hiện đại. Bài báo này thực hiện việc phân đoạn tín hiệu dùng thuật toán Short TimeEnergy và thuật toán kết hợp với Zero Crossing Rate. Các thử nghiệm với 6 file tín hiệu với 3 môitrường khác nhau là lab_male.wav, lab_female.wav, phone_male.wav, phone_female.wav,studio_male.wav, studio_female.wav. Từ kết quả thực nghiệm cho ta thấy thuật toán Short TimeEnergy cho kết quả ổn định và đúng với yêu cầu nhất trong 2 phương pháp đã dùng.
Báo cáo tập lớn mơn học Xử lý tín hiệu số, HK1 năm học 2019-2020 PHÂN ĐOẠN TÍN HIỆU THÀNH TIẾNG NÓI VÀ KHOẢNG LẶNG DÙNG SHORT‐TIME ENERGY VÀ ZERO CROSSING RATE Lê Xuân Mạnh, Hoàng Long Nhật, Trần Tùng Dương, Nguyễn Đức Minh Nhóm 15, lớp HP: 1022103.1910.17.12 Điểm Bảng phân cơng nhiệm vụ Lê Xn Mạnh (nhóm trưởng) Hồng Long Nhật Phân cơng nhiệm vụ đảm bảo tiến độ thành viên Đọc tài liệu, cài đặt thuật toán Zero Crossing Rate kết hợp với Short Time Energy Tổng hợp viết báo cáo Viết báo cáo kết thực nghiệm Đọc tài liệu, viết lý thuyết cài đặt thuật toán thuật toán Short Time Energy , làm slide Trần Tùng Dương Đọc tài liệu, viết lý thuyết cài đặt thuật toán Zero Crosing Rate kết hợp với Short Time Energy, đưa kết luận Nguyễn Đức Minh Đặt vấn đề vấn đề cần giải Đọc tài liệu, cài đặt viết báo cáo thuật toán Short Time Energy Chữ ký SV Lời cam đoan: Chúng tơi, gồm sinh viên có chữ ký trên, cam đoan báo cáo tự viết dựa tài liệu tham khảo ghi rõ phần VI Các số liệu thực nghiệm mã nguồn chương trình khơng dẫn nguồn tham khảo tự làm Nếu vi phạm chúng tơi xin chịu trách nhiệm tn theo xử lý giáo viên hướng dẫn TÓM TẮT— Phân đoạn tín hiệu thành tiếng nói khoảng lặng toán cần thiết sống đại Bài báo thực việc phân đoạn tín hiệu dùng thuật toán Short Time Energy thuật toán kết hợp với Zero Crossing Rate Các thử nghiệm với file tín hiệu với mơi trường khác lab_male.wav, lab_female.wav, phone_male.wav, phone_female.wav, studio_male.wav, studio_female.wav Từ kết thực nghiệm cho ta thấy thuật toán Short Time Energy cho kết ổn định với yêu cầu phương pháp dùng Từ khóa— Short Time Energy, Zero Crossing Rate, Short Time Processing, Voiced and unvoiced separation in speech Nhóm 15, lớp HP: 1022103.1910.17.12 Mục lục I ĐẶT VẤN ĐỀ II LÝ THUYẾT XỬ LÝ TÍN HIỆU TIẾNG NĨI VÀ CÁC THUẬT TOÁN Vấn đề cần giải A Thuật toán Short-Time Energy B Cơ sở lý thuyết Sơ đồ thuật toán Các tham số quan trọng thuật toán Vấn đề giải pháp khắc phục Thuật toán kết hợp Zero Crossing Rate Short-Time Energy C Cơ sở lý thuyết Sơ đồ thuật toán Các tham số quan trọng thuật toán Vấn đề giải pháp khắc phục III MÃ CHƯƠNG TRÌNH CÀI ĐẶT CÁC THUẬT TOÁN A Thuật toán Short Time Energy B Thuật toán kết hợp Zero Crossing Rate Short Time Energy IV KẾT QUẢ THỰC NGHIỆM 11 Kết định tính 11 A B Thuật toán Short – time Energy 11 Thuật toán Zero Crossing Rate kết hợp với Short Time Energy 13 Phân đoạn thuật tốn thủ cơng 14 Kết định lượng 15 V KẾT LUẬN 19 VI TÀI LIỆU THAM KHẢO 19 Lê Xuân Mạnh, Hoàng Long Nhật, Trần Tùng Dương, Nguyễn Đức Minh I ĐẶT VẤN ĐỀ Tiếng nói phương tiện giao tiếp quan trọng người với người Hiện nay, tiếng nói cịn áp dụng để thực việc giao tiếp người với máy móc nhằm hướng tới mục đích thay phương pháp giao tiếp truyền thống bàn phím, chuột, cơng tắc,… Vì xử lí tiếng nói hay nói xác nhận dạng tiếng nói đóng vai trị quan trọng vấn đề Tuy nhiên, với phát triển giới, ô nhiễm tiếng ồn ngày phức tạp Để làm điều đó, việc phân đoạn tín hiệu tiếng nói quan trọng Phân đoạn tín hiệu tiếng nói (speech signal segmentation) q trình xác định ranh giới từ, âm tiết âm vị ngơn ngữ tự nhiên nói [1] Ở báo cáo giới thiệu hai phương pháp phân đoạn tín hiệu tiếng nói thường dùng là: Short‐Time Energy (STE) Zero Crossing Rate (ZCR) Báo cáo có bố cục sau: Phần II trình bày sở lý thuật tốn vấn đề liên quan đến việc phân đoạn tiếng nói dựa Short-time energy ( Năng lượng ngắn hạn) Zero Crossing Rate ( Tốc độ băng qua ) Phần III trình bày mã nguồn cài đặt thuật tốn Phần IV trình bày kết thực nghiệm mô tả liệu dùng để đánh giá độ xác thuật tốn, đưa đánh giá định tính định lượng, so sánh thuật tốn cài đặt với Phần V trình bày kết luận, tóm lại kết đạt đề xuất hướng phát triển cải thiện tương lai II LÝ THUYẾT XỬ LÝ TÍN HIỆU TIẾNG NĨI VÀ CÁC THUẬT TỐN A Vấn đề cần giải Xử lý tiếng nói bùng nổ mạnh thời đại cơng nghệ Xử lý tiếng nói ứng dụng nhiều lĩnh vực, đặc biệt việc nhận dạng tiếng nói Trong q trình nhận dạng tiếng nói, việc phân đoạn tín hiệu tiếng nói vơ quan trọng tốn Vậy phân đoạn tín hiệu tiếng nói gì? Phân đoạn tín hiệu tiếng nói (speech signal segmentation) trình xác định ranh giới từ, âm tiết âm vị ngôn ngữ tự nhiên nói [1] hay nói cách đơn giản xác định ranh giới tiếng nói khoảng lặng Có nhiều phương pháp để phân đoạn tín hiệu tiếng nói khác như: Zero Crossing Rate (ZCR), Short‐ Time Energy (STE), Pre-Emphasized Energy Ratio (PEER),… Ở báo cáo giới thiệu hai phương pháp phân đoạn tín hiệu tiếng nói thường dung là: Zero Crossing Rate (ZCR) Short‐Time Energy (STE).Zero Crossing Rate tốc độ thay đổi tín hiệu dọc theo tín hiệu, nghĩa tốc độ tín hiệu thay đổi từ dương sang thành âm ngược lại Short‐Time Energy lượng mẫu thuộc khung tín hiệu B Thuật tốn Short-Time Energy Cơ sở lý thuyết Biên độ phân đoạn khơng có tiếng nói thấp đáng kể so với phân đoạn tiếng nói Năng lượng ngắn hạn tín hiệu tiếng nói phản ánh thay đổi biên độ [2] Năng lượng tín hiêu thời gian rời rạc định nghĩa [2]: ∞ 𝐸 = ∑ (𝑥[𝑛]) n=−∞ Do tín hiệu tiếng nói ổn định khoảng vài chục ms, nên xử lí tiếng nói phải chia tín hiệu thành khung nối tiếp nhau, khung có độ dài từ 10ms đến 30ms Sau xử lí khung để tìm truy xuất đặc trưng khung Năng lượng ngắn hạn lượng mẫu khung tín hiệu Giả sử khung thứ m có mẫu với số n ∈[N1m;N2m] lượng khung tính cơng thức: N2m 𝐸𝑚 = ∑ Trong đó: Em : lượng khung thứ m n : số mẫu x[n] : biên độ tín hiệu mẫu thứ n n=N1m (𝑥[𝑛]) Nhóm 15, lớp HP: 1022103.1910.17.12 Hình Ví dụ thuật tốn Short-Time Energy file lab_female.wav Sơ đồ thuật tốn Hình Sơ đồ khối cài đặt thuật toán Short-Time Energy Các tham số quan trọng thuật tốn - Tần số lấy mẫu tín hiệu đầu vào Lê Xuân Mạnh, Hoàng Long Nhật, Trần Tùng Dương, Nguyễn Đức Minh - Giá trị độ dài Framming Giá trị độ lớn lượng khung Em Ngưỡng lấy mẫu giá trị lượng Ect Vấn đề giải pháp khắc phục - Vấn đề: Do lượng tín hiệu vào khác nên với ngưỡng Ect xác định phù hợp với tín hiệu mà khơng phù hợp với tín hiệu khác Giải pháp khắc phục : Cần quan sát đồ thị lượng tín hiệu kĩ thử nhiều tín hiệu khác C Thuật tốn kết hợp Zero Crossing Rate Short-Time Energy Cơ sở lý thuyết - Cơ sở lý thuyết thuật toán Zero Crossing Rate: Có thể tính độ ổn định tín hiệu phương pháp tính số lần băng qua tín hiệu Tín hiệu âm giọng nói (có độ ổn định cao) có giá trị số lần băng qua thấp, tạp âm với biên độ sóng thấp dày, hỗn loạn (độ ổn định thấp) có số lần tín hiệu băng qua cao Ta dùng phương pháp Zero-Crossing Rate(ZCR) để tính tần số băng qua tín hiệu, từ phân định đâu tín hiệu giọng nói, đâu phần tạp âm để sử dụng cho viêc tách âm sau Công thức hàm Zero-Crossing Rate biểu diễn sau [3]: N−1 𝑍𝐶𝑅[𝑛] = ∑ |𝑠𝑔𝑛(𝑥 [𝑛 − 𝑚]) − 𝑠𝑔𝑛(𝑥[𝑛 − 𝑚 − 1])| m=0 [Rabiner and Schafer, 1978] Với sgn(.) hàm tín hiệu: 𝑠𝑔𝑛(𝑥) = { 𝑥≥0 −1 𝑥 < Cơng thức viết cách khác[3]: ∞ 𝑍𝐶𝑅[𝑛] = ∑ 𝑦[𝑚]𝑤[𝑛 − 𝑚] m=−∞ Sau chia tín hiệu thành khung nhỏ, với khung m, ZCRm số lần biên độ tín hiệu băng qua mẫu thuộc khung : ZCRm = {Số lần mà x[n].x[n+1] < | n∈[N1m,N2m]} Hình Ví dụ thuật tốn Zero Crossing Rate file lab_female.wav Nhóm 15, lớp HP: 1022103.1910.17.12 Thuật tốn kết hợp thuật toán Zero Crossing Rate Short Time Energy Xử lý theo khung: - Giá trị độ lớn số lần băng qua tín hiệu khung ZCR m - Giá trị độ lớn lượng khung Em - Tại vị trí ZCRm < ZCRct Em > Ect xác định tiếng nói Sơ đồ thuật tốn Hình Sơ đồ khối cài đặt thuật toán Zero Crossing Rate kết hợp với Short -Time Energy Các tham số quan trọng thuật toán - Tần số lấy mẫu tín hiệu đầu vào Giá trị độ dài Framming Giá trị độ lớn số lần băng qua ZRCm Giá trị độ lớn lượng khung Em Ngưỡng lấy giá trị Ect ZRCct Vấn đề giải pháp khắc phục • • Vấn đề: - Giá trị độ lớn để phân biệt giọng nói với tạp âm thay đổi tùy theo môi trường thu âm tính chất âm - Phần tạp âm có biên độ tuần hồn gần giá trị 0, không băng qua khiến cho giá trị ZCR thấp, dẫn đến đánh giá kết sai lệch Giải pháp khắc phục: - Dựa vào kết thực nghiệm đánh giá lại xem xét sai số trình tìm giá trị ZeroCrossing Rate Framming để có tần số băng qua tương đối xác để việc đánh giá dễ dàng Lê Xuân Mạnh, Hoàng Long Nhật, Trần Tùng Dương, Nguyễn Đức Minh - Tùy vào tín hiệu đầu vào ta phải có cơng thức lấy ngưỡng giá trị Ect ZRCct để đánh giá đẩy đủ xác âm cần tách hồn cảnh , điều kiện III MÃ CHƯƠNG TRÌNH CÀI ĐẶT CÁC THUẬT TỐN A Thuật tốn Short Time Energy clear all; %% Input Speech [data, fs] = audioread('lab_female.wav'); %[data, fs] = audioread('lab_male.wav'); %[data, fs] = audioread('phone_female.wav'); %[data, fs] = audioread('phone_male.wav'); %[data, fs] = audioread('studio_male.wav'); %[data, fs] = audioread('studio_female.wav'); % Binh thuong hoa du lieu data = data / abs(max(data)); %% Frame by Frame Signal processing f_d = 0.02;% dai frame(seconds) f_size = round(f_d * fs); %So luong mau % Ham chia frame tin hieu % Tham so dau vao: data: mang chua thong tin tin hieu ban dau, fs: tan so lay mau ,f_d: dai frame(s) % Gia tri tra lai la mang frames chua thong tin tin hieu voi moi dong la frame frames = framing_function(data, fs, f_d); %% Short-Time Energy(STE) % Ham tinh short time energy tung frame %tham so dau vao: +data: mang chua thong tin tin hieu ban dau % + frames: mang chua thong tin tin hieu da chia frame % + f_size: So luong mau % Gia tri tra ve la mang ste chua tong nang luong cua tung frame ste = short_time_energy_function(data, frames, f_size); ste = ste./max(ste);%binh thuong hoa du luieu % Ham tinh nang luong tung mau % Tham so dau vao: + ste: mang chua thong tin tong nang luong cua tung frame % + f_size: So luong mau % Gia tri tra ve la mang ste_sample chua nang luong voi nang luong cua moi % mau fram bang voi tong nang luong cua frame ste_sample = ste_sample_function(ste, f_size); %% plot the STE with Signal % t,t1 in seconds t = [0 : 1/fs : length(data)/fs]; t = t(1:end - 1); t1 = [0 : 1/fs : length(ste_sample)/fs]; t1 = t1(1:end - 1); % ve thi tin hieu ban dau subplot(2,1,1); plot(t,data); grid on hold on; % ve thi nang luong tung mau plot(t1,ste_sample,'r','LineWidth',2); legend('Tin hieu tieng noi','Short Time Energy','Location','southeast'); title('Tin hieu tieng noi va Short Time Energy','FontSize',14); xlabel('Thoi gian (s)') %% Plot the Voice and Unvoice subplot(2,1,2); Nhóm 15, lớp HP: 1022103.1910.17.12 times = [0 : 1/fs : f_size/fs]; times = times(1:end - 1); plot(t,data,'g'); grid on hold on; n_f = floor(length(data)/f_size);%Tong so frame %zero_frame = zeros(1,f_size); %tim nhung frame co nang luong >= Ect Ect=0.01; id = find(ste >= Ect); % Tim bien thoi gian giao giua tieng noi va khoang lang id_speech=id(1)-1; n=2; for i = 2:length(id) if(f_d*id(i)-f_d*id(i-1) > 0.2) id_speech(n)=id(i-1); id_speech(n+1)=id(i)-1; n=n+2; end end id_speech(n)=id(i); local_speech=f_d*id_speech; % ve thi phan doan tieng noi va khoang lang y = [-0.5: 0.5]; for i = 1:length(local_speech) if(rem(i,2) == 0) plot(local_speech(i)*ones(size(y)), y,'r', 'LineWidth', 1); else plot(local_speech(i)*ones(size(y)), y,'b', 'LineWidth', 1); end end hold off;grid on; legend('Tin hieu ban dau','Vi tri bat dau co tieng noi','Vi tri ket thuc tieng noi','Location','southeast'); title('Phan doan tieng noi va khoang lang','FontSize',14); xlabel('Thoi gian(s)') function [frames] = framing_function(data,fs,f_d) f_size = round(f_d * fs); %So luong mau l_data = length(data); n_f = floor(l_data/f_size);%Tong so frame temp = 0; for i = : n_f frames(i,:) = data(temp + : temp + f_size); temp = temp + f_size; end end function [ste] = short_time_energy_function(data,frames,f_size) l_data = length(data); n_f = floor(l_data/f_size); ste = 0; for i = : n_f ste(i) = sum(frames(i,:).^2); end end function [ste_sample] = ste_sample_function(ste, f_size) ste_sample = 0; for j = : length(ste) l = length(ste_sample); ste_sample(l : l + f_size) = ste(j); end Lê Xuân Mạnh, Hoàng Long Nhật, Trần Tùng Dương, Nguyễn Đức Minh end B Thuật toán kết hợp Zero Crossing Rate Short Time Energy clear all; %% Input Speech [data, fs] = audioread('lab_female.wav'); %[data, fs] = audioread('lab_male.wav'); %[data, fs] = audioread('phone_female.wav'); %[data, fs] = audioread('phone_male.wav'); %[data, fs] = audioread('studio_male.wav'); %[data, fs] = audioread('studio_female.wav'); % Chuan hoa du lieu data = data / abs(max(data)); %% Frame f_d = 0.02; f_size = round(f_d * fs); % Ham chia frame tin hieu % Tham so dau vao: data: mang chua thong tin tin hieu ban dau, fs: tan so lay mau ,f_d: dai frame(s) % Gia tri tra lai la mang frames chua thong tin tin hieu voi moi dong la frame frames = framing_function(data, fs, f_d); %% Zero Crossing Rate %Ham tinh so lan bang qua cua moi frame %tham so dau vao: +data: mang chua thong tin tin hieu ban dau % + frames: mang chua thong tin tin hieu da chia frame % + f_size: So luong mau % Gia tri tra ve la mang ZCR chua tong so lan bang qua cua frame ZCR = zero_crossing_rate_function(frames); %Chuan hoa du lieu ZCR = ZCR/max(ZCR); %% Short-Time Energy(STE) % Ham tinh short time energy tung frame %tham so dau vao: +data: mang chua thong tin tin hieu ban dau % + frames: mang chua thong tin tin hieu da chia frame % + f_size: So luong mau % Gia tri tra ve la mang ste chua tong nang luong cua tung frame ste = short_time_energy_function(data, frames, f_size); %Chuan hoa du lieu ste = ste./max(ste); % Ham tra ve ZCR cua mau % Tham so dau vao: + zcr: mang chua tong so lan c?a frame bang qua % + f_size: So luong mau % Gia tri tra ve la mang zcr_sameple chua cac gia tri cua ZCR % mau fram bang voi tong nang luong cua frame zcr_sample = zcr_sameple_function(ZCR, f_size); % Ham tinh nang luong tung mau % Tham so dau vao: + ste: mang chua thong tin tong nang luong cua tung frame % + f_size: So luong mau % Gia tri tra ve la mang ste_sameple chua nang luong voi nang luong cua moi % mau fram bang voi tong nang luong cua frame ste_sample = ste_sample_function(ste, f_size); %% Plot the data,ZCR with STE subplot(2,1,1) t = [0 : 1/fs : length(data)/fs]; t = t(1:end - 1); t1 = [0 : 1/fs : length(zcr_sample)/fs]; t1 = t1(1:end - 1); t2 = [0 : 1/fs : length(ste_sample)/fs]; t2 = t2(1:end - 1); plot(t,data,'Color',[0.4 0.4]);hold on;grid on; 10 Nhóm 15, lớp HP: 1022103.1910.17.12 plot(t1,zcr_sample,'r'); plot(t2,ste_sample,'b'); hold off legend({'Tin hieu tieng noi','Zero Crossing Rate','Short time energy'}, 'Location','southeast'); title('Tin hieu tieng noi'); xlabel('Thoi gian') %% Xac dinh vi tri cho khoang lang va tieng noi [r,c] = size(frames); ZCRct = 0.6; Ect = 0.01; id_zcr = find(ZCR < ZCRct); id_ste = find(ste > Ect); n_f = floor(length(data)/f_size); id = []; for i = 1:n_f j = 1; while j 0.01 Hình Hình vẽ phân đoạn tiếng nói khoảng lặng trường hợp trung bình thuật tốn STE Hình mơ tả ví dụ kết phân đoạn tiếng nói khồng lặng trường hợp trung bình thuật tốn Short Time Energy file lab_male.wav Điều kiện lấy STE > 0.01 Hình Hình vẽ phân đoạn tiếng nói khoảng lặng trường hợp xấu thuật tốn STE Hình mơ tả ví dụ kết phân đoạn tiếng nói khồng lặng trường hợp xấu thuật toán Short Time Energy file phone_male.wav Điều kiện lấy STE > 0.01 Lê Xuân Mạnh, Hoàng Long Nhật, Trần Tùng Dương, Nguyễn Đức Minh 13 Thuật toán Zero Crossing Rate kết hợp với Short Time Energy Hình Hình vẽ phân đoạn tiếng nói khoảng lặng trường hợp tốt thuật toán ZCR kết hợp STE Hình mơ tả ví dụ kết phân đoạn tiếng nói khồng lặng trường hợp tốt thuật toán Zero Crossing Rate Short Time Energy file studio_male.wav Điều kiện lấy ngưỡng ZCR < 0.6 STE>0.01 Hình Hình vẽ phân đoạn tiếng nói khoảng lặng trường hợp trung bình thuật tốn ZCR kết hợp STE Hình mơ tả ví dụ kết phân đoạn tiếng nói khồng lặng trường hợp trung bình thuật tốn Zero Crossing Rate Short Time Energy file lab_male.wav Điều kiện lấy ngưỡng ZCR < 0.6 STE>0.01 Nhóm 15, lớp HP: 1022103.1910.17.12 14 Hình 10 Hình vẽ phân đoạn tiếng nói khoảng lặng trường hợp xấu thuật tốn ZCR kết hợp STE Hình 10 mơ tả ví dụ kết phân đoạn tiếng nói khoàng lặng trường hợp tốt thuật toán Zero Crossing Rate Short Time Energy file phone_male.wav Điều kiện lấy ngưỡng ZCR < 0.6 STE>0.01 Phân đoạn thuật tốn thủ cơng Trong thuật toán áp dụng cho phân đoạn tiếng nói khoảng lặng trường hợp hợp xấu mơi trường thu âm phone Hình ảnh 11, 12 vẽ thủ công xác định biên thời gian chuẩn phân đoạn tiếng nói khoảng lặng mơi trường phone: Hình 11 Hình vẽ xác định biên thời gian chuẩn phương pháp thủ công file phone_female.wav Lê Xuân Mạnh, Hoàng Long Nhật, Trần Tùng Dương, Nguyễn Đức Minh 15 Hình 12 Hình vẽ xác định biên thời gian chuẩn phương pháp thủ công file phone_male.wav B Kết định lượng Yếu tố ảnh hưởng đến độ xác thuật tốn tín hiệu vào, tín hiệu vào thu âm mơi trường n tĩnh, nhiễu, độ xác thuật tốn cao Vì nhiễu đáng kể ta khó phân biệt tín hiệu tiếng nói khoảng lặng thơng qua biên độ Hình 13 Trường hợp kết phân đoạn tiếng nói khoảng lặng thuật tốn STE tín hiệu nhiễu file phone_male.wav Hình 14 Trường hợp kết phân đoạn tiếng nói khoảng lặng thuật tốn STE ZCR tín hiệu nhiễu file phone_male.wav 16 Nhóm 15, lớp HP: 1022103.1910.17.12 Hình 15 Phân đoạn tín hiệu phương pháp thủ cơng Thơng qua hình 13, 14, 15 ta thấy , tín hiệu nhiễu đáng kể lượng lớn giá trị mức lẫy ngưỡng Ect giá trị Zero Crossing Rate thấp nhỏ nhiều so với mức lẫy ngưỡng ZCRct nên xem tiếng nói Trong trường hợp khó khăn ta bỏ qua giá trị nhiễu để phân đoạn tín hiệu tiếng nói Việc chọn giá trị ngưỡng cho trước có vai trị quan trọng việc phân đoạn tiếng nói khoảng lặng: - Trong thuật tốn Short Time Energy: Hình 16 Hình ảnh file lab_female.wav lấy mức giá trị lượng Ect >0.01 Lê Xuân Mạnh, Hoàng Long Nhật, Trần Tùng Dương, Nguyễn Đức Minh 17 Hình 17 Hình ảnh file lab_female.wav lấy mức giá trị lượng Ect >0.1 Trong hình 16, 17 ta thấy chọn mức ngưỡng giá trị lượng Ect >0.01 phân đoạn hiệu Ect>0.1 Khi mức giá trị lượng 0.1, tiếng nói thuật tốn nhận diện cho kết sai lệch nhiều so với tín hiệu đầu vào, khi sử dụng giá trị 0.01, thuật toán đưa kết có độ xác cao Trong thuật tốn kết hợp Zero Crossing Rate kết hợp Short Time Energy: Hình 18 Hình ảnh file lab_female.wav lấy mức giá trị Ect >0.01 ZCRct< 0.6 Hình 19 Hình ảnh file lab_female.wav lấy mức giá trị Ect >0.1 ZCRct< 0.8 18 Nhóm 15, lớp HP: 1022103.1910.17.12 Hình 20 Hình ảnh file lab_female.wav lấy mức giá trị Ect >0.01 ZCRct< 0.8 Từ hình 18, 19, 20 ta thấy sử dụng kết hợp thuật toán Zero Crossing Rate Short Time Energy mức lấy ngưỡng giá trị Ect ZCRct cho kết phân đoạn tín hiệu khác Khi chọn giá trị Ect cao ZCRct thấp cho kết khác Với tín hiệu đầu vào giá trị mức lượng tính khác nhau, cần đánh giá kỹ lưỡng để lựa chọn giá trị Ect ZCRct cho hợp lí để có hiệu cao So sánh kết phân đoạn tín hiệu tiếng nói khoảng lặng thuật tốn : Hình 21 Kết sử dụng thuật toán Short Time Energy file studio_female.wav Lê Xuân Mạnh, Hoàng Long Nhật, Trần Tùng Dương, Nguyễn Đức Minh 19 Hình 22 Kết sử dụng thuật tốn Zero Crossing Rate kết hợp Short Time Energy file studio_female.wav Hình 21, 22 cho thấy , khoảng từ 0.5s đến 0.75s, thuật tốn kết hợp có sai lệch kết sử dụng thuật tốn kết hợp ZCR tính có giá trị cao phần tín hiệu giọng nói khiến cho q trình phân đoạn khơng hiệu V KẾT LUẬN Bài báo cáo thực việc cài đặt thuật toán phân đoạn tiếng nói khoảng lặng miền thời gian dùng thuật toán Short-Time Energy(STE) kết hợp Zero Crossing Rate(ZCR) Matlab Các thử nghiệm với file tín hiệu sử dụng cho thấy sử dụng kết hợp Short Time Energy với Zero Crossing Rate cho độ xác thấp dùng thuật tốn Short Time Energy; với ta nhận thấy xử lý phân đoạn tín hiệu mơi trường studio hiệu nhất, môi trường lab cho kết trung bình xấu mơi trường phone Trong tương lai thử nghiệm với thuật tốn phân đoạn tiếng nói khác để tìm thuật tốn tối ưu Bên cạnh ứng dụng thuật tốn vào chương trình phân tích, nhận dạng giọng nói VI TÀI LIỆU THAM KHẢO [1] Link: https://en.wikipedia.org/wiki/Speech_segmentation [2] Ranganadh Narayanam* Assistant Professor, Eece, Its, Ifhe – India [3] CS425 Audio and Speech Processing_Hodgkinson_2012 ... tiếng nói Trong q trình nhận dạng tiếng nói, việc phân đoạn tín hiệu tiếng nói vơ quan trọng toán Vậy phân đoạn tín hiệu tiếng nói gì? Phân đoạn tín hiệu tiếng nói (speech signal segmentation)... Pre-Emphasized Energy Ratio (PEER),… Ở báo cáo giới thiệu hai phương pháp phân đoạn tín hiệu tiếng nói thường dung là: Zero Crossing Rate (ZCR) Short‐Time Energy (STE) .Zero Crossing Rate tốc độ thay đổi tín. .. tự nhiên nói [1] hay nói cách đơn giản xác định ranh giới tiếng nói khoảng lặng Có nhiều phương pháp để phân đoạn tín hiệu tiếng nói khác như: Zero Crossing Rate (ZCR), Short‐ Time Energy (STE),