NGHIÊN CỨU, XÂY DỰNG CHƯƠNG TRÌNH NHẬN DẠNG TIẾNG NÓI DÙNG MATLAP SỬ DỤNG PHƯƠNG PHÁP MFCC

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	46
Dung lượng	1,75 MB

Nội dung

LỜI MỞ ĐẦU Trong thời đại công nghệ thông tin hiện nay, khi việc giao tiếp giữa người với máy tính luôn là vấn đề được quan tâm thì việc trao đổi thông tin bằng tiếng nói có vai trò quan trọng. Máy tính ra đời đã giúp con người giải quyết công việc nhanh gọn và hiệu quả hơn. Tuy nhiên, các máy tính ngày nay chỉ nhận thông tin từ con người qua các thiết bị như: bàn phím, chuột, bút… Mặc dù tốc độ của máy tính ngày càng được cải thiện đáng kể song tốc độ tạo lập thông tin của các thiết bị này vẫn còn thấp. Con người mong muốn máy tính ngày càng mạnh hơn, thông minh hơn, và một trong số yêu cầu đó là máy tính trong tương lai phải tương tác với người sử dụng bằng tiếng tiếng nói tự nhiên. Dây sẽ là một bước tiến lớn nhằm nâng cao sức mạnh của máy tính, đồng thời cũng tăng tốc độ truyền đạt thông tin giữa máy tính và con người. Xử lý tiếng nói trở thành một trong những lĩnh vực quan trọng trong xu hướng phát triển công nghệ của xã hội hiện nay. Đặc biệt, khi công nghệ thông tin ngày càng phát triển thì các ứng dụng xử lý tiếng nói ngày càng trở nên cấp thiết. Mục đích của những nghiên cứu trong lĩnh vực xử lý tiếng nói là làm sao cho việc tương tác giũa người và máy càng phát triển hiệu quả và tự nhiên hơn. Hiện nay trên thế giới các công nghệ xử lý tiếng nói đã phát triển, các hệ thống ứng dụng xử lý tiếng nói đã được sử dụng ở nhiều nơi, đọ chính xác của các hệ thống này ngày càng được cải thiện. Các ứng dụng của lĩnh vực xử lý tiếng nói rất phổ biến: nhận dạng tiếng nói, xác thực người nói qua giọng nói và các thành tựu của chúng được áp dụng vào nhiều lĩnh vực thực tế. Ở Việt Nam, nhận dạng tiếng nói vẫn là một lĩnh vực khá mới mẻ. Đến nay tuy đã có nhiều người nghiên cứu về nhận dạng tiếng Việt và đã đạt được một số thành tựu, nhưng nhìn chung vẫn chưa đạt được kết quả cần thiết đẻ có thể tạo ra các sản phẩm mang tính ứng dụng cao. Đề tài nghiên cứu tập trung xây dựng chương tình nhận dạng tiếng nói, từ đó xây dựng ứng dụng nhận dạng một số từ, các số cụ thể ứng dụng nhận dạng tiếng nói vào điểu khiển nút, lệnh trên một số thiết bị.  Nội dung bài tập lớn này gồm các chương như sau: Chương 1: Tổng quan lý thuyết nhận dạng giọng nói Chương này giới thiệu tổng quan về nhận dạng tiếng nói, các nguyên tắc cơ bản trong nhận dạng tiếng nói. Các cách tiếp cận, quá trình nhận dạng tiếng nói. Đồng thời nêu ra những thuận lợi, khó khăn trong nhận dạng tiếng Việt. Chương 2. Thiết kế chương trình nhận dạng tiếng nói Mô hình nhận dạng tiếng nói. Nguyên lý hoạt động, trình bày thuật toán và các hàm matlab sử dụng. Chương 3. Xây dựng giao diện chương trình và hiển thị kết quả phân tích Nội dung cụ thể từng chương sẽ lần lượt được trình bày trong các phần tiếp theo của bài tập lớn. MỤC LỤC LỜI CẢM ƠN 3 LỜI MỞ ĐẦU 4 MỤC LỤC 6 DANH MỤC TỪ VIẾT TẮT 7 DANH MỤC HÌNH ẢNH 8 CHƯƠNG 1. TỔNG QUAN LÝ THUYẾT XỬ LÝ TIẾNG NÓI 1 1.1 Tổng quan về nhận dạng tiếng nói 1 1.2 Các nguyên tắc cơ bản trong nhận dạng tiếng nói 2 1.3 Các hệ thống nhận dạng tiếng nói: 2 1.4 Phương pháp MFCC 4 1.4.1 Phương pháp MFCC là gì? 4 1.4.2 Nguyên lý hoạt động 4 1.5. Học lượng tử hóa vector và hàng xóm gần nhất của K (Learning Vector Quantization and KNearest Neighbor) 10 1.5.1 Học lượng tử hóa vector (Learning Vector Quantization) 10 1.5.2 KNearest Neighbor Classifiers 13 CHƯƠNG 2. THIẾT KẾ CHƯƠNG TRÌNH NHẬN DẠNG GIỌNG NÓI 16 2.1 Mô hình nhận dạng giọng nói 16 2.2 Nguyên lý hoạt động của hệ thống nhận dạng 21 2.2 Thuật toán và các hàm sử dụng 21 CHƯƠNG 3. HIỂN THỊ PHÂN TÍCH KẾT QUẢ NHẬN DẠNG GIỌNG NÓI 25 3.1 Các bước thực hiện: 25 3.2 Kết Quả Nhận Dạng 31 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 35 TÀI LIỆU THAM KHẢO 36

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI KHOA ĐIỆN TỬ -& - BÀI TẬP LỚN MÔN: KĨ THUẬT NHẬN DẠNG ĐỀ TÀI: NGHIÊN CỨU, XÂY DỰNG CHƯƠNG TRÌNH NHẬN DẠNG TIẾNG NĨI DÙNG MATLAP SỬ DỤNG PHƯƠNG PHÁP MFCC Giảng viên hướng dẫn: Ts.Nguyễn Thị Thu Nhóm thực : Nhóm HÀ NỘI – 2019 TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI KHOA ĐIỆN TỬ -& - BÀI TẬP LỚN MÔN: KĨ THUẬT NHẬN DẠNG ĐỀ TÀI: NGHIÊN CỨU, XÂY DỰNG CHƯƠNG TRÌNH NHẬN DẠNG TIẾNG NÓI DÙNG MATLAP SỬ DỤNG PHƯƠNG PHÁP MFCC Giáo viên hướng dẫn: Nguyễn Thị Thu Hà Nội – 2019 LỜI CẢM ƠN Đầu tiên,chúng em xin thay mặt tất thành viên nhóm 10 gửi tới quý thầy cô khoa Điện tử trường Đại học Công Nghiệp Hà Nội tận tụy truyền dạy kiến thức cho em suốt học kỳ vừa qua để em hồn thành q trình làm tập lớn môn học Và hết em xin chân thành cảm ơn Cô Nguyễn Thị Thu, người nhiệt tình hướng dẫn cho em trình làm tập lớn môn học Do điều kiện thời gian có hạn, khả nghiên cứu kinh nghiệm thực tế cịn hạn chế nên báo cáo có nhiều thiếu sót Bài tập lớn mơn tìm hiểu nhóm chương trình Nhận dạng giọng nói sử dụng thuật toán KNN (K-nearest neighbor) sử dụng phần mềm mô Matlab, đồng thời suy nghĩ, ý kiến nhóm q trình học tập, tìm hiểu Hy vọng tập lớn mơn học nhận quan tâm bảo giảng viên hướng dẫn, thầy khoa tồn thể bạn để chúng em có điều kiện bổ sung, nâng cao kiến thức phục vụ tốt cho công tác sau Em xin chân thành cảm ơn! LỜI MỞ ĐẦU Trong thời đại công nghệ thông tin nay, việc giao tiếp người với máy tính ln vấn đề quan tâm việc trao đổi thơng tin tiếng nói có vai trị quan trọng Máy tính đời giúp người giải công việc nhanh gọn hiệu Tuy nhiên, máy tính ngày nhận thông tin từ người qua thiết bị như: bàn phím, chuột, bút… Mặc dù tốc độ máy tính ngày cải thiện đáng kể song tốc độ tạo lập thông tin thiết bị cịn thấp Con người mong muốn máy tính ngày mạnh hơn, thông minh hơn, số u cầu máy tính tương lai phải tương tác với người sử dụng tiếng tiếng nói tự nhiên Dây bước tiến lớn nhằm nâng cao sức mạnh máy tính, đồng thời tăng tốc độ truyền đạt thơng tin máy tính người Xử lý tiếng nói trở thành lĩnh vực quan trọng xu hướng phát triển công nghệ xã hội Đặc biệt, cơng nghệ thơng tin ngày phát triển ứng dụng xử lý tiếng nói ngày trở nên cấp thiết Mục đích nghiên cứu lĩnh vực xử lý tiếng nói cho việc tương tác giũa người máy phát triển hiệu tự nhiên Hiện giới cơng nghệ xử lý tiếng nói phát triển, hệ thống ứng dụng xử lý tiếng nói sử dụng nhiều nơi, đọ xác hệ thống ngày cải thiện Các ứng dụng lĩnh vực xử lý tiếng nói phổ biến: nhận dạng tiếng nói, xác thực người nói qua giọng nói thành tựu chúng áp dụng vào nhiều lĩnh vực thực tế Ở Việt Nam, nhận dạng tiếng nói lĩnh vực mẻ Đến có nhiều người nghiên cứu nhận dạng tiếng Việt đạt số thành tựu, nhìn chung chưa đạt kết cần thiết đẻ tạo sản phẩm mang tính ứng dụng cao Đề tài nghiên cứu tập trung xây dựng chương tình nhận dạng tiếng nói, từ xây dựng ứng dụng nhận dạng số từ, số cụ thể ứng dụng nhận dạng tiếng nói vào điểu khiển nút, lệnh số thiết bị  Nội dung tập lớn gồm chương sau: Chương 1: Tổng quan lý thuyết nhận dạng giọng nói Chương giới thiệu tổng quan nhận dạng tiếng nói, nguyên tắc nhận dạng tiếng nói Các cách tiếp cận, q trình nhận dạng tiếng nói Đồng thời nêu thuận lợi, khó khăn nhận dạng tiếng Việt Chương Thiết kế chương trình nhận dạng tiếng nói Mơ hình nhận dạng tiếng nói Ngun lý hoạt động, trình bày thuật tốn hàm matlab sử dụng Chương Xây dựng giao diện chương trình hiển thị kết phân tích Nội dung cụ thể chương trình bày phần tập lớn MỤC LỤC LỜI CẢM ƠN LỜI MỞ ĐẦU MỤC LỤC DANH MỤC TỪ VIẾT TẮT .7 DANH MỤC HÌNH ẢNH CHƯƠNG TỔNG QUAN LÝ THUYẾT XỬ LÝ TIẾNG NÓI 1.1 Tổng quan nhận dạng tiếng nói .1 1.2 Các nguyên tắc nhận dạng tiếng nói .2 1.3 Các hệ thống nhận dạng tiếng nói: .2 1.4 Phương pháp MFCC 1.4.1 Phương pháp MFCC gì? 1.4.2 Nguyên lý hoạt động 1.5 Học lượng tử hóa vector hàng xóm gần K (Learning Vector Quantization and K-Nearest Neighbor) 10 1.5.1 Học lượng tử hóa vector (Learning Vector Quantization) 10 1.5.2 K-Nearest Neighbor Classifiers 13 CHƯƠNG THIẾT KẾ CHƯƠNG TRÌNH NHẬN DẠNG GIỌNG NĨI .16 2.1 Mơ hình nhận dạng giọng nói 16 2.2 Nguyên lý hoạt động hệ thống nhận dạng 21 2.2 Thuật toán hàm sử dụng 21 CHƯƠNG HIỂN THỊ & PHÂN TÍCH KẾT QUẢ NHẬN DẠNG GIỌNG NĨI .25 3.1 Các bước thực hiện: 25 3.2 Kết Quả Nhận Dạng 31 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 35 TÀI LIỆU THAM KHẢO 36 DANH MỤC TỪ VIẾT TẮT Viết tắt ASR DCT DFT FFT FIR MFCC IFFT KNN LVQ Viết đầy đủ Automatic Speech Regconition Discrete Cosine Transform Discrete Fourier Transform Fast Fourier Transform Finite Impulse Response Mel-Frequency Ceptrums Coeffcients Inverse Fast Fourier Transform K-Nearest Neighbor Learning Vector Quantization Tạm dịch nghĩa Nhận dạng tiếng nói tự động Biến đổi Cosin rời rạc Biến đổi Fourier rời rạc Biến đổi Fourier nhanh Bộ lọc đáp ứng xung hữu hạn Hệ số phân tích phổ tần MCL Học lượng tử hóa vector DANH MỤC HÌNH ẢNH Hình 1.1 Các phần tử hệ thống nhận dạng giọng nói Hình 1.2 Các hệ thống nhận dạng giọng nói Hình 1.3 Speech signal Hình 1.4 Âm phổ Hình 1.5 Biểu diễn Spectrum dạng chiều Hình 1.6 tin hieu Hình 1.7 abc Hình 1.8 Nguyên lý hoạt động MFCC Hình 1.9 Học lượng tử hố vector 11 Hình 1.10 Nguyên mẫu lớp 11 Hình 1.11 Khoảng cách 13 Hình 1.12 Phân loại 14 Hình 1.13 Tần số 15 Hình 2.1Sơ đồ tính tốn hệ số MFCC 17 Hình 2.2 Các băng lọc tam giác theo thang tần số Mel .19 Hình 3.1 Giao diện .26 Hình 2.2 Nhấn nút Sẵn Sàng 27 Hình 3.3 Nhấn nút Ra Lệnh .28 Hình 3.4 Kết Nhận dạng 29 KỸ THUẬT NHẬN DẠNG [1] GVHD: Ts Nguyễn Thị Thu CHƯƠNG TỔNG QUAN LÝ THUYẾT XỬ LÝ TIẾNG NÓI 1.1 Tổng quan nhận dạng tiếng nói Nhận dạng tiếng nói hệ thống tạo khả để máy nhận biết ngữ nghĩa lời nói Về chất, q trình biến đổi tín hiệu âm thu người nói qua Micro, đường dây điện thoại thiết bị khác thành chuỗi từ Kết q trình nhận dạng ứng dụng điều khiển thiết bị, nhập liệu, soạn thảo văn lời, quay số điện thoại tự động đưa tới trình xử lý ngôn ngữ mức cao Dữ liệu tiếng nói Mơ hình âm Trích chọn đặc trưng Mơ hình từ vựng Mơ hình ngơn ngữ Mơ hình hóa, Phân lớp Tìm kiếm, Đối sánh Hình 1.1 Các phần tử hệ thống nhận dạng giọng nói Các hệ thống nhận dạng tiếng nói phân loại sau: • Nhận dạng từ phát âm rời rạc /liên tục; • Nhận dạng tiếng nói phụ thuộc người nói/khơng phụ thuộc người nói; • Hệ thống nhận dạng từ điển cỡ nhỏ (dưới 20 từ) /từ điển cỡ lớn (hàng nghìn từ); • Nhận dạng tiếng nói mơi trường có nhiễu thấp/cao; • Nhận dạng người nói Trong hệ nhận dạng tiếng nói với cách phát âm rời rạc có khoảng lặng từ câu Trong hệ nhận dạng tiếng nói liên tục khơng địi hỏi NHĨM SVTH: NHĨM LỚP: ĐH_CNKTMT1_K11 KỸ THUẬT NHẬN DẠNG [2] GVHD: Ts Nguyễn Thị Thu điều Tùy thuộc vào quy mô phương pháp nhận dạng, ta có mơ hình nhận dạng tiếng nói khác Hình 1.1 mơ hình tổng qt hệ nhận dạng tiếng nói điển hình Tín hiệu tiếng nói sau thu nhận lượng tử hóa biến đổi thành tập vector tham số đặc trưng với phân đoạn có độ dài khoảng 10-30 ms Các đặc trưng dùng cho đối sánh tìm kiếm từ gần với số ràng buộc âm học, từ vựng ngữ pháp Cơ sở liệu tiếng nói sử dụng q trình huấn luyện (mơ hình hóa /phân lớp) để xác định tham số hệ thống 1.2 Các nguyên tắc nhận dạng tiếng nói Các nghiên cứu nhận dạng tiếng nói dựa ba nguyên tắc bản:  Tín hiệu tiếng nói biểu diễn xác giá trị phổ khung thời gian ngắn Nhờ ta trích đặc điểm tiếng nói từ khoảng thời gian ngắn dùng đặc điểm làm liệu nhận dạng tiếng nói  Nội dung tiếng nói biểu diễn dạng chữ viết, dãy kí hiệu ngữ âm Do ý nghĩa phát âm bảo toàn phiên âm phát âm thành dãy kí hiệu ngữ âm  Nhận dạng tiếng nói q trình nhận thức Ngơn ngữ nói có nghĩa, thơng tin ngữ nghĩa suy đoan có giá trị q trình nhận dạng tiếng nói thông tin âm học không rõ ràng 1.3 Các hệ thống nhận dạng tiếng nói: Các hệ thống nhận dạng tiếng nói phân chia thành hai loại khác nhau: hệ thống nhận dạng từ rời rạc hệ thống nhận dạng từ liên tục Trong hệ thống nhận dạng tiếng nói liên tục, người ta lại phân biệt hệ thống NHÓM SVTH: NHÓM LỚP: ĐH_CNKTMT1_K11 KỸ THUẬT NHẬN DẠNG [ 24 ] GVHD: Ts Nguyễn Thị Thu if tipo == out = sum(abs(x-y)); end % trọng số khoảng cách if tipo == pesi = zeros(size(x)); pesi(1) = 0.20; pesi(2) = 0.90; pesi(3) = 0.95; pesi(4) = 0.90; pesi(5) = 0.70; pesi(6) = 0.90; pesi(7) = 1.00; pesi(8) = 1.00; pesi(9) = 1.00; pesi(10) = 0.95; pesi(11:13) = 0.30; out = sum(abs(x-y).*pesi); end end  hàm MFCC Function function r = mfcc(s, fs) m = 100; n = 256; frame=blockFrames(s, fs, m, n); m = melfb(20, n, fs); NHÓM SVTH: NHÓM LỚP: ĐH_CNKTMT1_K11 KỸ THUẬT NHẬN DẠNG [ 25 ] GVHD: Ts Nguyễn Thị Thu n2 = + floor(n / 2); z = m * abs(frame(1:n2, :)).^2; r = dct(log(z)); end hàm %% VQ Vector quantization (phep lượng tử vector)  function r = vqlbg(d,k) e = 1; r = mean(d, 2); dpr = 10000; for i = 1:log2(k) r = [r*(1+e), r*(1-e)]; while (1 == 1) z = disteu(d, r); [m,ind] = min(z, [], 2); t = 0; for j = 1:2^i r(:, j) = mean(d(:, find(ind == j)), 2); %#ok x = disteu(d(:, find(ind == j)), r(:, j)) %#ok for q = 1:length(x) t = t + x(q); end end if (((dpr - t)/t) < e) break; else dpr = t; NHÓM SVTH: NHÓM LỚP: ĐH_CNKTMT1_K11 KỸ THUẬT NHẬN DẠNG [ 26 ] GVHD: Ts Nguyễn Thị Thu end end end CHƯƠNG HIỂN THỊ & PHÂN TÍCH KẾT QUẢ NHẬN DẠNG GIỌNG NĨI 3.1 Các bước thực hiện: Bước 1: Chạy giao diện tạo NHÓM SVTH: NHÓM LỚP: ĐH_CNKTMT1_K11 KỸ THUẬT NHẬN DẠNG [ 27 ] GVHD: Ts Nguyễn Thị Thu : Hình 3.16 Giao diện Bước 2: Nhấn nút Sẵn Sàng, quan sát Bảng Chỉ Dẫn thực nói theo hướng dẫn Quá trình giúp thu lại file mẫu âm giọng nói bạn nhằm phục vụ cho trình nhận dạng Bên cạnh việc thu file âm thanh, axes bên cạnh hiển thị mẫu văn cho lệnh âm vừa thu NHÓM SVTH: NHÓM LỚP: ĐH_CNKTMT1_K11 KỸ THUẬT NHẬN DẠNG [ 28 ] GVHD: Ts Nguyễn Thị Thu Hình 3.17 Nhấn nút Sẵn Sàng CODE cho hàm nhập liệu âm vào function pushbutton1_Callback(hObject, eventdata, handles) Fs=8000; recorder=audiorecorder(Fs,16,1); set(handles.edit1,'string','Hãy nói "MOT" vào micro sau giây') pause(1); set(handles.edit1,'string','Hãy nói "MOT" vào micro sau giây') pause(1); set(handles.edit1,'string','Hãy nói "MOT" vào micro sau giây') pause(1); set(handles.edit1,'string','Nói bay gio') recordblocking(recorder,1); x = getaudiodata(recorder); sound(x,Fs) audiowrite('mot.wav',x,Fs); NHÓM SVTH: NHÓM LỚP: ĐH_CNKTMT1_K11 KỸ THUẬT NHẬN DẠNG [ 29 ] GVHD: Ts Nguyễn Thị Thu axes(handles.axes1) matlabImage = imread('mot.png'); image(matlabImage) axis off axis image Bước 3: Sau thu âm giọng nói, nhấn nút Ra Lệnh để thu âm lệnh Hình 3.18 Nhấn nút Ra Lệnh NHÓM SVTH: NHÓM LỚP: ĐH_CNKTMT1_K11 KỸ THUẬT NHẬN DẠNG [ 30 ] GVHD: Ts Nguyễn Thị Thu Bước 4: Quá trình nhận dạng cho kết cách hiển thị mẫu văn cho lệnh vừa thu Hình 3.19 Kết Nhận dạng CODE hướng dẫn kiểm tra kêt lệnh fileNames = {'mot.wav', 'hai.wav', 'ba.wav', 'bon.wav'}; soundcc = {'mot', 'hai', 'ba', 'bon'}; fileData = {0, 0, 0, 0}; mfccData = {0, 0, 0, 0}; thich code đoạn vqData = {0, 0, 0, 0}; distM = {0, 0, 0, 0}; distances = {0, 0, 0, 0}; threshold = 9; % Recognition threshold vqpoints = 16; for i = 1:4 NHÓM SVTH: NHÓM LỚP: ĐH_CNKTMT1_K11 KỸ THUẬT NHẬN DẠNG [ 31 ] GVHD: Ts Nguyễn Thị Thu [fileData{i}, Fs] = audioread(fileNames{i}); % Read file data mfccData{i} = mfcc(fileData{i}, Fs vqData{i} = vqlbg(mfccData{i}, vqpoints) ; % Compute Vector Quantization end Fs=8000; recorder=audiorecorder(Fs,16,1); set(handles.edit1,'string','Hãy nói vào micro sau giây') pause(1); set(handles.edit1,'string','Hãy nói vào micro sau giây') pause(1); set(handles.edit1,'string','Hãy nói vào micro sau giây') pause(1); set(handles.edit1,'string','Nói bay gio') recordblocking(recorder,1); newdata = getaudiodata(recorder); mfccN = mfcc (newdata, Fs); vqN = vqlbg (mfccN, vqpoints); minDist = Inf; distIndex = 0; for i = 1:4 distM{i} = disteu(mfccData{i}, vqN);% Distances matrix distances{i} = sum(min(distM{i}, [],2)) / size(distM{i},1); % distances str = fprintf('Distance to %s \t', soundcc{i}); disp(num2str(distances{i})); if distances{i} < minDist minDist = distances{i}; distIndex = i NHÓM SVTH: NHÓM LỚP: ĐH_CNKTMT1_K11 KỸ THUẬT NHẬN DẠNG [ 32 ] GVHD: Ts Nguyễn Thị Thu end end if distIndex == axes(handles.axes1) matlabImage = imread('mot.png'); image(matlabImage) axis off axis image end if distIndex == axes(handles.axes1) matlabImage = imread('hai.png'); image(matlabImage) axis off axis image end if distIndex == axes(handles.axes1) matlabImage = imread('ba.png'); image(matlabImage) axis off axis image end if distIndex == axes(handles.axes1) matlabImage = imread('bon.png'); image(matlabImage) NHÓM SVTH: NHÓM LỚP: ĐH_CNKTMT1_K11 KỸ THUẬT NHẬN DẠNG [ 33 ] GVHD: Ts Nguyễn Thị Thu axis off axis image end 3.2 Kết Quả Nhận Dạng Các giá trị trình nhận dạng thuật tốn KNN (K-Nearest Neighbor Classifiers) hiển thị ngẫu nhiên thông số khoảng cách gần mơ ta hình sau: Trường hợp tạo mẫu âm thu lại q trình thực so sánh với mẫu tín hiệu lần nhận dạng yêu cầu số ” ” cửa sổ command trình dịch matlap cho thấy khoảnh cách tới âm số một(distance to = 5.9279) gần số kết (distance to hai =10.4057, distance to ba = 9.4196, distance to bốn = 7.0224 ) NHÓM SVTH: NHÓM LỚP: ĐH_CNKTMT1_K11 KỸ THUẬT NHẬN DẠNG [ 34 ] GVHD: Ts Nguyễn Thị Thu Trường hợp thử nghiệm tạo mẫu âm ngồi khác q trình thực bị ảnh ưởng bên ngoài, âm thu lại trình thực so sánh với mẫu tín hiệu lần nhận dạng SAI yêu cầu số ” ba ” cửa sổ command trình dịch matlap cho thấy khoảnh cách tới âm số ba (distance to ba = 4.6574 ) không gần số kết (distance to = 7.2055, distance to hai = 3.8264, distance to ba = 4.6574, distance to bốn = 3.9498 ) Mà khoảng cách tới âm hai (distance to hai = 3.8264) gần nên hệ thông hiển thị kết nhận âm hai mà âm ba mà Tương tự thực tiếp sau 30 lần thực lấy mẫu nhận dạng (10 lần với môi trường lý tưởng, 20 lần môi trường khác phịng kín, lớp học, ngồi trời…) kết nhận dạng cho thấy ảnh hưởng nhiều tạp âm  Chính việc thu âm q trình lệnh cần tránh mơi trường ồn ào, âm giọng nói phải đủ lớn để tránh bị âm xung quanh NHÓM SVTH: NHÓM LỚP: ĐH_CNKTMT1_K11 KỸ THUẬT NHẬN DẠNG [ 35 ] GVHD: Ts Nguyễn Thị Thu lấn át Bên cạnh lệnh cần thu vào khớp với dẫn Bảng Chỉ Dẫn bới tín hiệu thu vào khoảng thời gian định, việc không thu tín hiệu tín hiệu khơng rõ đồng nghĩa với việc làm cho kết nhận dạng không xác Tỷ lệ nhận dạng xác q trình thực ngẫu nhiên (trong 20 lần thực hiện): 70% Tỷ lệ nhận dạng xác mơi trường lý tưởng (trong 10 lần thực mơi trường khơng có tạp âm): 90% NHÓM SVTH: NHÓM LỚP: ĐH_CNKTMT1_K11 KỸ THUẬT NHẬN DẠNG [ 36 ] GVHD: Ts Nguyễn Thị Thu KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Do quy mô thời gian thực Bài Tập Lớn có hạn nên báo cáo khơng thể trình bày hết vấn đề nhận dạng giọng nói Matlap sử dụng phương pháp MFCC kĩ thuật VQ-KNN (vector quantization K-nearest neighbor) mà tập trung vào vấn đề cốt lõi Ngoài thời gian hạn chế nên việc phân tích kỹ yếu tố ảnh hưởng đến kết nhận dạng bị hạn chế thơng tin Ở nhóm em xin nêu số hướng nghiên cứu tiếp nhận diện giọng nói Matlap sử dụng phương pháp MFCC sử dụng VQ-KNN (vector quantization K-nearest neighbor) theo cơng trình nghiên cứu giới  Nhận dạng giọng nói Matlap sử dụng phương pháp MFCC  Áp dụng phương pháp có giám sát sử dụng thuật tốn VQ-KNN  Nhận dạng giọng nói Matlap phép lượng tử vector (vector quantization) dạng KNN (K-nearest neighbor) người láng giềng gần Kết thử nghiệm cho thấy việc kết hợp sử dụng tham số F0 với tham số MFCC cho kết nhận dạng phương ngữ tốt không sử dụng tham số F0 Bên cạnh đó, nghiên cứu cho thấy khả ứng dụng mơ hình hỗn hợp Gauss đa biến vào (GMM) nhận dạng phương ngữ tiếng Việt Các thử nghiệm ngữ liệu phương ngữ tiếng Việt VDSPEC tham số MFCC với số hệ số cho kết nhận dạng phương ngữ tiếng Việt tốt Các kết nghiên cứu tiếp tục phát triển để ứng dụng hệ thống nhận dạng tự động tiếng Việt nói nhằm nâng cao hiệu nhận dạng NHÓM SVTH: NHÓM LỚP: ĐH_CNKTMT1_K11 KỸ THUẬT NHẬN DẠNG [ 37 ] GVHD: Ts Nguyễn Thị Thu TÀI LIỆU THAM KHẢO [1] Hoàng Thị Châu (2009) Phương ngữ học tiếng Việt NXB Đại học Quốc gia Hà Nội [2] Campbell, W M., Singer, E., Torres-Carrasquillo, P A., and Reynolds, D A., “Language Recognition with Support Vector Machines” In Proc Odyssey: The Speaker and Language Recognition Workshop in Toledo, Spain, ISCA, pp 4144, 31 May - June 2004 [3] Torres-Carrasquillo, P A., Gleason, T P., and Reynolds, D A., “Dialect dentification Using Gaussian Mixture Models”, In Proc Odyssey: The Speaker and Language Recognition Workshop in Toledo, Spain, ISCA, pp 297- 300, 31 May - June 2004 [4] Fadi Biadsy, Julia Hirschberg, Daniel P W Ellis (2011), “Dialect and Accent Recognition using PhoneticSegmentation Supervectors”, Interspeech 2011 [5] Bin MA, Donglai ZHU and Rong TONG (2006), “Chinese Dialect Identification Using Tone Features Based On Pitch”, ICASSP 2006 [6] Torres-Carrasquillo, P A., Singer, E., Kohler, M A., Greene, R J., Reynolds, D A., and Deller Jr., J R (2002), “Approaches to Language Identification Using Gaussian Mixture Models and Shifted Delta Cepstral Features” In Proc International Conference on Spoken Language Processing in Denver, CO, ISCA, pp 33-36, 82-92 September 2002 [7] Jean-Franҫois Bonastre, Frédéric Wils (2005), “ALIZE, A FREE TOOLKIT FOR SPEAKER RECOGNITION”, IEEE International Conference , pp I 737 - I 740 NHÓM SVTH: NHÓM LỚP: ĐH_CNKTMT1_K11 KỸ THUẬT NHẬN DẠNG [ 38 ] GVHD: Ts Nguyễn Thị Thu [8] Phạm Ngọc Hưng, Trịnh Văn Loan, Nguyễn Hồng Quang, Phạm Quốc Hùng (2014), "Nhận dạng phương ngữ tiếng Việt sử dụng mơ hình Gauss hỗn hợp", Kỷ yếu Hội nghị Khoa học Công nghệ Quốc gia lần thứ FAIR, 20-21 tháng 6, 2014, ISBN 978-604-913-165-3, pp 449-452 [9] Elements of statistical Learning Hastie,©Tibshirani & Friedman2001 Chapter 13 Keywords - Fundamental frequency,MFCC, GMM, identification of Vietnamese dialects sklearn.neighbors.NearestNeighbors sklearn.model_selection.train_test_split NHÓM SVTH: NHÓM LỚP: ĐH_CNKTMT1_K11 ... khăn nhận dạng tiếng Việt Chương Thiết kế chương trình nhận dạng tiếng nói Mơ hình nhận dạng tiếng nói Ngun lý hoạt động, trình bày thuật tốn hàm matlab sử dụng Chương Xây dựng giao diện chương trình. .. gồm chương sau: Chương 1: Tổng quan lý thuyết nhận dạng giọng nói Chương giới thiệu tổng quan nhận dạng tiếng nói, nguyên tắc nhận dạng tiếng nói Các cách tiếp cận, q trình nhận dạng tiếng nói. .. phẩm mang tính ứng dụng cao Đề tài nghiên cứu tập trung xây dựng chương tình nhận dạng tiếng nói, từ xây dựng ứng dụng nhận dạng số từ, số cụ thể ứng dụng nhận dạng tiếng nói vào điểu khiển nút,

Ngày đăng: 17/08/2021, 11:17

Nguồn tham khảo

Tài liệu tham khảo

Loại

Chi tiết

[2] Campbell, W. M., Singer, E., Torres-Carrasquillo, P. A., and Reynolds, D. A., “Language Recognition with Support Vector Machines”. In Proc. Odyssey: The Speaker and Language Recognition Workshop in Toledo, Spain, ISCA, pp. 41- 44, 31 May - 3 June 2004

Sách, tạp chí

Tiêu đề:	Language Recognition with Support Vector Machines
Tác giả:	W. M. Campbell, E. Singer, P. A. Torres-Carrasquillo, D. A. Reynolds
Nhà XB:	ISCA
Năm:	2004

[3] Torres-Carrasquillo, P. A., Gleason, T. P., and Reynolds, D. A., “Dialect dentification Using Gaussian Mixture Models”, In Proc. Odyssey: The Speaker and Language Recognition Workshop in Toledo, Spain, ISCA, pp. 297- 300, 31 May - 3 June 2004

Sách, tạp chí

Tiêu đề:	Dialect dentification Using Gaussian Mixture Models
Tác giả:	Torres-Carrasquillo, P. A., Gleason, T. P., Reynolds, D. A
Nhà XB:	ISCA
Năm:	2004

[4] Fadi Biadsy, Julia Hirschberg, Daniel P. W. Ellis (2011), “Dialect and Accent Recognition using PhoneticSegmentation Supervectors”, Interspeech 2011

Sách, tạp chí

Tiêu đề:	Dialect and Accent Recognition using PhoneticSegmentation Supervectors
Tác giả:	Fadi Biadsy, Julia Hirschberg, Daniel P. W. Ellis
Năm:	2011

[5] Bin MA, Donglai ZHU and Rong TONG (2006), “Chinese Dialect Identification Using Tone Features Based On Pitch”, ICASSP 2006

Sách, tạp chí

Tiêu đề:	Chinese Dialect Identification Using Tone Features Based On Pitch
Tác giả:	Bin MA, Donglai ZHU, Rong TONG
Nhà XB:	ICASSP 2006
Năm:	2006

[7] Jean-Franҫois Bonastre, Frédéric Wils (2005), “ALIZE, A FREE TOOLKIT FOR SPEAKER RECOGNITION”, IEEE International Conference , pp. I 737 - I 740

Sách, tạp chí

Tiêu đề:	ALIZE, A FREE TOOLKIT FOR SPEAKER RECOGNITION
Tác giả:	Jean-Franҫois Bonastre, Frédéric Wils
Nhà XB:	IEEE International Conference
Năm:	2005

[8] Phạm Ngọc Hưng, Trịnh Văn Loan, Nguyễn Hồng Quang, Phạm Quốc Hùng (2014), "Nhận dạng phương ngữ tiếng Việt sử dụng mô hình Gauss hỗn hợp", Kỷ yếu Hội nghị Khoa học Công nghệ Quốc gia lần thứ 6 FAIR, 20-21 tháng 6, 2014, ISBN 978-604-913-165-3, pp 449-452

Sách, tạp chí

Tiêu đề:	Nhận dạng phương ngữ tiếng Việt sử dụng mô hình Gauss hỗn hợp
Tác giả:	Phạm Ngọc Hưng, Trịnh Văn Loan, Nguyễn Hồng Quang, Phạm Quốc Hùng
Nhà XB:	Kỷ yếu Hội nghị Khoa học Công nghệ Quốc gia lần thứ 6 FAIR
Năm:	2014

[9] Elements of statistical Learning Hastie,©Tibshirani & Friedman2001 Chapter 13Keywords - Fundamental frequency,MFCC, GMM, identification of Vietnamese dialects

Sách, tạp chí

Tiêu đề:	Elements of Statistical Learning
Tác giả:	Hastie, Tibshirani, Friedman
Năm:	2001

[1] Hoàng Thị Châu (2009). Phương ngữ học tiếng Việt. NXB Đại học Quốc gia Hà Nội

Khác