Xây dựng hệ thống định danh người nói ứng dụng mở cửa bằng giọng nói: luận văn thạc sĩ

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC LẠC HỒNG TRƢƠNG THANH GIANG XÂY DỰNG HỆ THỐNG ĐỊNH DANH NGƢỜI NÓI ỨNG DỤNG MỞ CỬA BẰNG GIỌNG NÓI LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Đồng Nai, Năm 2017 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC LẠC HỒNG TRƢƠNG THANH GIANG XÂY DỰNG HỆ THỐNG ĐỊNH DANH NGƢỜI NÓI ỨNG DỤNG MỞ CỬA BẰNG GIỌNG NÓI Chuyên ngành: Công Nghệ Thông Tin Mã số: 60480201 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS TS VŨ ĐỨC LUNG Đồng Nai, Năm 2017 i LỜI CẢM ƠN Đầu tiên, muốn gửi lời cảm ơn chân thành đến PGS TS Vũ Đức Lung, Thầy tận tình hƣớng dẫn, giúp đỡ tạo điều kiện thuận lợi để tơi hồn thành tốt luận văn Tơi xin bày tỏ lịng biết ơn đến tất quý thầy cô trƣờng Đại học Lạc Hồng đứng lớp dạy dỗ hƣớng dẫn tận tình trình học tập Trƣờng Tất kiến thức mà nhận đƣợc hành trang quý giá đƣờng học tập, làm việc định hƣớng nghiên cứu sau Xin cảm ơn gia đình, bạn bè đồng nghiệp bên cạnh động viên, hỗ trợ giúp đỡ tơi q trình thực luận văn Tuy nhiên kiến thức thời gian có giới hạn nên đề tài khó tránh khỏi thiếu sót, kính mong q thầy bạn đóng góp thêm để đề tài đƣợc hồn chỉnh hơn! Tơi xin chân thành cảm ơn! Đồng Nai, tháng năm 2017 Học viên Trƣơng Thanh Giang ii LỜI CAM ĐOAN Tôi cam đoan cơng trình nghiên cứu riêng tơi Các số liệu, kết nêu luận văn trung thực chƣa đƣợc công bố cơng trình khác Tơi xin chịu trách nhiệm nghiên cứu mình! Đồng Nai, tháng năm 2017 Học viên Trƣơng Thanh Giang iii TÓM TẮT LUẬN VĂN Đề tài: Xây dựng hệ thống định danh ngƣời nói ứng dụng mở cửa giọng nói Ngành: Cơng nghệ thông tin Mã số: 60.48.02.01 Học viên: Trƣơng Thanh Giang Ngƣời hƣớng dẫn: PGS TS Vũ Đức Lung NỘI DUNG TÓM TẮT Nội dung đƣợc giao kết mong đợi ngƣời hƣớng dẫn Nội dung:  Luận văn nghiên cứu phƣơng pháp định danh ngƣời nói sử dụng mạng neural nhân tạo để ứng dụng mở cửa nhà thông minh xây dựng ứng dụng demo để minh họa cho phƣơng pháp  Mục đích đề tài nhằm nghiên cứu đặc trƣng âm thanh, cách rút trích đặc trƣng giọng nói, cách huấn luyện, phân lớp định danh giọng nói sử dụng mạng neural nhân tạo để ứng dụng việc định danh giọng nói, ứng dụng mở cửa nhà thông minh Kết quả:  Xây dựng ứng dụng có khả phân lớp giọng nói qua file ghi âm  Có khả định danh ngƣời nói, phân biệt có phải ngƣời có tập huấn luyện hay khơng, có xác định  Viết báo cáo tổng kết luận văn Cách thức giải vấn đề  Tìm hiểu phƣơng pháp, thuật tốn phục vụ cho việc rút trích đặc trƣng âm thanh, cách phân lớp liệu mẫu, cách xác định danh tính giọng nói qua file ghi âm giọng nói iv  Tìm hiểu thƣ viện xử lý âm Voidbox ngôn ngữ Matlab  Xây dựng ứng dụng phân lớp, định danh giọng nói Đánh giá mặt khoa học kết  Tìm hiểu đƣợc vấn đề liên quan đến xử lý âm thanh, rút trích đặc trƣng âm thanh, thƣ viện Matlab xử lý âm  Tìm hiểu mạng neural nhân tạo, cách ứng dụng mạng neural nhân tạo vào việc phân lớp, định danh giọng nói  Tìm hiểu cách thức xây dựng ứng dụng ngôn ngữ Matlab Những vấn đề tồn so với nội dung đƣợc giao  Chƣa tối ƣu hóa đƣợc thuật toán, cách xử lý liệu nên ứng dụng chạy chậm phải xử lý liệu lớn, ứng dụng tập trung vấn đề quan trọng phần phân lớp, định danh giọng nói  Cịn hạn chế tiền xử lý âm nhằm tăng độ xác định danh giọng nói, đồng thời tối ƣu hóa ứng dụng, giảm thời gian nhận dạng  Chỉ định danh giọng nói file đƣợc ghi âm sẵn, chƣa có chức định danh giọng nói theo thời gian thực  Ngồi ứng dụng chƣa có cách xử lý tạp âm, âm nhiễu hiệu để tăng độ xác cho việc định danh Ngày tháng năm 2017 NGƢỜI HƢỚNG DẪN HỌC VIÊN PGS TS Vũ Đức Lung Trƣơng Thanh Giang v MỤC LỤC Chƣơng TỔNG QUAN VỀ ĐỀ TÀI 1.1 LÝ DO LỰA CHỌN ĐỀ TÀI 1.2 TỔNG QUAN TÌNH HÌNH TRONG VÀ NGỒI NƢỚC 1.3 MỤC ĐÍCH ĐỀ TÀI 1.4 GIỚI HẠN ĐỀ TÀI Chƣơng 2.1 CƠ SỞ LÝ THUYẾT ÂM THANH 2.1.1 Khái niệm tham số âm 2.1.2 Số hóa âm 2.2 TỔNG QUAN VỀ NHẬN DẠNG NGƢỜI NÓI 11 2.2.1 Cơ sở khoa học nhận dạng ngƣời nói 11 2.2.2 Thông tin đặc trƣng cho giọng nói ngƣời 12 2.2.3 Các phƣơng pháp nhận dạng ngƣời nói giới 12 2.2.4 Nguyên lý làm việc hệ nhận dạng ngƣời nói 12 2.2.5 Các nguyên nhân gây lỗi nhận dạng ngƣời nói 13 2.3 TỔNG QUAN VỀ PHƢƠNG PHÁP TRÍCH CHỌN ĐẶC TRƢNG MFCC (MEL-SCALE FREQUENCY CEPSTRAL COEFFICIENT) 13 2.3.1 Nhận tín hiệu 15 2.3.2 Tiền nhấn 15 2.3.3 Phân khung tín hiệu 15 2.3.4 Nhân hàm cửa sổ 16 2.3.5 Biến đổi Fourier rời rạc 17 2.3.6 Áp dụng lọc Mel 19 2.3.7 Xây dựng lọc Mel 20 2.3.8 Nhân cửa sổ lọc với phổ lƣợng 23 2.3.9 Tính logarit đặc trƣng 23 2.3.10 Biến đổi Cousin rời rạc - Discrete Cousin Transform 23 2.3.11 Thêm đặc trƣng khác 24 vi 2.4 TỔNG QUAN VỀ MẠNG NEURAL NHÂN TẠO (ARTIFICIAL NEURAL NETWORKS - ANN) 25 2.4.1 Giới thiệu mạng neural nhân tạo 25 2.4.2 Sơ lƣợc neural sinh học [5] 26 2.4.3 Tiến trình học 27 2.4.4 Cấu trúc mạng Neural 30 2.4.5 Các hàm ngƣỡng (hàm truyền) 33 2.4.6 Các quy tắc học 34 2.4.7 Phƣơng pháp hạ dốc luật delta [12] 34 2.4.8 Giải thuật Back – Propagation [12] 36 Chƣơng PHÂN TÍCH THIẾT KẾ HỆ THỐNG 42 3.1 PHÁT BIỂU BÀI TOÁN 42 3.2 TỔNG QUAN MƠ HÌNH 43 3.2.1 Module quy trình trích xuất đặc trƣng, huấn luyện giọng nói mẫu 43 3.2.2 Module so khớp mẫu, định danh giọng nói 44 3.3 XÂY DỰNG ỨNG DỤNG 45 3.3.1 Công cụ thực 45 3.3.2 Module quy trình trích xuất đặc trƣng, huấn luyện giọng nói mẫu 46 3.3.3 Module so khớp mẫu, định danh giọng nói 48 3.3.4 Giao diện ứng dụng 49 Chƣơng 4.1 THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 51 THỬ NGHIỆM 51 4.1.1 Dữ liệu thử nghiệm 51 4.1.2 Quá trình kết thực nghiệm 51 4.2 ĐÁNH GIÁ KẾT QUẢ 54 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 56 vii DANH MỤC BẢNG Bảng 2.1 Cơng thức chuẩn hóa mẫu Bảng 2.12 Các hàm ngưỡng sử dụng ANN 33 Bảng 4.1 Bảng kết chạy thử với thành viên gia đình 54 Bảng 4.2 Bảng kết chạy thử nghiệm với người khác 55 viii DANH MỤC CÁC THUẬT NGỮ VÀ TỪ VIẾT TẮT Ký hiệu ANN MFCC Thuật ngữ Artificial Neural Networks Mel-scale Frequency Cepstral Coefficient LPC Linear Predictive Coding GMM Gaussian Mixture Model VQ HMM Vector Quantization Hidden Markov Model DFT Discrete Fourier Transform FFT Fast Fourier Transform DCT Discrete Cosin Transform BP CSDL Back Propagation Cơ sở liệu 44 4) Dùng ANN huấn luyện: Tạo mạng Neural nhân tạo để huấn luyện với đầu vào vector đặc trƣng giọng nói, đầu id giọng nói mẫu 5) Lƣu mơ hình mạng ANN huấn luyện: Sau q trình huấn luyện kết thúc, mơ hình mạng ANN đƣợc huấn luyện đƣợc lƣu lại để dùng cho việc định danh giọng nói sau 3.2.2 Module so khớp mẫu, định danh giọng nói Tƣơng tự mơ hình rút trích đặc trƣng, huấn luyện giọng nói mẫu, mơ hình so khớp mẫu, định danh giọng nói bao gồm khối xử lý nhƣ sau: File ghi âm giọng nói Kết định danh Rút trích đặc trƣng So khớp mẫu Mơ hình ANN huấn luyện Hình 3.2 Module định danh giọng nói tổng qt Hình 3.2 minh họa cho khối xử lý quy trình định danh giọng nói, bƣớc xử lý bao gồm: 1) File ghi âm giọng nói: hệ thống nhận đầu vào file ghi âm giọng nói ngƣời cần định danh 2) Rút trích đặc trƣng : Rút trích đặc trƣng giọng nói thu vào theo phƣơng pháp MFCC 3) So khớp mẫu: Ở bƣớc này, dựa vào vector đặc trƣng MFCC có đƣợc từ việc trích xuất bƣớc trên, hệ thống đƣa vector đặc trƣng vào mơ hình mạng ANN đƣợc huấn luyện trƣớc để tìm nhãn giọng nói khớp 4) Kết định danh: Dựa vào giá trị ngƣỡng định trƣớc, hệ thống định giọng nói có phải ngƣời đƣợc lƣu trữ tập huấn luyện trƣớc hay khơng Đó nét quy trình xử lý định danh giọng nói Những phần luận văn trình bày cụ thể quy trình 45 3.3 XÂY DỰNG ỨNG DỤNG 3.3.1 Công cụ thực Luận văn sử dụng công cụ Matlab để xây dựng ứng dụng trích xuất đặc trƣng giọng nói, dựng mạng neural nhân tạo để huấn luyện so khớp mẫu Matlab phần mềm toán học hãng Mathworks để tính tốn số có tính trực quan cao Matlab qua nhiều phiên bản, Matlab viết tắt Matrix Laboratory Matlab làm việc chủ yếu với ma trận Ma trận cỡ m x n bảng số chữ nhật gồm m x n số đƣợc xếp thành m hàng n cột Trƣờng hợp m=1 n=1 ma trận trở thành vectơ dòng cột; trƣờng hợp m = n = ma trận trở thành đại lƣợng vơ hƣớng Nói chung, Matlab làm việc với nhiều kiểu liệu khác Với xâu chữ (chuỗi ký tự) Matlab xem dãy ký tự dãy mã số ký tự Matlab dùng để giải toán giải tích số, xử lý tín hiệu số, xử lý đồ họa, … mà khơng phải lập trình cổ điển [13] Hiện nay, Matlab có đến hàng ngàn lệnh hàm tiện ích Ngồi hàm cài sẵn ngơn ngữ, Matlab cịn có lệnh hàm ứng dụng chuyên biệt Toolbox, để mở rộng môi trƣờng Matlab nhằm giải toán thuộc phạm trù riêng Các Toolbox quan trọng tiện ích cho ngƣời dùng nhƣ toán sơ cấp, xử lý tín hiệu số, xử lý ảnh, xử lý âm thanh, ma trận thƣa, logic mờ,… Ngƣời dùng xây dựng hàm phục vụ cho chuyên môn mình, lƣu vào tệp M-file để dùng sau Trong luận văn này, phiên Matlab R2013b đƣợc sử dụng để xây dựng ứng dụng demo Nhƣ giới thiệu Toolbox Matlab cung cấp cho ngƣời dùng nhiều thƣ viện tiện ích để giải tốn xử lý âm thanh, hình ảnh, tín hiệu số, Ở luận văn này, thƣ viện VoiceBox đƣợc sử dụng để hỗ trợ việc trích xuất đặc trƣng giọng nói VoiceBox lần đầu đƣợc giới thiệu tới ngƣời dùng vào ngày 30/06/1999 đội ngũ Matlab liên tục đƣợc cập nhật VoiceBox có nhiều 46 tiện ích hỗ trợ cho việc xử lý âm giọng nói, nhận dạng, Tuy nhiên, luận văn này, ứng dụng demo sử dụng số tiện ích nhƣ sau: - melbankm.m: xác định lọc filterbank - melcepst.m: tính tốn phổ lƣợng mel-cepstrum - enframe.m: phân khung tín hiệu âm - edct.m: biến đổi Cosin rời rạc - rfft.m: biến đổi Fourier rời rạc 3.3.2 Module quy trình trích xuất đặc trƣng, huấn luyện giọng nói mẫu Ở module quy trình huấn luyện đƣợc chia thành bƣớc theo sơ đồ nhƣ trình bày hình 3.1: 3.3.2.1 Các files ghi âm giọng nói cần huấn luyện Hệ thống ghi âm giọng nói mẫu, lƣu thành file âm Cùng với việc gán nhãn cho giọng nói nhằm sử dụng cho việc huấn luyện hệ thống sau Tuy nhiên trƣớc chuyển qua bƣớc rút trích đặc trƣng, ứng dụng demo chuẩn hóa lại file ghi âm giọng nói với thông số cụ thể nhƣ sau: tần số lấy mẫu fs (sample rate) 8000 Hz, độ phân giải (bits per sample) 16 bits, chuyển file ghi âm từ hai kênh stereo đơn kênh mono Bên cạnh ứng dụng cắt bỏ đoạn “âm câm” file ghi âm nhằm giảm bớt liệu mà hệ thống cần phải xử lý 3.3.2.2 Rút trích đặc trưng Từ file ghi âm đƣợc bƣớc trên, ứng dụng tiến hành rút trích đặc trƣng Để phục vụ cho việc rút trích đặc trƣng giọng nói, luận văn có sử dụng thƣ viện Voice Box Matlab Toolbox [14] để hỗ trợ việc xử lý âm Sau qua bƣớc chuẩn hóa để có đƣợc file ghi âm với thơng số đồng nhất, hệ thống chia nhỏ file ghi âm [enframe.m] thành khung tín hiệu 47 (frame) với độ dài 16ms, để làm mƣợt chuyển đổi khung liên tiếp, khung đƣợc chồng lấp lên với độ dài 8ms [melcepst.m], tùy vào độ dài thời gian file ghi âm dài ngắn khác nhau, file ghi âm đƣợc chia số khung nhiều khác Do luận văn sử dụng phép biến đổi Fourier để biến đổi tín hiệu tƣơng tự N mẫu sang miền tần số với N điểm điều kiện đầu vào phép biến đổi số lƣợng mẫu N phải lũy thừa số (128, 256, 512…) nên luận văn lựa chọn giá trị 128 giá trị mẫu [melcepst.m] Thông thƣờng phƣơng pháp MFCC ngƣời ta xây dựng tập hợp 2040 lọc tƣơng ứng với số vùng thang đo Mel Mỗi lọc cho ta giá trị lƣợng, thể mức lƣợng âm miền tần số Mel tƣơng ứng Và tập hợp giá trị lƣợng lọc giá trị đặc trƣng đại diện cho frame Ở luận văn này, số lọc đƣợc lựa chọn 25, nhƣ sau đoạn âm đƣợc chia thành frame (dài 16ms, chồng lấp 8ms), frame đƣợc áp 25 lọc cửa sổ tam giác, có nghĩa frame có 25 giá trị đặc trƣng Trong nhu cầu nhận dạng giọng nói, 25 đặc trƣng đủ để đáp ứng yêu cầu toán, đặc trƣng cịn lại đƣợc bỏ qua để giảm chi phí tính tốn sau Tuy nhiên, sau có đƣợc tập hợp 25 giá trị thể mức lƣợng đặc trƣng cho frame, giá trị lớn, gây giảm hiệu suất cho việc lƣu trữ tính tốn, ta cần nén giá trị để thu hẹp miền giá trị phƣơng pháp lấy logarit Sau lấy logarit, giá trị lƣợng bị thu hẹp thành miền giá trị nhỏ nên chênh lệch giá trị không đƣợc rõ ràng, phƣơng pháp biến đổi Cosin rời rạc đƣợc sử dụng để làm tách bạch giá trị nhằm tăng tính đặc trƣng Kết đạt đƣợc sau bƣớc tính tốn ma trận vector đặc trƣng MFCC với số dòng frames, số cột 25 giá trị đặc trƣng giọng nói [melcepst.m] 48 3.3.2.3 Lưu đặc trưng giọng nói vào CSDL: Các đặc trƣng giọng nói có đƣợc sau tiến hành rút trích đặc trƣng phƣơng pháp MFCC đƣợc lƣu files, liệu đƣợc lƣu bao gồm: id giọng nói đƣợc huấn luyện, đặc trƣng tƣơng ứng với id Dữ liệu đƣợc lƣu trữ nhằm phục vụ cho bƣớc huấn luyện phía sau 3.3.2.4 Dùng mạng Neural nhân tạo để huấn luyện Sau có CSDL vector đặc trƣng MFCC giọng nói bƣớc trên, hệ thống dùng ma trận làm thông số đầu vào cho mạng neural nhân tạo, với cấu trúc mạng neural học có giám sát nhƣ sau: sử dụng thuật toán lan truyền ngƣợc với lớp đầu vào, lớp ẩn, lớp đầu ra, hàm truyền tansigmoid, sử dụng giải thuật hạ dốc (gradient descent) để cập nhật trọng số giá trị bias, đầu mạng id tƣơng ứng với đặc trƣng giọng nói [createnn.m] 3.3.2.5 Lưu mơ hình mạng ANN huấn luyện Sau q trình huấn luyện kết thúc, mơ hình mạng ANN đƣợc huấn luyện với thơng số chuẩn (trọng số, số neural lớp,…?) đƣợc lƣu lại để dùng cho việc định danh giọng nói sau 3.3.3 Module so khớp mẫu, định danh giọng nói Tƣơng tự mơ hình rút trích đặc trƣng, huấn luyện giọng nói mẫu, mơ hình so khớp mẫu, định danh giọng nói bao gồm khối xử lý nhƣ minh họa hình 3.2: 3.3.3.1 File ghi âm giọng nói Hệ thống nhận đầu vào file ghi âm ngƣời cần định danh Cũng nhƣ trên, để đồng thông số âm phục vụ cho bƣớc tính tốn sau này, file ghi âm đƣợc chuẩn hóa thơng số nhƣ sau: tần số lấy mẫu 8000Hz, chuyển từ stereo kênh đơn kênh mono để giảm khối lƣợng liệu tính tốn Độ phân giải file ghi âm đƣợc biến đổi đồng độ phân giải bits Trong đoạn ghi âm đó, đoạn âm có số db thấp đƣợc cắt bỏ 49 Rút trích đặc trưng 3.3.3.2 Sau qua bƣớc chuẩn hóa để có đƣợc file ghi âm với thông số đồng nhất, hệ thống tiến hành rút trích đặc trƣng giọng nói để cung cấp cho mạng ANN đƣợc huấn luyện trƣớc So khớp mẫu 3.3.3.3 Có đƣợc đặc trƣng file ghi âm đầu vào, hệ thống đƣa vector đặc trƣng vào mơ hình mạng ANN đƣợc huấn luyện trƣớc để tìm nhãn giọng nói khớp 3.3.3.4 Kết định danh Nếu độ khớp mẫu đạt đƣợc ngƣỡng quy định trƣớc trả kết id giọng nói đó, ngƣợc lại ngƣời khơng nằm danh sách giọng nói đƣợc huấn luyện CSDL (ứng dụng mặc định id = giọng nói ngƣời không nằm tập huấn luyện) 3.3.4 Giao diện ứng dụng Hình 3.3 Giao diện ứng dụng demo Nhƣ Hình 3.3, giao diện ứng dụng gồm thành phần sau: 50 Diagram  Hiển thị biểu đồ tín hiệu tƣơng tự file ghi âm giọng nói, biểu đồ thể đặc trƣng giọng nói Thơng báo  Hiển thị thông báo từ ứng dụng Menu  Huấn luyện: chức tạo tập huấn luyện từ thƣ mục chứa hàng loạt files ghi âm sẵn  Thử nghiệm: chức định danh loạt files ghi âm sẵn, đồng thời cho biết tỷ lệ xác đạt %  Bắt đầu ghi âm: chức ghi âm giọng nói từ microphone  Dừng ghi âm: chức dừng ghi âm  Nghe lại: chức nghe lại đoạn âm vừa ghi âm  Lƣu giọng nói: chức lƣu file giọng nói vừa ghi âm  Chọn giọng nói: chức chọn file ghi âm giọng nói có sẵn  Thêm vào CSDL: chức thêm file ghi âm chọn vào CSDL huấn luyện  Xóa CSDL: chức xóa CSDL tập huấn luyện  Nhận dạng: chức định danh file ghi âm giọng nói ngƣời dùng chọn, xem có phải ngƣời tập huấn luyện khơng, có ngƣời  ID: thể ID mà ứng dụng nhận dạng đƣợc  Time: thể thời gian mà ứng dụng hoàn tất việc nhận dạng  CSDL: thể thơng tin có giọng nói tồn CSDL  Info: Xem thơng tin CSDL chứa giọng nói, giọng nói thuộc ngƣời 51 Chƣơng THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 4.1 THỬ NGHIỆM 4.1.1 Dữ liệu thử nghiệm Trong luận văn tác giả sử dụng tập huấn luyện đóng bao gồm files ghi âm giọng nói thành viên nhà, thành viên thu 30 lần mơi trƣờng nhà, trƣớc cửa chính, gần cửa cổng (có tiếng âm xe qua lại), với cụm từ “mở cửa ra” Riêng thân tác giả tự thu âm 20 lần môi trƣờng khác nhau, tổng cộng 60 file ghi âm File ghi âm đƣợc thu thông qua micro máy tính với thơng số nhƣ sau: độ phân giải 16 bits, tần số lấy mẫu 8000 Hz, thu đơn kênh mono Bên cạnh đó, tác giả thu âm thêm ngƣời khác, không nằm danh sách ngƣời thành viên gia đình nhằm đánh giá độ xác ứng dụng định danh Mỗi ngƣời thu âm 30 lần, môi trƣờng khác nhƣ (mỗi môi trƣờng thu âm 10 lần) 4.1.2 Quá trình kết thực nghiệm 4.1.2.1 Xây dựng tập huấn luyện với giọng nói ghi âm từ thành viên gia đình Sau thu âm giọng nói thành viên gia đình (mỗi ngƣời thu 30 lần, môi trƣờng khác nhau, mơi trƣờng thu 10 lần, tổng cộng có 30 file ghi âm cho ngƣời, riêng thân tác giả tự thu âm 20 lần môi trƣờng khác nhau, tổng cộng 60 file ghi âm) Tác giả sử dụng ứng dụng để xây dựng tập huấn luyện, bƣớc tiến hành nhƣ sau: - Chọn file ghi âm giọng nói muốn huấn luyện, sau ứng dụng rút trích đặc trƣng giọng nói, hiển thị biểu đồ đặc trƣng nhƣ hình sau: 52 Hình 4.1 Giao diện biểu diễn biểu đồ đặc trưng giọng nói - Sau đó, bấm chọn “Thêm vào CSDL” để lƣu đặc trƣng giọng nói lại, ứng dụng yêu cầu ngƣời dùng nhập vào ID cho giọng nói, ID đƣợc đánh số nguyên từ 1, ngƣời có ID riêng biệt, với ID sử dụng nhiều file ghi âm giọng nói (ở nhiều môi trƣờng khác nhau, thu nhiều lần) để huấn luyện Hình 4.2 Giao diện trình xây dựng tập huấn luyện (1) 53 - Để chuyển qua huấn luyện cho giọng nói ngƣời thứ hai chọn file ghi âm giọng nói ngƣời thứ hai ứng dụng yêu cầu nhập ID giọng nói, ngƣời dùng nhập vào “2” Cứ tiếp tục nhƣ vậy, hoàn tất tập huấn luyện ngƣời dùng mong muốn Hình 4.3 Giao diện trình xây dựng tập huấn luyện (2) 4.1.2.2 Thử nghiệm định danh ngƣời nói Để kiểm tra giọng nói có phải giọng nói thành viên gia đình hay khơng, ta tiến hành bƣớc nhƣ sau: - Chọn file ghi âm cần định danh - Sau bấm chọn nhận dạng - Hệ thống trả ID giọng nói - Nếu giọng nói khơng tồn CSDL, hệ thống trả ID 54 Hình 4.4 Giao diện trình định danh giọng nói 4.2 ĐÁNH GIÁ KẾT QUẢ Đầu tiên hệ thống thử nghiệm tập huấn luyện giọng nói thành viên gia đình, thành viên gia đình chạy thử 12 lần để kiểm tra độ xác hệ thống, kết đạt đƣợc nhƣ sau: Bảng 4.1 Bảng kết chạy thử với thành viên gia đình Chị Sáu Chị Thƣ Anh Giang Anh Thi 11 0 Chị Sáu 10 1 Chị Thƣ 11 0 Anh Giang 0 12 Anh Thi 0 11 Anh Nam Anh Nam Qua bảng kết trên, ta thấy: - Hệ thống nhận dạng thành viên gia đình, đạt tỷ lệ xác: [(11/12) + (10/12) + (11/12) + (12/12) + (11/12)] / = 91,66% 55 - Bên cạnh đó, hệ thống sử dụng files ghi âm giọng nói ngƣời không nằm tập huấn luyện (mỗi ngƣời thử 12 lần) để kiểm tra cho phép hay không cho phép ngƣời mở cửa, cho bảng kết nhƣ sau: Bảng 4.2 Bảng kết chạy thử nghiệm với người khác Không cho phép Cho phép Anh Minh 12 Anh Việt 11 Chị Liễu 12 Anh Du 10 Chị Hồng 11 Tổng cộng 56 Đạt tỷ lệ xác: 56/60 = 93,33% 56 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN Luận văn xây dựng hệ thống định danh ngƣời nói sử dụng phƣơng pháp MFCC để rút trích đặc trƣng giọng nói mạng Neural nhân tạo để huấn luyện so khớp mẫu Kết thử nghiệm cho thấy độ xác định danh thành viên gia đình đạt tỷ lệ xác 91,66%, nhiên kết hợp thử nghiệm với giọng nói khơng phải thành viên gia đình để kiểm tra cho phép hay khơng cho phép mở cửa hệ thống đạt tỷ lệ xác 93,33% (nhận nhầm trƣờng hợp 60 lần thử) Qua thống kê này, kết đạt đƣợc chƣa đạt tới độ xác 100%, nhƣng mức chấp nhận đƣợc Hƣớng phát triển: Hiện mơ hình ngơi nhà thơng minh phổ biến gia đình, ứng dụng giọng nói để mở cửa ngơi nhà thơng minh ứng dụng gần gũi, có tính thực tiễn cao Tuy nhiên tƣơng lai để áp dụng đại trà hệ thống cho nhà thơng minh, hệ thống cần cải tiến số điểm sau:  Vì hệ thống có tính chất bảo mật cho gia chủ, nên cần cải thiện độ xác nữa, phải đạt đến độ xác 100%  Cần đƣa thêm liệu ghi âm đầu vào, sàng lọc mẫu ghi âm, lựa chọn mẫu khái quát, cải thiện bƣớc tiền xử lý âm thanh, nhằm nâng cao tỷ lệ nhận dạng xác hệ thống  Hƣớng phát triển hệ thống tích hợp cho ngơi nhà thơng nên cần cải thiện tốc độ tính tốn, giảm chi phí tài nguyên cho phù hợp với thiết bị nhúng TÀI LIỆU THAM KHẢO Tài liệu Tiếng Việt: [1] Hồ Văn Hƣơng, “Nhận dạng tiếng nói sở mạng Neural nhân tạo”, luận văn thạc sĩ PGS TS Nguyễn Quang Hoan hướng dẫn, Đại học Công nghệ - Đại học Quốc gia Hà Nội, năm 2005 [2] Báo cáo tổng kết khoa học kỹ thuật đề tài “Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp xử lý ngôn ngữ tiếng Việt” tháng 12/2004, chủ nhiệm GS TSKH Bạch Hƣng Khang [p17, 18] [3] Đăng Ngọc Đức Lƣơng Chi Mai, "Tăng cƣờng độ xác hệ thống mạng Neural nhận dạng tiếng Việt", Tạp chí Bưu Viễn thơng, 2004 [4] Ngơ Minh Dũng, “Nghiên cứu nhận dạng ngƣời nói dựa từ khóa tiếng Việt”, luận án tiến sĩ kỹ thuật PGS TS Đặng Văn Chuyết PGS TS Vũ Kim Bảng hướng dẫn, Đại học Bách khoa Hà Nội, năm 2010 Tài liệu Tiếng Anh: [5] R Beale and T Jackson, “Neural Computing: An Introduction”, Adam Hilger Bristol, Philadelphia and New York, ISBN 0-85274-262-2, 1990 [6] Praveen N, “Text Dependent Speaker Recognition using MFCC features and BPANN”, International Journal of Computer Applications (0975 – 8887) - Volume 74 – No.5, July 2013 [7] Om Prakash Prabhakar and Navneet Kumar Sahu, “Speaker Identification system using Mel Frequency Cepstral Coefficient and GMM technique”, IOSR Journal of Electrical and Electronics Engineering (IOSR-JEEE) - e-ISSN: 2278-1676, p-ISSN: 2320-3331 PP 51-56 [8] Chularat Tanprasert, Chai Wutiwiwatchai and Sutat Sae-tang, “Textdependent Speaker Identification Using Neural Network On Distinctive Thai Tone Marks”, IEEE-INNS International Joint Conference on Neural Network, July, 1999 [9] Shing-Tai Pan, Chih-Chin Lai, and Bo-Yu Tsai, "The implementation of speech recognition systems on FPGA-based embedded systems with SoC architecture," Int Journal of Innovative Computing, Information and Control, vol 7, pp 6161-6175, 2011 [10] Lindasalwa Muda, Mumtaj Begam, and I Elamvazuthi, "Voice recognition algorithms using mel frequency cepstral coefficient (MFCC) and dynamic time warping (DTW) techniques," arXiv preprint arXiv:1003.4083, 2010 [11] Tomi Kinnunen, "Spectral features for automatic text-independent speaker recognition," Licentiate’s Thesis, 2003 [12] E Alpaydin, “Introduction to Machine Learning”, The MIT Press, 2010 Một số Website tham khảo: [13] MATLAB, http://www.mathworks.com/products/matlab/ [14] VOICEBOX: Speech processing toolbox for Matlab, http://www.ee.ic.ac.uk/hp/staff/dmb/voicebox/voicebox.html ... trƣng giọng nói, cách huấn luyện, phân lớp định danh giọng nói sử dụng mạng neural nhân tạo để ứng dụng việc định danh giọng nói, ứng dụng mở cửa nhà thông minh Kết quả:  Xây dựng ứng dụng có... HỒNG TRƢƠNG THANH GIANG XÂY DỰNG HỆ THỐNG ĐỊNH DANH NGƢỜI NÓI ỨNG DỤNG MỞ CỬA BẰNG GIỌNG NÓI Chuyên ngành: Công Nghệ Thông Tin Mã số: 60480201 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG... cần thiết âm sau ứng dụng kỹ thuật so khớp đặc trƣng để định danh ngƣời nói Đề tài định hƣớng cho ứng dụng định danh ngƣời nói sử dụng để mở cửa ngơi nhà thơng minh Nội dung luận văn: gồm 04 chƣơng

Định dạng
Số trang	69
Dung lượng	1,47 MB