Giới thiệu bài toán nhận dạng người nói n d i nói speaker recognition c g i là sinh trNhậ ạng ngườ , hay còn đượ ọ ắc học người nói speaker biometrics là lĩnh vực bao gồm các bài toán đị
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - NGUYỄN ANH TUẤN XÂY DỰNG PHẦN MỀM TỰ ĐỘNG CHẤM CÔNG NHÂN VIÊN DỰA TRÊN NHẬN DẠNG GIỌNG NÓI LUẬN VĂN THẠC SỸ CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN Hà Nội – 2018 Tai ngay!!! Ban co the xoa dong chu nay!!! 17057204983941000000 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - NGUYỄN ANH TUẤN XÂY DỰNG PHẦN MỀM TỰ ĐỘNG CHẤM CƠNG NHÂN VIÊN DỰA TRÊN NHẬN DẠNG GIỌNG NĨI LUẬN VĂN THẠC SỸ CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: NGUYỄN BÌNH MINH Hà Nội – 2018 LỜI CAM ĐOAN Tôi – Nguyn Anh Tuấn – xin cam đoan • Luận văn tốt nghiệp (LVTN) Thạc sĩ cơng trình nghiên cứu thân hướng dẫn Tiến sĩ Nguyn Bình Minh • Các kết nêu Luận văn tốt nghiệp trung thực, chép tồn văn cơng trình khác Hà Nội, ngày 08 tháng 09 năm 2018 Tác giả LVTN Nguyễn Anh Tuấn LỜI CẢM ƠN Đầu tiên, xin gửi lời cảm ơn sâu sắc tới Thầy giáo – Tiến sĩ Nguyn Bình Minh – Phó trưởng môn Hệ thống thông tin, Viện Công nghệ thông tin Truyền thông, Trường Đại học Bách Khoa Hà Nội Thầy tận tình hướng dẫn cho tơi lời khun q báu q trình thực luận văn Tiếp theo, xin chân thành cảm ơn thầy cô Viện Công nghệ thông tin truyền thông, Viện đào tạo sau đại học, Trường Đại học Bách Khoa Hà Nội tạo điều kiện cho tơi q trình học tập nghiên cứu trường Tôi xin chân thành cảm ơn Trung tâm Công nghệ lõi, Viện Chỉ huy điều khiển, Viện Nghiên cứu Phát triển Viettel, Tập đồn Cơng nghiệp - Vin thông Quân đội giúp đỡ, tạo điều kiện công tác học tập cho q trình tơi học tập thực luận văn Trường Đại học Bách Khoa Hà Nội Cuối cùng, tơi xin bày tỏ lịng cảm ơn tới người thân gia đình, bạn bè động viên giúp đỡ để tơi hồn thành luận văn Hà Nội, ngày 08 tháng 09 năm 2018 Tác giả LVTN Nguyễn Anh Tuấn MỤC LỤC LỜI CAM ĐOAN .1 LỜI CẢM ƠN .2 DANH MỤC KÝ HIỆU, CÁC CHỮ VIẾT TẮT .6 DANH MỤC CÁC BẢNG DANH MỤC HÌNH VẼ, ĐỒ THỊ MỞ ĐẦU 10 CHƯƠNG I ĐẶT VẤN ĐỀ 11 Giới thiệu tốn nhận dạng người nói 11 Phân loại tốn nhận dạng người nói 11 Mục tiêu luận văn .13 Phạm vi luận văn .14 Cấu trúc luận văn 14 CHƯƠNG II CƠ SỞ LÝ THUYẾT NHẬN DẠNG NGƯỜI NÓI 16 Tổng quan hệ thống nhận dạng người nói .16 1.1 Lựa chọn đặc trưng .17 1.2 Mơ hình người nói .19 Trích xuất đặc trưng 20 2.1 Tổng quan dạng đặc trưng 20 2.2 Trích xuất đặc trưng MFCC .22 2.3 Nhận xét trích xuất đặc trưng MFCC 26 Phương pháp mơ hình hóa người nói 26 3.1 Vector Quantization (VQ) 27 3.2 Gaussian Mixture Model (GMM) 33 3.3 Nhận xét thuật tốn mơ hình hóa người nói 36 CHƯƠNG III CÁC MƠ HÌNH NGƯỜI NÓI NÂNG CAO 38 Mơ hình UBM 38 Mơ hình GMM-UBM 40 Mơ hình GMM-SVM 43 3.1 Supervectors GMM 43 3.2 Support Vector Machines 45 Nhận xét thuật tốn mơ hình người nói nâng cao 48 CHƯƠNG IV THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 49 Dữ liệu thử nghiệm 49 1.1 Chi tiết liệu gốc 49 1.2 Các liệu dùng thực nghiệm .51 Các thuật toán dùng thực nghiệm 51 2.1 Thuật tốn trích xuất đặc trưng 51 2.2 Thuật tốn mơ hình hóa người nói .52 Tham số đánh giá 56 Kịch thực nghiệm .57 Kết thực nghiệm 58 5.1 Cấu hình môi trường thực nghiệm .58 5.2 Kết kịch thực nghiệm 59 Nhận xét chung 75 CHƯƠNG V HỆ THỐNG CHẤM CƠNG TỰ ĐỘNG DỰA TRÊN NHẬN DẠNG GIỌNG NĨI 77 Tổng quan hệ thống 77 Thiết kế hệ thống 78 2.1 Lưu đồ hoạt động 78 2.2 Sơ đồ thiết kế lớp .79 2.3 Sơ đồ 82 Hướng dẫn sử dụng 85 3.1 Ghi nhận người nói 85 3.2 Định danh người nói 86 CHƯƠNG VI KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN TIẾP THEO 88 Tổng kết 88 Hướng phát triển 89 DANH MỤC THAM KHẢO 90 DANH MỤC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Từ viết tắt Nghĩa tiếng Anh Confusion Matrix EM FFM GMM Expectation maximization Finite mixture model Gaussian mixture model KL MAP MFCC Kullback-Leibler distance Maximum A Posterior Mel-frequency cepstral coefficient NAP RBF Nuisance Attribute Projection Radial basis function Random Forest Speaker recognition Speaker verification Speaker identification Support vector machine Text-independent Text-dependent Universal background model Vector quantization SVM UBM VQ Nghĩa tiếng Việt Phương pháp biểu thị kết phân lớp Ma trận hỗn loạn Thuật toán cực đại hóa mong đợi Mơ hình trộn hữu hạn Mơ hình trộn phân phối Gaussian Khoảng cách Kullback-Leibler Cực đại hóa hậu nghiệm Hệ số đặc trưng trích xuất từ phương pháp MFCC Phép chiếu thuộc tính gây nhiu Kernel RBF thuật toán SVM Thuật toán học máy Rừng ngẫu nhiên Nhận dạng người nói Xác nhận người nói Định danh người nói Thuật tốn học máy SVM Độc lập nội dung Phụ thuộc nội dung Mơ hình phổ quát Phương pháp lượng tử hóa vector Lưu ý: Để đảm bảo tính đơn giản quán luận văn, số thuật ngữ từ viết tắt tiếng Anh sử dụng trực tiếp luận văn thay dịch sang tiếng Việt (do khơng có từ sát nghĩa diễn đạt ngắn gọn tiếng Việt) DANH MỤC CÁC BẢNG Bảng - So sánh thuật tốn mơ hình người nói nâng cao 48 Bảng - Bảng tham số thực nghiệm MFCC .52 Bảng - Bảng Confusion Matrix 56 Bảng - Bảng kịch thực nghiệm 58 Bảng - Kết thực nghiệm kịch 59 Bảng - Kết thực nghiệm kịch 63 Bảng - Kết thực nghiệm kịch 67 Bảng - Kết thực nghiệm kịch 69 Bảng - Kết thực nghiệm kịch 72 Bảng 10 - Bảng mô tả lớp giao diện 80 Bảng 11 - Bảng mô tả lớp thuật toán 82 DANH MỤC HÌNH VẼ, ĐỒ THỊ Hình - Tổng quan hệ thống nhận dạng người nói 16 Hình - Phân loại đặc trưng dựa biểu din thông tin vật lý 18 Hình - Các bước phương pháp tính MFCC 23 Hình - Biểu din 24-band filter lên phổ tần số từ 0-4000 Hz 25 Hình - Minh họa thuật tốn VQ .27 Hình - Sơ đồ mơ hình hóa người nói sử dụng VQ 28 Hình - Minh họa K-means với K = .30 Hình - Minh họa thuật toán LBG 31 Hình - Sơ đồ mơ hình hóa người nói sử dụng GMM .35 Hình 10 - Mơ hình thích nghi MAP với thành phần Gaussian UBM 42 Hình 11 - Quá trình xây dựng supervector từ đoạn âm người nói 44 Hình 12 - Minh họa tốn SVM tuyến tính 55 Hình 14 - Confusion Matrix sử dụng trích xuất đặc trưng MFCC-B .60 Hình 15 - Confusion Matrix sử dụng trích xuất đặc trưng MFCC-D .61 Hình 16 - Confusion Matrix sử dụng trích xuất đặc trưng MFCC-DD 61 Hình 17 - Confusion matrix sử dụng GMM mơ hình hóa người nói 63 Hình 18 - Confusion matrix sử dụng GMM-UBM mơ hình hóa người nói 64 Hình 19 - Confusion matrix sử dụng Random Forest mơ hình hóa người nói 64 Hình 20 - Confusion matrix sử dụng SVM tuyến tính mơ hình hóa người nói 65 Hình 21 - Confusion matrix sử dụng SVM kernel RBF mơ hình hóa người nói 65 Hình 22 - Confusion Matrix sử dụng UBM để phát người .68 Hình 23 - Confusion Matrix với liệu tiếng Việt M-VIVOS 70 Hình 24 - Confusion Matrix với liệu tiếng Anh M-TIMIT 70 Hình 25 - Confusion Matrix với liệu tiếng Trung M-MANDR 71 Hình 26 - Confusion Matrix sử dụng GMM với liệu chứa nhiu 73 Hình 27 - Confusion Matrix sử dụng GMM với liệu chứa nhiu 73 Hình 28 - Confusion Matrix sử dụng Random Forest với liệu chứa nhiu 74 Hình 29 - Confusion Matrix sử dụng L-SVM với liệu chứa nhiu .74