Xây dựng phần mềm tự động chấm công nhân viên dựa trên nhận dạng giọng nói

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - NGUYỄN ANH TUẤN XÂY DỰNG PHẦN MỀM TỰ ĐỘNG CHẤM CÔNG NHÂN VIÊN DỰA TRÊN NHẬN DẠNG GIỌNG NÓI LUẬN VĂN THẠC SỸ CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN Hà Nội – 2018 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - NGUYỄN ANH TUẤN XÂY DỰNG PHẦN MỀM TỰ ĐỘNG CHẤM CƠNG NHÂN VIÊN DỰA TRÊN NHẬN DẠNG GIỌNG NĨI LUẬN VĂN THẠC SỸ CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: NGUYỄN BÌNH MINH Hà Nội – 2018 LỜI CAM ĐOAN Tôi – Nguyễn Anh Tuấn – xin cam đoan • Luận văn tốt nghiệp (LVTN) Thạc sĩ cơng trình nghiên cứu thân hướng dẫn Tiến sĩ Nguyễn Bình Minh • Các kết nêu Luận văn tốt nghiệp trung thực, chép tồn văn cơng trình khác Hà Nội, ngày 08 tháng 09 năm 2018 Tác giả LVTN Nguyễn Anh Tuấn LỜI CẢM ƠN Đầu tiên, xin gửi lời cảm ơn sâu sắc tới Thầy giáo – Tiến sĩ Ngũn Bình Minh – Phó trưởng môn Hệ thống thông tin, Viện Công nghệ thông tin Truyền thông, Trường Đại học Bách Khoa Hà Nội Thầy tận tình hướng dẫn cho tơi lời khun q báu q trình thực luận văn Tiếp theo, xin chân thành cảm ơn thầy cô Viện Công nghệ thông tin truyền thông, Viện đào tạo sau đại học, Trường Đại học Bách Khoa Hà Nội tạo điều kiện cho tơi q trình học tập nghiên cứu trường Tôi xin chân thành cảm ơn Trung tâm Công nghệ lõi, Viện Chỉ huy điều khiển, Viện Nghiên cứu Phát triển Viettel, Tập đồn Cơng nghiệp - Viễn thông Quân đội giúp đỡ, tạo điều kiện công tác học tập cho q trình tơi học tập thực luận văn Trường Đại học Bách Khoa Hà Nội Cuối cùng, tơi xin bày tỏ lịng cảm ơn tới người thân gia đình, bạn bè động viên giúp đỡ để tơi hồn thành luận văn Hà Nội, ngày 08 tháng 09 năm 2018 Tác giả LVTN Nguyễn Anh Tuấn MỤC LỤC LỜI CAM ĐOAN .1 LỜI CẢM ƠN .2 DANH MỤC KÝ HIỆU, CÁC CHỮ VIẾT TẮT .6 DANH MỤC CÁC BẢNG DANH MỤC HÌNH VẼ, ĐỒ THỊ MỞ ĐẦU 10 CHƯƠNG I ĐẶT VẤN ĐỀ .11 Giới thiệu tốn nhận dạng người nói 11 Phân loại tốn nhận dạng người nói 11 Mục tiêu luận văn .13 Phạm vi luận văn .14 Cấu trúc luận văn 14 CHƯƠNG II CƠ SỞ LÝ THUYẾT NHẬN DẠNG NGƯỜI NÓI 16 Tổng quan hệ thống nhận dạng người nói .16 1.1 Lựa chọn đặc trưng .17 1.2 Mơ hình người nói .19 Trích xuất đặc trưng 20 2.1 Tổng quan dạng đặc trưng 20 2.2 Trích xuất đặc trưng MFCC .22 2.3 Nhận xét trích xuất đặc trưng MFCC 26 Phương pháp mơ hình hóa người nói 26 3.1 Vector Quantization (VQ) 27 3.2 Gaussian Mixture Model (GMM) 33 3.3 Nhận xét thuật tốn mơ hình hóa người nói 36 CHƯƠNG III CÁC MƠ HÌNH NGƯỜI NĨI NÂNG CAO 38 Mơ hình UBM 38 Mơ hình GMM-UBM 40 Mơ hình GMM-SVM 43 3.1 Supervectors GMM 43 3.2 Support Vector Machines 45 Nhận xét thuật tốn mơ hình người nói nâng cao 48 CHƯƠNG IV THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 49 Dữ liệu thử nghiệm 49 1.1 Chi tiết liệu gốc 49 1.2 Các liệu dùng thực nghiệm .51 Các thuật toán dùng thực nghiệm 51 2.1 Thuật tốn trích xuất đặc trưng 51 2.2 Thuật tốn mơ hình hóa người nói .52 Tham số đánh giá 56 Kịch thực nghiệm .57 Kết thực nghiệm 58 5.1 Cấu hình mơi trường thực nghiệm .58 5.2 Kết kịch thực nghiệm 59 Nhận xét chung 75 CHƯƠNG V HỆ THỐNG CHẤM CÔNG TỰ ĐỘNG DỰA TRÊN NHẬN DẠNG GIỌNG NÓI 77 Tổng quan hệ thống 77 Thiết kế hệ thống .78 2.1 Lưu đồ hoạt động .78 2.2 Sơ đồ thiết kế lớp .79 2.3 Sơ đồ 82 Hướng dẫn sử dụng 85 3.1 Ghi nhận người nói 85 3.2 Định danh người nói 86 CHƯƠNG VI KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN TIẾP THEO 88 Tổng kết 88 Hướng phát triển 89 DANH MỤC THAM KHẢO 90 DANH MỤC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Từ viết tắt Nghĩa tiếng Anh Confusion Matrix EM FFM GMM Expectation maximization Finite mixture model Gaussian mixture model KL MAP MFCC Kullback-Leibler distance Maximum A Posterior Mel-frequency cepstral coefficient NAP RBF Nuisance Attribute Projection Radial basis function Random Forest Speaker recognition Speaker verification Speaker identification Support vector machine Text-independent Text-dependent Universal background model Vector quantization SVM UBM VQ Nghĩa tiếng Việt Phương pháp biểu thị kết phân lớp Ma trận hỗn loạn Thuật tốn cực đại hóa mong đợi Mơ hình trộn hữu hạn Mơ hình trộn phân phối Gaussian Khoảng cách Kullback-Leibler Cực đại hóa hậu nghiệm Hệ số đặc trưng trích xuất từ phương pháp MFCC Phép chiếu thuộc tính gây nhiễu Kernel RBF thuật toán SVM Thuật toán học máy Rừng ngẫu nhiên Nhận dạng người nói Xác nhận người nói Định danh người nói Thuật tốn học máy SVM Độc lập nội dung Phụ thuộc nội dung Mơ hình phổ qt Phương pháp lượng tử hóa vector Lưu ý: Để đảm bảo tính đơn giản quán luận văn, số thuật ngữ từ viết tắt tiếng Anh sử dụng trực tiếp luận văn thay dịch sang tiếng Việt (do khơng có từ sát nghĩa khơng thể diễn đạt ngắn gọn tiếng Việt) DANH MỤC CÁC BẢNG Bảng - So sánh thuật tốn mơ hình người nói nâng cao 48 Bảng - Bảng tham số thực nghiệm MFCC .52 Bảng - Bảng Confusion Matrix 56 Bảng - Bảng kịch thực nghiệm 58 Bảng - Kết thực nghiệm kịch 59 Bảng - Kết thực nghiệm kịch 63 Bảng - Kết thực nghiệm kịch 67 Bảng - Kết thực nghiệm kịch 69 Bảng - Kết thực nghiệm kịch 72 Bảng 10 - Bảng mô tả lớp giao diện 80 Bảng 11 - Bảng mô tả lớp thuật toán 82 DANH MỤC HÌNH VẼ, ĐỒ THỊ Hình - Tổng quan hệ thống nhận dạng người nói 16 Hình - Phân loại đặc trưng dựa biểu diễn thơng tin vật lý 18 Hình - Các bước phương pháp tính MFCC 23 Hình - Biểu diễn 24-band filter lên phổ tần số từ 0-4000 Hz 25 Hình - Minh họa thuật toán VQ .27 Hình - Sơ đồ mơ hình hóa người nói sử dụng VQ 28 Hình - Minh họa K-means với K = .30 Hình - Minh họa thuật tốn LBG 31 Hình - Sơ đồ mơ hình hóa người nói sử dụng GMM .35 Hình 10 - Mơ hình thích nghi MAP với thành phần Gaussian UBM 42 Hình 11 - Quá trình xây dựng supervector từ đoạn âm người nói 44 Hình 12 - Minh họa tốn SVM tuyến tính 55 Hình 14 - Confusion Matrix sử dụng trích xuất đặc trưng MFCC-B .60 Hình 15 - Confusion Matrix sử dụng trích xuất đặc trưng MFCC-D .61 Hình 16 - Confusion Matrix sử dụng trích xuất đặc trưng MFCC-DD 61 Hình 17 - Confusion matrix sử dụng GMM mơ hình hóa người nói 63 Hình 18 - Confusion matrix sử dụng GMM-UBM mơ hình hóa người nói .64 Hình 19 - Confusion matrix sử dụng Random Forest mơ hình hóa người nói 64 Hình 20 - Confusion matrix sử dụng SVM tuyến tính mơ hình hóa người nói 65 Hình 21 - Confusion matrix sử dụng SVM kernel RBF mơ hình hóa người nói 65 Hình 22 - Confusion Matrix sử dụng UBM để phát người .68 Hình 23 - Confusion Matrix với liệu tiếng Việt M-VIVOS 70 Hình 24 - Confusion Matrix với liệu tiếng Anh M-TIMIT 70 Hình 25 - Confusion Matrix với liệu tiếng Trung M-MANDR 71 Hình 26 - Confusion Matrix sử dụng GMM với liệu chứa nhiễu 73 Hình 27 - Confusion Matrix sử dụng GMM với liệu chứa nhiễu 73 Hình 28 - Confusion Matrix sử dụng Random Forest với liệu chứa nhiễu 74 Hình 29 - Confusion Matrix sử dụng L-SVM với liệu chứa nhiễu .74 • Các thuật tốn dựa thống kê cổ điển GMM, GMM-UBM thuật toán học máy Random Forest, SVM kernel RBF cho kết gần tương tự (độ xác vào khoảng 99%), chứng tỏ đặc trưng trích xuất từ MFCC phản ánh tốt đặc trưng riêng giọng nói người Riêng thuật tốn SVM tuyến tính cho kết thấp hẳn (độ xác khoảng 68%), cho thấy tập vector đặc trưng người nói khơng thể phân tách tuyến tính • Thuật tốn UBM cho chất lượng nhận dạng người nằm danh sách tốt, nhiên lỗi nhận dạng nhầm người danh sách nhận dạng nhầm người danh sách có xu hướng biến thiên ngược chiều tùy vào giá trị ngưỡng 𝜃 Tùy thuộc vào mục đích hệ thống, ta chọn giá trị 𝜃 để tối thiểu hóa hai loại lỗi, cân loại lỗi • Ảnh hưởng loại ngôn ngữ khác chưa thể rõ rệt lên hiệu thuật tốn định danh người nói Điều ba ngơn ngữ thử nghiệm Việt / Anh / Trung có tương đồng lớn mặt phát âm (có nhiều âm chung), thuật tốn trích xuất đặc trưng tập trung vào đặc trưng phổ ngắn, phản ánh thông tin cấp độ âm tiết câu nói Có thể với đặc trưng mức cao hơn, yếu tố ngôn ngữ nhận dạng người nói thể rõ nét • Khi thử nghiệm với liệu trộn nhiễu nền, hiệu thuật toán giảm lớn, chứng tỏ thuật toán, đặc biệt thuật tốn trích xuất đặc trưng MFCC nhạy cảm với âm nhiễu Đây yếu tố quan trọng, toán thực tế, liệu thu thường kèm tạp âm Trong số thuật tốn mơ hình hóa người nói thử nghiệm, thuật toán đơn giản GMM lại cho hiệu cao 76 CHƯƠNG V HỆ THỐNG CHẤM CƠNG TỰ ĐỘNG DỰA TRÊN NHẬN DẠNG GIỌNG NĨI Chương trình bày hệ thống chấm cơng tự động dựa nhận dạng giọng nói, bao gồm tổng quan, thiết kế cách vận hành sử dụng hệ thống Tổng quan hệ thống Hệ thống thử nghiệm xây dựng hệ thống chấm công tự động dựa nhận dạng giọng nói Hệ thống bao gồm thành phần gồm: • Mơ-đun ghi nhận người nói làm nhiệm vụ thu thập liệu người nói xây dựng mơ hình tương ứng, ghi lưu mơ hình vào sở liệu Các thuật tốn trích xuất đặc trưng xây dựng mơ hình cố định sẵn dựa kết thực nghiệm chương trước • Mơ-đun kiểm thử làm nhiệm vụ ghi âm người nói định danh người dựa mơ hình có sẵn sở liệu, từ thực tích cơng làm người ngày hơm Mỗi mơ-đun xây dựng thành chương trình chạy độc lập Yêu cầu chức năng: Nhiệm vụ hệ thống đảm bảo kết chấm cơng người dựa nhận dạng giọng nói xác nhanh chóng Việc định danh người nói phải đáp ứng đòi hỏi yêu cầu thời gian thực, đồng thời cung cấp chế cho phép phát người nói có nằm ngồi tập người huấn luyện sở liệu hay không Yêu cầu giao diện: Trong việc phát triển phần mềm, xây dựng giao diện tương tác người máy quan trọng Giao diện cần đảm bảo tính đơn giản, thuận tiện, giúp người dùng dễ dàng sử dụng 77 Thiết kế hệ thống 2.1 Lưu đồ hoạt động Lưu đồ ghi nhận người nói: Hình 31 - Lưu đồ ghi nhận người nói 78 Lưu đồ kiểm thử người nói: Hình 32 - Lưu đồ kiểm thử người nói 2.2 Sơ đồ thiết kế lớp Sơ đồ thiết kế lớp giao diện: 79 Hình 33 - Sơ đồ thiết kế lớp giao diện Mô tả sơ lớp giao diện: Lớp Mô tả SpeakerManagementWindow Tạo giao diện thao tác ghi nhận người nói SpeakerRecognizerWindow Tạo giao diện thao tác kiểm thử người nói SpeakerManager Cung cấp API làm việc với thơng tin người nói khởi tạo / huấn luyện / xóa mơ hình, định danh dựa liệu giọng nói Recorder Cung cấp chế ghi âm liệu nói dựa thư viện PyAudio RecordingFile Cung cấp chế ghi liệu nói định dạng file wave listener cho liệu ghi Bảng 10 - Bảng mô tả lớp giao diện Sơ đồ thiết kế lớp thuật tốn: 80 Hình 34 - Sơ đồ thiết kế lớp thuật tốn 81 Mơ tả sơ lớp thuật tốn: Lớp Mơ tả AbstractSpeakerEnroller Lớp trừu tượng cung cấp API để ghi nhận người nói kiểm thử đoạn nói GmmSpeakerEnroller Lớp cài đặt thuật tốn mơ hình hóa người nói GMM UBMSpeakerEnroller Lớp cài đặt thuật tốn xây dựng mơ hình UBM huấn luyện người nói thơng qua thích nghi GMM-UBM RandomForestSpearkEnroller Lớp cài đặt thuật tốn mơ hình hóa người nói sử dụng Random Forest Tham số sử dụng mặc định (số định 10) SVMSpeakerEnroller Lớp cài đặt thuật tốn mơ hình hóa người nói sử dụng SVM tuyến tính SVM kernel RBF Các tham số SVM cố định sẵn: • SVM tuyến tính: tham số phạt lỗi (penalty parameter of error term) 𝐶 = • SVM kernel RBF: tham số phạt lỗi 𝐶 = 0,4; hệ số nhân Gaussian 𝛾 = 0,2 GaussianMixtureModel Lớp trung gian cung cấp hàm huấn luyện liệu thích nghi liệu sử dụng GMM Số lượng thành phần Gaussian 32 AbstractFeatureExtractor Lớp trừu tượng cung cấp API để trích xuất đặc trưng từ liệu MFCCFeatureExtractor Lớp cài đặt thuật tốn trích xuất đặc trưng MFCC WebrtcVADFilter Lớp trung gian cung cấp hàm phát đoạn âm có chứa tiếng người sử dụng thư viện Webrtc VAD GaussianMixture Các lớp cài đặt thuật toán GMM, SVM, Random Forest thuộc thư viện Scikit-learn SVC RandomForestClassifier Bảng 11 - Bảng mơ tả lớp thuật tốn 2.3 Sơ đồ Sơ đồ q trình ghi nhận người nói: 82 Hình 35 – Sơ đồ ghi nhận người nói 83 Sơ đồ q trình định danh/ chấm cơng người nói: Hình 36 - Sơ đồ định danh / chấm cơng người nói 84 Hướng dẫn sử dụng 3.1 Ghi nhận người nói Giao diện ghi nhận người nói cung cấp: • Danh sách người nói huấn luyện sở liệu • Thao tác để tạo / cập nhật / xóa người nói sở liệu • Thao tác để ghi âm người nói / huấn luyện mơ hình / xóa liệu âm người nói Hình minh họa giao diện ghi nhận người nói: Hình 37 - Giao diện ghi nhận người nói 85 Hướng dẫn tạo / cập nhật / xóa người nói: • Nhập tên người nói vào “Speaker” Nhấn “Start” để bắt đầu thao tác với người nói nhấn “Xóa” để xóa người nói khỏi sở liệu • Nhấn “Start Recording” để bắt đầu ghi âm Nhấn “End Recording” để kết thúc ghi âm File ghi âm tự động lưu vào sở liệu • Nhấn “Enroll” để bắt đầu huấn luyện người nói Sau huấn luyện tên người nói xuất danh sách mơ hình bên • Nhấn “Clear data” muốn xóa hết liệu âm người nói 3.2 Định danh người nói Hình minh họa giao diện ghi nhận người nói: Hình 38 - Giao diện định danh / chấm cơng người nói 86 Giao diện định danh người nói để chấm cơng cung cấp: • Danh sách người nói huấn luyện sở liệu • Thao tác để ghi âm người nói / định danh người nói Hướng dẫn thao tác ghi âm / định danh / chấm cơng người nói: • Nhấn “Start record” để bắt đầu ghi âm Nhấn “End record” để kết thúc ghi âm • Nhấn “Identify” để định danh người nói Nếu người nói nằm sở liệu, tên người nói hiển thị sáng đỏ danh sách, hệ thống tự động tích cơng ngày hơm cho ID người nói định danh Nếu người nói nằm ngồi danh sách, có thơng báo xuất “outsider” 87 CHƯƠNG VI KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN TIẾP THEO Tổng kết Luận văn trình bày sở lý thuyết để xây dựng hệ thống nhận dạng người nói, đưa khái niệm liên quan tới trích xuất đặc trưng giọng nói mơ hình hóa người nói Đặc trưng giọng nói phân chia làm mức: đặc trưng phổ ngắn, đặc trưng nguồn giọng nói, đặc trưng phổ - thời gian, đặc trưng nhịp vần đặc trưng mức cao Các phương pháp mơ hình hóa người nói bao gồm phương pháp thống kê cổ điển ước lượng phân phối dựa tập liệu đặc trưng phương pháp học máp xây dựng biên liệu cho lớp người nói Với đặc trưng giọng nói, luận văn trình bày phương pháp trích xuất đặc trưng phổ ngắn MFCC, cịn với mơ hình hóa người nói, luận văn trình bày phương pháp VQ, GMM, UBM, GMM-UBM, GMM-SVM Trong phương pháp này, phương pháp UBM khả phân lớp người nói (thể qua thích nghi giọng nói GMM-UBM) cịn cho phép phát người nói có nằm ngồi danh sách huấn luyện hay khơng Phương pháp GMM-SVM vào xây dựng kernel để phân lớp người nói mà liệu âm bị chịu ảnh hưởng yếu tố kênh thu nhận khác Luận văn trình bày kịch thực nghiệm nhận dạng người nói với liệu trích xuất từ liệu VIVOS (tiếng Việt), TIMIT (tiếng Anh) ST Chinese Mandarin (tiếng Trung), sử dụng thuật tốn trích xuất đặc trưng MFCC với chế độ MFCC-B, MFCC-D, MFCC-DD thuật toán mơ hình hóa người nói GMM, UBM, GMM-UBM, Random Forest, SVM tuyến tính SVM kernel RBF Thơng qua kết thực nghiệm, luận văn đưa kết luận: với liệu âm ghi âm chất lượng cao mơi trường phịng thí nghiệm (khơng bị ảnh hưởng nhiễu nền), thuật tốn trích xuất đặc trưng MFCC thuật tốn mơ hình hóa kể cho kết phân loại tốt, ngoại trừ thuật tốn SVM tuyến tính Thuật tốn UBM cho kết phát người nằm danh sách tương đối tốt, tùy thuộc vào việc chọn giá trị ngưỡng phân định 𝜃 88 Luận văn trình bày hệ thống demo cho lý thuyết nhận dạng giọng nói hệ thống chấm công tự động dựa nhận dạng giọng nói, bao gồm tổng quan hệ thống, thiết kế cách vận hành sử dụng Hệ thống cung cấp mơ-đun ghi nhận người nói định danh / chấm cơng người nói Sau người nói huấn luyện mơ hình, hệ thống định danh người nói thơng qua ghi âm câu nói, từ thực thao tác tích cơng Ngồi hệ thống có khả phát người nói có nằm hệ thống hay không Hướng phát triển Trên thực tế, liệu âm thu có chất lượng thu âm phịng thí nghiệm, mà thường liệu kèm với tạp âm nhiễu Khi thử nghiệm với liệu có trộn nhiễu nền, kết nhận dạng người nói bị ảnh hưởng nghiêm trọng, độ xác giảm từ 99 - 100% xuống cịn khoảng 70% Vì vậy, dựa kết thu chương trước, nghiên cứu xuất kinh nghiệm thân, luận văn đề xuất số hướng nghiên cứu sau: Nghiên cứu xử lý toán nhận dạng người nói với liệu có chứa âm nhiễu nền, bao gồm tốn chính: phát đoạn âm có giọng người nói (voice activity detection), trích xuất đặc trưng mơ hình hóa người nói Trích xuất đặc trưng cần sâu vào đặc trưng mức cao đặc trưng phổ ngắn Tuy nhiên việc để kết hợp đặc trưng lại với trở ngại lớn cần đầu tư nghiên cứu giải Mơ hình hóa người nói nghiên cứu ứng dụng lý thuyết học sâu để nâng cao chất lượng nhận dạng Nghiên cứu xử lý tốn nhận dạng người nói với liệu bị ảnh hưởng yếu tố kênh thu nhận Một số thực nghiệm giới liệu ghi âm nhiều thiết bị khác nhau, chất lượng nhận dạng bị suy giảm đáng kể Điều hiệu ứng thiết bị làm biến dạng đặc trưng trích xuất, ảnh hưởng trực tiếp tới mơ hình người nói 89 DANH MỤC THAM KHẢO H Beigi (2011), Fundamentals of Speaker Recognition, Springer J.P Cambell (1997), “Speaker recognition: a tutorial”, Proceedings of the IEEE, vol 85, pp 1437-1462 J.P Campbell, D.A Reynolds (2006), “Support vector machines for speaker and language recognition”, Computer Speech and Language, vol 20, pp 210–229 S.B Davis, P Mermelstein (1980), “Comparison of Parametric Representations for Monosyllabic Word Recognition in Continuously Spoken Sentences”, IEEE Transactions on Acoustics, Speech and Signal processing, vol ASSP-28, no 4, pp 357-366 T Kinnunen, H Li (2010), “An Overview of Text-Independent Speaker Recognition: from Features to Supervectors”, Journal Speech Communication, vol 52 issue 1, pp 12-40 T Kinnunen, T Kilpelainen, P Franti (2000), “Comparison of Clustering Algorithms in Speaker Identification”, Department of Computer Science, University of Joensuu, Finland J Makhoul (1985), “Vector Quantization in Speech Coding”, Proceedings of the IEEE, vol 73, pp 1551-1588 D.A Reynolds, R.C Rose (1995), “Robust text-independent speaker identification using Gaussian mixture speaker models”, IEEE Transactions on Speech and Audio Processing, vol 3, issue 1, pp 72-83 D.A Reynolds, T.F Quatieri, R.B Dunn (2000), “Speaker Verification Using Adapted Gaussian Mixture Models”, Digital Signal Processing, vol 10, pp 19-41 10 S.W Smith (1999), The Scientist and Engineer’s Guide to Digital Signal Processing, California Technical Publishing 90 ... KHOA HÀ NỘI - NGUYỄN ANH TUẤN XÂY DỰNG PHẦN MỀM TỰ ĐỘNG CHẤM CÔNG NHÂN VIÊN DỰA TRÊN NHẬN DẠNG GIỌNG NÓI LUẬN VĂN THẠC SỸ CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC:... tiễn để xây dựng thành hệ thống chấm công nhân viên tự động dựa nhận dạng giọng nói, cụ thể: • Nghiên cứu, cài đặt, so sánh, đánh giá hiệu lựa chọn thuật tốn dùng định danh người nói • Xây dựng. .. hóa người nói Bên cạnh luận văn cịn cung cấp so sánh, đánh giá, thực nghiệm kỹ thuật nhận dạng người nói, đồng thời xây dựng ứng dụng thực tiễn hệ thống chấm công dựa nhận dạng giọng nói 10 CHƯƠNG

Định dạng
Số trang	92
Dung lượng	2,82 MB