Đây là tiền đề cho phép c thể triển khai, áp dụng hệ thống nhn dng ting ni ting Việt trong tổng đài chăm sc khách hàng t động.. Mục đích của luận vănNghiên cu thit k mô hình n
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI ĐINH MẠNH CƯỜNG ĐINH MẠNH CƯỜNG TIN HỌC CÔNG NGHIỆP NGHIÊN CỨU XÂY DỰNG HỆ THỐNG NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT ỨNG DỤNG TRONG TỔNG ĐÀI CHĂM SÓC KHÁCH HÀNG TỰ ĐỘNG LUẬN VĂN THẠC SĨ KHOA HỌC TIN HỌC CÔNG NGHIỆP CLC2017A Hà Nội 2018 Tai ngay!!! Ban co the xoa dong chu nay!!! 17057205210491000000 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI ĐINH MẠNH CƯỜNG NGHIÊN CỨU XÂY DỰNG HỆ THỐNG NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT ỨNG DỤNG TRONG TỔNG ĐÀI CHĂM SÓC KHÁCH HÀNG TỰ ĐỘNG Chuyên ngành : Đo lường hệ thống điều khiển LUẬN VĂN THẠC SĨ KHOA HỌC TIN HỌC CÔNG NGHIỆP NGƯỜI HƯỚNG DẪN KHOA HỌC : TS Nguyễn Việt Sơn Hà Nội 2018 LỜI CẢM ƠN Đu tiên, xin đưc gi lời cm ơn chân thành ti Viện nghiên cu quốc t MICA nơi đ to điều kiện cho thc lun văn Tôi xin chân thành cm ơn TS Nguyễn Việt Sơn - người hưng dn suốt thời gian qua để tơi c thể hồn thành lun văn Ngồi ra, tơi xin gi lời cm ơn đn Ban lnh đo Viện Điện, Phòng Đào to Trường Đi học Bách khoa Hà Nội thy, cô giáo đ hưng dn giúp đỡ q trình học tp, nghiên cu Tip đn, tơi xin cm ơn trung tâm không gian mng VIETTEL, nơi làm việc, đ to điều kiện giúp đỡ việc hồn thành hệ thống mà tơi trình bày lun văn thc s Tôi xin gi lời cm ơn trân trọng đn anh Nguyễn Quốc Bo tồn thể đng nghiệp ca tơi ti nhm voice trung tâm không gian mng VIETTEL, ban giám đốc trung tâm toàn thể anh ch em trung tâm đ giúp đỡ h tr tơi q trình hồn thành lun văn thc s Và cuối cùng, xin gi lời cm ơn chân thành ti gia đình, bn bè người bên cnh động viên, truyền cm hng cho tôi, để c thể đt ti giấc mơ ca Hà Nội, ngày 18 tháng 08 năm 2018 Đinh Mnh Cường MỤC LỤC LỜI CẢM ƠN MỤC LỤC DANH MỤC HÌNH ẢNH DANH MỤC BẢNG MỞ ĐẦU 10 CHƯƠNG GIỚI THIỆU ĐỀ TÀI 13 1.1 Nhu cầu tình hình thực tế 13 1.1.1 Tình hình thc t ca tổng đài chăm sc khách hàng Viettel 13 1.1.2 Gii thiệu hệ thống h tr chăm sc khách hàng sơ khai ban đu xây dng 14 1.1.3.2 Miêu t tp liệu 19 1.1.3.3 Th nghiệm 20 1.2 Một số đặc thù toán xây dựng hệ thống nhận dạng hệ thống chăm sóc khách hàng yêu cầu hệ thống 24 1.2.1 Một số đặc thù ca toán xây dng hệ thống nhn dng chăm sóc khách hàng 24 1.2.2 Yêu cu ca hệ thống nhn dng ting ni 24 CHƯƠNG TÌM HIỂU VỀ HỆ THỐNG NHẬN DẠNG TIẾNG NĨI 26 2.1 Hệ thống nhận dạng 26 2.1.1 Tổng quan hệ thống nhn dng ting ni 26 2.1.2 Phương diện toán học gắn vi phn mơ hình nhn dng ting ni 27 2.2 Phương pháp trích xuất đặc trưng MFCC 27 2.2.1 Tiền x lý 29 2.2.2 Ca sổ ha 29 2.2.3 Bin đổi DFT 32 2.2.4 Bộ lọc Mel 33 2.2.5 Bin đổi DFT ngưc 34 2.2.6 Trích xuất đặc tính 34 2.2.7 Tổng kt 35 2.3 Mơ hình âm học 35 2.3.1 Mơ hình Markov ẩn 35 2.3.2 Mơ hình hp Gauss 41 2.3.3 Mơ hình Markov ẩn hp Gauss HMM-GMM 44 2.4 Mơ hình ngơn ngữ N-gram 47 2.4.1 Mơ hình N-gram 47 2.4.2 Vấn đề gặp phi dùng N-Gram 48 2.4.3 Phương pháp chit khấu add-alpha 49 2.4.4 Độ đo 50 2.5 Mơ hình DNN ứng dụng nhận dạng tiếng nói 53 2.5.1 Cấu trúc mơ hình 53 2.5.2 Mơ hình HMM-DNN nhn dng ting ni 54 2.7 Tìm hiểu framework KALDI 55 2.7.1 Các Framework nhn dng ting ni 55 2.7.2 Framework Kaldi 56 2.7.3 Các tính h tr 57 CHƯƠNG ĐÁNH GIÁ THỬ NGHIỆM HỆ THỐNG NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT TRONG TỔNG ĐÀI CHĂM SÓC KHÁCH HÀNG TỰ ĐỘNG 58 3.1 Đánh giá số yếu tố ảnh hưởng tới chất lượng nhận dạng tiếng nói tiếng Việt cách cải thiện chất lượng với yếu tố 58 3.1.1 Đánh giá s nh hưởng ca kênh truyền điện thoi đn chất lưng nhn dng 58 3.1.2 Đánh giá s nh hưởng cách ni ca người s dụng hệ thống nhn dng đn chất lưng nhn dng 60 3.1.3 Đánh giá s nh hưởng ca mơ hình ngơn ngữ xây dng ngun liệu khác đn chất lưng nhn dng 62 3.1.4 Đánh giá nh hưởng ca nhiễu ti chất lưng nhn dng mơ hình tổng đài chăm sc khách hàng t động 64 3.1.5 Kt lun s nh hưởng ca yu tố đề xuất gii pháp ci thiện 71 3.2 Giải pháp tạo từ điển phát âm tự động cho nhận dạng tiếng nói tiếng Việt 72 3.2.1 Đề xuất gii pháp t động 72 3.2.2 To từ điển cho từ vay mưn 74 3.2.3 Th nghiệm mô hình c điệu 75 3.3 Cải tiến mơ hình âm học sử dụng mơ hình lai ghép HMM/DNN 76 3.3.1 Mơ hình mng lai ghép s dụng mng nơron học sâu DNN 76 3.3.2 Huấn luyện mng thc nghiệm 77 3.3.3 Kt qu th nghiệm 78 CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 79 4.1 Công việc thực 79 4.2 Các vấn đề tồn 79 4.3 Để cải thiện thêm định hướng thời gian tới 80 TÀI LIỆU THAM KHẢO 81 DANH MỤC HÌNH ẢNH Hình Miêu tả hệ thống nhận dạng tiếng nói để phân loại gọi 17 Hình Hệ thống nhận dạng tiếng nói điển hình 26 Hình Các khâu trích xuất đặc trưng 28 Hình Tác động tiền xử lý tới tín hiệu âm 29 Hình Mơ tả q trình cửa sổ hóa 30 Hình So sánh hai loại cửa sổ Rectangular Hamming 32 Hình Tác động DFT tới cửa sổ 32 Hình Bộ lọc Mel 33 Hình Mơ hình Markov ẩn ba trạng thái 36 Hình 10 Hai hàm Gauss với thông số khác 42 Hình 11 Mơ hình GMM 43 Hình 12 Hàm mật độ phân phối gồm hàm gauss 43 Hình 13 Mơ hình MGHMM trạng thái 44 Hình 14 Mơ hình DNN hệ thống nhận dạng tiếng nói 53 Hình 15 Cấu trúc mơ hình HMM-DNN 54 Hình 16 Giới thiệu sennone 54 Hình 17 Cấu trúc thư mục framework kaldi 56 Hình 18 Sai số nhận dạng với điều kiện thử nghiệm khác 65 Hình 19 Dữ liệu học có nhiễu tạo từ liệu học clean cộng với tín hiệu nhiễu thu âm 67 Hình 20 Sai số nhận dạng mơ hình khác 69 DANH MỤC BẢNG Bảng Tỉ lệ lỗi từ (%) hệ thống nhận dạng giọng nói sử dụng hai tính đầu vào khác với hai loại từ điển phát âm khác .21 Bảng Tỉ lệ lỗi từ (%) hệ thống nhận dạng giọng nói sửa dụng mơ hình âm GMM DNN mà khơng có có tăng cường liệu 22 Bảng Kết thử nghiệm ảnh hưởng kênh truyền (wer %) 59 Bảng Kết thử nghiệm ảnh hưởng cách nói (wer %) 61 Bảng Perplexity cho mơ hình ngơn ngữ với tập liệu text khác 62 Bảng WER(%) cho hệ thống nhận dạng với mơ hình ngơn ngữ khác 64 Bảng Các mẫu liệu môi trường khác 66 Bảng Các mơ hình nhận dạng khác 69 Bảng Kết thực nghiệm mơ hình có điệu tập liệu VOV 75 Bảng 10 Kết thử nghiệm mơ hình âm học khác 78 DANH MỤC TỪ VIẾT TẮT VÀ THUẬT NGỮ Từ viết tắt Từ đầy đủ Ý nghĩa HMM Hidden markov model Mô hình markov ẩn DNN Deep Neural Network Mng nơron học sâu MGHMM Mixture of Gaussian Hidden Mơ hình Markov ẩn hp Gauss Markov Models MFCC Mel Frequency Cepstral Phương pháp trích chọn đặc tính Coefficient MSLA Mel Log Spectral Xấp x phổ Mel Approximation GMM Gaussian mixture model Mơ hình gauss hn hp VLSP Vietnamese language and X lý ngôn ngữ ting ni ting speech processing Việt DFT Discrete Fourier Transform Bin đổi Fourier F0 Fundamental frequency Tn số bn LVSCR Vietnamese large vocabulary Nhn dng hệ thống từ vng ln continuous speech recognition ting việt MỞ ĐẦU Lý chọn đề tài Việt Nam ng rẽ trình phát triển Để thúc đẩy tăng trưởng điều kiện hn ch lao động vốn, Việt Nam phi hưng ti tăng trưởng da tăng suất lao động Điều đ đòi hỏi phi nâng cao đáng kể lc đổi mi sáng to nưc, ng dụng thành tu khoa học cơng nghệ vào q trình kinh doanh, sn xuất, qun lý , Trong lĩnh vc viễn thông cơng nghệ thơng tin ng dụng trí tuệ nhân to li cn đưc nghiên cu đu tư, lĩnh vc nh hưởng sâu rộng tng sở h tng để ngành khác phát triển Từ nhu cu đ đ thúc đẩy nghiên cu đề tài Lịch sử nghiên cứu Trên th gii, giao tip người máy lĩnh vc nghiên cu kh li đưc ng dụng thc tiễn nhiều Ting ni phương tiện giao tip t nhiên ca người vi người nên trình nghiên cu để máy tính hiểu đưc ngơn ngữ đ bắt đu cách 70 năm Những n lc giai đon ban đu ch tp trung khai thác phổ ca tín hiệu âm thời đ máy tính cịn hn ch kh x lý Trong năm đu 1960, điểm đáng ghi nhn ý tưởng ca tác gi người Nga, Vintsyuk, ông đề xuất phương pháp nhn dng ting ni da thut toán quy hoch động theo thời gian Đáng tic mi đn năm 1980, phương pháp mi đưc th gii bit đn Cuối năm 1970, nghiên cu nhn dng ting ni đ bưc đu thu đưc kt qu khích lệ, làm tng cho phát triển sau Trưc tiên toán nhn dng từ rời rc đưc gii quyt da ý tưởng ca nhà khoa học người Nga Nht Tri qua 70 năm nghiên cu mơ hình đưc đề xuất để nhn dng ting ni liên tục đưc th nghiệm đánh giá mơ hình HMM cho kt qu tích cc nhất, để đưa vào ng dụng thc t hệ thống ln cịn hn ch ngồi thc t c nhiều nhiễu ngữ điệu, giọng ni vùng 10