1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên ứu xây dựng hệ thống nhận dạng tiếng nói tiếng việt sử dụng trong tổng đài hăm só kháh hàng tự động

82 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên Cứu Xây Dựng Hệ Thống Nhận Dạng Tiếng Nói Tiếng Việt Ứng Dụng Trong Tổng Đài Chăm Sóc Khách Hàng Tự Động
Tác giả Đinh Mạnh Cường
Người hướng dẫn TS. Nguyễn Việt Sơn
Trường học Trường Đại Học Bách Khoa Hà Nội
Chuyên ngành Đo Lường Và Các Hệ Thống Điều Khiển
Thể loại Luận Văn Thạc Sĩ
Năm xuất bản 2018
Thành phố Hà Nội
Định dạng
Số trang 82
Dung lượng 2,65 MB

Nội dung

Đây là tiền đề cho phép c thể triển khai, áp dụng hệ thống nhn dng ting ni ting Việt trong tổng đài chăm sc khách hàng t động.. Mục đích của luận vănNghiên cu thit k mô hình n

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI ĐINH MẠNH CƯỜNG ĐINH MẠNH CƯỜNG TIN HỌC CÔNG NGHIỆP NGHIÊN CỨU XÂY DỰNG HỆ THỐNG NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT ỨNG DỤNG TRONG TỔNG ĐÀI CHĂM SÓC KHÁCH HÀNG TỰ ĐỘNG LUẬN VĂN THẠC SĨ KHOA HỌC TIN HỌC CÔNG NGHIỆP CLC2017A Hà Nội 2018 Tai ngay!!! Ban co the xoa dong chu nay!!! 17057205210491000000 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI ĐINH MẠNH CƯỜNG NGHIÊN CỨU XÂY DỰNG HỆ THỐNG NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT ỨNG DỤNG TRONG TỔNG ĐÀI CHĂM SÓC KHÁCH HÀNG TỰ ĐỘNG Chuyên ngành : Đo lường hệ thống điều khiển LUẬN VĂN THẠC SĨ KHOA HỌC TIN HỌC CÔNG NGHIỆP NGƯỜI HƯỚNG DẪN KHOA HỌC : TS Nguyễn Việt Sơn Hà Nội 2018 LỜI CẢM ƠN Đu tiên, xin đưc gi lời cm ơn chân thành ti Viện nghiên cu quốc t MICA nơi đ to điều kiện cho thc lun văn Tôi xin chân thành cm ơn TS Nguyễn Việt Sơn - người hưng dn suốt thời gian qua để tơi c thể hồn thành lun văn Ngồi ra, tơi xin gi lời cm ơn đn Ban lnh đo Viện Điện, Phòng Đào to Trường Đi học Bách khoa Hà Nội thy, cô giáo đ hưng dn giúp đỡ q trình học tp, nghiên cu Tip đn, tơi xin cm ơn trung tâm không gian mng VIETTEL, nơi làm việc, đ to điều kiện giúp đỡ việc hồn thành hệ thống mà tơi trình bày lun văn thc s Tôi xin gi lời cm ơn trân trọng đn anh Nguyễn Quốc Bo tồn thể đng nghiệp ca tơi ti nhm voice trung tâm không gian mng VIETTEL, ban giám đốc trung tâm toàn thể anh ch em trung tâm đ giúp đỡ h tr tơi q trình hồn thành lun văn thc s Và cuối cùng, xin gi lời cm ơn chân thành ti gia đình, bn bè người bên cnh động viên, truyền cm hng cho tôi, để c thể đt ti giấc mơ ca Hà Nội, ngày 18 tháng 08 năm 2018 Đinh Mnh Cường MỤC LỤC LỜI CẢM ƠN MỤC LỤC DANH MỤC HÌNH ẢNH DANH MỤC BẢNG MỞ ĐẦU 10 CHƯƠNG GIỚI THIỆU ĐỀ TÀI 13 1.1 Nhu cầu tình hình thực tế 13 1.1.1 Tình hình thc t ca tổng đài chăm sc khách hàng Viettel 13 1.1.2 Gii thiệu hệ thống h tr chăm sc khách hàng sơ khai ban đu xây dng 14 1.1.3.2 Miêu t tp liệu 19 1.1.3.3 Th nghiệm 20 1.2 Một số đặc thù toán xây dựng hệ thống nhận dạng hệ thống chăm sóc khách hàng yêu cầu hệ thống 24 1.2.1 Một số đặc thù ca toán xây dng hệ thống nhn dng chăm sóc khách hàng 24 1.2.2 Yêu cu ca hệ thống nhn dng ting ni 24 CHƯƠNG TÌM HIỂU VỀ HỆ THỐNG NHẬN DẠNG TIẾNG NĨI 26 2.1 Hệ thống nhận dạng 26 2.1.1 Tổng quan hệ thống nhn dng ting ni 26 2.1.2 Phương diện toán học gắn vi phn mơ hình nhn dng ting ni 27 2.2 Phương pháp trích xuất đặc trưng MFCC 27 2.2.1 Tiền x lý 29 2.2.2 Ca sổ ha 29 2.2.3 Bin đổi DFT 32 2.2.4 Bộ lọc Mel 33 2.2.5 Bin đổi DFT ngưc 34 2.2.6 Trích xuất đặc tính 34 2.2.7 Tổng kt 35 2.3 Mơ hình âm học 35 2.3.1 Mơ hình Markov ẩn 35 2.3.2 Mơ hình hp Gauss 41 2.3.3 Mơ hình Markov ẩn hp Gauss HMM-GMM 44 2.4 Mơ hình ngơn ngữ N-gram 47 2.4.1 Mơ hình N-gram 47 2.4.2 Vấn đề gặp phi dùng N-Gram 48 2.4.3 Phương pháp chit khấu add-alpha 49 2.4.4 Độ đo 50 2.5 Mơ hình DNN ứng dụng nhận dạng tiếng nói 53 2.5.1 Cấu trúc mơ hình 53 2.5.2 Mơ hình HMM-DNN nhn dng ting ni 54 2.7 Tìm hiểu framework KALDI 55 2.7.1 Các Framework nhn dng ting ni 55 2.7.2 Framework Kaldi 56 2.7.3 Các tính h tr 57 CHƯƠNG ĐÁNH GIÁ THỬ NGHIỆM HỆ THỐNG NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT TRONG TỔNG ĐÀI CHĂM SÓC KHÁCH HÀNG TỰ ĐỘNG 58 3.1 Đánh giá số yếu tố ảnh hưởng tới chất lượng nhận dạng tiếng nói tiếng Việt cách cải thiện chất lượng với yếu tố 58 3.1.1 Đánh giá s nh hưởng ca kênh truyền điện thoi đn chất lưng nhn dng 58 3.1.2 Đánh giá s nh hưởng cách ni ca người s dụng hệ thống nhn dng đn chất lưng nhn dng 60 3.1.3 Đánh giá s nh hưởng ca mơ hình ngơn ngữ xây dng ngun liệu khác đn chất lưng nhn dng 62 3.1.4 Đánh giá nh hưởng ca nhiễu ti chất lưng nhn dng mơ hình tổng đài chăm sc khách hàng t động 64 3.1.5 Kt lun s nh hưởng ca yu tố đề xuất gii pháp ci thiện 71 3.2 Giải pháp tạo từ điển phát âm tự động cho nhận dạng tiếng nói tiếng Việt 72 3.2.1 Đề xuất gii pháp t động 72 3.2.2 To từ điển cho từ vay mưn 74 3.2.3 Th nghiệm mô hình c điệu 75 3.3 Cải tiến mơ hình âm học sử dụng mơ hình lai ghép HMM/DNN 76 3.3.1 Mơ hình mng lai ghép s dụng mng nơron học sâu DNN 76 3.3.2 Huấn luyện mng thc nghiệm 77 3.3.3 Kt qu th nghiệm 78 CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 79 4.1 Công việc thực 79 4.2 Các vấn đề tồn 79 4.3 Để cải thiện thêm định hướng thời gian tới 80 TÀI LIỆU THAM KHẢO 81 DANH MỤC HÌNH ẢNH Hình Miêu tả hệ thống nhận dạng tiếng nói để phân loại gọi 17 Hình Hệ thống nhận dạng tiếng nói điển hình 26 Hình Các khâu trích xuất đặc trưng 28 Hình Tác động tiền xử lý tới tín hiệu âm 29 Hình Mơ tả q trình cửa sổ hóa 30 Hình So sánh hai loại cửa sổ Rectangular Hamming 32 Hình Tác động DFT tới cửa sổ 32 Hình Bộ lọc Mel 33 Hình Mơ hình Markov ẩn ba trạng thái 36 Hình 10 Hai hàm Gauss với thông số khác 42 Hình 11 Mơ hình GMM 43 Hình 12 Hàm mật độ phân phối gồm hàm gauss 43 Hình 13 Mơ hình MGHMM trạng thái 44 Hình 14 Mơ hình DNN hệ thống nhận dạng tiếng nói 53 Hình 15 Cấu trúc mơ hình HMM-DNN 54 Hình 16 Giới thiệu sennone 54 Hình 17 Cấu trúc thư mục framework kaldi 56 Hình 18 Sai số nhận dạng với điều kiện thử nghiệm khác 65 Hình 19 Dữ liệu học có nhiễu tạo từ liệu học clean cộng với tín hiệu nhiễu thu âm 67 Hình 20 Sai số nhận dạng mơ hình khác 69 DANH MỤC BẢNG Bảng Tỉ lệ lỗi từ (%) hệ thống nhận dạng giọng nói sử dụng hai tính đầu vào khác với hai loại từ điển phát âm khác .21 Bảng Tỉ lệ lỗi từ (%) hệ thống nhận dạng giọng nói sửa dụng mơ hình âm GMM DNN mà khơng có có tăng cường liệu 22 Bảng Kết thử nghiệm ảnh hưởng kênh truyền (wer %) 59 Bảng Kết thử nghiệm ảnh hưởng cách nói (wer %) 61 Bảng Perplexity cho mơ hình ngơn ngữ với tập liệu text khác 62 Bảng WER(%) cho hệ thống nhận dạng với mơ hình ngơn ngữ khác 64 Bảng Các mẫu liệu môi trường khác 66 Bảng Các mơ hình nhận dạng khác 69 Bảng Kết thực nghiệm mơ hình có điệu tập liệu VOV 75 Bảng 10 Kết thử nghiệm mơ hình âm học khác 78 DANH MỤC TỪ VIẾT TẮT VÀ THUẬT NGỮ Từ viết tắt Từ đầy đủ Ý nghĩa HMM Hidden markov model Mô hình markov ẩn DNN Deep Neural Network Mng nơron học sâu MGHMM Mixture of Gaussian Hidden Mơ hình Markov ẩn hp Gauss Markov Models MFCC Mel Frequency Cepstral Phương pháp trích chọn đặc tính Coefficient MSLA Mel Log Spectral Xấp x phổ Mel Approximation GMM Gaussian mixture model Mơ hình gauss hn hp VLSP Vietnamese language and X lý ngôn ngữ ting ni ting speech processing Việt DFT Discrete Fourier Transform Bin đổi Fourier F0 Fundamental frequency Tn số bn LVSCR Vietnamese large vocabulary Nhn dng hệ thống từ vng ln continuous speech recognition ting việt MỞ ĐẦU Lý chọn đề tài Việt Nam ng rẽ trình phát triển Để thúc đẩy tăng trưởng điều kiện hn ch lao động vốn, Việt Nam phi hưng ti tăng trưởng da tăng suất lao động Điều đ đòi hỏi phi nâng cao đáng kể lc đổi mi sáng to nưc, ng dụng thành tu khoa học cơng nghệ vào q trình kinh doanh, sn xuất, qun lý , Trong lĩnh vc viễn thông cơng nghệ thơng tin ng dụng trí tuệ nhân to li cn đưc nghiên cu đu tư, lĩnh vc nh hưởng sâu rộng tng sở h tng để ngành khác phát triển Từ nhu cu đ đ thúc đẩy nghiên cu đề tài Lịch sử nghiên cứu Trên th gii, giao tip người máy lĩnh vc nghiên cu kh li đưc ng dụng thc tiễn nhiều Ting ni phương tiện giao tip t nhiên ca người vi người nên trình nghiên cu để máy tính hiểu đưc ngơn ngữ đ bắt đu cách 70 năm Những n lc giai đon ban đu ch tp trung khai thác phổ ca tín hiệu âm thời đ máy tính cịn hn ch kh x lý Trong năm đu 1960, điểm đáng ghi nhn ý tưởng ca tác gi người Nga, Vintsyuk, ông đề xuất phương pháp nhn dng ting ni da thut toán quy hoch động theo thời gian Đáng tic mi đn năm 1980, phương pháp mi đưc th gii bit đn Cuối năm 1970, nghiên cu nhn dng ting ni đ bưc đu thu đưc kt qu khích lệ, làm tng cho phát triển sau Trưc tiên toán nhn dng từ rời rc đưc gii quyt da ý tưởng ca nhà khoa học người Nga Nht Tri qua 70 năm nghiên cu mơ hình đưc đề xuất để nhn dng ting ni liên tục đưc th nghiệm đánh giá mơ hình HMM cho kt qu tích cc nhất, để đưa vào ng dụng thc t hệ thống ln cịn hn ch ngồi thc t c nhiều nhiễu ngữ điệu, giọng ni vùng 10

Ngày đăng: 22/01/2024, 17:05

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN