Nghiên cứu xây dựng hệ thống nhận dạng tiếng nói tiếng việt sử dụng trong tổng đài chăm sóc khách hàng tự động

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI ĐINH MẠNH CƯỜNG ĐINH MẠNH CƯỜNG TIN HỌC CÔNG NGHIỆP NGHIÊN CỨU XÂY DỰNG HỆ THỐNG NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT ỨNG DỤNG TRONG TỔNG ĐÀI CHĂM SÓC KHÁCH HÀNG TỰ ĐỘNG LUẬN VĂN THẠC SĨ KHOA HỌC TIN HỌC CÔNG NGHIỆP CLC2017A Hà Nội 2018 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - ĐINH MẠNH CƯỜNG NGHIÊN CỨU XÂY DỰNG HỆ THỐNG NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT ỨNG DỤNG TRONG TỔNG ĐÀI CHĂM SÓC KHÁCH HÀNG TỰ ĐỘNG Chuyên ngành : Đo lường hệ thống điều khiển LUẬN VĂN THẠC SĨ KHOA HỌC TIN HỌC CÔNG NGHIỆP NGƯỜI HƯỚNG DẪN KHOA HỌC : TS Nguyễn Việt Sơn Hà Nội 2018 LỜI CẢM ƠN Đầu tiên, xin được gửi lời cảm ơn chân thành tới Viện nghiên cứu quốc tế MICA nơi đã tạo điều kiện cho thực luận văn Tôi xin chân thành cảm ơn TS Nguyễn Việt Sơn - người hướng dẫn suốt thời gian qua để có thể hồn thành ḷn văn Ngồi ra, tơi xin gửi lời cảm ơn đến Ban lãnh đạo Viện Điện, Phòng Đào tạo Trường Đại học Bách khoa Hà Nội thầy, cô giáo đã hướng dẫn giúp đỡ q trình học tập, nghiên cứu Tiếp đến, tơi xin cảm ơn trung tâm không gian mạng VIETTEL, nơi làm việc, đã tạo điều kiện giúp đỡ tơi việc hồn thành hệ thống mà tơi trình bày luận văn thạc sỹ Tôi xin gửi lời cảm ơn trân trọng đến anh Nguyễn Quốc Bảo tồn thể đờng nghiệp của tơi tại nhóm voice trung tâm không gian mạng VIETTEL, ban giám đốc trung tâm toàn thể anh chị em trung tâm đã giúp đỡ hỡ trợ tơi q trình hoàn thành luận văn thạc sỹ Và cuối cùng, xin gửi lời cảm ơn chân thành tới gia đình, bạn bè người ln bên cạnh động viên, truyền cảm hứng cho tôi, để có thể đạt tới giấc mơ của Hà Nội, ngày 18 tháng 08 năm 2018 Đinh Mạnh Cường MỤC LỤC LỜI CẢM ƠN MỤC LỤC DANH MỤC HÌNH ẢNH DANH MỤC BẢNG MỞ ĐẦU 10 CHƯƠNG GIỚI THIỆU ĐỀ TÀI 13 1.1 Nhu cầu tình hình thực tế 13 1.1.1 Tình hình thực tế của tổng đài chăm sóc khách hàng Viettel 13 1.1.2 Giới thiệu hệ thống hỗ trợ chăm sóc khách hàng sơ khai ban đầu xây dựng 14 1.1.3.2 Miêu tả tập liệu 19 1.1.3.3 Thử nghiệm 20 1.2 Một số đặc thù toán xây dựng hệ thống nhận dạng hệ thống chăm sóc khách hàng yêu cầu hệ thống 24 1.2.1 Một số đặc thù của toán xây dựng hệ thống nhận dạng chăm sóc khách hàng 24 1.2.2 Yêu cầu của hệ thống nhận dạng tiếng nói 24 CHƯƠNG TÌM HIỂU VỀ HỆ THỐNG NHẬN DẠNG TIẾNG NÓI 26 2.1 Hệ thống nhận dạng 26 2.1.1 Tổng quan hệ thống nhận dạng tiếng nói 26 2.1.2 Phương diện toán học gắn với phần mơ hình nhận dạng tiếng nói 27 2.2 Phương pháp trích xuất đặc trưng MFCC 27 2.2.1 Tiền xử lý 29 2.2.2 Cửa sổ hóa 29 2.2.3 Biến đổi DFT 32 2.2.4 Bộ lọc Mel 33 2.2.5 Biến đổi DFT ngược 34 2.2.6 Trích xuất đặc tính 34 2.2.7 Tổng kết 35 2.3 Mơ hình âm học 35 2.3.1 Mơ hình Markov ẩn 35 2.3.2 Mơ hình hợp Gauss 41 2.3.3 Mô hình Markov ẩn hợp Gauss HMM-GMM 44 2.4 Mơ hình ngơn ngữ N-gram 47 2.4.1 Mơ hình N-gram 47 2.4.2 Vấn đề gặp phải dùng N-Gram 48 2.4.3 Phương pháp chiết khấu add-alpha 49 2.4.4 Độ đo 50 2.5 Mơ hình DNN ứng dụng nhận dạng tiếng nói 53 2.5.1 Cấu trúc mơ hình 53 2.5.2 Mơ hình HMM-DNN nhận dạng tiếng nói 54 2.7 Tìm hiểu framework KALDI 55 2.7.1 Các Framework nhận dạng tiếng nói 55 2.7.2 Framework Kaldi 56 2.7.3 Các tính hỡ trợ 57 CHƯƠNG ĐÁNH GIÁ THỬ NGHIỆM HỆ THỐNG NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT TRONG TỔNG ĐÀI CHĂM SÓC KHÁCH HÀNG TỰ ĐỘNG 58 3.1 Đánh giá số yếu tố ảnh hưởng tới chất lượng nhận dạng tiếng nói tiếng Việt cách cải thiện chất lượng với yếu tố 58 3.1.1 Đánh giá sự ảnh hưởng của kênh truyền điện thoại đến chất lượng nhận dạng 58 3.1.2 Đánh giá sự ảnh hưởng cách nói của người sử dụng hệ thống nhận dạng đến chất lượng nhận dạng 60 3.1.3 Đánh giá sự ảnh hưởng của mơ hình ngơn ngữ xây dựng nguồn liệu khác đến chất lượng nhận dạng 62 3.1.4 Đánh giá ảnh hưởng của nhiễu tới chất lượng nhận dạng mơ hình tổng đài chăm sóc khách hàng tự động 64 3.1.5 Kết luận sự ảnh hưởng của yếu tố đề xuất giải pháp cải thiện 71 3.2 Giải pháp tạo từ điển phát âm tự động cho nhận dạng tiếng nói tiếng Việt 72 3.2.1 Đề xuất giải pháp tự động 72 3.2.2 Tạo từ điển cho từ vay mượn 74 3.2.3 Thử nghiệm mơ hình có điệu 75 3.3 Cải tiến mơ hình âm học sử dụng mơ hình lai ghép HMM/DNN 76 3.3.1 Mơ hình mạng lai ghép sử dụng mạng nơron học sâu DNN 76 3.3.2 Huấn luyện mạng thực nghiệm 77 3.3.3 Kết quả thử nghiệm 78 CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 79 4.1 Công việc thực 79 4.2 Các vấn đề tồn 79 4.3 Để cải thiện thêm định hướng thời gian tới 80 TÀI LIỆU THAM KHẢO 81 DANH MỤC HÌNH ẢNH Hình Miêu tả hệ thống nhận dạng tiếng nói để phân loại gọi 17 Hình Hệ thống nhận dạng tiếng nói điển hình 26 Hình Các khâu trích xuất đặc trưng 28 Hình Tác động tiền xử lý tới tín hiệu âm 29 Hình Mơ tả q trình cửa sổ hóa 30 Hình So sánh hai loại cửa sổ Rectangular Hamming 32 Hình Tác động DFT tới cửa sổ 32 Hình Bộ lọc Mel 33 Hình Mơ hình Markov ẩn ba trạng thái 36 Hình 10 Hai hàm Gauss với thông số khác 42 Hình 11 Mơ hình GMM 43 Hình 12 Hàm mật độ phân phối gồm hàm gauss 43 Hình 13 Mơ hình MGHMM trạng thái 44 Hình 14 Mơ hình DNN hệ thống nhận dạng tiếng nói 53 Hình 15 Cấu trúc mơ hình HMM-DNN 54 Hình 16 Giới thiệu sennone 54 Hình 17 Cấu trúc thư mục framework kaldi 56 Hình 18 Sai số nhận dạng với điều kiện thử nghiệm khác 65 Hình 19 Dữ liệu học có nhiễu tạo từ liệu học clean cộng với tín hiệu nhiễu thu âm 67 Hình 20 Sai số nhận dạng mơ hình khác 69 DANH MỤC BẢNG Bảng Tỉ lệ lỗi từ (%) hệ thống nhận dạng giọng nói sử dụng hai tính đầu vào khác với hai loại từ điển phát âm khác 21 Bảng Tỉ lệ lỗi từ (%) hệ thống nhận dạng giọng nói sửa dụng mơ hình âm GMM DNN mà khơng có có tăng cường liệu 22 Bảng Kết thử nghiệm ảnh hưởng kênh truyền (wer %) 59 Bảng Kết thử nghiệm ảnh hưởng cách nói (wer %) 61 Bảng Perplexity cho mô hình ngơn ngữ với tập liệu text khác 62 Bảng WER(%) cho hệ thống nhận dạng với mơ hình ngôn ngữ khác 64 Bảng Các mẫu liệu môi trường khác 66 Bảng Các mơ hình nhận dạng khác 69 Bảng Kết thực nghiệm mơ hình có điệu tập liệu VOV 75 Bảng 10 Kết thử nghiệm mơ hình âm học khác 78 DANH MỤC TỪ VIẾT TẮT VÀ THUẬT NGỮ Từ viết tắt Từ đầy đủ Ý nghĩa HMM Hidden markov model Mơ hình markov ẩn DNN Deep Neural Network Mạng nơron học sâu MGHMM Mixture of Gaussian Hidden Mô hình Markov ẩn hợp Gauss Markov Models MFCC Mel Frequency Cepstral Phương pháp trích chọn đặc tính Coefficient MSLA Mel Log Spectral Xấp xỉ phổ Mel Approximation GMM Gaussian mixture model Mơ hình gauss hỡn hợp VLSP Vietnamese language and Xử lý ngôn ngữ tiếng nói tiếng speech processing Việt DFT Discrete Fourier Transform Biến đổi Fourier F0 Fundamental frequency Tần số bản LVSCR Vietnamese large vocabulary Nhận dạng hệ thống từ vựng lớn continuous speech recognition tiếng việt MỞ ĐẦU Lý chọn đề tài Việt Nam ngã rẽ trình phát triển Để thúc đẩy tăng trưởng điều kiện hạn chế lao động vốn, Việt Nam phải hướng tới tăng trưởng dựa tăng suất lao động Điều đó đòi hỏi phải nâng cao đáng kể lực đổi mới sáng tạo nước, ứng dụng thành tựu khoa học công nghệ vào trình kinh doanh, sản xuất, quản lý, Trong lĩnh vực viễn thơng cơng nghệ thơng tin ứng dụng trí tuệ nhân tạo lại cần được nghiên cứu đầu tư, lĩnh vực ảnh hưởng sâu rộng tảng sở hạ tầng để ngành khác phát triển Từ nhu cầu đó đã thúc đẩy nghiên cứu đề tài Lịch sử nghiên cứu Trên thế giới, giao tiếp người máy lĩnh vực nghiên cứu khó lại được ứng dụng thực tiễn nhiều Tiếng nói phương tiện giao tiếp tự nhiên của người với người nên trình nghiên cứu để máy tính hiểu được ngơn ngữ đã bắt đầu cách 70 năm Những nỗ lực giai đoạn ban đầu chỉ tập trung khai thác phổ của tín hiệu âm thời đó máy tính cịn hạn chế khả xử lý Trong năm đầu 1960, điểm đáng ghi nhận ý tưởng của tác giả người Nga, Vintsyuk, ông đề xuất phương pháp nhận dạng tiếng nói dựa thuật toán quy hoạch động theo thời gian Đáng tiếc mãi đến năm 1980, phương pháp mới được thế giới biết đến Cuối năm 1970, nghiên cứu nhận dạng tiếng nói đã bước đầu thu được kết quả khích lệ, làm tảng cho phát triển sau Trước tiên toán nhận dạng từ rời rạc được giải quyết dựa ý tưởng của nhà khoa học người Nga Nhật Trải qua 70 năm nghiên cứu mơ hình được đề xuất để nhận dạng tiếng nói liên tục được thử nghiệm đánh giá mơ hình HMM cho kết quả tích cực nhất, để đưa vào ứng dụng thực tế hệ thống lớn cịn hạn chế ngồi thực tế có nhiều nhiễu ngữ điệu, giọng nói vùng 10 hỏi có thể được đặt nếu liệu thử nghiệm không chứa loại nhiễu mà tập huấn luyện đã có, liệu có thể nhận dạng tốt được không Câu trả lời đó nếu tập huấn luyện ta có đủ nhiều loại noise với cường độ khác sau học, mơ hình có thể nội suy (interpolation) được loại tín hiệu nhiễu mới, với điều kiện nhiễu mới không khác với loại nhiễu đã được học 3.1.4.3 Kết thử nghiệm Với phương pháp trên, đã xây dựng được huấn luyện khác từ huấn luyện gốc 500h Từ đó xây dựng được mơ hình nhận dạng tương ứng Noisy Model 1, Noisy Model 2, Noisy Model Trong đó noisy model được huấn luyện với tập liệu lớn 3500h bao gồm: + 500h liệu gốc + 500h liệu có tốc độ 0.9x + 500h liệu có tốc độ 1.1x + 2000h liệu có nhiễu được sinh từ 500h liệu gốc Việc vẫn sử dụng cả 500h liệu gốc (clean training set) nhằm mục đích giúp mơ hình ổn định cả với tín hiệu thử nghiệm không có nhiễu mà không bị sai nhiều tín hiệu huấn luyện có nhiễu Trong tập liệu huấn luyện này, tổng cộng 40 loại nhiễu khác được sử dụng để thêm vào liệu gốc Chú ý rằng, với mỗi câu, nhiễu được lấy ngẫu nhiên biên độ để đảm bảo tỉ số tín hiệu/nhiễu (SNR) khoảng từ 5-40dB Thử nghiệm mơ hình với tập thử nghiệm có nhiễu khác cho kết quả khả quan hình 21 Mơ hình 21 cho kết quả tốt với sai số từ WER có thể giảm đến 4-5 lần so với mơ hình gốc (clean model) Sai số nhận dạng đa số trường hợp dưới 10% tức trung bình cứ 10 từ sai khơng q từ 68 Hình 20 Sai số nhận dạng mô hình khác Kết quả ví dụ nhận dạng với mẫu tiếng nói: Với text chuẩn: gặp phải trường hợp vi phạm không xử phạt mà chỉ nhắc nhở Bảng Các mô hình nhận dạng khác Mơ Mơi trường hình nhận Text nhận dạng dạng Clean gặp phải trường hợp vi phạm chúng Phòng họp VTCC Model không xử phạt chỉ nhắc nhở vtcc.wav Noisy gặp phải trường hợp vi phạm chúng Model không xử phạt mà chỉ nhắc nhở 69 Clean gặp phải trường hợp iran Sảnh tầng Keangnam Model không sợ hãi én nhỏ keangnam_lobby.wav Noisy gặp phải trường hợp vi phạm chúng Model không xử phạt mà chỉ nhắc nhở Clean gặp phải trường hợp iran khơng giao Model hàng mang hình dáng nhỏ Noisy gặp phải trường hợp vi phạm chúng Model không xử phạt mà chỉ nhắc nhở Clean gặp phải trường hợp vi phạm không Giữa phố đông (xe máy) Model sử dụng mà nhỏ busy_street.wav Noisy gặp phải trường hợp vi phạm chúng Model không xử phạt mà chỉ nhắc nhở Clean gặp phải trường hợp vi phạm chúng Trong tơ kéo kín cửa Model tơi khơng xử phạt mà chỉ nhắc nhỏ car.wav Noisy gặp phải trường hợp vi phạm chúng Model không xử phạt mà chỉ nhắc nhở Phố Phạm Hùng (cách 30m) street_30m.wav 3.1.4.4 Hướng phát triển thời gian tới Với kết quả tích cực thời gian tới, việc thu âm thêm tập liệu huấn luyện với giọng vùng miền khác (miền trung, miền nam), thu âm thêm loại noise khác để bổ sung vào tập huấn luyện giúp mơ hình ổn định Ngồi ra, ta nghiên cứu kết hợp với cải thiện phần frontend, tức sử dụng microphone array để tăng cường chất lượng tiếng nói, giúp cho cả 70 framework (frontend backend) hoạt động ổn định với tín hiệu nhiễu phù hợp cho toán smart home, robot, trợ lý ảo,… 3.1.5 Kết luận ảnh hưởng yếu tố đề xuất giải pháp cải thiện Trong viết đã phần trả lời được câu hỏi quan trọng có kết luận sau: + Kênh truyền điện thoại không ảnh hưởng nhiều đến chất lượng của tiếng nói Hầu không có sự mismatched tiếng nói thu trực tiếp qua kênh điện thoại Việc downsample từ 16kHz xuống 8kHz chỉ làm giảm vài % relative WER + Giọng đọc giọng nói khác đối với hệ thống nhận dạng tiếng nói + Tương tự acoustic, mơ hình ngơn ngữ khác text nói text viết Ngoài indomain text quan trọng + Các loại nhiễu ảnh hưởng đến chất lượng nhận dạng Từ kết luận ta có thể đưa số giải pháp nhằm tăng cường chất lượng nhận dạng: + Tăng cường thu thập thêm liệu học giọng nói (giọng tự nhiên) từ nguồn YouTube, VTV, VOV, CGTT Và chúng có thể dùng lẫn cho từ trợ lý ảo đến callbot không bị ảnh hưởng yếu tố kênh truyền điện thoại + Để xây dựng mơ hình ngơn ngữ cho văn nói (các điện thoại) ta cần tìm thêm ng̀n text khác ngồi text từ trang tin tức văn viết Có thể lấy từ subtitle của phim, từ forum, etc + Để có từ điển phù hợp nhiều từ cho toán chăm sóc khách hàng cần có giải pháp tạo từ điển động để đáp ứng nhu cầu toán + Để tăng độ ổn định, ta có thể cho mô hình học tất cả trường hợp tín hiệu đầu vào khác loại nhiễu khác 71 3.2 Giải pháp tạo từ điển phát âm tự động cho nhận dạng tiếng nói tiếng Việt 3.2.1 Đề xuất giải pháp tự động Như phân tích phần cần có giải pháp tạo từ điển tự động để có thể đáp ứng được lượng từ vựng lớn toán Trong lĩnh vực 3g/4g của toán callbot có nhiều từ khóa gói cước, cú pháp, … không có từ điển phát âm thông thường từ điển mà ta xây dựng cho toán voice2text (lĩnh vực báo hỏng) Để nhận dạng được tất cả từ để phải biết phát âm của nó Trước hết ta phiên âm từ mới phiên âm tiếng Việt thông thường sau đó chuyển sang cách phát âm dưới dạng chuỗi phoneme Cũng ý rằng, từ có thể có nhiều cách phát âm, ta cần cố gắng bao phủ hết cách phát âm khác (kể cả phát âm sai, nói ngọng, ) để người dùng nói kiểu nhận dạng được từ Ví dụ: + mimax35 => mi mắc ba lăm => m izb m aw kcs b ab l aw mzb + mimax35 => mi mắc ba mươi lăm => m izb m aw kcs b ab m wa izb l aw mzb + mimax35 => mi mắc ba năm => m izb m aw kcs b ab n aw mzb Trong hệ nhận dạng tiếng nói bản từ điển phát âm thành phần quan trọng Việc tạo từ điển có thể làm thủ công tay với hệ thống nhận dạng từ vựng nhỏ khoảng vài chục đến vài trăm từ Tuy nhiên, đối với hệ thống nhận dạng lên đến hàng nghìn từ việc xây dựng từ điển trở nên khó khăn cần công cụ tạo từ điển tự động Đối với ngôn ngữ có lượng từ vựng lớn có cấu trúc ngữ âm khơng đờng tiếng Anh, người ta thường phải xây dựng mơ hình phân bố G2P để chuyển đổi từ hình vị sang âm vị (Grapheme to Phoneme) , được huấn luyện từ từ điển có sẵn Giải pháp cần được huấn luyện dựa từ điển có sẵn, sau đó có thể sử dụng mơ hình để sinh từ điển phát âm cho 72 từ mới Tuy nhiên giải pháp G2P có độ xác khơng thể đạt 100% phát âm chuẩn của người Đối với tiếng Việt, có nhiều nhà nghiên cứu đã công bố cơng trình nghiên cứu ngữ âm học, điệu Dựa vào nghiên cứu đó, luận văn đưa giải pháp tạo từ điển tự động với việc dựa bảng chuyển đổi hình vị âm vị (Grapheme to Phoneme) thử nghiệm việc đưa thông tin điệu vào từ điển phát âm theo vị trí loại âm vị Ngồi việc dựa vào bảng chuyển đổi ta có thể tạo từ điển tốt mô theo phát âm chuẩn của tiếng Việt Giải pháp được trình bày qua bước sau: + W = {W1W2,…,WN} tập từ vựng ; N kích thước từ vựng + Wi = GetWord(W) hàm đọc danh sách từ vựng từ file trả từ vựng dòng thứ i + extractGrapheme(Wi) hàm tách từ vựng thành tập grapheme (hình vị) tương ứng của từ + G2P(GraphemeSet_i) hàm chuyển đổi tập hình vị sang tập âm vị tương ứng + T_i = GetTone(Wi) hàm trả giá trị điệu của âm tiết + TagTone(PhoneSet_i,T,pos) hàm tích hợp thơng tin điệu vào âm vị Tùy vào biến pos mà điệu được đặt vào vị trí khác Nếu pos=”end” điệu được đặt âm vị cuối của âm tiết, pos=”vowel” điệu được để âm chính, pos=”mix” điệu được đặt cả âm âm cuối + DictCreate(PhoneSetTone_i) hàm tạo phiên âm từ điển từ tập âm vị có gắn thông tin điệu 73 Đầu vào: Danh sách âm tiết tiếng Việt cần phiên âm Đầu ra: Từ điển phiên âm của danh sách âm tiết đầu vào Bước 1: Wi = GetWord(W); Bước 2: GraphemeSet_i = extractGrapheme(Wi) Bước 3: PhonemeSet_i = G2P(GraphemeSet_i); Bước 4: T_i = GetTone(Wi); PhoneSetTone_i = TagTone(PhoneSet_i,T,type={end,vowel,mix}); Bước 5: Dict_i = DictCreate(PhoneSetTone_i); Bước 6: Quay lại bước cho đến duyệt đến từ cuối danh sách Bước 7: Kết thúc thuật toán 3.2.2 Tạo từ điển cho từ vay mượn Để hệ thống nhận dạng tiếng nói liên tục từ vựng lớn có khả nhận dạng được cả từ vay mượn, từ cần phải được đưa từ điển phát âm Tuy nhiên giải pháp xây dựng từ điển tự động chỉ với từ thuần Việt Vì vậy để sinh từ điển phiên âm cho từ vay mượn, cần có giải pháp sinh từ điển Để làm điều này, luận văn đã lựa chọn 5000 từ vay mượn thông dụng được lấy từ trang tin tức, sau đó từ được phiên âm cách phát âm thông dụng của người Việt, sau đó dùng giải pháp sinh từ điển tự động của tiếng Việt trình bày Tuy nhiên trình chuyển đổi tự vị sang âm vị có sai số dẫn đến số âm tiết tiếng Việt tổ hợp không chuẩn phát âm tiếng Việt Do vậy, âm tiết sai cần được chuẩn hóa lại tay để đảm bảo từ điển vay mượn có độ xác cao Sau đó âm tiết Tiếng Việt của từ vay mượn lại được cho qua hệ thống tạo từ điển tự động để tạo phiên âm cuối cho từ điển vay mượn 74 3.2.3 Thử nghiệm mơ hình có điệu Trong phần này, luận văn tiến hành thử nghiệm giải pháp đưa thông tin điện vào từ điển phát âm Trong giải pháp này, thông tin điệu được đưa trực tiếp vào âm vị thay âm vị không có điệu hệ thống sở Mơ hình Mokov ẩn vẫn được sử dụng để mơ hình hóa âm vị Giải pháp được thử nghiệm ba liệu VOV (dữ liệu thu từ bản tin, đọc truyện, vấn), NVCHKH CGTT ( liệu phát triển thành viên chăm sóc khách hàng (CSKH) của Viettel liệu gọi lên tổng đài CSKH của Viettel) nhằm có đánh giá khách quan độ khả thi của giải pháp liệu khác Những đóng góp của luận văn được áp dụng vào hệ thống nhận dạng Để thực mơ hình có điệu thực nghiệm dùng tập âm vị được đưa thông tin điệu thông qua tḥt tốn TonalDictCreate trình bày mục 3.2.1 với tùy chọn vị trí đưa điệu vào âm vị bước 4, thuật toán sinh loại từ điển tương ứng Tonal-Dict-end (thanh điệu đặt âm cuối âm cuối âm tiết), Tonal-Dict-vowel (thanh điệu được đặt âm chính), Tonal-Dict-mix (thanh điệu được đặt cả âm cuối âm chính) Bảng Kết thực nghiệm mơ hình có điệu tập liệu VOV Hệ thống Đặc trưng Từ điển Số lượng âm vị WER (%) Baseline01- Mfcc NonTonal-Dict 47 23.25 Mfcc Tontal-Dict-end 138 18.89 mfcc HMM01-tone (- 4.85) HMM02-tone Mfcc Tontal-Dict- 141 19.75 Tontal-Dict-mix 162 19.57 vowel HMM03-tone Mfcc 75 Kết quả thực nghiệm Bảng 10 cho thấy, việc sử dụng từ điển có chứa thông tin điệu cho kết quả tốt đáng kể so với mơ hình khơng có thơng tin điệu Tỉ lệ lỗi giảm tới 4.85% tuyệt đối (khoảng 20% tương đối) so với hệ thống sở Cũng tương tự thử nghiệm với tập liệu NVCHKH thu được tỉ lệ lỗi giảm 2.93% tuyệt đối so với hệ thống sở 3.3 Cải tiến mơ hình âm học sử dụng mơ hình lai ghép HMM/DNN 3.3.1 Mơ hình mạng lai ghép sử dụng mạng nơron học sâu DNN Mạng bao gồm số lớp ẩn có lượng lớn cá nút, kết nối hoàn toàn với nhau, cuối lớp phân loại Một kiến trúc mạng nơron sâu khác cho việc trích xuất nút cổ chai Các lớp ẩn được khởi tạo sử dụng phương pháp tiền huấn luyện học không giám sát Nhờ thành công của phương pháp tiền huấn luyện phương pháp học sâu, máy Boltzman hạn chế đã được sử dụng rộng rãi trở thành giải lựa chọn mặc định tiền huấn luyện lớp của mạng nơron học sâu ứng dụng phần nhận dạng tiếng nói Chúng ta áp dụng mặt lạ nhiễu cho liệu cách thiết lập phần tử vector đầu vào không với xác suất cố định Sau đó đầu vào bị gây nhiễu được ánh xạ với mã hóa để thành biểu ẩn cách sử dụng ma trận trọng số W của lớp ẩn Tuy nhiên, huấn luyện mạng sử dụng đặc trưng âm học đặc trưng MFCC, lớp đầu tiên mơ hình hóa giá trị thực chứ không phải liệu nhị phân, đó sai số bình phương trung bình được lựa chọn làm tiêu chí huấn luyện Sau tập sếp chờng auto-encoder được huấn luyện theo giải pháp tiền huấn luyện trình bày trên, mạng nơron sâu được hình thành Các lớp lại được khởi tạo ngẫu nhiên trọng số được kết nối tới thể ẩn của auto-encoder kết quả mạng được tinh chỉnh với giải thuật lan truyền ngược Khi mạng DNN được huấn luyện xong, chúng được sử dụng để tính tốn xác suất hậu nghiệm mỡi trạng thái âm vị Nếu mạng được huấn luyện để ước 76 lượng xác suất của trạng thái với vector quan sát sử dụng tiêu chuẩn cross-entropy xác suất phát xạ có thể được tính tốn thơng qua Bayes 3.3.2 Huấn luyện mạng thực nghiệm Trong thực nghiệm này, đặc trưng pitch (MFCC + pitch) được sử dụng Trong trình tinh chỉnh huấn luyện có giám sát, mạng nơron được huấn luyện để dự đoán trạng thái HMM phụ thuộc vào ngữ cảnh Đối với trình tiền huấn luyện auto-encoder xếp chồng, giải pháp giảm theo hướng đạo hàm theo lô (mini-batch gradient descent) với 128 mẫu mỗi lô hệ số học 0.01 được sử dụng Vector đầu vào được làm nhiễu mặt lạ nhiễu với việc thiết lập ngẫu nhiên 20% phần tử đặc trưng đầu vào Mỗi auto-encoder bao gồm 1204 nút ẩn sau khoảng 20 lần lặp ma trận trọng số được lựa chọn, auto-encoder kế tiếp được huấn luyện nó Các lớp lại sau đó được thêm vào mạng, bao gồm lớp ẩn khác với kích thước 1024 nút lớp đầu 4600 nút Một lần nữa, gradients được tính tốn phương pháp trung bình qua lần huấn luyện lơ nhỏ (mini-batch) Trong q trình tinh chỉnh mạng, ḷn văn sử dụng lơ kích thước lớn 256 Hệ số học được hiệu chỉnh theo lịch trình: Lần lặp đầu tiên hệ số học sử dụng 0.008, hệ số học được giữ nguyên cho đến kết quả đánh giá lỗi chéo tại mỗi bước (epoch) cao epoch trước 0.05%, epoch tiếp theo tham số học bị giảm nửa lặp lại cho đến việc đánh giá lỗi chéo mỗi epoch nhỏ ngưỡng dừng 0.1% Sau mỡi epoch, mơ hình được đánh giá chéo mỗi liệu riêng biệt mơ hình hoạt động tốt được sử dụng cho hệ thống nhận dạng sau đó Trong luận văn này, GPU được sử dụng để huấn luyện lớp auto-encoder mạng nơron sử dụng công cụ Theano 77 3.3.3 Kết thử nghiệm Cấu hình mạng phù hợp tiền huấn luyện mạng sử dụng autoencoder sếp chồng với tỉ lệ lỗi từ 10.40% Bảng 10 Kết thử nghiệm mô hình âm học khác Acoustic model Features Layer size WER(%) Baseline HMM/GMM MFCC - 21.25 HMM/DMM MFCC 1000 13.20 2000 13.03 HMM/DNN Baseline HMM/GMM MFCC + pitch - 16.77 HMM/DNN MFCC + pitch 1000 10.96 HMM/DNN MFCC + pitch 2000 10.71 Phương pháp lai ghép giúp tỉ lệ lỗi giảm đáng kể giảm tỉ lệ lỗi từ 21.25 với mơ hình bản xuống tỉ lệ lỡi 10.71 78 CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 4.1 Công việc thực Trong luận văn em đã đánh giá yếu tố ảnh hưởng đến chất lượng nhận dạng tiếng nói tiếng việt lĩnh vực hẹp chăm sóc khách hàng đưa giải pháp, thử nghiệm chứng minh hiệu quả của giải pháp Một số kết quả đáng ý: + Chứng minh được kênh viễn thơng truyền tín hiệu âm không ảnh hưởng đến chất lượng nhận dạng + Thêm nhiễu vào liệu giúp hệ thống ổn định với môi trường thực tế điều kiện có nhiễu + Đưa được giải pháp tạo từ điển động có yếu tố điệu làm cho hệ thống giảm tỉ lệ lỗi tới 4.85% tuyệt đối + Cải tiến mơ hình âm học với mơ hình lai HMM-DNN giúp ghép giúp tỉ lệ lỡi giảm đáng kể giảm tỉ lệ lỗi từ 21.25% với mơ hình bản xuống tỉ lệ lỡi 10.71% 4.2 Các vấn đề tồn + Dữ liệu học chưa có nhiều giọng vùng miền nên chất lượng nhận dạng tiếng địa phương + Các thử nghiệm đánh giá vẫn cịn chưa sát với mơi trường thực tế + Hệ thống vẫn chưa ổn định với mơi trường có nhiều nhiễu ngồi đường, nhà máy + Cịn nhiều từ nước ngồi cịn chưa có phiên âm chuẩn nên làm giảm chất lượng nhận dạng 79 4.3 Để cải thiện thêm định hướng thời gian tới Hiện vẫn chỉ đánh giá hệ thống dựa sai số từ (WER), từ có trọng số Mong muốn cần có đánh giá độc lập dựa độ xác của keyword (intent, action) cho domain CSKH Việc xây dựng kịch bản, thử nghiệm dựa giả thuyết của nhóm Do đó cần đưa hệ thống vào thử nghiệm sớm, để ta có thêm nhiều liệu thực hơn, giúp nhóm có thể nâng cao chất lượng nhận dạng 80 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Đặng Hồi Bắc (2006), Xử lý tín hiệu số, Học viện Cơng nghệ Bưu Viễn thơng [2] Đặng Ngọc Đức, Nguyễn Tiến Dũng, Lương Chi Mai (2011), Mơ hình phiên âm tiếng Việt mức âm vị, Institute of Information Technology, Vietnamese Academy of Science and Technology [3] Cao Xuân Hạo (1998), Tiếng Việt - vấn đề ngữ âm, ngữ pháp,ngữ nghĩa, NXB Giáo dục [4] Quách Tuấn Ngọc, Mai Công Nguyên (1998), Nhận dạng lời nói liên tục với từ vựng lớn, Tiểu luận môn Nhận dạng tiếng nói, Đại học Bách khoa Hà Nội [5] Quách Tuấn Ngọc, Phạm Xuân Trường (1998), Phương pháp phân tích xử lý nhận dạng tiếng nói, Tiểu luận môn Xử lý tiếng nói, Đại học Bách khoa Hà Nội [6] Phan Nguyễn Phục Quốc, Hà Thúc Phùng (2009), Hệ thống nhận dạng tiếng nói, Luận văn Đại học, Đại học Bách khoa TP.HCM [7] Thái Hùng Văn, Đỗ Xuân Đạt, Võ Văn Tuấn (2003), Nghiên cứu đặc trưng của tiếng Việt áp dụng vào nhận dạng tiếng nói tiếng Việt, Luận văn Đại học, Đại học KHTN TP.HCM Tiếng Anh [8] Xuedong Huang, Alex Acero, Hsiao-wuen Hon (2001), Spoken language Processing, Carnegie Mellon University [9] Kaldi Framework: http://kaldi-asr.org/ [10] Record your Speech with Audacity[11] Peddinti, Vijayaditya, Daniel Povey, and Sanjeev Khudanpur "A time delay neural network architecture for efficient modeling of long temporal contexts." INTERSPEECH 2015 81 [12] Povey, Daniel, et al "Purely Sequence-Trained Neural Networks for ASR Based on Lattice-Free MMI." INTERSPEECH 2016 82 ... - ĐINH MẠNH CƯỜNG NGHIÊN CỨU XÂY DỰNG HỆ THỐNG NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT ỨNG DỤNG TRONG TỔNG ĐÀI CHĂM SÓC KHÁCH HÀNG TỰ ĐỘNG Chuyên ngành : Đo lường hệ thống điều khiển LUẬN VĂN... THỬ NGHIỆM HỆ THỐNG NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT TRONG TỔNG ĐÀI CHĂM SÓC KHÁCH HÀNG TỰ ĐỘNG 58 3.1 Đánh giá số yếu tố ảnh hưởng tới chất lượng nhận dạng tiếng nói tiếng Việt cách... Một số đặc thù toán xây dựng hệ thống nhận dạng hệ thống chăm sóc khách hàng yêu cầu hệ thống 24 1.2.1 Một số đặc thù của tốn xây dựng hệ thống nhận dạng chăm sóc khách hàng

Định dạng
Số trang	82
Dung lượng	1,55 MB