Nghiên cứu xây dựng hệ thống nhận dạng tiếng nói tiếng việt sử dụng trong tổng đài chăm sóc khách hàng tự động Nghiên cứu xây dựng hệ thống nhận dạng tiếng nói tiếng việt sử dụng trong tổng đài chăm sóc khách hàng tự động luận văn tốt nghiệp thạc sĩ
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI ĐINH MẠNH CƯỜNG ĐINH MẠNH CƯỜNG TIN HỌC CÔNG NGHIỆP NGHIÊN CỨU XÂY DỰNG HỆ THỐNG NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT ỨNG DỤNG TRONG TỔNG ĐÀI CHĂM SÓC KHÁCH HÀNG TỰ ĐỘNG LUẬN VĂN THẠC SĨ KHOA HỌC TIN HỌC CÔNG NGHIỆP CLC2017A Hà Nội 2018 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - ĐINH MẠNH CƯỜNG NGHIÊN CỨU XÂY DỰNG HỆ THỐNG NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT ỨNG DỤNG TRONG TỔNG ĐÀI CHĂM SÓC KHÁCH HÀNG TỰ ĐỘNG Chuyên ngành : Đo lường hệ thống điều khiển LUẬN VĂN THẠC SĨ KHOA HỌC TIN HỌC CÔNG NGHIỆP NGƯỜI HƯỚNG DẪN KHOA HỌC : TS Nguyễn Việt Sơn Hà Nội 2018 LỜI CẢM ƠN Đầu tiên, xin được gửi lời cảm ơn chân thành tới Viện nghiên cứu quốc tế MICA nơi đã tạo điều kiện cho thực luận văn Tôi xin chân thành cảm ơn TS Nguyễn Việt Sơn - người hướng dẫn suốt thời gian qua để có thể hồn thành ḷn văn Ngồi ra, tơi xin gửi lời cảm ơn đến Ban lãnh đạo Viện Điện, Phòng Đào tạo Trường Đại học Bách khoa Hà Nội thầy, cô giáo đã hướng dẫn giúp đỡ q trình học tập, nghiên cứu Tiếp đến, tơi xin cảm ơn trung tâm không gian mạng VIETTEL, nơi làm việc, đã tạo điều kiện giúp đỡ tơi việc hồn thành hệ thống mà tơi trình bày luận văn thạc sỹ Tôi xin gửi lời cảm ơn trân trọng đến anh Nguyễn Quốc Bảo tồn thể đờng nghiệp của tơi tại nhóm voice trung tâm không gian mạng VIETTEL, ban giám đốc trung tâm toàn thể anh chị em trung tâm đã giúp đỡ hỡ trợ tơi q trình hoàn thành luận văn thạc sỹ Và cuối cùng, xin gửi lời cảm ơn chân thành tới gia đình, bạn bè người ln bên cạnh động viên, truyền cảm hứng cho tôi, để có thể đạt tới giấc mơ của Hà Nội, ngày 18 tháng 08 năm 2018 Đinh Mạnh Cường MỤC LỤC LỜI CẢM ƠN MỤC LỤC DANH MỤC HÌNH ẢNH DANH MỤC BẢNG MỞ ĐẦU 10 CHƯƠNG GIỚI THIỆU ĐỀ TÀI 13 1.1 Nhu cầu tình hình thực tế 13 1.1.1 Tình hình thực tế của tổng đài chăm sóc khách hàng Viettel 13 1.1.2 Giới thiệu hệ thống hỗ trợ chăm sóc khách hàng sơ khai ban đầu xây dựng 14 1.1.3.2 Miêu tả tập liệu 19 1.1.3.3 Thử nghiệm 20 1.2 Một số đặc thù toán xây dựng hệ thống nhận dạng hệ thống chăm sóc khách hàng yêu cầu hệ thống 24 1.2.1 Một số đặc thù của toán xây dựng hệ thống nhận dạng chăm sóc khách hàng 24 1.2.2 Yêu cầu của hệ thống nhận dạng tiếng nói 24 CHƯƠNG TÌM HIỂU VỀ HỆ THỐNG NHẬN DẠNG TIẾNG NÓI 26 2.1 Hệ thống nhận dạng 26 2.1.1 Tổng quan hệ thống nhận dạng tiếng nói 26 2.1.2 Phương diện toán học gắn với phần mơ hình nhận dạng tiếng nói 27 2.2 Phương pháp trích xuất đặc trưng MFCC 27 2.2.1 Tiền xử lý 29 2.2.2 Cửa sổ hóa 29 2.2.3 Biến đổi DFT 32 2.2.4 Bộ lọc Mel 33 2.2.5 Biến đổi DFT ngược 34 2.2.6 Trích xuất đặc tính 34 2.2.7 Tổng kết 35 2.3 Mơ hình âm học 35 2.3.1 Mơ hình Markov ẩn 35 2.3.2 Mơ hình hợp Gauss 41 2.3.3 Mô hình Markov ẩn hợp Gauss HMM-GMM 44 2.4 Mơ hình ngơn ngữ N-gram 47 2.4.1 Mơ hình N-gram 47 2.4.2 Vấn đề gặp phải dùng N-Gram 48 2.4.3 Phương pháp chiết khấu add-alpha 49 2.4.4 Độ đo 50 2.5 Mơ hình DNN ứng dụng nhận dạng tiếng nói 53 2.5.1 Cấu trúc mơ hình 53 2.5.2 Mơ hình HMM-DNN nhận dạng tiếng nói 54 2.7 Tìm hiểu framework KALDI 55 2.7.1 Các Framework nhận dạng tiếng nói 55 2.7.2 Framework Kaldi 56 2.7.3 Các tính hỡ trợ 57 CHƯƠNG ĐÁNH GIÁ THỬ NGHIỆM HỆ THỐNG NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT TRONG TỔNG ĐÀI CHĂM SÓC KHÁCH HÀNG TỰ ĐỘNG 58 3.1 Đánh giá số yếu tố ảnh hưởng tới chất lượng nhận dạng tiếng nói tiếng Việt cách cải thiện chất lượng với yếu tố 58 3.1.1 Đánh giá sự ảnh hưởng của kênh truyền điện thoại đến chất lượng nhận dạng 58 3.1.2 Đánh giá sự ảnh hưởng cách nói của người sử dụng hệ thống nhận dạng đến chất lượng nhận dạng 60 3.1.3 Đánh giá sự ảnh hưởng của mơ hình ngơn ngữ xây dựng nguồn liệu khác đến chất lượng nhận dạng 62 3.1.4 Đánh giá ảnh hưởng của nhiễu tới chất lượng nhận dạng mơ hình tổng đài chăm sóc khách hàng tự động 64 3.1.5 Kết luận sự ảnh hưởng của yếu tố đề xuất giải pháp cải thiện 71 3.2 Giải pháp tạo từ điển phát âm tự động cho nhận dạng tiếng nói tiếng Việt 72 3.2.1 Đề xuất giải pháp tự động 72 3.2.2 Tạo từ điển cho từ vay mượn 74 3.2.3 Thử nghiệm mơ hình có điệu 75 3.3 Cải tiến mơ hình âm học sử dụng mơ hình lai ghép HMM/DNN 76 3.3.1 Mơ hình mạng lai ghép sử dụng mạng nơron học sâu DNN 76 3.3.2 Huấn luyện mạng thực nghiệm 77 3.3.3 Kết quả thử nghiệm 78 CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 79 4.1 Công việc thực 79 4.2 Các vấn đề tồn 79 4.3 Để cải thiện thêm định hướng thời gian tới 80 TÀI LIỆU THAM KHẢO 81 DANH MỤC HÌNH ẢNH Hình Miêu tả hệ thống nhận dạng tiếng nói để phân loại gọi 17 Hình Hệ thống nhận dạng tiếng nói điển hình 26 Hình Các khâu trích xuất đặc trưng 28 Hình Tác động tiền xử lý tới tín hiệu âm 29 Hình Mơ tả q trình cửa sổ hóa 30 Hình So sánh hai loại cửa sổ Rectangular Hamming 32 Hình Tác động DFT tới cửa sổ 32 Hình Bộ lọc Mel 33 Hình Mơ hình Markov ẩn ba trạng thái 36 Hình 10 Hai hàm Gauss với thông số khác 42 Hình 11 Mơ hình GMM 43 Hình 12 Hàm mật độ phân phối gồm hàm gauss 43 Hình 13 Mơ hình MGHMM trạng thái 44 Hình 14 Mơ hình DNN hệ thống nhận dạng tiếng nói 53 Hình 15 Cấu trúc mơ hình HMM-DNN 54 Hình 16 Giới thiệu sennone 54 Hình 17 Cấu trúc thư mục framework kaldi 56 Hình 18 Sai số nhận dạng với điều kiện thử nghiệm khác 65 Hình 19 Dữ liệu học có nhiễu tạo từ liệu học clean cộng với tín hiệu nhiễu thu âm 67 Hình 20 Sai số nhận dạng mơ hình khác 69 DANH MỤC BẢNG Bảng Tỉ lệ lỗi từ (%) hệ thống nhận dạng giọng nói sử dụng hai tính đầu vào khác với hai loại từ điển phát âm khác 21 Bảng Tỉ lệ lỗi từ (%) hệ thống nhận dạng giọng nói sửa dụng mơ hình âm GMM DNN mà khơng có có tăng cường liệu 22 Bảng Kết thử nghiệm ảnh hưởng kênh truyền (wer %) 59 Bảng Kết thử nghiệm ảnh hưởng cách nói (wer %) 61 Bảng Perplexity cho mô hình ngơn ngữ với tập liệu text khác 62 Bảng WER(%) cho hệ thống nhận dạng với mơ hình ngôn ngữ khác 64 Bảng Các mẫu liệu môi trường khác 66 Bảng Các mơ hình nhận dạng khác 69 Bảng Kết thực nghiệm mơ hình có điệu tập liệu VOV 75 Bảng 10 Kết thử nghiệm mơ hình âm học khác 78 DANH MỤC TỪ VIẾT TẮT VÀ THUẬT NGỮ Từ viết tắt Từ đầy đủ Ý nghĩa HMM Hidden markov model Mơ hình markov ẩn DNN Deep Neural Network Mạng nơron học sâu MGHMM Mixture of Gaussian Hidden Mô hình Markov ẩn hợp Gauss Markov Models MFCC Mel Frequency Cepstral Phương pháp trích chọn đặc tính Coefficient MSLA Mel Log Spectral Xấp xỉ phổ Mel Approximation GMM Gaussian mixture model Mơ hình gauss hỡn hợp VLSP Vietnamese language and Xử lý ngôn ngữ tiếng nói tiếng speech processing Việt DFT Discrete Fourier Transform Biến đổi Fourier F0 Fundamental frequency Tần số bản LVSCR Vietnamese large vocabulary Nhận dạng hệ thống từ vựng lớn continuous speech recognition tiếng việt MỞ ĐẦU Lý chọn đề tài Việt Nam ngã rẽ trình phát triển Để thúc đẩy tăng trưởng điều kiện hạn chế lao động vốn, Việt Nam phải hướng tới tăng trưởng dựa tăng suất lao động Điều đó đòi hỏi phải nâng cao đáng kể lực đổi mới sáng tạo nước, ứng dụng thành tựu khoa học công nghệ vào trình kinh doanh, sản xuất, quản lý, Trong lĩnh vực viễn thơng cơng nghệ thơng tin ứng dụng trí tuệ nhân tạo lại cần được nghiên cứu đầu tư, lĩnh vực ảnh hưởng sâu rộng tảng sở hạ tầng để ngành khác phát triển Từ nhu cầu đó đã thúc đẩy nghiên cứu đề tài Lịch sử nghiên cứu Trên thế giới, giao tiếp người máy lĩnh vực nghiên cứu khó lại được ứng dụng thực tiễn nhiều Tiếng nói phương tiện giao tiếp tự nhiên của người với người nên trình nghiên cứu để máy tính hiểu được ngơn ngữ đã bắt đầu cách 70 năm Những nỗ lực giai đoạn ban đầu chỉ tập trung khai thác phổ của tín hiệu âm thời đó máy tính cịn hạn chế khả xử lý Trong năm đầu 1960, điểm đáng ghi nhận ý tưởng của tác giả người Nga, Vintsyuk, ông đề xuất phương pháp nhận dạng tiếng nói dựa thuật toán quy hoạch động theo thời gian Đáng tiếc mãi đến năm 1980, phương pháp mới được thế giới biết đến Cuối năm 1970, nghiên cứu nhận dạng tiếng nói đã bước đầu thu được kết quả khích lệ, làm tảng cho phát triển sau Trước tiên toán nhận dạng từ rời rạc được giải quyết dựa ý tưởng của nhà khoa học người Nga Nhật Trải qua 70 năm nghiên cứu mơ hình được đề xuất để nhận dạng tiếng nói liên tục được thử nghiệm đánh giá mơ hình HMM cho kết quả tích cực nhất, để đưa vào ứng dụng thực tế hệ thống lớn cịn hạn chế ngồi thực tế có nhiều nhiễu ngữ điệu, giọng nói vùng 10 hỏi có thể được đặt nếu liệu thử nghiệm không chứa loại nhiễu mà tập huấn luyện đã có, liệu có thể nhận dạng tốt được không Câu trả lời đó nếu tập huấn luyện ta có đủ nhiều loại noise với cường độ khác sau học, mơ hình có thể nội suy (interpolation) được loại tín hiệu nhiễu mới, với điều kiện nhiễu mới không khác với loại nhiễu đã được học 3.1.4.3 Kết thử nghiệm Với phương pháp trên, đã xây dựng được huấn luyện khác từ huấn luyện gốc 500h Từ đó xây dựng được mơ hình nhận dạng tương ứng Noisy Model 1, Noisy Model 2, Noisy Model Trong đó noisy model được huấn luyện với tập liệu lớn 3500h bao gồm: + 500h liệu gốc + 500h liệu có tốc độ 0.9x + 500h liệu có tốc độ 1.1x + 2000h liệu có nhiễu được sinh từ 500h liệu gốc Việc vẫn sử dụng cả 500h liệu gốc (clean training set) nhằm mục đích giúp mơ hình ổn định cả với tín hiệu thử nghiệm không có nhiễu mà không bị sai nhiều tín hiệu huấn luyện có nhiễu Trong tập liệu huấn luyện này, tổng cộng 40 loại nhiễu khác được sử dụng để thêm vào liệu gốc Chú ý rằng, với mỗi câu, nhiễu được lấy ngẫu nhiên biên độ để đảm bảo tỉ số tín hiệu/nhiễu (SNR) khoảng từ 5-40dB Thử nghiệm mơ hình với tập thử nghiệm có nhiễu khác cho kết quả khả quan hình 21 Mơ hình 21 cho kết quả tốt với sai số từ WER có thể giảm đến 4-5 lần so với mơ hình gốc (clean model) Sai số nhận dạng đa số trường hợp dưới 10% tức trung bình cứ 10 từ sai khơng q từ 68 Hình 20 Sai số nhận dạng mô hình khác Kết quả ví dụ nhận dạng với mẫu tiếng nói: Với text chuẩn: gặp phải trường hợp vi phạm không xử phạt mà chỉ nhắc nhở Bảng Các mô hình nhận dạng khác Mơ Mơi trường hình nhận Text nhận dạng dạng Clean gặp phải trường hợp vi phạm chúng Phòng họp VTCC Model không xử phạt chỉ nhắc nhở vtcc.wav Noisy gặp phải trường hợp vi phạm chúng Model không xử phạt mà chỉ nhắc nhở 69 Clean gặp phải trường hợp iran Sảnh tầng Keangnam Model không sợ hãi én nhỏ keangnam_lobby.wav Noisy gặp phải trường hợp vi phạm chúng Model không xử phạt mà chỉ nhắc nhở Clean gặp phải trường hợp iran khơng giao Model hàng mang hình dáng nhỏ Noisy gặp phải trường hợp vi phạm chúng Model không xử phạt mà chỉ nhắc nhở Clean gặp phải trường hợp vi phạm không Giữa phố đông (xe máy) Model sử dụng mà nhỏ busy_street.wav Noisy gặp phải trường hợp vi phạm chúng Model không xử phạt mà chỉ nhắc nhở Clean gặp phải trường hợp vi phạm chúng Trong tơ kéo kín cửa Model tơi khơng xử phạt mà chỉ nhắc nhỏ car.wav Noisy gặp phải trường hợp vi phạm chúng Model không xử phạt mà chỉ nhắc nhở Phố Phạm Hùng (cách 30m) street_30m.wav 3.1.4.4 Hướng phát triển thời gian tới Với kết quả tích cực thời gian tới, việc thu âm thêm tập liệu huấn luyện với giọng vùng miền khác (miền trung, miền nam), thu âm thêm loại noise khác để bổ sung vào tập huấn luyện giúp mơ hình ổn định Ngồi ra, ta nghiên cứu kết hợp với cải thiện phần frontend, tức sử dụng microphone array để tăng cường chất lượng tiếng nói, giúp cho cả 70 framework (frontend backend) hoạt động ổn định với tín hiệu nhiễu phù hợp cho toán smart home, robot, trợ lý ảo,… 3.1.5 Kết luận ảnh hưởng yếu tố đề xuất giải pháp cải thiện Trong viết đã phần trả lời được câu hỏi quan trọng có kết luận sau: + Kênh truyền điện thoại không ảnh hưởng nhiều đến chất lượng của tiếng nói Hầu không có sự mismatched tiếng nói thu trực tiếp qua kênh điện thoại Việc downsample từ 16kHz xuống 8kHz chỉ làm giảm vài % relative WER + Giọng đọc giọng nói khác đối với hệ thống nhận dạng tiếng nói + Tương tự acoustic, mơ hình ngơn ngữ khác text nói text viết Ngoài indomain text quan trọng + Các loại nhiễu ảnh hưởng đến chất lượng nhận dạng Từ kết luận ta có thể đưa số giải pháp nhằm tăng cường chất lượng nhận dạng: + Tăng cường thu thập thêm liệu học giọng nói (giọng tự nhiên) từ nguồn YouTube, VTV, VOV, CGTT Và chúng có thể dùng lẫn cho từ trợ lý ảo đến callbot không bị ảnh hưởng yếu tố kênh truyền điện thoại + Để xây dựng mơ hình ngơn ngữ cho văn nói (các điện thoại) ta cần tìm thêm ng̀n text khác ngồi text từ trang tin tức văn viết Có thể lấy từ subtitle của phim, từ forum, etc + Để có từ điển phù hợp nhiều từ cho toán chăm sóc khách hàng cần có giải pháp tạo từ điển động để đáp ứng nhu cầu toán + Để tăng độ ổn định, ta có thể cho mô hình học tất cả trường hợp tín hiệu đầu vào khác loại nhiễu khác 71 3.2 Giải pháp tạo từ điển phát âm tự động cho nhận dạng tiếng nói tiếng Việt 3.2.1 Đề xuất giải pháp tự động Như phân tích phần cần có giải pháp tạo từ điển tự động để có thể đáp ứng được lượng từ vựng lớn toán Trong lĩnh vực 3g/4g của toán callbot có nhiều từ khóa gói cước, cú pháp, … không có từ điển phát âm thông thường từ điển mà ta xây dựng cho toán voice2text (lĩnh vực báo hỏng) Để nhận dạng được tất cả từ để phải biết phát âm của nó Trước hết ta phiên âm từ mới phiên âm tiếng Việt thông thường sau đó chuyển sang cách phát âm dưới dạng chuỗi phoneme Cũng ý rằng, từ có thể có nhiều cách phát âm, ta cần cố gắng bao phủ hết cách phát âm khác (kể cả phát âm sai, nói ngọng, ) để người dùng nói kiểu nhận dạng được từ Ví dụ: + mimax35 => mi mắc ba lăm => m izb m aw kcs b ab l aw mzb + mimax35 => mi mắc ba mươi lăm => m izb m aw kcs b ab m wa izb l aw mzb + mimax35 => mi mắc ba năm => m izb m aw kcs b ab n aw mzb Trong hệ nhận dạng tiếng nói bản từ điển phát âm thành phần quan trọng Việc tạo từ điển có thể làm thủ công tay với hệ thống nhận dạng từ vựng nhỏ khoảng vài chục đến vài trăm từ Tuy nhiên, đối với hệ thống nhận dạng lên đến hàng nghìn từ việc xây dựng từ điển trở nên khó khăn cần công cụ tạo từ điển tự động Đối với ngôn ngữ có lượng từ vựng lớn có cấu trúc ngữ âm khơng đờng tiếng Anh, người ta thường phải xây dựng mơ hình phân bố G2P để chuyển đổi từ hình vị sang âm vị (Grapheme to Phoneme) , được huấn luyện từ từ điển có sẵn Giải pháp cần được huấn luyện dựa từ điển có sẵn, sau đó có thể sử dụng mơ hình để sinh từ điển phát âm cho 72 từ mới Tuy nhiên giải pháp G2P có độ xác khơng thể đạt 100% phát âm chuẩn của người Đối với tiếng Việt, có nhiều nhà nghiên cứu đã công bố cơng trình nghiên cứu ngữ âm học, điệu Dựa vào nghiên cứu đó, luận văn đưa giải pháp tạo từ điển tự động với việc dựa bảng chuyển đổi hình vị âm vị (Grapheme to Phoneme) thử nghiệm việc đưa thông tin điệu vào từ điển phát âm theo vị trí loại âm vị Ngồi việc dựa vào bảng chuyển đổi ta có thể tạo từ điển tốt mô theo phát âm chuẩn của tiếng Việt Giải pháp được trình bày qua bước sau: + W = {W1W2,…,WN} tập từ vựng ; N kích thước từ vựng + Wi = GetWord(W) hàm đọc danh sách từ vựng từ file trả từ vựng dòng thứ i + extractGrapheme(Wi) hàm tách từ vựng thành tập grapheme (hình vị) tương ứng của từ + G2P(GraphemeSet_i) hàm chuyển đổi tập hình vị sang tập âm vị tương ứng + T_i = GetTone(Wi) hàm trả giá trị điệu của âm tiết + TagTone(PhoneSet_i,T,pos) hàm tích hợp thơng tin điệu vào âm vị Tùy vào biến pos mà điệu được đặt vào vị trí khác Nếu pos=”end” điệu được đặt âm vị cuối của âm tiết, pos=”vowel” điệu được để âm chính, pos=”mix” điệu được đặt cả âm âm cuối + DictCreate(PhoneSetTone_i) hàm tạo phiên âm từ điển từ tập âm vị có gắn thông tin điệu 73 Đầu vào: Danh sách âm tiết tiếng Việt cần phiên âm Đầu ra: Từ điển phiên âm của danh sách âm tiết đầu vào Bước 1: Wi = GetWord(W); Bước 2: GraphemeSet_i = extractGrapheme(Wi) Bước 3: PhonemeSet_i = G2P(GraphemeSet_i); Bước 4: T_i = GetTone(Wi); PhoneSetTone_i = TagTone(PhoneSet_i,T,type={end,vowel,mix}); Bước 5: Dict_i = DictCreate(PhoneSetTone_i); Bước 6: Quay lại bước cho đến duyệt đến từ cuối danh sách Bước 7: Kết thúc thuật toán 3.2.2 Tạo từ điển cho từ vay mượn Để hệ thống nhận dạng tiếng nói liên tục từ vựng lớn có khả nhận dạng được cả từ vay mượn, từ cần phải được đưa từ điển phát âm Tuy nhiên giải pháp xây dựng từ điển tự động chỉ với từ thuần Việt Vì vậy để sinh từ điển phiên âm cho từ vay mượn, cần có giải pháp sinh từ điển Để làm điều này, luận văn đã lựa chọn 5000 từ vay mượn thông dụng được lấy từ trang tin tức, sau đó từ được phiên âm cách phát âm thông dụng của người Việt, sau đó dùng giải pháp sinh từ điển tự động của tiếng Việt trình bày Tuy nhiên trình chuyển đổi tự vị sang âm vị có sai số dẫn đến số âm tiết tiếng Việt tổ hợp không chuẩn phát âm tiếng Việt Do vậy, âm tiết sai cần được chuẩn hóa lại tay để đảm bảo từ điển vay mượn có độ xác cao Sau đó âm tiết Tiếng Việt của từ vay mượn lại được cho qua hệ thống tạo từ điển tự động để tạo phiên âm cuối cho từ điển vay mượn 74 3.2.3 Thử nghiệm mơ hình có điệu Trong phần này, luận văn tiến hành thử nghiệm giải pháp đưa thông tin điện vào từ điển phát âm Trong giải pháp này, thông tin điệu được đưa trực tiếp vào âm vị thay âm vị không có điệu hệ thống sở Mơ hình Mokov ẩn vẫn được sử dụng để mơ hình hóa âm vị Giải pháp được thử nghiệm ba liệu VOV (dữ liệu thu từ bản tin, đọc truyện, vấn), NVCHKH CGTT ( liệu phát triển thành viên chăm sóc khách hàng (CSKH) của Viettel liệu gọi lên tổng đài CSKH của Viettel) nhằm có đánh giá khách quan độ khả thi của giải pháp liệu khác Những đóng góp của luận văn được áp dụng vào hệ thống nhận dạng Để thực mơ hình có điệu thực nghiệm dùng tập âm vị được đưa thông tin điệu thông qua tḥt tốn TonalDictCreate trình bày mục 3.2.1 với tùy chọn vị trí đưa điệu vào âm vị bước 4, thuật toán sinh loại từ điển tương ứng Tonal-Dict-end (thanh điệu đặt âm cuối âm cuối âm tiết), Tonal-Dict-vowel (thanh điệu được đặt âm chính), Tonal-Dict-mix (thanh điệu được đặt cả âm cuối âm chính) Bảng Kết thực nghiệm mơ hình có điệu tập liệu VOV Hệ thống Đặc trưng Từ điển Số lượng âm vị WER (%) Baseline01- Mfcc NonTonal-Dict 47 23.25 Mfcc Tontal-Dict-end 138 18.89 mfcc HMM01-tone (- 4.85) HMM02-tone Mfcc Tontal-Dict- 141 19.75 Tontal-Dict-mix 162 19.57 vowel HMM03-tone Mfcc 75 Kết quả thực nghiệm Bảng 10 cho thấy, việc sử dụng từ điển có chứa thông tin điệu cho kết quả tốt đáng kể so với mơ hình khơng có thơng tin điệu Tỉ lệ lỗi giảm tới 4.85% tuyệt đối (khoảng 20% tương đối) so với hệ thống sở Cũng tương tự thử nghiệm với tập liệu NVCHKH thu được tỉ lệ lỗi giảm 2.93% tuyệt đối so với hệ thống sở 3.3 Cải tiến mơ hình âm học sử dụng mơ hình lai ghép HMM/DNN 3.3.1 Mơ hình mạng lai ghép sử dụng mạng nơron học sâu DNN Mạng bao gồm số lớp ẩn có lượng lớn cá nút, kết nối hoàn toàn với nhau, cuối lớp phân loại Một kiến trúc mạng nơron sâu khác cho việc trích xuất nút cổ chai Các lớp ẩn được khởi tạo sử dụng phương pháp tiền huấn luyện học không giám sát Nhờ thành công của phương pháp tiền huấn luyện phương pháp học sâu, máy Boltzman hạn chế đã được sử dụng rộng rãi trở thành giải lựa chọn mặc định tiền huấn luyện lớp của mạng nơron học sâu ứng dụng phần nhận dạng tiếng nói Chúng ta áp dụng mặt lạ nhiễu cho liệu cách thiết lập phần tử vector đầu vào không với xác suất cố định Sau đó đầu vào bị gây nhiễu được ánh xạ với mã hóa để thành biểu ẩn cách sử dụng ma trận trọng số W của lớp ẩn Tuy nhiên, huấn luyện mạng sử dụng đặc trưng âm học đặc trưng MFCC, lớp đầu tiên mơ hình hóa giá trị thực chứ không phải liệu nhị phân, đó sai số bình phương trung bình được lựa chọn làm tiêu chí huấn luyện Sau tập sếp chờng auto-encoder được huấn luyện theo giải pháp tiền huấn luyện trình bày trên, mạng nơron sâu được hình thành Các lớp lại được khởi tạo ngẫu nhiên trọng số được kết nối tới thể ẩn của auto-encoder kết quả mạng được tinh chỉnh với giải thuật lan truyền ngược Khi mạng DNN được huấn luyện xong, chúng được sử dụng để tính tốn xác suất hậu nghiệm mỡi trạng thái âm vị Nếu mạng được huấn luyện để ước 76 lượng xác suất của trạng thái với vector quan sát sử dụng tiêu chuẩn cross-entropy xác suất phát xạ có thể được tính tốn thơng qua Bayes 3.3.2 Huấn luyện mạng thực nghiệm Trong thực nghiệm này, đặc trưng pitch (MFCC + pitch) được sử dụng Trong trình tinh chỉnh huấn luyện có giám sát, mạng nơron được huấn luyện để dự đoán trạng thái HMM phụ thuộc vào ngữ cảnh Đối với trình tiền huấn luyện auto-encoder xếp chồng, giải pháp giảm theo hướng đạo hàm theo lô (mini-batch gradient descent) với 128 mẫu mỗi lô hệ số học 0.01 được sử dụng Vector đầu vào được làm nhiễu mặt lạ nhiễu với việc thiết lập ngẫu nhiên 20% phần tử đặc trưng đầu vào Mỗi auto-encoder bao gồm 1204 nút ẩn sau khoảng 20 lần lặp ma trận trọng số được lựa chọn, auto-encoder kế tiếp được huấn luyện nó Các lớp lại sau đó được thêm vào mạng, bao gồm lớp ẩn khác với kích thước 1024 nút lớp đầu 4600 nút Một lần nữa, gradients được tính tốn phương pháp trung bình qua lần huấn luyện lơ nhỏ (mini-batch) Trong q trình tinh chỉnh mạng, ḷn văn sử dụng lơ kích thước lớn 256 Hệ số học được hiệu chỉnh theo lịch trình: Lần lặp đầu tiên hệ số học sử dụng 0.008, hệ số học được giữ nguyên cho đến kết quả đánh giá lỗi chéo tại mỗi bước (epoch) cao epoch trước 0.05%, epoch tiếp theo tham số học bị giảm nửa lặp lại cho đến việc đánh giá lỗi chéo mỗi epoch nhỏ ngưỡng dừng 0.1% Sau mỡi epoch, mơ hình được đánh giá chéo mỗi liệu riêng biệt mơ hình hoạt động tốt được sử dụng cho hệ thống nhận dạng sau đó Trong luận văn này, GPU được sử dụng để huấn luyện lớp auto-encoder mạng nơron sử dụng công cụ Theano 77 3.3.3 Kết thử nghiệm Cấu hình mạng phù hợp tiền huấn luyện mạng sử dụng autoencoder sếp chồng với tỉ lệ lỗi từ 10.40% Bảng 10 Kết thử nghiệm mô hình âm học khác Acoustic model Features Layer size WER(%) Baseline HMM/GMM MFCC - 21.25 HMM/DMM MFCC 1000 13.20 2000 13.03 HMM/DNN Baseline HMM/GMM MFCC + pitch - 16.77 HMM/DNN MFCC + pitch 1000 10.96 HMM/DNN MFCC + pitch 2000 10.71 Phương pháp lai ghép giúp tỉ lệ lỗi giảm đáng kể giảm tỉ lệ lỗi từ 21.25 với mơ hình bản xuống tỉ lệ lỡi 10.71 78 CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 4.1 Công việc thực Trong luận văn em đã đánh giá yếu tố ảnh hưởng đến chất lượng nhận dạng tiếng nói tiếng việt lĩnh vực hẹp chăm sóc khách hàng đưa giải pháp, thử nghiệm chứng minh hiệu quả của giải pháp Một số kết quả đáng ý: + Chứng minh được kênh viễn thơng truyền tín hiệu âm không ảnh hưởng đến chất lượng nhận dạng + Thêm nhiễu vào liệu giúp hệ thống ổn định với môi trường thực tế điều kiện có nhiễu + Đưa được giải pháp tạo từ điển động có yếu tố điệu làm cho hệ thống giảm tỉ lệ lỗi tới 4.85% tuyệt đối + Cải tiến mơ hình âm học với mơ hình lai HMM-DNN giúp ghép giúp tỉ lệ lỡi giảm đáng kể giảm tỉ lệ lỗi từ 21.25% với mơ hình bản xuống tỉ lệ lỡi 10.71% 4.2 Các vấn đề tồn + Dữ liệu học chưa có nhiều giọng vùng miền nên chất lượng nhận dạng tiếng địa phương + Các thử nghiệm đánh giá vẫn cịn chưa sát với mơi trường thực tế + Hệ thống vẫn chưa ổn định với mơi trường có nhiều nhiễu ngồi đường, nhà máy + Cịn nhiều từ nước ngồi cịn chưa có phiên âm chuẩn nên làm giảm chất lượng nhận dạng 79 4.3 Để cải thiện thêm định hướng thời gian tới Hiện vẫn chỉ đánh giá hệ thống dựa sai số từ (WER), từ có trọng số Mong muốn cần có đánh giá độc lập dựa độ xác của keyword (intent, action) cho domain CSKH Việc xây dựng kịch bản, thử nghiệm dựa giả thuyết của nhóm Do đó cần đưa hệ thống vào thử nghiệm sớm, để ta có thêm nhiều liệu thực hơn, giúp nhóm có thể nâng cao chất lượng nhận dạng 80 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Đặng Hồi Bắc (2006), Xử lý tín hiệu số, Học viện Cơng nghệ Bưu Viễn thơng [2] Đặng Ngọc Đức, Nguyễn Tiến Dũng, Lương Chi Mai (2011), Mơ hình phiên âm tiếng Việt mức âm vị, Institute of Information Technology, Vietnamese Academy of Science and Technology [3] Cao Xuân Hạo (1998), Tiếng Việt - vấn đề ngữ âm, ngữ pháp,ngữ nghĩa, NXB Giáo dục [4] Quách Tuấn Ngọc, Mai Công Nguyên (1998), Nhận dạng lời nói liên tục với từ vựng lớn, Tiểu luận môn Nhận dạng tiếng nói, Đại học Bách khoa Hà Nội [5] Quách Tuấn Ngọc, Phạm Xuân Trường (1998), Phương pháp phân tích xử lý nhận dạng tiếng nói, Tiểu luận môn Xử lý tiếng nói, Đại học Bách khoa Hà Nội [6] Phan Nguyễn Phục Quốc, Hà Thúc Phùng (2009), Hệ thống nhận dạng tiếng nói, Luận văn Đại học, Đại học Bách khoa TP.HCM [7] Thái Hùng Văn, Đỗ Xuân Đạt, Võ Văn Tuấn (2003), Nghiên cứu đặc trưng của tiếng Việt áp dụng vào nhận dạng tiếng nói tiếng Việt, Luận văn Đại học, Đại học KHTN TP.HCM Tiếng Anh [8] Xuedong Huang, Alex Acero, Hsiao-wuen Hon (2001), Spoken language Processing, Carnegie Mellon University [9] Kaldi Framework: http://kaldi-asr.org/ [10] Record your Speech with Audacity[11] Peddinti, Vijayaditya, Daniel Povey, and Sanjeev Khudanpur "A time delay neural network architecture for efficient modeling of long temporal contexts." INTERSPEECH 2015 81 [12] Povey, Daniel, et al "Purely Sequence-Trained Neural Networks for ASR Based on Lattice-Free MMI." INTERSPEECH 2016 82 ... - ĐINH MẠNH CƯỜNG NGHIÊN CỨU XÂY DỰNG HỆ THỐNG NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT ỨNG DỤNG TRONG TỔNG ĐÀI CHĂM SÓC KHÁCH HÀNG TỰ ĐỘNG Chuyên ngành : Đo lường hệ thống điều khiển LUẬN VĂN... THỬ NGHIỆM HỆ THỐNG NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT TRONG TỔNG ĐÀI CHĂM SÓC KHÁCH HÀNG TỰ ĐỘNG 58 3.1 Đánh giá số yếu tố ảnh hưởng tới chất lượng nhận dạng tiếng nói tiếng Việt cách... Một số đặc thù toán xây dựng hệ thống nhận dạng hệ thống chăm sóc khách hàng yêu cầu hệ thống 24 1.2.1 Một số đặc thù của tốn xây dựng hệ thống nhận dạng chăm sóc khách hàng