(Luận văn) phương pháp nâng cao chất lượng tiếng nói có nhiễu dùng học máy thống kê bằng mô hình pha trộn gaussian

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG TRỊNH THỊ THỦY lu an n va PHƯƠNG PHÁP NÂNG CAO CHẤT LƯỢNG gh tn to TIẾNG NÓI CÓ NHIỄU DÙNG HỌC MÁY THỐNG KÊ p ie BẰNG MƠ HÌNH PHA TRỘN GAUSSIAN d oa nl w an lu ll u nf va LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH oi m z at nh z m co l gm @ ac th http://www.lrc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN an Lu THÁI NGUYÊN - 2016 si lu an n va p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG TRỊNH THỊ THỦY lu an PHƯƠNG PHÁP NÂNG CAO CHẤT LƯỢNG va n TIẾNG NÓI CÓ NHIỄU DÙNG HỌC MÁY THỐNG KÊ to p ie gh tn BẰNG MƠ HÌNH PHA TRỘN GAUSSIAN Chun ngành: Khoa học máy tính d oa nl w Mã số: 60.48.01.01 u nf va an lu ll LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH oi m z at nh Người hướng dẫn khoa học: TS PHÙNG TRUNG NGHĨA z m co l gm @ http://www.lrc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN an Lu THÁI NGUYÊN - 2016 ac th si lu an n va p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si i LỜI CAM ĐOAN Tên là: Trịnh Thị Thủy Sinh ngày: 27/07/1985 Học viên lớp cao học K13A – Trường Đại học Công nghệ thông tin Truyền thông – Đại học Thái Nguyên Tôi xin cam đoan, toàn nội dung liên quan tới đề tài trình bày luận văn thân tơi tìm hiểu nghiên cứu, hướng dẫn khoa học thầy giáo TS Phùng Trung Nghĩa lu an Các nội dung luận văn nội dung đề cương yêu va n cầu thầy giáo hướng dẫn Tất tài liệu tham khảo có nguồn gốc, tn to xuất xứ rõ ràng Nếu sai tơi hồn tồn chịu tránh nhiệm trước hội đồng khoa ie gh học trước pháp luật p Tác giả luận văn d oa nl w ll u nf va an lu Trịnh Thị Thủy oi m z at nh z m co l gm @ an Lu http://www.lrc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN ac th si ii LỜI CẢM ƠN Lời em xin chân thành cảm ơn TS Phùng Trung Nghĩa, người trực tiếp hướng dẫn em hoàn thành luận văn Trong suốt thời gian làm luận văn thầy dành nhiều thời gian quý báu để tận tình bảo, hướng dẫn, định hướng cho em việc nghiên cứu lời động viên thầy giúp em vượt qua nhiều khó khăn trình thực luận văn Em xin bày tỏ lòng biết ơn chân thành đến Ban giám hiệu, Phịng sau đại học, thầy giáo Trường Đại học Công nghệ thông tin Truyền lu an thơng - Đại học Thái Ngun tận tình giảng dạy truyền đạt cho em va n kiến thức, kinh nghiệm quý báu suốt năm học vừa qua tn to Cuối xin chân thành cảm ơn gia đình, người thân, bạn bè, đồng ie gh nghiệp…, hết lòng giúp đỡ, tạo điều kiện cho tơi suốt q trình học p tập hoàn thành luận văn nl w Trong khoảng thời gian có hạn, kiến thức cịn nhiều hạn chế d oa nên luận văn không tránh khỏi thiếu sót Rất mong nhận ý an lu kiến đóng góp q báu thầy cơ, bạn bè đồng nghiệp va Thái Nguyên, ngày 15 tháng 04 năm 2016 ll u nf Tác giả oi m z at nh z Trịnh Thị Thuỷ m co l gm @ an Lu n va ac th si iii MỤC LỤC LỜI CẢM ƠN i LỜI CAM ĐOAN i MỤC LỤC iii DANH MỤC CÁC TỪ VIẾT TẮT vi DANH MỤC CÁC HÌNH VẼ, SƠ ĐỒ vii DANH MỤC BẢNG ix lu MỞ ĐẦU .1 Lý chọn đề tài .1 an va Mục tiêu đề tài n Đối tượng phạm vi nghiên cứu: gh tn to Phương pháp nghiên cứu Ý nghĩa khoa học thực tiễn .3 p ie w CHƯƠNG I: TỔNG QUAN VỀ TIẾNG NÓI VÀ VẤN ĐỀ XỬ LÝ NHIỄU d oa nl TRONG TIẾNG NÓI 1.1 Tổng quan tiếng nói an lu 1.1.1 Thơng tin tiếng nói va 1.1.2 Tín hiệu tín hiệu tiếng nói ll u nf 1.1.2.1 Tín hiệu tiếng nói m 1.1.2.2 Tín hiệu oi 1.1.3 Quá trình tạo tiếng nói .8 z at nh 1.1.4 Cơ quan thính giác 11 z 1.2 Nhiễu tiếng nói 14 @ 1.2.1 Nguồn nhiễu 14 gm l 1.2.2 Nhiễu mức tín hiệu tiếng nói mơi trường khác 16 m co 1.2.3 Mơ hình hóa tiếng nói 17 1.3 Xử lý nhiễu tiếng nói .20 an Lu 1.3.1 Cách tiếp cận không dùng học máy .20 http://www.lrc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN ac th si iv 1.3.2 Cách tiếp cận dùng học máy .20 CHƯƠNG II: PHƯƠNG PHÁP NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI CÓ NHIỄU PHỨC HỢP BẰNG HỌC MÁY DÙNG MƠ HÌNH PHA TRỘN GAUSSIAN .21 2.1 Phương pháp nâng cao chất lượng tiếng nói có nhiễu kinh điển dùng kỹ thuật trừ phổ 21 2.1.1 Thuật toán trừ phổ phổ biên độ 21 2.1.2 Thuật toántrừ phổ phổ công suất .22 2.1.3 Ưu nhược điểm phương pháp 25 lu an 2.2 Phương pháp nâng cao chất lượng tiếng nói có nhiễu dùng học máy GMM .25 n va 2.2.1 Phân bố Gauss 25 gh tn to 2.2.2 Mơ hình Gaussian hỗn hợp 26 2.2.3 Mơ hình dự đốn tuyến tính (LP) kĩ thuật nâng cao chất lượng p ie tiếng nói có nhiễu 28 w 2.2.4 Phổ đường cảm thụ (PLSF) 30 oa nl 2.2.5 Biến đổi phổ sử dụng mô hình GMM 32 d CHƯƠNG III: ĐÁNH GIÁ THỰC NGHIỆM CÁC PHƯƠNG PHÁP NÂNG CAO lu u nf va an CHẤT LƯỢNG TIẾNG NÓI 36 3.1 Ngữ âm tiếng Việt 36 ll 3.2 Cơ sở liệu tiếng nói tiếng Việt 39 oi m 3.3 Lựa chọn sở liệu .42 z at nh 3.4 Cài đặt phương pháp 42 3.4.1 Phương pháp trừ phổ .42 z 3.4.2 Phương pháp biến đổi sử dụng học máy thống kê GMM 43 @ gm 3.5 Đánh giá kết thực nghiệm 45 m co l 3.5.1 Tiêu chí đánh giá chủ quan 46 3.5.2 Tiêu chí đánh giá khách quan 47 an Lu 3.5.3 Kết đánh giá thực nghiệm .48 3.6 Nhận xét chung kết 49 n va ac th si v KẾT LUẬN .50 TÀI LIỆU THAM KHẢO 51 lu an n va p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu http://www.lrc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN ac th si vi DANH MỤC CÁC TỪ VIẾT TẮT Từ viết tắt Viết đầy đủ Ý nghĩa Gaussian model mixture Mơ hình Gaussian hỗn hợp LP Linear Preditive Phương pháp dự đốn tuyến tính SS Spectral subtraction Trừ phổ EM Expectation Maximization Lặp cực đại kỳ vọng LPC Linear predictive coding Mã hóa dự đốn tuyến tính PLP Perceptual Linear Preditive Dự đốn tuyến tính cảm thụ LSF Line Spectral Frequency Ðặc trưng phổ đường NN Neural Network Mạng nơron F0 Fundamental Frequency Tần số dao động SS Spectral subtraction Trừ phổ GMM lu an n va p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si 40 a Cơ sở liệu số điện thoại Cơ sở liệu tiếng nói xây dựng Viện Cơng nghệ thông tin, Viện hàn lâm, khoa học công nghệ Việt Nam [25] Định dạng âm PCM WAV với tần số lấy mẫu tần số lấy mẫu hệ thống điện thoại công cộng PSTN 8KHz Mã hóa 16 bit / mẫu Kích cỡ sở liệu nhỏ với 1541 từ mô tả số điện thoại Phần đầu bao gồm 170 người nói với 94 đàn ông 76 phụ nữ đến từ địa phương khác khu vực miền Bắc Phần hai gồm 208 người nói bao gồm 130 đàn ông 78 phụ nữ lu đến từ địa phương khu vực miền Nam Cơ sở liệu gán nhãn an mức âm vị va n b Cơ sở liệu tiếng nói phát VOV to gh tn Bộ sở liệu xây dựng Viện Công nghệ thông tin, ie Viện hàn lâm, khoa học công nghệ Việt Nam [25] Bộ sở liệu gồm p câu chuyện, báo cáo, tin,… Đài tiếng nói Việt Nam VOV phát nl w sưu tập từ 15 người nói giọng Hà Nội chuẩn Âm dạng d oa RealAudio sưu tập từ website VOV chuyển đổi dạng âm an lu PCM WAV với tốc độ bit 256 kbps, tần số lấy mẫu 16 KHz u nf va Bộ sở liệu bao gồm 29062 câu với độ dài trung bình 10 âm tiết Số lượng âm tiết phân biệt 4379 số lượng âm tiết phân ll oi m biệt khơng tính điệu 1646 bao phủ gần toàn âm tiết tiếng z at nh Việt Kích cỡ sở liệu khoảng 2.5 GB Bộ sở liệu lựa chọn cân người nói z phiên gán nhãn tay mức âm tiết Mặc dù @ c Cơ sở liệu DEMEN567 m co khăn chưa có nhãn gán mức âm vị l gm sở liệu lớn, việc sử dụng sở liệu cho nghiên cứu khó an Lu Bộ sở liệu xây dựng Viện Công nghệ thông n va ac th si 41 tin, Viện hàn lâm, khoa học công nghệ Việt Nam [25] Kịch văn trích từ câu chuyện Dế mèn phiêu lưu ký tiếng Người nói nữ phát viên giọng Hà Nội chuẩn Tiếng nói ghi âm dạng PCM WAV, tần số lấy mẫu 11025 Hz, mã hóa 16 bit / mẫu Cơ sở liệu bao gồm 567 câu với độ dài câu khoảng 15 âm tiết Kích cỡ sở liệu vào khoảng 70 MB độ dài vào khoảng gần nói Bộ sở liệu gán nhãn tay mức âm tiết âm vị bao gồm thông tin điệu Mặc dù kích cỡ nhỏ, xem lu sở liệu chất lượng cao việc thiết kế kịch văn đảm bảo độ cân an âm cao việc gán nhãn mức âm vị xác va n d Cơ sở liệu MICA VNSpeech to gh tn Đây sở liệu xây dựng Trung tâm nghiên cứu quốc ie tế MICA, Đại học Bách Khoa Hà Nội Bộ sở liệu đươc nói 50 p người nói bao gồm 25 nữ 25 nam với độ tuổi từ 15 đến 45 Người nói hầu nl w hết có trình độ đại học với ba phương ngữ chính: miền Nam, miền Bắc, d oa miền Trung Việt nam Mỗi người nói khoảng 60 phút Tần số lấy mẫu 16 an lu KHz Mức độ cân ngữ âm âm vị đảm bảo tốt [26] u nf va Mặc dù sở liệu xem sở liệu tiếng nói lớn với chất lượng thu âm cao, nhãn mô tả sở liệu tạo ll oi m phương pháp gán nhãn tự động có sai số lớn giới hạn khả sử dụng e Các sở liệu khác z at nh sở liệu nghiên cứu xử lý tiếng nói tiếng Việt z Gần đây, số nhóm nghiên cứu cố gắng thu thập nguồn tài @ l gm nguyên tiếng nói để xây dựng sở liệu tiếng nói tiếng Việt lớn, ví m co dụ sở liệu tin tức phát tiếng Việt (VNBN) với khoảng 40 sở liệu đàm thoại với khoảng 11 tiếng nói [27] Tuy an Lu nhiên sở liệu chưa gán nhãn gán nhãn http://www.lrc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN ac th si 42 mức âm vị Do chúng chưa sử dụng rộng rãi nghiên cứu xử lý tiếng nói tiếng Việt 3.3 Lựa chọn sở liệu Dựa phân tích sở liệu tiếng Việt có mục 3.2, lựa chọn sở liệu DEMEN567 NOISEX-92 để thực nghiệm đánh giá cho luận văn 3.4 Cài đặt phương pháp lu 3.4.1 Phương pháp trừ phổ an n va Lưu đồ phương pháp trừ phổ thể hình 3.2 p ie gh tn to nl w Ước lượng, cập nhật nhiễu d oa FFT an lu Tín hiệu bị nhiễu Y(w) (w) - | Dˆ (w) | p | |p + ll u nf va Pha tín hiệu IFFT oi m | |1/ p z at nh Tín hiệu sau tăng cường z gm @ Hình l Hình 3.2: Lưu đồ thuật tốn Spectral subtraction (trừ phổ) m co Khi cài đặt, tham khảo sử dụng thư viện mã nguồn mở điển Boll đề xuất năm 1979 an Lu Esfandiar Zavarehei xây dựng năm 2005 cài đặt phương pháp trừ phổ kinh n va ac th si 43 3.4.2 Phương pháp biến đổi sử dụng học máy thống kê GMM Cơ sở tốn học phương pháp trình bày phần Để cài đặt phương pháp chúng tơi sử dụng thư viện STRAIGHT để phân tích tham số, thư viện Voice Conversion Toolbox cho hàm thống kê GMM thực MATLAB [28] Lưu đồ thuật tốn q trình huấn luyện mơ hình GMM cho tham số phổ tương ứng cặp tiếng nói có nhiễu – tiếng nói (A-B) trình bày hình 3.3 Lưu đồ thuật tốn q trình chuyển đổi lu tham số phổ tiếng nói có nhiễu A thành tham số tương ứng với tiếng nói an n va B cho hình 3.4 p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu http://www.lrc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN ac th si 44 Tiếng nói nhiễu A Tiếng nói B STRAIGHT Đường bao phổ lu an Rút gọn đường bao phổ n va Rút gọn đường bao phổ to LSF B gh tn LSF A p ie Huấn luyện GMM d oa nl w va an lu ll u nf Hình 3.3: Huấn luyện mơ hình GMM cho tham số phổ LSF oi m z at nh z m co l gm @ an Lu n va ac th si 45 Tiếng nói nhiễu A STRAIGHT Đường bao phổ lu an n va Rút gọn đường bao phổ GMM A-B to gh tn LSF A p ie Chuyển đổi phổ d oa nl w LSF B STRAIGHT ll u nf va an lu Tiếng nói B oi m z at nh z @ an Lu http://www.lrc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN m co 3.5 Đánh giá kết thực nghiệm l gm Hình 3.4: Chuyển đổi mơ hình GMM cho tham số phổ LSF ac th si 46 Trong phần luận văn đánh giá tính khả thi mơ hình nâng cao chất lượng tiếng nói có nhiễu Mục đích việc đánh giá để kiểm tra xem liệu mơ hình nghiên cứu nâng cao chất lượng âm tốt từ xác định mơ hình hữu ích để áp dụng cho hệ thống thính giác người hệ thống nhận dạng tự động ASR Ở tác giả sử dụng phương pháp đánh giá chủ quan MOS (người nghe đánh giá) phương pháp đánh giá khách quan (máy đánh giá theo công thức) LCD để đánh giá cải thiện việc nâng cao chất lượng tiếng nói có nhiễu lu sử dụng phương pháp Spectral subtraction (Trừ phổ) phương pháp LP- an GMM Mỗi phương pháp có ưu nhược điểm riêng va n Trong luận văn tác giả lựa chọn sở liệu tiếng Việt gh tn to DEMEN567 NOISEX-92 để thực đánh giá kết p ie 3.5.1 Tiêu chí đánh giá chủ quan nl w Đánh giá chủ quan tiêu chí sử dụng người nghe để đánh giá chất lượng d oa tiếng nói Việc đánh giá chủ quan xem quan trọng mục tiêu an lu cuối tiếng nói sau nâng cao chất lượng phải đảm bảo người va nghe hiểu chấp nhận Tuy nhiên để đánh giá chủ quan tốn ll u nf kém, thời gian cần thiết bị nghe phòng nghe chuyên dụng để tránh oi m nhiễu mơi trường Ngồi phương pháp đánh giá chủ quan khó đảm bảo z at nh tin cậy người nghe tập trung, khơng tâm vào việc đánh giá cố tình cho điểm sai Để khắc phục yếu điểm cần tăng số z lượng người nghe, số lượng phép test để đảm bảo giá trị thống kê có ổn l gm @ định tin cậy m co Trong luận văn sử dụng độ đo MOS - sử dụng để đo lường chất lượng tiếng nói sau khơi phục việc đánh giá chấm điểm theo an Lu n va ac th si 47 mức cảm nhận đối tượng nghe Các mức đánh giá trình bày bảng 3.3 Bảng 3.3: Mô tả mức điểm đánh giá Mức đánh giá Chất lượng tiếng nói lu an n va Rất tốt Tốt Trung bình Kém Khơng đạt yêu cầu Phương pháp đánh giá chủ quan thực với 05 người người p ie gh tn to w Việt- sinh viên trường Đại học Công nghệ thông tin truyền thơng oa nl có độ tuổi từ 18 đến 20 có khả nghe bình thường Tất tín hiệu d tiếng nói 567 câu tiếng Việt lấy ngẫu nhiên từ liệu lu an kiểm tra đánh giá Chúng sử dụng loại tín hiệu âm thanh: tín hiệu u nf va tiếng nói sạch, tín hiệu tiếng nói có nhiễu (nhiễu nhà máy) loại tín hiệu ll khơi phục sử dụng mơ hình Spectral subtraction (trừ phổ) LP-GMM Mức oi m điểm đánh giá MOS điểm trung bình tất mẫu đánh giá z at nh 3.5.2 Tiêu chí đánh giá khách quan z Nhằm khắc phục phần yếu điểm việc đánh giá chủ quan, gm @ nhiều phương pháp đánh giá khách quan xây dựng Các phương pháp l đánh giá khách quan truyền thông theo cách tiếp cận so sánh trực tiếp hai tín m co hiệu tiếng nói tín hiệu tiếng nói có nhiễu, tín hiệu tiếng nói tín an Lu hiệu sử dụng phương pháp nâng cao chất lượng LCD (khoảng cách LP) Những số đo mục tiêu đánh giá tính tốn theo cơng thức sau: http://www.lrc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN ac th si 48 LCD  p  ( (i)   x i 1 Trong y (i))2 (3.1) hệ số LP thứ i tín hiệu với thứ tự LP thiết lập P=20 3.5.3 Kết đánh giá thực nghiệm Luận văn sử dụng sở liệu đánh giá DEMEN567 sở liệu NoiseEX 92 Ở nhiễu phức hợp sử dụng luận văn nhân lu tạo cách: Lấy tín hiệu nhiễu nhà máy SNR = -10 dB lấy CSDL an n va NoiseEX 92 cộng với tín hiệu tiếng nói CSDL DEMEN567 DEMEN567 để đánh giá khách quan sử dụng 05 người người gh tn to Trong luận văn sử dụng 66 tổng số 567 câu tiếng việt CSDL p ie Việt- sinh viên trường Đại học Công nghệ thong tin truyền thơng w có độ tuổi từ 18 đến 20 có khả nghe bình thường để đánh giá chủ oa nl quan (MOS) d Sau đo khoảng cách tín hiệu tiếng nói với tín hiệu: lu va an tiếng nói có nhiễu nhà máy tín hiệu tiếng nói khơi phục, chúng tơi đánh u nf giá cải thiện tín hiệu khơi phục so với tín hiệu tiếng nói có nhiễu ll Bảng 3.4 3.5 cho thấy biến đổi trung bình phép đo khách m oi quan chủ quan Kết cho thấy mơ hình LP-GMM mơ hình tốt z at nh cho tất phép đo cải tiến gần lớn z Bảng 3.4 : Kết đánh giá phương pháp LCD l LCD m co 0.4009 an Lu Trừ phổ gm @ Phương pháp khôi phục n va ac th si 49 LP-GMM 0.1830 Nhiễu Sạch 0.3838 Bảng 3.5 : Kết đánh giá phương pháp MOS Nhiễu Trừ phổ 1.19 1.28 MOS LP-GMM Sạch 3.83 4.21 lu an n va 3.6 Nhận xét chung kết tn to So với kết nghiên cứu công bố kết thử nghiệm luận văn gh tương đồng Điều lần khẳng định phương pháp khôi p ie phục tiếng nói có nhiễu mơ hình khơi phục LP-GMM phương pháp w tốt so với mô hình kinh điển trước Và với phương pháp sử dụng oa nl mơ hình LP-GMM phương pháp hiệu cần quan tâm nghiên cứu d thử nghiệm tiếp ll u nf va an lu oi m z at nh z m co l gm @ an Lu http://www.lrc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN ac th si 50 KẾT LUẬN Luận văn nghiên cứu tổng quan phương pháp nâng cao chất lượng tiếng nói có nhiễu sử dụng mơ hình pha trộn GMM phương pháp nâng cao chất lượng tiếng nói có nhiễu kinh điển sử dụng kỹ thuật trừ phổ (Spectral subtraction) Luận văn tiến hành đánh giá thực nghiệm phương pháp sở liệu tiếng Việt DEMEN567 NOISEX-92 Kết đánh giá thực nghiệm cho thấy Phương pháp nâng cao chất lu lượng tiếng nói có nhiêu sử dụng mơ hình pha trộn GMM tối ưu an Phương pháp đưa tiếng nói khơng bị méo khơng bị va n mát thơng tin, đạt tính dễ nghe dễ hiểu Đặc biệt tn to phương pháp khắc phục hạn chế mà phương pháp ie gh truyền thống không làm áp dụng cho mơi trường nhiễu phức p hợp w d oa nl Hướng nghiên cứu phát triển luận văn: an lu - Cải tiến mơ hình GMM u nf va - Xây dựng CSDL, thử nghiệm với CSDL lớn ll - Thực nghiệm thêm với phương pháp phân lớp khác SVM, HMM,… oi m z at nh z m co l gm @ an Lu n va ac th si 51 TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt [1] Hồng Phê (2003), Chính tả Tiếng Việt, NXB Đà Nẵng, trang 9-15 [2] Đoàn Thiện Thuật (2003), Ngữ âm tiếng Việt, NXB Đại học Quốc Gia Tài liệu tiếng anh [3] K Nakamura, T Toda, H Saruwatari, K Shikano “Speaking-aid systems using GMM-based voice conversion for electrolaryngeal lu speech”, Speech Communication, Vol 54, No 1, pp 134-146 (2012) an va n [4] T Hirahara, M Otani, S Shimizu, T Toda, K Nakamura, Y Nakajima, tract resonance signals” Speech Communication, Vol 52, No 4, pp 301- ie gh tn to K Shikano “Silent-speech enhancement using body-conducted vocal- p 313, (2010) nl w [5] V.-A Tran, G Bailly, H Loevenbruck, T Toda, “Improvement to a d oa NAM-captured whisper-to-speech system”, Speech Communication, Vol an lu 52, No.4, pp 314-326, (2010) u nf va [6] Trung Nghia Phung, Masashi Unoki and Masato Akagi, “Improving ll Bone-Conducted Speech Restoration in noisy environment based on LP m oi scheme”, Proc APSIPA 2010, (2010) z at nh [7] D Huy-Khoi, P Trung-Nghia, HC Nguyen, VT Nguyen, and QV Thai, z “A novel spectral conversion based approach for noisy speech @ enhancement”, International Journal of Information and Electronics m co l gm Engineering, vol 1, no 3, 281-285, (2011) [8] A Mouchtaris, J V Spiegel, P Mueller, and Panagiotis Tsakalides, “A http://www.lrc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN an Lu Spectral Conversion Approach to Single-Channel Speech Enhancement,” ac th si 52 “IEEE Trans On Audio, Speech, And Language Processing”, vol.15, no.4, May 2007 [9] Weiss, M., Aschkenasy, E., and Parsons, T., (1974), Study and the Development of the INTEL Technique for Improving Speech Intelligibility, Technical Report NSC-FR/4023, Nicolet Scientific Corporation [10] Deller, J., Hansen, J.H.L., and Proakis, J (2000), Discrete –time Processing lu an of Speech Signals, New York : IEEE Press va n [11] Guastafsson, H., Nordholm, S., and Claesson, I.(2001), Spectral gh tn to subtraction using reduced delay convolution and adaptive averaging, p ie IEEE Trans Speech Audio Process., 9(8), 799-807 nl w [12] Philippos C.Loizou, Speech Enhancement Theory and Practice,pp 100 oa [13].Hu, Y and Loizou, P(2006), Subjective comparison of speech d enhancement algorithms, Proc IEEE Int.Conf Acoust Speech Signal va an lu Process, I ll u nf [14] Philippos C.Loizou, Speech Enhancement Theory and Practice,pp 2-7 oi m [15] Paliwal, K and Alsteris, L.(2005), On the usefulness of STFT 170 z at nh phase spectrum in human listening tests, Speech Commun., 45(2), 153- z gm @ [16] T.T Vu K Kimura, M.Unoki, and M Akagi, “A study on Restoration l of Bone – conducted Speech with MTF – based and LP – based Models ”, m co “journal of Signal Processing”, vol.10, no 6, pp 407 – 417, 2006 an Lu [17] T N Phung, M Unoki, and M Akagi, “Comparative Evaluation of Bone – conducted – speech Restoration based on Linear Prediction Scheme”, n va ac th si 53 “IEICE Technical Report”, vol 110, no 71, pp 53-58, June, 2010 [18] H K DO and Q V THAI, “A new approach for speech denoising using spectral conversion”, “Proc ICSPS 2011”, August, Yantai, China [19] A Kain and M W Macon, “Spectral Voice Conversion For Text – To – Speech Synthesis”, “proc ICASSP 1998”, vol 1, pp 285-288, 1998 [20] H.Hermansky., Perceptual linear predictive (PLP) analysis for speech “J Acoust, Soc Am”, pp 1738-1752, 1990 lu [21] J.S Lim and A V Oppenheim, “Enhancement and band width an compression of noisy speech”, “Proc Of the IEEE”, Vol 67, No 12, va n 1586-1604, Dec 1979 gh tn to [22] L Rabiner and B H Juang, “Fundamental of Speech Recognition”, p ie Copyright 1993 by AT&T nl w [23] Lê Hồng Minh (2003), “Some results in Research and Development of oa Text To Speech conversion system for Vietnamese language based on d formant synthesis," Hội thảo ICT.RDA an lu TTS Trained with Data TRANSACTIONS on Temporal Information and z at nh Systems 96.11: 2417-2426 by oi m Decomposition." IEICE Limited ll u nf Based va [24] Phung, Trung-Nghia (2013), et al "Improving Naturalness of HMM- [25] L.C Mai and D.N Duc (2006), “Design of Vietnamese speech corpus z gm @ and current status," Proc ISCSLP-06, pp 748-758 l [26] V.B Le, D.D Tran, L Besacier, E Castelli, and J.F Serignat (2005), m co “First steps in building a large vocabulary continuous speech recognition system for Vietnamese," Proc RIVF05, pp 330-333, pp 21-24 an Lu http://www.lrc.tnu.edu.vn n va Số hóa Trung tâm Học liệu – ĐHTN ac th si 54 [27] Vũ Hải Quân (2010), “VOS: The Corpus-based Vietnamese Text-tospeech System," Tạp chí CNTT & TT (2007) “Voice conversion Matlab toolbox” [28] Sündermann, David Technical Report, Siemens Corporate Technology, Munich, Germany [29] S Boll, “Suppression of acoustic noise in speech using spectral subtraction”, IEEE Trans on Acoustics, Speech and Signal Proc, vol 27 issue 2, 113 – 120, (1979) [30] N Bi and Y Qi, “Application of speech conversion to alaryngeal speech lu an enhancement”, IEEE Trans on Speech and Audio Proc (1997) n va p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si

Định dạng
Số trang	68
Dung lượng	2,09 MB