(Luận Văn Thạc Sĩ) Nghiên Cứu Phương Pháp Mã Hóa Tiếng Nói Dùng Kỹ Thuật Phân Rã Ma Trận Không Âm.pdf

59 3 0
(Luận Văn Thạc Sĩ) Nghiên Cứu Phương Pháp Mã Hóa Tiếng Nói Dùng Kỹ Thuật Phân Rã Ma Trận Không Âm.pdf

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Untitled i TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG KHOA CÔNG NGHỆ THÔNG TIN PHẠM MẠNH CƯỜNG NGHIÊN CỨU PHƯƠNG PHÁP MÃ HÓA TIẾNG NÓI DÙNG KỸ THUẬT PHÂN RÃ MA TRẬN KHÔNG ÂM Chuyên ngành Khoa[.]

i TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG KHOA CÔNG NGHỆ THÔNG TIN PHẠM MẠNH CƯỜNG NGHIÊN CỨU PHƯƠNG PHÁP MÃ HÓA TIẾNG NÓI DÙNG KỸ THUẬT PHÂN RÃ MA TRẬN KHÔNG ÂM Chuyên ngành: Khoa học máy tính Mã số: 848 01 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC PGS TS PHÙNG TRUNG NGHĨA ii LỜI CAM ĐOAN Tên là: Phạm Mạnh Cường Sinh ngày: 31/10/1985 Học viên lớp cao học K17A - Trường Đại học Công nghệ thông tin Truyền thông - Thái Nguyên Tôi xin cam đoan, toàn nội dung liên quan tới đề tài trình bày luận văn thân tơi tìm hiều nghiên cứu, hướng dẫn khoa học Thầy giáo PGS.TS Phùng Trung Nghĩa Các nội dung luận văn nội dung đề cương yêu cầu thầy giáo hướng dẫn Tất tài liệu tham khảo có nguồn gốc, xuất xứ rõ ràng Nếu sai tơi hồn tồn chịu trách nhiệm trước hội đồng khoa học trước pháp luật Tác giả luận văn Phạm Mạnh Cường iii LỜI CẢM ƠN Sau thời gian nghiên cứu làm việc nghiêm túc, động viên, giúp đỡ hướng dẫn tận tình Thầy giáo hướng dẫn PGS.TS Phùng Trung Nghĩa, luận văn với đề tài “Nghiên cứu phương pháp mã hóa tiếng nói dùng kỹ thuật phân rã ma trận khơng âm” hồn thành Em xin bày tỏ lòng biết ơn sâu sắc đến: Thầy giáo hướng dẫn PGS.TS Phùng Trung Nghĩa tận tình dẫn, giúp đỡ em hoàn thành luận văn Em xin cảm ơn Khoa sau Đại học Trường Đại học Công nghệ - Thông tin Truyền thông giúp đỡ em trình học tập thực luận văn Em xin chân thành cảm ơn bạn bè, đồng nghiệp gia đình động viên, khích lệ, tạo điều kiện giúp đỡ em suốt trình học tập, thực hồn thành luận văn Em xin chân thành cảm ơn! Thái Nguyên, ngày tháng năm 2020 Học viên Phạm Mạnh Cường iv MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN iii DANH MỤC CÁC BẢNG vii DANH MỤC CÁC HÌNH viii Ý NGHĨA CÁC TỪ VIẾT TẮT ix MỞ ĐẦU Lý chọn đề tài 2 Đối tượng phạm vi nghiên cứu: 3 Hướng nghiên cứu luận văn: Phương pháp nghiên cứu Ý nghĩa khoa học thực tiễn CHƯƠNG TỔNG QUAN VỀ MÃ HÓA TIẾNG NÓI 1.1 Tổng quan tiếng nói 1.1.1 Thơng tin tiếng nói 1.1.2 Tín hiệu tiếng nói 1.1.2.1 Tín hiệu 1.1.2.2 Nguồn tín hiệu 1.1.2.3 Hệ thống xử lý tín hiệu 1.2 Tổng quan mã hóa tiếng nói 1.3 Mã hóa tiếng nói tốc độ bit thấp 1.4 Mục tiêu luận văn 10 v CHƯƠNG PHƯƠNG PHÁP MÃ HÓA TIẾNG NÓI DÙNG KỸ THUẬT PHÂN RÃ MA TRẬN KHÔNG ÂM NMF 12 2.1 Tổng quan kỹ thuật phân rã ma trận không âm NMF 12 2.1.1 Khái niệm 12 2.1.2 Lịch sử 12 2.1.3 Nền tảng 12 2.1.4 Tích chất phân cụm 14 2.2 Kỹ thuật phân rã ma trận khơng âm NMF ứng dụng mã hóa tiếng nói 15 2.2.1 Kỹ thuật phân rã ma trận khơng âm NMF 15 2.2.2 Ứng dụng mã hóa tiếng nói 21 2.3 Phương pháp mã hóa tiếng nói dùng NMF Xue 22 2.4 Phương pháp mã hóa NMF Chien 28 CHƯƠNG ĐÁNH GIÁ THỰC NGHIỆM PHƯƠNG PHÁP MÃ HÓA TIẾNG NÓI DÙNG KỸ THUẬT PHÂN RÃ MA TRẬN KHÔNG ÂM NMF 36 3.1 Thu thập liệu tiếng nói 36 3.1.1 Ngữ âm tiếng Việt 36 3.1.1.1 Cấu trúc âm tiết tiếng Việt 36 3.1.1.2 Thanh điệu tiếng Việt 37 3.1.2 Cơ sở liệu tiếng nói tiếng Việt 38 3.1.2.1 Cơ sở liệu tiếng nói phát VOV 38 3.1.2.2 Cơ sở liệu DEMEN567 39 3.1.2.3 Cơ sở liệu MICA VNSpeech 39 3.1.3 Tổng hợp tiếng nói tiếng Việt 40 3.2 Cài đặt phương pháp mã hóa Matlab 40 vi 3.3 Đánh giá khách quan, chủ quan so sánh phương pháp 42 3.3.1.Đánh giá khách quan chủ quan 42 3.3.2 So sánh với phương pháp khác 44 3.4 Phân tích, đánh giá ưu nhược điểm 46 KẾT LUẬN 47 TÀI LIỆU THAM KHẢO 48 vii DANH MỤC CÁC BẢNG Bảng 2.1 Hiệu suất hai sơ đồ lượng tử hóa 25 Bảng 2.2 Tỉ lệ phân giải cao độ khác 26 Bảng 3.1 Cấu trúc âm Tiếng Việt 38 Bảng 3.2 Sáu điệu Tiếng Việt 38 Bảng 3.3 Thang điểm PESQ 44 viii DANH MỤC CÁC HÌNH Hình 1.1 Dạng sóng tiếng nói câu tiếng Việt Hình 1.2 Tiếng nói hữu Hình 1.3 Một số ứng dụng xử lý tiếng nói Hình 2.1 NMF 18 Hình 2.2 Dạng sóng lời nói đường viền cao độ 25 Hình 2.3 Dấu vết điện 27 Hình 2.4 Hàm kiện có tính chất “hình học chuẩn” “hình học khơng chuẩn” 30 Hình 2.5 Thuật tốn chuẩn hóa vector kiện NMF 34 Hình 2.6 Hình vẽ hàm kiện nhận NMF phân tích câu, số miền thời gian số khung 35 Hình 3.1 Đường F0 sáu điệu Tiếng Việt 37 Hình 3.2 Thuật tốn mã hóa đánh giá chất lượng tiếng nói mã hóa NMF 41 Hình 3.3 Mơ hình hóa người nghe PESQ 43 Hình 3.4 Kết đánh giá chủ quan phương pháp Scheffe với tỷ lệ nén đầu vào 20 45 Hình 3.5 Kết đánh giá chủ quan phương pháp Scheffe với tỷ lệ nén đầu vào 30 45 Hình 3.6 Hình ảnh dạng sóng tiếng nói có nén, không nén với tỷ lệ nén 46 ix Ý NGHĨA CÁC TỪ VIẾT TẮT Từ viết tắt ASD ADPCM CELP Ý nghĩa Phổ trung bình Mã hóa thích nghi Mã hóa dự đốn tuyến tính kích thích mã CW Dạng sóng đặc trưng DCT Phương thức sử dụng phổ biến FIR Bộ lọc thông thấp FRV Phương sai dư phân số HMM Phương pháp thống kê IDCT Biến đổi cosine rời rạc LPC Mã hóa dự đốn tuyến tính LSF Đặc trưng phổ đường MELP Tuyến tính kích thích hỗn hợp NCCF Phương pháp hàm tương quan chéo chuẩn hóa NMF Kỹ thuật phân rã ma trận khơng âm NQP Phương trình bậc hai khơng âm PCA Thành phần PCM Mã hóa theo dạng xung PESQ Đánh giá cảm quan chất lượng lời nói REW Sóng phát triển nhanh x SEW Sóng phát triển chậm SFTR Tỉ lệ dịch phổ SVM Vector hỗ trợ WI Bộ mã hóa dựa NMF 36 CHƯƠNG ĐÁNH GIÁ THỰC NGHIỆM PHƯƠNG PHÁP MÃ HÓA TIẾNG NÓI DÙNG KỸ THUẬT PHÂN RÃ MA TRẬN KHÔNG ÂM NMF Các phương pháp mã hóa tiếng nói hướng tới mơ hình độc lập ngơn ngữ, tức áp dụng cho ngôn ngữ Tuy nhiên nhiều nghiên cứu hiệu phương pháp khác áp dụng vào ngôn ngữ khác [1, 2] Luận văn tập trung vào việc đánh giá phương pháp mã hóa tiếng nói dùng kỹ thuật phân rã tiếng nói theo thời gian, cụ thể phương pháp phân rã tiếng nói cải tiến NMF tác giả N.P Chien [1, 2] Xue [17, 18] sở liệu tiếng nói tiếng Việt Qua đó, đánh giá mức độ phù hợp phương pháp với tiếng nói tiếng Việt 3.1 Thu thập liệu tiếng nói 3.1.1 Ngữ âm tiếng Việt Tiếng Việt ngơn ngữ thức Việt Nam Nó 90 triệu người Việt sử dụng hàng ngày Khoảng triệu người Việt nước ngồi thường xun sử dụng tiếng Việt Tóm tắt ngữ âm tiếng Việt trình bày tham khảo từ nghiên cứu Đoàn Thiện Thuật [6] Hoàng Phê [5] 3.1.1.1 Cấu trúc âm tiết tiếng Việt Tiếng Việt ngôn ngữ đơn âm có điệu điển hình [6] Tổng số âm tiết (syllable) phát âm tiếng Việt khoảng 19.000 nhiên có khoảng 7000 âm tiết sử dụng giảm xuống 1200 âm tiết bỏ qua khác biệt điệu (tone) Cấu trúc âm tiết tiếng Việt mơ tả Hình 3.1 Mỗi âm tiết xem tổ hợp phần đầu (initial), phần vần (final) điệu Có 22 phần đầu, 155 phần vần điệu tiếng Việt [5] 37 Phần đầu thông thường phụ âm (consonant), bị khuyết số âm tiết Phần vần phân tách thành ba thành phần, bao gồm đầu vần (onset), nhân âm tiết (nucleus), đuôi vần (coda) Phần đầu vần vần khơng tồn với số âm tiết nhân âm tiết thành phần âm tiết Nhân âm tiết nguyên âm (vowel) nguyên âm đơi (diphthong) Đi vần phụ âm bán nguyên âm (semivowel) Có tất phần đầu vần, 16 nhân âm tiết, đuôi vần tiếng Việt 3.1.1.2 Thanh điệu tiếng Việt Thanh điệu thành phần siêu phân đoạn (super-segmental) tồn ngơn ngữ có điệu Có sáu điệu phân biệt tiếng Việt Bảng 3.2 Hình 3.1 (dấu ? ngã đường F0 ngã không thống mẫu vùng giữa) Mỗi điệu có đường tần số (F0) xác định Trong tiếng Việt, có hai loại âm tiết phân biệt âm đóng âm mở Âm tiết đóng kết thúc với vần /p/, /t/, /k/ kết hợp với sắc nặng âm tiết mở âm tiết đóng khác kết hợp với tất sáu điệu để cấu thành âm tiết có có nghĩa Hình 3.1 Đường F0 sáu điệu tiếng Việt Bảng 3.1 Cấu trúc âm tiết tiếng Việt 38 Thanh điệu Phần đầu âm tiết Phần vần Đầu vần Nhân âm tiết Đuôi vần Bảng 3.2 Sáu điệu tiếng Việt Số thứ tự Tên tiếng Việt Tên tiếng Anh Ngang Level Huyền Falling Ngã Broken Hỏi Curve Sắc Rising Nặng Drop 3.1.2 Cơ sở liệu tiếng nói tiếng Việt Trong phần này, học viên giới thiệu số sở liệu tiếng nói tiếng Việt trung bình lớn phổ biến 3.1.2.1 Cơ sở liệu tiếng nói phát VOV Bộ sở liệu xây dựng Viện Công nghệ thông tin, Viện hàn lâm, khoa học công nghệ Việt Nam [4] Bộ sở liệu gồm câu chuyện, báo cáo, tin,… Đài tiếng nói Việt Nam VOV phát sưu tập từ 15 người nói giọng Hà Nội chuẩn Âm dạng RealAudio sưu tập từ website VOV chuyển đổi dạng âm PCM WAV với tốc độ bit 256 kbps, tần số lấy mẫu 16 KHz 39 Bộ sở liệu bao gồm 29062 câu với độ dài trung bình 10 âm tiết Số lượng âm tiết phân biệt 4379 số lượng âm tiết phân biệt khơng tính điệu 1646 bao phủ gần toàn âm tiết tiếng Việt Kích cỡ sở liệu khoảng 2.5 GB Bộ sở liệu lựa chọn cân người nói phiên gán nhãn tay mức âm tiết Mặc dù sở liệu lớn, việc sử dụng sở liệu cho nghiên cứu khó khăn chưa có nhãn gán mức âm vị 3.1.2.2 Cơ sở liệu DEMEN567 Bộ sở liệu xây dựng Viện Công nghệ thông tin, Viện hàn lâm, khoa học công nghệ Việt Nam [4] Kịch văn trích từ câu chuyện Dế mèn phiêu lưu ký tiếng Người nói nữ phát viên giọng Hà Nội chuẩn Tiếng nói ghi âm dạng PCM WAV, tần số lấy mẫu 11025 Hz, mã hóa 16 bit/mẫu Cơ sở liệu bao gồm 567 câu với độ dài câu khoảng 15 âm tiết Kích cỡ sở liệu vào khoảng 70 MB độ dài vào khoảng gần nói Bộ sở liệu gán nhãn tay mức âm tiết âm vị bao gồm thông tin điệu Đây sở liệu kích cỡ trung bình với chất lượng cao việc thiết kế kịch văn đảm bảo độ cân âm cao việc gán nhãn mức âm vị xác 3.1.2.3 Cơ sở liệu MICA VNSpeech Đây sở liệu xây dựng Trung tâm nghiên cứu quốc tế MICA, Đại học Bách Khoa Hà Nội Bộ sở liệu đươc nói 50 người nói bao gồm 25 nữ 25 nam với độ tuổi từ 15 đến 45 Người nói hầu hết có trình độ đại học với ba phương ngữ chính: miền Nam, miền Bắc, miền Trung Việt Nam Mỗi người nói khoảng 60 phút Tần số lấy mẫu 16 KHz Mức độ cân ngữ âm âm vị đảm bảo tốt [15] 40 Mặc dù sở liệu xem sở liệu tiếng nói lớn với chất lượng thu âm cao, nhãn mô tả sở liệu tạo phương pháp gán nhãn tự động có sai số lớn giới hạn khả sử dụng sở liệu nghiên cứu xử lý tiếng nói tiếng Việt 3.1.3 Tổng hợp tiếng nói tiếng Việt Chuyển đổi thơng tin người nói xem nhánh nghiên cứu tổng hợp tiếng nói Do đó, phần học viên điểm lại số nghiên cứu tổng hợp tiếng nói tiếng Việt Tổng hợp tiếng nói tiếng Việt bắt đầu nghiên cứu khoảng hai thập kỷ trở lại Hai tổng hợp tiếng nói tiếng Việt coi sơ khai VnSpeech sủ dụng công nghệ tổng hợp Formant VnVoice sủ dụng kỹ thuật ghép nối đơn vị âm Chất lượng tổng hợp chưa cao, học viên gần không phát triển tiếp Một số tổng hợp tiếng nói tiếng Việt thương mai hóa tổng hợp tiếng nói phương Nam (VOS), Sao Mai, Hoa Súng Đây tổng hợp dựa kỹ thuật ghép nối mức âm tiết hay mức từ Chúng tổng hợp tốt với giọng người nói sở liệu Tuy nhiên hệ thống chưa tích hợp khả chuyển đổi giọng người nói để tổng hợp nhiều giọng khác Gần hệ thống tổng hợp tiếng nói dùng phương pháp thống kê HMM nghiên cứu phát triển, nhiên vấn đề chuyển đổi giọng người nói để tổng hợp nhiều giọng nói đầu khác với nhiều cảm xúc nói khác chưa quan tâm nghiên cứu 3.2 Cài đặt phương pháp mã hóa Matlab Mơi trường để cài đặt MATLAB R2012 Các hàm phân tích, xử lý tiếng nói lấy từ thư viện tác giả 41 Thư viện hàm tính tốn đánh giá khách quan PESQ lấy từ thư viện tác giả Rix Antony Input: Các file âm có *.wav Output: Dữ liệu âm nén chất lượng đảm bảo Hình 3.2 Thuật tốn mã hóa đánh giá chất lượng tiếng nói mã hóa NMF Thuật tốn cài đặt hệ thống mã hóa tiếng nói dùng NMF Chien [2], học viên thực mã hóa NMF Chien [2] với tham số phổ LSF với tỷ lệ kiện tương ứng với tỷ lệ nén Nói cách khác tỷ lệ nén cố định Sau chất 42 lượng tiếng nói tái tạo so sánh với chất lượng tiếng nói nguồn Đây chưa phải hệ thống mã hóa hồn thiện (bao gồm khối mã hóa F0, AP), nhiên đủ để đánh giá chất lượng tiếng nói tái tạo mã hóa nén tham số phổ với tỷ lệ nén cho trước 3.3 Đánh giá khách quan, chủ quan so sánh phương pháp 3.3.1.Đánh giá khách quan chủ quan Trong đánh giá chất lượng tiếng nói phương pháp khách quan (máy đánh giá theo công thức) chủ quan (người nghe đánh giá) sử dụng Mỗi phương pháp có ưu nhược điểm riêng Dưới xem xét cụ thể tiêu chí phương pháp Tiêu chí chủ quan: Tiêu chí đánh giá chủ quan tiêu chí sử dụng người nghe để đánh giá chất lượng tiếng nói Tiêu chí chủ quan xem quan trọng mục tiêu cuối tiếng nói mã hóa phải đảm bảo người nghe hiểu được, chấp nhận Tuy nhiên để thực đánh giá chủ quan tốn kém, thời gian, cần thiết bị nghe phòng nghe chun dụng để tránh nhiễu mơi trường Ngồi ra, phương pháp chủ quan khó đảm bảo tin cậy hồn tồn người nghe tập trung, không tâm vào việc đánh giá chí cố tình cho điểm sai Các điểm yếu phương pháp chủ quan khắc phục cách tăng số lượng người nghe, số lượng phép test để đảm bảo giá trị thống kê có ổn định tin cậy Trong luận văn học viên sử dụng phương pháp Scheffe [17] Trong sinh viên có khả nghe bình thường lựa chọn để thực đánh giá nghe chủ quan loại tiếng nói (có nén, khơng nén) 20 mẫu Mỗi người hỏi để phân loại chất lượng tiếng nói nghe theo thang từ -2 đến so sánh hai mẫu tiếng nói nguồn mã hóa cặp Tiêu chí khách quan: 43 Nhằm khắc phục yếu điểm tiêu chí đánh giá chủ quan, nhiều phương pháp đánh giá khách quan xây dựng Các phương pháp đánh giá khách quan truyền thông theo cách tiếp cận so sánh trực tiếp hai tín hiệu nguồn mã hóa để tính tốn sai số khác biệt chứng tỏ không hiệu khả nghe người không tỷ lệ tuyến tính với sai số Nói cách khác hai tín hiệu có sai khác lớn người nghe thấy giống hai tín hiệu có sai khác nhỏ (nhưng điểm khác điểm quan trọng với tai người) Các phương pháp đánh giá khách quan đại sử dụng phương pháp mô hình hóa khả nghe người để “chủ quan hóa” tham số khách quan, từ đưa phương pháp tính tốn khách quan phù hợp với khả nghe người Trong số phương pháp đánh giá chất lượng tiếng nói khách quan phương pháp PESQ [18] sử dụng phổ biến sử dụng luận văn Đây tiêu chí khách quan mơ tiêu chí chủ quan mơ tả Hình 3.3 cách xây dựng mơ hình nghe nhân tạo tích hợp phân tích khả cảm thụ âm người Trong chất lượng tiếng nói đánh giá theo thang điểm Bảng 3.3, với tiếng nói chuẩn quy chiếu thang điểm cao điểm Hình 3.3 Mơ hình hóa người nghe PESQ 44 Bảng 3.3 Thang điểm PESQ Chất lượng tiếng nói Điểm Rất tốt Tốt Trung bình Kém Rất 3.3.2 So sánh với phương pháp khác Sau thực nghiệm phương pháp mã hóa tiếng nói NMF Chien [2], học viên thử nghiệm phương pháp sở liệu tiếng nói tiếng Việt DEMEN567 Tỷ lệ nén sử dụng làm để chọn tỷ lệ kiện tiếng nói, tỷ lệ nén đầu vào, học viên so sánh tiếng nói mã hóa nén tiếng nói gốc để tính tốn tiêu chí đánh giá khách quan PESQ đánh giá chủ quan Kết đánh giá chủ quan phương pháp Scheffe trung bình với 20 mẫu loại tiếng nói trích từ sở liệu DEMEN567 (có nén với tỷ lệ nén 20, không nén) cho Hình 3.4 Hình 3.5 Kết đánh giá khách quan phương pháp PESQ với 50 mẫu tiếng nói trích từ DEMEN567 cho thấy PESQ với tiếng nói khơng nén trung bình 4.5/5 cịn tiếng nói có nén 2.6/5 Hình 3.6 45 Tiếng nói mã hóa STRAIGHT (khơng nén) Tiếng nói mã hóa NMF (nén) với tỉ lệ nén 20 -2 -1 Chất lượng thấp Chất lượng cao Hình 3.4 Kết đánh giá chủ quan phương pháp Scheffe với tỷ lệ nén đầu vào 20 Tiếng nói mã hóa STRAIGHT (khơng nén) Tiếng nói mã hóa NMF (nén) với tỷ lệ nén 30 -2 -1 Chất lượng thấp Chất lượng cao Hình 3.5 Kết đánh giá chủ quan phương pháp Scheffe với tỷ lệ nén đầu vào 30 Hình 3.6 Hình ảnh dạng sóng tiếng nói nén, khơng nén với tỷ lệ nén 50 46 3.4 Phân tích, đánh giá ưu nhược điểm Với phương pháp nén truyền thống nén MP3, tỷ lệ nén trung bình khoảng 1/11 cho đầu âm CD có tốc độ bit 128 Kbps Trong luận văn này, học viên thử nghiệm tỷ lệ nén mức cao (20-30 lần) tiếng nói có tốc độ bit thấp chất lượng tiếng nói có nén chấp nhận với đánh giá chủ quan khách quan Hình 3.4 Hình 3.5 cho thấy thay đổi tỷ lệ nén từ 20 đến 30 chất lượng tiếng nói suy giảm khơng nhiều mức chấp nhận được, đủ để nghe hiểu Các kết cho thấy phương pháp mã hóa nén tiếng nói NMF phương pháp tốt tiếng Việt Cùng với kết đánh giá hiệu NMF tiếng Anh, tiếng Nhật [1, 2] kết nghiên cứu cho thấy NMF phương pháp mã hóa nén hiệu với nhiều ngơn ngữ, có nhiều tiềm ứng dụng Ưu điểm  NMF chuyển matrix X thành phép nhân maxtrix cấp thấp với độ xấp xỉ sai số nhỏ Mục đích để giảm cho việc lưu trữ việc tính toán đảm bảo đặc điểm liệu (các đặc tính mơ hình)  Một thuật tốn dựa NMF-WI trình bày hoạt động tốc độ bit thấp với tốc độ 1kb / s Trong mã hóa này, tham số hai khung liên tiếp nhóm thành siêu khung lượng tử hóa Để giảm dư thừa nữa, số kỹ thuật sử dụng, tức dự đoán khung giới thiệu cho LSF DCT áp dụng để giảm kích thước ma trận mã hóa mã hóa H lượng tử hóa Nhược điểm  Hiện khơng có nhiều kết lý thuyết NMF hoàn chỉnh từ quan điểm phân rã ma trận, chẳng hạn độ phức tạp tính toán  Hiện cần nghiên cứu xem xét để lựa chọn đánh giá hàm mục tiêu khác để hình thành phương pháp NMF 47  Để sử dụng thực tế NMF tập liệu quy mô lớn, thuật tốn NMF cải tiến độ phức tạp tính tốn cần nghiên cứu thêm KẾT LUẬN Trong luận văn học viên nghiên cứu phương pháp mã hóa tiếng nói tốc độ bit thấp thời gian thực dùng kỹ thuật NMF nói chung, phương pháp NMF Xue NMF N.P.Chien nói riêng Học viên phân tích lý thuyết, cài đặt thực nghiệm đánh giá hiệu phương pháp mã hóa tiếng nói dùng kỹ thuật NMF Tuy nhiên thuật tốn NMF có độ phức tạp tính tốn cao, khơng phù hợp với việc mã hóa tiếng nói thời gian thực Kỹ thuật phân rã tiếng nói theo thời gian NMF Chien [2] kỹ thuật phân tích tiếng nói đề xuất Chien [2] năm 2007 Một số nhà nghiên cứu cải tiến thuật toán NMF Chien [2] theo hướng giảm độ phức tạp tính tốn, 48 ứng dụng mã hóa tiếng nói tốc độ bit thấp thời gian thực Các kết nghiên cứu cho thấy NMF N.P.Chien[2] thích hợp để phân tích mơ hình hóa tiếng nói mã hóa nén tiếng nói với tiếng nói tiếng Việt, từ cho thấy phương pháp mã hóa nén tiếng nói NMF phương pháp tốt tiếng Việt Cùng với kết đánh giá hiệu NMF tiếng Anh, tiếng Nhật kết nghiên cứu cho thấy NMF phương pháp mã hóa nén hiệu với nhiều ngơn ngữ, có nhiều tiềm ứng dụng Hướng nghiên cứu tiếp tục phát triển năm gần theo hướng:  Tối ưu thuật tốn thơng qua tinh chỉnh tham số rate  Tối ưu mã nguồn giao diện chương trình thử nghiệm TÀI LIỆU THAM KHẢO [1] Nguyen, Phu Chien, Ochi Takao, and Masato Akagi "Modified restricted temporal decomposition and its application to low rate speech coding." IEICE TRANSACTIONS on Information and Systems 86.3 (2003): 397-405 [2] Nguyen, Phu Chien, Masato Akagi, and Binh Phu Nguyen "Limited error based event localizing temporal decomposition and its application to variablerate speech coding." Speech communication 49.4 (2007): 292-304 [3] Phung, Trung-Nghia, et al "Improving naturalness of HMM-based TTS trained with limited data by temporal decomposition." IEICE TRANSACTIONS on Information and Systems 96.11 (2013): 2417-2426 49 [4] L.C Mai and D.N Duc, “Design of Vietnamese speech corpus and current status," Proc ISCSLP-06, pp 748-758 (2006) [5] Hồng Phê, Chính tả Tiếng Việt, NXB Đà Nẵng, trang 9-15, 2003 [6] Đoàn Thiện Thuật, Ngữ âm tiếng Việt, NXB Đại học Quốc Gia, 2003 [7] Atal, Bishnu S., and Manfred R Schroeder "Adaptive predictive coding of speech signals." Bell System Technical Journal, The 49.8 (1970): 1973-1986 [8] Atal, Bishnu S., and J Remde "A new model of LPC excitation for producing natural-sounding speech at low bit rates." Acoustics, Speech, and Signal Processing, IEEE International Conference on ICASSP'82 Vol.7 IEEE, 1982 [9] Atal, Bishnu S "Efficient coding of LPC parameters by temporal decomposition." Acoustics, Speech, and Signal Processing, IEEE International Conference on ICASSP'83 Vol IEEE, 1983 [10] GUO, Li-li, and Chang-chun BAO "2kb/s Bayesian Ying-Yang Waveform Interpolative Speech Coding Based on Non-Negative Matrix Factorization [J]." Acta Electronica Sinica (2009) [11] Hiroya, Sadao "Non-Negative Temporal Decomposition of Speech Parameters by Multiplicative Update Rules", IEEE Transactions on Audio, Speech, and Language Processing, 21.10 (2013): 2108-2117 [12] Kleijn, W Bastiaan, and Kuldip K Paliwal Speech coding and synthesis Elsevier Science Inc., 1995 [13] Kim, Sung-Joo, and Yung-Hwan Oh "Efficient quantization method for LSF parameters based on restricted temporal decomposition." Electronics Letters35.12 (1999): 962-964 [14] Kawahara, Hideki "STRAIGHT, exploitation of the other aspect of VOCODER: Perceptually isomorphic decomposition of speech sounds " Acoustical science and technology 27.6 (2006): 349-353 50 [15] H Scheffe, “An analysis of variance for paired comparisons,” Journal of the AmericanStatistical Association, vol 47, pp 381-400, 1952 [16] Rix, Antony W., et al "Perceptual evaluation of speech quality (PESQ)-a new method for speech quality assessment of telephone networks and codecs."Acoustics, Speech, and Signal Processing, 2001 Proceedings.(ICASSP'01) 2001 IEEE International Conference on Vol IEEE, 2001 [17] Xue, Er-juan, and Chang-chun Bao "1kb/s waveform interpolation speech coding based on non-negative matrix factorization." 2008 9th International Conference on Signal Processing IEEE, 2008 [18] XUE, Er-juan, Chang-chun BAO, and Ru-wei LI "1 kb/s waveform interpolative speech coding based on two-dimensional nonnegative matrix factorization." Acta Electronica Sinica 38 (2010): 1574-1579

Ngày đăng: 05/04/2023, 20:19

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan