5. Ý nghĩa khoa học và thực tiễn
3.4. Phân tích, đánh giá ưu nhược điểm
Với các phương pháp nén truyền thống như nén MP3, tỷ lệ nén trung bình khoảng 1/11 cho đầu ra âm thanh CD có tốc độ bit là 128 Kbps. Trong luận văn này, khi học viên thử nghiệm ở tỷ lệ nén ở mức rất cao (20-30 lần) để cho ra tiếng nói có tốc độ bit rất thấp thì chất lượng tiếng nói có nén vẫn chấp nhận được với cả đánh giá chủ quan và khách quan. Hình 3.4 và Hình 3.5 cho thấy khi thay đổi tỷ lệ nén từ 20 đến 30 thì chất lượng tiếng nói suy giảm không nhiều và vẫn ở mức chấp nhận được, đủ để nghe hiểu. Các kết quả trên cho thấy phương pháp mã hóa nén tiếng nói NMF là một phương pháp tốt trên tiếng Việt. Cùng với các kết quả đánh giá hiệu quả NMF trên tiếng Anh, tiếng Nhật [1, 2] thì kết quả nghiên cứu này cho thấy NMF là một phương pháp mã hóa nén hiệu quả với nhiều ngôn ngữ, có nhiều tiềm năng ứng dụng.
Ưu điểm
NMF chuyển một matrix X thành phép nhân 2 maxtrix cấp thấp hơn với độ xấp xỉ và sai số nhỏ. Mục đích để giảm cho việc lưu trữ và việc tính toán nhưng vẫn đảm bảo được các đặc điểm của dữ liệu (các đặc tính của mô hình).
Một thuật toán mới dựa trên NMF-WI được trình bày có thể hoạt động ở tốc độ bit rất thấp với tốc độ 1kb / s. Trong bộ mã hóa này, các tham số của hai khung liên tiếp được nhóm thành một siêu khung và được lượng tử hóa cùng nhau. Để giảm sự dư thừa hơn nữa, một số kỹ thuật được sử dụng, tức là dự đoán giữa các khung đã được giới thiệu cho LSF và DCT được áp dụng để giảm kích thước khi ma trận mã hóa và mã hóa H được lượng tử hóa.
Nhược điểm
Hiện tại không có nhiều kết quả lý thuyết về NMF hoàn chỉnh từ quan điểm phân rã ma trận, chẳng hạn như độ phức tạp tính toán.
Hiện tại vẫn cần được nghiên cứu và xem xét để lựa chọn và đánh giá các hàm mục tiêu khác nhau để hình thành các phương pháp NMF.
Để có thể sử dụng thực tế NMF trên tập dữ liệu quy mô lớn, các thuật toán NMF cải tiến về độ phức tạp tính toán thì cần được nghiên cứu thêm.
KẾT LUẬN
Trong luận văn này học viên đã nghiên cứu về phương pháp mã hóa tiếng nói tốc độ bit thấp thời gian thực dùng kỹ thuật NMF nói chung, phương pháp NMF của Xue và NMF của N.P.Chien nói riêng. Học viên đã phân tích lý thuyết, cài đặt thực nghiệm và đánh giá hiệu quả của phương pháp mã hóa tiếng nói dùng kỹ thuật NMF. Tuy nhiên thuật toán NMF có độ phức tạp tính toán cao, không phù hợp với việc mã hóa tiếng nói thời gian thực
Kỹ thuật phân rã tiếng nói theo thời gian NMF của Chien [2] là một kỹ thuật phân tích tiếng nói được đề xuất bởi Chien [2] năm 2007. Một số nhà nghiên cứu đã cải tiến thuật toán NMF của Chien [2] theo hướng giảm độ phức tạp tính toán,
ứng dụng trong mã hóa tiếng nói tốc độ bit thấp thời gian thực. Các kết quả nghiên cứu cho thấy NMF của N.P.Chien[2] rất thích hợp để phân tích mô hình hóa tiếng nói cũng như mã hóa nén tiếng nói với tiếng nói tiếng Việt, từ đó trên cho thấy phương pháp mã hóa nén tiếng nói NMF là một phương pháp tốt trên tiếng Việt. Cùng với các kết quả đánh giá hiệu quả NMF trên tiếng Anh, tiếng Nhật thì kết quả nghiên cứu này cho thấy NMF là một phương pháp mã hóa nén hiệu quả với nhiều ngôn ngữ, có nhiều tiềm năng ứng dụng.
Hướng nghiên cứu này vẫn được tiếp tục phát triển trong những năm gần đây và theo hướng:
Tối ưu thuật toán thông qua tinh chỉnh tham số rate.
Tối ưu mã nguồn và giao diện của chương trình thử nghiệm.
TÀI LIỆU THAM KHẢO
[1]. Nguyen, Phu Chien, Ochi Takao, and Masato Akagi. "Modified restricted
temporal decomposition and its application to low rate speech coding." IEICE
TRANSACTIONS on Information and Systems 86.3 (2003): 397-405.
[2]. Nguyen, Phu Chien, Masato Akagi, and Binh Phu Nguyen. "Limited error based event localizing temporal decomposition and its application to variable-
rate speech coding." Speech communication 49.4 (2007): 292-304.
[3]. Phung, Trung-Nghia, et al. "Improving naturalness of HMM-based TTS
[4]. L.C. Mai and D.N. Duc, “Design of Vietnamese speech corpus and current status," Proc. ISCSLP-06, pp. 748-758 (2006).
[5]. Hoàng Phê, Chính tả Tiếng Việt, NXB Đà Nẵng, trang. 9-15, 2003. [6]. Đoàn Thiện Thuật, Ngữ âm tiếng Việt, NXB Đại học Quốc Gia, 2003.
[7]. Atal, Bishnu S., and Manfred R. Schroeder. "Adaptive predictive coding of
speech signals." Bell System Technical Journal, The 49.8 (1970): 1973-1986.
[8]. Atal, Bishnu S., and J. Remde. "A new model of LPC excitation for producing
natural-sounding speech at low bit rates." Acoustics, Speech, and Signal
Processing, IEEE International Conference on ICASSP'82. Vol.7. IEEE,
1982.
[9]. Atal, Bishnu S. "Efficient coding of LPC parameters by temporal
decomposition." Acoustics, Speech, and Signal Processing, IEEE
International Conference on ICASSP'83.. Vol. 8. IEEE, 1983.
[10]. GUO, Li-li, and Chang-chun BAO. "2kb/s Bayesian Ying-Yang Waveform Interpolative Speech Coding Based on Non-Negative Matrix Factorization [J]." Acta Electronica Sinica 5 (2009).
[11]. Hiroya, Sadao. "Non-Negative Temporal Decomposition of Speech
Parameters by Multiplicative Update Rules", IEEE Transactions on Audio,
Speech, and Language Processing, 21.10 (2013): 2108-2117.
[12]. Kleijn, W. Bastiaan, and Kuldip K. Paliwal. Speech coding and synthesis.
Elsevier Science Inc., 1995.
[13]. Kim, Sung-Joo, and Yung-Hwan Oh. "Efficient quantization method for LSF
parameters based on restricted temporal decomposition." Electronics
Letters35.12 (1999): 962-964.
[14]. Kawahara, Hideki. "STRAIGHT, exploitation of the other aspect of VOCODER: Perceptually isomorphic decomposition of speech sounds.
[15]. H. Scheffe, “An analysis of variance for paired comparisons,” Journal of the AmericanStatistical Association, vol. 47, pp. 381-400, 1952.
[16]. Rix, Antony W., et al. "Perceptual evaluation of speech quality (PESQ)-a new method for speech quality assessment of telephone networks and
codecs."Acoustics, Speech, and Signal Processing, 2001.
Proceedings.(ICASSP'01). 2001 IEEE International Conference on. Vol. 2.
IEEE, 2001.
[17]. Xue, Er-juan, and Chang-chun Bao. "1kb/s waveform interpolation speech coding based on non-negative matrix factorization." 2008 9th International Conference on Signal Processing. IEEE, 2008.
[18]. XUE, Er-juan, Chang-chun BAO, and Ru-wei LI. "1 kb/s waveform interpolative speech coding based on two-dimensional nonnegative matrix factorization." Acta Electronica Sinica 38 (2010): 1574-1579.