5. Ý nghĩa khoa học và thực tiễn
3.3. Đánh giá khách quan, chủ quan và so sánh các phương pháp
3.3.1.Đánh giá khách quan và chủ quan
Trong đánh giá chất lượng tiếng nói thì cả các phương pháp khách quan (máy đánh giá theo công thức) và chủ quan (người nghe đánh giá) đều được sử dụng. Mỗi phương pháp có những ưu nhược điểm riêng. Dưới đây sẽ xem xét cụ thể từng tiêu chí của từng phương pháp.
Tiêu chí chủ quan:
Tiêu chí đánh giá chủ quan là tiêu chí sử dụng người nghe để đánh giá chất lượng tiếng nói. Tiêu chí chủ quan được xem là quan trọng hơn do mục tiêu cuối cùng của tiếng nói mã hóa vẫn phải là đảm bảo người nghe hiểu được, chấp nhận được. Tuy nhiên để thực hiện các đánh giá chủ quan là tốn kém, mất thời gian, cần thiết bị nghe và phòng nghe chuyên dụng để tránh nhiễu môi trường. Ngoài ra, các phương pháp chủ quan khó đảm bảo sự tin cậy hoàn toàn do người nghe có thể mất tập trung, không chú tâm vào việc đánh giá hoặc thậm chí cố tình cho điểm sai. Các điểm yếu của các phương pháp chủ quan có thể khắc phục bằng cách tăng số lượng người nghe, số lượng phép test để đảm bảo các giá trị thống kê có sự ổn định và tin cậy.
Trong luận văn này học viên sử dụng phương pháp của Scheffe [17]. Trong đó 5 sinh viên có khả năng nghe bình thường được lựa chọn để thực hiện các đánh giá nghe chủ quan mỗi loại tiếng nói (có nén, không nén) 20 mẫu. Mỗi người được hỏi để phân loại chất lượng tiếng nói nghe được theo thang từ -2 đến 2 khi so sánh hai mẫu tiếng nói nguồn và mã hóa trong một cặp.
Nhằm khắc phục các yếu điểm của tiêu chí đánh giá chủ quan, nhiều phương pháp đánh giá khách quan đã được xây dựng. Các phương pháp đánh giá khách quan truyền thông theo cách tiếp cận so sánh trực tiếp hai tín hiệu nguồn và mã hóa để tính toán sai số khác biệt đã chứng tỏ không hiệu quả do khả năng nghe của con người không tỷ lệ tuyến tính với sai số. Nói cách khác hai tín hiệu có sai khác lớn có thể người nghe sẽ thấy giống hơn hai tín hiệu có sai khác nhỏ (nhưng các điểm khác là các điểm quan trọng với tai người). Các phương pháp đánh giá khách quan hiện đại nhất được sử dụng là các phương pháp mô hình hóa khả năng nghe của con người để “chủ quan hóa” các tham số khách quan, từ đó đưa ra các phương pháp tính toán khách quan phù hợp nhất với khả năng nghe của con người.
Trong số các phương pháp đánh giá chất lượng tiếng nói khách quan thì phương pháp PESQ [18] được sử dụng phổ biến nhất và cũng được sử dụng trong luận văn này. Đây là một tiêu chí khách quan mô phỏng tiêu chí chủ quan mô tả trong Hình 3.3 bằng cách xây dựng một mô hình nghe nhân tạo tích hợp các phân tích về khả năng cảm thụ âm của con người. Trong đó chất lượng tiếng nói được đánh giá theo thang 5 điểm như trong Bảng 3.3, với tiếng nói chuẩn được quy chiếu ở thang điểm cao nhất 5 điểm.
Bảng 3.3. Thang điểm PESQ
Chất lượng tiếng nói Điểm
Rất tốt 5 Tốt 4 Trung bình 3 Kém 2 Rất kém 1 3.3.2. So sánh với các phương pháp khác.
Sau khi thực nghiệm phương pháp mã hóa tiếng nói NMF của Chien [2], học viên thử nghiệm phương pháp trên cơ sở dữ liệu tiếng nói tiếng Việt DEMEN567. Tỷ lệ nén được sử dụng làm căn cứ để chọn tỷ lệ sự kiện tiếng nói, trên từng tỷ lệ nén đầu vào, học viên sẽ so sánh tiếng nói được mã hóa nén và tiếng nói gốc để tính toán các tiêu chí đánh giá khách quan như PESQ cũng như đánh giá chủ quan.
Kết quả đánh giá chủ quan bằng phương pháp của Scheffe trung bình với 20 mẫu mỗi loại tiếng nói trích từ cơ sở dữ liệu DEMEN567 (có nén với tỷ lệ nén là 20, không nén) được cho Hình 3.4 và Hình 3.5. Kết quả đánh giá khách quan bằng phương pháp PESQ với 50 mẫu tiếng nói trích từ DEMEN567 cho thấy PESQ với tiếng nói không nén trung bình là 4.5/5 còn tiếng nói có nén là 2.6/5 như trên Hình 3.6.
Hình 3.4. Kết quả đánh giá chủ quan bằng phương pháp của Scheffe với tỷ lệ nén đầu vào là 20
Hình 3.5. Kết quả đánh giá chủ quan bằng phương pháp của Scheffe với tỷ lệ nén đầu vào là 30 0 1 -1 -2 2 Chất lượng cao Chất lượng thấp
Tiếng nói mã hóa bằng STRAIGHT (không nén)
Tiếng nói mã hóa bằng NMF (nén) với tỉ lệ nén là 20 0 1 -1 -2 2 Chất lượng cao Chất lượng thấp
Tiếng nói mã hóa bằng STRAIGHT (không nén)
Tiếng nói mã hóa bằng NMF (nén) với tỷ lệ nén 30
3.4. Phân tích, đánh giá ưu nhược điểm
Với các phương pháp nén truyền thống như nén MP3, tỷ lệ nén trung bình khoảng 1/11 cho đầu ra âm thanh CD có tốc độ bit là 128 Kbps. Trong luận văn này, khi học viên thử nghiệm ở tỷ lệ nén ở mức rất cao (20-30 lần) để cho ra tiếng nói có tốc độ bit rất thấp thì chất lượng tiếng nói có nén vẫn chấp nhận được với cả đánh giá chủ quan và khách quan. Hình 3.4 và Hình 3.5 cho thấy khi thay đổi tỷ lệ nén từ 20 đến 30 thì chất lượng tiếng nói suy giảm không nhiều và vẫn ở mức chấp nhận được, đủ để nghe hiểu. Các kết quả trên cho thấy phương pháp mã hóa nén tiếng nói NMF là một phương pháp tốt trên tiếng Việt. Cùng với các kết quả đánh giá hiệu quả NMF trên tiếng Anh, tiếng Nhật [1, 2] thì kết quả nghiên cứu này cho thấy NMF là một phương pháp mã hóa nén hiệu quả với nhiều ngôn ngữ, có nhiều tiềm năng ứng dụng.
Ưu điểm
NMF chuyển một matrix X thành phép nhân 2 maxtrix cấp thấp hơn với độ xấp xỉ và sai số nhỏ. Mục đích để giảm cho việc lưu trữ và việc tính toán nhưng vẫn đảm bảo được các đặc điểm của dữ liệu (các đặc tính của mô hình).
Một thuật toán mới dựa trên NMF-WI được trình bày có thể hoạt động ở tốc độ bit rất thấp với tốc độ 1kb / s. Trong bộ mã hóa này, các tham số của hai khung liên tiếp được nhóm thành một siêu khung và được lượng tử hóa cùng nhau. Để giảm sự dư thừa hơn nữa, một số kỹ thuật được sử dụng, tức là dự đoán giữa các khung đã được giới thiệu cho LSF và DCT được áp dụng để giảm kích thước khi ma trận mã hóa và mã hóa H được lượng tử hóa.
Nhược điểm
Hiện tại không có nhiều kết quả lý thuyết về NMF hoàn chỉnh từ quan điểm phân rã ma trận, chẳng hạn như độ phức tạp tính toán.
Hiện tại vẫn cần được nghiên cứu và xem xét để lựa chọn và đánh giá các hàm mục tiêu khác nhau để hình thành các phương pháp NMF.
Để có thể sử dụng thực tế NMF trên tập dữ liệu quy mô lớn, các thuật toán NMF cải tiến về độ phức tạp tính toán thì cần được nghiên cứu thêm.
KẾT LUẬN
Trong luận văn này học viên đã nghiên cứu về phương pháp mã hóa tiếng nói tốc độ bit thấp thời gian thực dùng kỹ thuật NMF nói chung, phương pháp NMF của Xue và NMF của N.P.Chien nói riêng. Học viên đã phân tích lý thuyết, cài đặt thực nghiệm và đánh giá hiệu quả của phương pháp mã hóa tiếng nói dùng kỹ thuật NMF. Tuy nhiên thuật toán NMF có độ phức tạp tính toán cao, không phù hợp với việc mã hóa tiếng nói thời gian thực
Kỹ thuật phân rã tiếng nói theo thời gian NMF của Chien [2] là một kỹ thuật phân tích tiếng nói được đề xuất bởi Chien [2] năm 2007. Một số nhà nghiên cứu đã cải tiến thuật toán NMF của Chien [2] theo hướng giảm độ phức tạp tính toán,
ứng dụng trong mã hóa tiếng nói tốc độ bit thấp thời gian thực. Các kết quả nghiên cứu cho thấy NMF của N.P.Chien[2] rất thích hợp để phân tích mô hình hóa tiếng nói cũng như mã hóa nén tiếng nói với tiếng nói tiếng Việt, từ đó trên cho thấy phương pháp mã hóa nén tiếng nói NMF là một phương pháp tốt trên tiếng Việt. Cùng với các kết quả đánh giá hiệu quả NMF trên tiếng Anh, tiếng Nhật thì kết quả nghiên cứu này cho thấy NMF là một phương pháp mã hóa nén hiệu quả với nhiều ngôn ngữ, có nhiều tiềm năng ứng dụng.
Hướng nghiên cứu này vẫn được tiếp tục phát triển trong những năm gần đây và theo hướng:
Tối ưu thuật toán thông qua tinh chỉnh tham số rate.
Tối ưu mã nguồn và giao diện của chương trình thử nghiệm.
TÀI LIỆU THAM KHẢO
[1]. Nguyen, Phu Chien, Ochi Takao, and Masato Akagi. "Modified restricted
temporal decomposition and its application to low rate speech coding." IEICE
TRANSACTIONS on Information and Systems 86.3 (2003): 397-405.
[2]. Nguyen, Phu Chien, Masato Akagi, and Binh Phu Nguyen. "Limited error based event localizing temporal decomposition and its application to variable-
rate speech coding." Speech communication 49.4 (2007): 292-304.
[3]. Phung, Trung-Nghia, et al. "Improving naturalness of HMM-based TTS
[4]. L.C. Mai and D.N. Duc, “Design of Vietnamese speech corpus and current status," Proc. ISCSLP-06, pp. 748-758 (2006).
[5]. Hoàng Phê, Chính tả Tiếng Việt, NXB Đà Nẵng, trang. 9-15, 2003. [6]. Đoàn Thiện Thuật, Ngữ âm tiếng Việt, NXB Đại học Quốc Gia, 2003.
[7]. Atal, Bishnu S., and Manfred R. Schroeder. "Adaptive predictive coding of
speech signals." Bell System Technical Journal, The 49.8 (1970): 1973-1986.
[8]. Atal, Bishnu S., and J. Remde. "A new model of LPC excitation for producing
natural-sounding speech at low bit rates." Acoustics, Speech, and Signal
Processing, IEEE International Conference on ICASSP'82. Vol.7. IEEE,
1982.
[9]. Atal, Bishnu S. "Efficient coding of LPC parameters by temporal
decomposition." Acoustics, Speech, and Signal Processing, IEEE
International Conference on ICASSP'83.. Vol. 8. IEEE, 1983.
[10]. GUO, Li-li, and Chang-chun BAO. "2kb/s Bayesian Ying-Yang Waveform Interpolative Speech Coding Based on Non-Negative Matrix Factorization [J]." Acta Electronica Sinica 5 (2009).
[11]. Hiroya, Sadao. "Non-Negative Temporal Decomposition of Speech
Parameters by Multiplicative Update Rules", IEEE Transactions on Audio,
Speech, and Language Processing, 21.10 (2013): 2108-2117.
[12]. Kleijn, W. Bastiaan, and Kuldip K. Paliwal. Speech coding and synthesis.
Elsevier Science Inc., 1995.
[13]. Kim, Sung-Joo, and Yung-Hwan Oh. "Efficient quantization method for LSF
parameters based on restricted temporal decomposition." Electronics
Letters35.12 (1999): 962-964.
[14]. Kawahara, Hideki. "STRAIGHT, exploitation of the other aspect of VOCODER: Perceptually isomorphic decomposition of speech sounds.
[15]. H. Scheffe, “An analysis of variance for paired comparisons,” Journal of the AmericanStatistical Association, vol. 47, pp. 381-400, 1952.
[16]. Rix, Antony W., et al. "Perceptual evaluation of speech quality (PESQ)-a new method for speech quality assessment of telephone networks and
codecs."Acoustics, Speech, and Signal Processing, 2001.
Proceedings.(ICASSP'01). 2001 IEEE International Conference on. Vol. 2.
IEEE, 2001.
[17]. Xue, Er-juan, and Chang-chun Bao. "1kb/s waveform interpolation speech coding based on non-negative matrix factorization." 2008 9th International Conference on Signal Processing. IEEE, 2008.
[18]. XUE, Er-juan, Chang-chun BAO, and Ru-wei LI. "1 kb/s waveform interpolative speech coding based on two-dimensional nonnegative matrix factorization." Acta Electronica Sinica 38 (2010): 1574-1579.