Bài viết ực hiện khảo sát và đánh giá hiệu quả của việc cập nhật nhiễu trực tuyến theo thời gian trong các thuật toán nâng cao chất lượng tiếng nói. Việc khảo sát và đánh giá được thực hiện cho ba dạng thuật toán chính là: thuật toán dựa trên mô hình thống kê; thuật toán không gian con (subspace); thuật toán trừ phổ. Bên cạnh đó, bài báo cũng đề xuất phương pháp chọn giá trị ngưỡng quyết định tín hiệu phù hợp với mỗi ứng dụng cụ thể. Mời các bạn cùng tham khảo!
HộiHội Thảo Quốc Gia 2015 Công CôngNghệ NghệThông Thông (ECIT 2015) Thảo Quốc Gia 2015về vềĐiện ĐiệnTử, Tử,Truyền TruyềnThông Thông TinTin (ECIT 2015) Đánh Giá Hiệu Quả Cập Nhật Nhiễu Trực Tuyến Trong Các Thuật Toán Nâng Cao Chất Lượng Tiếng Nói Đào Văn Lân, Hồng Văn Phúc Vũ Hỏa Tiễn Trường Đại học Kỹ thuật Lê Q Đơn, 236 Hồng Quốc Việt, Hà Nội, Việt Nam Email: kqha1025@gmail.com, phuchv@mta.edu.vn, hoatien57@yahoo.com Tóm tắt – ực kh o sát đ ệu qu việc cập nhật nhiễu trực tuyến theo thời gian thuật toán nâng cao chấ lượng tiếng nói Việc kh s v đ thực cho ba dạng thuật tốn là: thuật tốn dựa mơ hình thống kê; thuật tốn khơng gian (subspace); thuật tốn trừ phổ Bên cạ đ ũ đề xuấ p ươ p p chọn giá trị ưỡng quyế định tín hiệu phù hợp với ứng dụng cụ thể hiệu nhiễu trực tuyến mô tả ph n III Cuối ph n V nh ng kết luận II Trong tài liệu [1, 3, 4, 7, 15, đ đưa số phương pháp cập nhật nhiễu theo thời gian thuật toán xử lý nâng cao chất lượng tiếng nói Từ khóa- Speech enhancement, statistical model based methods, subspace algorithms, spectral-subtractive algorithms I Cập nhật nhiễu trực tuyến phương pháp thực liên tục việc cập nhật phổ nhiễu chu kỳ trích mẫu song song với việc thực thuật toán xử lý tín hiệu tiếng nói Căn để thực việc cập nhật nhiễu trực tuyến phát tiếng nói (VAD: Voice Activity Detection) để cập nhật phổ nhiễu khoảng chu kỳ khơng có tiếng nói GIỚI THIỆU Hiện nay, có nhiều nghiên cứu liên quan đến việc xử lý tiếng nói ứng dụng nhận dạng người, nhận dạng nội dung tiếng nói, chuyển tiếng nói sang văn bản, chuyển từ tiếng nói sang tiếng nói tài liệu đ đề cập Trong thuật tốn dựa mơ hình thống kê [1], vấn đề đặt việc nâng cao chất lượng tiếng nói phải đề khung mơ tả mang tính thống kê, tập phép đo tương ứng với hệ chuyển đổi Fourier tín hiệu nhiễu mong muốn tìm phương pháp ước lượng tuyến tính phi tuyến với tham số có lợi hệ chuyển đổi tín hiệu Hình sơ đồ khối tổng qt ứng dụng xử lý số tín hiệu tiếng nói Sau chuyển đổi từ tương tự sang số (ADC), tín hiệu đ u vào bao gồm tín hiệu có ích (tiếng nói) nhiễu từ nhiều nguồn khác (như tiếng ô tô, xe máy, tiếng ồn nhà máy… ) Vì tất ứng dụng sử dụng khối tiền xử lý, nhằm nâng cao chất lượng tiếng nói trước áp dụng thuật toán ứng dụng cụ thể Trong khối tiền xử lý việc cập nhật nhiễu (noise update) có ý nghĩa quan trọng, ảnh hưởng đến chất lượng thuật tốn nâng cao chất lượng tiếng nói ( ế í ệu v , ễu) K ố â lượ ề xử lý a ấ ế N ậ ườ N ậ ế ộ du …… Quy luật cập nhật nhiễu trực tuyến thuật toán dựa mơ hình thống kê [1, 2, 8, 9, định công thức (1) (2) H1 N 1 log k N k 1 (1) H0 1 k k k 1 k Với k exp í ệu a C u ể ế sa vă Dk (i) (1 ).Yk2 (i) Dk (i 1) C u ể ế sa ế (2) Trong γk, ξk tương ứng với tỷ số tín hiệu/nhiễu (SNR) tiên nghiệm hậu nghiệm [15] Hình Sơ đồ tổng quát ứng dụng xử lý số tín hiệu tiếng nói N số điểm thực thuật tốn FFT Mục đích báo khảo sát đánh giá hiệu việc cập nhật nhiễu trực tuyến thuật tốn nâng cao chất lượng tiếng nói khối tiền xử lý nâng cao chất lượng tiếng nói mơ tả hình Nội dung báo, ph n tác giả giới thiệu qui tắc cập nhật nhiễu trực tuyến kết thực nghiệm Đánh giá ISBN: 978-604-67-0635-9 QUY TẮC CẬP NHẬT NHIỄU TRỰC TUYẾN H1 giả thiết tín hiệu đ u vào gồm tín hiệu có ích tiếng nói, cịn H0 giả thiết tín hiệu đ u vào có nhiễu δ giá trị ngưỡng định tín hiệu vào có nhiễu hay gồm tín hiệu có ích Dk(i) công suất phổ nhiễu khung thứ i (t n số k) 178 178 Hội Thảo Quốc Gia 2015 Điện Tử, Truyền Thông Công Nghệ Thông Tin (ECIT 2015) Hội Thảo Quốc Gia 2015 Điện Tử, Truyền Thông Công Nghệ Thông Tin (ECIT 2015) Tiêu chí để đánh giá chất lượng thuật tốn nâng cao chất lượng tiếng nói theo [1, 5] gồm độ méo tín hiệu tiếng nói (SIG), nhiễu (BAK) hiệu ứng tổng thể (OVL) Trong báo tác giả đề xuất phương pháp tìm giá trị tối ưu δ từ thực nghiệm theo bước sau: Yk2 (i ) cơng suất phổ tín hiệu gồm tiếng nói nhiễu β số làm mịn (smoothing constant) chọn dải (0