Luận văn gồm 4 chương: Chương 1 : Lý thuyết về tăng cường tiếng nói Chương 2: Dự đoán tạp âm. Chương 3: Phương pháp tăng cường tiếng nói dựa trên hiệu ứng che lấp của thính giác. Chương 4: Tăng cường tiếng nói bằng phương pháp dự đoán tạp âm IMCRA kết hợp đặc điểm thính giác.
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG LẠI THẾ HƯNG NGHIÊN CỨU VỀ ĐẶC TÍNH THÍNH GIÁC VÀ DỰ ĐOÁN TẠP ÂM TRONG TĂNG CƯỜNG TIẾNG NÓI Chuyên ngành: Kỹ thuật viễn thông Mã số: 60.52.02.08 TÓM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI – NĂM 2014 Luận văn được hoàn thành tại: HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG Người hướng dẫn khoa học: TS. Nguyễn Ngọc Minh Phản biện 1: TS. Vũ Văn San Phản biện 2: PGS.TS. Trần Hồng Quân Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học viện Công nghệ Bưu chính Viễn thông Vào lúc: giờ ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện của Học viện Công nghệ Bưu chính Viễn thông 1 I. M Trong đời sống, tiếng nói đóng vai trò quan trọng, là hình thức giao tiếp thông dụng nhất giữa con người với con người, con người với máy móc,v.v. Thế nhưng trên thực tế, tiếng nói không bao giờ tồn tại một cách độc lập, kèm theo nó là rất nhiều loại tạp âm khác nhau. Sự tồn tại của tạp âm làm chất lượng tiếng nói bị giảm sút, do luôn luôn có sự tồn tại của tạp âm kèm theo tiếng nói trong bất kể hoàn cảnh nào, dẫn tới suy giảm chất lượng âm thanh trong giao tiếp, nên làm thế nào để lọc những tạp âm đó ra khỏi tín hiệu tiếng nói để giảm mệt mỏi cho người nghe và tránh thay đổi trong giọng nói của người nói luôn là mối quan tâm hàng đầu trong xử lý tiếng nói của các nhà nghiên cứu. Một trong các phương pháp truyền thống nhưng được ứng dụng nhiều do cách tính đơn giản nhưng cho hiệu quả tương đối cao là phương pháp trừ phổ. Tuy nhiên, trong phương pháp này vẫn tồn tại những khuyết điểm như sử dụng cùng một tham số trừ phổ cho tất cả các miền tần số trong khi tạp âm phân bố trong mỗi miền tần số lại không giống nhau, dẫn đến hiện tượng vẫn tồn tại "music noise" hoặc biến dạng tiếng nói. Do đó, nghiên cứu của em là dựa vào đặc điểm thính giác của con người để phân chia tần số âm thanh thành nhiều 2 băng tần nhỏ hơn rồi mới tiến hành trừ phổ, nhằm khắc phục vấn đề chưa hoàn chỉnh nêu trên của phương pháp trừ phổ. Xuất phát từ những vấn đề trên em đã chọn đề tài cho luận văn của mình là: Nghiên cứu về đặc tính thính giác và dự đoán tạp âm trong tăng cường tiếng nói. Luận văn gồm 4 chương: Chương 1 : Lý thuyết về tăng cường tiếng nói Chương 2: Dự đoán tạp âm. Chương 3: Phương pháp tăng cường tiếng nói dựa trên hiệu ứng che lấp của thính giác. Chương 4: Tăng cường tiếng nói bằng phương pháp dự đoán tạp âm IMCRA kết hợp đặc điểm thính giác. Trong quá trình nghiên cứu tìm hiểu làm luận văn, do đây cũng là một lĩnh vực mới đang được nghiên cứu và phát triển, cũng như do sự giới hạn về kiến thức nên không tránh khỏi thiếu sót. Mong được sự đóng góp ý kiến của thầy và các bạn. 3 II. NI DUNG CHNG I 1.1. 1.1.1. Đăc điểm ngữ âm. Đặc điểm của tín hiệu ngữ âm chủ yếu đề cập đến đặc tính âm thanh của nó, dạng sóng trong miền thời gian, đặc tính quang phổ của tín hiệu ngữ âm và đặc tính thống kê v.v Ba tính năng chính của tín hiệu ngữ âm: Đặc điểm bình ổn trong miền thời gian ngắn của tín hiệu ngữ âm Mọi ngữ âm đều do hai loại âm tố là nguyên âm và phụ âm tổ thành. Căn cứ vào quá trình phát âm, dây thanh âm có rung hay không, phụ âm lại được chia thành phụ âm thanh và phụ âm đục Tín hiệu ngữ âm có thể miêu tả bằng đặc tính thống kê. 1.1.2 Đặc điểm tạp âm Nguồn tạp âm phụ thuộc vào môi trường ứng dụng trong thực tế, do đó đặc điểm tạp âm là biến đổi vô tận. Phụ gia tạp âm thường được phân thành: tạp âm xung động (hoặc tạp âm xung lực), tạp âm chu kỳ, tạp âm băng thông, tạp âm nhiễu, v.v 1.1.3 Đặc tính của thính giác. 4 Cảm giác của tai người đối với tần số cao thấp của sóng thanh và độ cao thấp của tần sóng thực tế không hình thành quan hệ tuyến tính, mà gần giống với quan hệ logarit Tai người có hiệu ứng che Tai người ngoài khả năng cảm nhận cường độ, âm điệu, âm sắc và phương vị không gian của âm thanh 1.2 Tng quan v thut toán tn 1.2.1 Phương pháp tham số. Phương pháp tham số chủ yếu dựa vào mô hình phát sinh ngữ âm.Sử dụng mô hình máy lọc sóng điển hình như máy lược lọc sóng, máy lọc sóng Wiener, máy lọc sóng Kalman 1.2.2 Phương pháp phi tham số. Phương pháp phi tham số không cần dự tính tham số mô hình từ tín hiệu chứa tạp, do đó phạm vi ứng dụng của phương pháp này là khá lớn. Loại phương pháp này bao gồm phương pháp trừ phổ, phương pháp lọc sóng tự thích nghi v.v 1.2.3 Phương pháp thống kê. Phương pháp thống kê lợi dụng khá toàn vẹn đặc điểm thống kê của ngữ âm và tạp âm.Sử dụng các phương pháp: Dự toán phương sai bình quân nhỏ nhất, phương pháp tối ưu đính chính phổ logarit, phương pháp mô hình ẩn Markov v.v. 5 Phương pháp khác: Các phương pháp mới được đưa ra, như phương pháp hiệu ứng thính giác che, biến đổi wavelet, mạng thần kinh, lý luận phân hình, v.v. 1.3.1 Phương pháp đánh giá chủ quan Điểm ý kiến trung bình Đánh giá qua kiểm tra vần điệu 1.3.2 Phương pháp đánh giá khách quan Tỉ lệ tín hiệu với tạp âm Phân đoạn SNR Độ biến dạng trong miền thời gian Qua chương I chúng ta có thể thấy để có thể hiểu về lý thuyết tăng cường tiếng nói chúng ta cần nghiên cứu các đặc điểm quan trọng của tiếng nói như đặc điểm về ngữ âm, tạp âm cũng như đặc điểm thính giác của con người, vì tạp âm có tính đa dạng cho nên phương pháp sử dụng để tăng cường tiếng nói cũng không giống nhau. 6 Kiểm tra hoạt động ngữ âm (VAD) còn gọi là phán đoán có âm/ vô âm của ngữ âm, kiểm tra điểm dừng ngữ âm, trong đó phương pháp cụ thể là: trích xuất một hoặc nhiều thông số đặc trưng để so sánh từ tín hiệu đầu vào, sau đó so sánh một hoặc nhiều thông số đó với ngưỡng giới hạn. 2.2.1 Tư tưởng thuật toán theo dõi giá trị nhỏ nhất 2.2.2 Phương pháp kiểm soát giá trị nhỏ nhất trung bình đệ quy 7 2.2.3 Thuật toán cải tiến phương pháp kiểm soát giá trị nhỏ nhất trung bình đệ quy. a) Thuật toán cải tiến của Cohen Thuật toán IMCRA thông qua theo dõi giá trị nhỏ nhất trong toàn đoạn tồn tại ngữ âm, dự toán xác suất tồn tại ngữ âm và dẫn tới một hệ số bổ sung sai lệch để thêm một bước nữa cải thiện phương pháp dự toán MCRA. Phương pháp dự toán tạp âm IMCRA bao hàm hai lần làm mịn đệ quy và theo dõi giá trị nhỏ nhất. [...]... ngữ âm ban đầu ìn 4 Tăng c ng tiếng nói bằng p p trừ p ổ đa băng tần và M RA dự to n tạp âm đối với tín iệu tiếng nói c ứa tạp âm bến xe 18 ìn 4.4 Tăng c ng tiếng nói bằng đặc điểm c e của t ín gi c và M RA dự to n tạp âm đối với tín iệu tiếng nói c ứa tạp âm bến xe Kết quả mô phỏng phương pháp ứng dụng hiệu ứng che của thính giác truyền thống và phương pháp của bài tiến hành tăng cường tiếng nói với... phổ cải tiến đặc điểm thính giác trừ phổ đa băng phương pháp của bài 3.56 3.2 MOS 3 2.5 2 1.42 1 0 Phương pháp tăng cường tiếng nói ìn 4 4 So s n điểm đ n gi trung bìn của c c p ng p p 21 ảng 4.2 So s n tín năng tăng c p Loại tạp âm Tạp âm sân bay (airport) Tạp âm người nói (babble) Tạp âm trong xe (car) Tạp âm triển lãm (exhibition) Tạp âm nhà hàng (restaurant) Tạp âm bến xe (station) Tạp âm đường phố... quả và thường dùng trong tăng cường tiếng nói Tuy nhiên dự toán tạp âm của phương pháp này là một bước vô cùng quan trọng, do tính chính xác của tạp âm dự toán được trực tiếp ảnh hưởng đến chất lượng tăng cường tiếng nói Do đó, luận văn đầu tiên tiến hành nghiên cứu các phương pháp dự toán tạp âm đồng thời thực hiện các thí nghiệm mô phỏng để kiểm nghiệm tính năng của các phương pháp dự toán tạp âm. .. pháp dự toán tạp âm không phụ thuộc vào kiểm tra hoạt động ngữ âm thì tạp âm dự toán được có công suất phổ rất gần với tạp âm thực tế 24 Ngay cả trong môi trường SNR thấp, tạp âm phi bình ổn thì phương pháp này cũng cho kết quả dự toán rất tốt và có thể theo dõi sự biến đổi tạp âm mọi lúc Nên trong luận văn đã kết hợp phương pháp dự toán tạp âm này và hiệu ứng che của thính giác để thực hiện tăng cường. .. trọng trong xử lý tín hiệu tiếng nói, hơn nữa tính thực dụng của tăng cường tiếng nói trong thực tế cũng là rất lớn Do đó nghiên cứu kỹ thuật tăng cường tiếng nói là vô cùng quan trọng Phương pháp 25 tăng cường tiếng nói trong luận văn có cải thiện nhất định chất lượng tiếng nói cả trên chủ quan đánh giá và khách quan đánh giá SNR tín hiệu đầu ra vang độ biến dạng tiếng nói Nhưng từ phân tích trong. .. biệt nghiên cứu và mô phỏng đối với hai phương pháp dự toán tạp âm là trên cơ sở kiểm tra hoạt động ngữ âm và trên cơ sở theo dõi giá trị nhỏ nhất Đối với phương pháp dự toán tạp âm bằng kiểm tra hoạt động ngữ âm, khi kiểm tra được đoạn không tồn tại ngữ âm thì tiến hành làm mới tạp âm, mà khi kiểm tra được đoạn tồn tại ngữ âm thì công suất phổ tạp âm giữ nguyên không đổi Phương pháp dự toán tạp âm trên... môi trường SNR cao Phương pháp ứng dụng hiệu ứng che thính giác vào tăng cường tiếng nói truyền thống chủ yếu sử dụng phương pháp kiểm tra hoạt động ngữ âm để dự toán tạp âm Mà thông qua nghiên cứu và thí nghiệm kiểm chứng của luận văn đã chỉ ra, trong môi trường SNR thấp, tạp âm phi bình ổn thì dự toán tạp âm bằng phương pháp kiểm tra hoạt động ngữ âm tồn tại sai lệch rất lớn Tuy nhiên, với phương pháp... truyền thống b) Phương pháp trong bài ìn 4 2 Kết quả tăng c ng tiếng nói với ngữ âm c ứa tạp âm trắng (S R=0d ) 20 4.5 ân tíc kết quả và tín năng của p ng p p Bảng 4.1 Điểm MOS đánh giá ngữ âm sau tăng cường của tín hiệu chứa tạp âm nhà hàng (SNR=0dB) Thuật toán tăng cường ngữ âm Trừ phổ cải tiến Trừ phổ đa băng tần Hiệu ứng che thính giác và trừ phổ đa băng Phương pháp trong bài Đánh giá chủ quan... điểm kết ngữ âm, nên phương pháp này càng thích hợp với dự toán tạp âm trong môi trường tạp âm phi bình ổn, đầu vào SNR thấp 10 ƯƠ T ƯƠ DỰA TR Á T Ư U A THÍNH GIÁC Tăng c ng tiếng nói bằng p ng p p trừ p ổ đa băng tần 3.1.1 Nguyên lý và sơ đồ phép trừ phổ đa băng tần Phương pháp trừ phổ đa băng tần truyền thống được đưa ra và nhận được ứng dụng rộng rãi trong lĩnh vực tăng cường ngữ âm Phương pháp... nói với ngữ âm chứa tạp âm trắng (SNR=0dB) Có thể thấy, trong môi trường SNR thấp, tạp âm bình ổn hoặc trong môi trường SNR cao, tạp âm phi bình ổn, phương pháp truyền thống và phương pháp trong bài đều cho kết quả tăng cường tiếng nói khá tốt Trên giá trị SNR đầu ra, phương pháp cải tiến trong bài cũng gần như phương pháp hiệu ứng che thính giác truyền thống 19 a) Hiệu ứng che thính giác truyền thống . mình là: Nghiên cứu về đặc tính thính giác và dự đoán tạp âm trong tăng cường tiếng nói. Luận văn gồm 4 chương: Chương 1 : Lý thuyết về tăng cường tiếng nói Chương 2: Dự đoán tạp âm. Chương. do đó đặc điểm tạp âm là biến đổi vô tận. Phụ gia tạp âm thường được phân thành: tạp âm xung động (hoặc tạp âm xung lực), tạp âm chu kỳ, tạp âm băng thông, tạp âm nhiễu, v.v 1.1.3 Đặc tính. rung hay không, phụ âm lại được chia thành phụ âm thanh và phụ âm đục Tín hiệu ngữ âm có thể miêu tả bằng đặc tính thống kê. 1.1.2 Đặc điểm tạp âm Nguồn tạp âm phụ thuộc vào môi trường ứng