Nghiên cứu, đánh giá các thuật toán xử lý tín hiệu tiếng nói và ứng dụng

MỤC LỤC LỜI MỞ ĐẦU .1 CHƯƠNG TỔNG QUAN VỀ TIẾNG NÓI VÀ XỬ LÝ TIẾNG NÓI 1.1 Tổng quan tiếng nói 1.1.1 Cơ chế phát âm người 1.1.2 Đặc tính vật lý âm 1.1.3 Đặc tính âm học âm 1.1.4 Phân loại đơn giản tiếng nói .8 1.2 Hệ thống xử lý số tín hiệu .9 1.3 Biểu diễn số tín hiệu tiếng nói 10 1.3.1 Lấy mẫu tín hiệu tiếng nói 11 1.3.2 Lượng tử hóa 12 1.3.3 Nén tín hiệu 12 1.4 Mã hóa tiếng nói 13 1.4.1 Mã hóa dạng sóng 14 1.4.1.1 Mã hóa miền thời gian 14 1.4.1.2 Mã hóa miền tần số 16 1.4.2 Mã hóa nguồn 17 1.4.3 Mã hóa lai .18 1.5 Tổng hợp tiếng nói 18 1.5.1 Tổng hợp trực tiếp 18 1.5.2 Tổng hợp tiếng nói theo Formant 19 1.5.3 Tổng hợp dùng máy phát âm .20 1.5.4 Tổng hợp LPC 21 1.6 Kết luận chương 22 CHƯƠNG MỘT SỐ THUẬT TOÁN VÀ PHƯƠNG PHÁP TRONG XỬ LÝ TÍN HIỆU TIẾNG NĨI .23 2.1 Thuật toán Spectral Subtration Wiener Filtering .23 2.1.1 Thuật toán Spectral Subtraction .23 2.1.1.1 Đối với phổ biên độ .24 2.1.1.2 Đối với phổ công suất 25 2.1.2 Thuật toán Wiener Filtering 28 2.1.3 Phân tích tín hiệu thành Segment/frame 31 2.1.4 Khoảng lặng ban đầu: IS ( Initial Silence ) 32 2.1.5 Voice Activity Detection (VAD) 32 2.1.6 Overlap Adding 33 2.1.7 Ước lượng cập nhật nhiễu 34 2.2 Phương pháp LPC tổng hợp tiếng nói 35 2.2.1 Mơ hình vật lý 36 2.2.2 Mơ hình tốn học 36 2.2.3 Mơ hình phân tích tổng hợp LPC 39 2.2.3.1 Phân tích LPC 39 2.2.3.2 Tổng hợp LPC .40 2.3 Kết luận chương 42 CHƯƠNG XÂY DỰNG VÀ ĐÁNH GIÁ CÁC THUẬT TỐN XỬ LÝ TÍN HIỆU TIẾNG NÓI 43 3.1 Qui trình thực thuật toán 43 3.2 Xây dựng thuật toán Spectral Subtration Wiener Filtering .44 3.3 Thực thuận toán 47 3.4 Đánh giá thuật tốn xử lý tín hiệu tiếng nói 51 3.4.1 Cơ sở liệu cho việc đánh giá .51 3.4.2 Thực đánh giá 51 3.4.2.1 Đánh giá thuật toán với hệ số dự đoán ban đầu 52 3.4.2.2 Tối ưu hệ số alpha cho thuật toán Wiener Filtering 55 3.4.2.3 Tối ưu hệ số gamma cho thuật toán Spectral Subtration .56 3.4.2.4 Kết luận tối ưu hai thuật toán 57 3.4.2.5 Đánh giá độ ổn định thuật tốn mơi trường nhiễu khác 57 3.5 Kết luận chương 58 TÀI LIỆU THAM KHẢO 61 DANH MỤC CÁC TỪ VIẾT TẮT VÀ THUẬT NGỮ TIẾNG ANH Từ viết tắt Tiếng Anh Tiếng Việt Chuyển đổi tín hiệu tương tự sang tín hiệu số Điều chế mã xung vi phân thích ứng Chuyển đổi tín hiệu số sang tín hiệu tương tự ADC Analog-to-digital converter ADPCM Adaptive differential pulse code modulation DAC Digital-to-analog converter DCT Discrete Cosine Transform Biến đổi cosine rời rạc DFT Discrete Fourier Transform Biến đổi fourier rời rạc DM Delta Modulation Điều chế delta DPCM Differential pulse-code modulation Điều chế mã xung vi phân DSP Digital signal processing Xử lý tín hiệu số FFT Fast Fourier Transform Biến đổi fourier nhanh IC integrated circuit Vi mạch tích hợp IDFT Inverse Discrete Fourier Transform Biến đổi fourier rời rạc ngược IS Initial Silence Khoảng im lặng LPC Linear Prediction Coefficient Hệ số dự đoán tuyến tính LPF Low Pass Filter Lọc thơng thấp MOS Mean Opinion Score Chỉ số đánh giá chủ quan PCM Pulse Code Modulation Điều chế mã xung S&H Sample and hold Lấy giữ mẫu tín hiệu SNR Signal-to-noise ratio Chỉ số tín hiệu nhiễu VAD Voice Activity Detection Thăm dị hoạt động tiếng nói VLSI Very-large-scale integration Vi mạch qui mơ lớn DANH MỤC CÁC HÌNH VẼ Hình 1.1 Tín hiệu tiếng nói Hình 1.2 Bộ máy phát âm người Hình 1.3 Mơ hình hệ thống xử lý số tín hiệu Hình 1.4 Biểu diễn tín hiệu tiếng nói 10 Hình 1.5 Biểu diễn lấy mẫu tín hiệu 11 Hình 1.6 Sự phụ thuộc chất lượng tiếng nói vào tốc độ bit 13 Hình 1.7 Cấu hình phương pháp thơng tin PCM 15 Hình 1.8 Sơ đồ phương pháp tổng hợp theo formant .20 Hình 1.9 Mơ hình tổng hợp tiếng nói phương pháp mơ nguồn âm 21 Hình 1.10 Mơ hình tổng hợp tiếng nói phương pháp LPC .21 Hình 2.1 Sơ đồ khối thuật tốn Spectral Subtraction Wiener Filtering .23 Hình 2.2 Sơ đồ khối thuật toán Spectral Subtration 28 Hình 2.3 Sơ đồ khối thuật tốn Wiener Filtering 31 Hình 2.4 Phân tích tín hiệu thành frame .32 Hình 2.5 Quá trình thực overlap adding .34 Hình 2.6 Mơ hình vật lý tuyến âm 36 Hình 2.7 Mơ hình tạo tiếng nói LPC 37 Hình 2.8 Mơ hình lọc 38 Hình 2.9 Mơ hình phân tích tổng hợp LPC 39 Hình 2.10 Sơ đồ phân tích LPC 39 Hình 2.11 Sơ đồ thực phân tích LPC 40 Hình 2.12 Sơ đồ tổng hợp LPC 40 Hình 2.13 Sơ đồ thực tổng hợp LPC 41 Hình 3.1 Sơ đồ thực đánh giá thuật toán tăng cường .43 Hình 3.2 Lưu đồ thuật tốn Sepectral Subtration 45 Hình 3.3 Lưu đồ thuật toán Wiener Filtering 46 Hình 3.4 Dạng tín hiệu file âm nghiaVN_nguoinoi_snr5.wav 47 Hình 3.5 Dạng tín hiệu file âm nghiaVN_trang_snr5.wav .48 Hình 3.6 Dạng tín hiệu file âm nghiaVN_nguoinoi_snr15.wav .49 Hình 3.7 Dạng tín hiệu file âm nghiaVN_trang_snr15.wav .50 Hình 3.8 Dạng tín hiệu file âm nghiaEN_xehoi_snr5.wav với hệ số ban đầu 52 Hình 3.9 Dạng tín hiệu file âm nghiaEN_xehoi_snr5.wav với hệ số chỉnh sửa .54 Hình 3.10 Dạng tín hiệu file âm nghiaEN_xehoi_snr5.wav với thuật toán Wiener Filtering 55 Hình 3.11 Dạng tín hiệu file âm nghiaEN_xehoi_snr5.wav với thuật toán Spectral Subtration 56 Hình 3.12 Dạng tín hiệu file âm nghiaEN_nguoinoi_snr5.wav 58 LỜI MỞ ĐẦU Trong thời đại ngày nay, với phát triển mạnh mẽ khoa học kỹ thuật vấn đề trao đổi thơng tin đa phương tiện ngày trở nên cần thiết, từ lúc đầu giao tiếp, tương tác thông qua văn giấy tờ, ngày nhu cầu sử dụng tiếng nói truyền thơng, tương tác người máy trở nên cấp thiết Vì mà trình xử lý tiếng nói, đặc biệt thuật tốn xử lý nâng cao chất lượng tiếng nói đời Tuy khơng thể bảo tồn y ngun tín hiệu ban đầu sử dụng thuật tốn ta tăng cường chất lượng tiếng nói giảm bớt nhiễu để tín hiệu sau xử lý đến người nghe mang đầy đủ nội dung thơng tin khơng gây khó chịu nhiễu người nghe Vì vậy, để tìm hiểu kỹ thuật xử lý tín hiệu tiếng nói em chọn đề tài “Nghiên cứu, đánh giá thuật toán xử lý tín hiệu tiếng nói ứng dụng” làm nội dung nghiên đồ án tốt nghiệp Nội dung đồ án kết cấu thành chương: Chương 1: Tổng quan tiếng nói xử lý tiếng nói Chương tìm hiểu tổng quan tiếng nói: trình bày khái qt chế phát âm, đặc tính vật lý âm học tiếng nói, q trình: biểu diễn số tiếng nói, mã hóa tiếng nói, tổng hợp tiếng nói Chương 2: Một số thuật toán phương pháp xử lý tín hiệu tiếng nói Chương nghiên cứu sử dụng phương pháp LPC tổng hợp tiếng nói thuật toán phổ biến Spectral Subtration Wiener Filtering để nâng cao chất lượng tiếng nói Chương 3: Xây dựng đánh giá thuật tốn xử lý tín hiệu tiếng nói Chương xây dựng lưu đồ thuật toán thực thuật toán giảm nhiễu mơ Matlab, sau tiến hành đánh giá kết thu Cuối em xin chân thành cảm ơn thầy giáo TS Vũ Văn Sơn tận tình hướng dẫn, giúp đỡ em hồn đồ án tốt nghiệp CHƯƠNG TỔNG QUAN VỀ TIẾNG NÓI VÀ XỬ LÝ TIẾNG NÓI 1.1 Tổng quan tiếng nói Âm lời nói âm giới tự nhiên, chất sóng âm lan truyền mơi trường định (thường khơng khí) Khi nói dây hầu nhĩ bị chấn động, tạo nên sóng âm, sóng truyền khơng khí đến màng nhĩ làm cho màng nhĩ dao động, dây thần kinh màng nhĩ nhận cảm giác âm tần số dao động sóng đạt đến độ lớn định Tai người cảm thụ dao động có tần số từ khoảng 16Hz đến khoảng 20000Hz Những dao động miền tần số gọi dao động âm hay âm thanh, sóng tương ứng gọi sóng âm Những sóng có tần số nhỏ 16Hz gọi hạ âm, sóng có tần số lớn 20000Hz gọi sóng siêu âm, người khơng cảm nhận (ví du lồi dơi nghe tiếng siêu âm) Sóng âm, sóng siêu âm hạ âm khơng tryền khơng khí mà cịn lan truyền tốt môi trường rắn, lỏng, sử dụng nhiều thiết bị máy móc Hình 1.1 Tín hiệu tiếng nói Về chất vật lí, sóng âm, sóng siêu âm, sóng hạ âm khơng khác sóng học khác Sự phân biệt dựa vào khả cảm thụ sóng học tai người, đặc tính sinh lí tai người định Vì sóng âm phân biệt hai loại đặc tính đặc tính vật lý đặc tính âm học 1.1.1 Cơ chế phát âm người Hốc mũi Vòm miệng Ổ Vòm miệng mềm Đầu lưỡi Thân lưỡi Lưỡi gà Cơ miệng Yết hầu 10 Nắp đóng quản 11 Dây giả 12 Dây 13 Thanh quản 14 Thực quản 15 Khí quản Hình 1.2 Bộ máy phát âm người Quá trình phát âm người mơ tả sau: Áp lực tạo từ phổi làm cho quản phát rung động Lỗ giãn quản gọi môn Tuyến âm kích thích nguồn lượng mơn Tiếng nói tạo sóng âm học kích thích từ mơn phát đẩy khơng khí có phổi lên tạo thành dịng khí va chạm vào hai dây tuyến âm Hai dây dao động tạo cộng hưởng, dao động âm lan truyền theo tuyến âm (tính từ tuyến âm đến khoang miệng) sau qua khoang mũi, mơi tạo tiếng nói Thanh quản bị làm cứng, nới lỏng (do thần kinh điều khiển cơ) để thay đổi tốc độ dãn Cơ quan chắn khoang mũi khoang miệng hoạt động cổng hốc âm mũi hốc âm miệng, đóng hay lập để mở để kết hợp với gốc âm miệng cách hài hịa tình khác ngôn ngữ khác Lưỡi, quai hàm, răng, môi thay đổi vị trí khơng gian để thay đổi hình dạng hốc âm miệng, sóng áp lực âm phát từ miệng, phụ thuộc vào liên kết âm phát suy hao quan phản xạ Sóng áp lực âm tồn dạng di chuyển liên tục luồng khí, đến quan thính giác phản ánh qua thơng số: độ rõ, âm sắc, độ cao, độ lớn âm 1.1.2 Đặc tính vật lý âm Bản chất âm tiếng nói sóng học nên có tính chất sóng học Các tính sóng học mang ý nghĩa khác xét góc độ âm tiếng nói Tín hiệu âm tiếng nói tín hiệu ngẫu nhiên khơng dừng, nhiên đặc tính tương đối ổn định khoảng thời gian ngắn (vài chục mili giây) Trong khoảng thời gian nhỏ tín hiệu gần tuần hồn coi tuần hồn  Tần số Tần số sóng học hay gọi độ cao, độ trầm bổng âm Tần số đặc trưng vật lý quan trọng âm Âm phát độ cao định, đồ trầm bổng âm phụ thuộc vào chấn động nhanh hay chậm phần tử khơng khí đơn vị thời gian định Độ cao âm phụ thuộc vào tần số dao động Âm trầm có tần số nhỏ, âm cao có tần số lớn Độ cao nữ thường cao so với nam độ cao 58 Hình 3.10 Dạng tín hiệu file âm nghiaEN_xehoi_snr5.wav với thuật tốn Wiener Filtering Với a- Tín hiệu có nhiễu b- Tín hiệu xử lý với hệ số alpha=0.8 c- Tín hiệu xử lý với hệ số alpha=0.9 Sau tiến hành nghe thử file đầu ra, ta thấy nhiễu file âm cịn hạn chế nhiều, khơng thấy tượng bị tiếng nói 3.4.2.3 Tối ưu hệ số gamma cho thuật tốn Spectral Subtration Vì thuật tốn Spectral Subtration thuật tốn trừ nhiễu nên ta có cách trừ nhiễu trừ theo lượng trừ theo biên độ nên ta cung cấp hệ số gamma, gamma=1 trừ theo biên độ gamma=2 trừ theo lượng, sau kết dạng tín hiệu thu trường hợp 59 Hình 3.11 Dạng tín hiệu file âm nghiaEN_xehoi_snr5.wav với thuật tốn Spectral Subtration Với a- Tín hiệu có nhiễu b- Tín hiệu xử lý với hệ số gamma=1 c- Tín hiệu xử lý với hệ số gamma=2 Sau tiến hành nghe thử file kết ta nhận thấy hệ số gamma=2 tức trừ theo lượng file đầu không tốt hệ số gamma=1, nghe có tượng bị âm Ta chọn hệ số gamma tối ưu 3.4.2.4 Kết luận tối ưu hai thuật toán 60 Sau thực tham khảo hệ số thử nghiệm ta chọn hệ số tối ưu là: Thuật toán VAD: hệ số IS=0,15, NoiseMargin=2 Thuật toán Wiener Filtering: hệ số alpha=0.8 Thuật toán Spectral Subtration: hệ số gamma=1 (trừ theo biên độ) 3.4.2.5 Đánh giá độ ổn định thuật tốn mơi trường nhiễu khác Ta tiến hành xử lý file âm nghiaEN_nguoinoi_snr5.wav file tín hiệu âm cộng nhiễu người nói xung quanh với mức SNR 5dB với tham số tối ưu nhiễu xe Thực nghe tín hiệu qua xử lý thấy mội số file tín hiệu có đoạn nghe nhiễu khơng nghe tiếng nói Điều giải thích nhiễu người nói có lượng nhiễu tương đương với lượng tiếng nói, file tín hiệu tiếng nói có mức lượng thấp mức lượng nhiễu nên đoạn tiếng nói bị trừ cịn lại nhiễu Tiến hành nghe thử file đầu ra, ta thấy nhiễu người nói xung quanh (babble noise) thuật tốn Spectral Subtration xử lý tốt thuật tốn Wiener Filtering Một số đoạn lẫn nhiễu vào tiếng nói, thơng số chưa phù hợp với nhiễu người nói Nhận xét chung: Khi đem thông số tối ưu để xử lý nhiễu xe áp dụng với nhiễu người nói xung quanh kết qua khơng tốt Ta cần phải thay đổi thông số phù hợp với nhiễu khác Đối với nhiễu người nói xung quanh thuật tốn Spectral Subtration tác động tốt thuật toán Wiener Filtering 61 Hình 3.12 Dạng tín hiệu file âm nghiaEN_nguoinoi_snr5.wav Với a- Tín hiệu có nhiễu b- Tín hiệu xử lý thuật tốn Spectral Subtration c- Tín hiệu xử lý thuật toán Wiener Filtering 3.5 Kết luận chương Chương giúp ta tiến xây dựng lưu đồ thuật toán thực thuật tốn giảm nhiễu mơ Matlab, sau tiến hành đánh giá kết thu Sau thực đủ bước thu kết mơ phỏng, ta có số nhận xét sau: - Thuật toán Spectral Subtration Wiener Filtering thực tương đối tốt công việc giảm nhiễu nâng cao chất lượng tiếng nói 62 - Đối với loại nhiễu khác tác động thuật toán tăng cường khác - Đối với mức nhiễu nhiễu khác tác động thuật toán tăng cường khác KẾT LUẬN ĐỒ ÁN Ngày xử lý tín hiệu tiếng nói lĩnh vực có tiềm phát triển mạnh mẽ gắn liền với ứng dụng thực tế đời sống xã hội Đặc biệt vấn đề xử lý nhiễu, nâng cao chất lượng tiếng nói quan tâm Trong dịch vụ truyền thơng dịch vụ viễn thơng vấn đề cải thiện chất lượng tiếng nói vấn đề cấp thiết Đồ án thực nội dung: Nghiên cứu phương pháp xử lý tín hiệu tiếng nói, đặc biệt tập trung thuật toán khử nhiễu kinh điển Spectral Subtration Wiener Filtering Xây dựng chương trình thực thuật tốn Spectral Subtration Wiener Filtering chương trình matlab, sau thực khử nhiễu với file âm cụ thể Đánh giá tính hiệu thuật tốn ta thấy thuật toán xử lý nhiễu tốt, tiếng nói thu đạt chất lượng tương đối cao, độ ổn định thuật tốn phụ thuộc vào mơi trường nhiễu mức độ nhiễu khác Loại bỏ nhiễu khỏi tín hiệu tiếng nói cơng việc không đơn giản, việc xử lý loại bỏ nhiễu không tốt gây thông tin, làm suy giảm méo dạng tín hiệu tiếng nói Vì vậy, việc nghiên cứu phương pháp cải thiện chất lượng tiếng nói đóng vai trò quan trọng việc đảm bảo chất lượng tính trung thực tín hiệu tiếng nói thông tin liên lạc Giảm nhiễu - nâng cao chất lượng tiếng nói giải pháp kỹ thuật quan trọng nhằm hỗ trợ cho mảng xử lý tiếng nói khác nhận dạng người nói, trợ thính mơi trường nhiễu xe hơi, đám đơng, xưởng cơng nghiệp… ngồi cịn 63 ứng dụng mạnh mẽ dịch vụ truyền thông đa phương tiện như: thoại, âm nhạc, truyền hình hội nghị… Do thời gian trình độ cịn hạn chế nên đồ án khó thể tránh khỏi thiếu sót, em mong nhận đóng góp thầy bạn để đồ án hoàn thiện Cuối em xin chân thành cảm ơn thầy giáo TS Vũ Văn Sơn tận tình hướng dẫn, giúp đỡ em hoàn đồ án tốt nghiệp 64 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Nguyễn Quốc Trung, “Xử lý tín hiệu số - tập 1”, NXB Khoa học kỹ thuật, 1998 [2] Tuan V Pham, DUT, “Speech Enhancement” Slides, Summer 2009 Tiếng Anh [3] JAE S Lim, Member, IEEE, “Enhancement and Bandwidth Compression of Noisy Speech”, 1979 [4] Lawrence R Rabiner and Ronald Schafer, “Digital Processing of Speech Signal”, Prentice-Hall, 1978 [5] Pascal Scalart, IEEE “Speech Enhancement based on A Priori Signal to Noise estimation”, 1996 [6] Peter Vary, Rainer Martin, “Digital Speech Transmission”, Copyright © 2006 [7] Saeed V Vaseghi, Brunel university, UK ,“Advanced Digital Signal Processing and Noise Reduction 2nd Edition”, Copyright © 2000 by John Wiley & Sons, Ltd [8] Steven F.Boll, Member, IEEE, “Suppression of Acoustic Noise in Speech Using Spectral Subtraction” , 1979 PHỤ LỤC Chương trình mơ thuật tốn Spectral Subtration function [output,Speech]=SSBoll79(signal,fs,IS) if (nargin1 && i

Định dạng
Số trang	78
Dung lượng	670,67 KB